Что такое Dalle-mini и как он работает?

Dalle-mini — это модель глубокого обучения, которая может генерировать изображения высокого качества из вводимого пользователем текста. Он основан на модели DALL-E, выпущенной OpenAI в январе 2021 года. DALL-E означает « Распутанный язык и скрытое выражение — нейронная сеть на основе преобразователя, которая может кодировать текст и изображения в общее скрытое пространство, а затем декодировать их обратно в любую модальность.

В этой статье будет объяснено следующее содержание:

Что такое Далле-мини?

Дай ей-мини — это уменьшенная и более быстрая версия DALL-E, созданная EleutherAI, исследовательским коллективом с открытым исходным кодом. Dalle-mini использует только 6 миллиардов параметров по сравнению с 12 миллиардами DALL-E и может работать на одном графическом процессоре. Dalle-mini также использует другой токенизатор и словарь для ввода текста, что делает его более совместимым с разными языками и доменами:

Примечание : Пользователи могут создавать бесплатные изображения с помощью Dalle-mini, следуя связь .

В чем заключается работа Dalle-mini?

Основная идея Dalle-mini — сила трансформаторов, то есть нейронных сетей. Они могут изучать долгосрочные зависимости и сложные шаблоны в последовательных данных, таких как текст или изображения.

Трансформаторы состоят из двух основных частей: кодера и декодера. Первая часть принимает входные данные (текстовое описание) и преобразует их в скрытые векторы. После этого декодер берет его и генерирует вывод (изображение), соответствующий входу.

В чем разница между Dalle-mini и DALL-E?

Dalle-mini и DALL-E используют общую архитектуру кодер-декодер как для текста, так и для изображений. Они могут кодировать и декодировать обе модальности, используя одну и ту же сеть. Это позволяет им изучить общее скрытое пространство, которое фиксирует семантические отношения между текстом и изображениями. После этого позволяет им выполнять кросс-модальную генерацию, например, создавать изображения из текста или наоборот.

Как работает Далле-мини?

Чтобы сгенерировать изображение из текстового описания, Dalle-mini сначала токенизирует текст, используя алгоритм кодирования пар байтов (BPE), который разбивает текст на подслова в зависимости от их частоты и совпадения:

Перейдем к подробному описанию внутренней работы Dalle-mini:

Внутренняя работа Dalle-mini

Допустим, слово « играть 'можно разделить на ' пла ' и ' инь ». Затем токены сопоставляются с числовыми идентификаторами, используя словарь из 8192 токенов. Идентификаторы передаются в кодировщик, создавая скрытое представление размером 256 x 64:

Затем декодер берет скрытое представление и генерирует изображение размером 256 x 256 пикселей. Декодер использует авторегрессионный процесс, что означает, что он генерирует каждый пиксель один за другим в зависимости от предыдущих пикселей и скрытого представления.

Как сгенерировать изображение из текстового описания с помощью Dalle-mini?

Чтобы сгенерировать текстовое описание из изображения с помощью Dalle-mini, введите текст в окно подсказки. Например, введите « Картина случайных цветов » в подсказке и нажмите « Бегать ' кнопка:

Вывод показывает, что Dalle-mini сгенерировал соответствующие изображения в соответствии с введенным текстом.

Заключение

Dalle-mini — замечательная модель, демонстрирующая потенциал трансформеров для кроссмодальной генерации. Они могут создавать реалистичные и разнообразные изображения из описаний на естественном языке, а также связные и релевантные тексты из изображений. Они также могут обрабатывать сложные композиции, например, объединять несколько объектов или атрибутов в одно изображение или текст. В этой статье подробно объясняется Dalle-mini и его работа.

Что такое Dalle-mini и как он работает?

Что такое Далле-мини?

В чем заключается работа Dalle-mini?

В чем разница между Dalle-mini и DALL-E?

Как работает Далле-мини?

Как сгенерировать изображение из текстового описания с помощью Dalle-mini?

Заключение

Категория

Популярные посты

Как проверить транзакции Roblox — ПК и мобильные устройства

Как стилизовать таблицу с помощью CSS

Как понизить версию узла Windows

Встраиваемые таймеры обратного отсчета в текстовые каналы в Discord

Pandas Проверить версию

Разница между substr() и substring() в JavaScript

Как установить или запросить пределы оси X в MATLAB Используя xlim

Как сортировать 2d-массив в Java

Как добавить значок в меню правой кнопки мыши в Windows 7 и выше - Winhelponline

Как перенастроить установленные пакеты в Debian 11

Как использовать операторы Try Catch в C

Как найти строку внутри другой строки в MATLAB

Как развернуть статический веб-сайт с помощью AWS Amplify?

Как обрабатывать функцию JavaScript ClearTimeout()?

Указатель на указатель в C++

Как переключить цели загрузки с помощью команды systemctl

Как сделать мой аватар девочкой или мальчиком

Что такое картограф Minecraft — профессия жителей деревни

Что такое пузырьковая сортировка в Java

Пассивный полосовой фильтр