Dalle-mini — это модель глубокого обучения, которая может генерировать изображения высокого качества из вводимого пользователем текста. Он основан на модели DALL-E, выпущенной OpenAI в январе 2021 года. DALL-E означает « Распутанный язык и скрытое выражение — нейронная сеть на основе преобразователя, которая может кодировать текст и изображения в общее скрытое пространство, а затем декодировать их обратно в любую модальность.
В этой статье будет объяснено следующее содержание:
Что такое Далле-мини?
Дай ей-мини — это уменьшенная и более быстрая версия DALL-E, созданная EleutherAI, исследовательским коллективом с открытым исходным кодом. Dalle-mini использует только 6 миллиардов параметров по сравнению с 12 миллиардами DALL-E и может работать на одном графическом процессоре. Dalle-mini также использует другой токенизатор и словарь для ввода текста, что делает его более совместимым с разными языками и доменами:
Примечание : Пользователи могут создавать бесплатные изображения с помощью Dalle-mini, следуя связь .
В чем заключается работа Dalle-mini?
Основная идея Dalle-mini — сила трансформаторов, то есть нейронных сетей. Они могут изучать долгосрочные зависимости и сложные шаблоны в последовательных данных, таких как текст или изображения.
Трансформаторы состоят из двух основных частей: кодера и декодера. Первая часть принимает входные данные (текстовое описание) и преобразует их в скрытые векторы. После этого декодер берет его и генерирует вывод (изображение), соответствующий входу.
В чем разница между Dalle-mini и DALL-E?
Dalle-mini и DALL-E используют общую архитектуру кодер-декодер как для текста, так и для изображений. Они могут кодировать и декодировать обе модальности, используя одну и ту же сеть. Это позволяет им изучить общее скрытое пространство, которое фиксирует семантические отношения между текстом и изображениями. После этого позволяет им выполнять кросс-модальную генерацию, например, создавать изображения из текста или наоборот.
Как работает Далле-мини?
Чтобы сгенерировать изображение из текстового описания, Dalle-mini сначала токенизирует текст, используя алгоритм кодирования пар байтов (BPE), который разбивает текст на подслова в зависимости от их частоты и совпадения:
Перейдем к подробному описанию внутренней работы Dalle-mini:
Внутренняя работа Dalle-mini
Допустим, слово « играть 'можно разделить на ' пла ' и ' инь ». Затем токены сопоставляются с числовыми идентификаторами, используя словарь из 8192 токенов. Идентификаторы передаются в кодировщик, создавая скрытое представление размером 256 x 64:
Затем декодер берет скрытое представление и генерирует изображение размером 256 x 256 пикселей. Декодер использует авторегрессионный процесс, что означает, что он генерирует каждый пиксель один за другим в зависимости от предыдущих пикселей и скрытого представления.
Как сгенерировать изображение из текстового описания с помощью Dalle-mini?
Чтобы сгенерировать текстовое описание из изображения с помощью Dalle-mini, введите текст в окно подсказки. Например, введите « Картина случайных цветов » в подсказке и нажмите « Бегать ' кнопка:
Вывод показывает, что Dalle-mini сгенерировал соответствующие изображения в соответствии с введенным текстом.
Заключение
Dalle-mini — замечательная модель, демонстрирующая потенциал трансформеров для кроссмодальной генерации. Они могут создавать реалистичные и разнообразные изображения из описаний на естественном языке, а также связные и релевантные тексты из изображений. Они также могут обрабатывать сложные композиции, например, объединять несколько объектов или атрибутов в одно изображение или текст. В этой статье подробно объясняется Dalle-mini и его работа.