Рубріки: Новости

Нейросеть от компании Илона Маска и Microsoft преобразует текст в изображения: вот как это выглядит

Богдан Мирченко

Фронтенд-разработчик и энтузиаст в области искусственного интеллекта (ИИ) Алекса Штайнбрюк создала сайт, на котором с помощью нейросети для преобразования текста в изображение VQGAN+CLIP сгенерировала 44 изображения афиш к фильмам. Разбираемся, как она работает и угадываем зашифрованные нейронкой киноленты. У нас получилось только 9. А у вас?

Что это за фильм →
Наши жизни определяются возможностями. Даже теми, которые мы упускаем...

Что это такое

VQGAN + CLIP — это нейросеть нового поколения, основанная на архитектуре CLIP, опубликованной компанией OpenAI (ее сооснователь — Илон Маск, а среди инвесторов — Microsoft, вложившая $1 млрд) в январе 2021 года. Она преобразует любой текст в изображение с учетом подсказок и некоторых параметров.

В отличие от аналогичных нейросетей для преобразования текста в изображения, таких как, например, AttentionGAN, инструмент создает более четкие и качественные картинки с высоким изображением. 

Что это за фильм →
У конфет не должно быть смысла — на то они и конфеты

VQGAN и CLIP

Архитектура нейронной сети VQGAN сочетает в себе сверточные нейронные сети (традиционно используемые для изображений) с преобразователями (традиционно используемыми для языка). Хотя VQGAN включает в себя трансформеры, модели обучаются не на тексте, а на чистых данных изображения. 

Что это за фильм →
Где деньги, Лебовски..

CLIP = Contrastive Language – Image Pre-trainig. Это модель, обученная определять, какая подпись из набора лучшего всего подходит для изображения. В отличие от VQGAN не является генеративной моделью, а просто обучена хорошо представлять как текст, так и изображение. Главная особенность в том, что CLIP отлично справляется с новыми наборами данных. 

Что это за фильм →
Синяя или красная таблетка..

Работая вместе, VQGAN, как и все GAN, принимает вектор шума и выводит картинку. CLIP в свою очередь принимает:

  • изображение и выводит его характеристики;

или

  • текст и выводит текстовые функции.
Что это за фильм →
В далекой-далекой галактике..

Более подробно о принципах работы нейросети и как с ней работать можно посмотреть здесь и почитать здесь.

Останні статті

Что такое прокси-сервер: пояснение простыми словами, зачем нужны прокси

Прокси (proxy), или прокси-сервер — это программа-посредник, которая обеспечивает соединение между пользователем и интернет-ресурсом. Принцип…

21.11.2024

Что такое PWA приложение? Зачем необходимо прогрессивное веб-приложение

Согласитесь, было бы неплохо соединить в одно сайт и приложение для смартфона. Если вы еще…

19.11.2024

Как создать игру на телефоне: программирование с помощью конструктора

Повсеместное распространение смартфонов привело к огромному спросу на мобильные игры и приложения. Миллиарды пользователей гаджетов…

17.11.2024

Google Bard: эффективный аналог ChatGPT

В перечне популярных чат-ботов с искусственным интеллектом Google Bard (Gemini) еще не пользуется такой популярностью…

14.11.2024

Скрипт и программирование: что это такое простыми словами

Скрипт (англ. — сценарий), — это небольшая программа, как правило, для веб-интерфейса, выполняющая определенную задачу.…

12.11.2024

Дедлайн в разработке: что это такое простыми словами

Дедлайн (от англ. deadline — «крайний срок») — это конечная дата стачи проекта или задачи…

11.11.2024