Фронтенд-разработчик и энтузиаст в области искусственного интеллекта (ИИ) Алекса Штайнбрюк создала сайт, на котором с помощью нейросети для преобразования текста в изображение VQGAN+CLIP сгенерировала 44 изображения афиш к фильмам. Разбираемся, как она работает и угадываем зашифрованные нейронкой киноленты. У нас получилось только 9. А у вас?
VQGAN + CLIP — это нейросеть нового поколения, основанная на архитектуре CLIP, опубликованной компанией OpenAI (ее сооснователь — Илон Маск, а среди инвесторов — Microsoft, вложившая $1 млрд) в январе 2021 года. Она преобразует любой текст в изображение с учетом подсказок и некоторых параметров.
В отличие от аналогичных нейросетей для преобразования текста в изображения, таких как, например, AttentionGAN, инструмент создает более четкие и качественные картинки с высоким изображением.
Архитектура нейронной сети VQGAN сочетает в себе сверточные нейронные сети (традиционно используемые для изображений) с преобразователями (традиционно используемыми для языка). Хотя VQGAN включает в себя трансформеры, модели обучаются не на тексте, а на чистых данных изображения.
CLIP = Contrastive Language – Image Pre-trainig
. Это модель, обученная определять, какая подпись из набора лучшего всего подходит для изображения. В отличие от VQGAN не является генеративной моделью, а просто обучена хорошо представлять как текст, так и изображение. Главная особенность в том, что CLIP отлично справляется с новыми наборами данных.
Работая вместе, VQGAN, как и все GAN, принимает вектор шума и выводит картинку. CLIP в свою очередь принимает:
или
Более подробно о принципах работы нейросети и как с ней работать можно посмотреть здесь и почитать здесь.
Прокси (proxy), или прокси-сервер — это программа-посредник, которая обеспечивает соединение между пользователем и интернет-ресурсом. Принцип…
Согласитесь, было бы неплохо соединить в одно сайт и приложение для смартфона. Если вы еще…
Повсеместное распространение смартфонов привело к огромному спросу на мобильные игры и приложения. Миллиарды пользователей гаджетов…
В перечне популярных чат-ботов с искусственным интеллектом Google Bard (Gemini) еще не пользуется такой популярностью…
Скрипт (англ. — сценарий), — это небольшая программа, как правило, для веб-интерфейса, выполняющая определенную задачу.…
Дедлайн (от англ. deadline — «крайний срок») — это конечная дата стачи проекта или задачи…