Языковые модели, трансформеры и прочее. 6 актуальных направлений AI, на которые следует обратить внимание начинающим

Евгения Стенцель

04.10.2023 10:59

Валдис Герасимяк – Lead Deep Learning Engineer в компании Ajax Systems. Он начал заниматься искусственным интеллектом семь лет назад в направлении компьютерного зрения. В частности, создал стартап, который объединил AI с видеорегистратором велосипеда. Это помогало бы распознавать опасность на дороге.

У айтишника также есть значительный опыт в направлении AI для мобильных edge-устройств, а сейчас он разрабатывает модели foundationмодели машинного обучения, адаптируемые к приложениям для компьютерного зрения.

Валдис Герасимяк делает небольшой прогноз насчет AI, рассказывает о преимуществах основных его направлений и технологий и дает советы новичкам в AI-разработке.

Партнерский материал?

Хайп с искусственным интеллектом

У всех направлений в AI есть потенциал, но они оказываются на вершине хайпа в разное время. Примером может служить генерация изображений, где перешли от техники GAN к diffusion-моделям. Это обеспечило скачок в использовании нейронок среди простых пользователей, потому что GAN в большинстве своем были популярны только из-за дипфейков.

А переход в создании текста от RNN к трансформерам – это виды архитектур нейронных сетей – способствовал появлению таких моделей, как GPT-3, а позже и ChatGPT.

Сейчас хайп базируется на том, что технологии позволяют генерировать почти любой контент – картинки, текст, музыку, частично видео – на основе текстового описания, которое предоставляет человек. Это называется Generative AIGen AI.

Как овладели AI в Украине

Недавно меня спросили, какие направления AI будут больше всего развиваться в ближайшие 1–5 лет. Но я считаю целесообразным прогнозировать не более чем на год вперед. Никто не знает, что будет с AI через пять лет – настолько все быстро меняется.

Большой потенциал есть у компьютерного зрения, которое немного отстало от natural language processingNLP – это когда машина обрабатывает сказанное человеком. И хотя компьютерное зрение немного сложнее, потому что изображение имеет гораздо больше деталей, чем текст, у него большие перспективы. Глаза людей являются, пожалуй, самым богатым источником информации о мире вокруг. Поэтому считается, что в будущем нейросети будут понимать гораздо больше, чем современные модели, благодаря компьютерному зрению.

Если говорить о том, какими направлениями AI лучше всего овладели в Украине, можно посмотреть по стартапам. В первую очередь это фото- и видеогенерация, например, такие стартапы, как Reface. Также ZibraAI является примером развития AI в индустрии игры. Grammarly – это пример разумного использования искусственного интеллекта в работе с текстом. Я думаю, что все направления AI в Украине хорошо развиваются, даже последние с Gen AI.

Преимущества и перспективы разных направлений AI

Модели текст-в-изображение

Вы даете текстовое описание – AI генерирует картинку. Иногда таких картинок нужно генерировать сразу много, поскольку часть будет нереалистичной или не будет соответствовать тому, что вы хотите видеть. Подбор текстовых описаний, или промтов, является сейчас актуальным направлением в инженерии, оно называется промт-инжиниринг.

Есть модели, которые доступны только по API, то есть вся модель запускается на сервере, а на ваш промт возвращается изображение. Используя промт-инжиниринг, можно быстро сделать продукты, но за каждую сгенерированную картинку надо платить. Так работают Midjourney и DALL-Eпродукт OpenAI. Модели общие, то есть в некоторых случаях они не будут хорошо генерировать именно то, что вам нужно, например специфические кейсы. В таком случае придется доучивать свою модель.

Если говорить о дообучении таких моделейfine-tuning, то здесь все в основном базируется на Stable Diffusion или более новой Stable Diffusion XL. Это открытая нейронка от компании Stable AI и самая распространенная модель такого рода. Дообучение не занимает много ресурсов, за 2–5 часов работы GPU можно сделать свою нейронку из 20–50 ваших фото.

Самые опытные инженеры могут кастомизировать Stable Diffusion, которая состоит из нескольких меньших нейросетей. Это может либо ускорить ее, либо подсоединить к ней какую-нибудь другую технологию – все зависит от задачи и кругозора разработчика.

На базе Stable Diffusion сейчас становится популярным направление генерации видеоконтента. Это сложнее, чем генерация картинок: мешает, что объекты постоянно меняются от кадра к кадру, получается такой себе мультик. Сейчас существует много нерешенных задач, поэтому впереди нас ждет множество открытий.

Большие языковые модели

Их еще называют Large Language ModelLLM или моделью текст-в-текст. Большое количество рынка занимает OpenAI со своим продуктом ChatGPT. Они сделали действительно крутую базовую модель, которая понимает контекст, может суммировать или, наоборот, раздувать текст. Хорошо переводит, пишет письма и многое другое. Доступна на сайте или через API, за каждый запрос нужно платить.

Многие бизнесы используют LLM, чтобы строить свои продукты. К примеру, можно сделать так, чтобы ChatGPT пользовался вашими базами данных и делал ответы на основе этих знаний.

Если нужно дообучить модели, обратите внимание на модели LLaMa от Meta. Они сейчас одни из самых доступных, а к ним еще существует много инфраструктуры и кода.

Вообще направление LLM перспективно тем, что эту технологию будут активно использовать в интернете. То есть там, где царит текст.

Компьютерное зрение

Это, пожалуй, самая распространенная технология AI сегодня. Она работает почти всюду в мире: в каждом смартфоне, в большинстве камер видеонаблюдения, на видеоконференциях. Везде, где нужно распознавать объекты на фото или видео, а также что-то делать с ними, например, заблюрить фон, вырезать что-нибудь. Компьютерное зрение способно найти лицо человека, подсказать правильные позы в тренировке, идентифицировать раковые опухоли на рентгеновском снимке, выявить вражеские танки в кустах.

Развитие этой технологии всегда сдерживала потребность в большом количестве фото- и видеоданных для ее тренировки. Сейчас происходит переход от supervised learningобучение по размеченным данным к self-supervised learningкогда можно не размечать данные, то есть датасеты становятся больше.

Начинающим несложно развиваться в этой сфере, так как о computer vision уже написано много учебных материалов и гайдов. Я советую начать знакомство с лайтовых курсов, где будет сразу больше практики, чем теории. К примеру, попробовать курс от Fast AI.

Архитектура трансформеров

Это модель, главная фишка которой механизм внимания. Благодаря ему она осознает весь контекст входной последовательности. Например, если исходные данные – текст, то не следует четко следить за последовательностью слов, потому что модель понимает весь смысл. Это позволило делать модели гораздо больше. Например, у GPT-3.5 175 млрд параметров, а до этого у моделей было до 1 млрд параметров.

Большая модель может содержать в себе больше информации и лучше понимать контекст. Недаром ChatGPT называют «размытым фото всего интернета», ведь он учился буквально на информации со всего интернета.

Архитектура трансформеров сейчас выходит на первый план не только в речевых моделях, но и в компьютерном зрении. Потенциально она способна объединять эти направления, к тому же очень хорошо масштабируется.

Для работы с этой моделью на входе нужно давать небольшие отрезки текста или картинки. Это могут быть небольшие слова или части слов. А для компьютерного зрения – части изображения, например 16х16 пикселей.

Если в небольших моделях компьютерного зрения все еще господствуют сверточные нейронные сети, то в самых больших моделях уже преобладают трансформеры. То есть большие сверточные нейронные сети уже насыщаются и не учатся так хорошо, как трансформеры. По-видимому, комбинация этих подходов создаст самый большой эффект.

Кодирование видео с помощью нейронных сетей

Кодирование видео и аудио с помощью нейросетей может потенциально сэкономить место на диске или снизить трафик во время видеоконференции или на стриминговом сервисе. Это сделает картинку более качественной при таком же трафике.

Все это пока очень новые технологии, но суть следующая: не передавать саму картинку, а шифровать содержимое с помощью нейросети и передавать краткое описание происходящего в кадре. Затем вторая нейросеть воспроизводит по этому описанию картинку. Если один и тот же человек в кадре, то можно передавать только информацию о том, что он наклонил голову или мигнул. И это гораздо быстрее передать, чем всю картинку.

Что-то подобное сейчас наблюдаем в играх: видеокарта не рендерит каждый второй-третий фрейм, а предвидит его. Благодаря этому увеличивается FPSангл. frames per second – количество кадров в секунду на экране.

Генерирование 3D-объектов и контента для метавселенной

Рекомендую обратить внимание на эту технологию тем, кто любит VR/AR и все, что с ним связано.

Сейчас большие ритейлеры внедряют технологии виртуальной примерки одежды. С помощью нейросетей одежду можно генерировать гораздо быстрее, а также делать так, чтобы она сразу идеально подходила именно вам.

Также мебельный магазин, например, может сгенерировать идеальную мебель именно для вашей комнаты. Для этого понадобится пара фото помещения, даже со старой мебелью. В 3D-пространстве одни нейросети удалят изображение старой мебели, а другие нейронки сгенерируют новую мебель по вашему вкусу.

Но еще есть метавселенная, где вы сможете, например, интегрировать 3D-модель одежды на всех ваших аватарках или старых фотографиях. И даже сможете быть «одетыми» в эту одежду во время видеоконференций.

Meta занимается такими технологиями уже 5–7 лет, а с выходом Apple Vision Pro, думаю, это направление будет стремительно развиваться. Сочетание виртуального и нашего мира будет иметь много последователей, которые захотят полностью использовать возможности генерирования 3D-одежды.

Выход Apple на рынок со своей гарнитурой смешанной реальности будет ускорять этот переход, поскольку бренд создал действительно прорывной гаджет, с которым на самом деле можно работать и наслаждаться всеми красками AR-технологии.

Каким станет IT под влиянием AI

Если говорить об использовании AI для написания софта, то здесь все хорошо. Есть статистика: когда люди используют искусственный интеллект в работе, они делают ее примерно на 55% быстрее. Думаю, это поможет более качественно работать, писать код, генерировать контент и другое.

О потере рабочих мест я бы не беспокоился. Профессии будут трансформироваться, люди будут заниматься более высокоуровневыми задачами, чем просто писать код или создавать SEO текст.

Те, кто будет активно и с умом использовать AI, будут иметь более широкий кругозор и преимущества. Они будут быстрее находить ответы, править ошибки и другое. Работать без AI будет так, словно в наше время писать код в блокноте или на бумаге, то есть бессмысленно.

Говоря о том, какие направления AI могут объединиться и дать крутой эффект, я склоняюсь к тому, что это компьютерное зрение + NLP, то есть изображение + язык. Сейчас люди много исследуют вокруг мультимодальных моделей, которые объединяют направления.

Например, возможно будет генерировать код не только по текстовому запросу, но и с помощью комбинации текста, голосового ввода и рисования блок-схем. Если нужно создать изображение, вы сможете использовать комбинацию из голосового ввода и текста, а затем на уже сгенерированном изображении дорисовать какую-нибудь важную деталь.

Если вы разработчик и планируете перейти в AI, то лучше идти в сферу, которая ближе к тому, чем вы занимались раньше. Для меня это было компьютерное зрение в беспилотных авто, поскольку я до этого создавал электромобили и был на «ты» со всеми датчиками. Подключить камеру и дополнить картину распознаванием объектов с видео – это было для меня вполне понятным и логичным шагом.

Три главных совета новичкам в AI-разработке

Учитесь через разработку каких-нибудь пет-проектов. Вы сразу видите, как создавать полноценный проект, выявляете свои слабые стороны.
Переходите к курсам, когда вы понимаете, что именно эти курсы вам на 100% нужны и гармонично дополнят ваш собственный опыт.
Активно интересуйтесь новыми разработками, течениями и тому подобным. Следуйте идеям следующего дня: их можно услышать на форумах, в профильных чатах, Xбывший Twitter, на страницах соцсетей именитых людей и так далее. Найдите тех, кто пишет понятные вам вещи.