Валдис Герасимяк – Lead Deep Learning Engineer в компании Ajax Systems. Он начал заниматься искусственным интеллектом семь лет назад в направлении компьютерного зрения. В частности, создал стартап, который объединил AI с видеорегистратором велосипеда. Это помогало бы распознавать опасность на дороге.
У айтишника также есть значительный опыт в направлении AI для мобильных edge-устройств, а сейчас он разрабатывает модели foundation
Валдис Герасимяк делает небольшой прогноз насчет AI, рассказывает о преимуществах основных его направлений и технологий и дает советы новичкам в AI-разработке.
У всех направлений в AI есть потенциал, но они оказываются на вершине хайпа в разное время. Примером может служить генерация изображений, где перешли от техники GAN к diffusion-моделям. Это обеспечило скачок в использовании нейронок среди простых пользователей, потому что GAN в большинстве своем были популярны только из-за дипфейков.
А переход в создании текста от RNN к трансформерам – это виды архитектур нейронных сетей – способствовал появлению таких моделей, как GPT-3, а позже и ChatGPT.
Сейчас хайп базируется на том, что технологии позволяют генерировать почти любой контент – картинки, текст, музыку, частично видео – на основе текстового описания, которое предоставляет человек. Это называется Generative AI
Недавно меня спросили, какие направления AI будут больше всего развиваться в ближайшие 1–5 лет. Но я считаю целесообразным прогнозировать не более чем на год вперед. Никто не знает, что будет с AI через пять лет – настолько все быстро меняется.
Большой потенциал есть у компьютерного зрения, которое немного отстало от natural language processing
Если говорить о том, какими направлениями AI лучше всего овладели в Украине, можно посмотреть по стартапам. В первую очередь это фото- и видеогенерация, например, такие стартапы, как Reface. Также ZibraAI является примером развития AI в индустрии игры. Grammarly – это пример разумного использования искусственного интеллекта в работе с текстом. Я думаю, что все направления AI в Украине хорошо развиваются, даже последние с Gen AI.
Вы даете текстовое описание – AI генерирует картинку. Иногда таких картинок нужно генерировать сразу много, поскольку часть будет нереалистичной или не будет соответствовать тому, что вы хотите видеть. Подбор текстовых описаний, или промтов, является сейчас актуальным направлением в инженерии, оно называется промт-инжиниринг.
Есть модели, которые доступны только по API, то есть вся модель запускается на сервере, а на ваш промт возвращается изображение. Используя промт-инжиниринг, можно быстро сделать продукты, но за каждую сгенерированную картинку надо платить. Так работают Midjourney и DALL-E
Если говорить о дообучении таких моделей
Самые опытные инженеры могут кастомизировать Stable Diffusion, которая состоит из нескольких меньших нейросетей. Это может либо ускорить ее, либо подсоединить к ней какую-нибудь другую технологию – все зависит от задачи и кругозора разработчика.
На базе Stable Diffusion сейчас становится популярным направление генерации видеоконтента. Это сложнее, чем генерация картинок: мешает, что объекты постоянно меняются от кадра к кадру, получается такой себе мультик. Сейчас существует много нерешенных задач, поэтому впереди нас ждет множество открытий.
Их еще называют Large Language Model
Многие бизнесы используют LLM, чтобы строить свои продукты. К примеру, можно сделать так, чтобы ChatGPT пользовался вашими базами данных и делал ответы на основе этих знаний.
Если нужно дообучить модели, обратите внимание на модели LLaMa от Meta. Они сейчас одни из самых доступных, а к ним еще существует много инфраструктуры и кода.
Вообще направление LLM перспективно тем, что эту технологию будут активно использовать в интернете. То есть там, где царит текст.
Это, пожалуй, самая распространенная технология AI сегодня. Она работает почти всюду в мире: в каждом смартфоне, в большинстве камер видеонаблюдения, на видеоконференциях. Везде, где нужно распознавать объекты на фото или видео, а также что-то делать с ними, например, заблюрить фон, вырезать что-нибудь. Компьютерное зрение способно найти лицо человека, подсказать правильные позы в тренировке, идентифицировать раковые опухоли на рентгеновском снимке, выявить вражеские танки в кустах.
Развитие этой технологии всегда сдерживала потребность в большом количестве фото- и видеоданных для ее тренировки. Сейчас происходит переход от supervised learning
Начинающим несложно развиваться в этой сфере, так как о computer vision уже написано много учебных материалов и гайдов. Я советую начать знакомство с лайтовых курсов, где будет сразу больше практики, чем теории. К примеру, попробовать курс от Fast AI.
Это модель, главная фишка которой механизм внимания. Благодаря ему она осознает весь контекст входной последовательности. Например, если исходные данные – текст, то не следует четко следить за последовательностью слов, потому что модель понимает весь смысл. Это позволило делать модели гораздо больше. Например, у GPT-3.5 175 млрд параметров, а до этого у моделей было до 1 млрд параметров.
Большая модель может содержать в себе больше информации и лучше понимать контекст. Недаром ChatGPT называют «размытым фото всего интернета», ведь он учился буквально на информации со всего интернета.
Архитектура трансформеров сейчас выходит на первый план не только в речевых моделях, но и в компьютерном зрении. Потенциально она способна объединять эти направления, к тому же очень хорошо масштабируется.
Для работы с этой моделью на входе нужно давать небольшие отрезки текста или картинки. Это могут быть небольшие слова или части слов. А для компьютерного зрения – части изображения, например 16х16 пикселей.
Если в небольших моделях компьютерного зрения все еще господствуют сверточные нейронные сети, то в самых больших моделях уже преобладают трансформеры. То есть большие сверточные нейронные сети уже насыщаются и не учатся так хорошо, как трансформеры. По-видимому, комбинация этих подходов создаст самый большой эффект.
Кодирование видео и аудио с помощью нейросетей может потенциально сэкономить место на диске или снизить трафик во время видеоконференции или на стриминговом сервисе. Это сделает картинку более качественной при таком же трафике.
Все это пока очень новые технологии, но суть следующая: не передавать саму картинку, а шифровать содержимое с помощью нейросети и передавать краткое описание происходящего в кадре. Затем вторая нейросеть воспроизводит по этому описанию картинку. Если один и тот же человек в кадре, то можно передавать только информацию о том, что он наклонил голову или мигнул. И это гораздо быстрее передать, чем всю картинку.
Что-то подобное сейчас наблюдаем в играх: видеокарта не рендерит каждый второй-третий фрейм, а предвидит его. Благодаря этому увеличивается FPS
Рекомендую обратить внимание на эту технологию тем, кто любит VR/AR и все, что с ним связано.
Сейчас большие ритейлеры внедряют технологии виртуальной примерки одежды. С помощью нейросетей одежду можно генерировать гораздо быстрее, а также делать так, чтобы она сразу идеально подходила именно вам.
Также мебельный магазин, например, может сгенерировать идеальную мебель именно для вашей комнаты. Для этого понадобится пара фото помещения, даже со старой мебелью. В 3D-пространстве одни нейросети удалят изображение старой мебели, а другие нейронки сгенерируют новую мебель по вашему вкусу.
Но еще есть метавселенная, где вы сможете, например, интегрировать 3D-модель одежды на всех ваших аватарках или старых фотографиях. И даже сможете быть «одетыми» в эту одежду во время видеоконференций.
Meta занимается такими технологиями уже 5–7 лет, а с выходом Apple Vision Pro, думаю, это направление будет стремительно развиваться. Сочетание виртуального и нашего мира будет иметь много последователей, которые захотят полностью использовать возможности генерирования 3D-одежды.
Выход Apple на рынок со своей гарнитурой смешанной реальности будет ускорять этот переход, поскольку бренд создал действительно прорывной гаджет, с которым на самом деле можно работать и наслаждаться всеми красками AR-технологии.
Если говорить об использовании AI для написания софта, то здесь все хорошо. Есть статистика: когда люди используют искусственный интеллект в работе, они делают ее примерно на 55% быстрее. Думаю, это поможет более качественно работать, писать код, генерировать контент и другое.
О потере рабочих мест я бы не беспокоился. Профессии будут трансформироваться, люди будут заниматься более высокоуровневыми задачами, чем просто писать код или создавать SEO текст.
Те, кто будет активно и с умом использовать AI, будут иметь более широкий кругозор и преимущества. Они будут быстрее находить ответы, править ошибки и другое. Работать без AI будет так, словно в наше время писать код в блокноте или на бумаге, то есть бессмысленно.
Говоря о том, какие направления AI могут объединиться и дать крутой эффект, я склоняюсь к тому, что это компьютерное зрение + NLP, то есть изображение + язык. Сейчас люди много исследуют вокруг мультимодальных моделей, которые объединяют направления.
Например, возможно будет генерировать код не только по текстовому запросу, но и с помощью комбинации текста, голосового ввода и рисования блок-схем. Если нужно создать изображение, вы сможете использовать комбинацию из голосового ввода и текста, а затем на уже сгенерированном изображении дорисовать какую-нибудь важную деталь.
Если вы разработчик и планируете перейти в AI, то лучше идти в сферу, которая ближе к тому, чем вы занимались раньше. Для меня это было компьютерное зрение в беспилотных авто, поскольку я до этого создавал электромобили и был на «ты» со всеми датчиками. Подключить камеру и дополнить картину распознаванием объектов с видео – это было для меня вполне понятным и логичным шагом.
Прокси (proxy), или прокси-сервер — это программа-посредник, которая обеспечивает соединение между пользователем и интернет-ресурсом. Принцип…
Согласитесь, было бы неплохо соединить в одно сайт и приложение для смартфона. Если вы еще…
Повсеместное распространение смартфонов привело к огромному спросу на мобильные игры и приложения. Миллиарды пользователей гаджетов…
В перечне популярных чат-ботов с искусственным интеллектом Google Bard (Gemini) еще не пользуется такой популярностью…
Скрипт (англ. — сценарий), — это небольшая программа, как правило, для веб-интерфейса, выполняющая определенную задачу.…
Дедлайн (от англ. deadline — «крайний срок») — это конечная дата стачи проекта или задачи…