На Дартмутском семинаре 1954 года ученые думали, что создадут совершенный ИИ за три года, — и провалились. А сегодня новости о новых нейронках появляются каждый день и все говорят, что будущее уже здесь. Как мы дошли до такой жизни, рассказал на конференции Conversations 2021 CEO EORA Роман Доронин.
Highload послушали и принесли вам с пылу с жару текстовую версию его выступления.
Далее со слов Романа Доронина
____________
На недавней конференции GTC November 2021 исполнительный директор NVIDIA Дженсен Хуанг заявил, что уже в ближайшем будущем вокруг нас будет много роботов, которые будут помогать нам с повседневными делами. Кто-то из них будет виртуальным, кто-то — физическим.
Благодаря computer vision, анимации, искусственному интеллекту и пониманию языка все это возможно уже сейчас. Но как именно от мечты про ИИ в 1950-х мы добежали к тому, что у нас есть?
Давайте посмотрим историю развития ИИ на примере Conversational AI — то есть голосовых ассистентов.
Вернемся в 1950-й, когда появился тест Тьюринга и открыл вселенную Conversational AI, потому что задал вопрос: «Может ли машина быть умнее человека?». С того момента ключевой задачей математики в этой области стало распознавание речи.
Реализовать ее решение удалось только в 1961 году. IBM выпустил Shoebox — систему, которая умела распознавать 16 слов, включая числа от 0 до 9 и такие команды, как «плюс», «минус» и «сумма».
На презентации IBM Shoebox создатель системы Уильям Дерш продемонстрировал, как она понимает, какие числа ей называют, и может их правильно сложить.
Обратите внимание, сколько времени прошло с теста Тьюринга до Shoebox — 11 лет (!). Для следующего прорыва понадобилось столько же: только в 1972 году исследователи университета Карнеги-Меллона описали программу, которая могла распознавать до 1000 слов.
А первый коммерческий продукт с распознаванием речи — DragonDictate от компании Dragon Systems (сейчас Nuance) вышел только в 1992 году. Он понимал, что ему говорят, только если пользователь делал паузы между словами.
Эра больших надежд закончилась в 2001 году. Ее последние важные события — выход «Скрепки» от Microsoft и последующее добавление функции распознавания речи в Office XP.
Эра больших надежд
Если проанализировать эти пятьдесят лет, становится ясно, почему она называется именно «Эра больших надежд»: казалось, что вот-вот, еще чуть-чуть и секрет ИИ будет раскрыт. В 1954 году на Дартмутском семинаре ученые думали, что создадут компьютерное сознание за три года. Но этого не произошло.
Чего не хватило? Вычислительных систем, данных — всего, что является фундаментом машинного обучения сейчас. И что запустило в 2011-м «большую гонку».
В 2011 Apple выпустил Siri. И это было невероятным прорывом.
Уже через год появился Google Now — возможность гуглить голосом. В 2013 году Microsoft подтянулся и выпустил Cortana. А в 2014 Amazon анонсировал умную колонку Echo с Alexa внутри.
Только посмотрите, как ускорились темпы: за четыре года технологии развились настолько, что можно было не просто распознавать голос, но и слышать и понимать его с другого конца комнаты, не воспринимая лишние шумы.
Пик «эры большой гонки» наступил, когда в Alexa появились инструменты для сторонних разработчиков. В нее стало возможно добавлять новые навыки и уже к концу 2014 году количество этих навыков превысило 10 тысяч.
В 2016 году гонка ускорилась еще больше: если раньше счет шел на годы, то теперь он начал идти на месяцы:
В 2017 все только нарастало: Samsung выпустил ассистента Bixby, Google начал встраивать голосовое распознавание в телевизоры и другие устройства, а еще добавил возможность распознавания разных голосов — например, разных членов семьи (до шести человек).
Последний пункт — это очень важный момент, потому что это означало, что теперь системы могли менять свое поведение, в зависимости от того, кто с ними разговаривает.
Гонка стала настолько большой, что ее масштабы уже невозможно охватить. В июле 2017 года Amazon выпустил колонку с экраном и Conversational AI вышло за рамки текста и голоса. Стало появляться все больше сценариев интеграции и доступных сред, форм, инструментов для сторонних разработчиков.
Что же будет дальше?
«Все должно быть интерактивно», — говорит Дженсен Хуанг в своем выступлении на GTC November 2021 и приводит в пример «говорящий киоск» в токийском кафе, работающим на системе NVIDIA Omniverse.
В такой системе есть уже не только распознавание голоса, но и эмпатия и продвинутая графика. Вот каким ИИ был вчера:
И вот какой он сегодня:
Мой робкий итог: сейчас акцент смещается с ресерча. Количество публикаций о нейронных сетях невозможное. У нас есть мощная технологическая база: новые архитектуры, opensource-инструменты и готовые решения. Наш новый челлендж — разработка пользовательского интерфейса, подходящего для новых интеграций.
Мы должны быть гибкими и изобретательными. Машинное обучение нуждается в людях из креативных индустрий — тех, кто сможет придумать что-то иначе на инструментах, которые у нас уже есть.
Прокси (proxy), или прокси-сервер — это программа-посредник, которая обеспечивает соединение между пользователем и интернет-ресурсом. Принцип…
Согласитесь, было бы неплохо соединить в одно сайт и приложение для смартфона. Если вы еще…
Повсеместное распространение смартфонов привело к огромному спросу на мобильные игры и приложения. Миллиарды пользователей гаджетов…
В перечне популярных чат-ботов с искусственным интеллектом Google Bard (Gemini) еще не пользуется такой популярностью…
Скрипт (англ. — сценарий), — это небольшая программа, как правило, для веб-интерфейса, выполняющая определенную задачу.…
Дедлайн (от англ. deadline — «крайний срок») — это конечная дата стачи проекта или задачи…