Рубріки: Новини

Співзасновник Open AI Ілля Суцкевер вважає, що навчання ШІ зайшло в глухий кут. Ботів треба змушувати думати швидше

Андрій Губін

Співзасновник OpenAI Ілля Суцкевер вважає, що існуючі підходи до масштабування великих мовних моделей зайшли в глухий кут. На його думку, щоб досягти значного прогресу в майбутньому, лабораторіям ШІ потрібно буде навчати розумніших, а не просто більших моделей, а LLM потрібно буде думати трохи довше. Про це повідомляє PC Gamer.

У розмові з Reuters Суцкевер пояснив, що етап попереднього навчання при масштабуванні великих мовних моделей, таких як ChatGPT, досягає своїх меж. Попереднє навчання — це початковий етап, на якому обробляються величезні обсяги некатегоризованих даних для побудови мовних шаблонів і структур у моделі.

Донедавна додавання масштабу, тобто збільшення кількості даних, доступних для навчання, було достатнім для створення потужнішої та ефективнішої моделі. Але це вже не так, натомість важливіше те, на чому і як ви навчаєте модель.

«2010-ті роки були епохою масштабування, а зараз ми знову повернулися до епохи здивувань і відкриттів. Кожен шукає щось нове правильне масштабування зараз має більше значення, ніж будь-коли», — вважає Сатскевер.

Причиною цього є все більш очевидні проблеми, з якими стикаються лабораторії штучного інтелекту, що досягають значних успіхів у моделюванні потужності та продуктивності ChatGPT 4.0.

Якщо коротко, то зараз кожен має доступ до однакових або, принаймні, схожих легкодоступних навчальних даних через різні онлайн-джерела. Більше неможливо отримати перевагу, просто вкинувши в проблему більше необроблених даних. Отже, дуже просто кажучи, тренуватися розумніше, а не просто більше — ось що тепер дасть перевагу командам зі штучним інтелектом.

Ще один фактор, що сприятиме ефективності LLM, буде на іншому кінці процесу, коли моделі будуть повністю навчені і стануть доступними для користувачів, на етапі, відомому як виведення висновків.

Ідея полягає у використанні багатокрокового підходу до вирішення проблем і запитів, в якому модель може повертатися до самої себе, що призводить до більш людських міркувань і прийняття рішень.

«Виявилося, що якщо змусити бота думати лише 20 секунд під час роздачі в покер, це дає такий самий приріст продуктивності, як і масштабування моделі в 100 000 разів і навчання її в 100 000 разів довше», — говорить дослідник OpenAI, який працював над останнім курсом «o1 LLM» Ноам Браун.

Іншими словами, якщо змусити ботів думати довше, а не просто видавати перше, що спадає на думку, можна досягти кращих результатів. Якщо останній підхід виявиться продуктивним, індустрія апаратного забезпечення для ШІ може перейти від масових навчальних кластерів до банків графічних процесорів, орієнтованих на поліпшення висновків.

Звичайно, в будь-якому випадку, Nvidia, швидше за все, буде готова взяти гроші у всіх. Зростання попиту на графічні процесори для штучного інтелекту — це дійсно те, що нещодавно відзначив генеральний директор Nvidia Дженсен Хуанг.

«Ми відкрили другий закон масштабування, і це закон масштабування під час виведення. Всі ці фактори призвели до того, що попит на Blackwell (архітектуру графічних процесорів Nvidia наступного покоління) є неймовірно високим», — нещодавно сказав Хуанг.

Скільки часу знадобиться для того, щоб з’явилося покоління розумніших ботів завдяки цим методам, поки неясно. Але зусилля, ймовірно, скоро відобразяться на банківському балансі Nvidia.

Останні статті

OpenAI запустить платформу для IT-найму та програму сертифікації навичок

OpenAI готується запустити платформу для найму, яка конкуруватиме з LinkedIn. Майбутній сервіс під назвою OpenAI…

05.09.2025

Google випустила бету бібліотеки Compose 1.2 — базовий інструментарій для створення user-інтерфейсів в Android

Google оголосила, що бібліотека адаптивних макетів Compose 1.2 офіційно переходить у бета-версію. Вона надає розробникам…

04.09.2025

«Тепер важлива не кваліфікація, а ключові слова»: IT-фахівці розчаровані автоматизованим аналізом резюме

Опитування Dice, проведене серед понад 200 IT-працівників, виявило широке розчарування автоматизованою перевіркою резюме. Багато респондентів…

04.09.2025

Хакери навчились використовувати Grok для поширення шкідливих посилань

Зловмисники використовують Grok, вбудований у X помічник на основі штучного інтелекту, щоб обійти обмеження на…

04.09.2025

На GitHub виклали оригінальний код BASIC 1978 року

На GitHub виклали оригінальний вихідний код інтерпретатора BASIC 1.1 для процесора MOS 6502. Microsoft датує…

04.09.2025

Функція Projects тепер доступна для безкоштовних користувачів ChatGPT

Компанія OpenAI оголосила, що функція Projects стала доступною для безкоштовних користувачів ChatGPT. Проекти дозволяють каталогізувати…

04.09.2025