Співзасновник OpenAI Ілля Суцкевер вважає, що існуючі підходи до масштабування великих мовних моделей зайшли в глухий кут. На його думку, щоб досягти значного прогресу в майбутньому, лабораторіям ШІ потрібно буде навчати розумніших, а не просто більших моделей, а LLM потрібно буде думати трохи довше. Про це повідомляє PC Gamer.
У розмові з Reuters Суцкевер пояснив, що етап попереднього навчання при масштабуванні великих мовних моделей, таких як ChatGPT, досягає своїх меж. Попереднє навчання — це початковий етап, на якому обробляються величезні обсяги некатегоризованих даних для побудови мовних шаблонів і структур у моделі.
Донедавна додавання масштабу, тобто збільшення кількості даних, доступних для навчання, було достатнім для створення потужнішої та ефективнішої моделі. Але це вже не так, натомість важливіше те, на чому і як ви навчаєте модель.
«2010-ті роки були епохою масштабування, а зараз ми знову повернулися до епохи здивувань і відкриттів. Кожен шукає щось нове правильне масштабування зараз має більше значення, ніж будь-коли», — вважає Сатскевер.
Причиною цього є все більш очевидні проблеми, з якими стикаються лабораторії штучного інтелекту, що досягають значних успіхів у моделюванні потужності та продуктивності ChatGPT 4.0.
Якщо коротко, то зараз кожен має доступ до однакових або, принаймні, схожих легкодоступних навчальних даних через різні онлайн-джерела. Більше неможливо отримати перевагу, просто вкинувши в проблему більше необроблених даних. Отже, дуже просто кажучи, тренуватися розумніше, а не просто більше — ось що тепер дасть перевагу командам зі штучним інтелектом.
Ще один фактор, що сприятиме ефективності LLM, буде на іншому кінці процесу, коли моделі будуть повністю навчені і стануть доступними для користувачів, на етапі, відомому як виведення висновків.
Ідея полягає у використанні багатокрокового підходу до вирішення проблем і запитів, в якому модель може повертатися до самої себе, що призводить до більш людських міркувань і прийняття рішень.
«Виявилося, що якщо змусити бота думати лише 20 секунд під час роздачі в покер, це дає такий самий приріст продуктивності, як і масштабування моделі в 100 000 разів і навчання її в 100 000 разів довше», — говорить дослідник OpenAI, який працював над останнім курсом «o1 LLM» Ноам Браун.
Іншими словами, якщо змусити ботів думати довше, а не просто видавати перше, що спадає на думку, можна досягти кращих результатів. Якщо останній підхід виявиться продуктивним, індустрія апаратного забезпечення для ШІ може перейти від масових навчальних кластерів до банків графічних процесорів, орієнтованих на поліпшення висновків.
Звичайно, в будь-якому випадку, Nvidia, швидше за все, буде готова взяти гроші у всіх. Зростання попиту на графічні процесори для штучного інтелекту — це дійсно те, що нещодавно відзначив генеральний директор Nvidia Дженсен Хуанг.
«Ми відкрили другий закон масштабування, і це закон масштабування під час виведення. Всі ці фактори призвели до того, що попит на Blackwell (архітектуру графічних процесорів Nvidia наступного покоління) є неймовірно високим», — нещодавно сказав Хуанг.
Скільки часу знадобиться для того, щоб з’явилося покоління розумніших ботів завдяки цим методам, поки неясно. Але зусилля, ймовірно, скоро відобразяться на банківському балансі Nvidia.
Резиденти Дія.City сплатили до бюджету понад 8 млрд грн податків в І кварталі 2025 року.…
У Китаї закликають офісних працівників не працювати надто багато — держава сподівається, що вільний час…
Експерти звертають увагу на тривожну тенденцію: люди все частіше використовують ChatGPT, щоб визначити місцезнаходження, зображене…
Компанія JetBrains випустила нову версію мультимовного середовища розробки IntelliJ IDEA 2025.1. Оновлена IDE отримала численні…
Платформа обміну миттєвими повідомленнями Discord впроваджує функцію перевірки віку за допомогою сканування обличчя. Зараз вона…
Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання…