Рубріки: Новини

Ілон Маск вважає, що людство вичерпало дані для навчання штучного інтелекту

Дмитро Сімагін

Ілон Маск висловив згоду з провідними експертами в галузі штучного інтелекту, які заявили, що людство вже не має достатньо даних для навчання моделей штучного інтелекту. Про це повідомляє TechCrunch з посиланням на сторінку Маска в X.

«Ми вже вичерпали в основному загальну суму людських знань… у навчанні штучного інтелекту. Це сталося ще минулого року», — сказав Маск під час прямого ефіру з головою Stagwell Марком Пенном.

Ілон Маск в основному повторив тези, яких ще в грудні минулого року на одній з конференцій торкнувся колишній головний науковий співробітник OpenAI Ілля Суцкевер. Тоді він заявив, що галузь штучного інтелекту досягла «пікових даних», і дав прогноз, що через брак навчальних даних вчені будуть змушені змінити спосіб розробки моделей машинного навчання.

Що стосується Ілона Маска, то він припустив, що замінити дані, створені людьми, допоможуть синтетичні дані — інформація, яка створена самими моделями ШІ.

«Єдиний спосіб доповнити дані реального світу — синтетичні дані, які створюються штучним інтелектом… З синтетичними даними штучний інтелект оцінюватиме себе та проходитиме процес самонавчання», — додав Маск.

Інші IT-гіганти, такі як Microsoft, Meta, OpenAI і Anthropic, вже почали використовувати синтетичні дані для навчання своїх флагманських моделей штучного інтелекту. Як стверджує Gartner, за підсумками 2024 року 60% даних, використаних для проектів штучного інтелекту та аналітики, були синтетично згенеровані.

Наприклад, модель Phi-4 від Microsoft з відкритим кодом була навчена на синтетичних даних разом з даними, створеними людьми. Те ж саме стосується моделі Gemma від Google. Компанія Anthropic також використала частину синтетичних даних для розробки LLM-моделі Claude 3.5 Sonnet . 

Навчання на синтетичних даних має суттєві переваги, в тому числі економію коштів. Навчання моделі Palmyra X 004 від стартапу Writer, яка пройшла з використанням майже повністю синтетичних даних, коштувала лише $700 000. Це набагато менше в порівнянні з $4,6 мільйонів, які використали для аналогічної моделі OpenAI.

Що ж стосується недоліків, то головним з них є те, що ряд досліджень стверджують, що синтетичні дані роблять модель менш «креативною», що в підсумку може погіршити її функціональність. 

 

Останні статті

Більше 8 млрд грн податків. Стільки сплатили резиденти Дія.City в І кварталі 2025 року

Резиденти Дія.City сплатили до бюджету понад 8 млрд грн податків в І кварталі 2025 року.…

18.04.2025

Китайських офісних працівників закликають менше працювати. Це має допомогти місцевій економіці

У Китаї закликають офісних працівників не працювати надто багато — держава сподівається, що вільний час…

18.04.2025

ChatGPT значно покращив пошук місць по фото. Це посилює проблеми конфіденційності

Експерти звертають увагу на тривожну тенденцію: люди все частіше використовують ChatGPT, щоб визначити місцезнаходження, зображене…

18.04.2025

Середовище розробки IntelliJ IDEA оновлено до версії 2025.1

Компанія JetBrains випустила нову версію мультимовного середовища розробки IntelliJ IDEA 2025.1. Оновлена IDE отримала численні…

18.04.2025

Discord впроваджує функцію сканування обличчя для перевірки віку користувачів

Платформа обміну миттєвими повідомленнями Discord впроваджує функцію перевірки віку за допомогою сканування обличчя. Зараз вона…

18.04.2025

Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів

Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання…

18.04.2025