Ілон Маск вважає, що людство вичерпало дані для навчання штучного інтелекту
Ілон Маск висловив згоду з провідними експертами в галузі штучного інтелекту, які заявили, що людство вже не має достатньо даних для навчання моделей штучного інтелекту. Про це повідомляє TechCrunch з посиланням на сторінку Маска в X.
«Ми вже вичерпали в основному загальну суму людських знань… у навчанні штучного інтелекту. Це сталося ще минулого року», — сказав Маск під час прямого ефіру з головою Stagwell Марком Пенном.
Ілон Маск в основному повторив тези, яких ще в грудні минулого року на одній з конференцій торкнувся колишній головний науковий співробітник OpenAI Ілля Суцкевер. Тоді він заявив, що галузь штучного інтелекту досягла «пікових даних», і дав прогноз, що через брак навчальних даних вчені будуть змушені змінити спосіб розробки моделей машинного навчання.
Що стосується Ілона Маска, то він припустив, що замінити дані, створені людьми, допоможуть синтетичні дані — інформація, яка створена самими моделями ШІ.
«Єдиний спосіб доповнити дані реального світу — синтетичні дані, які створюються штучним інтелектом… З синтетичними даними штучний інтелект оцінюватиме себе та проходитиме процес самонавчання», — додав Маск.
Інші IT-гіганти, такі як Microsoft, Meta, OpenAI і Anthropic, вже почали використовувати синтетичні дані для навчання своїх флагманських моделей штучного інтелекту. Як стверджує Gartner, за підсумками 2024 року 60% даних, використаних для проектів штучного інтелекту та аналітики, були синтетично згенеровані.
Наприклад, модель Phi-4 від Microsoft з відкритим кодом була навчена на синтетичних даних разом з даними, створеними людьми. Те ж саме стосується моделі Gemma від Google. Компанія Anthropic також використала частину синтетичних даних для розробки LLM-моделі Claude 3.5 Sonnet .
Навчання на синтетичних даних має суттєві переваги, в тому числі економію коштів. Навчання моделі Palmyra X 004 від стартапу Writer, яка пройшла з використанням майже повністю синтетичних даних, коштувала лише $700 000. Це набагато менше в порівнянні з $4,6 мільйонів, які використали для аналогічної моделі OpenAI.
Що ж стосується недоліків, то головним з них є те, що ряд досліджень стверджують, що синтетичні дані роблять модель менш «креативною», що в підсумку може погіршити її функціональність.
Резиденти Дія.City сплатили до бюджету понад 8 млрд грн податків в І кварталі 2025 року.…
У Китаї закликають офісних працівників не працювати надто багато — держава сподівається, що вільний час…
Експерти звертають увагу на тривожну тенденцію: люди все частіше використовують ChatGPT, щоб визначити місцезнаходження, зображене…
Компанія JetBrains випустила нову версію мультимовного середовища розробки IntelliJ IDEA 2025.1. Оновлена IDE отримала численні…
Платформа обміну миттєвими повідомленнями Discord впроваджує функцію перевірки віку за допомогою сканування обличчя. Зараз вона…
Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання…