Рубріки: Новини

Meta винайшла спосіб, які зменшити галюцинації штучного інтелекту

Дмитро Сімагін

Дослідники з Meta AI опублікували статтю, в якій пропонують «масштабовані шари пам’яті» для рішення проблеми галюцинацій штучного інтелекту. Під галюцинаціями слід розуміти такі артефакти, як зайві пальці та інші несподівані елементи, що виникають під час генерації візуального контенту.

Масштабовані шари пам’яті додають більше параметрів до великої мовної моделі (LLM), щоб збільшити її здатність до навчання без додаткових обчислювальних ресурсів. 

Традиційні мовні моделі використовують «щільні шари» для кодування величезної кількості інформації в їхніх параметрах. У щільних шарах всі параметри використовують свою повну ємність і активуються одночасно під час виведення. Проблема в тому, що збільшення щільних шарів потребує додаткових обчислювальних та енергетичних ресурсів.

У своїй статті дослідники з Meta пропонують кілька модифікацій, які вирішують цю проблему. По-перше, вони налаштували шари пам’яті для паралелізації, розподіляючи їх по кількох GPU для зберігання мільйонів пар ключ-значення без зміни інших шарів моделі. Вони також реалізували спеціальне ядро ​​CUDA для обробки операцій із високою пропускною здатністю пам’яті. Крім того, дослідники розробили механізм спільного використання параметрів, що підтримує єдиний набір параметрів пам’яті для декількох шарів пам’яті всередині моделі. Це означає, що ключі та значення, які використовуються для пошуку, поділяються між шарами. Ці модифікації дозволяють впроваджувати шари пам’яті LLM без уповільнення моделі.

Для тестування шарів пам’яті вчені модифікували моделі Llama, замінивши один або кілька щільних шарів загальним шаром пам’яті. Результати порівняння з щільними шарами довели, що моделі з пам’яттю значно перевершують щільні базові моделі і конкурують з моделями, які використовують у 2-4 рази більше обчислювальних ресурсів. 

Дослідники також виявили, що переваги моделей із пам’яттю залишаються стабільними зі збільшенням розміру моделі. «Враховуючи ці результати, ми настійно рекомендуємо інтегрувати шари пам’яті у всі архітектури штучного інтелекту наступного покоління», — пишуть вчені в своїй статті.

 

Останні статті

«Ваучери на навчання до 30 000 грн»: українським ветеранам пропонують переходити в IT

Мінцифри анонсує програму Державної служби зайнятості, яка передбачає видачу ваучерів на навчання за ІТ-спеціальностями для…

15.09.2025

Портрет українського айтівця: частка нетехнічних фахівців зростає, джунів і мідлів меншає

44% українських IT-спеціалістів відносять себе до Software Engineer, на другому місці —  тестувальники (17%), ще…

15.09.2025

Windows 11 отримає вбудований тест швидкості інтернету

Microsoft може незабаром додати до Windows 11 вбудований інструмент перевірки швидкості інтернету. За словами джерела,…

15.09.2025

Replit представив новий інструмент для вайб-кодингу Agent 3

Стартап Replit випустив Agent 3, автономну систему генерації коду, створену для розробки програмного забезпечення без…

15.09.2025

Основний розробник Ethereum втратив всі кошти після того, як скачав фейкове розширення для редактора коду Cursor

Зловмисник на ім'я WhiteCobra націлився на розробників, які використовують редактори коду VS Code, Cursor і…

15.09.2025

В США відбулися перші змагання програмістів проти штучного інтелекту

У Сан-Франциско відбувся перший хакатон по кодингу, де змагалися програмісти та штучний інтелект. У заході…

12.09.2025