Новини 04/11/2024 11:58

Китайські розробники використали американську AI-модель Llama 13B для створення військового чат-бота

Журналіст

Китайські розробники використали модель штучного інтелекту Llama 13B від компанії Meta (Facebook) для розробки військового чат-бота. Про це повідомляє Silicon Angle з посиланням на розслідування Reuters.

Llama — це сімейство великих мовних моделей з відкритим кодом, які Meta вперше випустила в лютому 2022 року. Розробники можуть безкоштовно використовувати їхні алгоритми як у дослідницьких, так і в комерційних проектах. Згідно з умовами ліцензування Meta, серія Llama не може використовуватися у військових цілях.

За даними Reuters, Llama згадується в статті, авторами якої є шість дослідників з трьох китайських установ. Дві з цих установ працюють при Академії військових наук КНР, дослідницькому органі Народно-визвольної армії Китаю. У документі детально описується чат-бот ChatBIT на базі Llama, який «оптимізований для діалогів і відповідей на запитання у військовій сфері».

Китайський чат-бот базується на Llama 13B — моделі першого покоління LLM, яку випустили в лютому 2023 року. Ця модель працює на модифікованій версії стандартної архітектури нейронної мережі Transformer. Інженери Meta додали оптимізацію продуктивності до архітектури та зробили інші вдосконалення, які покращили її здатність розуміти довгі промти.

Творці чат-бота ChatBIT модифікували Llama 13B, додавши до неї спеціальні параметри конфігурації для обробки даних. Також китайці надали чат-боту доступ до 100 000 записів військових діалогів. Крім того, в статті за авторством китайських вчених йдеться про використання Llama 2 для «навчання стратегіям бортової радіоелектронної боротьби».

Llama 2 — це наступна ітерація серії LLM, яку Meta випустила в липні 2023 року, через кілька місяців після оригінальної версії. Вона навчалась на даних, які на 40% більші, ніж ті, які використовувались для тренування моделі Llama першого покоління. У Llama 2 реалізована техніка штучного інтелекту під назвою групове звернення уваги, або GQA, яка не підтримувалася попередніми моделями. Ця техніка допомагає пришвидшити висновок і скоротити час на обробку інформації.

На сьогодні найпотужніша модель, яка розроблена компанією Meta, називається Llama 3.1 405B. Вона здатна обробляти промти, обсяг яких у 60 разів перевищує обсяг даних, який підтримується алгоритмами Llama першого покоління.

Meta розробила Llama 3.1 405B з використанням 16 000 графічних процесорів H100. Кілька днів тому Марк Цукерберг повідомив, що наступна ітерація серії LLM навчається на кластері з понад 100 000 графічних процесорів H100 і робота над Llama 4 вже «повним ходом». Очікується, що перші моделі з майбутньої серії мають вийти на початку 2025 року.