Китайські розробники використали американську AI-модель Llama 13B для створення військового чат-бота
Китайські розробники використали модель штучного інтелекту Llama 13B від компанії Meta (Facebook) для розробки військового чат-бота. Про це повідомляє Silicon Angle з посиланням на розслідування Reuters.
Llama — це сімейство великих мовних моделей з відкритим кодом, які Meta вперше випустила в лютому 2022 року. Розробники можуть безкоштовно використовувати їхні алгоритми як у дослідницьких, так і в комерційних проектах. Згідно з умовами ліцензування Meta, серія Llama не може використовуватися у військових цілях.
За даними Reuters, Llama згадується в статті, авторами якої є шість дослідників з трьох китайських установ. Дві з цих установ працюють при Академії військових наук КНР, дослідницькому органі Народно-визвольної армії Китаю. У документі детально описується чат-бот ChatBIT на базі Llama, який «оптимізований для діалогів і відповідей на запитання у військовій сфері».
Китайський чат-бот базується на Llama 13B — моделі першого покоління LLM, яку випустили в лютому 2023 року. Ця модель працює на модифікованій версії стандартної архітектури нейронної мережі Transformer. Інженери Meta додали оптимізацію продуктивності до архітектури та зробили інші вдосконалення, які покращили її здатність розуміти довгі промти.
Творці чат-бота ChatBIT модифікували Llama 13B, додавши до неї спеціальні параметри конфігурації для обробки даних. Також китайці надали чат-боту доступ до 100 000 записів військових діалогів. Крім того, в статті за авторством китайських вчених йдеться про використання Llama 2 для «навчання стратегіям бортової радіоелектронної боротьби».
Llama 2 — це наступна ітерація серії LLM, яку Meta випустила в липні 2023 року, через кілька місяців після оригінальної версії. Вона навчалась на даних, які на 40% більші, ніж ті, які використовувались для тренування моделі Llama першого покоління. У Llama 2 реалізована техніка штучного інтелекту під назвою групове звернення уваги, або GQA, яка не підтримувалася попередніми моделями. Ця техніка допомагає пришвидшити висновок і скоротити час на обробку інформації.
На сьогодні найпотужніша модель, яка розроблена компанією Meta, називається Llama 3.1 405B. Вона здатна обробляти промти, обсяг яких у 60 разів перевищує обсяг даних, який підтримується алгоритмами Llama першого покоління.
Meta розробила Llama 3.1 405B з використанням 16 000 графічних процесорів H100. Кілька днів тому Марк Цукерберг повідомив, що наступна ітерація серії LLM навчається на кластері з понад 100 000 графічних процесорів H100 і робота над Llama 4 вже «повним ходом». Очікується, що перші моделі з майбутньої серії мають вийти на початку 2025 року.
Резиденти Дія.City сплатили до бюджету понад 8 млрд грн податків в І кварталі 2025 року.…
У Китаї закликають офісних працівників не працювати надто багато — держава сподівається, що вільний час…
Експерти звертають увагу на тривожну тенденцію: люди все частіше використовують ChatGPT, щоб визначити місцезнаходження, зображене…
Компанія JetBrains випустила нову версію мультимовного середовища розробки IntelliJ IDEA 2025.1. Оновлена IDE отримала численні…
Платформа обміну миттєвими повідомленнями Discord впроваджує функцію перевірки віку за допомогою сканування обличчя. Зараз вона…
Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання…