Рубріки: Новини

Представлено «найефективнішу» українську LLM-модель Lapa v0.1.2

Дмитро Сімагін

Дослідники з Українського католицького університету (Львів), AGH University of Krakow, Львівської політехніки та КПІ ім. Ігоря Сікорського, представили публічний реліз україномовної LLM-моделі Lapa. 

Версія 0.1.2, яку вже назвали «найефективнішою українською моделлю», має відкритий код, а її робота «узгоджена з національними цінностями», стверджує Центр комунікацій Львівської політехніки. Водночас, в деяких завданнях новинка лише наближається до MamayLM, яка вважається лідером серед українських мовних моделей на сьогодні.

Lapa LLM v0.1.2 має в основі велику мовну модель Gemma-3-12B. Завдяки методу SOTA для адаптації токенізатора вдалося замінити 80 000 токенів з 250 000 на українські без втрати якості моделі, що зробило Lapa LLM найшвидшою моделлю для роботи з українською мовою. Порівняно з оригінальною Gemma 3, для роботи з українською мовою модель вимагає в 1,5 рази менше токенів, таким чином виконуючи втричі менше обчислень.

У тестах на бенчмарках Lapa LLM показала наступні результати:

  • Переклад: модель досягла 33 BLEU на FLORES для напряму англійська → українська та навпаки.
  • Обробка зображень: у тесті MMZNO Lapa LLM увійшла до лідерів серед моделей свого класу за точністю розпізнавання україномовних підписів та описів зображень.
  • Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність у відповіді на запитання — рівень, придатний для систем типу RAG.
  • Виявлення пропаганди: модель показала послідовність у визначенні маніпулятивних наративів та упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.

За словами розробників Lapa LLM, її можна використовувати для таких цілей:

  • створення корпоративних асистентів і чат-ботів українською мовою;
  • машинного перекладу між українською та англійською;
  • побудови RAG-рішень для внутрішніх документів;
  • роботи з конфіденційними текстами без передавання їх на зовнішні сервери.

Команда Lapa LLM обіцяє продовжувати роботи над її удосконаленням. Ознайомитись з кодом моделі можна на GitHub.

Нагадаємо, що за даними Мінцифри майбутній чат-бот «Дії» матиме голосовий інтерфейс з підтримкою суржика.

Останні статті

Екс-менеджер Meta: Лише 2% розробників використовують штучний інтелект правильно. Решта ризикують своєю роботою

Кун Чен — колишній розробник Microsoft та Atlassian, а також інженерний менеджер Meta — впевнений:…

01.05.2026

Пентагон розробляє лазерну зброю потужністю 300 кВт для знищення крилатих ракет

Міністерство оборони США офіційно підтверджує роботу над принципово новою системою лазерної зброї в рамках масштабної…

01.05.2026

GPT-5.5 зрівнявся з Claude Mythos у тестах на кібератаки — висновки британського AISI

Британський Інститут безпеки штучного інтелекту (AISI) перевірив модель штучного інтелекту GPT-5.5 від OpenAI і встановив,…

01.05.2026

«Термінатора» в зал суду не пустили: Ілон Маск перетворив позов проти OpenAI на sci-fi шоу

Ілон Маск три дні свідчив в рамках судового позову проти Сема Альтмана та OpenAI —…

01.05.2026

Програмна археологія: Microsoft публікує код найстарішої версії DOS, яку вважали втраченою

Microsoft продовжує розкривати сторінки своєї цифрової спадщини. Днями компанія опублікувала найстаріший із виявлених на сьогодні…

01.05.2026

Моделі Anthropic з’являться в Microsoft Word для роботи з документами

Компанія Microsoft оголосила про додавання моделей штучного інтелекту від Anthropic до Microsoft 365 Copilot у…

01.05.2026