Рубріки: Новини

Представлено «найефективнішу» українську LLM-модель Lapa v0.1.2

Дмитро Сімагін

Дослідники з Українського католицького університету (Львів), AGH University of Krakow, Львівської політехніки та КПІ ім. Ігоря Сікорського, представили публічний реліз україномовної LLM-моделі Lapa. 

Версія 0.1.2, яку вже назвали «найефективнішою українською моделлю», має відкритий код, а її робота «узгоджена з національними цінностями», стверджує Центр комунікацій Львівської політехніки. Водночас, в деяких завданнях новинка лише наближається до MamayLM, яка вважається лідером серед українських мовних моделей на сьогодні.

Lapa LLM v0.1.2 має в основі велику мовну модель Gemma-3-12B. Завдяки методу SOTA для адаптації токенізатора вдалося замінити 80 000 токенів з 250 000 на українські без втрати якості моделі, що зробило Lapa LLM найшвидшою моделлю для роботи з українською мовою. Порівняно з оригінальною Gemma 3, для роботи з українською мовою модель вимагає в 1,5 рази менше токенів, таким чином виконуючи втричі менше обчислень.

У тестах на бенчмарках Lapa LLM показала наступні результати:

  • Переклад: модель досягла 33 BLEU на FLORES для напряму англійська → українська та навпаки.
  • Обробка зображень: у тесті MMZNO Lapa LLM увійшла до лідерів серед моделей свого класу за точністю розпізнавання україномовних підписів та описів зображень.
  • Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність у відповіді на запитання — рівень, придатний для систем типу RAG.
  • Виявлення пропаганди: модель показала послідовність у визначенні маніпулятивних наративів та упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.

За словами розробників Lapa LLM, її можна використовувати для таких цілей:

  • створення корпоративних асистентів і чат-ботів українською мовою;
  • машинного перекладу між українською та англійською;
  • побудови RAG-рішень для внутрішніх документів;
  • роботи з конфіденційними текстами без передавання їх на зовнішні сервери.

Команда Lapa LLM обіцяє продовжувати роботи над її удосконаленням. Ознайомитись з кодом моделі можна на GitHub.

Нагадаємо, що за даними Мінцифри майбутній чат-бот «Дії» матиме голосовий інтерфейс з підтримкою суржика.

Останні статті

83% індійських IT-працівників страждають від вигорання. Кожен четвертий працює понад 70 годин на тиждень

Індійську IT-галузь, в якій працює понад 5 мільйонів людей, накрила хвиля самогубств та масові звільнення,…

28.01.2026

Агент кодування Mistral Vibe 2.0 став більш точним, але подорожчав

Французька компанія Mistral AI оновила свій термінальний агент кодування Mistral Vibe до версії 2.0. Інструмент,…

28.01.2026

Мінцифри просить всіх поділитись даними для навчання національної LLM

Мінцифри просить користувачів «увійти в історію» та поділитись текстовими даними для розробки національної LLM. Ці…

28.01.2026

1,5 млн встановлень мають два шкідливих розширення VS Code. Вони викрадають ваш код

Дослідники Koi Security виявили два шкідливих розширення VS Code, які рекламуються як помічники кодування на…

28.01.2026

OpenAI випустила безкоштовний текстовий редактор на базі ChatGPT

OpenAI випустила текстовий редактор під назвою Prism, в який інтегровано ChatGPT. Інструмент допомагає вченим у…

28.01.2026

Через автоматизацію кандидати все частіше відмовляються від коротких резюме

Кандидати все частіше відмовляються від короткого формату при написанні резюме. Про це йдеться в щорічному…

27.01.2026