Представлено «найефективнішу» українську LLM-модель Lapa v0.1.2
Дослідники з Українського католицького університету (Львів), AGH University of Krakow, Львівської політехніки та КПІ ім. Ігоря Сікорського, представили публічний реліз україномовної LLM-моделі Lapa.
Версія 0.1.2, яку вже назвали «найефективнішою українською моделлю», має відкритий код, а її робота «узгоджена з національними цінностями», стверджує Центр комунікацій Львівської політехніки. Водночас, в деяких завданнях новинка лише наближається до MamayLM, яка вважається лідером серед українських мовних моделей на сьогодні.
Lapa LLM v0.1.2 має в основі велику мовну модель Gemma-3-12B. Завдяки методу SOTA для адаптації токенізатора вдалося замінити 80 000 токенів з 250 000 на українські без втрати якості моделі, що зробило Lapa LLM найшвидшою моделлю для роботи з українською мовою. Порівняно з оригінальною Gemma 3, для роботи з українською мовою модель вимагає в 1,5 рази менше токенів, таким чином виконуючи втричі менше обчислень.

У тестах на бенчмарках Lapa LLM показала наступні результати:
- Переклад: модель досягла 33 BLEU на FLORES для напряму англійська → українська та навпаки.
- Обробка зображень: у тесті MMZNO Lapa LLM увійшла до лідерів серед моделей свого класу за точністю розпізнавання україномовних підписів та описів зображень.
- Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність у відповіді на запитання — рівень, придатний для систем типу RAG.
- Виявлення пропаганди: модель показала послідовність у визначенні маніпулятивних наративів та упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.
За словами розробників Lapa LLM, її можна використовувати для таких цілей:
- створення корпоративних асистентів і чат-ботів українською мовою;
- машинного перекладу між українською та англійською;
- побудови RAG-рішень для внутрішніх документів;
- роботи з конфіденційними текстами без передавання їх на зовнішні сервери.
Команда Lapa LLM обіцяє продовжувати роботи над її удосконаленням. Ознайомитись з кодом моделі можна на GitHub.
Нагадаємо, що за даними Мінцифри майбутній чат-бот «Дії» матиме голосовий інтерфейс з підтримкою суржика.












Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: