Рубріки: Новини

Представлено «найефективнішу» українську LLM-модель Lapa v0.1.2

Дмитро Сімагін

Дослідники з Українського католицького університету (Львів), AGH University of Krakow, Львівської політехніки та КПІ ім. Ігоря Сікорського, представили публічний реліз україномовної LLM-моделі Lapa. 

Версія 0.1.2, яку вже назвали «найефективнішою українською моделлю», має відкритий код, а її робота «узгоджена з національними цінностями», стверджує Центр комунікацій Львівської політехніки. Водночас, в деяких завданнях новинка лише наближається до MamayLM, яка вважається лідером серед українських мовних моделей на сьогодні.

Lapa LLM v0.1.2 має в основі велику мовну модель Gemma-3-12B. Завдяки методу SOTA для адаптації токенізатора вдалося замінити 80 000 токенів з 250 000 на українські без втрати якості моделі, що зробило Lapa LLM найшвидшою моделлю для роботи з українською мовою. Порівняно з оригінальною Gemma 3, для роботи з українською мовою модель вимагає в 1,5 рази менше токенів, таким чином виконуючи втричі менше обчислень.

У тестах на бенчмарках Lapa LLM показала наступні результати:

  • Переклад: модель досягла 33 BLEU на FLORES для напряму англійська → українська та навпаки.
  • Обробка зображень: у тесті MMZNO Lapa LLM увійшла до лідерів серед моделей свого класу за точністю розпізнавання україномовних підписів та описів зображень.
  • Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність у відповіді на запитання — рівень, придатний для систем типу RAG.
  • Виявлення пропаганди: модель показала послідовність у визначенні маніпулятивних наративів та упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.

За словами розробників Lapa LLM, її можна використовувати для таких цілей:

  • створення корпоративних асистентів і чат-ботів українською мовою;
  • машинного перекладу між українською та англійською;
  • побудови RAG-рішень для внутрішніх документів;
  • роботи з конфіденційними текстами без передавання їх на зовнішні сервери.

Команда Lapa LLM обіцяє продовжувати роботи над її удосконаленням. Ознайомитись з кодом моделі можна на GitHub.

Нагадаємо, що за даними Мінцифри майбутній чат-бот «Дії» матиме голосовий інтерфейс з підтримкою суржика.

Останні статті

Microsoft заплатить за знайдені вразливості навіть в чужих програмах

Microsoft переглядає свою програму винагород за виявлення вразливостей. Тепер багхантерів будуть винагороджувати за пошук помилок…

12.12.2025

Cursor випустив візуальний редактор веб-додатків

Стартап Cursor випустив Visual Editor — візуальний редактор інтерфейсів веб-додатків, який не вимагає знання коду.…

12.12.2025

Як будувати кар’єру в IT і кого шукають роботодавці у 2026? Розкажуть на IT Career Conf 25/26 від Neoversity

В умовах стрімких змін на IT-ринку питання кар’єрного розвитку потребує нового погляду: які навички стають…

12.12.2025

Дія.AI: технології, що стоять за першим у світі AI-асистентом для держпослуг

У вересні 2025 року Україна запустила першого у світі AI-асистента в Дії, який не просто…

12.12.2025

Навіть просте автодоповнення коду за допомогою ШІ економить розробникам 3,8 годин на тиждень — дослідження

Загальний вплив штучного інтелекту на продуктивність розробників залежить від багатьох нюансів: мови програмування, цілей, віку,…

12.12.2025

Google випускає Disco — експериментальний браузер, в якому можна створювати веб-додатки

Команда Google Labs представила експериментальний браузер Disco на базі Gemini 3. Він включає інструмент GenTabs,…

12.12.2025