Рубріки: Новини

Cтруктуровані промпти підвищують точність моделі до 93% — дослідження Meta

Олександр Остапенко

Дослідники компанії Meta розробили новий підхід до використання великих мовних моделей (LLM) для аналізу програмного коду. Виявилося, що використання спеціальних структурованих промптів, які вони назвали «напівформальним міркуванням» (semi-formal reasoning), дозволяє штучному інтелекту значно точніше перевіряти код навіть без його реального запуску. Про це пише InfoWorld.

Замість використання вільних запитів, які можуть призвести до галюцинацій, ця техніка запроваджує структуровані етапи. Вони вимагають, щоб моделі чітко формулювали припущення та простежували шляхи виконання, перш ніж робити висновок.

Проблема: «вгадування» замість аналізу

Традиційно автоматизована перевірка коду вимагає створення ізольованих «пісочниць» (sandboxes) для виконання патчів і тестування їхньої роботи. Це дорого, складно в налаштуванні та вимагає великих обчислювальних ресурсів. Хоча розробники намагалися використовувати LLM для аналізу коду без виконання, моделі часто припускалися помилок, «галюцинували» або просто вгадували результат, замість того щоб логічно проаналізувати логіку програми.

Рішення: логічні сертифікати та шаблони

Метод Meta змушує модель працювати як людину-розробника. Замість того щоб одразу видати вердикт, LLM має заповнити певну форму — «логічний сертифікат».

Процес включає кілька обов’язкових кроків:

  • Визначення передумов: модель фіксує вихідний стан коду.
  • Трасування шляхів: ШІ має покроково відстежити, як дані проходять через функції та умови.
  • Дотримання викликів: модель зобов’язана переходити за викликами функцій, а не припускати їхню поведінку.
  • Формальні висновки: фінальне рішення базується виключно на зібраних доказах.

Результати: точність до 93%

Експерименти показали вражаюче зростання ефективності:

  1. Еквівалентність патчів: точність визначення того, чи є новий код ідентичним за функціоналом старому, зросла з 78% до 88% на складних прикладах, а в реальних сценаріях досягла 93%.
  2. Відповіді на питання про код: точність зросла до 87%, що на 9 відсоткових пунктів вище, ніж у стандартних методів міркування.
  3. Локалізація помилок: метод також покращив здатність ШІ точно вказувати на місце виникнення багів.

Чому це важливо?

Такий підхід дозволяє проводити глибокий семантичний аналіз коду без витрат на запуск віртуальних середовищ. Це може радикально змінити процес навчання моделей через навчання з підкріпленням (RL), оскільки ШІ зможе отримувати якісний зворотний зв’язок щодо своїх дій миттєво.

Хоча структуроване міркування потребує більше токенів і збільшує затримку (latency), дослідники вважають, що висока точність повністю виправдовує ці додаткові витрати для серйозних завдань розробки.

Нагадаємо, не так давно хакер змусив LLM стати його спільником у нападі на уряд Мексики.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Останні статті

Кінець дешевих безлімітних планів: передплатникам Claude Code доведеться доплачувати за використання OpenClaw

Компанія Anthropic оголосила про суттєві зміни в системі тарифікації для користувачів Claude Code. Тепер власники…

06.04.2026

Когнітивна капітуляція: нова тривожна тенденція взаємодії зі штучним інтелектом

Користувачі масово делегують власне мислення штучному інтелекту, навіть коли той відверто помиляється. Нове дослідження виявило…

06.04.2026

Cursor 3: замість класичного редактора коду створюється «флот» агентів

Розробники популярного редактора коду Cursor представили його третю версію. Це не просто косметичне оновлення, а…

03.04.2026

Українці стали більше витрачати на цифрових платформах: надходження від «податку на Google» різко зросли

Міжнародні технологічні корпорації демонструють позитивну динаміку сплати ПДВ в Україні. За перші три місяці поточного…

03.04.2026

Парадокс українського IT: зарплати досвідчених розробників знижуються, початківців — зростають

Зарплати розробників програмного забезпечення, найнятих у першому кварталі 2026 року через український сервіс пошуку роботи…

03.04.2026

Крипто-катастрофа: хакери КНДР спустошили гаманці Drift Protocol на $280 млн

Криптосвіт сколихнув один із найзухваліших зламів року. Drift Protocol — найбільша децентралізована біржа безстрокових ф'ючерсів…

03.04.2026