Cтруктуровані промпти підвищують точність моделі до 93% — дослідження Meta
Дослідники компанії Meta розробили новий підхід до використання великих мовних моделей (LLM) для аналізу програмного коду. Виявилося, що використання спеціальних структурованих промптів, які вони назвали «напівформальним міркуванням» (semi-formal reasoning), дозволяє штучному інтелекту значно точніше перевіряти код навіть без його реального запуску. Про це пише InfoWorld.

Замість використання вільних запитів, які можуть призвести до галюцинацій, ця техніка запроваджує структуровані етапи. Вони вимагають, щоб моделі чітко формулювали припущення та простежували шляхи виконання, перш ніж робити висновок.
Проблема: «вгадування» замість аналізу
Традиційно автоматизована перевірка коду вимагає створення ізольованих «пісочниць» (sandboxes) для виконання патчів і тестування їхньої роботи. Це дорого, складно в налаштуванні та вимагає великих обчислювальних ресурсів. Хоча розробники намагалися використовувати LLM для аналізу коду без виконання, моделі часто припускалися помилок, «галюцинували» або просто вгадували результат, замість того щоб логічно проаналізувати логіку програми.
Рішення: логічні сертифікати та шаблони
Метод Meta змушує модель працювати як людину-розробника. Замість того щоб одразу видати вердикт, LLM має заповнити певну форму — «логічний сертифікат».
Процес включає кілька обов’язкових кроків:
- Визначення передумов: модель фіксує вихідний стан коду.
- Трасування шляхів: ШІ має покроково відстежити, як дані проходять через функції та умови.
- Дотримання викликів: модель зобов’язана переходити за викликами функцій, а не припускати їхню поведінку.
- Формальні висновки: фінальне рішення базується виключно на зібраних доказах.
Результати: точність до 93%
Експерименти показали вражаюче зростання ефективності:
- Еквівалентність патчів: точність визначення того, чи є новий код ідентичним за функціоналом старому, зросла з 78% до 88% на складних прикладах, а в реальних сценаріях досягла 93%.
- Відповіді на питання про код: точність зросла до 87%, що на 9 відсоткових пунктів вище, ніж у стандартних методів міркування.
- Локалізація помилок: метод також покращив здатність ШІ точно вказувати на місце виникнення багів.
Чому це важливо?
Такий підхід дозволяє проводити глибокий семантичний аналіз коду без витрат на запуск віртуальних середовищ. Це може радикально змінити процес навчання моделей через навчання з підкріпленням (RL), оскільки ШІ зможе отримувати якісний зворотний зв’язок щодо своїх дій миттєво.
Хоча структуроване міркування потребує більше токенів і збільшує затримку (latency), дослідники вважають, що висока точність повністю виправдовує ці додаткові витрати для серйозних завдань розробки.
Нагадаємо, не так давно хакер змусив LLM стати його спільником у нападі на уряд Мексики.
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn












Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: