Дослідники компанії Meta розробили новий підхід до використання великих мовних моделей (LLM) для аналізу програмного коду. Виявилося, що використання спеціальних структурованих промптів, які вони назвали «напівформальним міркуванням» (semi-formal reasoning), дозволяє штучному інтелекту значно точніше перевіряти код навіть без його реального запуску. Про це пише InfoWorld.
Замість використання вільних запитів, які можуть призвести до галюцинацій, ця техніка запроваджує структуровані етапи. Вони вимагають, щоб моделі чітко формулювали припущення та простежували шляхи виконання, перш ніж робити висновок.
Традиційно автоматизована перевірка коду вимагає створення ізольованих «пісочниць» (sandboxes) для виконання патчів і тестування їхньої роботи. Це дорого, складно в налаштуванні та вимагає великих обчислювальних ресурсів. Хоча розробники намагалися використовувати LLM для аналізу коду без виконання, моделі часто припускалися помилок, «галюцинували» або просто вгадували результат, замість того щоб логічно проаналізувати логіку програми.
Метод Meta змушує модель працювати як людину-розробника. Замість того щоб одразу видати вердикт, LLM має заповнити певну форму — «логічний сертифікат».
Процес включає кілька обов’язкових кроків:
Експерименти показали вражаюче зростання ефективності:
Такий підхід дозволяє проводити глибокий семантичний аналіз коду без витрат на запуск віртуальних середовищ. Це може радикально змінити процес навчання моделей через навчання з підкріпленням (RL), оскільки ШІ зможе отримувати якісний зворотний зв’язок щодо своїх дій миттєво.
Хоча структуроване міркування потребує більше токенів і збільшує затримку (latency), дослідники вважають, що висока точність повністю виправдовує ці додаткові витрати для серйозних завдань розробки.
Нагадаємо, не так давно хакер змусив LLM стати його спільником у нападі на уряд Мексики.
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn
Компанія Anthropic оголосила про суттєві зміни в системі тарифікації для користувачів Claude Code. Тепер власники…
Користувачі масово делегують власне мислення штучному інтелекту, навіть коли той відверто помиляється. Нове дослідження виявило…
Розробники популярного редактора коду Cursor представили його третю версію. Це не просто косметичне оновлення, а…
Міжнародні технологічні корпорації демонструють позитивну динаміку сплати ПДВ в Україні. За перші три місяці поточного…
Зарплати розробників програмного забезпечення, найнятих у першому кварталі 2026 року через український сервіс пошуку роботи…
Криптосвіт сколихнув один із найзухваліших зламів року. Drift Protocol — найбільша децентралізована біржа безстрокових ф'ючерсів…