Штучний інтелект непомітно переписує наукову літературу: відрізнити неможливо
Штучний інтелект поступово проникає в наукову літературу, однак точно оцінити масштаби цього явища поки що не вдається. Дослідники б’ють на сполох: ситуація змінюється набагато швидше, ніж спільнота вчених встигає на неї реагувати, пише Nature.

Головне занепокоєння вчених полягає в тому, що низькоякісні або й повністю сфабриковані роботи, створені великими мовними моделями, здатні перевантажити системи контролю якості й «забруднити» наукову базу знань.
Тривога в науковому середовищі відображає ширші тенденції в інтернеті загалом. Наприкінці березня кількість статей, написаних за участю штучного інтелекту, вперше перевищила кількість матеріалів, створених людьми — до такого висновку дійшли фахівці компанії Graphite, проаналізувавши 55 000 нових вебсторінок.
Щоб оцінити масштаб проблеми в науці, дослідники вдаються до детекторів ШІ-контенту. Однак наявні інструменти не дають повної гарантії: частина з них не розрізняє текст, який просто редагувався за допомогою штучного інтелекту, і текст, що був повністю ним згенерований. Трапляються й хибні спрацювання — коли написаний людиною текст помилково позначається як створений ШІ.
Певні тенденції вже прочитуються досить чітко. Дослідження, опубліковане 27 квітня, охопило майже 7 000 анотацій рукописів і близько 8 000 рецензій, що надійшли до журналу Organization Science з січня 2021 по лютий 2026 року. Автори зафіксували зростання числа поданих матеріалів на 42% після листопада 2022 року — коли вийшов ChatGPT — і встановили, що цей стрибок зумовлений переважно ШІ. Кількість статей, де понад 70% тексту згенеровано нейромережами, з початку 2024 по лютий 2026 року зросла більш ніж удвічі. Сліди ШІ виявлено й у кожній третій рецензії.
В окремому дослідженні Річард Ші перевірив детектором Pangram близько 5 000 біомедичних статей із журналів Science, Nature та Cell. Шість публікацій виявились написаними повністю штучним інтелектом, а кожна восьма містила хоча б частину згенерованого тексту. Дослідник вважає, що це лише початок: за його словами, ми бачимо перші краплі шторму, що насувається.
Третє масштабне дослідження охопило понад 124 000 рукописів на платформі arXiv за 2020–2025 роки. У галузі комп’ютерних наук частка оглядових матеріалів із ШІ-текстом зросла з 7% у 2023 році до 43% у 2025-му. Частка оригінальних досліджень із такими ознаками за той самий період збільшилась з 3% до 23%.
Окремий виклик — відсутність надійних інструментів виявлення. LLM-моделі вдосконалюються, а разом із ними мають вдосконалюватися й детектори. Паралельно зростатиме кількість способів «олюднити» ШІ-тексти, щоб обійти перевірки. Один із можливих виходів — впровадження цифрових «водяних знаків», що чітко вказуватимуть на участь штучного інтелекту в створенні тексту. Ця технологія вже допомогла відхилити 497 робіт, поданих на одну з наукових конференцій.
Нагадаємо, нещодавно вчені створили вінтажний чат-бот: LLM-модель, навчену виключно на історичних текстах до 1930 року.
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn











Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: