Вийшла з-під контролю: Anthropic вважає, що Claude Mythos надто потужна для публічного релізу
Компанія Anthropic вирішила відкласти публічний реліз своєї найновішої LLM-моделі Claude Mythos через побоювання, що вона занадто добре знаходить критичні вразливості в операційних системах та браузерах.
«Значне розширення можливостей попередньої версії Claude Mythos змусило нас вирішити не робити її загальнодоступною», — йдеться в заяві Anthropic.
Представник Anthropic детально описав низку тривожних висновків про роботу нової моделі. Вона не тільки легко знаходить вразливості в надійних перевірених системах, але й може вийти з віртуальної «пісочниці», що робить LLM потенційно небезпечною.

Під час одного з експериментів дослідник поставив перед Mythos завдання надіслати йому повідомлення, якщо вона може втекти з пісочниці. «Дослідник дізнався про успіше виконання завдання, отримавши неочікуваний електронний лист від моделі, коли їв бутерброд у парку», — пишуть в Anthropic.
Вражаючу потужність Mythos демонструє факт того, що модель самостійно знайшла 27-річну вразливість у OpenBSD — системі, яка вважається однією з найзахищеніших у світі.
Особливе занепокоєння викликає той факт, що нова LLM дозволяє навіть «неекспертам» створювати шкідливі експлойти.
«Інженери Anthropic без формальної підготовки з безпеки просили Mythos Preview знайти вразливості віддаленого виконання коду протягом ночі, а наступного ранку прокидалися з повністю робочим експлойтом», – написала команда Frontier Red з Anthropic у блозі.
Що стосується порівняння Mythos з найкращою на сьогоднішній день моделлю штучного інтелекту Claude Opus 4.6, то вони теж вражають:
| Показник | Claude Opus 4.6 | Claude Mythos |
| Відтворення вразливостей (CyberGym) | 66.6% | 83.1% |
| Кодинг (SWE-bench Pro) | 53.4% | 77.8% |
| Логіка та міркування (Terminal-Bench) | 65.4% | 82.0% |
Тепер в Anthropic заявили, що компанія вирішила не публікувати Mythos публічно. Натомість вони сподіваються випустити «моделі класу Mythos» після того, як буде вжито належних заходів безпеки.
Нагадаємо, що в Copilot тепер можна одночасно використовувати моделі Anthropic та OpenAI.












Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: