Anthropic обмежує доступ до Claude Mythos через небезпечні можливості

Anthropic представила нову модель штучного інтелекту Claude Mythos Preview, яка виявляє помилки та слабкі місця у програмному забезпеченні, здатна працювати з усіма ключовими ОС та браузерами. Модель вже знайшла тисячі вразливостей, але через ризики для безпеки компанія не планує випускати її у відкритий доступ.

Натомість обмежений доступ отримали провідні технологічні компанії, включно з Amazon Web Services, Apple, Google, Microsoft, NVIDIA, Cisco, CrowdStrike, Broadcom, JPMorgan Chase, Linux Foundation і Palo Alto Networks, а також понад 40 організацій критичної інфраструктури. Мета — дозволити партнерам випереджати хакерів і своєчасно закривати критичні уразливості.

Як працює Claude Mythos

Anthropic пропонує застосовувати модель для виявлення та виправлення вразливостей ще до того, як інші розробники створять власні моделі з подібними можливостями. У рамках ініціативи Glasswing Claude Mythos також інтегрований у співпрацю з урядом США, щоб аналізувати потенційне використання ШІ у кібератаках та захисті.

Читайте також:  Представлений смартфон Samsung Galaxy A52s 5G на чіпі Snapdragon 778G

Модель здатна об’єднувати кілька вразливостей у складні експлойти. Наприклад, вона створила JIT-компілятор для веббраузера, який об’єднав чотири баги і вийшов за межі рендеру та ОС — такий комплекс наразі під силу лише найдосвідченішим хакерам.

Чому Mythos небезпечний для відкритого релізу

Якщо порівняти з попередніми моделями Claude, які добре знаходили баги, але рідко перетворювали їх на дієві експлойти, Mythos здатен реалізувати понад 70% виявлених вразливостей у JavaScript-оболонці Firefox і контролювати регістри у 11% атак. Frontier Red Team в Anthropic зазначає, що широке розповсюдження такого ШІ могло б створити загрозу для всієї індустрії ПЗ.

Під час тестів на понад 7 тис. репозиторіях відкритого коду Mythos досяг 595 збоїв на перших двох рівнях серйозності, кілька — на третьому та четвертому, а повне перехоплення потоку управління зафіксовано на десяти об’єктах, які вже були пропатчені.

Читайте також:  У YouTube Music з'явився відеопотік у стилі TikTok

Приклади вразливостей

Серед виявлених багів — 27-річна помилка у захищеній ОС OpenBSD, яка дозволяла провокувати збої при підключенні, та 16-річна у бібліотеці FFmpeg, яку попередні інструменти не змогли виявити. Крім того, Mythos знайшов експлойти в ядрі Linux, що давали root-доступ.

За даними Frontier Red Team, на момент публікації виправлено менше 1% знайдених вразливостей. Anthropic наголошує: широкий реліз моделі зараз небезпечний, тому доступ надають лише обмеженому колу партнерів.

Чому це важливо

Anthropic закладає основу для майбутнього, де подібні моделі стануть звичним інструментом для кібербезпеки. Обмежене тестування з провідними компаніями дозволяє підготувати індустрію до появи ШІ, який зможе знаходити та експлуатувати критичні уразливості набагато швидше за людей.