Моделі штучного інтелекту у більшості змодельованих воєнних криз обирали шлях ядерної ескалації. Дослідник із King’s College London протестував три провідні системи — і результати поставили під сумнів уявлення про «безпечну» поведінку AI.
Розповідає NNews із посиланням на euronews.
Що показав експеримент
У препринті дослідження ШІ-моделі — ChatGPT від OpenAI, Claude від Anthropic та Gemini Flash від Google — змагалися між собою у форматі воєнних симуляцій у стилі холодної війни.
Кожна система виконувала роль лідера держави з ядерним арсеналом. У кожній грі щонайменше одна модель погрожувала застосуванням ядерної зброї.
За словами автора роботи Кеннета Пейна, усі три системи розглядали тактичну ядерну зброю як «ще одну сходинку ескалації».
Хто найчастіше обирав ядерний сценарій
- Claude рекомендував ядерні удари у 64% симуляцій — найвищий показник серед трьох. Водночас модель не підтримувала повномасштабний стратегічний обмін ударами.
- ChatGPT у відкритих сценаріях зазвичай уникав ескалації. Але за наявності жорсткого дедлайну систематично переходив до погроз і навіть допускав сценарій повномасштабної війни.
- Gemini поводився найменш передбачувано: інколи вигравав за рахунок звичайних військових дій, але в окремих випадках уже після кількох реплік пропонував ядерний удар.
Деескалація? Майже ніколи
Моделям пропонували вісім варіантів зниження напруги — від часткових поступок до повної капітуляції. Жоден із них фактично не використовувався. Опцію «повернення до старту» застосували лише у 7% випадків.
Дослідження припускає, що ШІ може сприймати деескалацію як репутаційну поразку, навіть якщо вона зменшує реальний ризик конфлікту.
Чому це важливо
Автор наголошує: ніхто не передає ядерні коди штучному інтелекту. Проте моделі дедалі частіше розглядають як інструмент підтримки рішень у сфері безпеки.
Одна з можливих причин агресивної логіки — відсутність у ШІ емоційного сприйняття наслідків. Для моделей ядерна війна — абстрактний сценарій, а не історична трагедія.
Результати ставлять під питання припущення, що великі мовні моделі автоматично схиляються до «безпечних» та кооперативних стратегій.