Apple перевіряє безпечність ШІ у додатках

Поки ми всі тестуємо, як штучний інтелект пише есе, генерує картинки чи пише код, дослідники з Apple та Університету Вашингтона поставили набагато більш практичне запитання: що буде, якщо дати ШІ повний доступ до управління мобільними додатками? І головне — чи зрозуміє він наслідки своїх дій?

Що відомо про дослідження

У своїй роботі «From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts», підготовленій для конференції IUI 2025, науковці вказують на серйозну проблему:

Сучасні великі мовні моделі (LLM) добре розуміють інтерфейси, але зовсім не вміють оцінювати наслідки власних дій у них.

Для прикладу, для ШІ кнопка «Видалити акаунт» виглядає майже так само, як «Лайк». Різницю між ними йому ще треба пояснити.

Читайте також: Apple починає продаж відновлених смартфонів iPhone 13 в Європі

Щоб навчити моделі розрізняти важливість і ризики дій у мобільних застосунках, команда розробила спеціальну таксономію з десятьма основними типами впливу на користувача, інтерфейс і інших людей. Вона враховує:

можливість скасування (reversibility)
довгострокові наслідки
потребу підтвердження виконання
зовнішні контексти (наприклад, геолокацію чи статус акаунта).

Дослідники також створили унікальний набір даних зі 250 сценаріями, у яких ШІ мав вирішити, які дії безпечні, які потребують підтвердження, а які краще взагалі не виконувати без людини.

Цей набір значно реалістичніший за популярні AndroidControl і MoTIF, бо містить сценарії з реальними наслідками — від покупок і зміни паролів до керування розумним будинком.

Як проходили тести

Для експериментів використали п’ять моделей:

✅ GPT-4 (текстова версія) — працює тільки з текстом.
✅ GPT-4 Multimodal (MM) — аналізує текст + скріншоти інтерфейсу.
✅ Gemini 1.5 Flash (текстова версія) від Google.
✅ MM1.5 — мультимодальна модель від Meta.
✅ Ferret-UI — спеціалізована мультимодальна модель для роботи з інтерфейсами.

Читайте також: Як вибрати та налаштувати Apple Watch для дітей

Їх тестували у чотирьох режимах:

Zero-shot (без прикладів)
Knowledge-Augmented Prompting (KAP) — додавання знань про таксономію в підказку
In-Context Learning (ICL) — з прикладами у запиті
Chain-of-Thought (CoT) — із поетапним міркуванням у промпті

Що показали результати?

✅ Навіть найкращі моделі, такі як GPT-4 Multimodal та Gemini, змогли правильно класифікувати рівень впливу дій лише трохи більше ніж у 58% випадків.
✅ Найгірше моделі справляються з оцінкою того, чи можна скасувати дію, або її довгостроковим ефектом.
✅ Ба більше — ШІ часто перестраховується. Наприклад, GPT-4 міг оцінити очищення історії порожнього калькулятора як критично небезпечну дію. А от справді важливі кроки — як надсилання важливого повідомлення чи зміна фінансових даних — іноді недооцінювалися.

Читайте також: Будьте обережні: у Китаї вже навчилися підробляти захищені коробки iPhone 15

Чому це важливо

✅ Навіть найсучасніші моделі поки що не вміють добре розуміти контекст та наслідки дій у мобільних додатках.
✅ Це означає, що майбутні автономні агенти на смартфонах потребують значно глибшого розуміння контексту, щоб працювати безпечно.
✅ А користувачам, ймовірно, доведеться самим налаштовувати «рівень обережності» — визначати, що можна робити без підтвердження, а що ні.

Це дослідження — важливий крок до того, щоб «розумні» агенти на смартфонах не просто натискали кнопки за нас, а й усвідомлювали, що вони роблять і як це вплине на людей.

Джерело

Apple перевіряє безпечність ШІ у додатках

Що відомо про дослідження

Як проходили тести

Що показали результати?

Чому це важливо

ChatGPT із симптомами СДУГ, Grok — тривожний: експеримент з ШІ викликав дискусію

Новий TriFold від Samsung викликав ажіотаж: покупці стояли в чергах з ранку

OpenAI визнає ризики: ШІ може підсилити кібератаки у майбутньому

Який кросовер з пробігом обрати? Експерти назвали фаворитів

ChatGPT із симптомами СДУГ, Grok — тривожний: експеримент з ШІ викликав дискусію

Ринок б/в авто в Україні зріс на 60%: що купують найчастіше

Apple перевіряє безпечність ШІ у додатках

Що відомо про дослідження

Як проходили тести

Що показали результати?

Чому це важливо

Також читайте:

ChatGPT із симптомами СДУГ, Grok — тривожний: експеримент з ШІ викликав дискусію

Новий TriFold від Samsung викликав ажіотаж: покупці стояли в чергах з ранку

OpenAI визнає ризики: ШІ може підсилити кібератаки у майбутньому

Який кросовер з пробігом обрати? Експерти назвали фаворитів

ChatGPT із симптомами СДУГ, Grok — тривожний: експеримент з ШІ викликав дискусію

Ринок б/в авто в Україні зріс на 60%: що купують найчастіше