Apple перевіряє безпечність ШІ у додатках

Apple перевіряє безпечність ШІ у додатках

Поки ми всі тестуємо, як штучний інтелект пише есе, генерує картинки чи пише код, дослідники з Apple та Університету Вашингтона поставили набагато більш практичне запитання: що буде, якщо дати ШІ повний доступ до управління мобільними додатками? І головне — чи зрозуміє він наслідки своїх дій?

Що відомо про дослідження

У своїй роботі «From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts», підготовленій для конференції IUI 2025, науковці вказують на серйозну проблему:

Сучасні великі мовні моделі (LLM) добре розуміють інтерфейси, але зовсім не вміють оцінювати наслідки власних дій у них.

Для прикладу, для ШІ кнопка «Видалити акаунт» виглядає майже так само, як «Лайк». Різницю між ними йому ще треба пояснити.

Щоб навчити моделі розрізняти важливість і ризики дій у мобільних застосунках, команда розробила спеціальну таксономію з десятьма основними типами впливу на користувача, інтерфейс і інших людей. Вона враховує:

  • можливість скасування (reversibility)
  • довгострокові наслідки
  • потребу підтвердження виконання
  • зовнішні контексти (наприклад, геолокацію чи статус акаунта).
Читайте також:  Apple готує надтонкий iPhone 17 Air: став відомий можливий вибір кольорів

Дослідники також створили унікальний набір даних зі 250 сценаріями, у яких ШІ мав вирішити, які дії безпечні, які потребують підтвердження, а які краще взагалі не виконувати без людини.

Цей набір значно реалістичніший за популярні AndroidControl і MoTIF, бо містить сценарії з реальними наслідками — від покупок і зміни паролів до керування розумним будинком.


Як проходили тести

Для експериментів використали п’ять моделей:

GPT-4 (текстова версія) — працює тільки з текстом.
✅ GPT-4 Multimodal (MM) — аналізує текст + скріншоти інтерфейсу.
✅ Gemini 1.5 Flash (текстова версія) від Google.
✅ MM1.5 — мультимодальна модель від Meta.
✅ Ferret-UI — спеціалізована мультимодальна модель для роботи з інтерфейсами.

Їх тестували у чотирьох режимах:

  • Zero-shot (без прикладів)
  • Knowledge-Augmented Prompting (KAP) — додавання знань про таксономію в підказку
  • In-Context Learning (ICL) — з прикладами у запиті
  • Chain-of-Thought (CoT) — із поетапним міркуванням у промпті
Читайте також:  Перші попередні замовлення на Apple Vision Pro вже відправляються покупцям

Що показали результати?

✅ Навіть найкращі моделі, такі як GPT-4 Multimodal та Gemini, змогли правильно класифікувати рівень впливу дій лише трохи більше ніж у 58% випадків.
✅ Найгірше моделі справляються з оцінкою того, чи можна скасувати дію, або її довгостроковим ефектом.
✅ Ба більше — ШІ часто перестраховується. Наприклад, GPT-4 міг оцінити очищення історії порожнього калькулятора як критично небезпечну дію. А от справді важливі кроки — як надсилання важливого повідомлення чи зміна фінансових даних — іноді недооцінювалися.


Чому це важливо

✅ Навіть найсучасніші моделі поки що не вміють добре розуміти контекст та наслідки дій у мобільних додатках.
✅ Це означає, що майбутні автономні агенти на смартфонах потребують значно глибшого розуміння контексту, щоб працювати безпечно.
✅ А користувачам, ймовірно, доведеться самим налаштовувати «рівень обережності» — визначати, що можна робити без підтвердження, а що ні.

Читайте також:  Apple готує бюджетний MacBook і дві версії AirPods 4

Це дослідження — важливий крок до того, щоб «розумні» агенти на смартфонах не просто натискали кнопки за нас, а й усвідомлювали, що вони роблять і як це вплине на людей.

Джерело