Close Menu
    Facebook X (Twitter) Instagram
    NNews
    • ГОЛОВНА
    • НОВИНИ
      • Україна
      • Світ
      • Спорт
      • Криптовалюта
    • АВТОМОБІЛІ
    • ТЕХНОЛОГІЇ
      • Кібербезпека
    • НАУКА
    • ІГРИ
    • LifeStyle
      • Курйози
      • Краса та здоров’я
      • Корисні поради
      • Фільми та серіали
      • Афіша
      • Погода
      • Реклама
    Facebook X (Twitter) Instagram
    NNews
    Home»ТЕХНОЛОГІЇ»Apple перевіряє безпечність ШІ у додатках
    ТЕХНОЛОГІЇ

    Apple перевіряє безпечність ШІ у додатках

    Anna NevolinaBy Anna Nevolina27.06.2025Коментарів немає3 Mins Read
    Facebook Twitter LinkedIn Telegram Copy Link
    Apple перевіряє безпечність ШІ у додатках

    Поки ми всі тестуємо, як штучний інтелект пише есе, генерує картинки чи пише код, дослідники з Apple та Університету Вашингтона поставили набагато більш практичне запитання: що буде, якщо дати ШІ повний доступ до управління мобільними додатками? І головне — чи зрозуміє він наслідки своїх дій?

    Що відомо про дослідження

    У своїй роботі «From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts», підготовленій для конференції IUI 2025, науковці вказують на серйозну проблему:

    Сучасні великі мовні моделі (LLM) добре розуміють інтерфейси, але зовсім не вміють оцінювати наслідки власних дій у них.

    Для прикладу, для ШІ кнопка «Видалити акаунт» виглядає майже так само, як «Лайк». Різницю між ними йому ще треба пояснити.

    Читайте також:  Новий дизайн Google Пошуку може виглядати інакше – і, ймовірно, гірше

    Щоб навчити моделі розрізняти важливість і ризики дій у мобільних застосунках, команда розробила спеціальну таксономію з десятьма основними типами впливу на користувача, інтерфейс і інших людей. Вона враховує:

    • можливість скасування (reversibility)
    • довгострокові наслідки
    • потребу підтвердження виконання
    • зовнішні контексти (наприклад, геолокацію чи статус акаунта).

    Дослідники також створили унікальний набір даних зі 250 сценаріями, у яких ШІ мав вирішити, які дії безпечні, які потребують підтвердження, а які краще взагалі не виконувати без людини.

    Цей набір значно реалістичніший за популярні AndroidControl і MoTIF, бо містить сценарії з реальними наслідками — від покупок і зміни паролів до керування розумним будинком.


    Як проходили тести

    Для експериментів використали п’ять моделей:

    ✅ GPT-4 (текстова версія) — працює тільки з текстом.
    ✅ GPT-4 Multimodal (MM) — аналізує текст + скріншоти інтерфейсу.
    ✅ Gemini 1.5 Flash (текстова версія) від Google.
    ✅ MM1.5 — мультимодальна модель від Meta.
    ✅ Ferret-UI — спеціалізована мультимодальна модель для роботи з інтерфейсами.

    Читайте також:  Apple підтвердила проблеми з батьківським контролем на iPhone та iPad

    Їх тестували у чотирьох режимах:

    • Zero-shot (без прикладів)
    • Knowledge-Augmented Prompting (KAP) — додавання знань про таксономію в підказку
    • In-Context Learning (ICL) — з прикладами у запиті
    • Chain-of-Thought (CoT) — із поетапним міркуванням у промпті

    Що показали результати?

    ✅ Навіть найкращі моделі, такі як GPT-4 Multimodal та Gemini, змогли правильно класифікувати рівень впливу дій лише трохи більше ніж у 58% випадків.
    ✅ Найгірше моделі справляються з оцінкою того, чи можна скасувати дію, або її довгостроковим ефектом.
    ✅ Ба більше — ШІ часто перестраховується. Наприклад, GPT-4 міг оцінити очищення історії порожнього калькулятора як критично небезпечну дію. А от справді важливі кроки — як надсилання важливого повідомлення чи зміна фінансових даних — іноді недооцінювалися.

    Читайте також:  Apple вже працює над iPad Air з процесором M3 на борту

    Чому це важливо

    ✅ Навіть найсучасніші моделі поки що не вміють добре розуміти контекст та наслідки дій у мобільних додатках.
    ✅ Це означає, що майбутні автономні агенти на смартфонах потребують значно глибшого розуміння контексту, щоб працювати безпечно.
    ✅ А користувачам, ймовірно, доведеться самим налаштовувати «рівень обережності» — визначати, що можна робити без підтвердження, а що ні.


    Це дослідження — важливий крок до того, щоб «розумні» агенти на смартфонах не просто натискали кнопки за нас, а й усвідомлювали, що вони роблять і як це вплине на людей.

    Джерело

    Apple

    Також читайте:

    Новий Honor Power 2: смартфон, який живе до двох днів без зарядки

    03.04.2026

    До $18 млн за одного фахівця: як Китай переманює топ-таланти ШІ

    03.04.2026

    Тім Кук уперше побачив секретні прототипи Apple

    03.04.2026

    Вам буде цікаво

    Subaru показала великий сімейний кросовер Getaway 2027

    03.04.2026

    Tesla завершила еру Model S та Model X

    03.04.2026

    Новий Honor Power 2: смартфон, який живе до двох днів без зарядки

    03.04.2026
    Facebook X (Twitter) Instagram YouTube Telegram Threads
    • Використання матеріалу
    • Редакційна політика
    • Про нас
    • Контакти
    • Редакція
    © 2026 ThemeSphere. Designed by ThemeSphere.

    Type above and press Enter to search. Press Esc to cancel.