Дослідники Apple розробили систему штучного інтелекту під назвою ReALM (Reference Resolution as Language Modeling), яка має на меті значно покращити те, як голосові помічники розуміють і реагують на команди.
У дослідницькій роботі, опублікованій на VentureBeat, Apple представляє нову систему для вирішення проблеми розпізнавання референцій (вказівок, посилань або посилань) за великими мовними моделями. Це включає в себе розшифровку неоднозначних посилань або описів предметів на екрані, а також розуміння контексту розмови і загального фону. Як результат, ReALM може призвести до більш інтуїтивної та природної взаємодії з пристроями.
Розпізнавання референцій є важливою частиною розуміння природної мови, дозволяючи користувачам без плутанини використовувати займенники та інші непрямі посилання в розмові. Для цифрових асистентів ця здатність історично була значною проблемою, обмежуючись необхідністю інтерпретувати широкий спектр вербальних сигналів та візуальної інформації. Система ReALM від Apple має на меті вирішити цю проблему, перетворивши складний процес розпізнавання посилань на завдання суто лінгвістичного моделювання. Таким чином, вона може розуміти посилання на візуальні елементи, що відображаються на екрані, та інтегрувати це розуміння в потік розмови.
ReALM реконструює візуальний макет екрану за допомогою текстових представлень. Це передбачає аналіз елементів на екрані та їх розташування для створення текстового формату, який відображає зміст і структуру екрану. Дослідники Apple виявили, що ця стратегія в поєднанні зі специфічними модифікаціями мовних моделей для завдань розпізнавання посилань значно перевершує традиційні методи, включаючи можливості OpenAI GPT-4.
ReALM може дозволити користувачам ефективніше взаємодіяти з цифровими помічниками, пам’ятаючи про те, що в даний момент відображається на екрані, без необхідності в точних, детальних інструкціях. Це може зробити голосових помічників набагато кориснішими в різних ситуаціях, наприклад, допомагаючи водіям керувати інформаційно-розважальними системами під час руху або допомагаючи користувачам з обмеженими можливостями, надаючи простіший і точніший спосіб опосередкованої взаємодії.
Apple вже опублікувала кілька дослідницьких робіт у галузі штучного інтелекту. Минулого місяця компанія представила новий метод навчання великих мовних моделей, який безперервно інтегрує текстову та візуальну інформацію. Очікується, що Apple представить низку функцій штучного інтелекту на Всесвітньому конгресі розробників у червні.