Роботи вчаться виконувати роботу, дивлячись YouTube.
Протягом десятиліть навчання було святим Граалем у робототехніці. Якщо ці системи збираються процвітати в непередбачуваних середовищах, їм потрібно буде зробити більше, ніж просто реагувати на програмування — їм потрібно буде адаптуватися та вчитися. Чим більше я читаю та розмовляю з експертами, стає зрозуміло, що справжнє роботизоване навчання вимагатиме поєднання багатьох рішень.
Відео — це інтригуюче рішення, яке було центральним елементом багатьох останніх робіт у просторі. Приблизно в цей час минулого року ми виділили WHIRL (in-the-Wild Human Imitating Robot Learning), алгоритм, розроблений CMU, призначений для навчання роботизованих систем шляхом перегляду запису виконання завдання людиною.
Цього тижня доцент Інституту робототехніки CMU Діпак Патак демонструє VRB (Vision-Robotics Bridge), еволюцію WHIRL. Як і в попереднику, система використовує відео людини, щоб продемонструвати завдання, але оновлення більше не вимагає від них виконання в налаштуваннях, ідентичних тим, у яких працюватиме робот.
«Нам вдалося возити роботів по кампусу та виконувати різноманітні завдання», — зазначає у своїй заяві аспірант Шикхар Бал. «Роботи можуть використовувати цю модель, щоб з цікавістю досліджувати навколишній світ. Замість того, щоб просто розмахувати руками, робот може бути більш прямим у тому, як він взаємодіє».
Робот стежить за кількома ключовими фрагментами інформації, включаючи точки контакту та траєкторію. Команда використовує як приклад відкриття ящика. Точкою контакту є ручка, а траєкторією є напрямок, у якому вона відкривається. «Після перегляду кількох відео, як люди відкривають ящики, — зазначає CMU, — робот може визначити, як відкрити будь-який ящик».
Очевидно, що не всі ящики поводяться однаково. Люди досить добре навчилися відкривати ящики, але це не означає, що час від часу дивно побудовані шафи не завдаватимуть нам проблем. Одним із ключових прийомів для покращення результатів є створення більших наборів даних для навчання. CMU покладається на відео з таких баз даних, як Epic Kitchens і Ego4D, остання з яких містить «майже 4000 годин егоцентричних відео повсякденних справ з усього світу».
Бал зазначає, що існує величезний архів потенційних даних про навчання, які чекають на перегляд. «Ми використовуємо ці набори даних по-новому та по-іншому», — зазначає дослідник. «Ця робота може дозволити роботам навчатися з величезної кількості доступних відео в Інтернеті та YouTube».