Біг роботів у Пекіні показав справжню межу штучного інтелекту

Падіння, ривки та зупинки роботів під час напівмарафону в Пекіні 19 квітня швидко стали вірусним шоу. Але інженери кажуть: ці збої майже нічого не говорять про реальний рівень штучного інтелекту.

Головна проблема полягає не в тому, щоб змусити робота бігти. Проблема — навчити його розуміти фізичний світ.

Чому падіння роботів не є головною проблемою

Біг — це насамперед контроль руху: баланс, координація, стабілізація. У цій сфері китайські компанії на кшталт Unitree вже конкурують на глобальному рівні.

Збої на марафоні, за оцінками інженерів, були не «інтелектуальними провалами», а типовими технічними проблемами: налаштування, стабільність, механіка. Тобто — рівень «тіла», а не «мозку».

Справжній бар’єр: дані, а не залізо

Ключова проблема сучасного embodied AI (втіленого ШІ) — дані.

На відміну від мовних моделей, роботи не можуть навчатися лише з інтернету. Їм потрібен досвід взаємодії з реальним світом: торкання, помилки, рух, фізика.

Читайте також: У мобільному Chrome з'явився ШІ, який переказує довгі статті та виділяє суть

Це створює вузьке місце: кожен рух треба або збирати вручну, або імітувати.

Біг роботів у Пекіні показав справжню межу штучного інтелекту

Чотири джерела навчання роботів

Індустрія використовує кілька підходів:

телеробота (людина керує роботом)
симуляції (віртуальні середовища)
UMI-підхід (портативні сенсори для збору рухів)
відео з інтернету (YouTube, Douyin)

Кожен метод має обмеження. Телеробота дорога, симуляції неточні, відео не містить фізичних параметрів, а UMI складний у точності.

Гібридна модель: «рецепт даних»

Компанії переходять до змішаної стратегії.

Ідея проста: не шукати «кращий» тип даних, а правильно їх комбінувати.

дорогі дані — для точності
симуляції — для масштабування
відео — для різноманіття
UMI — як компроміс між ціною і якістю

Це вже називають «data recipe» — формулою даних для кожної моделі.

Чому дані стають найдорожчим ресурсом

За оцінками учасників ринку:

1 година якісних даних може коштувати сотні юанів
повний цикл підготовки займає в кілька разів більше часу, ніж сама збірка
погані дані множать витрати на навчання моделей у 5–10 разів

Читайте також: Як додати Bing ChatGPT у Skype

Фактично, робототехніка перетворюється на індустрію безперервного збору даних, а не разових експериментів.

Новий підхід: об’єднання даних

Окремий напрям — уніфікація всіх типів даних у спільний формат.

Рішення на кшталт Nvidia Sonic дозволяють перетворювати текст, відео, аудіо та VR-команди в єдину систему керування роботом.

Це знижує бар’єр для навчання, але не вирішує складні задачі тонкої моторики — наприклад, роботу з крихкими об’єктами.

Що показав марафон роботів у Пекіні

Захід створив ілюзію прогресу «заліза», але реальний вузол проблем — інший.

Роботи вже можуть рухатися. Наступний етап — навчити їх розуміти контекст і адаптуватися до змін.

Чому це важливо

Перегони роботів — це не шоу про фізичну витривалість. Це тест на здатність індустрії масштабувати дані для ШІ.

Читайте також: Microsoft обмежує Bing Chat до 5 відповідей і 50 запитань на день

Поки що головна межа розвитку — не механіка і не алгоритми, а економіка даних: їх вартість, обсяг і якість.

Цікавий факт

Один годинний цикл якісного збору даних для робота може потребувати до 4 годин підготовки та налаштувань — тобто більшість часу витрачається не на збір, а на забезпечення стабільності процесу.

Висновок

Падіння роботів у Пекіні — лише поверхневий ефект. Справжня гонка відбувається не на трасі, а в лабораторіях і дата-центрах, де вирішується, як саме роботи навчаються бачити і діяти.