Picsart розробила нову модель штучного інтелекту для перетворення тексту у відео

Команда розробників штучного інтелекту Picsart (PAIR) створила нову генеративну модель, яка може створювати абсолютно новий відеоконтент лише з текстових описів.

Технологія, яку часто називають штучним інтелектом, що генерує текст-відео, була випущена як демонстрація з відкритим вихідним кодом у Twitter, а також опублікована на GitHub і Hugging Face. Команда розробників також опублікувала наукову статтю з описом методології.

“Нещодавні підходи до генерації тексту у відео покладаються на обчислювально важке навчання і вимагають великих наборів відеоданих. У цій статті ми представляємо нову задачу генерації тексту у відео з нульового кадру і пропонуємо недорогий підхід (без будь-якого навчання або оптимізації), використовуючи можливості існуючих методів синтезу тексту в зображення (наприклад, Stable Diffusion), що робить їх придатними для відеодомену”, – пояснюють дослідники.

Читайте також: Колишні інженери Google представили повністю автономний робот-пилосос Matic

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

abs: https://t.co/5xCsj4PNRj
github: https://t.co/BdSzlepGQG pic.twitter.com/XY4piH6j4v
— AK (@_akhaliq) March 24, 2023

Основна проблема з генеруванням ШІ для перетворення тексту у відео зараз полягає в тому, що, хоча загальна ідея того, що створюється, є послідовною, її презентація не є такою. Основні об’єкти часто виглядають дещо по-різному від кадру до кадру, фон також непослідовний, через що готове відео виглядає так, ніби все постійно в русі, а отже, йому бракує реалістичності. Команда спробувала боротися з цим.

Дослідники пояснюють, що їхня ключова модифікація порівняно з іншими спробами перетворення тексту у відео полягає у “збагаченні прихованих кодів згенерованих кадрів динамікою руху”, що дозволяє їм зберігати узгодженість глобальної сцени та фонового часу. Їм також вдалося краще зберегти контекст, зовнішній вигляд та ідентичність об’єкта на передньому плані порівняно з багатьма іншими системами генерації відео.

Читайте також: Dimensity 9200+ незабаром буде запущено як найпотужніший чіпсет MediaTek

“Експерименти показують, що це призводить до низьких накладних витрат, але якісної та напрочуд послідовної генерації відео. Більше того, наш підхід не обмежується синтезом текст-відео, але також може бути застосований до інших завдань, таких як генерація умовного та контент-спеціалізованого відео”, – кажуть дослідники.

“Як показують експерименти, наш метод працює порівняно, а іноді і краще, ніж сучасні підходи, незважаючи на те, що він не був навчений на додаткових відеоданих”.

Новий генеративний ШІ не лише створює відео з текстових описів: він також може бути використаний для зміни зовнішнього вигляду вже існуючого відео, як у наведеному нижче випадку, коли відео з лебедем було змінено, попросивши ШІ “зробити його в стилі Ван Гога “Зоряна ніч””.

Читайте також: Представлено саундбар Samsung Q995GC з вбудованим хабом SmartThings

На відміну від більшості дослідницьких проектів, розгортання яких може зайняти місяці або роки, система PAIR для перетворення тексту у відео стане доступною для користувачів вже незабаром. Picsart заявляє, що планує запустити нові програмні продукти, побудовані на базі цього генеративного ШІ, протягом найближчих тижнів.

Picsart – не єдина компанія, яка досягла прогресу в галузі штучного інтелекту, що перетворює текст у відео. Google розробляє його, Meta почала працювати над ним минулої осені, а минулого тижня компанія Runway опублікувала свій генератор перетворення тексту у відео другого покоління, який став першим у відкритому доступі.