Picsart розробила нову модель штучного інтелекту для перетворення тексту у відео

Picsart розробила нову модель штучного інтелекту для перетворення тексту у відео

Команда розробників штучного інтелекту Picsart (PAIR) створила нову генеративну модель, яка може створювати абсолютно новий відеоконтент лише з текстових описів.

Технологія, яку часто називають штучним інтелектом, що генерує текст-відео, була випущена як демонстрація з відкритим вихідним кодом у Twitter, а також опублікована на GitHub і Hugging Face. Команда розробників також опублікувала наукову статтю з описом методології.

“Нещодавні підходи до генерації тексту у відео покладаються на обчислювально важке навчання і вимагають великих наборів відеоданих. У цій статті ми представляємо нову задачу генерації тексту у відео з нульового кадру і пропонуємо недорогий підхід (без будь-якого навчання або оптимізації), використовуючи можливості існуючих методів синтезу тексту в зображення (наприклад, Stable Diffusion), що робить їх придатними для відеодомену”, – пояснюють дослідники.

Читайте також:  NVIDIA розповіла про свої успіхи в синтезі природної людської мови силами ШІ

Основна проблема з генеруванням ШІ для перетворення тексту у відео зараз полягає в тому, що, хоча загальна ідея того, що створюється, є послідовною, її презентація не є такою. Основні об’єкти часто виглядають дещо по-різному від кадру до кадру, фон також непослідовний, через що готове відео виглядає так, ніби все постійно в русі, а отже, йому бракує реалістичності. Команда спробувала боротися з цим.

Дослідники пояснюють, що їхня ключова модифікація порівняно з іншими спробами перетворення тексту у відео полягає у “збагаченні прихованих кодів згенерованих кадрів динамікою руху”, що дозволяє їм зберігати узгодженість глобальної сцени та фонового часу. Їм також вдалося краще зберегти контекст, зовнішній вигляд та ідентичність об’єкта на передньому плані порівняно з багатьма іншими системами генерації відео.

Читайте також:  Штучний інтелект за місяць відібрав роботу майже у 4000 американців

“Експерименти показують, що це призводить до низьких накладних витрат, але якісної та напрочуд послідовної генерації відео. Більше того, наш підхід не обмежується синтезом текст-відео, але також може бути застосований до інших завдань, таких як генерація умовного та контент-спеціалізованого відео”, – кажуть дослідники.

“Як показують експерименти, наш метод працює порівняно, а іноді і краще, ніж сучасні підходи, незважаючи на те, що він не був навчений на додаткових відеоданих”.

Новий генеративний ШІ не лише створює відео з текстових описів: він також може бути використаний для зміни зовнішнього вигляду вже існуючого відео, як у наведеному нижче випадку, коли відео з лебедем було змінено, попросивши ШІ “зробити його в стилі Ван Гога “Зоряна ніч””.

На відміну від більшості дослідницьких проектів, розгортання яких може зайняти місяці або роки, система PAIR для перетворення тексту у відео стане доступною для користувачів вже незабаром. Picsart заявляє, що планує запустити нові програмні продукти, побудовані на базі цього генеративного ШІ, протягом найближчих тижнів.

Читайте також:  Xiaomi випустили новий смарт-телевізор Mi TV ES Pro з 86-дюймовим екраном

Picsart – не єдина компанія, яка досягла прогресу в галузі штучного інтелекту, що перетворює текст у відео. Google розробляє його, Meta почала працювати над ним минулої осені, а минулого тижня компанія Runway опублікувала свій генератор перетворення тексту у відео другого покоління, який став першим у відкритому доступі.