Picsart розробила нову модель штучного інтелекту для перетворення тексту у відео

Команда розробників штучного інтелекту Picsart (PAIR) створила нову генеративну модель, яка може створювати абсолютно новий відеоконтент лише з текстових описів.

Технологія, яку часто називають штучним інтелектом, що генерує текст-відео, була випущена як демонстрація з відкритим вихідним кодом у Twitter, а також опублікована на GitHub і Hugging Face. Команда розробників також опублікувала наукову статтю з описом методології.

“Нещодавні підходи до генерації тексту у відео покладаються на обчислювально важке навчання і вимагають великих наборів відеоданих. У цій статті ми представляємо нову задачу генерації тексту у відео з нульового кадру і пропонуємо недорогий підхід (без будь-якого навчання або оптимізації), використовуючи можливості існуючих методів синтезу тексту в зображення (наприклад, Stable Diffusion), що робить їх придатними для відеодомену”, – пояснюють дослідники.

Читайте також: Xiaomi 13 буде випущено зі Snapdragon 8 Gen 2

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

abs: https://t.co/5xCsj4PNRj
github: https://t.co/BdSzlepGQG pic.twitter.com/XY4piH6j4v
— AK (@_akhaliq) March 24, 2023

Основна проблема з генеруванням ШІ для перетворення тексту у відео зараз полягає в тому, що, хоча загальна ідея того, що створюється, є послідовною, її презентація не є такою. Основні об’єкти часто виглядають дещо по-різному від кадру до кадру, фон також непослідовний, через що готове відео виглядає так, ніби все постійно в русі, а отже, йому бракує реалістичності. Команда спробувала боротися з цим.

Дослідники пояснюють, що їхня ключова модифікація порівняно з іншими спробами перетворення тексту у відео полягає у “збагаченні прихованих кодів згенерованих кадрів динамікою руху”, що дозволяє їм зберігати узгодженість глобальної сцени та фонового часу. Їм також вдалося краще зберегти контекст, зовнішній вигляд та ідентичність об’єкта на передньому плані порівняно з багатьма іншими системами генерації відео.

Читайте також: В Україні тепер доступний штучний інтелект від Google — Bard

“Експерименти показують, що це призводить до низьких накладних витрат, але якісної та напрочуд послідовної генерації відео. Більше того, наш підхід не обмежується синтезом текст-відео, але також може бути застосований до інших завдань, таких як генерація умовного та контент-спеціалізованого відео”, – кажуть дослідники.

“Як показують експерименти, наш метод працює порівняно, а іноді і краще, ніж сучасні підходи, незважаючи на те, що він не був навчений на додаткових відеоданих”.

Новий генеративний ШІ не лише створює відео з текстових описів: він також може бути використаний для зміни зовнішнього вигляду вже існуючого відео, як у наведеному нижче випадку, коли відео з лебедем було змінено, попросивши ШІ “зробити його в стилі Ван Гога “Зоряна ніч””.

На відміну від більшості дослідницьких проектів, розгортання яких може зайняти місяці або роки, система PAIR для перетворення тексту у відео стане доступною для користувачів вже незабаром. Picsart заявляє, що планує запустити нові програмні продукти, побудовані на базі цього генеративного ШІ, протягом найближчих тижнів.

Читайте також: OnePlus 11R отримує оновлення безпеки у вересні 2023 року через OxygenOS 13.1.0.582

Picsart – не єдина компанія, яка досягла прогресу в галузі штучного інтелекту, що перетворює текст у відео. Google розробляє його, Meta почала працювати над ним минулої осені, а минулого тижня компанія Runway опублікувала свій генератор перетворення тексту у відео другого покоління, який став першим у відкритому доступі.

Picsart розробила нову модель штучного інтелекту для перетворення тексту у відео

Apple змінює керівництво AI: Джаннандреа йде, його місце займе екстопменеджер Microsoft та Google

Як продовжити життя OLED-екрану: прості поради

Google тестує AI-заголовки, які спотворюють новини: ось реальні приклади

Apple змінює керівництво AI: Джаннандреа йде, його місце займе екстопменеджер Microsoft та Google

Як продовжити життя OLED-екрану: прості поради

Google тестує AI-заголовки, які спотворюють новини: ось реальні приклади

Picsart розробила нову модель штучного інтелекту для перетворення тексту у відео

Також читайте:

Apple змінює керівництво AI: Джаннандреа йде, його місце займе екстопменеджер Microsoft та Google

Як продовжити життя OLED-екрану: прості поради

Google тестує AI-заголовки, які спотворюють новини: ось реальні приклади

Apple змінює керівництво AI: Джаннандреа йде, його місце займе екстопменеджер Microsoft та Google

Як продовжити життя OLED-екрану: прості поради

Google тестує AI-заголовки, які спотворюють новини: ось реальні приклади