Штучний інтелект зараз дозволяє відтворювати голос віртуальних помічників в смартфонах і розумних колонках, дуже схожий на людську мову. Хоча все ще можна помітити відмінності між промовою синтезованої та живий, яку ми чуємо в повсякденній розмові й в засобах масової інформації. Це пов’язано з тим, що люди говорять зі складним ритмом, інтонацією і тембром, які ШІ складно відтворити.
Однак завдяки роботі NVIDIA відмінності поступово стираються. Дослідники компанії створюють моделі та інструменти для високоякісного керованого синтезу мови, які передають багатство людської мови без звукових артефактів. Їх останні проєкти тепер демонструються на сесіях конференції Interspeech 2021, яка триватиме до 3 вересня.
Ці моделі можуть допомогти в створенні голосових автоматичних ліній обслуговування клієнтів для банків і підприємств роздрібної торгівлі, оживити персонажів відеоігор або книг і забезпечити синтез мови для цифрових аватарів в реальному часі.
Креативна команда NVIDIA навіть використовує цю технологію для створення виразного оповідання для серії відеороликів про можливості штучного інтелекту. До недавнього часу ці ролики озвучував людина. Попередні моделі синтезу мови пропонували обмежений контроль над темпом і висотою звуку синтезованого голосу, тому спроби оповідання штучного інтелекту не викликали у глядачів емоційного відгуку, який міг би дати талановитий оратор-людина.
Ситуація змінилася за останній рік, коли дослідницька група NVIDIA по перетворенню тексту в мову розробила більш потужні та керовані моделі синтезу мови, такі як RAD-TTS. Навчаючи модель перетворення тексту в мову на базі мови людини, модель RAD-TTS може перетворити будь-яку текстову замітку в голос мовця.
Ще одна особливість моделі – це перетворення голосу, коли слова одного мовця (або навіть спів) передаються голосом іншого мовця. Інтерфейс RAD-TTS дає користувачам можливість точного управління висотою, тривалістю й енергією синтезованого голосу на рівні кадру. В результаті, наприклад, чоловік може зачитати текст і потім перетворити його в жіночий голос.
Можливості моделі ШІ виходять за рамки озвучування. Перетворення тексту в мову можна використовувати в іграх, для допомоги людям з порушеннями голосу або допомоги користувачам при перекладі між мовами своїм власним голосом. ШІ навіть може відтворити виступи відомих співаків, поєднуючи не тільки мелодію пісні, а й емоційний вираз вокалу.
Виразний синтез мови – це лише один з елементів досліджень NVIDIA в області розмовного ШІ. Ця область також включає обробку природної мови, автоматичне розпізнавання мови, виявлення ключових слів, поліпшення звуку і багато іншого.
Ці розробки були зроблені за допомогою інструментарію NVIDIA NeMo і є рішеннями з відкритим вихідним кодом. Вони оптимізовані для ефективної роботи на GPU NVIDIA і доступні для використання дослідникам і розробникам.