Google представила ШІ для автоматичної озвучки відео

Команда Google DeepMind представила інструмент для генерації саундтреків до відео за допомогою штучного інтелекту.

Як зазначають розробники, ШІ-моделі для створення відео розвиваються семимильними кроками, але здебільшого це “німі” відео. Технологія V2A (“video-to-audio”) дає змогу оживити їх.

Технологія дає можливість згенерувати музику в дусі ролика, звукові ефекти і навіть діалоги для персонажів за текстовим описом. ШІ-модель в основі технології навчали на базі звуків, розшифровок діалогів і відео.

Моделями для породження музики і звуків сьогодні нікого не здивуєш. Але за словами розробників V2A, відмінність їхньої технології в тому, що вона здатна розуміти відеоряд і автоматично синхронізувати згенерований аудіосупровід конкретно під нього з урахуванням запиту користувача.

У DeepMind визнають, що технологія небездоганна. А оскільки в навчальному датасеті було мало відео з артефактами та іншими дефектами, створювати аудіо для них у V2A виходить не дуже.

Джерело processer.media

Ви читаєте незалежне україномовне видання "SUNDRIES". Ми не належимо ні олігархам, ні депутатам. Отож ми потребуємо Вашої підтримки для розвитку та збереження незалежності. Підтримайте нас!

Цей веб-сайт використовує файли cookie, щоб покращити ваш досвід. Ми припустимо, що ви з цим згодні, але ви можете відмовитися, якщо хочете. Прийняти Читати більше