Google представила ШІ для автоматичної озвучки відео
Команда Google DeepMind представила інструмент для генерації саундтреків до відео за допомогою штучного інтелекту.
Як зазначають розробники, ШІ-моделі для створення відео розвиваються семимильними кроками, але здебільшого це “німі” відео. Технологія V2A (“video-to-audio”) дає змогу оживити їх.
Технологія дає можливість згенерувати музику в дусі ролика, звукові ефекти і навіть діалоги для персонажів за текстовим описом. ШІ-модель в основі технології навчали на базі звуків, розшифровок діалогів і відео.
Моделями для породження музики і звуків сьогодні нікого не здивуєш. Але за словами розробників V2A, відмінність їхньої технології в тому, що вона здатна розуміти відеоряд і автоматично синхронізувати згенерований аудіосупровід конкретно під нього з урахуванням запиту користувача.
У DeepMind визнають, що технологія небездоганна. А оскільки в навчальному датасеті було мало відео з артефактами та іншими дефектами, створювати аудіо для них у V2A виходить не дуже.