OpenAI оголосила про нову технологію клонування голосу з 15-секундного аудіо
OpenAI представила новий інноваційний інструмент під назвою Voice Engine, який може клонувати голос будь-якої особи з 15-секундного аудіозразка.
Voice Engine аналізує короткий аудіосигнал та створює мовлення з природним звучанням з «емоційними та реалістичними голосами. Ця інноваційна технологія, яка базується на вже наявному API синтезу мовлення від OpenAI, може бути корисною для різних цілей: аудіокниги, мовний переклад та допомогу людям з мовними розладами.
OpenAI визнає серйозні ризики використання цієї технології, зокрема, можливість її зловживання недоброчесними особами. Тому компанія активно працює над забезпеченням конфіденційності та безпеки та запроваджує ряд заходів, таких як водяні знаки та проактивний моніторинг використання системи.
Згідно з оголошеним, Voice Engine залишається на етапі попереднього перегляду, але компанія вже провела успішні пілотні програми, які демонструють потенціал Voice Engine. Попередній перегляд проводився в Brown University, де функція була використана для допомоги пацієнтам з порушеннями мовлення.
За словами OpenAI, їхній Voice Engine буде впроваджений під час збору відгуків від партнерів та дотримання політики, що забороняє використовувати клонований голос без згоди особи. Крім того, планується створення «списку заборонених голосів», щоб уникнути зловживань.
Орієнтовна вартість використання Voice Engine складає приблизно 15 доларів за мільйон символів, а це приблизно 162 500 слів.