Алгоритми Sonantic синтезують мову, яка не відрізняється від «біологічної»
Британський стартап Sonantic досяг значного прогресу у створенні штучних голосів, невідмінних від живих голосів людей. Компанія розробила ШІ, який здатний синтезувати голоси, що виражають такі складні емоції, як кохання, гнів, страх, кокетство, сором’язливість, підтрунювання. Компанія показала ролик із прикладом роботи своїх алгоритмів – жіночий голос говорить про кохання, імітуючи особливості мови звичайної людини – запинаючись, посміюючись і змінюючи тембр під час розмови. Зрозуміти, що це каже машина, а не жива людина, на слух неможливо.
Як повідомляє The Verge, Sonantic заявляє, що здійснив прорив у створенні “звукових дипфейків”. Розробникам вдалося відтворити синтетичний голос, який може виражати тонкі особливості мови реальної людини, включаючи подразнення та флірт. Ключем до цього відкриття стали алгоритми — ІІ Sonantic був навчений на десятках тисяч справжніх розмов, у ході яких програма навчилася відтворювати малопомітні, але важливі зітхання та смішки. Тепер, стверджують у компанії, хмарна платформа може надати штучному мовленню «друк біологічної достовірності».
Як доказ Sonantic навів демонстраційний ролик “What’s Her Secret?”, В якому синтезована дівчина звертається до глядача. Модель довго не може вирішити, як заговорити з користувачем, починає розмірковувати про почуття, а потім освідчується глядачеві в коханні та повідомляє, що насправді вона ніколи не існувала і все, що має – це голос, створений на комп’ютері.
«Ми вибрали любов як спільну тему. Але мета нашого дослідження полягала у тому, щоб побачити, чи можемо ми моделювати тонкі емоції. Великі емоції вловити набагато легше», – пояснив засновник та технічний директор Sonantic Джон Флінн.
Флін також додав, що головна відмінність Sonantic від конкурентів полягає у здатності спрямовувати, контролювати та редагувати голоси. Компанія описує свою платформу як Photoshop для голосу. Для клієнтів розробник надає широкий набір програмних інструментів, за допомогою яких користувачі пишуть текст нових моделей, вибирають емоції, розставляють акценти і додають мовні особливості. Користувач Sonantic також може вибрати конкретну заготівлю з бази, створеної на основі голосів реальних акторів-людей.
Актуальна версія Sonantic підтримує ряд передустановок, включаючи гнів, страх, смуток, щастя і радість, а найближчим часом до них приєднаються кокетство, сором’язливість, дратівливість та вихваляння. Ці режими обіцяють спростити створення нових моделей – клієнт зможе вибрати найбільш підходящий образ і завантажити на платформу свій текст, після чого більшу частину роботи виконають алгоритми.
Цільова аудиторія Sonantic – розробники відеоігор та компанії, що спеціалізуються на створенні мультимедіаконтенту. Проте інтерес до мовних технологій стартапу вже виявляють інші галузі. Наприклад, минулого року Sonantic уклав угоду з Mercedes – стартап займеться інтеграцією та налаштуванням цифрового помічника для розумних автомобілів від німецького бренду.