Meta створила систему ШІ Make-a-Video, здатну генерувати відео з текстових описів
У липні Meta представила систему ШІ Make-a-Scene, призначену для перетворення тексту на зображення. А тепер генеральний директор Meta Марк Цукерберг представив версію Make-a-Video, яка дозволяє перетворювати текст на відео.
Make-a-Video – це «нова система штучного інтелекту, яка дозволяє людям перетворювати текстові описи на короткі високоякісні відеокліпи», – написав Цукерберг.
Функціонально Video працює так само як і Scene. Система покладається на поєднання обробки природної мови та генеративних нейронних мереж для перетворення невізуальних описів у зображення. Фактично, вона просто генерує контент в іншому форматі. Дослідники кажуть, що для навчання моделі їм потрібно було вивчити, як виглядає світ і як його описують парні набори даних текст-зображення, а також вивчити, як рухається світ, використовуючи відео. Такий підхід дозволив команді скоротити час, необхідний для навчання відеомоделі, та усунути необхідність у парних текстових та відеоданих, зберігши при цьому різноманітність.
Meta пропонує Make-a-Video як проєкт із відкритим вихідним кодом. Компанія готова «ділитися цим генеративним дослідженням та результатами ШІ зі спільнотою для отримання відгуків». Також наголошується, що компанія прагне не допустити використання цього інструменту зі згубною метою. Тому дослідницька група заздалегідь очистила навчальний набір даних Make-a-Video від будь-яких зображень NSFW (матеріали, що містять оголену натуру, гуро, порнографію, сцени жорстокості), а також токсичних фраз.