В Японії створили людиноподібного робота на базі GPT-4: результат вражає (відео)
Команда Токійського університету представила Alter3 – це людиноподібний робот, який може здійснювати рухи завдяки використанню великої мовної моделі (LLM) GPT-4.
Alter3 використовує новітній інструмент Open AI для динамічного прийняття різних поз, від пози для селфі до імітації привида, і все це без необхідності попередньо запрограмованих записів у базі даних.
“Реакція Alter3 на розмовний контент за допомогою міміки та жестів є значним досягненням в людиноподібній робототехніці, яке легко адаптується до інших андроїдів з мінімальними змінами”, – говорять дослідники.
У сфері інтеграції LLM з роботами основна увага приділяється покращенню базової комунікації та моделюванню реалістичних реакцій. Дослідники також заглиблюються в можливості LLM, щоб дозволити роботам розуміти та виконувати складні інструкції, тим самим підвищуючи їхню функціональність.
Традиційно низькорівневе керування роботами прив’язане до апаратного забезпечення і лежить поза межами компетенції LLM-корпорацій. Це створює труднощі для прямого керування роботами на базі LLM. Розв’язуючи цю проблему, японська команда розробила метод перетворення виразів рухів людини в код, зрозумілий для андроїда. Це означає, що робот може самостійно генерувати послідовності дій у часі без необхідності для розробників індивідуально програмувати кожну частину тіла.
Під час взаємодії людина може давати Alter3 команди на кшталт “Зроби селфі своїм iPhone”. Згодом робот ініціює серію запитів до GPT-4, щоб отримати вказівки щодо необхідних кроків. GPT-4 переведе це в код на Python, що дозволяє роботу “зрозуміти” та виконати необхідні рухи. Ця інновація дозволяє Alter3 здійснювати рухи верхньої частини тіла, хоча його нижня частина залишається нерухомою, прикріпленою до підставки.
Alter3 – це третя ітерація в серії гуманоїдних роботів Alter з 2016 року, яка може похвалитися 43 приводами, що відповідають за міміку і рухи кінцівок, які приводяться в дію стисненим повітрям. Така конфігурація забезпечує широкий спектр виразних жестів. Робот не може ходити, але може імітувати типові для ходьби та бігу рухи.
Alter3 також продемонстрував здатність копіювати людські пози за допомогою камери та фреймворку OpenPose. Робот підлаштовує свої суглоби під спостережувані пози та зберігає вдалі імітації для подальшого використання. Взаємодія з людиною призводила до різноманітніших поз, що підтверджує ідею про те, що різні рухи походять від наслідування людини, подібно до того, як новонароджені вчаться через імітацію.
До появи LLM дослідникам доводилося ретельно контролювати всі 43 приводи, щоб відтворити позу людини або імітувати поведінку, наприклад, подачу чаю або гру в шахи. Це вимагало численних ручних налаштувань, але ШІ допоміг звільнити команду від цієї рутини.
“Ми очікуємо, що Alter3 ефективно братиме участь у діалозі, демонструючи контекстно-релевантну міміку та жести. Він продемонстрував здатність віддзеркалювати емоції, наприклад, показувати у відповідь смуток або щастя, тим самим ділячись емоціями з нами”, – говорять дослідники.