Apple створила AI, що може перевершити GPT-4 в розумінні команд
Дослідники компанії Apple розробили систему штучного інтелекту під назвою ReALM (Reference Resolution as Language Modeling), яка має на меті кардинально покращити спосіб, яким голосові асистенти розуміють і реагують на команди.
У дослідницькій роботі, про яку повідомляється через VentureBeat, Apple представляє нову систему для вирішення завдань розпізнавання референцій (вказівки, відсилки чи посилання) великими мовними моделями. Це враховує розшифровку неоднозначних звернень чи опису елементів на екрані та розуміння контексту бесіди та загального тла. В результаті ReALM може призвести до більш інтуїтивних та природних взаємодій з пристроями.
Розпізнавання референцій є важливою частиною розуміння природної мови, дозволяючи користувачам використовувати займенники та інші непрямі звернення у розмові без плутанини. Для цифрових асистентів ця здатність історично була значним викликом, обмежена необхідністю інтерпретувати широкий спектр вербальних сигналів і візуальної інформації. Система ReALM від Apple прагне розв’язувати цю проблему, перетворюючи складний процес розпізнавання референцій на чисто мовну задачу моделювання. Таким чином, вона може розуміти звернення до візуальних елементів, відображених на екрані, та інтегрувати це розуміння в потік бесіди.
ReALM реконструює візуальний макет екрана за допомогою текстових представлень. Це включає аналіз елементів на екрані та їхніх розташувань для створення текстового формату, що відображає вміст та структуру екрану. Дослідники Apple з’ясували, що ця стратегія, поєднана зі специфічним доопрацюванням мовних моделей для завдань розпізнавання референцій, значно перевершує традиційні методи, включаючи можливості GPT-4 від OpenAI.
ReALM може дозволити користувачам ефективніше взаємодіяти з цифровими асистентами, маючи на увазі те, що наразі відображено на їхньому екрані, без необхідності в точних, детальних інструкціях. Це має потенціал зробити голосових помічників набагато кориснішими у різноманітних умовах, наприклад, допомагаючи водіям керувати системами інформації та розваг під час водіння або допомагаючи користувачам з обмеженими можливостями, забезпечуючи легший та точніший спосіб непрямої взаємодії.
Apple уже опублікувала кілька дослідницьких робіт у галузі штучного інтелекту. Минулого місяця компанія представила новий метод навчання великих мовних моделей, який безперервно інтегрує текстову та візуальну інформацію. Очікується, що Apple представить низку функцій ШІ на Всесвітньому конгресі розробників у червні.