Apple без розголосу випустила нейромережу Ferret, яка працює з текстом та зображеннями
Apple за підтримки вчених Корнелльського університету ще в жовтні виклала у відкритий доступ власну мультимодальну велику мовну модель Ferret, яка як запити може приймати фрагменти зображень.
Вихід Ferret на GitHub у жовтні не супроводжувався з боку Apple великими оголошеннями, але проєкт згодом привернув увагу фахівців галузі. Принцип роботи Ferret полягає в тому, що модель вивчає вказаний фрагмент зображення, ідентифікує об’єкти на цій ділянці та окреслює їх рамкою. Розпізнані на фрагменті зображення об’єкти система сприймає як частину запиту, відповідь на який надається у текстовому форматі.
Наприклад, користувач може виділити на зображенні зображення тварини та попросити Ferret розпізнати його. Модель дасть відповідь, до якого виду належить тварина, і їй можна буде поставити додаткові питання в контексті, уточнивши інформацію щодо інших об’єктів чи дій.
Відкрита модель Ferret – це система, здатна «давати посилання та доводити будь-що, де завгодно і з будь-якими подробицями», пояснив дослідник з ШІ-підрозділу Apple Чже Гань (Zhe Gan). Галузеві експерти наголошують на важливості виходу проєкту в цьому форматі — він демонструє відкритість традиційно закритої компанії.
За однією з версій, Apple зважилася на цей крок, оскільки прагне конкурувати з Microsoft і Google, але не має порівняльних обчислювальних ресурсів. Через це вона не змогла розраховувати на випуск власного конкурента ChatGPT і була змушена обирати між партнерством із хмарним гіперскейлером та випуском проєкту у відкритому форматі, як це раніше зробила Meta.