OpenAI запустила вебкраулер GPTBot і додала інструкції для його блокування
Система GPTBot «прочісуватиме» інтернет, щоб збирати базу даних для навчання та вдосконалення ШІ.
Відповідно до публікації в блозі OpenAI, використання сканера GPTBot має потенціал для покращення існуючих моделей штучного інтелекту – зокрема в таких аспектах, як точність та безпека.
«Вебсторінки, проскановані за допомогою агента GPTBot, потенційно можуть бути використані для вдосконалення майбутніх моделей і відфільтровані з видаленням джерел, які вимагають платного доступу, збирають особисту інформацію або містять текст, який порушує нашу політику», — йдеться в повідомленні компанії.
Водночас оператори вебсайтів зможуть заборонити доступ GPTBot – частково або повністю. Для цього необхідно додати його в файл robots.txt сайту із командою «disallow».
Раніше OpenAI вже осоромитися з тим, що збирає дані – у червні торік на компанію подали до суду за «крадіжку» інформації для навчання ChatGPT. Також чатбот якось випадково засвітив чужі історії чатів, а згодом OpenAI додала функцію вимкнення історії, щоб уникнути інших звинувачень.
18 липня компанія подала заявку до Бюро патентів і торгових марок США на торговельну марку «GPT-5», яка включає програмне забезпечення для людської мови та тексту на основі штучного інтелекту, перетворення звуку в текст і розпізнавання голосу та мови. Ще у червні керівник компанії Сем Альтман заявляв, що OpenAI поки не навчає GPT-5, оскільки потрібно здійснити багато підготовчих робіт.