GPTBot будет собирать информацию для обучения языковых моделей с помощью открытых интернет-ресурсов. При этом владельцы веб-сайтов смогут запретить ChatGPT обучаться на их данных.
Компания OpenAI запустила инструмент веб-сканирования для обучения и улучшения ИИ-моделей, говорится в корпоративном блоге. «Предоставление GPTBot доступа к вашему сайту может помочь моделям искусственного интеллекта стать более точными и улучшить их возможности и безопасность», — утверждает OpenAI.
GPTBot представляет собой бота, который индексирует содержимое веб-сайтов. По данным OpenAI, он будет собирать открытые данные из интернета. При этом компания не раскрывает, какие именно данные использует. Под сканирование не будут попадать источники, на которых размещен платный или личный контент, а также содержащие текст, нарушающий политику компании.
Владельцы сайтов смогут запретить индексацию для обучения модели, отмечает The Verge. Согласно инструкции в сообщении OpenAI, это можно сделать в файле robots.txt. Кроме того, можно заблокировать IP-адрес для GPTBot.
В июле семь IT-гигантов, в том числе Meta (признана экстремистской и запрещена в РФ), Google и OpenAI, приняли требования Белого дома о регулировании искусственного интеллекта. Компании инвестируют в кибербезопасность и создадут специальные водяные знаки, которыми будет отмечен контент, созданный нейросетью.
По материалам indexpedia.ru