OpenAI独立推出了GPTBot,这是一个专门用于收集训练数据的网页刮擦器。
编辑目前还不清楚GPTBot是否与OpenAI在2018/2019年用于与Common Crawl一起抓取数据的机器人相同/更新过,或者这是否是一个新的/进化的版本。无论哪种方式,这是他们第一次发布关于如何防止它抓取网站数据的数据。
OpenAI在其网站上发布了有关GPTBot的信息。 网站在这里,包括有关网站管理员如何防止它爬取和抓取其网站的详细信息。
要阻止GPTBot爬行网站,管理员可以调整robots.txt文件中的设置。这个文件是网站管理的标准工具,可以追溯到大约30年前,它指明了网站的哪些区域是爬虫程序的禁区。
为了简单地描述抓取和抓取,抓取器会在网站内容中抓取,而抓取器则会提取数据。这是一个由两部分组成的过程,尽管通常情况下,这两个过程统称为“刮除”。
OpenAI还透露了GPTBot使用的IP地址块, 可在此处获得提供了另一种抑制机器人活动的选择。
一些人猜测,这是否为OpenAI提供了另一层保护,以防止未经许可的数据使用的指控。
OpenAI和其他人工智能开发人员正被有关他们如何未经许可使用人们的数据的诉讼所淹没。
现在,网站管理员必须主动防止他们的网站被抓取训练数据,让他们有责任防止网站数据最终进入训练数据集中。
值得注意的是,GPTBot并不是同类工具中唯一的工具。OpenAI已经使用其他数据集来训练其模型,包括Common Crawl数据集。
与GPTBot一样,CCBot爬虫也可以通过在robots.txt文件中添加特定的代码行来控制。
如何防止ChatGPT爬行您的站点数据
OpenAI将使用GPTBot进行有针对性的数据抓取,但它可以停止抓取整个网站或特定网页。阅读OpenAI 完整文档在此.
OpenAI发布了以下信息:
GPTBot由其用户代理令牌”GPTBot”标识。与它相关的完整用户代理字符串是:”Mozilla/5.0 AppleWebKit/537.36(KHTML,like Gecko;compatible;GPTBot/1.0;+https://openai.com/gptbot)”。
通过编辑robots.txt文件,可以阻止GPTBot访问整个网站或选定的部分。
要禁止GPTBot访问站点,管理员可以编辑其网站的robots.txt文件,如下所示:
用户代理:GPTBot
不允许:/
部分网站可以通过以下方式允许/禁止:
用户代理:GPTBot
允许:/directory—1/
地址:/directory—2/
OpenAI还公开了GPTBot使用的IP范围 可在此处获得。虽然只列出了一个范围,但可能会在适当的时候增加更多。