OpenAI本月早些时候披露了它的GPTBot,从那以后,互联网最大的网站越来越多地采取行动,阻止Web刮擦器访问他们的网站。
AI内容检测器,Originality.ai一直在关注排名前1000的网站,看看哪些网站已经阻止了GPTBot这样的网页抓取器。
通过在网站的robots.txt文件中添加两行代码来阻止GPTBot抓取网站。越来越多的网站开始这样做。
www.example.com报告中反映的数据显示,一周前,有91个网站屏蔽了GPTBot。仅仅一周后,这一数字就跃升至111人,增长了22%
增加20个网站听起来不算多,但当你考虑到这些网站拥有并继续产生的数据量时,这是很重要的。现在屏蔽GPTBot的前5个网站是:
amazon.com
quora.com
indeed.com
Nytimes.com
shutterstock.com
OpenAI仅从这五个网站上训练模型的数据量就变得很大了。
如果你看一下1,000个地点的完整清单 有趣的是,注意哪些阻止了GPTBot,哪些决定不阻止,目前。
虽然Shutterstock已经屏蔽了GPTBot,但其他库存摄影网站,如iStock,还没有。当谈到库存摄影时,你不禁要问,这匹特别的人工智能刮刮马是不是在不久前就已经逃之夭夭了。
《纽约时报》和CNN等新闻公司屏蔽了这款机器人,这更有道理。但其他顶级新闻网站,如《福布斯》和《卫报》,到目前为止都选择不屏蔽这一消息。
OpenAI表示,允许GPTBot抓取网站“可以帮助人工智能模型变得更准确,并提高其通用能力和安全性。该公司还表示,它的机器人不会偷看付费墙后面,也不会查看收集个人信息的网站。
可能像YouTube、X和BBC这样的网站对OpenAI信以为真,并看到了允许AI机器人以负责任的方式使用他们的数据的潜在价值。如果他们决定在他们的业务中使用ChatGPT,他们会希望它尽可能好地工作。
这些公司也可能意识到,如果他们阻止了最大的人工智能刮刀,他们可能会错过的潜在流量。想象一下,如果网站出于原则决定阻止谷歌的机器人,他们的流量会发生什么。
值得注意的是,名单上的网站都没有阻止Anthropic的机器人。业界是否普遍认为OpenAI将与Anthropic不同地对待其数据?
你可能会认为,如果一家公司决定阻止AI scraper,它会阻止所有的AI scraper,而不仅仅是一个。
OpenAI卷入了一些里程碑式的人工智能版权诉讼,这可能会对这份名单产生重大影响。看看哪些大网站决定屏蔽机器人,即使我们看到一些网站改变了这样做的决定,这将是一件有趣的事情。