更多顶级网站正在屏蔽GPTBot

269 0 0

OpenAI本月早些时候披露了它的GPTBot，从那以后，互联网最大的网站越来越多地采取行动，阻止Web刮擦器访问他们的网站。

AI内容检测器，Originality.ai一直在关注排名前1000的网站，看看哪些网站已经阻止了GPTBot这样的网页抓取器。

通过在网站的robots.txt文件中添加两行代码来阻止GPTBot抓取网站。越来越多的网站开始这样做。

www.example.com报告中反映的数据显示，一周前，有91个网站屏蔽了GPTBot。仅仅一周后，这一数字就跃升至111人，增长了22%

增加20个网站听起来不算多，但当你考虑到这些网站拥有并继续产生的数据量时，这是很重要的。现在屏蔽GPTBot的前5个网站是：

amazon.com
quora.com
indeed.com
Nytimes.com
shutterstock.com

OpenAI仅从这五个网站上训练模型的数据量就变得很大了。

如果你看一下1，000个地点的完整清单有趣的是，注意哪些阻止了GPTBot，哪些决定不阻止，目前。

虽然Shutterstock已经屏蔽了GPTBot，但其他库存摄影网站，如iStock，还没有。当谈到库存摄影时，你不禁要问，这匹特别的人工智能刮刮马是不是在不久前就已经逃之夭夭了。

《纽约时报》和CNN等新闻公司屏蔽了这款机器人，这更有道理。但其他顶级新闻网站，如《福布斯》和《卫报》，到目前为止都选择不屏蔽这一消息。

OpenAI表示，允许GPTBot抓取网站“可以帮助人工智能模型变得更准确，并提高其通用能力和安全性。该公司还表示，它的机器人不会偷看付费墙后面，也不会查看收集个人信息的网站。

可能像YouTube、X和BBC这样的网站对OpenAI信以为真，并看到了允许AI机器人以负责任的方式使用他们的数据的潜在价值。如果他们决定在他们的业务中使用ChatGPT，他们会希望它尽可能好地工作。

这些公司也可能意识到，如果他们阻止了最大的人工智能刮刀，他们可能会错过的潜在流量。想象一下，如果网站出于原则决定阻止谷歌的机器人，他们的流量会发生什么。

值得注意的是，名单上的网站都没有阻止Anthropic的机器人。业界是否普遍认为OpenAI将与Anthropic不同地对待其数据？

你可能会认为，如果一家公司决定阻止AI scraper，它会阻止所有的AI scraper，而不仅仅是一个。

OpenAI卷入了一些里程碑式的人工智能版权诉讼，这可能会对这份名单产生重大影响。看看哪些大网站决定屏蔽机器人，即使我们看到一些网站改变了这样做的决定，这将是一件有趣的事情。

文章版权归作者所有，未经允许请勿转载。

yundic

249

yundic

503

yundic

405

yundic

655

yundic

142

yundic

294

暂无评论

暂无评论...