主要新闻网站正在越来越多地阻止AI网络爬虫，研究称

AI伦理与社会12个月前发布 yundic

640 0 0

牛津大学路透社新闻研究所的一项研究发现，全球越来越多的新闻网站正在阻止人工智能网络爬虫，

的研究路透社新闻研究所研究主任Richard Fletcher博士发现，全球最受欢迎的新闻网站中有近一半（48%）现在无法被OpenAI的爬虫访问，其中Google的人工智能爬虫被24%的网站屏蔽。

我的新@ risj_oxford概况介绍问：有多少新闻网站阻止像ChatGPT和Gemini这样的生成性人工智能使用他们的内容来训练他们的模型？

这取决于国家。有多少顶级新闻网站被封锁，以及它们启动的时间有很大的差异。pic.twitter.com/CaebVc4gfZ

理查德·弗莱彻(@richrdfletcher)2024年2月22日

人工智能爬虫旨在梳理互联网，为ChatGPT和Gemini等人工智能模型收集数据。这确保了最新信息的稳定供应，这对保持人工智能响应的准确性和相关性至关重要。

没有新的数据，人工智能模型将被时间锁定，无法适应现实世界的进步。如果mOdels消耗了太多人工合成的劣质数据，而不是新的、高质量的人为数据，它们甚至可能面临模型崩溃。

那么，为什么新闻网站会阻止AI网络爬虫？他们主要关心的是版权和公平的赔偿，担心传播错误信息，以及新闻网站直接访问量的潜在损失。

《纽约时报》正在起诉OpenAI和微软侵犯版权，加入了许多作家、艺术家和企业的行列，他们指控人工智能开发人员非法使用他们的数据。

人工智能公司明白这个问题。这就是为什么他们正在与媒体公司达成许可协议， OpenAI去年与Axel Springer达成协议.

内容庞然大物Reddit是最新的该公司以数百万美元的内容许可协议来吸引人工智能公司。

关键见解

以下是该报告的一些关键见解：

截至2023年底， 48% 国际知名新闻平台限制了OpenAI爬虫的访问， 24%谷歌的人工智能爬虫也是如此。
值得注意的是， 百分之九十七 一些网站屏蔽了谷歌的人工智能，也被发现屏蔽了OpenAI的爬虫程序。
网站拦截人工智能爬虫的可能性因国家而异，其中美国（79%)，墨西哥和波兰最低(20%)。
在整个2023年，没有记录到网站改变其阻止人工智能爬虫的决定。
大型新闻媒体比小型新闻媒体表现出更高的倾向。
不同类型的新闻机构的封锁倾向各不相同。传统打印插座（57%）在阻塞方面领先，而数字化插座（31%）

新闻公司显然正在加强对人工智能网络爬虫的防御，人工智能公司可能需要设法摆脱困境，以保持其模型令人信服地更新。

另一种选择是可怕的。人工智能模型的性能将会提高，但知识将逐渐过时，以至于幻想率不令人满意、不准确、冗余和无关。

# AI伦理与社会

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

魔兽游戏玩家欺骗AI新闻机器人发布虚假文章

yundic

211

我们想要公正的LLM，但这是不可能的。原因如下

yundic

501

好莱坞演员罢工以一项预计即将到来的交易结束

yundic

113

更多作者起诉OpenAI，Meta侵犯版权

yundic

175

魔法的创造者：被指控使用人工智能生成图像的聚会

yundic

410

OpenAI首席执行官Sam Altman开玩笑说，AGI是在内部实现的“”

yundic

0

暂无评论

暂无评论...