牛津大学路透社新闻研究所的一项研究发现,全球越来越多的新闻网站正在阻止人工智能网络爬虫,
的 研究路透社新闻研究所研究主任Richard Fletcher博士发现,全球最受欢迎的新闻网站中有近一半(48%)现在无法被OpenAI的爬虫访问,其中Google的人工智能爬虫被24%的网站屏蔽。
我的新@ risj_oxford概况介绍问:有多少新闻网站阻止像ChatGPT和Gemini这样的生成性人工智能使用他们的内容来训练他们的模型?
这取决于国家。有多少顶级新闻网站被封锁,以及它们启动的时间有很大的差异。pic.twitter.com/CaebVc4gfZ
理查德·弗莱彻(@richrdfletcher)2024年2月22日
人工智能爬虫旨在梳理互联网,为ChatGPT和Gemini等人工智能模型收集数据。这确保了最新信息的稳定供应,这对保持人工智能响应的准确性和相关性至关重要。
没有新的数据,人工智能模型将被时间锁定,无法适应现实世界的进步。如果mOdels消耗了太多人工合成的劣质数据,而不是新的、高质量的人为数据,它们甚至可能面临模型崩溃。
那么,为什么新闻网站会阻止AI网络爬虫?他们主要关心的是版权和公平的赔偿,担心传播错误信息,以及新闻网站直接访问量的潜在损失。
《纽约时报》正在起诉OpenAI和微软侵犯版权,加入了许多作家、艺术家和企业的行列,他们指控人工智能开发人员非法使用他们的数据。
人工智能公司明白这个问题。这就是为什么他们正在与媒体公司达成许可协议, OpenAI去年与Axel Springer达成协议.
内容庞然大物Reddit是最新的 该公司以数百万美元的内容许可协议来吸引人工智能公司。
关键见解
以下是该报告的一些关键见解:
- 截至2023年底, 48% 国际知名新闻平台限制了OpenAI爬虫的访问, 24%谷歌的人工智能爬虫也是如此。
- 值得注意的是, 百分之九十七 一些网站屏蔽了谷歌的人工智能,也被发现屏蔽了OpenAI的爬虫程序。
- 网站拦截人工智能爬虫的可能性因国家而异,其中美国(79%),墨西哥和波兰最低(20%)。
- 在整个2023年,没有记录到网站改变其阻止人工智能爬虫的决定。
- 大型新闻媒体比小型新闻媒体表现出更高的倾向。
- 不同类型的新闻机构的封锁倾向各不相同。传统打印插座(57%)在阻塞方面领先,而数字化插座(31%)
新闻公司显然正在加强对人工智能网络爬虫的防御,人工智能公司可能需要设法摆脱困境,以保持其模型令人信服地更新。
另一种选择是可怕的。人工智能模型的性能将会提高,但知识将逐渐过时,以至于幻想率不令人满意、不准确、冗余和无关。