主要新闻网站正在越来越多地阻止AI网络爬虫,研究称

AI伦理与社会9个月前发布 yundic
600 0 0

牛津大学路透社新闻研究所的一项研究发现,全球越来越多的新闻网站正在阻止人工智能网络爬虫,

研究路透社新闻研究所研究主任Richard Fletcher博士发现,全球最受欢迎的新闻网站中有近一半(48%)现在无法被OpenAI的爬虫访问,其中Google的人工智能爬虫被24%的网站屏蔽。

人工智能爬虫旨在梳理互联网,为ChatGPT和Gemini等人工智能模型收集数据。这确保了最新信息的稳定供应,这对保持人工智能响应的准确性和相关性至关重要。

没有新的数据,人工智能模型将被时间锁定,无法适应现实世界的进步。如果mOdels消耗了太多人工合成的劣质数据,而不是新的、高质量的人为数据,它们甚至可能面临模型崩溃。

那么,为什么新闻网站会阻止AI网络爬虫?他们主要关心的是版权和公平的赔偿,担心传播错误信息,以及新闻网站直接访问量的潜在损失。

《纽约时报》正在起诉OpenAI和微软侵犯版权,加入了许多作家、艺术家和企业的行列,他们指控人工智能开发人员非法使用他们的数据。

人工智能公司明白这个问题。这就是为什么他们正在与媒体公司达成许可协议, OpenAI去年与Axel Springer达成协议.

内容庞然大物Reddit是最新的 该公司以数百万美元的内容许可协议来吸引人工智能公司。

关键见解

以下是该报告的一些关键见解:

  • 截至2023年底, 48% 国际知名新闻平台限制了OpenAI爬虫的访问, 24%谷歌的人工智能爬虫也是如此。
  • 值得注意的是, 百分之九十七 一些网站屏蔽了谷歌的人工智能,也被发现屏蔽了OpenAI的爬虫程序。
  • 网站拦截人工智能爬虫的可能性因国家而异,其中美国(79%),墨西哥和波兰最低(20%)。
  • 在整个2023年,没有记录到网站改变其阻止人工智能爬虫的决定。
  • 大型新闻媒体比小型新闻媒体表现出更高的倾向。
  • 不同类型的新闻机构的封锁倾向各不相同。传统打印插座(57%)在阻塞方面领先,而数字化插座(31%)

新闻公司显然正在加强对人工智能网络爬虫的防御,人工智能公司可能需要设法摆脱困境,以保持其模型令人信服地更新。

另一种选择是可怕的。人工智能模型的性能将会提高,但知识将逐渐过时,以至于幻想率不令人满意、不准确、冗余和无关。

© 版权声明

相关文章

暂无评论

暂无评论...