谷歌表示,互联网上所有公开可用的数据都是公平的,可以用来收集和训练其人工智能产品。
谷歌的 更新的隐私政策 Google使用信息来改善我们的服务,开发新产品、功能和技术,使我们的用户和公众受益。它还说,它使用公开可用的信息来“帮助训练谷歌的人工智能模型,并构建诸如谷歌翻译、吟游诗人和云人工智能功能等产品和功能。
该政策的前一版本提到谷歌使用数据来训练“语言模型”,而现在提到的是“人工智能模型”,这扩大了其范围。
定义松散的“信息”和使用这些数据进行培训的扩展目标似乎表明,如果你在网上发布一些东西,预计谷歌会将其删减并添加到其培训数据中。
我们明白,如果我们在Facebook上发表评论,在Tweet上发布一些东西,或者在Amazon上写一篇评论,公众就可以阅读。你不会期望它是私密的。但是,你对自己的话被用来训练人工智能模型感到舒服吗?
政策措辞的变化也可能是谷歌有意加大其刮费力度的一个信号。谷歌和其他人工智能公司正在收集公开可用数据的速度正在对许多平台产生毁灭性影响。
Twitter最近限制访问 埃隆·马斯克(Elon Musk)表示,由于其服务器难以跟上“极端水平的数据抓取和系统操作”。Twitter还取消了对其API的免费访问,以遏制scraper,因此破坏了许多依赖API的第三方服务。
Reddit在这场数据争夺战中也没有毫发无损。它也取消了对Reddit API的免费访问,部分原因是scraper的利用。使用API的Reddit版主产生的反弹实际上关闭了部分互联网。
数百个最大的分支机构被私有化或不可见, 抗议subreddit版主. Reddit的所有者正在向主持人发出不那么微妙的最后通牒,要求他们再次打开subreddit,但抗议仍在继续。
具有讽刺意味的是,谷歌也因此蒙受了损失。在谷歌搜索查询后附加“Reddit”已经成为一种获取非常具体的查询结果的流行方式。Reddit的封锁使许多搜索结果现在无法访问。
大多数平台都有禁止数据抓取的服务条款政策,但违反服务条款并不一定等于违法。当他们试图解决这个问题时,请确保你同意谷歌和其他人使用你的数据来训练他们的人工智能模型,然后再在网上发布任何东西。