埃隆·马斯克限制用户可以查看的推文数量,以遏制数据抓取

AI伦理与社会1年前 (2023)发布 yundic
148 0 0

埃隆·马斯克暂时限制了用户一天内可以查看的推文数量。这被描述为“临时紧急措施”。

在他自己的推文中,马斯克表示,未经验证的账户现在每天阅读1000个帖子的限制。新的未经核实账户的员额限制为500个,而具有”经核实”地位的账户目前每天只能查看10 000个员额。

最初,马斯克实施了更严格的限制,但在宣布后的几个小时内就修改了。

马斯克表示 这些临时限制是为了应对“极端程度的数据抓取和系统操作”。

他上周五指出,在用户看到屏幕要求他们登录查看Twitter内容后,“我们的数据被大量掠夺,以至于对普通用户来说是降级的。”

马斯克最初设定的阅读限制为:经验证的账户每天6000篇,未经验证的账户每天600篇,未经验证的账户每天300篇。在随后的更新中,马斯克表示“数百个组织,也许更多,正在非常积极地收集Twitter数据。

数据抓取是从互联网上提取信息的过程。

为了构建复杂的大型语言模型(LLM),人工智能公司需要来自真实人类对话的数据,在这里找数据比上网更好吗为了收集这些数据,机器人不知疲倦地抓取Twitter等网站并提取文本数据。

然而,尽管这些数据对公众开放,但许多数据并不是供人获取的。像Twitter和Reddit这样的平台希望为他们的数据付费。

此外,数据抓取机器人给服务器带来了压力。马斯克对人工智能持批评态度,他说:“为了促进一些人工智能初创公司的离谱估值,不得不在紧急情况下将大量服务器在线是相当令人恼火的。

同样,在4月份,Reddit的首席执行官史蒂夫·赫夫曼告诉纽约时报“Reddit的数据语料库真的很有价值,但我们不需要把所有的价值都免费提供给世界上一些最大的公司。”

Twitter已经开始向用户收取访问其应用程序编程接口(API)的费用,该接口通常由包括人工智能公司在内的第三方应用程序和研究人员使用。

但这到底是谁的数据呢?

在Reddit和Twitter等网站的服务器上,有一种形式的数字游击战正在发生。

数据抓取器正在密集挖掘互联网以推动人工智能模型,即使这些数据并不打算以这种方式使用。

Reddit、Twitter等,他们完全有权打击数据抓取,但这并不容易。

抓取是违反这些网站的服务条款,但可能不违法—尽管这取决于你使用数据的目的。

本质上,数据抓取是一种数字入侵的形式。 即使你没有做任何违法的事情,你仍然是在某人的财产上。

Twitter似乎正在开发新的技术来遏制数据抓取,考虑到马斯克对人工智能行业及其一些关键参与者的普遍批评,这当然是有道理的。

© 版权声明

相关文章

暂无评论

暂无评论...