更多作者试图起诉OpenAI使用版权材料

AI伦理与社会10个月前发布 yundic
513 0 0

随着美国喜剧演员兼作家莎拉·西尔弗曼、作家克里斯托弗·戈登和理查德·卡德雷对OpenAI和Meta提起诉讼,人工智能诉讼层出不穷。

三人声称侵犯版权,声称他们的作品被非法用于训练ChatGPT和LLaMA,Meta的开源大型语言模型(LLM)。

ChatGPT依赖于对来自互联网的大量数据的分析—正是这些数据教会了它如何处理自然语言。许多问题围绕着这些训练数据的来源和用于检索它的方法,怀疑加深了现在的创建者发现他们的工作可能包含在这些训练数据中。

在这起最新的诉讼中,OpenAI和Meta被控在未经原告同意的情况下,将其受版权保护的图书用作训练数据。

这些诉讼表明,这些材料来自“影子图书馆”网站。影子图书馆包含大量非法复制的信息,包括Bibliotik、Library Genesis和Z—Library等网站。影子库类似于种子—它们很难预防和控制。

OpenAI被指控在提示时准确总结了三本书:Silverman的《The Bedwetter》、Golden的《Ararat》和Kadrey的《Sandman Slim》。虽然人工智能可以从维基百科的摘要和类似内容中了解这些书籍,但这并不能解释摘要中包含的详细程度。

针对Meta的诉讼列举了Kadrey和Golden的几部作品,以及”The Bedwetter”,指的是一篇Meta论文,表明使用了影子图书馆的材料,诉讼称之为”公然非法”。

梅塔氏纸 他说:”我们在训练数据集中包括两个图书语料库:古腾堡项目,其中包含公共领域的图书,以及ThePile的Books3部分(Gao等人,2020年),一个用于训练大型语言模型的公开数据集。

代表这三人的律师Joseph Saveri和Matthew Butterick报告说,人们越来越担心ChatGPT模仿受版权保护的文本的令人不安的能力。

研究 已经表明,GPT—4几乎肯定是从受版权保护的作品中学习的。

然而,这可能是因为它们很受欢迎和广泛传播,或者出现在学校和大学的课程阅读中。

无论如何,这都不能严格地原谅人工智能公司在他们的训练数据中使用这些文本。

人工智能相关诉讼呈上升趋势

人工智能已经成为一场诉讼风暴的中心,其中许多被认为是同类案件中的首例。

这些律师还代表美国作家莫娜·阿瓦德和保罗·特伦布莱对OpenAI提起单独但几乎相同的集体诉讼。

同样,同样的法律团队,萨维里和巴特里克,代表三位艺术家-萨拉·安德森、凯利·麦科南和卡拉·奥尔蒂斯-起诉图像生成公司稳定人工智能和中途。

同一家律师事务所 针对Microsft和GitHub的案件声称他们的人工智能工具Copilot人工智能工具从开源程序员的工作中获益。这是一个非常类似的案例—原告辩称,人工智能工具是基于包含非法提取的“开源”数据的信息进行训练的。

在这里,被告声称,“美国数字千年版权法第1202(B)条”是关于相同的‘Copies…一部作品–不是关于流浪的片段和改编的。人工智能公司可能会以类似的理由反对作者,认为他们的工作总结不足以支持他们的论点,即这些书完整地出现在培训数据中。

无论哪种方式,指控都在堆积,表明人工智能公司面临的法律压力越来越大。

《欧盟人工智能法》等人工智能法规要求企业在培训数据中披露受版权保护的数据信息。这是否会产生预期的效果还有待观察。

© 版权声明

相关文章

暂无评论

暂无评论...