超过16,000名艺术家的名字与Midjourney图像生成模型的非自愿培训联系在一起。
中途艺术家数据库附在针对Sta-bil-AI、DeviantArt和Mid-jour-ney提交的修改后的诉讼中根据证据J提交, 在最近泄露的一份公开的谷歌电子表格中,其中一部分可以在 互联网档案馆.
艺术家Jon Lam在X上分享了来自Midjourney Discord聊天的截图,开发者讨论使用维基百科和其他来源的艺术家名称和风格。
据信,该电子表格最初来自Midjourney的开发团队, 正视中途开发商泄露的不和谐聊天,这些聊天暗示这位艺术家的作品被映射到“风格”上。
通过将艺术家的作品编码为“风格”,中途可以高效地以他们的风格重现作品。
林写道,“中途开发者发现讨论洗钱,并创建一个艺术家数据库(谁已被非人化的风格。
林还分享了艺术家名单的视频,包括那些用于中途风格的作品和另一个“推荐艺术家”名单。许多X用户表示他们的名字在这些名单上。
Midjourney的开发人员发现他们在讨论洗钱问题,并创建了一个艺术家数据库(他们已经被非人化的风格)来训练Midjourney。这已成为诉讼的证据。提示工程师,你的“技能”不是你的shttps://www.example.com www.example.com
– Jon Lam #DantScrape(@ JonLamart)2023年12月31日
一张截图似乎显示了Midjourney首席执行官David Holz的声明,庆祝培训计划增加了16,000名艺术家。
另一个显示了一个中途开发者讨论你必须通过一个“法典”来“洗钱”,不过,没有上下文,很难说这是否指的是艺术家的作品。
在同一场对话中的其他人(不是中途员工)提到,通过人工智能模型处理艺术品实际上是如何将其从版权中剥离出来的。
其中一个人说,“你所要做的就是使用那些被刮掉的数据集,然后方便地忘记你用来训练模型的东西。繁荣永远解决了法律问题。
法律案件如何发展
在针对中途、稳定人工智能以及OpenAI、Meta和谷歌(但基于文本的作品,而不是图像)提交的法律案件中,艺术家、作家和其他人发现很难逐字证明他们的作品真的在模型中。
这将是他们证明侵犯版权所需的确凿证据。
总的来说,版权在人工智能时代仍然定义不清。人工智能模型是根据必须来自某个地方的数据进行训练的,还有什么比互联网更好的来源来找到这些数据呢?
开发人员从互联网上“抓取”了所谓的“开放”、“开源”或“公共”数据,但这些概念的定义也很差。可以公平地说,当人工智能开发人员嗅到了即将到来的淘金热时,他们从互联网上获取了尽可能多的“开放”数据,并将其用于训练他们的模型。
法律程序缓慢;相比之下,人工智能是光速。开发者很容易在版权所有者和管理知识产权的法律做出反应之前很久就绕过版权法并训练模型。
反应过程目前正在进行中,但人工智能培训过程和从用户输入生成人工智能输出(例如,文本或图像)所涉及的技术过程都挑战了知识产权法的性质。
具体地说,很难证明人工智能模型确实针对版权材料进行了训练,以及b)很难证明他们的输出充分复制了版权材料。
还有一个问责问题。像OpenAI和Midjourney这样的人工智能公司至少部分使用了他人收集的数据,而不是自己收集。那么,难道不是原始数据抓取器要承担侵权责任吗?
在Midjourney最近的情况下,Midjourney的模型和其他模型一样,总是重现其数据中包含的作品的混合体。艺术家很难证明他们用了什么作品。
例如,最近一起针对Midjourney、Stability AI和DeviantArt的版权案件, 被驳回 (it自从 已重新提交与新原告),联邦法官奥里克发现了索赔方式的几个缺陷,特别是在他们对人工智能图像生成器如何工作的理解方面。
最初的诉讼声称,Stability AI在训练其稳定扩散模型时,存储了图像的压缩副本。
Stability AI反驳了这一点,澄清了训练过程涉及提取线条、阴影和颜色等属性,并根据这些属性开发参数,而不是存储图像的副本。
Orrick的裁决强调了原告需要修改他们的主张,以更准确地代表这些人工智能模型的运作。
这包括需要更明确地解释针对中途的索赔是由于使用了稳定扩散,还是独立使用了训练图像,还是两者兼而有之(因为中途还被指控使用了稳定人工智能的模型,据称使用了受版权保护的作品)。
原告面临的另一个挑战是证明《中途之旅》的作品与他们的原创作品基本相似。Orrick指出,原告自己也承认,Stable Diffusion的输出图像不太可能与训练数据中的任何特定图像紧密匹配。
截至目前, 案子还在法院否认了人工智能公司最近试图驳回艺术家的索赔。
Ai技术人员会让你相信诉讼已经结束或被驳回,不,诉讼仍在进行中,而且案件档案中增加了更多的证据和原告。
更新案例档案www.example.com
– Jon Lam #DantScrape(@ JonLamart)2024年1月2日
.
LAION数据集的使用被抛入混合
针对Midjourney和Co.提交的法律案件也强调了他们对LAION—5B数据集的潜在使用,该数据集汇集了58.5亿张互联网来源的图像,包括版权保护的内容。
斯坦福大学最近抨击了LAION 因为包含非法的性图像,包括儿童性虐待和各种性别歧视,种族主义和其他可悲的内容—所有这些现在也“生活”在人工智能模型中,社会开始依赖人工智能模型的创造性和专业用途。
这一点的长期影响受到了激烈的辩论,但事实上,这些人工智能可能首先是针对被盗作品的培训,其次是针对非法内容的培训,这并没有对人工智能的发展产生积极的影响。
Midjourney开发者的评论在社交媒体和Y Combinator论坛上受到了广泛的抨击。
2024年很可能会引发更激烈的法律辩论,人工智能开发的狂野西部篇章可能即将结束。