在提交给英国上议院的一份书面证据声明中,OpenAI表示,在不使用受版权保护的材料的情况下创建人工智能工具是“不可能的”。
这是在围绕版权与人工智能互动的激烈辩论之际发生的,作者、作家和媒体机构,如纽约时报提起诉讼,对OpenAI,微软,稳定性AI,Anthropic,谷歌和Midjourney,仅举几例。
大型语言模型(LLM),如ChatGPT和图像生成器,如Midjourney,最近因创建一个 16,000名艺术家的数据库出于模型培训的目的,他们的培训依赖于大量受版权保护的数据。
事实上,版权数据构成了人工智能培训材料的主要内容,因为它非常丰富,涵盖了人类创造力的广泛领域,而且很容易从互联网上检索。
人工智能公司辩称,对于他们的模型培训目的来说,这些数据是合理使用的,但其他许多公司不同意这种说法。
作为对上议院通信和数字选择委员会的回应,OpenAI最近强调了他们需要有版权保护的材料来培训像GPT—4这样的LLM。
OpenAI表示:“由于今天的版权几乎涵盖了人类的所有表达方式,包括博客、照片、论坛帖子、软件代码碎片和政府文件,因此不可能在不使用受版权保护的材料的情况下训练当今领先的人工智能模型。
该公司进一步辩称,将培训材料限制在公共领域来源将导致糟糕的人工智能系统。
“将训练数据限制在一个多世纪前创建的公共领域书籍和图纸可能会产生一个有趣的实验,但不会提供满足当今公民需求的人工智能系统,”OpenAI补充道。
你可以阅读整个 提交书面证据这也涉及人工智能的未来轨迹,灾难性风险,OpenAI将其前沿模型论坛和准备团队以及监管。
公众的反应
人们对这些言论的反应并不完全同情。
例如,业内知名人士加里·马库斯博士(Gary Marcus)表示,这本质上是将人工智能模型贴上了被盗版权作品的货币化标签。
事实上,这似乎几乎是OpenAI的一个弗洛伊德式的失误,承认他们的商业模式在不操纵法律的情况下是行不通的。
有一种明显的不公正感,硅谷高层的人很少从这么多人的工作中受益。
OpenAI的声明还声称,他们理解当今“公民”的“需求”,暴露出大型科技公司将生成人工智能视为人道主义甚至慈善项目的观点与人们担心它正在窃取他们的数据并取代他们的技能之间的差距越来越大。
马库斯博士评论道:“(人工智能公司)…我们应该回到绘图板上,找出如何开发出不存在抄袭问题的软件,而不是敲诈艺术家、作家和其他内容提供商。”
现在我们知道为什么山姆·奥特曼(Sam Altman)去年夏天周游世界,会见世界各国领导人了:除非他们能说服各国政府给他们一次历史上最大的施舍,否则他的公司不会做大。https://t.co/Pcc8FchG1a
– Gary Marcus(@ GaryMarcus)2024年1月8日
诉讼案越来越多
这也发生在几起针对OpenAI的诉讼中,John Grisham、Jodi Picoult和George RR Martin等著名作家去年9月起诉该公司,指控其“大规模的系统性盗窃”。
两位受人尊敬的记者,尼古拉斯·盖奇和尼古拉斯·巴斯班斯提出了另一项投诉, 上周与OpenAI和微软这增加了来自写作和视觉艺术界的人工智能公司面临的越来越多的法律挑战。
OpenAI还回应了《纽约时报》的诉讼,称他们认为它“没有价值”,见下文。
我们构建人工智能是为了赋予人们权力,包括记者。
我们对@ nytimes诉讼的立场:
·培训是公平使用的,但我们提供选择退出
·“回归”是一种罕见的错误,我们正在将其归零
·《纽约时报》没有讲述全部故事https://www.example.com– OpenAI(@ OpenAI)2024年1月8日
这些事态发展引发了人们对人工智能公司今年和未来可能面临的潜在法律责任的担忧。他们将如何适应?公众日益增长的抵制是否会对该行业的发展轨迹产生影响?
如何在道德上训练大规模的人工智能模型?伦理学甚至与目前的技术兼容吗?
到目前为止,人工智能公司的防御还在维持,但人工智能开发人员的“合理使用”理念与其他人如何看待它之间的鸿沟正在扩大。