Stability AI前音频副总裁Ed Newton—Rex宣布推出“Fairly Trained”,这是一个非营利组织,致力于认证生成人工智能公司以实现更公平的训练数据实践。
该计划旨在区分那些在不公平的数据上训练人工智能的公司,以及那些通过许可或创建自己的专有数据而采取更道德方法的公司。
Newton—Rex表示:“很难知道哪些生成人工智能公司是在收集到的数据上进行训练的,哪些公司通过授权采取了更道德的方法。因此,今天我们推出了Fairly Trained,这是一个非营利组织,认证生成人工智能公司进行更公平的训练数据实践。
很难知道哪些生成人工智能公司在收集到的数据上进行训练,哪些公司通过授权采取了更道德的方法。因此,今天我们推出了公平培训,一个非营利组织,认证一代人工智能公司的公平培训数据实践。
我们的第一个认证,叫做…
– Ed Newton—Rex(@ ednewtonrex)2024年1月17日
与此同时,越来越多的人批评称,为了培训人工智能模型而对自由放任的数据进行窃取,这一过程让版权所有者感到愤怒。1月初,一份用于中途培训和优化的1.6万名艺术家的名单被泄露,这场辩论又掀起了一场高潮。
在此之后,像Magic:The Gathering和Wacom这样依赖人类创造力的公司,因在社交媒体上使用人工智能生成的图像而受到严厉抨击。与此同时,有关人工智能职位替换的报道出现在社交媒体上,包括Duolingo。
中途和稳定人工智能,牛顿-雷克斯的前公司,目前陷入了一场版权诉讼,预计将在今年做出裁决。这是针对OpenAI、Anthropic、Meta、MidTrip、稳定和其他公司的众多投诉之一。
稳定性人工智能因在其模型中使用了数百万受版权保护的图像和音频文件而受到密切关注,这引发了人们对合理使用界限的质疑–牛顿-雷克斯现在打算通过这个训练有素的程序来解决这一问题。
牛顿-雷克斯去年辞去了稳定人工智能公司的职务,他在X上表示:“我已经辞去了在稳定人工智能公司领导音频团队的职务,因为我不同意该公司的观点,即在受版权保护的作品上培训具有创造力的人工智能模型是‘合理使用’。”
我已经辞去了稳定AI音频团队的领导职务,因为我不同意该公司的观点,即在受版权保护的作品上训练生成AI模型是“合理使用”。
首先,我想说在稳定团有很多人…
– Ed Newton—Rex(@ ednewtonrex)2023年11月15日
尽管他从稳定人工智能辞职,但Newton—Rex对实现生成人工智能和创意产业之间的和谐关系表示乐观,这一点现在得到了Fairly Trained的强调。
训练有素的项目
“公平培训”推出了其第一个认证,“许可模型(L)认证”。
我们的目标是突出那些道德上使用训练数据的人工智能模型,确保没有许可证的情况下不会使用任何受版权保护的作品。这适用于图像和音乐生成等多个领域的人工智能模型。
为满足标准,训练数据必须是:
- 与权利持有人签订合同。
- 在适当的开放许可证下。
- 在全球公共领域。
- 由模型开发人员拥有。
公司必须彻底检查其培训数据的权利状态,并维护所使用的培训数据的详细记录。申请包括详细的书面提交和审查过程,最后是认证和年度重新评估。
虽然牛顿-雷克斯承认,这第一个认证并没有解决关于生成性人工智能培训的所有问题,比如选择加入还是选择退出的争论,但这是向前迈出的一步。
到目前为止,该方案受到了广泛的欢迎。 Bria AI的Yair Adato博士对此表示赞赏,他在一篇博客文章中表示:“我们自豪地支持经过良好培训的认证。这一举措抵消了该行业在数据采购方面的不透明,确保公司达到严格的道德标准。
环球公司高级副总裁Christopher Horton表示:“我们欢迎推出公平培训认证,以帮助公司和创作者识别负责任的人工智能生成工具,这些工具是根据合法和道德获得的材料进行培训的。
Fairly Trained已经认证了9家涉及图像生成、音乐创作和语音合成的生成人工智能公司,包括Beatoven. AI、Boomy、BRIA AI、Endel、LifeScore、Rightsify、www.example.com、Soundful和Tuney。
看看有哪些公司签署了该计划,以及他们的数据有多透明,这将是一件有趣的事情。理想情况下,公众应该能够自己查看数据集(提供其公有领域或不受其他方面的专有或保护)。
认证中存在一些复杂性,因为数据必须在“全球公共领域”,由于不同司法管辖区的版权法不同,这可能会很难导航。
在一个国家被认为是公有领域的东西在另一个国家可能不存在。例如,一部文学作品可能在作者去世70年后在美国进入公有领域,但同一部作品在欧洲可能仍受版权保护。
在任何情况下,公平训练的数据必须“在全球公有领域”的要求意味着高标准。
今年会不会是人工智能公司的问责增加和数据实践更加透明的一年?