斯坦福大学的人工智能研究人员评估了10个领先的人工智能模型与拟议的欧盟人工智能法案的合规性,发现差异很大,总体结果不佳。
该研究针对欧盟立法草案中规定的12项标准,严格审查了10个人工智能模型,并发现在合规性方面存在很大差异,没有一个模型在每个方框中都勾选。
这项研究突显了领先的人工智能开发者对《人工智能法案》的期望与当前治理努力之间的鸿沟。
为了遵守该法案,开发商必须大大提高透明度和风险缓解策略,而在某些情况下,这些策略几乎完全缺乏。
研究是如何进行的
作者对人工智能法案进行了详细的研究,提取了22项要求。
他们从中选出了12个可以利用公共信息进行有意义的评估的项目。然后,他们为这12个要求中的每一个创建了一个5点的标题。
由Hugging Face制作的开源AI模型BLOOM成为得分最高的模型,在潜在的48分中总共得到了36分。
相反,谷歌支持的Anthropic和德国人工智能公司Aleph Alpha的表现要差得多,分别得7分和5分。ChatGPT以25/48落在包的中间。
斯坦福大学的10个基本模型的分数。图片来源:Stanford。
4个主要的不合规领域是版权保护数据、能源、风险缓解和评估/测试。
该研究的作者之一、斯坦福大学基础模型研究中心的研究员凯文·克莱曼(Kevin Klyman)指出,大多数开发人员都没有披露他们的风险缓解策略,这可能会破坏交易。Klyman说:“提供商通常不披露其风险缓解措施的有效性,这意味着我们无法判断某些基金会模型的风险有多高。
此外,用于训练模型的训练数据也有很大的差异。欧盟将要求人工智能开发人员在数据来源方面更加透明,而十分之四的开发人员未能做到这一点。ChatGPT在这方面只得了1分。
开源与专有模型
该报告还发现了一个明确的二分法,这取决于模型是开源的还是私有的。
开源模型在资源披露和数据需求方面取得了很高的成绩,但它们的风险在很大程度上没有记录在案。
专有模型则相反——它们经过严格的测试和高度的文档化,具有强大的风险缓解策略,但在数据和技术相关指标方面不透明。
或者,更准确地说,开源开发者没有那么多需要保护的竞争秘密,但他们的产品本质上风险更大,因为几乎任何人都可以使用和修改它们。
相反,私人开发商可能会将他们模型的各个方面保密,但可以展示安全性和风险缓解。就连OpenAI的主要投资者微软也不完全了解OpenAI的模型是如何工作的。
这项研究有什么建议?
该研究的作者承认,欧盟的预期与现实之间的差距令人担忧,并向政策制定者和模型开发人
该研究建议欧盟决策者:
- 完善并具体说明《欧盟AI法》的参数研究人员认为,人工智能法案的技术语言和参数没有明确规定。
- 促进透明度和问责制研究人员认为,最严格的规则应该针对最大和最具统治力的开发商,这应该会导致更有效的执行。
- 为执法提供足够的资源:为有效执行《欧盟人工智能法》,应向执法机构提供技术资源和人才。
研究报告建议全球决策者:
- 确定透明度的优先顺序研究人员强调,透明度至关重要,应成为政策努力的主要重点。他们认为,社交媒体监管的教训揭示了透明度不足的破坏性后果,这不应该在人工智能的背景下重复。
- 澄清版权问题:AI训练数据和AI输出的版权边界争论不休。鉴于在披露受版权保护的培训数据方面观察到的合规性较低,研究人员认为,法律指导方针必须具体说明版权如何与培训程序和生成模型的输出相互作用。这包括定义在培训期间必须尊重版权或许可证的条款,以及确定机器生成的内容可能如何侵犯版权。
该研究建议基金会模型开发者:
- 们不断寻求提升:供应商应始终致力于改善其遵守情况。OpenAI等大型供应商应以身作则,并将资源分发给下游客户,通过API访问其模型。
- 倡导行业标准模型提供商应该帮助建立行业标准,这可以导致一个更加透明和负责任的人工智能生态系统。
虽然从OpenAI等领先开发人员建立的风险和监控标准中可以收集到一些积极因素,但在版权等领域的不足远远不够理想。
至于将监管应用于人工智能作为一个包罗万象的类别, –这可能会被证明是非常棘手的– 因为商业模型和开源模型在结构上是不同的,很难混为一谈。