Anthropic发表论文揭示大型语言模型的偏见

AI伦理与社会11个月前发布 yundic
512 0 0

人工智能公司Anthropic的一篇新论文揭示了大型语言模型(LLM)固有的潜在偏见,表明这些人工智能系统可能无法充分代表对社会问题的不同全球视角。

研究人员建立了一个名为GlobalOpinionQA的数据集,其中包括跨国调查的问题和答案,旨在捕捉不同国家对全球问题的不同看法。

人类的实验 一个LLM的测试发现,默认情况下,模型的反应倾向于更接近于特定人群的意见,特别是来自美国,英国,加拿大,澳大利亚和其他一些欧洲和南美国家的意见。

它是如何工作的

  1. 数据集创建:该团队创建了GlobalOpinionQA数据集。该数据集包含了跨国调查的问题和答案,这些调查专门旨在捕捉对全球问题的各种不同意见。
  2. 定义相似性度量接下来,Anthropic制定了一个度量标准,以衡量LLM给出的回答与人们的回答之间的相似性。该指标考虑了人类受访者的原籍国。
  3. 培训LLM:Anthropic培训了基于“宪法AI”的法学硕士,确保法学硕士是有益的,诚实的,无害的。宪法人工智能是Anthropic开发的一种技术,旨在为人工智能系统注入由”宪法”定义的”价值观”,
  4. 正在进行实验利用他们精心设计的框架,Anthropic的团队在经过训练的LLM上执行了3个独立的实验。

研究人员认为,这突显了模型中的潜在偏见,导致某些群体的观点与西方国家的观点相比没有得到充分的代表。

他们指出:“如果一种语言模式不成比例地代表某些观点,就有可能产生潜在的不良影响,比如宣扬霸权主义的世界观,使人们的观点和信仰同质化。”

此外,研究人员观察到,促使模型考虑特定国家的观点会导致反应更接近这些人群的观点。

这意味着你可以要求人工智能在某个文化辩论中“考虑南美的观点”。 然而,这些反应有时反映出有害的文化陈规定型观念,表明这些模式缺乏对文化价值观和观点的细致理解。

有趣的是,当研究人员将GlobalOpinionQA问题翻译成目标语言时,模型的回答并不一定与这些语言的使用者的意见一致。

所以,用日语问一个问题并不一定会引起与日本文化价值观一致的反应。你不能将人工智能与其主导的西方价值观“分开”。

这表明,尽管它们具有适应性,但法学硕士必须更深入地了解社会环境,以产生准确反映当地意见的反应。

研究人员相信,他们的发现将为当前语言模型所编码和反映的视角提供透明度。尽管他们的研究存在局限性,但他们希望这将指导人工智能系统的发展,这些系统体现了多种文化观点和经验,而不仅仅是特权或占主导地位的群体的文化观点和经验。他们还发布了他们的数据集和一个交互式可视化

这项研究与其他关于人工智能社会和文化价值的学术工作大体一致。

首先,大多数基础人工智能都是由西方公司和研究团队培训的。

此外,用于训练人工智能的数据并不总是代表整个社会。例如,LLM的绝大多数培训数据是用英语编写的,因此很可能反映了英语国家的社会和文化价值观。

研究人员非常清楚人工智能中潜在的偏见和歧视。然而,解决这个问题非常复杂,需要精心混合定制的高质量数据集和勤奋的人工输入和监控。

© 版权声明

相关文章

暂无评论

暂无评论...