偏见一直是人工智能的一个问题,但一项新的研究表明,它被秘密地集成到语言模型中,可能会带来灾难性的后果。
在已经被誉为里程碑式的研究中,包括Valentin Hofman、Pratyusha Ria Kindi、Dan Jurafsky和Sharese King在内的一组研究人员记录了大型语言模型(LLM)如何歧视非裔美国人英语(AAE)。
简而言之,这项研究测试了不同的拼写和方言如何影响LLM的行为。它探讨了某些方言和词语的使用是否会影响LLM的行为,重点是偏见和歧视。
我们知道LLM输出对输入高度敏感。即使是拼写和风格上的微小偏差也会影响输出。
但这是否意味着某些输入—例如,那些输入AAE的人—产生偏置输出?如果是,可能的后果是什么?
为了回答这些问题,研究人员分析了总共12个LLM对AAE的偏见,揭示了与人类通常持有的偏见相当或超过的偏见。这项研究可在Arxiv上获得。
然后,研究人员将他们的发现应用到就业和刑事司法等社会领域,在这些领域,人工智能决策正变得越来越普遍。
霍夫曼描述了X的研究方法:“我们使用匹配的伪装探测法来分析LLM中的方言偏见:我们将非裔美国人英语和标准化美国英语(SAE)文本嵌入提示中,要求说出文本的说话者的属性,并比较两种输入的模型预测。
我们使用匹配的伪装探测来分析LLM中的方言偏见:我们在提示中嵌入非裔美国人英语和标准化美国英语文本,要求说出文本的说话者的属性,并比较两种类型的输入的模型预测。pic.twitter.com/drTco67Ean
– Valentin Hofmann(@ vjhofmann)2024年3月4日
该方法允许团队直接比较LLM对AAE和SAE输入的反应,揭示了隐藏的偏见,否则会被掩盖。
至少可以说,这项研究的发现令人不安。
霍夫曼指出:“我们发现,LLMS所体现的关于非洲裔美国人英语使用者的隐蔽、种族语言刻板印象,比任何实验记录的人类对非裔美国人的刻板印象都要负面,尽管最接近民权运动之前的刻板印象。”
我们发现,LLM所体现的关于非裔美国人英语的演讲者的隐蔽的,种族语言刻板印象比任何人类对非裔美国人的刻板印象都更负面,尽管最接近民权运动之前的刻板印象。pic.twitter.com/07LgUY2bCj
– Valentin Hofmann(@ vjhofmann)2024年3月4日
这表明,法学硕士中存在的偏见不仅反映了当代刻板印象,而且更符合许多人认为社会已经超越的偏见。
这项研究最令人关注的方面之一是偏见的具体语言触发因素。
Hofmann详细阐述了,“非裔美国人英语文本在法学硕士中引起方言偏见的具体是什么?我们表明,隐性刻板印象与非裔美国人英语的个体语言特征直接相关,例如使用“finna”作为未来标记。
这表明,这种偏见不仅普遍反对使用AAE,而且与该方言特有的不同语言元素有关。
在法学硕士中,非裔美国人英语文本引起方言偏见的具体是什么?我们发现,隐性刻板印象与非裔美国人英语的个体语言特征直接相关,如使用“finna”作为未来标记。pic.twitter.com/JhPhX7ZE5U
– Valentin Hofmann(@ vjhofmann)2024年3月4日
潜在的危害
这种偏见造成的潜在危害是巨大的。之前的研究已经表明,人工智能系统往往会让女性、深色皮肤的个人和其他边缘化群体失败。
在过去几年之前,人工智能系统面临着接受训练的风险, 非代表性数据集.其中一些,比如麻省理工学院在2008年创作的《微小的图像》,后来由于性别歧视和种族主义而被撤回。
2018年一项有影响力的研究,性别阴影分析了数百种ML算法,发现深色皮肤女性的错误率比浅色皮肤男性高出34%。
影响是明显的,医疗保健模型显示,在那些肤色较深的人中,皮肤癌的误诊率很高,而且偏见的预测性警务模型不成比例地针对黑人。
我们已经观察到,人工智能在公共部门越来越多地使用,从犯罪和警务到福利和经济。解决复杂人工智能系统中的根本偏见是绝对关键的,如果要继续下去。
在这项研究的基础上,霍夫曼的团队调查了LLM偏差如何影响几种假设情景。
霍夫曼说:“专注于就业和犯罪领域,我们发现潜在的伤害是巨大的。
具体而言,法学硕士被发现分配不太有声望的工作,并建议对AAE的发言人更严厉的刑事判决。
首先,我们的实验表明,与说标准美国英语的人相比,LLM给说非裔美国英语的人分配的体面工作要少得多,尽管他们没有被公开告知说这些人是非裔美国人。Pic.twitter.com/t5frzzzwJB
– Valentin Hofmann(@ vjhofmann)2024年3月4日
霍夫曼警告说:“我们的研究结果指出了两个风险:用户误认为,当法学硕士实际上达到了越来越高的隐性偏见水平时,法学硕士中的种族主义已经得到解决。
第二,当法学院被要求对犯下谋杀罪的被告作出判决时,当被告说非裔美国人英语而不是标准化美国英语时,他们更经常选择死刑,再次没有被公开告知他们是非裔美国人。pic.twitter.com/8VBaCXfNEi
– Valentin Hofmann(@ vjhofmann)2024年3月4日
研究还确定,消除这些问题在技术上具有挑战性。
作者写道,“我们表明,现有的减轻语言模型中种族偏见的方法,如人类反馈训练,并不能减轻方言偏见,但可以加剧隐蔽和公开刻板印象之间的差异,通过教语言模型表面上隐藏他们在更深层次上维持的种族主义。
可以认为这些偏见适用于其他方言或文化语言的变异。需要更多的研究来了解LLM表现如何随着语言输入、文化使用模式等而变化。
该研究最后呼吁人工智能研究界和整个社会采取行动。 随着人工智能系统越来越多地嵌入整个社会,解决这些偏见是至关重要的。
然而,到目前为止,一些人工智能系统固有的和系统地嵌入的偏见仍然存在这是开发人员在争夺人工智能优势的竞赛中准备忽略的问题。