揭开AI系统中根深蒂固的偏见

AI特色新闻1年前 (2023)发布 yundic
87 0 0

人工智能时代呈现出技术和社会态度之间复杂的相互作用。

人工智能系统日益复杂,正在模糊人类和机器之间的界限——人工智能技术与我们自己是分开的吗?人工智能在多大程度上继承了人类的缺陷和缺点以及技能和知识?

人们可能很容易将人工智能想象成一种经验技术,强调了数学、代码和计算的客观性。

然而,我们已经意识到,人工智能系统所做的决策是高度主观的,基于它们所接触的数据,人类决定如何选择和组装这些数据。

这是一个挑战,因为人工智能训练数据往往体现了人类正在与之斗争的偏见、偏见和歧视。

即使是看似微妙的无意识偏见,也可能被模型训练过程放大,最终以执法环境中不正确的面部匹配、拒绝信用、疾病误诊和自动驾驶车辆的安全机制受损等形式暴露出来。

人类试图防止整个社会的歧视仍然是一项正在进行的工作,但人工智能现在正在推动关键的决策。

我们是否能足够快地工作,使人工智能与现代价值观同步,并防止有偏见的改变生活的决定和行为?

消除AI中的偏见

在过去的十年里,人工智能系统已经被证明反映了社会偏见。

这些系统并不是固有的偏见,相反,它们吸收了创建者的偏见和训练数据。

人工智能系统和人类一样,是通过暴露学习的。人脑是一个似乎无穷无尽的信息索引–一个拥有近乎无限的书架的图书馆,我们在那里存储经验、知识和记忆。

神经科学 研究 这表明大脑并没有真正的“最大容量”,并继续分类和存储信息直到老年。

虽然还远远不够完美,但大脑的渐进式、迭代式学习过程帮助我们适应新的文化和社会价值观,从允许女性投票和接受不同的身份,到结束奴隶制和其他形式的有意识偏见。

W我们现在生活在一个人工智能工具被用于关键决策而不是人类判断的时代。

许多机器学习(ML)模型从训练数据中学习,这些数据构成了决策的基础,并且不能像人脑那样有效地引入新信息。因此,他们往往无法做出我们依赖他们的最新、最新的决策。

例如,人工智能模型被用于识别面部匹配,用于执法目的, 分析求职申请的简历,并在临床环境中做出对健康至关重要的决策。

随着社会继续将人工智能嵌入我们的日常生活,我们必须确保它对每个人都是平等和准确的。

目前情况并非如此。

人工智能偏向的案例研究

现实世界中有许多与人工智能相关的偏见、偏见和歧视的例子。

在某些情况下,人工智能偏见的影响正在改变生活,而在另一些情况下,它们徘徊在幕后,微妙地影响决策。

1.麻省理工学院数据集偏倚

麻省理工学院2008年建立的一个训练数据集, 从小图像包含约75,000个类别的约80,000,000张图片。

它最初的设想是教人工智能系统识别图像中的人和物体,并成为计算机视觉(CV)中各种应用的流行基准数据集。

《登记册》2020年的一项分析发现, 小图片包含淫秽,种族主义和性别歧视标签。

麻省理工学院的安东尼奥·托拉尔巴说,实验室并不知道这些攻击性标签,他告诉《登记册》,“很明显,我们应该手动筛选它们。麻省理工学院后来发表了一份声明,说他们已经从服务中删除了数据集。

揭开AI系统中根深蒂固的偏见

麻省理工学院关于微小图像的声明。图片来源:Tiny Images

这并不是唯一一次发现以前的基准数据集充满问题。野生标签面孔(LFW)是一个广泛用于面部识别任务的名人面孔数据集,由77.5%的男性和83.5%的白人组成。

这些老数据集中的许多都进入了现代人工智能模型,但起源于人工智能开发的时代,当时的重点是构建系统, 只是工作 而不是那些适合部署到现实世界场景中的。

一旦人工智能系统在这样一个数据集上训练,它就不一定拥有与人类大脑相同的特权来重新校准当代价值观。

虽然模型可以迭代更新,但这是一个缓慢且不完美的过程,跟不上人类发展的节奏。

第2章:图像识别:对深色皮肤个体的偏见

2019年 美国政府发现表现最好的面部识别系统对黑人的误认是白人的5到10倍。

这不仅仅是一个统计异常—它有可怕的现实世界影响,从谷歌照片识别黑人为大猩猩到自动驾驶汽车未能识别深色皮肤的人并开车撞上他们。

此外,还有一系列涉及假面部匹配的非法逮捕和监禁,也许是最多的, 尼吉尔·帕克斯尽管距离事发地点30英里,但他被错误地指控犯有商店扒窃和道路犯罪。帕克斯随后在监狱里呆了10天,不得不支付数千美元的律师费。

揭开AI系统中根深蒂固的偏见

尼吉尔·帕克斯的面部识别匹配错误资料来源:CNN。

2018年有影响力的研究, 性别阴影,进一步探讨了算法偏见。该研究分析了IBM和微软开发的算法,发现当暴露于深色皮肤的女性时,准确率很低,错误率比浅色皮肤的男性高出34%。

这种模式在189种不同的算法中是一致的。

下面这段视频来自该研究的首席研究员喜悦·布朗维尼,它为面部识别性能在不同肤色之间的差异提供了极好的指南。

3:OpenAI的CLIP项目

openai的 clip project于2021年发布,旨在将图像与描述性文本相匹配,还说明了持续存在的偏见问题。

在一份审计文件中,CLIP的创建者强调了他们的担忧,他们说:“CLIP把一些描述高级职业的标签贴在了男性身上,比如‘高管’和‘医生’。”这与谷歌云愿景(Google Cloud Vision,GCV)中发现的偏见类似,也指向了历史上的性别差异。

揭开AI系统中根深蒂固的偏见

CLIP倾向于将男性和女性与“女士”和“金发”等有问题的刻板印象联系起来。资料来源:评估CLIP。

4:执法:PredPol争议

算法偏见的另一个高风险的例子是 PredPol这是美国各警察部门使用的预测警务算法。

PredPol根据历史犯罪数据进行训练,以预测未来的犯罪热点。

然而,由于这些数据本质上反映了偏见的警务做法,该算法被批评为延续种族貌相和不成比例地针对少数族裔社区。

5:皮肤科人工智能中的偏见

在医疗保健领域,人工智能偏见的潜在风险变得更加严重。

以设计用于检测皮肤癌的人工智能系统为例。这些系统中的许多都是在绝大多数由浅色皮肤的人组成的数据集上训练的。

一个2021 牛津大学的研究调查了21个开放获取的皮肤癌图像数据集。他们发现,在揭示其地理来源的14个数据集中,有11个仅由来自欧洲、北美和大洋洲的图像组成。

在21个数据库的106950张照片中,只有2436张记录了皮肤类型的信息。研究人员指出,“只有10张照片来自记录为棕色皮肤的人,一张来自记录为深棕色或黑色皮肤的人。

在种族数据方面,只有1,585张图片提供了这一信息。研究人员发现,“没有图像来自非洲、非洲—加勒比或南亚背景的个人。

他们总结说,“再加上数据集的地理来源,深色皮肤人群的皮肤病变图像存在大量不足。

如果这些人工智能部署在临床环境中,有偏见的数据集会产生非常真实的误诊风险。

剖析人工智能训练数据集中的偏见:它们的创造者的产物?

训练数据(最常见的是文本、语音、图像和视频)为学习概念提供了监督机器学习(ML)模型。

人工智能系统在一开始只不过是一张空白的画布。他们根据我们的数据学习和形成联系,基本上描绘了一幅由他们的训练数据集描绘的世界图景。

通过从训练数据中学习,我们希望该模型将学习到的概念应用到新的、不可见的数据中。

一旦部署,一些高级模型可以从新数据中学习,但它们的训练数据仍然指导着它们的基本性能。

首先要回答的问题是,数据从何而来?从不具代表性的、往往是同质的和历史上不公平的来源收集的数据是有问题的。

这可能适用于大量的在线数据,包括从“公开”或“公共”来源获取的文本和图像数据。

互联网仅仅是几十年前的构想,它并不是人类知识的灵丹妙药,而且远不公平。世界上有一半的人不使用互联网,更不用说为互联网做贡献了,这意味着互联网根本不能代表全球社会和文化。

此外,虽然人工智能开发人员一直在努力确保该技术的好处不局限于英语世界,但大多数训练数据(文本和语音)是用英语生成的,这意味着英语贡献者驱动模型输出。

Anthropic的研究人员最近 发表了一篇论文 他总结说:“如果一种语言模型不成比例地代表了某些观点,它就有可能带来潜在的不良影响,比如宣扬霸权主义的世界观和反对人民的观点和信仰。

最终,虽然人工智能系统基于数学和编程的“客观”原则运行,但它们仍然存在于一个深刻主观的人类社会环境中,并由其塑造。

算法偏差的可能解决方案

如果数据是根本问题,那么构建公平模型的解决方案可能看起来很简单:你只需要让数据集更加平衡,对吗?

不完全是一 2019年的研究 研究表明,平衡数据集是不够的,因为算法仍然不成比例地作用于受保护的特征,如性别和种族。

作者写道:“令人惊讶的是,我们发现,即使数据集是平衡的,每个标签与每个性别平等共存,学习模型放大了标签和性别之间的关联,就像数据没有平衡一样!”

他们提出了一种去偏置技术,将这些标签从数据集中完全移除。其他技术包括添加随机扰动和失真,这减少了算法对特定受保护特性的关注。

此外,虽然修改机器学习训练方法和优化是产生无偏输出所固有的,但高级模型容易发生变化或“漂移”,这意味着它们的性能在长期内不一定保持一致。

一个模型在部署时可能是完全不偏倚的,但后来随着新数据的增加而变得有偏倚。

算法透明度运动

在她那本煽动性的书中, 人工非智能:计算机如何误解世界Meredith Broussard主张增加“算法透明度”,让人工智能系统接受多个层面的持续审查。

这意味着提供清楚的信息,说明系统如何工作,它是如何训练的,以及它训练的数据是什么。

虽然透明度倡议很容易被开源人工智能领域吸收,但像GPT、Bard和Anthropic的Claude这样的专有模型是“黑匣子”,只有它们的开发者确切地知道它们是如何工作的–就连这也是一个有争议的问题。

人工智能中的“黑箱”问题意味着外部观察者只看到进入模型的内容(输入)和输出(输出)。内部机制是完全未知的,除了他们的创造者—很像魔法阵屏蔽魔术师的秘密。我只是把兔子从帽子里拿出来。

黑匣子问题最近围绕着报道, GPT-4‘S成绩可能下降. GPT—4用户认为该模型的能力已经迅速下降,虽然OpenAI承认这是真的,但他们还不完全清楚为什么会发生这种情况。这就提出了一个问题,他们知道吗?

人工智能研究人员Sasha Luccioni博士表示,OpenAI缺乏透明度是一个问题,也适用于其他专有或封闭的人工智能模型开发人员。“任何闭源模型的结果都不可复制,也不可验证,因此,从科学的角度来看,我们正在比较浣熊和松鼠。

科学家们不需要持续监控部署的LLM。这取决于模型创建者提供对底层模型的访问,至少出于审计目的,”她说。

Luccioni强调,人工智能模型开发人员应该提供SuperGLUE和WikiText等标准基准测试的原始结果,以及BOLD和HONEST等偏向基准测试的原始结果。

与人工智能驱动的偏见和偏见的斗争可能会持续不断,需要持续的关注和研究,以在人工智能和社会共同发展的过程中保持模型输出。

虽然监管将要求采取监控和报告的形式,但对于算法偏见问题,几乎没有硬性而快速的解决方案,这并不是我们最后一次听到的。

© 版权声明

相关文章

暂无评论

暂无评论...