我们想要公正的LLM,但这是不可能的。原因如下

AI伦理与社会1年前 (2023)发布 yundic
479 0 0

像OpenAI和Meta这样的公司正在努力使他们的语言模型更安全,更少偏见,但完全不带偏见的模型可能只是一个白日梦。

新研究论文 来自华盛顿大学、卡内基梅隆大学和Xi交通大学的研究人员得出结论,他们测试的所有人工智能语言模型都显示出政治偏见。

在深入研究了偏见的来源后,他们得出结论,语言模型中的偏见是不可避免的。

该论文的作者之一Chan Park说:“我们相信没有任何语言模式可以完全摆脱政治偏见。

研究人员测试了14种不同的语言模型,并询问他们对民主、种族主义和女权主义等话题的看法,看看模型属于政治光谱的哪一方。

结果显示,OpenAI的ChatGPT和GPT—4反应最靠左,而Meta的Llama反应最靠右。

训练数据不是唯一的偏见来源

偏见的明显来源是这些模型训练的数据,但新的研究表明,即使剔除了数据中的偏见,这些模型也容易受到数据中残留的低水平偏见的影响。

你会期望一个在福克斯新闻的一堆数据上训练的法学硕士在其回应中更亲共和党。但问题不仅仅在于训练数据。

事实证明,随着预先训练的语言模型被微调和使用,它们从操作员那里获得了更多的偏见。

达特茅斯学院计算机科学助理教授Soroush Vosoughi解释说,在法学硕士发展的几乎每个阶段都会引入偏见。

这方面的一个例子是OpenAI如何试图消除其模型中的偏见。它使用一种名为“通过人类反馈强化学习”或RLHF的技术来训练其模型。

在RLHF中,人类操作员训练模型的方式类似于训练小狗。如果小狗做了好事,它会得到奖励;如果它咀嚼你的拖鞋,它会说”坏狗!”

一个RLHF操作员用一些问题提示模型,另一个操作员然后评估模型给出的多个响应。第二个运算符评估响应,并根据他们最喜欢的哪一个排序。

上一篇:如何训练AIOpenAI表示,它指示人类培训师“避免在有争议的话题上采取立场”,“评论者不应该偏袒任何政治团体”。

这听起来是个好主意,但即使我们真的很努力不去做,所有的人类都有偏见。这不可避免地影响了模型的训练。

甚至我们上面提到的论文的作者也在他们的结论中承认,他们自己的偏见可能影响了他们的研究。

解决方案可能是尝试让这些语言模型不是非常糟糕,然后根据人们的偏见对它们进行定制。

人们经常说他们想要不偏不倚的事实,但他们最终还是坚持使用他们喜欢的新闻来源,如福克斯或CNN。

我们并不总是同意什么是对或错,这项新的研究似乎表明,人工智能也无法帮助我们解决这个问题。

© 版权声明

相关文章

暂无评论

暂无评论...