大多数人都会作证说,互联网有时是一个充满敌意的环境,但如果你暴露在它每天所提供的最糟糕的环境中,你会怎么样?
内容版主的任务是筛选文本、图像和视频,并手动标记有害内容,从种族诽谤和仇恨言论到关于谋杀和自杀的讨论或描述。
这份工作对心理造成的破坏性影响已经有了充分的记录,无论是以业内人士的公开信的形式出现的,还是在学术研究中。
蓬勃发展的生成人工智能行业刺激了对内容版主的新需求, 再一次,来自这份具有挑战性的工作内部的故事开始浮出水面。
肯尼亚的数据工作者谈论AI内容审核
在肯尼亚,OpenAI ChatGPT的几位前内容管理员向肯尼亚政府提交了一份请愿书,要求对他们所称的“剥削性条件”进行调查。
这些剥削性的商业活动围绕OpenAI与Sama的签约服务展开,Sama是一家位于加利福尼亚州的数据注释服务公司。
作为 根据请愿书,“在整个ChatGPT培训合同中,我们没有得到心理社会支持。由于接触到这种工作,训练ChatGPT,我们患上了严重的精神疾病,包括创伤后应激障碍、偏执、抑郁、焦虑、失眠、性功能障碍,仅举几例。
《时代》杂志还调查了 Sama和Meta的关系在肯尼亚的一个类似项目中,审查了文件,文件表明OpenAI与SAMA签署了3份合同,价值约20万美元。这些合同涉及对性虐待、仇恨言论和暴力的文字描述。
大约36名工人分3个小组参与了该项目,每个小组都有一名工作人员负责。所有工人 时间采访 他说这项任务影响了他们的心理健康。
前主持人莫法特·奥金伊(Mophat Okinyi)透露了这项工作对他造成的心理伤害。“这对我的心理健康有很大的影响。” 奥金伊说,.他回忆说,他每天要查看多达700篇文本,其中许多包含了生动的性暴力,这导致了偏执和孤立。他最终失去了妻子,妻子说他是一个“改变了的人”。
《时代周刊》报道称,一名工人不得不阅读一份关于在孩子面前进行兽交的图形描述,并将其描述为“酷刑”。他接着说:“整个星期,你都会读到很多这样的声明。到周五的时候,你会因为想不开这幅画而感到不安。
肯尼亚请愿书提请注意承包商必须审查的可怕内容,其中往往涉及暴力,自残,谋杀,强奸,恋尸癖,虐待儿童,兽交和乱伦的场景。根据Sama发言人的说法,这些工人每小时的工资在1.46美元到3.74美元之间。
与人工智能相关的数据服务的低工资在社交媒体上得到了很好的记录,一位Reddit谈到他们训练巴德的经历,“20美元/小时的工资对于我们所得到的可怕待遇是不够的,所以我要从这份工作中榨取每一分钱。
20美元/小时与肯尼亚支付的低于5美元/小时相差甚远。S当工作本身对业务至关重要且内容危险时,人工智能公司还能如此迅速地竞争到底吗?
毛地黄支持肯尼亚工人针对Meta和OpenAI案件的非营利法律非政府组织将此描述为公然的低工资劳动剥削。
现在,四名前数据标签员要求肯尼亚议会停止这种剥削–并结束像Sama这样的公司的可疑外包行为,这些公司吸引有技术工作前景的非洲年轻人,但当他们敢于寻求更好的交易时,却把他们抛弃了。
– Foxglove(@ Foxglovelegal)2023年7月12日
Cori Crider, 毛地黄他认为,“外包这些员工是科技公司的一种策略,目的是远离内容版主所忍受的糟糕工作条件。
这些工作人员缓和了儿童性虐待的内容,加上乱伦、兽交、强奸、性贩卖和性奴役。
他们没有得到真正的精神支持——而且他们工作的收入微薄。阅读@_KarenHao的完整报告:www.example.com
– Foxglove(@ Foxglovelegal)2023年7月25日
为什么需要人的内容主持人?
训练人工智能模型需要大量的人力来构建和准备数据集。
当OpenAI和其他人工智能开发人员构建他们的数据集时,他们通常从现实世界收集数据,生成合成数据,并从互联网上抓取数据,包括来自网站、消息板、论坛等的图像和文本。
收集后,数据必须进行预处理,包括删除有害、仇恨和歧视性的内容。此外,人类团队通过输入潜在风险或有害的提示并分析响应来微调人工智能模型的迭代。
这些过程使研究人员能够将人工智能与伦理和社会价值观“结合起来”,获得一个干净、中立、不容易受到波动行为影响的人工智能。或者至少,这是像ChatGPT和Bard这样的专有公共模式的理想选择。
人工智能对齐是一门非常不完善的科学,如果没有人工输入的层次,就无法实现。
虽然其他人工智能工具可以对数据进行预过滤,删除更多明显的仇恨或有毒内容,但它们的准确性远未得到保证,有些工具将不可避免地溜走。这项任务因人类不断发明颠覆人工智能内容过滤的方法而变得更加复杂,例如,用表情符号取代单词,这是一种经常用于绕过社交媒体上的过滤器的技术。
在这种情况下,OpenAI向TIME证实,肯尼亚的Sama员工正在帮助构建一个旨在检测有害内容的工具,该工具最终被内置到ChatGPT中。
OpenAI回应请愿书
7月中旬,OpenAI回应了人们对内容审核工作带来的心理影响的担忧。
在一份声明中 ITWeb AfricaOpenAI发言人表示:“我们认识到,这对肯尼亚和世界各地的研究人员和注释工作者来说是一项具有挑战性的工作,他们为确保人工智能系统安全所做的努力非常有价值。
该发言人继续说:“我们的使命是建立安全和有益的AGI(人工智能),人类数据注释是我们收集人类反馈并引导模型在现实世界中实现更安全行为的众多工作流之一。我们相信这项工作需要以人道和自愿的方式完成,这就是为什么我们为我们的数据注释者建立和分享我们自己的道德和健康标准。
Foxglove的负责人Martha Dark说:“ChatGPT作为人工智能潜力的象征而享誉世界。但就像之前的Facebook一样,它的成功是建立在一群隐藏的和低收入的人的基础上的,他们做着可怕的工作,筛选有毒内容,以确保服务的安全。肯尼亚的版主正在组建该大陆第一个内容版主联盟,以反击。这份议会请愿书是对有组织技术工人力量的最新展示。Foxglove支持这一运动,并希望肯尼亚国会议员对外包模式进行紧急改革,使像Sama这样的公司能够被外国科技巨头利用。
肯尼亚律师事务所Nzili & Sumbi Advocates的执行合伙人Mercy Mutemi补充说:“肯尼亚人已经受够了成为大型科技公司的摇钱树,在那里,巨额利润被提取,然后被送往海外,留下了创造这些利润的年轻非洲工人失业和破产。我敦促立法者听取这些勇敢的前ChatGPT数据标签商的意见,并立即调查肯尼亚内容审核办公室的工作条件。
肯尼亚律师莫西·穆特米代表肯尼亚工人起诉萨马和梅塔。来源:《华尔街日报》。
在另一起涉及Meta的案件中,肯尼亚一家法院裁定,Meta应对工人负责,而不是Sama,这是一个里程碑式的决定,可能会改变科技外包的性质。
内容审核的黑暗历史
内容审核有一个可怕的历史,可以追溯到互联网的早期。
现代互联网受到高度审查,各种有害内容在主流网站上基本上被禁止。但人们仍在尝试,保护网络社区的重担往往落在人的肩上。
潜在的攻击性内容的数量惊人。报告的 2020年福布斯Facebook的内容分析和审核人工智能每天标记超过300万条可能违反其社区标准的内容。
Facebook随后雇佣了大约1.5万名内容审核员,他们每天筛选数千条内容。马克·扎克伯格承认,大约每10条内容中就有1条逃离网络,并在Facebook或Instagram上直播。
尽管在自动内容过滤方面取得了进步, 2021年研究 弗吉尼亚理工大学、德克萨斯州圣玛丽大学和德克萨斯大学奥斯汀分校的研究人员估计,全世界大约有10万名内容管理员在工作。
作者指出,人工解释通常是必要的,因为高精度要求,任务的主观性质,以及复杂的,不断变化的调节策略。
学术文献记录了主持人发展的创伤后应激障碍(PTSD),压力,抑郁和焦虑的形式,以及其他精神并发症。付费内容版主在处理令人不安的内容的同时,保持严格的工作绩效配额,并且通常工资很低。
一些内容管理员在处理所谓的“恐怖队列”时,会受到极其令人不安的内容的影响,包括谋杀、自杀和酷刑。
在Verge‘s2019 Google和YouTube内容审核一位在德克萨斯州奥斯汀与Alphabet合作的主持人说:“如果我说它对我没有影响,那就是彻头彻尾的谎言。“你每天看到的东西……它塑造了你,”接着说,“一开始,你会看到每个人都在说,‘嗨,你好吗?’”“每个人都很友好。他们会到处检查。现在,没有人愿意和其他人说话。”
另一个人说:”每天你都看到有人斩首,或者有人枪杀他的女朋友。在那之后,你会觉得哇,这个世界真是疯狂。这会让你觉得不舒服。你觉得没有什么值得活着的东西。我们为什么要这样对对方?”
虽然人工智能内容过滤器正在改进,减轻了人类内容审核团队的负担,但人类监督仍然是捕捉转移他们视线的内容的关键。
最终,当涉及到构建人工智能训练数据集时,一定程度的人类接触有害内容在很大程度上是不可避免的。
如果肯尼亚法院做出有利于内容审核者的裁决,其他外包承包商效仿他们的做法,人工智能公司将别无选择,只能为这项艰巨的任务支付公平的补偿。
毕竟,他们的模型的性能取决于它。