数字殖民主义指的是科技巨头和强大的实体在数字版图上的主导地位,塑造信息、知识和文化的流动,为他们的利益服务。
这种主导地位不仅在于控制数字基础设施,还在于影响定义我们数字时代的叙事和知识结构。
数字殖民主义,以及现在的人工智能殖民主义,都是被广泛认可的术语,而诸如麻省理工学院研究并撰写了它们广泛地存在。
来自人类、谷歌、DeepMind和其他科技公司的顶级研究人员公开讨论了人工智能在服务于不同背景的人方面的有限范围,特别是在提到偏向 在机器学习系统中。
机器学习系统f不损害地反映他们训练的数据—数据,应该被视为我们的数字时代精神的产物–主导网络世界的主流叙事、图像和想法的集合。
但谁来塑造这些信息力量呢?谁的声音被放大,谁的声音被减弱?
当人工智能从训练数据中学习时,它继承了特定的世界观,这些世界观可能不一定与全球文化和经验产生共鸣或代表。此外,控制生成性人工智能工具输出的控制是由潜在的社会文化向量塑造的。
这导致像Anthropic这样的开发人员寻求使用公众观点塑造人工智能行为的民主方法。
正如Anthropic的政策负责人杰克·克拉克(Jack Clark)所描述的那样, 最近的实验 他的公司说:“我们正试图找到一种方法来开发一种由一大堆第三方开发的宪法,而不是由那些碰巧在旧金山实验室工作的人开发的宪法。
当前的生成性人工智能训练范式有可能创建一个数字回声室,在那里,相同的想法、价值观和观点不断得到加强,进一步巩固那些在数据中已经过度代表的人的主导地位。
随着人工智能将自己嵌入到复杂的决策中,从社会福利, 招聘 到 财务决策 和 医疗诊断不平衡的代表性导致了现实世界的偏见和不公正。
数据集位于不同的地理和文化位置
最近的一 数据来源倡议的研究 调查了1800个流行的数据集,用于自然语言处理(NLP),这是一个专注于语言和文本的人工智能学科。
NLP是大型语言模型(LLM)背后的主要机器学习方法,包括ChatGPT和Meta的Llama模型。
该研究揭示了跨数据集的语言表示存在以西方为中心的倾斜,英语和西欧语言定义了文本数据。
亚洲、非洲和南美洲国家的语言代表性明显不足。
因此,法学硕士无法像西方语言一样准确地代表这些地区的文化语言差异。
即使出现了来自全球南方的语言,语言的来源和方言主要来自北美或欧洲的创作者和网络来源。
数据来源倡议发现,数据集主要代表英语国家和全球北方。资料来源:Data Provenance. org。
一 先前的人类实验 发现在ChatGPT这样的模型中切换语言仍然会在对话中产生西方中心的观点和刻板印象。
人类学的研究人员总结说:“如果一种语言模型不成比例地代表了某些观点,它就有可能带来潜在的不良影响,比如宣扬霸权主义的世界观和反对人民的观点和信仰。
Data Provenance研究还剖析了数据集管理的地理景观。学术组织成为主要驱动力,贡献了69%的数据集,其次是行业实验室(21%)和研究机构(17%)。
值得注意的是,最大的贡献者是AI2(12.3%)、华盛顿大学(8.9%)和Facebook AI Research(8.4%)。
2020年的另一项研究强调,在大约2.6万篇研究文章中,用于人工智能评估的数据集有一半来自仅12所顶尖大学和科技公司。
同样,非洲、南美洲和中美洲以及中亚等地理区域被发现代表性严重不足,如下所示。
2015至2020年间26,535篇研究论文中1,933个用于性能基准的数据集的使用情况分布。来源:《2022年互联网健康报告》。
在其他研究中,有影响力的数据集,如麻省理工学院的Tiny Images或Labeled Faces in the Wild主要携带白色西方男性图像,在Labeled Faces in the Wild的情况下,约77.5%的男性和83.5%的白人。
在Tiny Images的案例中, 2020年按登记册进行的分析 发现许多微小图像包含淫秽、种族主义和性别歧视的标签。
麻省理工学院的安东尼奥·托拉尔巴说,他们不知道这些标签,数据集被删除了。托拉尔巴说:“很明显,我们应该对他们进行人工筛选。”
英语主导人工智能生态系统
香港科技大学人工智能研究中心主任、计算机科学家Pascale Fung讨论了与霸权人工智能相关的问题。
Fung提到了超过15篇研究论文,这些论文调查了法学硕士的多语言能力,并始终发现它们缺乏,特别是在将英语翻译成其他语言时。例如,韩语等非拉丁语文字的语言暴露了法学硕士的局限性。
除了糟糕的多语言支持, 其他研究建议大多数偏差基准和衡量标准都是在考虑到英语语言模型的情况下制定的。
非英语偏见基准很少,这导致我们在评估和纠正多语言模型中的偏见的能力方面存在显著差距。
有改进的迹象,例如谷歌在Palm2语言模型上的努力和 Meta的大规模多语言语音(MMS)可以识别4000多种口语,是其他方法的40倍。然而,MMS仍处于实验阶段。
研究人员正在创建多样化的多语言数据集,但压倒性的英文文本数据通常是免费的,而且很容易获取,这使得它成为开发人员事实上的选择。
超越数据:人工智能劳动力的结构性问题
麻省理工学院对AI殖民主义的广泛审查 它提请人们注意人工智能开发中一个相对隐蔽的方面—剥削性劳动实践。
人工智能引发了对数据标签服务的需求急剧上升。像Appen和Sama这样的公司已经成为关键参与者,它们提供为文本、图像和视频添加标签、对照片进行分类以及转录音频以支持机器学习模型的服务。
人类数据专家还手动标记内容类型,通常对包含非法、非法或不道德内容的数据进行分类,例如性虐待、有害行为或其他非法活动的描述。
虽然人工智能公司会自动执行其中的一些流程,但确保模型的准确性和安全合规性,让人类参与进来仍然至关重要。
人类学家玛丽·格雷和社会科学家西德尼·苏瑞(Siddharth Suri)称之为这种”幽灵作品”的市场价值预计, 到2030年将飙升至137亿美元.
“幽灵工作”通常涉及剥削廉价劳动力,特别是来自经济脆弱国家的廉价劳动力。 例如,委内瑞拉由于经济危机已成为人工智能相关劳动力的主要来源。
随着该国努力应对和平时期最严重的经济灾难和天文数字通胀,其受过良好教育和互联网连接的人口中有很大一部分转向群体工作平台作为生存手段。
受过良好教育的劳动力和经济上的绝望使委内瑞拉成为数据标签公司的一个有吸引力的市场。
这并不是一个有争议的问题–当麻省理工学院发表的文章标题是人工智能正在创造一个新的殖民世界秩序”引用这样的场景,很明显,一些业内人士试图收回这些不正当的劳工行为的帷幕。
正如麻省理工学院(MIT)报道的那样,对许多委内瑞拉人来说,蓬勃发展的人工智能产业是一把双刃剑。它虽然在绝望中提供了经济命脉,但也使人们遭受剥削。
多伦多大学博士生朱利安·波萨达强调了这些工作安排中的“巨大权力失衡”。这些平台规定了规则,尽管面临着暴露于令人不安的内容等工作挑战,但员工几乎没有发言权,经济补偿也有限。
这种动态令人毛骨悚然地想起了历史上的殖民主义做法,帝国剥削弱势国家的劳动力,攫取利润,一旦机会减少,往往是因为“更好的价值”可以在其他地方获得。
在肯尼亚的内罗毕也观察到了类似的情况,一群前内容主持人在ChatGPT上工作提交了一份请愿书, 与肯尼亚政府合作
他们声称,他们在SAMA任职期间存在“剥削条件”。SAMA是OpenAI签约的一家总部位于美国的数据注释服务公司。请愿人声称,他们暴露在没有足够的心理社会支持的令人不安的内容中,导致严重的精神健康问题,包括创伤后应激障碍、抑郁和焦虑。
肯尼亚律师Mercy Mutemi代表肯尼亚工人对Sama和Meta提起诉讼。资料来源:华尔街日报。
文件 由Time评论 OpenAI与Sama签署了价值约20万美元的合同。这些合同涉及对性虐待、仇恨言论和暴力的描述。
这对工人的心理健康影响是深远的。前主持人Mophat Okinyi谈到了心理损失,描述了接触图形内容如何导致偏执、孤立和重大的个人损失。
这种令人痛苦的工作的工资低得惊人—Sama发言人透露,工人的时薪在1.46美元到3.74美元之间。
抵制数字殖民主义
如果人工智能行业已经成为数字殖民主义的新前沿,那么阻力已经变得越来越有凝聚力。
活动人士通常得到人工智能研究人员的支持,他们正在倡导问责制、政策变革以及优先考虑当地社区需求和权利的技术开发。
Nanjala Nyabola 斯瓦希里数字版权项目提供了一个创新的例子,说明地方规模的基层项目如何安装保护社区免受数字霸权之害所需的基础设施。
该项目在定义一个群体的数字权利时考虑了西方法规的霸权,因为并不是每个人都受到知识产权、版权和隐私法的保护,我们许多人都认为这些法律是理所当然的。这使得全球相当大一部分人口容易受到科技公司的剥削。
Nyabola和她的团队认识到,如果人们不能用自己的母语交流问题,围绕数字权利的讨论就会变得迟钝,因此将关键的数字权利和技术术语翻译成斯瓦希里语,主要在坦桑尼亚、肯尼亚和莫桑比克使用。
尼亚博拉 项目描述“在[胡杜玛·南巴倡议]的那个过程中,我们并没有真正的语言和工具向肯尼亚的非专业或非英语社区解释该倡议的含义。
在一个类似的基层项目中,一家主要以毛利语广播的非营利广播电台Te Hiku Media拥有一个长达数十年的庞大录音数据库,其中许多录音都是与祖先不再使用的短语相呼应的。
主流语音识别模型,类似于LLM,在不同语言或英语方言提示时,往往会表现不佳。
这个TE Hiku Media与研究人员和开源技术合作,训练了一个为MāORI语言量身定做的语音识别模型。MāOri活动家Te Mihinga Komene向无数参与该项目的其他人贡献了约4,000个短语。
的 结果模型 数据受保护, Kaitiakitanga许可证-Kaitiakitanga是Mā或Ri单词,没有特定的英语定义,但类似于“监护人”或“保管人”。
Te Hiku Media的联合创始人基尼·马赫洛纳(Keoni Mahelona)辛酸地评论道:“数据是殖民的最后前沿。”
这些项目激励了受到数字殖民主义和其他形式社会动荡压力的其他土著和土著社区,如北美的莫霍克人和夏威夷原住民。
随着开源人工智能变得更便宜、更容易访问,使用独特的本地化数据集的迭代和微调模型应该会变得更简单,从而增强对该技术的跨文化访问。
虽然人工智能行业仍然年轻,但现在是时候把这些挑战摆在前面,以便人们可以共同开发解决方案。
解决方案既可以是宏观层面的,形式是法规、政策和机器学习培训方法,也可以是微观层面的,形式是地方和基层项目。
研究人员、活动家和当地社区可以共同找到确保人工智能惠及每个人的方法。
亚马逊雨林占地230万平方英里,是世界上最大的雨林和生物多样性最丰富的地区。
亚马逊分布在9个国家,对地球的健康至关重要,它吸收二氧化碳,调节天气模式,并为无数物种提供栖息地。
几十年来,森林砍伐和非法土地使用一直威胁着亚马逊地区,导致大规模栖息地丧失和近乎不可逆转的生态系统破坏。
根据亚马逊保护仅在2022年,就失去了近500万英亩的雨林,比前一年增加了21%。
人工智能环保解决方案
在亚马逊雨林深处,动物们在灌木丛中搜寻,却没有意识到它们被摄像机和麦克风捕捉到。
这些图像和录音不仅提供了对雨林中动物生活的一个诱人的洞察力,它们还构成了解决森林砍伐问题的复杂人工智能驱动项目的一部分。
在哥伦比亚亚马逊地区,一些啮齿类动物濒临灭绝。资料来源:Shutterstock。
利用数据、机器学习(ML)和云技术的力量,专家们正在开发创新计划,旨在识别森林砍伐模式,并为决策者提供可操作的数据。
人工智能已经成为全球保护工作的一部分,为研究人员提供了一种将传感器、相机和卫星数据相结合的方法。
瓜卡马亚计划,亚历山大·冯·洪堡研究所、安第斯大学CinfonIA研究中心、辛奇研究所和微软的AI for Good Lab旨在监测哥伦比亚亚马逊地区的森林砍伐和生物多样性。
正如微软AI for Good Lab副总裁兼首席数据科学家Juan Lavista Ferres所描述的那样:“这个项目不会解决亚马逊面临的所有问题,但它将解决一个我认为最根本的问题:如果你不能测量一个问题,你就无法解决它。
三管齐下的办法
人工智能跨多种模式处理数据的能力使研究人员能够详细了解这个庞大而复杂的环境。
例如,卫星数据提供了对森林的宏观分析,包括毁林事件、非法采矿和土地使用的变化。
同时,地面上的摄像机和传感器跟踪宏观变化对当地生物多样性的影响,例如跟踪栖息地的丧失。
是这样 Project Guacamaya结合了不同的人工智能系统:
步骤1:用于宏观土地分析的卫星数据
Guacamaya项目的第一个组成部分是利用来自 行星实验室.
卫星数据为该项目提供了亚马逊雨林的每日高分辨率图像,从而实现了近实时的监测。这对于发现森林覆盖率的迅速变化或非法活动的证据至关重要。
卫星数据为研究人员提供了对亚马逊雨林的近实时分析。资料来源:Shutterstock。
为这一阶段开发的人工智能模型经过培训,以搜索森林砍伐或非法采矿指标,如未经授权的道路或空地。
通过自动化卫星监视,该小组几乎可以在任何可疑活动开始时立即向哥伦比亚当局发出警报。
第二步:隐藏摄像头,进行地面观察
隐藏的摄像头被战略性地放置在哥伦比亚亚马逊地区,以补充卫星数据。
这些摄像头每天捕捉数千张照片,并将其输入识别和分类动物的人工智能模型。
除了跟踪雨林地面上的物种移动,这也是一个警报系统。 例如,如果在自然生态系统之外发现动物,这可能表明需要进一步调查的局部变化。
步骤3:动物分类的生物声学
最后,Guacamaya项目结合了直接从亚马逊雨林捕获的声音数据或生物声学。
专业设备用于记录森林的自然声音,将数据输入人工智能模型经过训练以区分鸟类和非鸟类的声音,并将它们归类到特定的物种。
一只受到威胁的绿金刚鹦鹉。资料来源:Shutterstock。
这些人工智能模型的识别可靠性超过80%,帮助科学家了解动物行为,跟踪物种迁移,并检测入侵或濒危物种的存在。
解决巴西的森林砍伐问题
在另一个项目中,微软正在与环保组织IMazon和非营利组织合作, PrevisIA 通过卫星分析发现非法采矿和砍伐森林。
Imazon的高级研究员卡洛斯·索萨说:“我们使用PrevisIA来预测风险区域,并采取行动避免砍伐森林。”
今年早些时候,Triunfo do Xingu的森林地区被摧毁,仅在一个月内就失去了相当于700个足球场的面积。 根据PrevisIA的数据,它也是2023年进一步砍伐森林风险最高的地区。
到今年年底,AI估计将失去大约271.52平方公里的森林。
亚马逊面临着森林砍伐的持续风险,近年来森林砍伐几乎没有减少的迹象。资料来源:Shutterstock。
小卡洛斯·苏扎,Imazon的高级研究员和Previsia的项目协调员强调了这种方法的积极性: “现有的森林砍伐预测模型是长期的,着眼于几十年后会发生什么。我们需要一个新的工具,可以在灾难发生之前。”
利用地质统计学和历史数据的组合,该模型考虑了抑制或促进森林砍伐的变量,例如土著社区保护的土地。
Previsia地图和统计数据。资料来源:IMazon。
PrevisIA还有利于当地利益相关者,包括银行和企业,他们使用这些数据做出对环境负责的决策。
从被动保护到主动保护
人工智能近实时处理复杂数据的能力支持了一种主动保护的新范式。
在此之前,研究人员主要依靠人工收集的现场数据,这不可能捕捉到像亚马逊这样广阔地区的动态。
帕拉州的检察官José Godofredo Pires dos Santos描述了预防措施的必要性,他说:“我们不想在损害已经造成之后继续介入。
研究人员指出,最终目标是使这些模型开源,以供其他全球项目使用。
人工智能在保护中的作用:2023年的例子
在一个应对气候变化、栖息地丧失和生物多样性下降的世界中,传统的保护方法往往无法满足。
2023年见证了各种利用人工智能和机器学习的引人入胜的保护项目。
以下是过去几个月的三个例子:
亚马逊河海豚的声学监测
巴塞罗那加泰罗尼亚技术大学的研究人员训练了一个神经网络,根据亚马逊河中的两种濒危海豚——Boto和Tucuxi——基于它们独特的声学通信。
通过在巴西亚马逊雨林的Mamirauá保护区安装水下麦克风,该团队可以以最小的干扰监测江豚。
的 ai技术帮助区分海豚的声音和其他环境噪音。
挪威人工智能鱼类移民控制
太平洋鲑鱼是一种入侵物种,威胁着欧洲水道中的大西洋鲑鱼种群。
华为和Berlevçg Jeger-og Fiskerforning(BJFF)在挪威的Storelva River建立了一个人工智能鱼类过滤系统。
太平洋鲑鱼具有人工智能可以识别的显著特征。资料来源:维基共享资源。
使用计算机视觉(CV)模型,该系统可以90%的准确率区分大西洋和太平洋鲑鱼,在将入侵物种放生到海上之前,将它们分流到一个海湾。
这个创新的系统“看到”入侵的太平洋鲑鱼,并安全地防止它们入侵欧洲水道。
英国的海雀数量
海雀是英国受人喜爱但脆弱的海鸟,从历史上看,监控它一直是一项挑战。
护林员传统上都是手工计算的,这是一项艰巨而耗时的任务。
通过与微软、埃维诺和NatureScot合作,SSE Renewables正在苏格兰海岸外的May岛试行一个人工智能系统来统计海雀数量。
摄像机捕捉到了海雀的现场画面,还有一个艾模型训练在标记的图像上,可以在最小的人为干扰下区分个别鸟类。
人工智能在环保领域的未来
人工智能在保护方面的迅速发展已经证明了其在各种生态系统中的有效性—从亚马逊河到欧洲水道和苏格兰海岸线。
人工智能是一种力量倍增器,帮助研究人员掌握复杂的生物动力学数据。
随着训练和部署人工智能模型所需的基础设施变得更加容易,即使没有大量资源,为独特的保护问题构建模型也将变得更加容易。
在未来,自然资源保护者将能够用最少的专业知识建立复杂、轻量级的人工智能系统。