数据是人工智能的命脉,但它不是无限的资源。人类会耗尽数据吗?如果我们这么做会发生什么?
复杂的人工智能模型需要大量的训练数据。例如,训练像ChatGPT这样的大型语言模型(LLM)需要大约10万亿个单词。
一些专家认为,高质量数据的供应正在减少。例如,2022年多所大学的研究人员的一项研究表明, “我们的分析表明,高质量语言数据的存量将很快耗尽;很可能在2026年之前……我们的工作表明,如果数据效率没有大幅提高或新的数据源可用,那么当前依赖于庞大数据集的不断增长的ML模型的趋势可能会放缓。
虽然生成合成数据提供了一种解决方案,但它通常无法捕捉真实数据的深度、细微差别和差异。
更复杂的是,人们担心当人工智能开始消耗自己的输出时会发生什么,瑞士洛桑联邦理工学院(EPFL)的研究人员认为这种情况已经发生。
他们的研究表明,人工智能公司通过亚马逊Mechanical Turk等平台购买人工生成的数据,可能会收到人工智能生成的数据。
当人工智能开始吃掉自己的输出时会发生什么?这种情况可以避免吗?
构建数据集既昂贵又耗时,而且风险很大
数据无处不在,但将其用于人工智能是一个复杂的过程。数据和标签的质量会影响模型的性能–这是一个“垃圾进,垃圾出”的情况。
为了简要描述构建数据集的过程,数据注释器(或标注器)采用处理后的数据(例如,裁剪的图像)并进行标注特征(例如,一辆车,一个人,一只鸟)。
这为算法提供了一个可供学习的“目标”。这些算法从标记的数据中提取和分析特征,以预测新的、不可见的数据中的这些特征。
这是监督机器学习所必需的,监督机器学习是机器学习的核心分支之一,与无监督机器学习和强化学习一样。据估计,数据准备和标记过程占据了机器学习模型项目持续时间的80%,但偷工减料可能会影响模型的性能。
除了创建高质量数据集的实际挑战外,数据的性质也在不断变化。10年前你定义的“包含道路上典型车辆选择的数据集”与今天不同。现在,你会发现大量的电动滑板车和电动自行车在路上,例如。
这些被称为“边缘情况”,这是数据集中不存在的罕见对象或现象。
模型反映其数据集的质量
如果你在旧数据集上训练一个现代人工智能系统,那么当暴露于新的、不可见的数据时,该模型会面临性能低下的风险。
在2015年至2020年期间,研究人员发现了人工智能算法中的主要结构偏差,部分原因是基于旧数据和有偏见的数据进行训练。
比如说 《荒野之家》(Labeled Faces in the Wild Home)这是一个通常用于面部识别任务的名人面部数据集,包括 77.5%为男性,83.5%为白皮肤个人。如果数据不能代表它打算服务的每个人,人工智能就没有希望正常运行。在排名靠前的算法中,白人男性的面部识别错误率低至0.8%,黑皮肤女性的错误率高达34.7%。
这项研究在具有里程碑意义的性别差异研究 还有一部纪录片, 编码偏倚调查了人工智能可能如何从有缺陷和不具代表性的数据中学习。
这样的影响远非良性–这导致了不正确的法院结果,非法监禁,妇女和其他群体被剥夺了工作和信贷。
认可机构需要更多高质量的数据,这些数据必须公平和有代表性 -这是一个难以捉摸的组合。
合成数据是答案吗?
合成数据通常用于计算机视觉(CV),人工智能从图像和视频中识别对象和特征。
而不是从现实世界收集图像数据—如拍摄或拍摄街道—这在技术上具有挑战性并带来隐私问题—您只需在虚拟环境中生成数据。
无人驾驶汽车训练的合成数据。资料来源:Analytics India Mag.
虽然这可为认可机构提供更多数据,但有几个缺点:
- 在虚拟环境中建模现实生活场景并不简单。
- 生成大量合成数据仍然是昂贵和耗时的。
- 边缘案例和异常值仍然是一个问题。
- 它不能完美地复制真实的东西。
- 另一方面,某些方面可能过于完美,很难确定缺少什么。
最后,合成数据非常适合工厂车间等容易虚拟化的环境,但对于城市街道等快速发展的现实生活环境来说,并不总是会削减它。
如何生成合成文本数据?
文本比图像或视频数据简单,那么像ChatGPT这样的模型可以用来生成近乎无限的合成训练数据吗?
是的,但这很危险,影响也不容易预测。 虽然合成文本数据可以帮助调整、测试和优化模型,但对于教授模型新知识来说并不理想,而且可能会巩固偏见和其他问题。
下面是一个类比,说明为什么用人工智能生成的数据训练人工智能是有问题的:
- 考虑一所学校,它使用世界上所有最好的教科书,在一天的时间里训练学生从资源中了解到的一切。
- 之后,学校开始根据这些知识制作自己的作品—类似于聊天机器人的输出。学生已经从培训开始的所有可用数据中学习,但他们不能有效地将新数据引入到知识系统中。
- 知识是每天创造的–虽然人类的绝大多数知识是在任何特定的一天之前创造出来的,但知识会随着时间的推移而演变和转变。至关重要的是,人类不仅不断地创造新的知识,我们还改变了我们对现有知识的看法。
- 现在,假设学校在数据枯竭的情况下,开始使用自己的输出来教学生。学生开始“吃”他们的内容,以产生新的内容。
- 在这个阶段,学生的产出不能适应现实世界,其有用性下降。该系统正在强化自己的工作。虽然工作可以适应和发展,但它是在与反馈循环之外的任何东西隔离的情况下进行的。
人工智能不断地面对人们的谜语,这一个在Reddit和Y Combinator论坛上有很多评论者难倒。
这是令人费解的东西,对后果没有真正的共识。
人类数据标记师经常使用人工智能来生成数据
产生高质量的培训数据的问题还有另一个不可预见的层面。
众工平台,如 Amazon Mechanical Turk (MTurk)经常被人工智能公司使用,以生成真正的“人类”数据集。不这里有一些担忧,即这些平台上的数据注释器正在使用AI来完成其任务。
瑞士洛桑联邦理工学院(EPFL)的研究人员分析了通过MTurk创建的数据,以探索工人是否使用人工智能来生成他们的提交。
这项研究6月13日发表的,招募了44名MTurk参与者,总结了16篇医学研究论文的摘要。该研究发现,平台上33%至46%的用户使用人工智能生成了他们的提交,尽管他们被要求使用自然语言进行回应。
“我们开发了一种非常具体的方法,在我们的场景中非常有效地检测合成文本,”该研究的合著者兼博士Manoel Ribeiro说。EPFL的学生, 告诉纪事报 本周
虽然该研究的数据集和样本量相当小,但认为人工智能正在无意中接受人工智能生成的内容训练绝非不可思议。
这项研究并不是要责怪MTurk工人–研究人员指出,低工资和重复性工作是导致这一问题的原因。人工智能公司希望在保持低成本的同时获得最高质量的人工数据。一位网友在Reddit上评论道:“我现在就是这些员工中的一员,负责培训巴德。我敢肯定,用ChatGPT来做这件事真是见鬼去了。20美元/小时不足以应付我们受到的恶劣待遇,所以我要从这份*工作中榨取每一分钱。“
兔子洞更深了,因为人工智能经常接受从互联网上收集的数据进行培训。随着更多人工智能编写的内容在网上发布,人工智能将不可避免地从自己的输出中学习。
随着人类开始依赖人工智能获取信息,其产出的质量变得越来越关键。我们需要找到创新的方法,用新鲜、真实的数据更新人工智能。
正如里贝罗所说,“人类数据是黄金标准,因为我们关心的是人类,而不是大型语言模型。”
分析人工智能消耗自己输出的潜在影响的工作正在进行中,但真实的人类数据对于广泛的机器学习任务仍然至关重要。
为饥饿的人工智能生成大量数据,同时导航风险是一项正在进行的工作。