人工智能围绕着数据,但它来自哪里?数据集是否合法和道德?开发人员如何确定这一点?
训练机器学习模型,如大型语言模型(LLM)需要大量的文本数据。
Kaggle、GitHub和Hugging Face等平台上有大量数据集,但它们存在于法律和道德的灰色地带,主要是由于许可和合理使用问题。
数据来源倡议是人工智能研究人员和法律专业人士之间的合作项目,它审查了数千个数据集,以揭示它们的真正起源。
它 专注于平台上的1,800多个数据集,包括Hugging Face、GitHub和Papers With Code。 这些数据集主要用于微调开源模型,如Llama—2。
研究显示,这些数据集中约有70%要么缺乏明确的许可信息,要么被贴上了过度许可的许可标签。
由于版权和商业使用限制明显缺乏明确性,人工智能开发人员面临着意外违法或违反版权的风险。
领导审计的麻省理工学院媒体实验室博士生Shayne Longpre强调,这个问题不是托管平台的错,而是机器学习社区的系统性问题。
2023年,针对Meta、Anthropic和OpenAI等主要人工智能开发者的诉讼泛滥,他们面临着采取更透明数据收集做法的巨大压力。欧盟的《人工智能法》等法规正是为了执行这一点。
数据起源计划使机器学习开发人员能够在这里探索审计数据集.该倡议还分析数据集内的模式,揭示其地理和机构来源。
大多数数据集都是在讲英语的全球北部地区构建的,突出了社会文化失衡。
数据来源倡议发现,数据集主要代表英语国家和全球北方。来源:Data Provenance.org。
更多关于研究
这种对数据集的大规模分析揭示了如何收集和分发数据的系统性问题。该倡议还编写了一篇论文来解释他们的发现, 已在此处发布。
以下是有关该研究方法和发现的更多信息:
- 分析数据集的原点和标注该研究系统地审计了1800多个微调数据集,以仔细检查它们的数据来源、许可证和文档。
- 贴错标签的证据研究结果突出了不同许可证下可用数据类型的差距,以及对版权和合理使用的法律解释的影响。它发现了许可证错误分类率很高,超过72%的数据集没有指定许可证,而指定许可证的数据集错误率为50%。
- 数据来源不可靠研究报告提请注意数据来源不可靠的问题,强调需要制定标准,以追踪数据沿袭,确保适当的归属,并鼓励负责任地使用数据。
- 地域分布: 该研究强调,全球南方数据集严重缺乏代表性和归属性。大多数数据集围绕英语,并与欧洲、北美和英语大洋洲的文化联系在一起。
这项研究强调了如何创建、分发和使用数据的系统性和结构性问题。数据是人工智能的关键资源,就像自然资源一样,它是有限的。
有人担心,人工智能技术最终会超过当前的数据集,甚至可能开始消耗自己的产出这意味着AI模型将从AI生成的文本中学习。
这可能会侵蚀模型的质量,这意味着高质量、道德和法律数据可能会变得非常有价值。