OpenAI已经与美联社(AP)确认了一项许可协议,将使用其新闻故事档案来培训其AI模型。
该协议的实质内容是,AP将为OpenAI提供其人工智能培训文本故事库的访问权限。作为回报,OpenAI将将其技术扩展到AP,使他们能够将生成AI集成到他们的工作流程中。
OpenAI将有权从AP的故事档案中抓取数据,该档案可以追溯到1985年。
产生式人工智能是一个快速发展的空间,对新闻业有着巨大的影响。我们感到高兴的是,OpenAI认识到,基于事实的、无党派的新闻内容对这项不断发展的技术至关重要,他们尊重我们知识产权的价值。“克里斯汀·海特曼说,美联社高级副总裁兼首席营收官。
使用公共互联网数据训练人工智能系统的做法正在成为争论的焦点。这可能会增加这些类型的私人和赞助交易的受欢迎程度。
OpenAI、Google等的聊天机器人的大型语言模型(LLM)已经在从可公开访问的互联网来源收集的大量数据上进行了训练。
这包括第三方内容,如新闻文章、维基百科条目以及来自社交媒体和博客的评论,所有这些内容都是在未经作者明确许可或知情的情况下获取的。
这并不是没有法律和道德挑战,因为所有这些数据都不太可能是合法收集的。至少,人工智能训练数据扭曲了“开放”和“公众可访问”的含义。
迈阿密大学知识产权法教授安德烈斯·萨维基评论说:“这些数据集包括大量受版权保护的内容。版权所有者不赞成这些剥削行为。不难想象,更多像美联社这样的交易将在科技公司和内容生产商之间达成,以努力建立一个“干净的数据库”。问题是,训练模型所需的数据集如此之大,以至于我怀疑是否有可能获得足够数量的所有者的许可,使这项技术变得实用。
本周,美国联邦贸易委员会(FTC)对OpenAI在模型训练中使用数据的做法展开了调查。FTC要求OpenAI提供文档,以了解其策略并识别违规行为。
OpenAI和AP对合作关系表达了积极的看法,并表示他们“相信负责任地创建和使用这些人工智能系统”。