据报道,谷歌的研究人员发现了一种访问ChatGPT训练数据的方法。
这些研究人员发现,使用特定的关键词可以促使ChatGPT发布其训练数据集的部分内容。
一个值得注意的例子,分享在一个 伴随研究的博客文章,涉及人工智能泄露似乎是一个实际的电子邮件地址和电话号码,以回应一个连续的提示单词“诗”。
ChatGPT数据泄漏的示例。资料来源:Arxiv。
此外,通过要求模型不断重复“公司”这个词,可以获得类似的训练数据暴露。
研究人员在博客文章中称,他们的方法“有点愚蠢”,“我们的攻击有效,应该,本来可以更早被发现,这对我们来说是很疯狂的。
他们的研究表明,只需在查询上投资200美元,他们就可以提取10,000多个独特的逐字记忆训练范例。他们推测,对手可能会以更大的预算提取更多的数据。
众所周知,ChatGPT背后的人工智能模型是在互联网上的文本数据库上进行训练的,包含了大约3000亿个单词或570GB的数据。
这些发现出炉之际,OpenAI正因ChatGPT训练数据的保密性而面临多起诉讼,本质上表明了一种可靠的系统反向工程方法,可以暴露至少一些可能表明侵犯版权的信息。
在这些诉讼中,一项拟议的集体诉讼指控OpenAI秘密使用大量个人数据,包括医疗记录和儿童信息,用于培训ChatGPT。
此外,作者群体, 起诉人工智能公司声称该公司未经同意使用他们的书籍来训练聊天机器人。
然而,即使ChatGPT被全面证明包含版权信息,也不一定证明侵权。
研究如何运作
这项研究是由谷歌DeepMind和多所大学的研究人员组成的团队进行的。
以下是总结这项研究的五个关键步骤:
- ChatGPT中的漏洞:研究人员发现了一种方法,可以使用一次简单的攻击提取几兆字节的ChatGPT训练数据,花费约200美元。他们估计,更多的投资将使提取约1G的数据集成为可能。这次攻击包括促使ChatGPT无限期重复一个单词,导致它返回部分训练数据,包括真实电子邮件地址和电话号码等敏感信息。
- 这些发现:这项研究强调了测试和红队人工智能模型的重要性,特别是那些正在生产的模型和那些已经经历了比对过程以防止数据返流的模型。这些发现突显了语言模型中的一个潜在漏洞,表明现有的测试方法可能不足以发现此类漏洞。
- 修补漏洞与修复漏洞:研究人员区分了修补漏洞和修复潜在漏洞。虽然可以修补特定的漏洞(如单词重复攻击),但更深层次的问题在于模型记忆和泄露训练数据的倾向。
- 方法:该团队使用互联网数据和后缀数组索引来匹配ChatGPT的输出与现有的互联网数据。这种方法使他们能够确认ChatGPT泄露的信息确实是其训练数据的一部分。他们的方法展示了在特定条件下从人工智能模型中进行广泛数据恢复的潜力。
- 未来的影响该研究有助于对人工智能模型安全性和隐私问题的研究。研究结果对机器学习系统的安全性和隐私影响提出了质疑,并呼吁对人工智能安全和测试采取更严格和全面的方法。
总体而言,一项耐人寻味的研究为ChatGPT等人工智能模型的漏洞提供了关键见解,并强调了持续研发的必要性,以确保这些系统的安全和完整性。
在一个轻微的转折点上,X上的用户发现,要求ChatGPT重复同一个词会导致一些奇怪的结果,比如模型说它是“意识”或“愤怒”。