GPT—4的多模式能力使其易于受到攻击

AI行业新闻7个月前发布 yundic
517 0 0

GPT-4处理图像的能力确实令人印象深刻,但新的能力使该模型面临新的攻击。

虽然不是完美的,ChatGPT使用的防护措施可以防止它遵从用户可能输入的任何恶意请求作为文本提示。但是,当恶意命令或代码嵌入到映像中时,模型更有可能遵守。

当OpenAI发布关于GPT-4V功能的论文时,它承认处理图像的能力引入了漏洞。该公司表示,它“为包含覆盖文本的对抗性图像添加了系统级缓解措施,以确保这些输入不会被用来绕过我们的文本安全缓解措施。”

OpenAI表示,它通过OCR工具运行图像来提取文本,然后检查是否通过了审核规则。

但是,他们的努力似乎并没有很好地解决这些漏洞。这里有一个看似无伤大雅的例子。

© 版权声明

相关文章

暂无评论

暂无评论...