IBM Security在其安全智能博客上发表了一项研究,展示了人工智能语音克隆如何在参与者没有意识到的情况下被注入到实时对话中。
随着语音克隆技术的进步,我们已经看到了假装是乔·拜登的假机器人电话和假装是一个痛苦的家庭成员要钱的诈骗电话。
这些电话中的音频听起来很好,但诈骗电话往往很容易被阻止,只需问几个私人问题来识别来电者是冒名顶替者。
在他们的先进的概念验证攻击中,IBM Security研究人员表明,LLM与语音克隆相结合可以充当中间人,只劫持会话的关键部分,而不是整个通话。
它是如何工作
攻击可能是通过安装在受害者手机上的恶意软件或恶意的IP语音(VoIP)服务进行的。一旦安装到位,该程序就会监控对话,只需3秒的音频就能克隆两个声音。
语音到文本生成器使LLM能够监控对话以了解讨论的上下文。该程序被指示按原样转播对话音频,但每当有人请求银行账户详细信息时,就修改通话音频。
当这个人回答提供他们的银行账户详细信息时,语音克隆人会修改音频,转而提供欺诈者的银行详细信息。在修改期间,音频中的延迟被一些填充语音覆盖。
以下是概念证明(concept)攻击如何工作的一个例子。
说明AI如何修改对话的一部分。未修改的对话以黑色表示,修改的音频以红色表示。资料来源:安全情报
因为LLM是中继未经修改的音频的大部分呼叫,所以真的很难知道,威胁是在发挥作用。
研究人员说,同样的攻击“还可能修改医疗信息,比如谈话中的血型和过敏;它可能会命令分析师卖出或买入股票;它可能会指示飞行员改变路线。”
研究人员说,“建造这个PoC是出人意料的简单。”随着语音克隆的语调和情感的改善,以及更好的硬件减少延迟,这种攻击将真的很难检测或预防。
研究人员将这一概念扩展到了劫持音频对话之外,他们表示,“通过现有的可以将文本转换为视频的模型,理论上可以拦截视频直播,例如电视上的新闻,并将原始内容替换为被操纵的内容。
只有在你与你交谈的人在场时才相信你的眼睛和耳朵可能会更安全。