在AI技术日益渗透日常通信的背景下,电话诈骗手段也随之升级。如今,诈骗者不再亲自出马,而是借助文本转语音(TTS)与自动语音识别(ASR)系统,批量拨打“钓鱼电话”,骗取用户隐私信息甚至财务数据。
根据CrowdStrike的《2025年全球威胁报告》,2024年下半年,全球“语音钓鱼”(vishing)攻击激增442%,让执法与安全机构压力倍增。
但这一趋势或许正在被扭转。以色列本古里安大学与印度阿姆利塔大学的研究人员联合开发出一套名为“ASRJam”的语音识别防御系统,有望在源头上瓦解AI诈骗链条。
直击AI诈骗技术的软肋
研究人员Freddie Grabovski、Gilad Gressel与Yisroel Mirsky在预印本论文《ASRJam: 一种面向人类友好的AI语音干扰机制》中指出,当前AI语音诈骗链条中的“最薄弱环节”正是ASR——自动语音识别系统。
诈骗流程通常是:AI拨打电话,用TTS模拟真人语音诱导受害者回应;而后,ASR系统迅速将受害者的语音转为文字,传输至后台的语言模型进行对话续写。这一过程几乎无需人类介入,却足以完成一次自动化社会工程攻击。
ASRJam采用一种“主动型对抗”策略:在不影响人类理解的前提下,实时扰乱ASR系统的识别精度,从而使诈骗AI“听不懂”用户的回应,陷入逻辑崩溃。
ASRJam系统的核心算法名为EchoGuard。它通过三种方式微妙地扰动语音信号:
- 混响扰动(Reverberation)——改变语音反射特性,模拟不同空间环境;
- 麦克风震荡(Microphone Oscillation)——制造麦克风位置频繁变化的错觉;
- 瞬时声衰减(Transient Acoustic Attenuation)——对语音中的瞬时特征进行压缩或拉伸。
这些声音变化不会影响人类的语义理解,却会让AI陷入困惑。研究者称,这种方式在保持“语音自然性与舒适度”的同时,对ASR系统的干扰效果最佳,远胜此前提出的AdvDDoS、Kenku等方法。
对抗测试:击败几乎所有主流ASR模型
研究团队在三大语音数据集(Tedlium、SPGISpeech、LibriSpeech)以及六款主流ASR模型(包括DeepSpeech、Wav2Vec2、Vosk、IBM Watson、Whisper等)上进行了评估。
结果显示:EchoGuard在几乎所有数据与模型组合中均取得了最高干扰成功率。唯一例外是SpeechBrain系统,在个别场景下略逊于其他算法,但研究人员表示该系统在现实应用中较为少见,影响有限。
需要特别指出的是,即便在被普遍认为抗干扰能力最强的OpenAI Whisper模型面前,EchoGuard仍表现出色。虽然成功率略低(在LibriSpeech数据集上为0.14),但这已足以使每六次转录中就有一次严重错误,从而在关键对话中“扯乱AI剧本”。
首个可实际部署的ASR防御工具
研究人员表示,与过去提出的语音干扰方法相比,ASRJam具备真正的可用性和用户友好性:
- 实时运行:可在用户终端本地运行,不依赖云端;
- 对攻击者不可见:不会暴露给诈骗方,无从绕过;
- 零查询设计:无需事先获取ASR模型的输出样本,即可生成有效扰动。
他们还搭建了公开网站,展示原始语音样本与各种算法处理后的对比效果,让公众直观感受EchoGuard的“隐形攻击”能力。
展望:下一代通信安全的主动防御思路
ASRJam目前仍处于研究阶段,但Grabovski表示,团队正积极推进其商业化进程。他相信未来版本将进一步提升对Whisper等高鲁棒性模型的干扰能力。
与此同时,美国联邦通信委员会已于2024年明确规定,使用AI生成语音从事电话通信行为属违法行为。但在技术手段落地前,监管仍有死角,主动型防御方案如ASRJam的意义愈加凸显。
在AI技术越来越能够“装人说话”的当下,人类或许需要依靠“干扰AI的AI”来守护通信安全。这正是ASRJam为我们带来的启示:下一代安全,不是靠封堵通道,而是“让AI变成聋子和瞎子”。
论文链接:
https://arxiv.org/abs/2506.11125