一种用于智能语音系统的伪装攻击方法及系统
文献发布时间:2024-04-18 19:59:31
技术领域
本发明属于深度学习安全领域,涉及一种用于智能语音系统的伪装攻击方法及系统。
背景技术
语音是人机交互的重要载体,随着深度学习算法的广泛应用,语音领域的各项技术也得到了飞速发展,如语音搜索、智能家居、语音客服等。这些语音技术改变了人们与日常智能设备互动的方式,也为人们生活带来了便捷。目前,DNN(Deep Neural Networks)已经成为智能语音系统框架的标配,这也使得语音识别的准确率得到了显著提升,常见的语音识别系统有Kaidl、DeepSpeech等。
然而,深度学习在促进语音识别技术发展的同时,也存在着严重的脆弱性和各种潜在的安全威胁。其中最具威胁的就是对抗样本攻击,它可以将人类无法感知的微小扰动加入原始样本,从而使深度学习模型以较高置信度产生错误识别。随着对抗样本的不断发展和成熟,这种攻击思路已经对视觉和语音领域的相关任务产生了严重威胁。这也导致了越来越多的研究者开始研究对抗样本攻击,以提高现有语音模型对于对抗样本攻击的鲁棒性。因此,研究不同的语音攻击方法对于提升语音识别过程中的安全性和语音模型的鲁棒性具有重要意义。
目前,大部分的语音攻击算法都是基于对抗样本攻击的,但是这种攻击算法存在一定的局限性,比如攻击时间长、普适性不强等。目前,重采样算法在语音领域也发挥了重要作用,例如将不同采样率的语音信号转换为深度模型可以处理的固定采样率。然而,传统的语音重采样算法并未考虑到恶意输入的影响,如伪装过后的语音信号会导致采样前后语义内容不一致,从而大大降低了识别的准确率。
发明内容
本发明的目的在于提供一种用于智能语音系统的伪装攻击方法及系统,以克服现有方法存在局限性,普适性低,易使伪装过后的语音信号会导致采样前后语义内容不一致的问题。
一种用于智能语音系统的伪装攻击方法,包括以下步骤:
S1,将原始信号调整为采样率为r
S2,根据目标系统采样率,计算重采样算法的阻带;
S3,根据获取的阻带,构造频谱在阻带上的噪声信号;
S4,将采样率为的信号进行能量缩小后与生成的噪声信号进行相加,从而生成伪装后的信号。
优选的,所获取的阻带大于目标系统采样率的一半。
优选的,将噪声的频谱设定为f
优选的,分别采用宽带噪声和纯音对原始信号进行伪装获取频谱在阻带上的噪声信号。
优选的,生成与原始语音信号长度一致的白噪声S[n]~N(0,1),并将白噪声归一化S[n]=S[n]/max(|S|)区间中,之后使用通带为[f
优选的,根据采样频率f
S[n]=Acos(2π·f·(n/f
f/f
优选的,将采样率为r
一种用于智能语音系统的伪装攻击系统,包括重采样模块,阻带计算模块,噪声模块和攻击模块;
重采样模块,用于将原始信号调整为采样率为r
阻带计算模块,用于根据目标系统采样率,计算重采样算法的阻带;
噪声模块,根据获取的阻带,构造频谱在阻带上的噪声信号;
攻击模块,将采样率为的信号进行能量缩小后与生成的噪声信号进行相加,从而生成伪装后的信号。
优选的,所获取的阻带大于目标系统采样率的一半。
优选的,分别采用宽带噪声和纯音对原始信号进行伪装获取频谱在阻带上的噪声信号。
与现有技术相比,本发明具有以下有益的技术效果:
本发明提供一种用于智能语音系统的伪装攻击方法,通过将原始信号调整为采样率为r
本发明通过采样算法准确地复原出了语音信号的统计特征,在输入极低信噪比噪声的情况下取得了较高的识别准确率,验证了所提算法的有效性。
附图说明
图1为本发明实施例中用于智能语音系统的伪装攻击方法流程图。
图2为本发明实施例中从频域展示了伪装样本的生成过程,图2(a)表示噪声信号的频谱,图2(c)表示原始语音信号经过能量缩小后的频谱,图2(b)表示将原始信号与噪声信号组合后生成的伪装样本,图2(d)表示通过抗混叠滤波器后恢复的原始语音信号。
图3为本发明实施例中伪装语音信号经过抗混叠滤波器之前和之后的语谱图。
图4为本发明实施例中抗混叠滤波器中不同的下采样算法对语音信号时域特征的保持图。
图5为本发明实施例中对智能语音识别系统的攻击过程。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图2所示,本发明提供一种用于智能语音系统的伪装攻击方法,具体包括以下步骤:
S1,将原始信号s调整为采样率为r
S2,根据目标系统采样率r
已知智能语音系统要求的采样率是r
S3,根据获取的阻带,构造频谱在阻带上的噪声信号S[n]。
本申请分别生成两种不同类型的声音对原始信号进行伪装:①宽带噪声,首先生成与原始语音信号长度一致的白噪声S[n]~N(0,1),并将白噪声归一化S[n]=S[n]/max(|S|)区间中,之后使用通带为[f
S[n]=Acos(2π·f·(n/f
f/f
S4,将采样率为r
本发明基于傅里叶变换的线性性质,如下所示:
F[αf
原始语音信号s,信号缩小倍数k=200,伪装信号采样率r
F[·]表示傅里叶变换,以上公式表明两个信号f
本发明提出的一种用于智能语音系统的伪装攻击方法中只需要了解目标系统的采样率,就可以生成伪装攻击样本,这表明所提方法是一种通用的黑盒攻击算法,不局限于深度模型,能在不了解模型任何信息情况下即可完成攻击,这大大增加了攻击算法的应用范围,依据语音的听觉掩蔽理论提出了一种新的语音伪装攻击策略,该策略可以将普通的语音信号伪装成电流噪声,达到伪装攻击的目的;验证了所提出的伪装攻击算法对于多种采样算法的有效性和普适性,即只需了解目标算法的输入采样率就可以进行攻击。
在本发明一个实施例中,如图2所示,频域展示了伪装样本的生成过程,图2(a)表示噪声信号的频谱,图2(c)表示原始语音信号经过能量缩小后的频谱,图2(b)表示将原始信号与噪声信号组合后生成的伪装样本,图2(d)表示通过抗混叠滤波器后恢复的原始语音信号。
具体包括以下步骤:
原始语音信号s,信号缩小倍数k=200,伪装信号采样率r
S1,将原始信号s调整为采样率为r
S2,根据目标系统采样率r
S3,构造频谱在阻带上的噪声信号S[n];对于宽带噪声:首先生成与原始语音信号长度一致的白噪声S[n]~N(0,1),并将白噪声归一化S[n]=S[n]/max(|S|)区间中,之后使用通带为[f
S[n]=Acos(2π·f·(n/f
f/f
S4,s'=s
利用本发明的方法获取的伪装语音信号经过抗混叠滤波器之前和之后的语谱图,从图3中可以看出原始语音信号加入纯音信号和噪声信号后,原始的语音特征被隐藏了起来,但经过抗混叠滤波器之后,语音特征又得到了恢复,并且与原始的语音特征差距较小。这说明了伪装攻击算法的特征保持性,这也是该攻击算法针对各种智能语音系统适用的原因。
如图4所示,采用不同的下采样算法对语音信号时域特征的保持图,从图4中可以看出,除了polyphase和linear算法外,伪装攻击算法表现出了较好的时域特征保持性。
如图5所示将含I like tea.语义的原始信号能量缩小2