掌桥专利:专业的专利平台
掌桥专利
首页

一种针对声纹识别防御模块的对抗样本构造方法

文献发布时间:2023-06-19 19:32:07


一种针对声纹识别防御模块的对抗样本构造方法

技术领域

本发明涉及声纹识别和对抗样本领域,具体地说,涉及一种针对声纹识别防御模块的对抗样本构造方法。

背景技术

近年来,随着深度学习技术的快速发展,声纹识别广泛地被应用于自动语音识别系统中,比如苹果Siri、谷歌OK Google、微信声纹锁、汇丰银行Voice ID等,这也使得声纹识别成为一种流行的生物识别技术。根据研究表明,2020年全球语音生物识别市场规模超过11亿美元并且有望在2026年达到39亿美元,充分显示了语音技术的广阔发展前景。然而,在人们享受声纹识别服务所带来的便利的背后,深度学习极易遭受对抗样本攻击的阴影引发了严重的安全威胁。最近的研究表明,通过对良心语音叠加上精心制作的微妙扰动就可以轻松欺骗基于深度神经网络的声纹识别系统。该现象引起了广泛的公众关注和大量的研究兴趣。为了抵抗这种攻击,最近的研究工作也提出了在声纹识别系统之前部署防御模块,用以消除破坏对抗扰动。然而之前并没有工作去研究在面对防御模块时,对抗扰动是否能继续同时满足攻击有效性和人类不可感知性。本发明公开了一种针对声纹识别防御模块的对抗样本构造方法,利用精心制作的声学掩蔽音实现不可感知性,并结合集成学习技术,使得对抗扰动能够有效攻击多种不同防御模块,最终实现定向攻击来欺骗声纹识别系统。

对抗样本攻击是一种针对神经网络模型调用环节的攻击方式。攻击者通过在正常语音上添加人类难以感知的恶意扰动(也称对抗扰动),使得神经网络模型对添加完对抗扰动后的样本(即对抗样本)做出错误的预测。现有的声纹领域对抗样本攻击都假设声纹识别模型不会施加任何防御措施,这使得他们的对抗样本极易被防御模块破坏使得攻击失效,且其不可感知性较差。

发明内容

本发明提出一种针对声纹识别防御模块的对抗样本构造方法,以攻击有效性、自适应性、人类不可感知性为目标,通过对足够多的声纹识别防御模块采用集成学习方法,并引入一个精心制作的声学掩蔽音,从而可以生成能成功绕过多种声纹识别系统防御模块,且人耳无法感知的语音对抗样本,并且在不同声纹识别模型上都能实现攻击。

本发明是通过以下技术方案来实现的:

本发明公开了一种针对声纹识别防御模块的对抗样本构造方法,包括如下步骤:

获得初始对抗扰动、原始音频和声学掩蔽音集;

从声学掩蔽音集中选择一个能使听感失真度降到最低的声学掩蔽音,并和获得的初始对抗扰动与原始音频结合计算出对抗样本;

设置多种替代防御模块类型、超参数获得多个带有不同替代防御模块的声纹识别系统;

通过多种带有不同替代防御模块的声纹识别系统和获得的对抗样本进一步计算出各自的决策分数;

通过集成学习方法将所获得的决策分数与可学习的自适应权重相融合,得到最终的损失函数;

通过投影梯度下降算法和所得到的损失函数进行一定次数的迭代反复上述优化过程生成最终的语音对抗样本。

作为进一步地改进,本发明所述的从声学掩蔽音集中选择一个能使听感失真度降到最低的声学掩蔽音,并和获得的初始对抗扰动与原始音频结合计算出对抗样本,具体为:

(1)通过预先观察多种不同掩蔽音各自的时频谱,并通过计算各自的PESQ来表征其掩蔽能力,从而提出一个评价指标

(2)M-Sup的取值范围是0-1,数值越大代表掩蔽能力越强,从而通过计算比较不同掩蔽音其各自的M-Sup指标,选择具有最强掩蔽能力的声学掩蔽音;

(3)给定SNR r

(4)根据缩放因子得到经过缩放后的声学掩蔽音

作为进一步地改进,本发明所述的设置多种替代防御模块类型、超参数获得多个带有不同替代防御模块的声纹识别系统,具体为:

(1)基于免训练和即插即用的简易特性,主要考虑基于信号处理的防御方法作为声纹识别系统的防御模块,所述的防御方法分为三大类:将振幅很小的扰动直接破坏、过滤位于高低频段的对抗扰动、滤除低于听阈曲线的对抗扰动;

(2)通过预先观察每种防御模块自身的超参数数值与其防御强度的关系,并通过观察其对声纹识别模型本身性能的影响,找到每种防御模块的超参数临界点设置,最终输出多种带有不同替代防御模块(F

作为进一步地改进,本发明所述的三类防御方法中,第一类主要考虑重量化法和梅尔滤波法,其原理基于使用有损过滤器直接将微小的对抗扰动直接破坏,第二类主要考虑重采样法和带通滤波法,其原理基于奈奎斯特-香农采样定理,直接将位于高低频段的对抗扰动直接滤除或破坏,第三类主要考虑心理声学滤波法,其原理基于心里声学的人耳听阈曲线,通过直接将位于阈值以下的对抗扰动过滤实现防御功能;总共考虑最具代表性的五种方法:重量化法、梅尔滤波法、重采样法、带通滤波法、心理声学滤波法作为替代防御模块。

作为进一步地改进,本发明所述的通过集成学习方法将所获得的决策分数与可学习的自适应权重相融合,得到最终的损失函数,具体为:

其中,x为输入语音样本,y

作为进一步地改进,本发明所述的通过投影梯度下降算法和所得到的损失函数进行一定次数的迭代反复上述优化过程生成最终的语音对抗样本,具体为:

1)将所选声学掩蔽音对初始对抗扰动进行掩蔽后,与原始音频结合得到对抗样本

2)对每个损失使用集成学习方法得到合成损失函数

3)使用投影梯度下降法,更新对抗扰动δ和生成新的对抗样本

直到满足早停条件,生成最终的对抗样本。

本发明的有益效果如下:

本发明提出一种针对声纹识别防御模块的对抗样本构造方法。现有的针对声纹识别系统的对抗样本生成技术方法都是不考虑声纹识别系统带有任何防御模块或措施,极易被防御模块破坏使得攻击失效,且其不可感知性较差。本发明创新性地提出一种针对声纹识别系统防御模块的对抗样本构造方法,利用精心制作的声学掩蔽音,使人类听感失真度降到最低,并将其叠加到经过初始化的对抗扰动上,用以进行扰动掩蔽。并同时考虑多种具有代表性的防御模块,并使用集成学习方法将其与可学系的自适应权重相融合。最终生成同时满足攻击有效性、人类不可感知性、自适应性的对抗样本。

攻击有效性的评估中,本发明在d-vector,x-vector和ecapa-tdnn三种声纹模型上分别对五种防御模块的平均ASR分别达到了91.7%,97.1%和99.1%,相比传统的PGD方法分别高出48.7%,29.8%和63.4%,这也充分证明了本发明在不同系统上的有效性。

不可感知性的评估中,本发明所生成的对抗样本在三个声纹模型上的SNR分别达到了32.04dB,35.55dB和36.53dB,相比PGD平均提高了30%。且PESQ分别达到了4.06,4.14和4.32,这比PGD提升了73%。这也充分证明了本发明所生成的对抗样本具有极强的不可感知性。

自适应评估中,本发明在3种声纹识别模型上对5种防御模块进行攻击测试。在各超参数达到临界点后,本发明的ASR在5种防御模块上分别能达到98.7%,95.5%,90.6%,93.7%和94%,这充分表明本发明对于不同防御模块的自适应性。

附图说明

图1为本发明的框架流程图;

图2为集成防御模块示意图;

图3为本发明在不同防御模块及其不同超参数下的攻击性能图,包括(a)针对重量化法的攻击性能(b)针对重采样法的攻击性能(c)针对带宽滤波法的攻击性能(d)针对心理声学滤波法的攻击性能(e)针对梅尔滤波法的攻击性能。

具体实施方式

为使本发明实例的目的、技术方案和优点更加清楚,下面将结合本发明实例中的附图,对本发明实例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明公开了一种针对声纹识别防御模块的对抗样本构造方法,图1展示了本发明的框架流程图,其中包括4个部分,即声学掩蔽音选择、防御模块设置、防御模块集成和对抗扰动优化。首先通过选择一个精心制作的声学掩蔽音,使人类听感失真度降到最低,并将其叠加到经过初始化的对抗扰动上,用以进行扰动掩蔽。之后将对抗扰动和原始音频结合生成对抗样本,其将被输入多个带有不同防御模块的声纹识别系统,这些防御模块的类型和超参数都是经过本发明精心考虑和设计的。当这些声纹识别系统输出各自的决策分数后,本系统将进一步各声纹识别系统所对应的损失函数,并通过集成学习方法将其与可学系的自适应权重相融合。最后利用投影梯度下降法优化对抗扰动,通过一定次数的迭代优化生成得到最终的语音对抗样本。

本发明公开了一种针对声纹识别防御模块的对抗样本构造方法,所述的方法具体开展步骤如下:

步骤1:提供一个原始音频并采样获得一个满足正态分布的初始化对抗扰动;

步骤2:通过选择一个能使听感失真度降到最低的声学掩蔽音,并和获得的初始对抗扰动与原始音频结合计算出对抗样本;

步骤3:通过设置多种替代防御模块类型、超参数获得多个带有不同替代防御模块的声纹识别系统;

步骤4:通过多种带有不同替代防御模块的声纹识别系统和获得的对抗样本进一步计算出各自的决策分数;

步骤5:通过集成学习方法将所获得的决策分数与可学习的自适应权重相融合,得到最终的损失函数;

步骤6:利用投影梯度下降算法和所得到的损失函数进行一定次数的迭代反复上述优化过程生成最终的语音对抗样本。

以下就如何选择拥有最低失真度的声学掩蔽音及如何将其叠加到对抗扰动上的过程做具体说明。不同声学掩蔽音的听感掩蔽性不同,通过预先观察不同掩蔽音对于白噪声的掩蔽效果,得出越是能量分布集中在高频段且连续的掩蔽音,其声学掩蔽能力越强。然后根据本发明所提出的评价指标

以下就如何选择设置多种不同类型防御模块及其超参数的过程做具体说明。根据免训练和即插即用等特性,考虑基于信号处理的防御方法作为声纹识别系统的防御模块。根据其底层滤波防御原理将其分为三类:将振幅很小的扰动直接破坏、过滤位于高低频段的对抗扰动、滤除低于听阈曲线的对抗扰动。对于第一类主要考虑重量化法和梅尔滤波法,其原理基于使用有损过滤器直接将微小的对抗扰动直接破坏。对于第二类主要考虑重采样法和带通滤波法,其原理基于奈奎斯特-香农采样定理和频带提取,直接将位于高低频段的对抗扰动直接滤除或破坏。对于第三类主要考虑心理声学滤波法,其原理基于心里声学的人耳听阈曲线,通过直接将位于阈值以下的对抗扰动过滤实现防御功能。因此总共考虑最具代表性的五种方法:重量化法、梅尔滤波法、重采样法、带通滤波法、心理声学滤波法作为替代防御模块。通过预先观察每种防御模块自身的超参数数值与其防御强度的关系,并通过观察其对声纹识别模型本身性能的影响,找到每种防御模块的超参数临界点设置,即能在保证声纹识别正常工作性能的前提下,最大化防御强度。

以下就对抗扰动优化过程及对抗样本生成过程做具体说明。对于多种可能的防御模块和其超参数设定(F

其中,θ

以下就集成防御模块做具体说明。本发明还公开了集成防御模块技术,将对抗扰动的自适应性进行了增强,以满足在带有不同防御模块的声纹系统上进行攻击的需要。具体来说,该技术在扰动优化过程中融合了多个带有不同防御模块的声纹系统输出,当一个语音样本x输入到优化过程,相应的对抗性扰动基于δ生成;然后,将生成的对抗性样本输入给带有从预定义的防御模块集合中选择的n个防御模块的声纹模型系统,而不仅仅是一个模型,以获得各种输出。在那之后,将n个输出通过加权求和的方式聚合为一个整体。考虑到不同防御模块在优化隐空间中存在优化方向冲突等差异小,本发明引入可学习的权重因子用于实时调整各个系统,即通过迭代权重系数w

通过集成学习和可学习权重因子,对抗扰动将其目标从针对单一防御模块的声纹模型扩展到带有各自防御模块的声纹模型,从而实现对防御模块的自适应性,进一步提升了攻击有效性。

为了验证本发明的技术效果,在服务器(Intel Xeon Silver 4210R、256GB RAM、NVIDIA RTX A6000)上通过最小化目标函数生成对抗扰动构造对抗样本。默认情况下,从数据集ESC-50中随机选择5s的音频作为声学掩蔽音。对于五种防御模块,按照上述临界点进行相应超参数设置。此外设置SNR(M,δ)=18,SNR(x,M)=15,置信度κ=0.1,并且基于余弦退火衰减策略的adam优化器,使用梯度投影下降法优化对抗扰动生成对抗样本。此外采用了3个训练数据集(取自LibriSpeech、Voxceleb1和Voxceleb2)用于训练3种主流声纹模型架构(d-vector、x-vector和ecapa-tdnn),它们各自的识别性能为4.68%,3.81%和0.57%。

在攻击测试时,利用20个攻击者的语音分别针对10个目标用户生成60000个语音对抗样本。此外还实施了一个基于梯度投影下降优化法的攻击方法作为基线,其在三个声纹模型上的扰动限幅为0.003、0.003和0.002。因此总共对有/无五种防御模块的三个声纹系统发起了396000次攻击试验。采用如下指标评估本发明的性能:1)攻击成功率(AttackSuccess Rate,ASR):ASR=n

攻击有效性和不可感知性评估。如下表1所示,将本发明与领域内最为典型的基于投影梯度下降法的基线攻击方式进行了对比,可以看出本发明在d-vector,x-vector和ecapa-tdnn三种声纹模型上分别对五种防御模块的平均ASR达到了91.7%,97.1%和99.1%,相比基线方法分别高出48.7%,29.8%和63.4%。此外本发明所生成的对抗样本在三个声纹模型上的SNR分别达到了32.04dB,35.55dB和36.53dB,相比PGD平均提高了30%。且PESQ分别达到了4.06,4.14和4.32,这比PGD提升了73%。这充分证明了本发明所生成的对抗样本具有极强的攻击有效性和不可感知性。

表1 本发明与基线攻击有效性和不可感知性对比

自适应性评估。图3为本发明和基线在不同超参数的不同防御模块下的ASR,可以看出对于重量化、重采样和带宽滤波三种防御模块,ASR随着其超参数的增大而单调递增达到了93%,直到超过临界点到达稳定。对于心理声学滤波法,ASR随着超参数的增大而单调递减,其首先维持了98%的ASR,然后超过临界点后开始迅速下降。对于梅尔滤波法,ASR首先随着超参数增加单调递增到94%,然后在临界点之前都保持稳定,当超过临界点后,开始下降。在这五种防御模块上,在声纹识别系统有效工作的超参数范围区间内(即EER低于10%)本发明的平均ASR要分别高于基线15.4%、48.2%、55.4%、36.0%和62.9%。这些结果充分证明了本发明拥有很强的抗防御能力,并且能自适应攻击多种带有不同超参数的不同防御模块。

上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

技术分类

06120115939058