导航：首页> 乐器；声学>基于LSTM模型的语音欺诈攻击检测方法、装置和电子设备

基于LSTM模型的语音欺诈攻击检测方法、装置和电子设备

文献发布时间：2024-04-18 20:01:23

技术领域

本发明涉及语音检测技术领域，尤其是涉及一种基于LSTM模型的语音欺诈攻击检测方法、装置和电子设备。

背景技术

语音欺诈是指通过模仿、篡改特征等方法对语音特征进行修改，有可能达到非法通过自动说话人验证系统(Automatic speaker verification,ASV)验证的目的。为了ASV系统的安全性，系统必须能够准确判断输入的语音特征的真伪，语音欺诈检测应运而生。

现有的语音欺诈检测算法有OC-ResNet、CPCC-ResNet、IST-GAT、Res2Net等几种。通常误分类的样本带有更多影响分类结果的特征，在现有的语音欺诈检测算法中，并未考虑误分类的特征对模型学习的影响，导致现有语音欺诈检测算法的检测精度不高。

发明内容

本发明的目的在于提供一种基于LSTM模型的语音欺诈攻击检测方法、装置和电子设备，以缓解现有语音欺诈检测算法的检测精度不高的技术问题。

第一方面，本发明实施例提供了一种基于LSTM模型的语音欺诈攻击检测方法。包括：

将所述目标语音特征输入至LSTM模型中，提取深层语音特征；

将所述LSTM模型输出的所述深层语音特征作为注意力机制层的输入，提取关键语音特征；

将所述注意力机制层输出的所述关键语音特征输入至MV-Softmax模型中进行训练判别，并输出判别结果；所述判别结果包括正类和负类；所述正类为正常语音，所述负类为被语音欺诈攻击的语音。

在一些可选的实现中，LSTM模型包括遗忘门、输入门、状态门以及输出门；所述将所述目标语音特征输入至LSTM模型中，提取深层语音特征，包括：

语音特征提取，得到输入x

首先经过遗忘门对x

在一些可选的实现中，将所述LSTM模型输出的所述深层语音特征作为注意力机制层的输入，提取关键语音特征，包括：

将LSTM模型的输出作为输入，输入到注意力机制层，通过注意力机制层将查询向量和每个键向量进行点积计算得到权重，然后使用Softmax函数对权重归一化处理,最后将权重和对应的值向量加权求和，提取关键语音特征。

在一些可选的实现中，还包括：

利用所述MV-Softmax模型对错误分类的特征向量进行优化。

在一些可选的实现中，还包括：

交替更新所述LSTM模型、所述注意力机制层和所述MV-Softmax模型，直至正样本全被分类成正类，假样本全被分类成负类。

第二方面，提供了一种基于LSTM模型的语音欺诈攻击检测装置，包括：

深层特征提取模块，用于将所述目标语音特征输入至LSTM模型中，提取深层语音特征；

关键特征提取模块，用于将所述LSTM模型输出的所述深层语音特征作为注意力机制层的输入，提取关键语音特征；

训练判别模块，用于将所述注意力机制层输出的所述关键语音特征输入至MV-Softmax模型中进行训练判别，并输出判别结果；所述判别结果包括正类和负类；所述正类为正常语音，所述负类为被语音欺诈攻击的语音。

在一些可选的实现中，LSTM模型包括遗忘门、输入门、状态门以及输出门；所述深层特征提取模块具体用于：

语音特征提取，得到输入x

首先经过遗忘门对x

在一些可选的实现中，所述关键特征提取模块具体用于：

在一些可选的实现中，还包括：

优化模块，用于利用所述MV-Softmax模型对错误分类的特征向量进行优化。

在一些可选的实现中，还包括：

更新模块，用于交替更新所述LSTM模型、所述注意力机制层和所述MV-Softmax模型，直至正样本全被分类成正类，假样本全被分类成负类。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述第一方面任一项所述的方法。

本发明提供了一种基于LSTM模型的语音欺诈攻击检测方法、装置和电子设备。通过将所述目标语音特征输入至LSTM模型中，提取深层语音特征；将所述LSTM模型输出的所述深层语音特征作为注意力机制层的输入，提取关键语音特征；将所述注意力机制层输出的所述关键语音特征输入至MV-Softmax模型中进行训练判别，并输出判别结果；所述判别结果包括正类和负类；所述正类为正常语音，所述负类为被语音欺诈攻击的语音。可以提升语音欺诈检测算法的检测精度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于LSTM模型的语音欺诈攻击检测方法的流程示意图；

图2为本发明实施例提供的一种基于LSTM模型的语音欺诈攻击检测装置的结构示意图；

图3为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

基于此，本发明实施例提供了一种基于LSTM模型的语音欺诈攻击检测方法、装置及电子设备。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于LSTM模型的语音欺诈攻击检测方法方法进行详细介绍，参见图1所示的一种基于LSTM模型的语音欺诈攻击检测方法的流程示意图，该方法可以由电子设备执行，主要包括以下步骤S110至步骤S130：

S110，将所述目标语音特征输入至LSTM模型中，提取深层语音特征。

其中，LSTM模型可以包括遗忘门、输入门、状态门以及输出门。

可以先进行语音特征提取，得到输入x

然后经过遗忘门对x

主要公式如下：

其中，W是权重，σ和tanh是激活函数，b是偏置。

S120，将所述LSTM模型输出的所述深层语音特征作为注意力机制层的输入，提取关键语音特征。

作为一个示例，将LSTM模型的输出作为输入，输入到注意力机制(Attention)层进行关键特征的突出,首先将查询向量query(Q)和每个键向量Key(K)进行点积计算得到权重，然后使用Softmax函数对权重归一化处理,最后将权重和对应的值向量Value(V)加权求和获得Attention,主要公式如下:

其中,x为输入,W为权重,d

S130，将所述注意力机制层输出的所述关键语音特征输入至MV-Softmax模型中进行训练判别，并输出判别结果。

所述判别结果包括正类和负类；所述正类为正常语音，所述负类为被语音欺诈攻击的语音。

在一些实施例中，可以将Attention层的输出输入到MV-Softmax中进行训练判别，输出判别结果，正类为正常语音，负类为被语音欺诈攻击的语音。基于误分类向量引导的Softmax损失进行分类训练的损失函数如下:

其中,

利用所述MV-Softmax模型对错误分类的特征向量进行优化。

交替更新所述LSTM模型、所述注意力机制层和所述MV-Softmax模型，直至正样本全被分类成正类，假样本全被分类成负类。

语音欺诈是指通过模仿、篡改特征等方法对语音特征进行修改，有可能达到非法通过自动说话人验证系统(Automatic speaker verification,ASV)验证的目的。为了ASV系统的安全性，系统必须能够准确判断输入的语音特征的真伪，语音欺诈检测应运而生。现有的语音欺诈检测算法有OC-ResNet、CPCC-ResNet、IST-GAT、Res2Net等算法。直觉上，误分类的样本带有更多影响分类结果的特征，在现有的语音欺诈检测算法中，并未考虑误分类的特征对模型学习的影响。本发明主要针对语音欺诈检测技术研究，通过设计一种误分类向量引导的Softmax损失(MV-Softmax)，有效提高语音欺诈检测精度。首先基于恒定Q倒谱系数变换(CQCC)的方法提取一份语音中的特征，完成数据预处理。进一步的，将特征输入到一个长短期记忆网络(LSTM)模型中进行训练,提取深层特征。进一步的，将LSTM模型的输出作为输入，输入到注意力机制(Attention)层进行关键特征的突出。进一步的，将Attention层的输出输入到MV-Softmax模型中进行训练判决。进一步的，MV-Softmax对错误分类的特征向量进行优化，指导鉴别特征学习。进一步的，交替更新LSTM模型、Attention层和MV-Softmax模型，直到正样本全被分类成正类，假样本全被分类成负类。

本申请实施例可以使用LSTM模型处理语音特征，有效处理时序信号；基于注意力机制突出关键特征，专注于和目标关联更大的特征；针对Softmax分类技术研究，提出一种误分类向量引导的Softmax损失，有效提高语音欺诈检测精度。

图2为本申请实施例提供的一种基于LSTM模型的语音欺诈攻击检测装置结构示意图。如图2所示，包括：

深层特征提取模块201，用于将所述目标语音特征输入至LSTM模型中，提取深层语音特征；

关键特征提取模块202，用于将所述LSTM模型输出的所述深层语音特征作为注意力机制层的输入，提取关键语音特征；

训练判别模块203，用于将所述注意力机制层输出的所述关键语音特征输入至MV-Softmax模型中进行训练判别，并输出判别结果；所述判别结果包括正类和负类；所述正类为正常语音，所述负类为被语音欺诈攻击的语音。

在一些实施例中，LSTM模型包括遗忘门、输入门、状态门以及输出门；所述深层特征提取模块201具体用于：

语音特征提取，得到输入x

首先经过遗忘门对x

在一些实施例中，所述关键特征提取模块202具体用于：

在一些实施例中，还包括：

优化模块，用于利用所述MV-Softmax模型对错误分类的特征向量进行优化。

在一些实施例中，还包括：

更新模块，用于交替更新所述LSTM模型、所述注意力机制层和所述MV-Softmax模型，直至正样本全被分类成正类，假样本全被分类成负类。

本申请实施例所提供的基于LSTM模型的语音欺诈攻击检测装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。本申请实施例提供的基于LSTM模型的语音欺诈攻击检测装置与上述实施例提供的基于LSTM模型的语音欺诈攻击检测方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本申请实施例还提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图3为本申请实施例提供的一种电子设备的结构示意图，该电子设备300包括：处理器30，存储器31，总线32和通信接口33，所述处理器30、通信接口33和存储器31通过总线32连接；处理器30用于执行存储器31中存储的可执行模块，例如计算机程序。

其中，存储器31可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口33(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线32可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器31用于存储程序，所述处理器30在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器30中，或者由处理器30实现。

处理器30可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器30中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器30可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器31，处理器30读取存储器31中的信息，结合其硬件完成上述方法的步骤。

对应于上述方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述方法的步骤。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载