掌桥专利:专业的专利平台
掌桥专利
首页

实现精准语义和声纹双重识别的方法、系统及存储介质

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及语音识别技术领域,特别是涉及一种实现精准语义和声纹双重识别的方法、系统及存储介质。

背景技术

语音信号中的附加信息在一定程度上干扰了语音识别,同时,人类千变万化的语言表达方式也进一步加大了语音识别的难度,相关技术中,目前的声纹识别和语音识别技术,要么只识别个人身份,要么只识别语义内容,没有对语音信号进行充分挖掘,且识别的准确率也不高,不利于语音技术在人机交互中的发展。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种实现精准语义和声纹双重识别的方法、系统及存储介质,能够精准识别语义和声纹。

第一方面,本发明实施例提供了一种实现精准语义和声纹双重识别的方法,包括:

获取待处理的语音信号;

通过快速的提升小波时频域分析方法对所述语音信号进行降噪处理,在降噪处理中基于预设的目标滤波器得到所述语音信号的小波系数;

在小波域计算得到所述小波系数降噪后的移动方差,并根据所述移动方差得到所述语音信号二维的语音特征图像;

将所述语音特征图像输入至预设的小波神经网络中,得到所述语音信号中的声纹和语义。

在一实施例中,所述通过快速的提升小波时频域分析方法对所述语音信号进行降噪处理,在降噪处理中基于预设的目标滤波器得到所述语音信号的小波系数,包括:

根据频带和时隙对所述语音信号进行小波时频分解,并在小波域得到包含噪声信息的初始小波系数;

获取预设的所述目标滤波器,根据所述目标滤波器和所述初始小波系数得到所述小波系数。

在一实施例中,所述根据频带和时隙对所述语音信号进行小波时频分解,并在小波域得到包含噪声信息的初始小波系数,包括:

获取基于所述频带和所述时隙的小波和尺度函数;

用所述小波和所述尺度函数对所述语音信号进行小波时频分解;

根据小波时频分解后的所述语音信号,在小波域得到包含所述噪声信息的所述初始小波系数。

在一实施例中,所述目标滤波器根据以下步骤得到:

通过所述初始小波系数对所述噪声信息建立偏差方程,根据所述偏差方程得到初始滤波器,其中,所述初始小波系数根据所述小波系数和所述噪声信息得到;

通过均方误差定义所述初始滤波器的成本函数;

设定所述成本函数中基于所述小波系数和所述噪声信息的目标数学期望为零,并根据所述噪声信息的噪声方差和所述移动方差得到所述目标滤波器,所述目标滤波器用于最小化所述成本函数。

在一实施例中,所述噪声方差根据以下步骤得到:

根据所述小波系数的中值和预设系数得到所述噪声信息的标准偏差;

根据所述标准偏差得到所述噪声信息的噪声方差。

在一实施例中,所述移动方差根据以下步骤得到:

获取尺度上以所述小波系数为中心的第一小波系数值,并获取尺度上以所述小波系数为中心相邻的多个第二小波系数值;

计算得到多个所述第二小波系数值的均值,并根据所述第一小波系数值与所述均值之间差值的平方、所述第二小波系数值的数量、以及噪声方差得到所述移动方差。

在一实施例中,所述小波神经网络采用基于紧框架高斯小波激励函数作为深度神经网络前向过程训练的激励函数,所述激励函数是墨西哥帽小波,所述小波神经网络采用所述基于紧框架高斯小波激励函数的微分函数作为深度神经网络向后传播算法训练的激励函数。

在一实施例中,所述将所述语音特征图像输入至预设的小波神经网络中,得到所述语音信号中的声纹和语义,包括:

将所述语音特征图像输入至预设的所述小波神经网络中,得到表征目标对象特征信息的二进制编码数据,所述目标对象特征信息包括目标对象的性别信息、年龄信息、口音信息、身份号码信息和语音信息;

根据所述二进制编码数据得到所述语音信号的所述声纹和所述语义。

第二方面,本发明实施例还提供了一种实现精准语义和声纹双重识别的系统,其特征在于,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面实施例所述的实现精准语义和声纹双重识别的方法。

第三方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如本发明第一方面实施例所述的实现精准语义和声纹双重识别的方法。

本发明实施例至少包括以下有益效果:本发明实施例提供了一种实现精准语义和声纹双重识别的方法、系统及存储介质,通过快速提升小波变换,进行小波降噪和提取语音特征图像,同时采用高效的小波神经网络,进行声纹和语义双重识别,不仅可以减少系统资源的开销,提高识别的准确率,还可以使系统满足快速实时运算的要求,从而实现更高效的识别过程。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的实现精准语义和声纹双重识别的方法的流程示意图;

图2是本发明一个实施例提供的快速的提升小波的原理图;

图3是本发明一个实施例提供的小波时频分解后的信息能量分布图;

图4是本发明另一个实施例提供的实现精准语义和声纹双重识别的方法的流程示意图;

图5是本发明另一个实施例提供的实现精准语义和声纹双重识别的方法的流程示意图;

图6是本发明一个实施例提供的语音信号的音频信号采样示意图;

图7是本发明一个实施例提供的时频小波分析示意图;

图8是本发明另一个实施例提供的实现精准语义和声纹双重识别的方法的流程示意图;

图9是本发明另一个实施例提供的实现精准语义和声纹双重识别的方法的流程示意图;

图10是本发明另一个实施例提供的实现精准语义和声纹双重识别的方法的流程示意图;

图11是本发明一个实施例提供的小波系数的移动方差示意图;

图12是本发明另一个实施例提供的实现精准语义和声纹双重识别的方法的流程示意图;

图13是本发明一个实施例提供的小波神经网络输出层示意图;

图14是本发明一个实施例提供的小波神经网络示意图;

图15是本发明一个实施例提供的实现精准语义和声纹双重识别的系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

应了解,在本发明实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明实施例提供了一种实现精准语义和声纹双重识别的方法、系统及存储介质,通过快速提升小波变换,进行小波降噪和提取语音特征图像,同时采用高效的小波神经网络,进行声纹和语义双重识别,不仅可以减少系统资源的开销,提高识别的准确率,还可以使系统满足快速实时运算的要求,从而实现更高效的识别过程。

参照图1所示,本发明实施例提供了一种实现精准语义和声纹双重识别的方法,应用于实现精准语义和声纹双重识别的系统中,该实现精准语义和声纹双重识别的方法包括但不限于以下步骤S101至步骤S104。

步骤S101,获取待处理的语音信号。

步骤S102,通过快速的提升小波时频域分析方法对语音信号进行降噪处理,在降噪处理中基于预设的目标滤波器得到语音信号的小波系数。

步骤S103,在小波域计算得到小波系数降噪后的移动方差,并根据移动方差得到语音信号二维的语音特征图像。

步骤S104,将语音特征图像输入至预设的小波神经网络中,得到语音信号中的声纹和语义。

需要说明的是,在信号采集环节本发明实施例采用预设的频率进行语音信号的音频采样,例如,本发明实施例16位、44.1kHz采样频率以音频采样的标准采集数据,以尽量保持更多的语音信息以备特征提取,在随后的信号降噪处理环节,通常在采集语音信号时会混入一些噪声到语音信号中,这些噪声会对后续的过程产生干扰,因此在进行声纹识别的关键步骤之前,需要对语音信号进行降噪处理。

小波时频域分析方法通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求。小波降噪可以很好的保护有用的信号尖峰和突变信号。因此小波变换适合用于暂态信号和瞬态信号的噪声去除方面,以及抑制高频噪声的干扰,有效将高频信息和高频噪声区分开来。具体的,本发明实施例通过快速的提升小波时频域分析方法进行降噪处理,参照图2所示,图2是快速的提升小波的原理图,在本发明实施例中,如图所示,提升小波变换是通过可逆的提升步骤来实现的,最后用因子k进行归一化,其中信号被划分为偶数和奇数分量,然后进行相互的预测t

在降噪后的特征提取环节,语音信号中,语义信息主要集中在低频部分,声纹信息集中体现在高频部分,而在不同频段上的能量分布在一定程度上反映了每个人的语音特点,通过小波分解得到的小波系数可以全面、细致地描绘语音信号的特征。经降噪后的语音信号的小波系数可以表征语音信号的特征,因此可以通过在二维小波域计算小波系数的移动方差作为语义和声纹的共同特征图形,从而将一维的语音信号变换成二维的语音特征图像,以获得针对个人的声纹和语义相关联的信息。但由于二维的语音特征图像含有大量数据,所以本发明实施例构造一个高效的小波神经网络来进行处理和分析,这是一个深度神经网络,这是通过训练和测试把该语音特征图像作为输入和把目标对象特征信息作为输出的网络,通过训练采用具有非线性、稀疏性和能量守恒等特性的紧框架高斯小波作为激励函数的小波深度神经网络,以使网络具有非常强的非线性拟合能力并可以快速收敛,最终经过小波神经网络的处理,可以精准得到语音信号中的声纹和语义。

参照图4所示,在一实施例中,上述步骤S102之中,还可以包括但不限于以下步骤S201至步骤S202。

步骤S201,根据频带和时隙对语音信号进行小波时频分解,并在小波域得到包含噪声信息的初始小波系数。

步骤S202,获取预设的目标滤波器,根据目标滤波器和初始小波系数得到小波系数。

具体的,本发明实施例中根据快速的提升小波时频域分析方法进行降噪,在对信号进行分解时,根据频带和时隙对语音信号进行小波时频分解,参照图5所示,上述步骤S201之中,还可以包括但不限于以下步骤S301至步骤S303。

步骤S301,获取基于频带和时隙的小波和尺度函数。

步骤S302,用小波和尺度函数对语音信号进行小波时频分解。

步骤S303,根据小波时频分解后的语音信号,在小波域得到包含噪声信息的初始小波系数。

具体的,本发明实施例中对语音信号进行时频分解,采样获得的语音信号如图6所示,语音信号为y(t),可以描述为:

其中j,k∈Z分别表示小波时频分解的频带和时隙,ψ

ψ

通常信号y(t)含有噪声n

其中,上述s

参照图8所示,在一实施例中,目标滤波器根据以下步骤得到,可以包括但不限于以下步骤S401至步骤S403。

步骤S401,通过初始小波系数对噪声信息建立偏差方程,根据偏差方程得到初始滤波器,其中,初始小波系数根据小波系数和噪声信息得到。

步骤S402,通过均方误差定义初始滤波器的成本函数。

步骤S403,设定成本函数中基于小波系数和噪声信息的目标数学期望为零,并根据噪声信息的噪声方差和移动方差得到目标滤波器,目标滤波器用于最小化成本函数。

可以理解的是,本发明实施例中的目标滤波器可以基于公式(4)进行推导,具体的,对于公式(4)中,

公式(5)即为偏差方程,这里用s(t)来表示初始小波系数,

随后,依据均方误差(MSE)标准可以定义针对初始滤波器F的成本函数:

J(F)=F{e

其中,E{*}表示为数学期望,当数学期望达到最小值时,可以得到信号的最优估计,它包含的噪声比观测信号少。因此可以设计最优滤波器作为目标滤波器以最小化成本函数,现从信噪比的角度来分析,假设噪声方差为E{e

为了达到最高的信噪比,设计的目标滤波器F

所以有:

随后,设定成本函数中基于小波系数和噪声信息的目标数学期望为零,并根据噪声信息的噪声方差和移动方差得到目标滤波器,具体的,考虑到无噪声信号与噪声不相关,即目标数学期望

因此可以得到最优滤波器:

并将上述最优滤波器作为目标滤波器,可以用于最小化成本函数。可以理解的是,通过本发明实施例中的快速的提升小波时频域分析方法,所得到的目标滤波器能最大限度对初始小波系数进行处理,以得到所需要的小波系数,并用于后续处理。

参照图9所示,在一实施例中,噪声方差根据以下步骤得到,可以包括但不限于以下步骤S501至步骤S502。

步骤S501,根据小波系数的中值和预设系数得到噪声信息的标准偏差。

步骤S502,根据标准偏差得到噪声信息的噪声方差。

需要说明的是,在实际降噪处理时,可以从小波系数估算噪声的标准偏差σ

其中,预设系数是0.6745,median表示为中值,由此可以得到噪声信息的噪声方差。

参照图10所示,在一实施例中,噪声方差根据以下步骤得到,可以包括但不限于以下步骤S601至步骤S602。

步骤S601,获取尺度上以小波系数为中心的第一小波系数值,并获取尺度上以小波系数为中心相邻的多个第二小波系数值。

步骤S602,计算得到多个第二小波系数值的均值,并根据第一小波系数值与均值之间差值的平方、第二小波系数值的数量、以及噪声方差得到移动方差。

需要说明的是,信号的移动方差σ

其中,S

在降噪后的特征提取环节,语音信号中,语义信息主要集中在低频部分,声纹信息集中体现在高频部分,而在不同频段上的能量分布在一定程度上反映了每个人的语音特点,通过小波分解得到的小波系数可以全面、细致地描绘语音信号的特征,经降噪后的语音信号的小波系数可以表征语音信号的特征,因此可以通过在二维小波域计算小波系数的移动方差作为语义和声纹的共同特征图形,从而将一维的语音信号变换成二维的语音特征图像,如图11所示,以获得针对个人的声纹和语义相关联的信息。但由于二维的语音特征图像含有大量数据,所以本发明实施例构造了一个高效的深度神经网络来进行处理和分析。

在一实施例中,小波神经网络采用基于紧框架高斯小波激励函数作为深度神经网络前向过程训练的激励函数,这是通过训练和测试把该语音特征图像作为输入和把目标对象特征信息作为输出的网络,激励函数是墨西哥帽小波,小波神经网络采用基于紧框架高斯小波激励函数的微分函数作为深度神经网络向后传播算法训练的激励函数。

参照图12所示,在一实施例中,上述步骤S104之中,还可以包括但不限于以下步骤S701至步骤S702。

步骤S701,将语音特征图像输入至预设的小波神经网络中,得到表征目标对象特征信息的二进制编码数据,目标对象特征信息包括目标对象的性别信息、年龄信息、口音信息、身份号码信息和语音信息。

步骤S702,根据二进制编码数据得到语音信号中的声纹和语义。

需要说明的是,小波神经网络同时还增加了对目标对象特征信息的输出,也就是说话人的性别信息、年龄信息、口音信息、身份号码信息和语义信息,进行绑定训练和高效的二进制编码输出,如图13所示,再进行声纹和语义的双重识别,训练和测试的结果可以达到较高的识别率,提高了本发明实施例的适应性和低计算复杂度,适合实时系统的应用,在一实施例中,小波神经网络的输出层定义了97位二进制编码输出,使语义与声纹双识别一次精确完成,不仅大大提高了识别效率,也极大的提高了识别的准确率,从而可以实现声纹识别与语义识别。

具体的,本发明实施例通过训练采用具有非线性、稀疏性和能量守恒等特性的紧框架高斯小波作为激励函数的小波深度神经网络,如图14所示,以使网络具有非常强的非线性拟合能力并可以快速收敛,来实现精准语义和声纹双重识别。本发明的降噪和特征提取方法,以及高效的小波神经网络,同时还增加了对说话人的性别、年龄、口音等特性的绑定训练和高效的二进制编码输出,再进行声纹识别、语义识别以及声纹、语义双重识别,训练和测试的结果均证明了方法的有效性,同时也说明了本发明具有较高的适应性和低计算复杂度,适合实时系统的应用,设计的小波深度神经网络初始结构包括有7个隐藏层,各层节点数是256,采用全连接方式,后续可对网络结构进一步优化。本发明实施例中构造的深度神经网络,其输入输出的映射过程可以用下式来描述:

其中,X式中代表输入,Y代表输出,W代表网络权重,B代表偏差,f代表激励函数,其结构如图14所示。

考虑到高斯函数具有最优的时间-频率特性,本发明实施例采用基于紧框架高斯小波激励函数:

由此将公式(15)作为深度神经网络前向(FP过程)过程训练的激励函数,它是墨西哥帽(Mexican hat)小波,是高斯exp(-t

公式(16)也是高斯型,可以作为深度神经网络向后传播BP算法训练的激励函数。在深度神经网络中,采用紧框架高斯小波作为激励函数,具有非线性、稀疏性和能量守恒等特性,可以使网络具有非常强的非线性拟合能力并可以快速收敛,加上采用快速提升小波变换来进行降噪和提取方差特征图像,能够从时间和频率两个维度提取声纹特征与语义信息,从而可以实现快速精准的语义和声纹双重识别。

在语音信号采集环节,由于神经网络的输入层节点数固定,输入的数据位数是固定的,因此在使用神经网络对语音数据处理之前,要先将采集到的语音信号进行端点检测,将语音信号中有效的语音部分截取出来,再进行降噪处理和特征提取,然后输入神经网络进行训练和测试。在语音信号采集的过程中,不可避免地会混入一些噪声,这些噪声会干扰声纹识别的性能,因此预先对语音信号进行降噪是必须的。本发明实施例采用小波降噪的方法,在小波域进行语音信号最优降噪以尽量去除噪声,同时最大限度地保留信号的细节,以便后续对声纹信息的分析与处理,在小波降噪的过程中,信号已经进行了小波变换,而小波系数是一种结构化的数据,它将不同频段的数据由低到高排列,既有频率信息又包含有时间信息,因此直接使用语音信号的小波系数的移动方差构成的特征图像作为神经网络的输入,可以更好地模仿人类的听觉特性,实现性能更佳的声纹识别效果,并且减少系统的开销,实现更加高效的声纹识别。

在一实施例中,构造的小波神经网络的训练分为两步,首先对连接神经元(节点)的每条线赋予一个初始权值,权值既可以是随机的,也可以根据过往经验设置,随后,将标记了目标输出结果的数据样本从输入层输入到神经网络,经过隐藏层的运算处理,在输出层得到实际的输出结果,对实际输出结果与目标输出结果求平方误差函数,根据这个结果判断训练的精度,以决定是否改变参数或继续训练和优化。

图15示出了本发明实施例提供的实现精准语义和声纹双重识别的系统800。实现精准语义和声纹双重识别的系统800包括:处理器801、存储器802及存储在存储器802上并可在处理器801上运行的计算机程序,计算机程序运行时用于执行上述的实现精准语义和声纹双重识别的方法。

处理器801和存储器802可以通过总线或者其他方式连接。

存储器802作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本发明实施例描述的实现精准语义和声纹双重识别的方法。处理器801通过运行存储在存储器802中的非暂态软件程序以及指令,从而实现上述的实现精准语义和声纹双重识别的方法。

存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作实现精准语义和声纹双重识别的系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述的实现精准语义和声纹双重识别的方法。此外,存储器802可以包括高速随机存取存储器802,还可以包括非暂态存储器802,例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器802可选包括相对于处理器801远程设置的存储器802,这些远程存储器802可以通过网络连接至该实现精准语义和声纹双重识别的系统800。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述的实现精准语义和声纹双重识别的方法所需的非暂态软件程序以及指令存储在存储器802中,当被一个或者多个处理器801执行时,执行上述的实现精准语义和声纹双重识别的方法,例如,执行图1中的方法步骤S101至步骤S104、图4中的方法步骤S201至步骤S202、图5中的方法步骤S301至步骤S303、图8中的方法步骤S401至步骤S403、图9中的方法步骤S501至步骤S502、图10中的方法步骤S601至步骤S602、图12中的方法步骤S701至步骤S702。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、实现精准语义和声纹双重识别的系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

还应了解,本发明实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。

以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

技术分类

06120114698455