掌桥专利:专业的专利平台
掌桥专利
首页

网络模型训练方法、语音识别处理方法及相关设备

文献发布时间:2023-06-19 10:48:02


网络模型训练方法、语音识别处理方法及相关设备

技术领域

本发明涉及语音识别技术领域,尤其涉及一种网络模型训练方法、语音识别处理方法及相关设备。

背景技术

随着通信技术的发展,通过电话作业的需求越来越多。例如,在消费金融领域,客服呼叫中心每天会处理成千上万单的热线、回访和催收等业务。为了提升客服服务质量,对客服服务态度进行有效监管十分重要。现有技术中,通常采用人工筛查的方式进行抽检,然而通常为了保证通话检测的覆盖率,需要检测的通话数据量较大,导致检测的成本较高。此外,为了确保通话用户的可靠性,通常需要对用户的身份信息进行核实,目前通常采用对用户名或者用户身份证号码进行身份信息的核实,然而,用户名或者用户身份证号码都可以被窃取,使得身份验证的可靠性较低。因此,现有技术中,存在用户情绪检测的成本较高以及身份验证的可靠性较低的问题。

发明内容

本发明实施例提供一种网络模型训练方法、语音识别处理方法及相关设备,以解决用户情绪检测的成本较高以及身份验证的可靠性较低的问题。

第一方面,本发明实施例提供了一种语音识别网络模型训练方法,包括:

利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;

其中,所述待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且所述N个第一特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到第二特征向量,所述第二特征向量用于表示声纹特征信息或情绪特征信息,N为大于1的整数。

第二方面,本发明实施例提供了一种语音识别处理方法,包括:

将待识别的第一语音数据进行预处理,得到第六特征向量,所述第六特征向量用于表示所述第一语音数据的声纹特征信息;

将所述第六特征向量输入至语音识别网络模型,获得待确认的声纹特征向量;

将所述声纹特征向量输入至预设的分类模型获得第一分类结果;

在所述第一分类结果与第一用户对应的基准结果匹配的情况下,确定所述第一语音数据为第一用户的语音数据;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第六特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第七特征向量,所述声纹特征向量为所述N个第七特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到特征向量,N为大于1的整数。

第三方面,本发明实施例提供了一种语音识别处理方法,包括:

将待识别的第二语音数据进行预处理,得到第十一特征向量,所述第十一特征向量用于表示所述第二语音数据的情绪特征信息;

将所述第十一特征向量输入至语音识别网络模型,获得所述第二语音数据的情绪分类结果;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层、N-1个浅层特征融合网络层和分类网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第十一特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第十二特征向量,所述情绪分类网络用于将所述N个第十二特征向量、所述延时神经网络层的输出和所述第一残差层的输出融合后,进行情绪分类,获得所述情绪分类结果,N为大于1的整数。

第四方面,本发明实施例提供了一种语音识别网络模型训练装置,包括:

训练模块,用于利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;

其中,所述待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且所述N个第一特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到第二特征向量,所述第二特征向量用于表示声纹特征信息或情绪特征信息,N为大于1的整数。

第五方面,本发明实施例提供了一种语音识别处理装置,包括:

第一预处理模块,用于将待识别的第一语音数据进行预处理,得到第六特征向量,所述第六特征向量用于表示所述第一语音数据的声纹特征信息;

第一输入模块,用于将所述第六特征向量输入至语音识别网络模型,获得待确认的声纹特征向量;

第二输入模块,用于将所述声纹特征向量输入至预设的分类模型获得第一分类结果;

确定模块,用于在所述第一分类结果与第一用户对应的基准结果匹配的情况下,确定所述第一语音数据为第一用户的语音数据;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第六特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第七特征向量,所述声纹特征向量为所述N个第七特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到特征向量,N为大于1的整数。

第六方面,本发明实施例提供了一种语音识别处理装置,包括:

第二预处理模块,用于将待识别的第二语音数据进行预处理,得到第十一特征向量,所述第十一特征向量用于表示所述第二语音数据的情绪特征信息;

第三输入模块,用于将所述第十一特征向量输入至语音识别网络模型,获得所述第二语音数据的情绪分类结果;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层、N-1个浅层特征融合网络层和分类网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第十一特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第十二特征向量,所述情绪分类网络用于将所述N个第十二特征向量、所述延时神经网络层的输出和所述第一残差层的输出融合后,进行情绪分类,获得所述情绪分类结果,N为大于1的整数。

第七方面,本发明实施例提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现第一方面提供的语音识别网络模型训练方法的步骤,或者,所述计算机程序被所述处理器执行时实现第二方面或第三方面提供的语音识别处理方法的步骤。

第八方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现第一方面提供的语音识别网络模型训练方法的步骤,或者,所述计算机程序被所述处理器执行时实现第二方面或第三方面提供的语音识别处理方法的步骤。

本发明实施例中通过利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;其中,所述待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且所述N个第一特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到第二特征向量,所述第二特征向量用于表示声纹特征信息或情绪特征信息,N为大于1的整数。由于在待训练语音识别网络模型中以残差层为基础与浅层特征融合网络层进行结合,从而使得模型的参数量小,特征映射能力强,且可以具有较强的短时特征的表现能力。这样可以利用训练得到的语音识别网络模型进行声纹特征识别和情绪特征识别,从而降低用户情绪检测的成本以及提高用户身份验证的可靠性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的网络模型训练方法的流程图;

图2是本发明实施例提供的网络模型训练方法中待训练语音识别网络模型的框架图之一;

图3是本发明实施例提供的网络模型训练方法中待训练语音识别网络模型的框架图之二;

图4是本发明实施例提供的一种语音识别处理方法的流程图;

图5是本发明实施例提供的另一种语音识别处理方法的流程图;

图6是本发明实施例提供的网络模型训练装置的结构图;

图7是本发明实施例提供的一种语音识别处理装置的结构图;

图8是本发明实施例提供的另一种语音识别处理装置的结构图;

图9是本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,图1是本发明实施例提供的一种语音识别网络模型训练方法的流程图,如图1所示,包括以下步骤:

步骤101,利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;

其中,所述待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且所述N个第一特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到第二特征向量,所述第二特征向量用于表示声纹特征信息或情绪特征信息,N为大于1的整数。

本发明实施例中,上述第一残差层和第二残差层可以统称为残差层,例如可以表示为ResNetBlock。如图2和图3所示,其中第一残差层和N个第二残差层可以理解为残差网络中的残差层,将残差网络的全连接层调整为延时神经网络层,得到调整后的残差网络结构。基于调整后的残差网络结构,结合浅层特征融合网络层构建待训练语音识别网络模型,其具体结构如图2所示,上述N的数值可以根据实际需要进行设置,如图2所示,在本发明实施例中,N的取值为3。

应理解,当将表示声纹特征信息的特征向量输入到待训练语音识别网络模型时,可以得到表示声纹特征信息的第二特征向量;当将表示情绪特征信息的特征向量输入到待训练语音识别网络模型时,可以得到表示情绪特征信息的第二特征向量。

可选地,上述N-1个浅层特征融合网络层可以将不同尺度的特征向量进行采样复用,从而可以有效提升对话场景下短时特征的表现能力,且以残差网络为基础模型,因此模型的参数量小,特征映射能力较强。

本发明实施例中通过利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;其中,所述待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且所述N个第一特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到第二特征向量,所述第二特征向量用于表示声纹特征信息或情绪特征信息,N为大于1的整数。由于在待训练语音识别网络模型中以残差层为基础与浅层特征融合网络层进行结合,从而使得模型的参数量小,特征映射能力强,且可以具有较强的短时特征的表现能力。这样可以利用训练得到的语音识别网络模型进行声纹特征识别和情绪特征识别,从而降低用户情绪检测的成本以及提高用户身份验证的可靠性。

需要说明的是,上述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量的方式根据实际需要进行设置,例如,在一些实施例中,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量包括:

所述N-1个浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度的特征向量进行采样融合处理,得到N个第一特征向量,所述N个第一特征向量包括目标残差层输出的特征向量,所述目标残差层为与所述第一残差层相邻的第二残差层。

本申请实施例中,上述N个第一特征向量包括目标残差层输出的特征向量可以理解为,N个第一特征向量中的每一个第一特征向量均包含上述目标残差层输出的特征向量,其中,N个第一特征向量中的一个第一特征向量为目标残差层输出的特征向量。

可选地,在一些实施例中,所述N-1个浅层特征融合网络层与除所述目标残差层之外的N-1个第二残差层一一对应连接,第1个浅层特征融合网络层还与所述目标残差层连接,所述第1个浅层特征融合网络层用于将连接的两个第二残差层输出的特征向量进行融合处理,得到1次融合特征向量,并将所述目标残差网络层输出的特征向量确定为第一个所述第一特征向量,第i个浅层特征融合网络层用于将相连的所述第二残差层输出的特征向量,与第i-1个浅层特征融合网络层输出的i-1次融合特征向量进行融合处理,得到i次融合特征向量,并将所述第i次融合特征向量确定为第i个所述第一特征向量,其中i为大于等于2且小于等于N-1的整数,且N为大于2的整数;

或当N为2时,所述浅层特征融合网络层用于将所述目标残差网络层与所述目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将所述目标残差网络层输出的特征向量和所述目标融合特征向量确定为所述第一特征向量。

本申请实施例中,当i的取值越大,对应连接的第二残差层输出的特征向量表现为更加浅层的特征向量。由于将不同层的特征向量进行依次融合,从而实现了将不同尺度的特征向量进行采样复用,从而可以有效提升对话场景下短时特征的表现能力。

如图2和图3所示,以N的取值等于3为例进行详细说明,此时上述浅层特征融合网络层的数量为2,第一个浅层特征融合网络层可以表示为temp2和temp3。假设第一个第二残差层输出的特征向量为特征向量C3,第二个第二残差层用于对特征向量C3进行残差处理输出特征向量C4,第三个第二残差层用于对特征向量C4进行残差处理输出的特征向量C5。其中,第三个第二残差层可以理解为上述目标残差层,上述temp2分别与第三个第二残差层和第二残差层连接,上述temp3与第一第二残差层连接。

当N为2时,此时上述浅层特征融合网络层的数量为1,浅层特征融合网络层可以表示为temp4。假设第一个第二残差层输出的特征向量为特征向量C8,第二个第二残差层用于对特征向量C8进行残差处理输出特征向量C9,其中,第二个第二残差层可以理解为上述目标残差层,上述temp4与第一残差层和第二残差层连接。上述所述temp4用于将目标残差网络层与目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将目标残差网络层输出的特征向量和所述目标融合特征向量均确定为第一特征向量。

可选地,在一些实施例中,所述利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型的步骤,包括:

对标注的样本数据进行预处理,得到第三特征向量;

利用所述第三特征向量对所述待训练语音识别网络模型进行迭代训练,获得所述语音识别网络模型;

其中,当所述第二特征向量用于表示情绪特征信息时,所述第三特征向量用于表示所述样本数据的声纹特征信息;当所述第二特征向量用于表示声纹特征信息时,所述第三特征向量用于表示所述样本数据的情绪特征信息。

本发明实施例中,所述第三特征向量用于表示所述样本数据的声纹特征信息时,所述第三特征向量包括Fbank特征、一阶差分特征和音色信息特征;所述第三特征向量用于表示所述样本数据的情绪特征信息时,所述第三特征向量包括梅尔频谱(Mel-spectrogram)特征、一阶差分特征和二阶差分特征。

应理解,上述样本数据可以为金融客服的录音数据,可以采用一千小时的录音数据作为样本数据,当进行声纹特征训练时,可以对样本数据进行声纹特征标注,即标注某一段语音为某一用户的语音。当进行情绪训练时,可以对样本数据进行情绪分类标注。

可选地,在一些实施例中,当进行声纹特征训练时,对标注的样本数据进行预处理,得到第三特征向量包括:

对标注的样本数据通过以下至少一项方式进行数据扩展:加噪声、加语速和增加数据扰动等;

利用卡尔迪(kaldi)中的特征提取脚本,对数据扩展后的样本数据进行特征提取,获得Fbank特征和音色信息特征;

针对Fbank特征,使用python提取一阶差分特征;

将所述Fbank特征、音色信息特征和一阶差分特征进行融合处理,得到第三特征向量。

本实施例中,第三特征向量可以表示包括Fbank-一阶差分-音色信息特征的三通道特征图。可选地,上述增加数据扰动可以理解为,增加背景音乐、混响和演讲等处理。由于针对样本数据进行数据扩展,从而可以提高数据的真实性。由于第三特征向量采用将Fbank特征和一阶差分特征与音色信息特征相结合的融合特征,有效结合了金融场景对话中客户与客服对话短时的特点,在训练过程中可以引入谱增强,有效提升场景特征覆盖能力。

可选地,在一些实施例中,当进行声纹特征训练时,对标注的样本数据进行预处理,得到第三特征向量包括:

对标注的样本数据进行特征提取,获得梅尔频谱特征;

针对梅尔频谱特征,使用python提取一阶差分特征;

针对一阶差分特征,使用python提取二阶差分特征;

将所述梅尔频谱特征、一阶差分特征和二阶差分特征进行融合处理,得到第三特征向量。

由于在本发明实施例中,将梅尔频谱特征、一阶差分特征和二阶差分特征相结合,形成三维特征,从而提高特征覆盖能力,有利于语音识别网络模型进行分类学习。

可选地,在一些实施例中,所述利用所述第三特征向量对所述待训练语音识别网络模型进行迭代训练,获得所述语音识别网络模型的步骤,包括:

在第L次迭代训练过程中,将所述第三特征向量输入至所述待训练语音识别网络模型,获得所述第二特征向量,其中L为正整数;

将所述第二特征向量输入至Softmax分类器,得到所述第二特征向量的分类结果与所述第三特征向量标注结果的损失值,所述损失值用于调整所述待训练语音识别网络模型的网络参数;

若所述损失值的变化小于预设值,则将当前训练的待训练语音识别网络模型确定为所述语音识别网络模型。

本发明实施例中,可以将样本数据分为多个组进行迭代训练,每次采用一组样本数据对应的第三特征向量作为输入,进行一次迭代训练。在一次迭代训练过程中,可以将待训练语音识别网络模型输出的第二特征向量输入到Softmax分类器中,得到相应的分类结果,具体可以为情绪分类结果,或者声纹特征分类结果,并且在Softmax分类器中可以将分类的结果与标注的结果进行比对,得到上述损失值,当损失值的变化大于或等于预设值时,可以对待训练语音识别网络模型的网络参数进行调整,继续进行下一次迭代训练。若所述损失值的变化小于预设值,则表明当前的分类结果已经趋近于真实值,从而可以将当前训练得到的待训练语音识别网络模型确定为所述语音识别网络模型。

可选地,在一些实施例中,所述待训练语音识别网络模型还包括归一化卷积层(conv&BN),所述归一化卷积层用于对所述第三特征向量进行归一化处理,获得第四特征向量;

所述延时神经网络层用于对所述第一残差层输出的特征向量进行一维延展处理得到具有时间信息的第五特征向量。

如图2和图3所示,在本发明实施例中,残差网络包括三个第二残差层。本发明实施例中,三个残差层依次串联,其中,归一化卷积层、三个第二残差层、第一残差层和延时神经网络层依次串联,且每一残差层可以输出不同尺度的特征向量。每一第二残差层可以向下一残差层输出经过残差处理后的特征向量,同时将该特征向量输出至浅层特征融合网络层。可以理解的是,假设第一个第二残差层输出的特征向量为特征向量C3,第二个第二残差层用于对特征向量C3进行残差处理输出特征向量C4,第三个第二残差层用于对特征向量C4进行残差处理输出的特征向量C5,第一残差层用于对特征向量C5进行残差处理输出特征向量P6,延时神经网络层用于对特征向量P6进行一维延展处理得到特征向量P7。

在图2和图3中,特征向量C5输入到浅层特征融合网络层后,可以表现为特征向量P5。在浅层特征融合网络层中,可以通过temp2对特征向量P5进行下采样并与特征向量C4融合得到特征向量P4,通过temp3对特征向量P4进行下采样并与特征向量C3融合得到特征向量P3。

需要说明的是,在本申请实施例中,C3至C5以及P3至P7仅仅用于区分不同的向量表示,以方便进行描述说明,并非表示特征向量的具体含义。

应理解,上述特征向量C3到C5为不同尺度的特征向量,上述待训练语音识别网络模型用于实现不同的功能时,对于上述特征向量P3至P7的处理不同。例如,在一可选实施例中,当采用上述待训练语音识别网络模型进行声纹特征训练时,可以采用concat结构对各特征向量进行拼接融合。此时得到的第二特征向量可以理解为语音x-vector特征。换句话说,在本发明实施例中,所述第二特征向量用于表示所述声纹特征信息时,所述第二特征向量为所述P3至P7拼接后的特征向量。

可选地,当采用上述待训练语音识别网络模型进行声纹特征训练时,可以采用双向门限循环神经网络(BiGRU)层对多个特征向量进行特征间互联融合处理,得到第二特征向量。换句话说,在本发明实施例中,所述第二特征向量用于表示所述情绪特征信息时,所述待训练语音识别网络模型还包括双向门限循环神经网络层和注意力机制层(Attention),所述双向门限循环神经网络层用于对所述N个第一特征向量、所述第五特征向量和所述第一残差层输出的特征向量进行特征间互联融合处理得到所述第二特征向量,并将所述第二特征向量通过所述注意力机制层进行加权处理后,输出至所述Softmax分类器中,得到情绪分类的结果。

应理解,上述注意力机制层用于对第二特征向量进行加权的同时,还可以用于对齐语音帧级特征。

本发明实施例中,上述延时神经网络层输出的特征向量表示了时序信息,双向门限循环神经网络可以对延时神经网络层输出的特征向量进行编码,并与上述P3到P6的特征进行帧间对齐,从而融合输出结合了语音情绪时序信息的特征向量。相较于现有的双向长短时记忆(bidirectional long short-term memory,BiLSTM),在本申请实施例中,采用的BiGRU的网络结构简单,可以有效降低网络参数量,加快网络运行的速度而又不对网络准确率产生较大影响。由于残差网络的参数量较小,因此可以提升语音序列特征处理能力。

需要说明的是,在本发明实施例中,利用上述语音识别网络模型进行情绪分类时,在待训练语音识别网络模型中设计了注意力机制层和Softmax分类器,从而可以直接利用训练好的语音识别网络模型进行情绪分类识别。当然在其他实施例中,上述注意力机制层和Softmax分类器可以是独立设置的,在训练好的语音识别网络模型的基础上串接注意力机制层和Softmax分类器,从而可以实现情绪的分类。

可选地,在本发明实施例中,上述残差网络中各层网络的结构以及输出的特征维度,如下表所示:

上述表格中,针对80 x K x 3,其中,80表示一个音频对应的梅尔频谱图的维度信息,K用于表示一个音频对应的时长信息,3表示梅尔频谱图的组成信息,例如,可以为由Fbank-一阶差分-音色信息特征组成的特征图,也可以为由Fbank-一阶差分-二阶差分特征组成的特征图。上述T用于表示一个音频的帧数信息。例如,在一可选实施例中,一个音频的时长大约为2秒,对应的帧数可以为200帧。

本申请实施例中,一次迭代过程中,可以输入128个音频,将128个音频对应预处理得到的第三特征向量可以为128 x 80 x K x 3维的特征向量,该128 x 80 x K x 3维的特征向量输入到上述归一化卷积层后,可以由归一化网络层进行归一化卷积处理,每一个音频对应的特征向量可以表示为

可选地,上述在一些实施例中,还可以在第一残差层与延时神经网络层之间设置池化网络层,进行池化处理,以减少延时神经网络层的参数处理量,提高延时神经网络层的处理速度。

参照图4,本发明实施例还提供一种语音识别处理方法,如图4所示,该语音识别处理方法包括:

步骤401,将待识别的第一语音数据进行预处理,得到第六特征向量,所述第六特征向量用于表示所述第一语音数据的声纹特征信息;

步骤402,将所述第六特征向量输入至语音识别网络模型,获得待确认的声纹特征向量;

步骤403,将所述声纹特征向量输入至预设的分类模型获得第一分类结果;

步骤404,在所述第一分类结果与第一用户对应的基准结果匹配的情况下,确定所述第一语音数据为第一用户的语音数据;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第六特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第七特征向量,所述声纹特征向量为所述N个第七特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到特征向量,N为大于1的整数。

本发明实施例中,在与第一用户进行电话作业时,可以首先与第一用户进行对话,在对话的过程中,获取第一用户的语音数据,从而对第一用户的身份进行识别。

本发明实施例中,上述第一残差层和第二残差层可以统称为残差层,例如可以表示为ResNetBlock。如图2所示,其中第一残差层和N个第二残差层可以理解为残差网络中的残差层,将残差网络的全连接层调整为延时神经网络层,得到调整后的残差网络结构。基于调整后的残差网络结构,结合浅层特征融合网络层构建得到上述语音识别网络模型,其具体结构如图2所示,上述N的数值可以根据实际需要进行设置,如图2所示,在本发明实施例中,N的取值为3。

可选地,在一些实施例中,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第七特征向量包括:

所述N-1个浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度的特征向量进行采样融合处理,得到N个第七特征向量,所述N个第七特征向量包括目标残差层输出的特征向量,所述目标残差层为与所述第一残差层相邻的第二残差层。

可选地,所述N-1个浅层特征融合网络层与除所述目标残差层之外的N-1个第二残差层一一对应连接,第1个浅层特征融合网络层还与所述目标残差层连接,所述第1个浅层特征融合网络层用于将连接的两个第二残差层输出的特征向量进行融合处理,得到1次融合特征向量,并将所述目标残差网络层输出的特征向量确定为第一个所述第七特征向量,第i个浅层特征融合网络层用于将相连的所述第二残差层输出的特征向量,与第i-1个浅层特征融合网络层输出的i-1次融合特征向量进行融合处理,得到i次融合特征向量,并将所述第i次融合特征向量确定为第i个所述第七特征向量,其中i为大于等于2且小于等于N-1的整数,且N为大于2的整数;

或当N为2时,所述浅层特征融合网络层用于将所述目标残差网络层与所述目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将所述目标残差网络层输出的特征向量和所述目标融合特征向量均确定为所述第七特征向量。

本申请实施例中,通过上述N-1个浅层特征融合网络层将不同尺度的特征向量进行采样复用,从而可以有效提升对话场景下短时特征的表现能力,且以残差网络为基础模型,因此模型的参数量小,特征映射能力较强。

应理解,在本发明实施例中,上述预处理的过程可以包括以下步骤:

利用卡尔迪(kaldi)中的特征提取脚本,对第一语音数据进行特征提取,获得Fbank特征和音色信息特征;

针对Fbank特征,使用python提取一阶差分特征;

将所述Fbank特征、音色信息特征和一阶差分特征进行融合处理,得到第六特征向量。

也就是说,在本发明实施例中,上述第六特征向量包括Fbank特征、一阶差分特征和音色信息特征。

上述预设的分类模型可以为plda分类器,具体地,可以首先使用上述标注的样本数据首先对plda分类器进行训练,以学习各说话人在各自空间的特征表示,使用EM算法进行全概率后验估计,直到找到最佳拟合特征表示参数。在进行识别时,可以将语音识别网络模型输出的声纹特征向量输入到plda分类器中,获得第一分类结果。将该第一分类结果与待比对的第一用户对应的基准结果进行比对,从而确定当前待识别的第一语音数据是否为第一用户的语音数据。

本发明实施例中由于在语音识别网络模型中以残差网络为基础与浅层特征融合网络层进行结合,从而使得模型的参数量小,特征映射能力强,且可以具有较强的短时特征的表现能力。这样可以利用训练得到的语音识别网络模型进行声纹特征识别,从而提高用户身份验证的可靠性。

可选地,在一些实施例中,所述将所述第六特征向量输入至语音识别网络模型,获得待确认的声纹特征向量之前,所述方法还包括:

获取所述第一用户注册时录入的基准语音数据;

将所述进行预处理,得到第八特征向量,所述第八特征向量用于表示所述基准语音数据的声纹特征信息;

将所述第八特征向量输入至所述语音识别网络模型,获得所述第一用户的基准声纹特征向量;

其中,所述基准结果为基于所述预设的分类模型对所述基准声纹特征向量进行分类处理的结果。

本发明实施例中,可以在用户注册账户时,让用户录入一段基准语音数据;上述预处理的过程与上述第一语音数据的处理过程一致,具体可以参照上述实施例的描述,在此不再赘述。

应理解,上述语音识别网络模型对第八特征向量的处理过程与上述第三特征向量的处理过程相同,具体的处理过程可以参照上述实施例,在此不再赘述。在获得基准声纹特征向量后,可以将该基准声纹特征向量与用户标识信息进行关联储存,用于后续声纹识别比对。

可选地,在一些实施例中,所述语音识别网络模型还包括归一化卷积层,所述归一化卷积层用于对所述第六特征向量进行归一化处理,获得第九特征向量;

所述延时神经网络层用于对所述第一残差层输出的特征向量进行一维延展处理得到具有时间信息的第十特征向量。

如图2所示,在本发明实施例中,残差网络包括三个第二残差层,三个残差层依次串联,其中,归一化卷积层、三个第二残差层、第一残差层和延时神经网络层依次串联,且每一残差层可以输出不同尺度的特征向量。每一第二残差层可以向下一残差层输出经过残差处理后的特征向量,同时将该特征向量输出至浅层特征融合网络层。如图2所示,假设第一个第二残差层输出的特征向量为特征向量C3,第二个第二残差层用于对特征向量C3进行残差处理输出特征向量C4,第三个第二残差层用于对特征向量C4进行残差处理输出的特征向量C5,第一残差层用于对特征向量C5进行残差处理输出特征向量P6,延时神经网络层用于对特征向量P6进行一维延展处理得到特征向量P7。

在图2中,上述浅层特征融合网络层的数量为2,以下可以表示为temp2和temp3。其中,特征向量C5输入到浅层特征融合网络层后,可以表现为特征向量P5。在浅层特征融合网络层中,可以通过temp2对特征向量P5进行下采样并与特征向量C4融合得到特征向量P4,通过temp3对特征向量P4进行下采样并与特征向量C3融合得到特征向量P3。

应理解,上述特征向量C3到C5为不同尺度的特征向量,可选地,在本发明实施例中,对于上述特征向量P3至P7的处理,可以采用concat结构对各特征向量进行拼接融合。此时得到的声纹特征向量量可以理解为语音x-vector特征。换句话说,在本发明实施例中,所述声纹特征向量为所述N个第七特征向量、所述第十特征向量和所述第一残差层输出的特征向量进行接后的特征向量。

当N为2时,此时上述浅层特征融合网络层的数量为1,浅层特征融合网络层可以表示为temp4。假设第一个第二残差层输出的特征向量为特征向量C8,第二个第二残差层用于对特征向量C8进行残差处理输出特征向量C9,其中,第二个第二残差层可以理解为上述目标残差层,上述temp4与第一残差层和第二残差层连接。上述所述temp4用于将目标残差网络层与目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将目标残差网络层输出的特征向量和所述目标融合特征向量均确定为第七特征向量。

参照图5,本发明实施例还提供一种语音识别处理方法,如图5所示,该语音识别处理方法包括:

步骤501,将待识别的第二语音数据进行预处理,得到第十一特征向量,所述第十一特征向量用于表示所述第二语音数据的情绪特征信息;

步骤502,将所述第十一特征向量输入至语音识别网络模型,获得所述第二语音数据的情绪分类结果;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层、N-1个浅层特征融合网络层和分类网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第十一特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第十二特征向量,所述情绪分类网络用于将所述N个第十二特征向量、所述延时神经网络层的输出和所述第一残差层的输出融合后,进行情绪分类,获得所述情绪分类结果,N为大于1的整数。

本发明实施例中,在客服与第二用户进行电话作业时,可以对客服与第二用户的通话进行录音,在通话结束后,可以获取通话数据,从而对客服和/或第二用户的情绪进行分类。

应理解,在本发明实施例中,上述预处理的过程可以包括以下步骤:

对第二语音数据进行特征提取,获得Fbank特征;

针对Fbank特征,使用python提取一阶差分特征;

针对一阶差分特征,使用python提取二阶差分特征;

将所述Fbank特征、一阶差分特征和二阶差分特征进行融合处理,得到第十一特征向量。

也就是说,在本发明实施例中,上述第十一特征向量包括梅尔频谱特征、一阶差分特征和二阶差分特征。

本发明实施例由于在语音识别网络模型中以残差网络为基础与浅层特征融合网络层进行结合,从而使得模型的参数量小,特征映射能力强,且可以具有较强的短时特征的表现能力。这样可以利用训练得到的语音识别网络模型进行声纹特征识别,从而降低用户情绪检测的成本。

可选地,在一些实施例中,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第十二特征向量包括:

所述N-1个浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度的特征向量进行采样融合处理,得到N个第十二特征向量,所述N个第十二特征向量包括目标残差层输出的特征向量,所述目标残差层为与所述第一残差层相邻的第二残差层。

可选地,所述N-1个浅层特征融合网络层与除所述目标残差层之外的N-1个第二残差层一一对应连接,第1个浅层特征融合网络层还与所述目标残差层连接,所述第1个浅层特征融合网络层用于将连接的两个第二残差层输出的特征向量进行融合处理,得到1次融合特征向量,并将所述目标残差网络层输出的特征向量确定为第一个所述第十二特征向量,第i个浅层特征融合网络层用于将相连的所述第二残差层输出的特征向量,与第i-1个浅层特征融合网络层输出的i-1次融合特征向量进行融合处理,得到i次融合特征向量,并将所述第i次融合特征向量确定为第i个所述第十二特征向量,其中i为大于等于2且小于等于N-1的整数,且N为大于2的整数;

或当N为2时,所述浅层特征融合网络层用于将所述目标残差网络层与所述目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将所述目标残差网络层输出的特征向量和所述目标融合特征向量均确定为所述第十二特征向量。

本申请实施例中,通过上述N-1个浅层特征融合网络层将不同尺度的特征向量进行采样复用,从而可以有效提升对话场景下短时特征的表现能力,且以残差网络为基础模型,因此模型的参数量小,特征映射能力较强。

可选地,在一些实施例中,所述语音识别网络模型还包括归一化卷积层,所述归一化卷积层用于对所述第十一特征向量进行归一化处理,获得第十三特征向量;

所述延时神经网络层用于对所述第一残差层输出的特征向量进行一维延展处理得到具有时间信息的第十四特征向量。

如图3所示,在本发明实施例中,残差网络包括三个第二残差层,三个残差层依次串联,其中,归一化卷积层、三个第二残差层、第一残差层和延时神经网络层依次串联,且每一残差层可以输出不同尺度的特征向量。每一第二残差层可以向下一残差层输出经过残差处理后的特征向量,同时将该特征向量输出至浅层特征融合网络层。如图3所示,假设第一个第二残差层输出的特征向量为特征向量C3,第二个第二残差层用于对特征向量C3进行残差处理输出特征向量C4,第三个第二残差层用于对特征向量C4进行残差处理输出的特征向量C5,第一残差层用于对特征向量C5进行残差处理输出特征向量P6,延时神经网络层用于对特征向量P6进行一维延展处理得到特征向量P7。

如图3所示,上述浅层特征融合网络层的数量为2,以下可以表示为temp2和temp3。其中,特征向量C5输入到浅层特征融合网络层后,可以表现为特征向量P5。在浅层特征融合网络中,可以通过temp2对特征向量P5进行下采样并与特征向量C4融合得到特征向量P4,通过temp3对特征向量P4进行下采样并与特征向量C3融合得到特征向量P3。

当N为2时,此时上述浅层特征融合网络层的数量为1,浅层特征融合网络层可以表示为temp4。假设第一个第二残差层输出的特征向量为特征向量C8,第二个第二残差层用于对特征向量C8进行残差处理输出特征向量C9,其中,第二个第二残差层可以理解为上述目标残差层,上述temp4与第一残差层和第二残差层连接。上述所述temp4用于将目标残差网络层与目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将目标残差网络层输出的特征向量和所述目标融合特征向量均确定为第十二特征向量。

可选地,在一些实施例中,所述情绪分类网络包括双向门限循环神经网络层、注意力机制层和Softmax分类器,所述双向门限循环神经网络层用于对所述N个第十二特征向量、所述第十四特征向量和所述第一残差层输出的特征向量进行特征间互联融合处理得到第二特征向量,并将所述第二特征向量通过所述注意力机制层进行加权处理后,输出至所述Softmax分类器进行情绪分类。

如图3所示,双向门限循环神经网络层可以对P3至P7向量进行特征间互联融合处理得到第二特征向量,该第二特征向量用于表示第二语音数据的特征信息,也可以理解为情绪特征向量。

应理解,上述注意力机制层用于对第二特征向量进行加权的同时,还可以用于对齐语音帧级特征。

需要说明的是,本发明实施例中介绍的多种可选的实施方式,彼此可以相互结合实现,也可以单独实现,对此本发明实施例不作限定。

参见图6,图6是本发明实施例提供的语音识别网络模型训练装置的结构图,如图6所示,语音识别网络模型训练装置600包括:

训练模块601,用于利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;

其中,所述待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且所述N个第一特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到第二特征向量,所述第二特征向量用于表示声纹特征信息或情绪特征信息,N为大于1的整数。

可选地,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量包括:

所述N-1个浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度的特征向量进行采样融合处理,得到N个第一特征向量,所述N个第一特征向量包括目标残差层输出的特征向量,所述目标残差层为与所述第一残差层相邻的第二残差层。

可选地,所述N-1个浅层特征融合网络层与除所述目标残差层之外的N-1个第二残差层一一对应连接,第1个浅层特征融合网络层还与所述目标残差层连接,所述第1个浅层特征融合网络层用于将连接的两个第二残差层输出的特征向量进行融合处理,得到1次融合特征向量,并将所述目标残差网络层输出的特征向量确定为第一个所述第一特征向量,第i个浅层特征融合网络层用于将相连的所述第二残差层输出的特征向量,与第i-1个浅层特征融合网络层输出的i-1次融合特征向量进行融合处理,得到i次融合特征向量,并将所述第i次融合特征向量确定为第i个所述第一特征向量,其中i为大于等于2且小于等于N-1的整数,且N为大于2的整数;

或当N为2时,所述浅层特征融合网络层用于将所述目标残差网络层与所述目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将所述目标残差网络层输出的特征向量和所述目标融合特征向量均确定为所述第一特征向量。

可选地,上述训练模块601包括:

预处理单元,用于对标注的样本数据进行预处理,得到第三特征向量;

训练单元,用于利用所述第三特征向量对所述待训练语音识别网络模型进行迭代训练,获得所述语音识别网络模型;

其中,当所述第二特征向量用于表示声纹特征信息时,所述第三特征向量用于表示所述样本数据的声纹特征信息;当所述第二特征向量用于表示情绪特征信息时,所述第三特征向量用于表示所述样本数据的情绪特征信息。

可选地,所述训练单元具体用于执行以下操作:

在第L次迭代训练过程中,将所述第三特征向量输入至所述待训练语音识别网络模型,获得所述第二特征向量,其中L为正整数;

将所述第二特征向量输入至Softmax分类器,得到所述第二特征向量的分类结果与所述第三特征向量标注结果的损失值,所述损失值用于调整所述待训练语音识别网络模型的网络参数;

若所述损失值的变化小于预设值,则将当前训练的待训练语音识别网络模型确定为所述语音识别网络模型。

可选地,所述待训练语音识别网络模型还包括归一化卷积层,所述归一化卷积层用于对所述第三特征向量进行归一化处理,获得第四特征向量;

所述延时神经网络层用于对所述第一残差层输出的特征向量进行一维延展处理得到具有时间信息的第五特征向量。

可选地,所述第二特征向量用于表示所述情绪特征信息时,所述待训练语音识别网络模型还包括双向门限循环神经网络层和注意力机制层,所述双向门限循环神经网络层用于对所述N个第一特征向量、所述第五特征向量和所述第一残差层输出的特征向量进行特征间互联融合处理得到所述第二特征向量,并将所述第二特征向量通过所述注意力机制层进行加权处理后,输出至所述Softmax分类器中,得到情绪分类的结果。

可选地,所述第三特征向量用于表示所述样本数据的声纹特征信息时,所述第三特征向量包括Fbank特征、一阶差分特征和音色信息特征;所述第三特征向量用于表示所述样本数据的情绪特征信息时,所述第三特征向量包括梅尔频谱特征、一阶差分特征和二阶差分特征。

本发明实施例提供的语音识别网络模型训练装置能够实现图1的方法实施例中各个过程,为避免重复,这里不再赘述。

参见图7,图7是本发明实施例提供的语音识别处理装置的结构图,如图7所示,语音识别处理装置700包括:

第一预处理模块701,用于将待识别的第一语音数据进行预处理,得到第六特征向量,所述第六特征向量用于表示所述第一语音数据的声纹特征信息;

第一输入模块702,用于将所述第六特征向量输入至语音识别网络模型,获得待确认的声纹特征向量;

第二输入模块703,用于将所述声纹特征向量输入至预设的分类模型获得第一分类结果;

确定模块704,用于在所述第一分类结果与第一用户对应的基准结果匹配的情况下,确定所述第一语音数据为第一用户的语音数据;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第六特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述N-1个浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第七特征向量,所述声纹特征向量为所述N个第七特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到特征向量,N为大于1的整数。

可选地,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第七特征向量包括:

所述N-1个浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度的特征向量进行采样融合处理,得到N个第七特征向量,所述N个第七特征向量包括目标残差层输出的特征向量,所述目标残差层为与所述第一残差层相邻的第二残差层。

可选地,所述N-1个浅层特征融合网络层与除所述目标残差层之外的N-1个第二残差层一一对应连接,第1个浅层特征融合网络层还与所述目标残差层连接,所述第1个浅层特征融合网络层用于将连接的两个第二残差层输出的特征向量进行融合处理,得到1次融合特征向量,并将所述目标残差网络层输出的特征向量确定为第一个所述第七特征向量,第i个浅层特征融合网络层用于将相连的所述第二残差层输出的特征向量,与第i-1个浅层特征融合网络层输出的i-1次融合特征向量进行融合处理,得到i次融合特征向量,并将所述第i次融合特征向量确定为第i个所述第七特征向量,其中i为大于等于2且小于等于N-1的整数,且N为大于2的整数;

或当N为2时,所述浅层特征融合网络层用于将所述目标残差网络层与所述目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将所述目标残差网络层输出的特征向量和所述目标融合特征向量均确定为所述第七特征向量。

可选地,语音识别处理装置700还包括:

获取模块,用于获取所述第一用户注册时录入的基准语音数据;

所述第二预处理模块701还用于,将所述进行预处理,得到第八特征向量,所述第八特征向量用于表示所述基准语音数据的声纹特征信息;

所述第一输入模块702还用于,将所述第八特征向量输入至所述语音识别网络模型,获得所述第一用户的基准声纹特征向量;

其中,所述基准结果为基于所述预设的分类模型对所述基准声纹特征向量进行分类处理的结果。

可选地,所述语音识别网络模型还包括归一化卷积层,所述归一化卷积层用于对所述第六特征向量进行归一化处理,获得第九特征向量;

所述延时神经网络层用于对所述第一残差层输出的特征向量进行一维延展处理得到具有时间信息的第十特征向量。

可选地,所述声纹特征向量为所述N个第七特征向量、所述第十特征向量和所述第一残差层输出的特征向量进行接后的特征向量。

可选地,所述第六特征向量包括Fbank特征、一阶差分特征和音色信息特征。

本发明实施例提供的语音识别处理装置能够实现图4的方法实施例中各个过程,为避免重复,这里不再赘述。

参见图8,图8是本发明实施例提供的语音识别处理装置的结构图,如图8所示,语音识别处理装置800包括:

第二预处理模块801,用于将待识别的第二语音数据进行预处理,得到第十一特征向量,所述第十一特征向量用于表示所述第二语音数据的情绪特征信息;

第三输入模块802,用于将所述第十一特征向量输入至语音识别网络模型,获得所述第二语音数据的情绪分类结果;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层、N-1个浅层特征融合网络层和分类网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第十一特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第十二特征向量,所述情绪分类网络用于将所述N个第十二特征向量、所述延时神经网络层的输出和所述第一残差层的输出融合后,进行情绪分类,获得所述情绪分类结果,N为大于1的整数。

可选地,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第十二特征向量包括:

所述N-1个浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度的特征向量进行采样融合处理,得到N个第十二特征向量,所述N个第十二特征向量包括目标残差层输出的特征向量,所述目标残差层为与所述第一残差层相邻的第二残差层。

可选地,所述N-1个浅层特征融合网络层与除所述目标残差层之外的N-1个第二残差层一一对应连接,第1个浅层特征融合网络层还与所述目标残差层连接,所述第1个浅层特征融合网络层用于将连接的两个第二残差层输出的特征向量进行融合处理,得到1次融合特征向量,并将所述目标残差网络层输出的特征向量确定为第一个所述第十二特征向量,第i个浅层特征融合网络层用于将相连的所述第二残差层输出的特征向量,与第i-1个浅层特征融合网络层输出的i-1次融合特征向量进行融合处理,得到i次融合特征向量,并将所述第i次融合特征向量确定为第i个所述第十二特征向量,其中i为大于等于2且小于等于N-1的整数,且N为大于2的整数;

或当N为2时,所述浅层特征融合网络层用于将所述目标残差网络层与所述目标残差网络层相连的第二残差层输出的特征向量进行融合处理,得到目标融合特征向量,并将所述目标残差网络层输出的特征向量和所述目标融合特征向量均确定为所述第十二特征向量。

可选地,所述语音识别网络模型还包括归一化卷积层,所述归一化卷积层用于对所述第十一特征向量进行归一化处理,获得第十三特征向量;

所述延时神经网络层用于对所述第一残差层输出的特征向量进行一维延展处理得到具有时间信息的第十四特征向量。

可选地,所述情绪分类网络包括双向门限循环神经网络层、注意力机制层和Softmax分类器,所述双向门限循环神经网络层用于对所述N个第十二特征向量、所述第十四特征向量和所述第一残差层输出的特征向量进行特征间互联融合处理得到第二特征向量,并将所述第二特征向量通过所述注意力机制层进行加权处理后,输出至所述Softmax分类器进行情绪分类。

可选地,所述第十一特征向量包括梅尔频谱特征、一阶差分特征和二阶差分特征。

本发明实施例提供的语音识别处理装置能够实现图5的方法实施例中各个过程,为避免重复,这里不再赘述。

图9为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中,处理器910,用于利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;

其中,所述待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且所述N个第一特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到第二特征向量,所述第二特征向量用于表示声纹特征信息或情绪特征信息,N为大于1的整数。

或者,处理器910,用于执行以下操作:

将待识别的第一语音数据进行预处理,得到第六特征向量,所述第六特征向量用于表示所述第一语音数据的声纹特征信息;

将所述第六特征向量输入至语音识别网络模型,获得待确认的声纹特征向量;

将所述声纹特征向量输入至预设的分类模型获得第一分类结果;

在所述第一分类结果与第一用户对应的基准结果匹配的情况下,确定所述第一语音数据为第一用户的语音数据;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N-1个浅层特征融合网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第六特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第七特征向量,所述声纹特征向量为所述N个第七特征向量与所述延时神经网络层的输出和所述第一残差层的输出进行融合得到特征向量,N为大于1的整数。

或者,处理器910,用于执行以下操作:

将待识别的第二语音数据进行预处理,得到第十一特征向量,所述第十一特征向量用于表示所述第二语音数据的情绪特征信息;

将所述第十一特征向量输入至语音识别网络模型,获得所述第二语音数据的情绪分类结果;

其中,所述语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层、N-1个浅层特征融合网络层和分类网络层,所述N个第二残差层、第一残差层和延时神经网络层依次串联,所述N个第二残差层和第一残差层用于对所述第十一特征向量进行卷积处理,并在不同的残差层输出不同尺度的特征向量,所述浅层特征融合网络层用于将所述N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第十二特征向量,所述情绪分类网络用于将所述N个第十二特征向量、所述延时神经网络层的输出和所述第一残差层的输出融合后,进行情绪分类,获得所述情绪分类结果,N为大于1的整数。

应理解的是,本发明实施例中,射频单元901可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器910处理;另外,将上行的数据发送给基站。通常,射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元901还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块902为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元903还可以提供与电子设备900执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。

输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit,GPU)9041和麦克风9042,图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元906上。经图形处理器9041处理后的图像帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。

电子设备900还包括至少一种传感器905,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度,接近传感器可在电子设备900移动到耳边时,关闭显示面板9061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。

显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板9061。

用户输入单元907可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9071上或在触控面板9071附近的操作)。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器910,接收处理器910发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9071。除了触控面板9071,用户输入单元907还可以包括其他输入设备9072。具体地,其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。

进一步的,触控面板9071可覆盖在显示面板9061上,当触控面板9071检测到在其上或附近的触摸操作后,传送给处理器910以确定触摸事件的类型,随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图9中,触控面板9071与显示面板9061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板9071与显示面板9061集成而实现电子设备的输入和输出功能,具体此处不做限定。

接口单元908为外部装置与电子设备900连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备900内的一个或多个元件或者可以用于在电子设备900和外部装置之间传输数据。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器909可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器910是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器909内的软件程序和/或模块,以及调用存储在存储器909内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器910可包括一个或多个处理单元;优选的,处理器910可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。

电子设备900还可以包括给各个部件供电的电源911(比如电池),优选的,电源911可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外,电子设备900包括一些未示出的功能模块,在此不再赘述。

优选的,本发明实施例还提供一种电子设备,包括处理器910,存储器909,存储在存储器909上并可在所述处理器910上运行的计算机程序,该计算机程序被处理器910执行时实现上述语音识别网络模型训练方法或者语音识别处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音识别网络模型训练方法或者语音识别处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

相关技术
  • 网络模型训练方法、语音识别处理方法及相关设备
  • 网络模型的训练方法、图像处理方法及其相关设备
技术分类

06120112683128