掌桥专利:专业的专利平台
掌桥专利
首页

分类器训练方法、语音识别方法、设备及存储介质

文献发布时间:2024-07-23 01:35:21


分类器训练方法、语音识别方法、设备及存储介质

技术领域

本发明涉及语音识别技术领域,具体涉及一种分类器训练方法、语音识别方法、计算机设备及计算机可读存储介质。

背景技术

目前,语音识别系统主要分为传统的混合语音识别系统和端到端语音识别系统。其中,传统的混合语音识别系统能够单独快速修改语言系统,以更方便地对使用场景进行适配。端到端语音识别系统通过单一优化目标训练整体神经网络的特性,使其相对于传统的混合语音识别系统具有更优的识别率。但是,端到端语音识别系统对于训练的说法领域外的音频集的识别率会有所下降。

在相关技术中,主要通过对端到端语音识别系统和传统的混合语音识别系统的语音识别结果进行结合,以融合两个语音识别系统的语音识别结果,来解决端到端语音识别系统对于训练的说法领域外的音频集的识别率会有所下降的问题。

但是,融合后的语言识别系统在定制化场景的识别率不如传统混合语音识别系统,而通用场景识别性能不及端到端语音识别系统,从而导致整体的语音识别率较低。

发明内容

有鉴于此,本发明提供了一种分类器训练方法、语音识别方法、设备及存储介质,以解决端到端语音识别系统和传统的混合语音识别系统融合后,语音识别率较低的问题。

为实现上述目的,本发明实施例提供了一种分类器训练方法,所述方法包括:

获取训练数据集;其中,所述训练数据集包括多个音频样本及其样本标签;

将各个所述音频样本输入至端到端语音识别系统中进行语音识别,得到各个所述音频样本的第一样本识别结果和样本端到端分数;其中,所述样本端到端分数用于反映所述端到端语音识别系统对于所述音频样本的准确度;

将各个所述音频样本输入至混合语音识别系统中进行语音识别,得到各个所述音频样本的第二样本识别结果、样本声学分数和样本语言分数;其中,所述混合语音识别系统由声学模型和语言模型组成,所述样本声学分数用于反映所述声学模型对于所述音频样本的准确度,样本语言分数用于反映所述语言模型对于所述音频样本的准确度;

基于所述样本端到端分数、所述样本声学分数、所述样本语言分数、所述第一样本识别结果、所述第二样本识别结果和所述样本标签,对预先构建的二次曲面方程的系数进行更新,得到目标分类器;其中,所述目标分类器用于从所述端到端语音识别系统和所述混合语音识别系统的语音识别结果中确定出目标语音识别结果。

作为上述方案的改进,所述将各个所述音频样本输入至端到端语音识别系统中进行语音识别,得到各个所述音频样本的第一样本识别结果和样本端到端分数,包括:

将各个所述音频样本输入至所述端到端语音识别系统中进行语音识别,得到各个所述音频样本的第一样本识别结果以及建模单元后验概率;其中,所述建模单元后验概率为所述端到端语音识别系统对于所述音频样本中各个字的后验概率的乘积,其中建模单元可以为音素、字或者词,在端到端中通常为字;

对所述建模单元后验概率进行几何平均,得到各个所述音频样本的样本端到端分数。

作为上述方案的改进,所述将各个所述音频样本输入至混合语音识别系统中进行语音识别,得到各个所述音频样本的第二样本识别结果、样本声学分数和样本语言分数,包括:

将各个所述音频样本输入至混合语音识别系统中进行语音识别,得到各个所述音频样本的第二样本识别结果、样本声学后验概率和样本文本序列概率;其中,所述样本声学后验概率为所述声学模型对于所述音频样本的每帧音素序列的后验概率的乘积,所述样本文本序列概率为所述第二样本识别结果的文本序列在所述语言模型中的概率;

对所述样本声学后验概率进行几何平均,得到各个所述音频样本的样本声学分数;

对所述样本文本序列概率进行几何平均,得到各个所述音频样本的样本语言分数。

作为上述方案的改进,所述基于所述样本端到端分数、所述样本声学分数、所述样本语言分数、所述第一样本识别结果、所述第二样本识别结果和所述样本标签,对预先构建的二次曲面方程的系数进行更新,得到目标分类器,包括:

将所述样本端到端分数、所述样本声学分数和所述样本语言分数作为所述二次曲面方程的变量代入至所述二次曲面方程中,得到各个所述音频样本的二次曲面方程分类器的计算结果;

基于所述第一样本识别结果、所述第二样本识别结果和所述样本标签,对所述二次曲面方程的系数进行更新,得到所述目标分类器。

作为上述方案的改进,所述二次曲面方程具体为:

F(x,y,z)=a

其中,F(x,y,z)为所述二次曲面方程的计算结果,x为与所述样本端到端分数对应的第一变量,y为与所述样本声学分数对应的第二变量,z为与所述样本语言分数对应的第三变量,a

作为上述方案的改进,所述将所述样本端到端分数、所述样本声学分数和所述样本语言分数作为所述二次曲面方程的变量代入至所述二次曲面方程中,得到各个所述音频样本的二次曲面方程分类器的计算结果之后还包括:

基于所述二次曲面方程分类器的计算结果,从各个所述音频样本的所述第一样本识别结果和所述第二样本识别结果中,确定各个所述音频样本的目标样本识别结果,包括:

若所述音频样本的二次曲面方程分类器的计算结果大于预设阈值,则将所述音频样本的所述第一样本识别结果确定为所述音频样本的目标样本识别结果;

若所述音频样本的所述二次曲面方程分类器的计算结果小于或等于所述预设阈值,则将所述音频样本的所述第二样本识别结果确定为所述音频样本的目标样本识别结果。

作为上述方案的改进,所述基于所述第一样本识别结果、所述第二样本识别结果和所述样本标签,对所述二次曲面方程的系数进行更新,得到所述目标分类器,包括:

基于所述第一样本识别结果与对应的所述样本标签的编辑距离,得到各个所述音频样本对应的第一编辑距离;

基于所述第二样本识别结果与对应的所述样本标签的编辑距离,得到各个所述音频样本对应的第二编辑距离;

基于所述音频样本的标注字数、所述第一编辑距离、所述第二编辑距离和二次曲面方程分类器的计算结果,计算所述目标分类器的损失函数;

根据损失函数,用梯度下降、牛顿法或其他优化方法来更新系数,多次迭代,直到满足停止条件得到所述目标分类器的损失函数。

作为上述方案的改进,所述损失函数通过以下公式计算得到:

其中,Loss为所述损失函数,result为所述二次曲面方程的计算结果,e2e_word_error_count为所述第一编辑距离,hybrid_word_error_count为所述第二编辑距离,ref_word_count为所述音频样本的标注字数,sigmoid为激活函数,Π为求和符号。

为实现上述目的,本发明实施例还提供了一种语音识别方法,所述方法包括:

获取待识别音频;

将所述待识别音频输入至端到端语音识别系统中进行语音识别,得到第一语音识别结果和音频端到端分数;其中,所述音频端到端分数用于反映所述端到端语音识别系统对于所述待识别音频的准确度;

将所述待识别音频输入至混合语音识别系统中进行语音识别,得到第二语音识别结果、音频声学分数和音频语言分数;其中,所述混合语音识别系统由声学模型和语言模型组成,所述音频声学分数用于反映所述声学模型对于所述待识别音频的准确度,所述音频语言分数用于反映所述语言模型对于所述待识别音频的准确度;

将所述音频端到端分数、所述音频声学分数和所述音频语言分数输入至目标分类器中,得到分类器计算结果;其中,所述目标分类器是基于上述任一实施方式的所述分类器训练方法得到的;

基于所述分类器计算结果,从所述第一语音识别结果和所述第二语音识别结果中,确定目标语音识别结果。

为实现上述目的,本发明实施例还提供了一种分类器训练装置,所述装置包括:

训练数据获取模块,用于获取训练数据集;其中,所述训练数据集包括多个音频样本及其样本标签;

第一样本识别模块,用于将各个所述音频样本输入至端到端语音识别系统中进行语音识别,得到各个所述音频样本的第一样本识别结果和样本端到端分数;其中,所述样本端到端分数用于反映所述端到端语音识别系统对于所述音频样本的准确度;

第二样本识别模块,用于将各个所述音频样本输入至混合语音识别系统中进行语音识别,得到各个所述音频样本的第二样本识别结果、样本声学分数和样本语言分数;其中,所述混合语音识别系统由声学模型和语言模型组成,所述样本声学分数用于反映所述声学模型对于所述音频样本的准确度,样本语言分数用于反映所述语言模型对于所述音频样本的准确度;

方程系数更新模块,用于基于所述样本端到端分数、所述样本声学分数、所述样本语言分数、所述第一样本识别结果、所述第二样本识别结果和所述样本标签,对预先构建的二次曲面方程的系数进行更新,得到目标分类器;其中,所述目标分类器用于从所述端到端语音识别系统和所述混合语音识别系统的语音识别结果中确定出目标语音识别结果。

为实现上述目的,本发明实施例还提供了一种语音识别装置,所述装置包括:

音频数据获取模块,用于获取待识别音频;

第一音频识别模块,用于将所述待识别音频输入至端到端语音识别系统中进行语音识别,得到第一语音识别结果和音频端到端分数;其中,所述音频端到端分数用于反映所述端到端语音识别系统对于所述待识别音频的准确度;

第二音频识别模块,用于将所述待识别音频输入至混合语音识别系统中进行语音识别,得到第二语音识别结果、音频声学分数和音频语言分数;其中,所述混合语音识别系统由声学模型和语言模型组成,所述音频声学分数用于反映所述声学模型对于所述待识别音频的准确度,所述音频语言分数用于反映所述语言模型对于所述待识别音频的准确度;

分类器计算模块,用于将所述音频端到端分数、所述音频声学分数和所述音频语言分数输入至目标分类器中,得到分类器计算结果;其中,所述目标分类器是基于上述任一实施方式的所述分类器训练方法得到的;

识别结果选择模块,用于基于所述分类器计算结果,从所述第一语音识别结果和所述第二语音识别结果中,确定目标语音识别结果。

为实现上述目的,本发明实施例还提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述任一实施方式的分类器训练方法和/或语音识别方法。

为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述任一实施方式的分类器训练方法和/或语音识别方法。

与现有技术相比,上述发明实施例中的一个实施例具有如下有益效果:

本发明首先将音频样本输入至端到端语音识别系统中进行语音识别,得到第一样本识别结果和样本端到端分数。以及,将音频样本输入至混合语音识别系统中进行语音识别,得到第二样本识别结果、声学模型对应的样本声学分数和语言模型对应的样本语言分数。然后,基于样本端到端分数、样本声学分数、样本语言分数、第一样本识别结果、第二样本识别结果和样本标签,对二次曲面方程的系数进行更新,得到目标分类器。因此,能够利用训练得到的目标分类器从端到端语音识别系统和混合语音识别系统的语音识别结果中,选择更优的语音识别结果作为目标语音识别结果,以使目标语音识别结果完全来自端到端语音识别系统或者完全来自混合语音识别系统,从而使得融合后的语音识别系统在定制化场景下的识别率接近甚至超过定制化的混合语音识别系统,通用识别场景的识别率接近端到端语音识别系统的识别率,以提高端到端语音识别系统和传统的混合语音识别系统融合后的语音识别率,从而使融合后的语音识别系统适用于不同的场景。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种分类器训练方法的流程示意图;

图2是根据本发明实施例的另一种分类器训练方法的流程示意图;

图3是根据本发明实施例的一种语音识别方法的流程示意图;

图4是根据本发明实施例的另一种语音识别方法的流程示意图;

图5是根据本发明实施例的一种音频的置信度特征映射到空间的位置示意图;

图6是根据本发明实施例的另一种音频的置信度特征映射到空间的位置示意图;

图7是根据本发明实施例的一种分类器训练装置的结构框图;

图8是根据本发明实施例的一种语音识别装置的结构框图;

图9是根据本发明实施例的一种计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在相关技术中,主要通过对端到端语音识别系统和传统的混合语音识别系统的语音识别结果进行结合,以融合两个语音识别系统的语音识别结果,来解决端到端语音识别系统对于训练的说法领域外的音频集的识别率会有所下降的问题。其中,主要采用以下两种方式对传统的混合语音识别系统和端到端语音识别系统的语音识别结果进行融合。第一种,使用最小贝叶斯风险的融合方式,对传统的混合语音识别系统的语音识别结果与端到端语音识别系统最佳的n个语音识别结果进行融合,得到融合后的语音识别结果。第二种,使用重打分的融合方式,先使用传统的混合语音识别系统进行第一遍语音识别,得到最佳的n个语音识别结果,然后使用端到端语音识别系统对最佳的n个语音识别结果进行重打分,得到最终的语音识别结果。

但是,使用最小化贝叶斯风险的方式,对传统的混合语音识别系统和端到端语音识别系统的语音识别结果进行融合,则会中和两个语音识别系统的语音识别结果,从而导致融合后的语音识别系统在定制化场景的识别率不及传统的混合语音识别系统,而通用场景识别性能不及端到端语音识别系统。

而若使用重打分的方式,对传统的混合语音识别系统和端到端语音识别系统的语音识别结果进行融合,则会因为重打分是对传统的混合语音识别系统的最佳的n个语音识别结果的再排序,从而导致最终的语音识别结果全部来自传统的混合语音识别系统,传统的混合语音识别系统的性能对最终融合的语音识别结果影响较大,并且融合后的语音识别系统在定制化场景的识别率不及传统的混合语音识别系统,而通用场景识别性能不及端到端语音识别系统。

有鉴于此,在本发明实施例中提供了一种用于语音识别系统的分类器训练方法,可用于计算机设备,如手机、平板、电脑等。图1是根据本发明实施例的一种分类器训练方法的流程示意图。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示,本发明实施例的一种分类器训练方法包括如下步骤:

步骤S11,获取训练数据集;其中,训练数据集包括多个音频样本及其样本标签。

需要说明的是,训练数据集包括通用音频数据集和场景定制音频数据集。其中,场景定制音频数据集包括目标定制化场景和相关领域的音频样本及其样本标签。通用音频数据集包括各种场景的音频样本及其样本标签。具体地,场景定制音频数据集可通过在目标定制化场景和/或相关场景下录制音频,并对录制的音频进行标注得到。或者,通过相关合成技术生成场景定制音频数据集。此外,通用音频数据集可通过公开的音频数据集得到或者通过相关合成技术生成。具体可参考其他音频样本的获取方法,在此不再过多赘述。

步骤S12,将各个音频样本输入至端到端语音识别系统中进行语音识别,得到各个音频样本的第一样本识别结果和样本端到端分数;其中,样本端到端分数用于反映端到端语音识别系统对于音频样本的准确度。

需要说明的是,样本端到端分数为能够单独反映或者能够与其他置信度特征联合反映端到端语音识别系统的准确度的置信度特征。此外,作为样本端到端分数的置信度特征的数值动态范围与音频样本的音频长度和句子长度无关,以便于后续目标分类器的结果可作用于各种音频长度和句子长度的语音识别结果。

例如,采用端到端语音识别系统对于音频样本的各个词的后验概率的几何平均数作为样本端到端分数。或者,采用端到端语音识别系统对于音频样本的后验概率分布的信息熵作为样本端到端分数。或者,采用端到端语音识别系统对于音频样本的注意力分布作为样本端到端分数。在实际操作中,可根据实际情况选择端到端语音识别系统的置信度特征,以作为样本端到端分数。

步骤S13,将各个音频样本输入至混合语音识别系统中进行语音识别,得到各个音频样本的第二样本识别结果、样本声学分数和样本语言分数;其中,混合语音识别系统由声学模型和语言模型组成,样本声学分数用于反映声学模型对于音频样本的准确度,样本语言分数用于反映语言模型对于音频样本的准确度。

需要说明的是,步骤S13所采用的混合语音识别系统为基于目标定制化场景定制化的传统的混合语音识别系统。其中,语言模型可以是统计语言模型,如Ngram语言模型;或者,是基于神经网络的语言模型,如RNN和GRU模型;或者,其他种类的语言模型。样本声学分数为能够单独反映或者能够与其他置信度特征联合反映混合语音识别系统的声学模型的准确度的置信度特征。样本语言分数为能够单独反映或者能够与其他置信度特征联合反映混合语音识别系统的语言模型的准确度的置信度特征。此外,作为样本声学分数和样本语言分数的置信度特征的数值动态范围与音频样本的音频长度和句子长度无关,以便于后续目标分类器的结果可作用于各种音频长度和句子长度的语音识别结果。

例如,采用声学模型对于音频样本的每帧音素序列的后验概率的几何平均数作为样本声学分数。或者,采用声学模型对于音频样本的对数似然比作为样本声学分数。或者,采用声学模型对于音频样本的置信度得分作为样本声学分数。在实际操作中,可根据实际情况选择声学模型的置信度特征,以作为样本声学分数。

例如,采用语言模型在给定音频样本的条件下所生成的相应文本序列的条件概率的均方根值作为样本声学分数。或者,采用语言模型对于音频样本的困惑度作为样本声学分数。在实际操作中,可根据实际情况选择语言模型的置信度特征,以作为样本语言分数。

步骤S14,基于样本端到端分数、样本声学分数、样本语言分数、第一样本识别结果、第二样本识别结果和样本标签,对预先构建的二次曲面方程的系数进行更新,得到目标分类器;其中,目标分类器用于从端到端语音识别系统和混合语音识别系统的语音识别结果中确定出目标语音识别结果。

具体地,二次曲面方程具体为:

F(x,y,z)=a

其中,F(x,y,z)为二次曲面方程的计算结果,x为与样本端到端分数对应的第一变量,y为与样本声学分数对应的第二变量,z为与对应样本语言分数对应的第三变量,a

本实施例提供的语音识别方法,将音频样本输入至端到端语音识别系统中进行语音识别,得到第一样本识别结果和样本端到端分数。以及,将音频样本输入至混合语音识别系统中进行语音识别,得到第二样本识别结果、声学模型对应的样本声学分数和语言模型对应的样本语言分数。然后,基于样本端到端分数、样本声学分数、样本语言分数、第一样本识别结果、第二样本识别结果和样本标签,对二次曲面方程的系数进行更新,得到目标分类器。因此,能够利用训练得到的目标分类器从端到端语音识别系统和混合语音识别系统的语音识别结果中,选择更优的语音识别结果作为目标语音识别结果,以使目标语音识别结果完全来自端到端语音识别系统或者完全来自混合语音识别系统,从而使得融合后的语音识别系统在定制化场景下的识别率接近甚至超过定制化的混合语音识别系统,通用识别场景的识别率接近端到端语音识别系统的识别率,以保证融合后的语音识别系统在不同场景下的语音识别的识别率。

作为其中一种可选的实施方式,上述步骤S12包括:将各个音频样本输入至端到端语音识别系统中进行语音识别,得到各个音频样本的第一样本识别结果以及建模单元后验概率;其中,建模单元后验概率为端到端语音识别系统对于音频样本中各个字的后验概率的乘积;对建模单元后验概率进行几何平均,得到各个音频样本的样本端到端分数。其中,建模单元可以是音标、字、词等,建模单元在端到端中通常为字,在语言模型中通常为词。

具体地,上述对建模单元后验概率进行几何平均,得到各个音频样本的样本端到端分数,包括:基于各个音频样本对应的第一样本识别结果的词数量,对建模单元后验概率进行几何平均,得到各个音频样本的样本端到端分数。

值得说明的是,由于端到端语音识别系统每次输出一个词的后验概率,在beamsearch(束搜索)后得到整句结果时,会得到该句后验概率的乘积。对该句后验概率的乘积做开n次方根后可得到一个大致反映端到端语音识别系统准确度的指标。该指标输出端到端语音识别系统对建模单元后验概率中每个词的几何平均的后验概率。其中,n为端到端语音识别系统的语音识别结果的词数量。

作为其中一种可选的实施方式,上述步骤S13包括:将各个音频样本输入至混合语音识别系统中进行语音识别,得到各个音频样本的第二样本识别结果、样本声学后验概率和样本文本序列概率;其中,样本声学后验概率为声学模型对于音频样本的每帧音素序列的后验概率的乘积,样本文本序列概率为第二样本识别结果的文本序列在所述语言模型中的概率;对样本声学后验概率进行几何平均,得到各个音频样本的样本声学分数;对样本文本序列概率进行几何平均,得到各个音频样本的样本语言分数。

具体地,上述对样本声学后验概率进行几何平均,得到各个音频样本的样本声学分数,包括:基于样本声学后验概率对应的音素序列的帧数,对样本声学后验概率进行几何平均,得到各个音频样本的样本声学分数。

具体地,上述对样本文本序列概率进行几何平均,得到各个音频样本的样本语言分数,包括:基于第二样本识别结果的词数量,对样本文本序列概率进行几何平均,得到各个音频样本的样本语言分数。

值得说明的是,传统的混合语音识别系统包括语言模型和声学模型。混合语音识别系统在识别结束得到整句结果时,除了获得对应的语音识别结果,同样能获得语音识别结果与输入音频的最佳对齐对应的音素序列,以及声学模型对每帧的音素序列的后验概率的乘积。对每帧的音素序列的后验概率的乘积做m次方根后可得到声学模型对于该音素序列中每帧的音素的后验概率的几何平均,以大致反映混合语音识别系统的语音识别结果与输入音频的一致程度。其中,m为样本声学后验概率对应的音素序列的帧数。

此外,传统的混合语音识别系统得到语音识别结果时,也会得到整句结果在语言模型(如,ngram语言模型)中给出的条件概率。对该条件概率做k次方根后得到一个与词数量无关的指标。该指标反映了混合语音识别系统的语音识别结果与语言模型的一致程度,该指标越大则输入音频越与语言模型的说法领域贴合。其中,k为混合语音识别系统的语音识别结果的词数量。

作为其中一种可选的实施方式,上述步骤S14包括:将样本端到端分数、样本声学分数和样本语言分数作为二次曲面方程的变量代入至二次曲面方程中,得到各个音频样本的二次曲面方程分类器的计算结果;基于二次曲面方程分类器的计算结果,从各个音频样本的第一样本识别结果和第二样本识别结果中,确定各个音频样本的目标样本识别结果;基于第一样本识别结果、第二样本识别结果和样本标签,对二次曲面方程的系数进行更新,得到目标分类器。

作为其中一种可选的实施方式,上述基于二次曲面方程分类器的计算结果,从各个音频样本的第一样本识别结果和第二样本识别结果中,确定各个音频样本的目标样本识别结果,包括:若音频样本的二次曲面方程分类器的计算结果大于预设阈值,则将音频样本的第一样本识别结果确定为音频样本的目标样本识别结果;若音频样本的二次曲面方程分类器的计算结果小于或等于预设阈值,则将音频样本的第二样本识别结果确定为音频样本的目标样本识别结果。

可选地,预设阈值为0。

需要说明的是,在实际操作中,需要根据实际情况确定预设阈值的取值。例如,可以设置预设阈值为0,a

示例性地,参见上述二次曲面方程的表达式,可将音频样本的样本端到端分数代入至第一变量x,样本声学分数代入至第二变量y,样本语言分数代入至第三变量z,得到相应的音频样本的二次曲面方程分类器的计算结果。若音频样本的二次曲面方程分类器的计算结果大于0,则将第一样本识别结果作为目标样本识别结果;若音频样本的二次曲面方程分类器的计算结果小于或等于0,则将第二样本识别结果作为目标样本识别结果。

作为其中一种可选的实施方式,上述基于第一样本识别结果、第二样本识别结果和样本标签,对二次曲面方程的系数进行更新,得到目标分类器,包括:基于第一样本识别结果与对应的样本标签的编辑距离,得到各个音频样本对应的第一编辑距离;基于第二样本识别结果与对应的样本标签的编辑距离,得到各个音频样本对应的第二编辑距离;基于所述音频样本的标注字数、所述第一编辑距离、所述第二编辑距离和二次曲面方程分类器的计算结果,计算目标分类器的损失函数;根据损失函数,用梯度下降、牛顿法或其他优化方法来更新系数,多次迭代,直到满足停止条件。

具体地,目标分类器的损失函数通过以下公式计算得到:

其中,Loss为目标分类器的损失函数,result为二次曲面方程的计算结果,e2e_word_error_count为第一编辑距离,hybrid_word_error_count为第二编辑距离,ref_word_count为音频样本的标注字数,sigmoid为激活函数,Π为求和符号。

需要说明,Π表示对所有音频样本的计算结果进行求和,即对各个音频样本的

需要说明的是,除了可以通过上述公式计算得到目标分类器的损失函数以外,还可以采用其他的损失函数计算目标分类器的损失函数,在此不再过多赘述。

进一步地,上述根据损失函数,用梯度下降、牛顿法或其他优化方法来更新系数,多次迭代,直到满足停止条件,包括:对损失函数进行反向传递,以对二次曲面方程的系数进行迭代优化,得到二次曲面方程的一组优化系数;基于优化系数对二次曲面方程的系数进行更新,得到目标分类器。

需要说明的是,迭代优化的停止条件为目标分类器的损失函数收敛且基于验证数据集验证优化后的二次曲面方程的识别率良好。

作为其中一种可选的实施方式,本发明的分类器训练方法在得到目标分类器之后,还包括:获取验证数据集;其中,验证数据集包括多个验证音频及其音频标签;基于验证数据集对目标分类器进行评估,得到评估结果;若评估结果满足预设要求,则保留目标分类器;若评估结果不满足预设要求,则重新训练得到新的目标分类器。

具体地,根据以下步骤对目标分类器进行评估:将多个验证音频输入至端到端语音识别系统中进行语音识别,得到各个验证音频的第一验证识别结果和验证端到端分数;其中,验证端到端分数用于反映端到端语音识别系统对于验证音频的准确度;将各个验证音频输入至混合语音识别系统中进行语音识别,得到第二验证识别结果、验证声学分数和验证语言分数;其中,验证声学分数用于反映声学模型对于验证音频的准确度,验证语言分数用于反映语言模型对于验证音频的准确度;将验证端到端分数、验证声学分数和验证语言分数输入至目标分类器中,得到验证分类结果;基于验证分类结果,从第一验证识别结果和第二验证识别结果中,确定目标验证识别结果;基于目标验证识别结果与音频标签,对目标分类器的性能进行评估;若评估结果满足预设要求,则保留目标分类器;若评估结果不满足预设要求,则重新训练得到新的目标分类器。

作为举例地,下面以一个分类器训练方法的具体实施例,对本发明所提供的分类器训练方法进行说明。如图2所示,该实施例包括以下步骤:

步骤S21,获取语音识别的通用音频数据集以及场景定制音频数据集,以得到训练数据集和验证数据集。

步骤S22,将训练数据集输入至端到端语音识别系统中,得到训练数据集中各个音频样本的第一样本识别结果和样本端到端分数。

步骤S23,将训练数据集输入至混合语言识别系统中,得到各个音频样本的第二样本识别结果、样本声学分数和样本语言分数。

步骤S24,基于第一样本识别结果、样本端到端分数、第二样本识别结果、样本声学分数、样本语言分数以及音频样本的样本标签,计算目标分类器的损失函数。

步骤S25,通过损失函数反向传递优化二次曲面方程的系数。

步骤S26,判断损失函数是否收敛并且通过验证数据集验证优化后的二次曲面方程的识别率是否良好,若是则执行步骤S27,若否则返回步骤S25。

步骤S27,将系数优化后的二次曲面方程作为目标分类器。

在本发明实施例中还提供了一种语音识别方法。如图3所示,本发明实施例的一种语音识别方法包括如下步骤:

步骤S31,获取待识别音频。

步骤S32,将待识别音频输入至端到端语音识别系统中进行语音识别,得到第一语音识别结果和音频端到端分数;其中,音频端到端分数用于反映端到端语音识别系统对于待识别音频的准确度。

作为其中一个可选的实施方式,上述步骤S32包括:将待识别音频输入至端到端语音识别系统中进行语音识别,得到第一语音识别结果以及音频词后验概率乘积;其中,音频词后验概率为端到端语音识别系统对于待识别音频中各个词的后验概率的乘积;对音频词后验概率进行几何平均,得到待识别音频的音频端到端分数。

步骤S33,将待识别音频输入至混合语音识别系统中进行语音识别,得到第二语音识别结果、音频声学分数和音频语言分数;其中,混合语音识别系统由声学模型和语言模型组成,音频声学分数用于反映声学模型对于待识别音频的准确度,音频语言分数用于反映语言模型对于待识别音频的准确度。

作为其中一个可选的实施方式,上述步骤S33包括:将待识别音频输入至混合语音识别系统中进行语音识别,得到待识别音频的第二语音识别结果、音频声学后验概率和音频文本序列概率;其中,音频声学后验概率为声学模型对于待识别音频的每帧音素序列的后验概率的乘积,音频文本序列概率为第二语音识别结果的文本序列在语言模型中的概率;对音频声学后验概率进行几何平均,得到待识别音频的音频声学分数;对音频文本序列概率进行几何平均,得到待识别音频的音频语言分数。

步骤S34,将音频端到端分数、音频声学分数和音频语言分数输入至目标分类器中,得到分类器计算结果;其中,目标分类器是基于上述任一分类器训练方法得到的。

具体地,参见上述二次曲线方程的表达式,将音频端到端分数代入至第一变量,音频声学分数代入至第二变量,音频语言分数代入至第三变量,得到分类器计算结果。

步骤S35,基于分类器计算结果,从第一语音识别结果和第二语音识别结果中,确定目标语音识别结果。

作为其中一个可选的实施方式,上述步骤S35包括:若分类器计算结果大于预设阈值,则将第一语音识别结果确定为目标语音识别结果;若分类器计算结果小于或等于预设阈值,则将第二语音识别结果确定为目标语音识别结果。

作为举例地,下面以一个语音识别方法的具体实施例,对本发明所提供的语音识别方法进行说明。如图4所示,该实施例包括以下步骤:

步骤S41,获取待识别音频。

步骤S42,将待识别音频输入至端到端语音识别系统中,得到第一语音识别结果和音频端到端分数。

步骤S43,将待识别音频输入至混合语音识别系统中,得到第二语音识别结果、音频声学分数和音频语言分数。

步骤S44,将音频端到端分数、音频声学分数和音频语言分数代入至目标分类器中,得到分类器计算结果。

步骤S45,判断分类器计算结果是否大于0,若是则执行步骤S46,若否则执行步骤S47。

步骤S46,将第一语音识别结果确定为目标语音识别结果。

步骤S47,将第二语音识别结果确定为目标语音识别结果。

值得说明的是,本发明分类器训练方法和语言识别方法的整体技术构思为:端到端语音识别系统以及定制化的混合语音识别系统各输出一个语音识别结果。通过端到端语音识别系统以及混合语音识别系统输出的一些置信度的特征信息,来选择某一次识别的语音识别结果。以使判定为端到端语音识别系统输出的语音识别结果更优的待识别音频的最终语音识别结果,全部来自端到端语音识别系统,以及判定为定制化的混合语音识别系统输出的语言识别结果更优的待识别音频的最终语音识别结果,全部来自定制化的混合语音识别系统。这样只要置信度特征选择得当,目标分类器判定合理,定制化场景下的识别率可接近甚至超过定制化的混合语音识别系统,通用识别场景的识别率接近端到端语音识别系统的识别率。

参见图5和图6,图5和图6为同一训练数据集的各个音频样本的置信度特征(即,样本端到端分数、样本声学分数和样本语言分数)通过不同角度映射至空间的位置。在图5和图6中,三角形标志对应一个混合语音识别系统的语音识别结果更接近样本标签的音频样本,圆圈标志对应一个端到端语音识别系统的语音识别结果更接近样本标签的音频样本。图5和图6中的曲面为训练得到的目标分类器/二次曲面方程的分类曲面,如图所示,该目标分类器/二次曲面方程能够较好地将两类音频样本区分开来。

如表1所示,在表1中统计了各个测试集使用不同领域的语言模型的混合语音识别系统进行语音识别的字错率、使用端到端语音识别系统进行语音识别的字错率以及经过目标分类器选择后的语音识别结果的字错率。其中,每个domain对应一个领域的语言模型,其对应一行中的定制的混合语音识别系统的语音识别结果为使用该领域语言模型的混合语音识别系统的语音识别结果。从表1中可见,在采用本发明的目标分类器进行语音识别时,场景定制音频数据集的字错率接近甚至低于该领域定制的混合语音识别系统的字错率,通用音频数据集的识别率接近端到端语音识别系统的识别率。

表1不同语音识别系统对于各个测试集的字错率

值得说明的是,采用基于本发明的分类器训练方法训练得到的目标分类器进行语音识别能够达到较好效果的原因是所选取的三个置信度特征(即,样本端到端分数、样本声学分数和样本语言分数)具有一定区分性。能够大致将应当选取端到端语音识别系统的语音识别结果的音频与应当选取混合语音识别系统的语音识别结果的音频区分开来。而之所以使用二次曲面方程/目标分类器是为了将这种分类通过机器学习的方式学习出来。

值得说明的是,不同于目前行业的重打分和最小贝叶斯风险获得融合结果的做法,本发明采用端到端语音识别系统以及传统的混合语音识别系统分别给出语音识别结果和置信度特征,使用目标分类器根据音频输入至端到端语音识别系统的端到端分数、声学分数和语言分数,择优选择其一的语音识别结果作为最终的语音识别结果的判别方式,能够保证在定制化场景的识别率,又能够保证在通用场景的识别率。

值得说明的是,由于上述分类器有个训练的过程,相当于人类的学习行为。在训练的时候,通过人工标注好的文本(即,正确的结果),使分类器在训练时学习到了正确的知识,即,在训练过程中更新了F(x,y,z)中的10个系数。从而导致学习后的目标分类器在面对端到端语音识别系统以及混合语音识别系统的语音识别结果时,能够从中选择相对准确的语音识别结果。即,在使用目标分类器时,告诉F(x,y,z)两个系统输出的三个分数,F(x,y,z)计算出来的值就是准确的了,就可以根据阈值来分类对两个系统的语音识别结果进行分类。

此外,根据实际选择情况,分类器可以是二次曲面方程,也可以是三次方程或者神经网络模型等等。

在本实施例中还提供了一种分类器训练装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

本发明实施例提供一种分类器训练装置,如图7所示,分类器训练装置包括:

训练数据获取模块51,用于获取训练数据集;其中,训练数据集包括多个音频样本及其样本标签;

第一样本识别模块52,用于将各个音频样本输入至端到端语音识别系统中进行语音识别,得到各个音频样本的第一样本识别结果和样本端到端分数;其中,样本端到端分数用于反映端到端语音识别系统对于音频样本的准确度;

第二样本识别模块53,用于将各个音频样本输入至混合语音识别系统中进行语音识别,得到各个音频样本的第二样本识别结果、样本声学分数和样本语言分数;其中,混合语音识别系统由声学模型和语言模型组成,样本声学分数用于反映声学模型对于音频样本的准确度,样本语言分数用于反映语言模型对于音频样本的准确度;

方程系数更新模块54,用于基于样本端到端分数、样本声学分数、样本语言分数、第一样本识别结果、第二样本识别结果和样本标签,对预先构建的二次曲面方程的系数进行更新,得到目标分类器;其中,目标分类器用于从端到端语音识别系统和混合语音识别系统的语音识别结果中确定出目标语音识别结果。

作为其中一种可选的实施方式,第一样本识别模块52包括:

样本端到端识别单元,用于将各个音频样本输入至端到端语音识别系统中进行语音识别,得到各个音频样本的第一样本识别结果以及建模单元后验概率;其中,建模单元后验概率为端到端语音识别系统对于音频样本中各个字的后验概率的乘积;

样本端到端运算单元,用于对建模单元后验概率进行几何平均,得到各个音频样本的样本端到端分数。

作为其中一种可选的实施方式,第二样本识别模块53包括:

样本混合识别单元,用于将各个音频样本输入至混合语音识别系统中进行语音识别,得到各个音频样本的第二样本识别结果、样本声学后验概率和样本文本序列概率;其中,样本声学后验概率为声学模型对于音频样本的每帧音素序列的后验概率的乘积,样本文本序列概率为第二样本识别结果的文本序列在所述语言模型中的概率;

样本声学运算单元,用于对样本声学后验概率进行几何平均,得到各个音频样本的样本声学分数;

样本语言运算单元,用于对样本文本序列概率进行几何平均,得到各个音频样本的样本语言分数。

作为其中一种可选的实施方式,方程系数更新模块54包括:

音频样本分类单元,用于将样本端到端分数、样本声学分数和样本语言分数作为二次曲面方程的变量代入至二次曲面方程中,得到各个音频样本的二次曲面方程分类器的计算结果;

样本结果选择单元,用于基于二次曲面方程分类器的计算结果,从各个音频样本的第一样本识别结果和第二样本识别结果中,确定各个音频样本的目标样本识别结果;

方程系数更新单元,用于基于第一样本识别结果、第二样本识别结果和样本标签,对二次曲面方程的系数进行更新,得到目标分类器。

作为其中一种可选的实施方式,方程系数更新模块54中的二次曲面方程具体为:

F(x,y,z)=a

其中,F(x,y,z)为二次曲面方程的计算结果,x为与样本端到端分数对应的第一变量,y为与样本声学分数对应的第二变量,z为与样本语言分数对应的第三变量,a

作为其中一种可选的实施方式,样本结果选择单元包括:

第一样本结果选择单元,用于若音频样本的二次曲面方程分类器的计算结果大于预设阈值,则将音频样本的第一样本识别结果确定为音频样本的目标样本识别结果;

第二样本结果选择单元,用于若音频样本的二次曲面方程分类器的计算结果小于或等于预设阈值,则将音频样本的第二样本识别结果确定为音频样本的目标样本识别结果。

作为其中一种可选的实施方式,方程系数更新单元包括:

第一距离计算单元,用于基于第一样本识别结果与对应的样本标签的编辑距离,得到各个音频样本对应的第一编辑距离;

第二距离计算子单元,用于基于第二样本识别结果与对应的样本标签的编辑距离,得到各个音频样本对应的第二编辑距离;

识别损失计算子单元,用于基于所述音频样本的标注字数、所述第一编辑距离、所述第二编辑距离和二次曲面方程分类器的计算结果,计算目标分类器的损失函数;

方程系数优化子单元,用于根据损失函数,用梯度下降、牛顿法或其他优化方法来更新系数,多次迭代,直到满足停止条件。

作为其中一种可选的实施方式,识别损失计算子单元具体用于:

通过以下公式计算得到损失函数:

其中,Loss为损失函数,result为二次曲面方程的计算结果,e2e_word_error_count为第一编辑距离,hybrid_word_error_count为第二编辑距离,ref_word_count为音频样本的标注字数,sigmoid为激活函数,Π为求和符号。

在本实施例中还提供了一种语音识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种语音识别装置,如图8所示,包括:

音频数据获取模块61,用于获取待识别音频;

第一音频识别模块62,用于将待识别音频输入至端到端语音识别系统中进行语音识别,得到第一语音识别结果和音频端到端分数;其中,音频端到端分数用于反映端到端语音识别系统对于待识别音频的准确度;

第二音频识别模块63,用于将待识别音频输入至混合语音识别系统中进行语音识别,得到第二语音识别结果、音频声学分数和音频语言分数;其中,混合语音识别系统由声学模型和语言模型组成,音频声学分数用于反映声学模型对于待识别音频的准确度,音频语言分数用于反映语言模型对于待识别音频的准确度;

分类器计算模块64,用于将音频端到端分数、音频声学分数和音频语言分数输入至目标分类器中,得到分类器计算结果;其中,目标分类器是基于上述任一实施方式的分类器训练方法得到的;

识别结果选择模块65,用于基于分类器计算结果,从第一语音识别结果和第二语音识别结果中,确定目标语音识别结果。

作为其中一种可选的实施方式,识别结果选择模块65包括:

第一音频结果选择单元,用于若分类器计算结果大于预设阈值,则将第一语音识别结果确定为目标语音识别结果;

第二音频结果选择单元,用于若分类器计算结果小于或等于预设阈值,则将第二语音识别结果确定为目标语音识别结果。

作为其中一种可选的实施方式,第一音频识别模块62包括:

端到端音频识别单元,用于将待识别音频输入至端到端语音识别系统中进行语音识别,得到第一语音识别结果以及音频词后验概率乘积;其中,音频词后验概率为端到端语音识别系统对于待识别音频中各个词的后验概率的乘积;

端到端音频平均单元,用于对音频词后验概率进行几何平均,得到待识别音频的音频端到端分数。

作为其中一种可选的实施方式,第二音频识别模块63包括:

音频混合识别单元,用于将待识别音频输入至混合语音识别系统中进行语音识别,得到待识别音频的第二语音识别结果、音频声学后验概率和音频文本序列概率;其中,音频声学后验概率为声学模型对于待识别音频的每帧音素序列的后验概率的乘积,音频文本序列概率为第二样本识别结果的文本序列在所述语言模型中的概率;

音频声学运算单元,用于对音频声学后验概率进行几何平均,得到待识别音频的音频声学分数;

音频语言运算单元,用于对音频文本序列概率进行几何平均,得到待识别音频的音频语言分数。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。

本实施例中的分类器训练装置和语音识别装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。

参见图9,是本发明实施例提供的一种计算机设备的结构框图。

本发明实施例提供的一种计算机设备,包括处理器71、存储器72以及存储在存储器72中且被配置为由处理器71执行的计算机程序,处理器71执行计算机程序时实现如上述任一实施例的分类器训练方法和/或语音识别方法。

处理器71执行计算机程序时实现上述分类器训练方法和/或语音识别方法实施例中的步骤,例如图1所示的分类器训练方法的所有步骤和/或图3所示的语音识别方法的所有步骤。或者,处理器71执行计算机程序时实现上述分类器训练装置和/或语音识别装置实施例中各模块/单元的功能,例如图7所示的分类器训练装置的各个模块的功能和/或图8所示的语音识别装置的各模块的功能。

示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器72中,并由处理器71执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器71、存储器72。本领域技术人员可以理解,图9仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器71可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器71是计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分。

存储器72可用于存储计算机程序和/或模块,处理器71通过运行或执行存储在存储器72内的计算机程序和/或模块,以及调用存储在存储器72内的数据,实现计算机设备的各种功能。存储器72可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中,计算机设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一种计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。

虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

相关技术
  • 分类器训练方法、装置、设备和计算机可读存储介质
  • 语音类别的识别方法、装置、计算机设备和存储介质
  • 实时语音识别方法、装置、设备及存储介质
  • 语音识别方法、装置、计算机设备及存储介质
  • 一种语音单词拼写识别方法、设备及存储介质
  • 分类器训练方法、语音识别方法、装置、设备和存储介质
  • 设备操作杆挡位识别方法、系统及挡位分类模型训练方法、系统、存储介质及计算机设备
技术分类

06120116679059