掌桥专利:专业的专利平台
掌桥专利
首页

语音识别方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及计算机技术领域,尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

语音识别技术作为人机交互的重要接口之一,给用户带来了更加便捷的体验,降低了人与机器的交互门槛。但在构建多语种、多方言的低资源语音识别系统时,依然面临着严重的数据瓶颈。

由于训练数据稀缺,基于有监督方法进行低资源语音识别模型的训练,所得模型通常识别效果较差。针对这一问题,目前提升低资源语音识别率的方法通常通过自监督预训练实现,自监督预训练的方法通过无监督训练得到一个鲁棒的特征提取器,作为低资源任务的特征提取器,以便于在低资源语音识别过程中能够提取更加鲁棒的特征从而提供识别效果。

但是自监督预训练中,在用于预训练的数据量达到一定规模时,继续增加用于预训练的数据量规模,并不能继续带来低资源语音识别的效果提升。

发明内容

本发明提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中低资源语音识别效果提升受限的问题。

本发明提供一种语音识别方法,包括:

确定待识别语音;

基于语音识别模型,确定所述待识别语音的识别文本;

所述语音识别模型是基于第一编码网络,应用第一语音文本对训练得到的,所述第一编码网络是联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的;

所述待识别语音和所述第一语音文本对属于第一语种,所述第二语音文本对属于所述第一语种之外的其他语种。

根据本发明提供的一种语音识别方法,所述第一编码网络基于如下步骤训练得到:

基于所述语音编码网络,确定第二语音的语音向量;

基于所述文本编码网络,确定第二文本的文本向量;

基于所述语音向量和所述文本向量之间的相似度,以及所述第二语音和所述第二文本是否属于同一第二语音文本对,对所述语音编码网络和所述文本编码网络进行对比训练,将对比训练完成的语音编码网络确定为所述第一编码网络。

根据本发明提供的一种语音识别方法,所述基于所述语音向量和所述文本向量之间的相似度,以及所述第二语音和所述第二文本是否属于同一第二语音文本对,对所述语音编码网络和所述文本编码网络进行对比训练,包括:

基于属于同一第二语音文本对的第二语音的语音向量和第二文本的文本向量,确定正例相似度,基于属于不同第二语音文本对的第二语音的语音向量和第二文本的文本向量,确定反例相似度;

以所述正例相似度最大化和所述反例相似度最小化为目标,对所述语音编码网络和所述文本编码网络进行对比训练。

根据本发明提供的一种语音识别方法,所述语音识别模型基于如下步骤训练得到:

确定第二编码网络,所述第二编码网络是端到端语音识别模型中的编码器;

基于所述第一编码网络和所述第二编码网络,确定联合编码网络;

应用所述第一语音文本对,训练所述联合编码网络,基于训练完成的联合编码网络,确定所述语音识别模型。

根据本发明提供的一种语音识别方法,所述确定第二编码网络,包括:

基于语音合成模型,确定第三文本对应的合成语音,并基于所述第三文本以及所述合成语音,构建第三语音文本对,所述第三语音文本对属于所述第一语种;

应用所述第三语音文本对,训练初始端到端模型,得到所述端到端语音识别模型,将所述端到端语音识别模型中的编码器确定为所述第二编码网络。

根据本发明提供的一种语音识别方法,所述基于所述第一编码网络和所述第二编码网络,确定联合编码网络,包括:

基于所述第一编码网络和所述第二编码网络,以及融合网络,确定联合编码网络;

所述融合网络用于基于所述第一编码网络的第一输出和所述第二编码网络的第二输出确定融合权重,并基于所述融合权重对所述第一输出和所述第二输出进行特征融合。

根据本发明提供的一种语音识别方法,所述基于训练完成的联合编码网络,确定所述语音识别模型,包括:

在所述训练完成的联合编码网络之后接入至少两个解码网络,得到所述语音识别模型;

所述至少两个解码网络基于不同训练框架确定。

本发明还提供一种语音识别装置,包括:

语音确定单元,用于确定待识别语音;

语音识别单元,用于基于语音识别模型,确定所述待识别语音的识别文本;

所述语音识别模型是基于第一编码网络,应用第一语音文本对训练得到的,所述第一编码网络是联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的;

所述待识别语音和所述第一语音文本对属于第一语种,所述第二语音文本对属于所述第一语种之外的其他语种。

本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述语音识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法的步骤。

本发明提供的语音识别方法、装置、电子设备和存储介质,基于有监督的第二语音文本对,联合语音编码网络和文本编码网络进行训练以获取第一编码网络,由于第二语音文本对容易获取,且有监督训练时数据规模的增加能够带来训练效果的提升,用于第一语种的语音识别模型预训练的第一编码网络得以保证其优良的性能,虽然第一语种下的第一语音文本对规模有限,但由此训练得到的语音识别模型依然能够保持优秀的识别效果,实现准确、可靠的低资源语种的语音识别。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的语音识别方法的流程示意图之一;

图2是本发明提供的第一编码网络的训练流程示意图之一;

图3是本发明提供的第一编码网络的训练流程示意图之二;

图4是本发明提供的语音识别模型的训练流程示意图之一;

图5是本发明提供的第二编码网络的训练流程示意图;

图6是本发明提供的融合网络的结构示意图;

图7是本发明提供的语音识别模型的训练流程示意图之二;

图8是本发明提供的语音识别装置的结构示意图;

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

当前的语音识别技术,在面向复杂多样的实际应用需求时,依然存在数据依赖性强的问题,尤其是在构建多语种、多方言的低资源语音识别系统时,面临严重的数据瓶颈。

由于训练数据稀缺,基于有监督方法进行低资源语音识别模型的训练,所得模型通常识别效果较差。针对这一问题,目前提升低资源语音识别率的方法通常通过自监督预训练实现,自监督预训练的方法通过无监督训练得到一个鲁棒的特征提取器,作为低资源任务的特征提取器,从而降低语音识别任务对于有监督训练数据需求,以便于在低资源语音识别过程中能够提取更加鲁棒的特征从而提供识别效果。

但是自监督预训练中,并未应用到有监督数据,在用于预训练的无监督数据量达到一定规模时,例如当用于预训练的无监督数据量达到十万小时级别时,继续增加用于预训练的数据量规模,并不能继续带来低资源语音识别的效果提升。

考虑到这一问题,本发明实施例提供了一种语音识别方法。图1是本发明提供的语音识别方法的流程示意图之一,如图1所示,该方法包括:

步骤110,确定待识别语音。

具体地,待识别语音即需要进行语音识别的语音,待识别语音可以通过拾音设备得到,此处拾音设备可以是智能手机、平板电脑,还可以是智能电器例如音响、电视和空调等,拾音设备在经过麦克风阵列拾音得到待识别语音后,还可以对待识别语音进行放大和降噪,本发明实施例对此不作具体限定。

步骤120,基于语音识别模型,确定所述待识别语音的识别文本;

所述语音识别模型是基于第一编码网络,应用第一语音文本对训练得到的,所述第一编码网络是联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的;

所述待识别语音和所述第一语音文本对属于第一语种,所述第二语音文本对属于所述第一语种之外的其他语种。

具体地,针对待识别语音的语音识别,可以通过语音识别模型实现。此处的语音识别模型,应具备对待识别语音所属的语种下的语音进行识别的功能,假设待识别语音属于第一语种,则语音识别模型本身可用于识别第一语种下的语音。

此处,第一语种可以是低资源语种,低资源语种即应用面较窄、受众较少的语种,例如毛利语、乌兹别克语等,此类语种的有监督数据规模较小,收集难度较大。为了提高第一语种下的语音识别模型的识别效果,在应用第一语种下的第一语音文本对进行有监督的模型训练时,需要在预训练的第一编码网络的基础上进行,此处的第一编码网络,是通过联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的。

第一语音文本对和第二语音文本对均属于有监督训练数据,即语音文本对,均包括语音及其对应的文本。不同的是,第一语音文本对属于第一语种,即低资源语种,而第二语音文本对则属于第二语种,此处的第二语种是除第一语种之外的其他语种,具体可以是一个语种或者多个语种,相较于低资源的第一语种,第二语种的有监督训练数据,即第二语音文本对具备数量规模大、收集难度低的优势,

需要说明的是,本发明实施例中所指的语种可以是国家或者地区内的语种,例如可以是汉语,也可以是汉语下分的方言语种,例如客家话、粤语、闽南语。

由于第二语音文本对本身的获取难度小,因此可以应用大量的第二语音文本对,联合语音编码网络和文本编码网络进行训练,在此过程中,语音编码网络可以将第二语音文本对中的语音编码成语音向量,文本编码网络可以将第二语音文本对中的文本编码成文本向量,再结合第二语音文本对中语音和文本天然的对应关系,以存在对应关系的语音向量和文本向量尽可能接近,不存在对应关系的语音向量和文本向量尽可能相区别为目标,对语音编码网络和文本编码网络中的参数进行迭代更新,由此使得语音编码网络和文本编码网络能够在训练过程中充分学习到语音和文本的特征,由此训练完成后的语音编码网络,即具备语音编码能力的预训练的第一编码网络。

此处,针对第一编码网络的预训练过程,应用了大量有监督的第二语音文本对,第二语音文本对数据规模的增加,能够为第一编码网络的编码效果带来持续性的提升,在此基础上,可以基于第一语音文本对,对第一编码网络进行训练,基于第一编码网络训练所得的语音识别模型,其识别性能也能够得到进一步的增强。

本发明实施例提供的方法,基于有监督的第二语音文本对,联合语音编码网络和文本编码网络进行训练以获取第一编码网络,由于第二语音文本对容易获取,且有监督训练时数据规模的增加能够带来训练效果的提升,用于第一语种的语音识别模型预训练的第一编码网络得以保证其优良的性能,虽然第一语种下的第一语音文本对规模有限,但由此训练得到的语音识别模型依然能够保持优秀的识别效果,实现准确、可靠的低资源语种的语音识别。

基于上述实施例,图2是本发明提供的第一编码网络的训练流程示意图之一,如图2所示,所述第一编码网络基于如下步骤训练得到:

步骤210,基于所述语音编码网络,确定第二语音的语音向量;

步骤220,基于所述文本编码网络,确定第二文本的文本向量;

步骤230,基于所述语音向量和所述文本向量之间的相似度,以及所述第二语音和所述第二文本是否属于同一第二语音文本对,对所述语音编码网络和所述文本编码网络进行对比训练,将对比训练完成的语音编码网络确定为所述第一编码网络。

具体地,在训练过程中,语音编码网络用于对第二语音进行语音编码,以获取第二语音的语音向量;相应地,文本编码网络用于对第二文本进行文本编码,以获取第二文本的文本向量。需要说明的是,此处的第二语音和第二文本均来自于第二语种下的第二语音文本对,特别地,第二语音和第二文本可以来自同一个第二语音文本对,也可以来自不同的第二语音文本对,此两者来自同一个第二语音文本对时,可以认为第二语音和第二文本之间存在自然的对应关系,即第二语音和第二文本相互匹配,此两者来自不同的第二语音文本对时,可以认为第二语音和第二文本之间不存在关联,即第二语音和第二文本互不匹配。

在分别得到第二语音的语音向量和第二文本的文本向量之后,即可计算此两者之间的相似度,并结合此两者是否属于同一第二语音文本对,对语音编码网络和文本编码网络进行对比训练。在此过程中,第二语音和第二文本属于同一第二语音文本对的情况下,语音向量和文本向量之间的相似度越高,则对比训练的效果越优,相似度越低,则对比训练的效果越需要进一步调整;第二语音和第二文本属于不同第二语音文本对的情况下,语音向量和文本向量之间的相似度越低,则对比训练的效果越优,相似度越高,则对比训练的效果越需要进一步调整。由此完成对比训练之后,即可将对比训练完成的语音编码网络确定为第一编码网络。

基于上述任一实施例,步骤230中,所述基于所述语音向量和所述文本向量之间的相似度,以及所述第二语音和所述第二文本是否属于同一第二语音文本对,对所述语音编码网络和所述文本编码网络进行对比训练,包括:

基于属于同一第二语音文本对的第二语音的语音向量和第二文本的文本向量,确定正例相似度,基于属于不同第二语音文本对的第二语音的语音向量和第二文本的文本向量,确定反例相似度;

以所述正例相似度最大化和所述反例相似度最小化为目标,对所述语音编码网络和所述文本编码网络进行对比训练。

具体地,针对所有的语音向量和文本向量,均可以计算两两之间的相似度,其中针对属于同一第二语音文本对的第二语音的语音向量和第二文本的文本向量,第二语音和第二文本构成一组正例,此两者的语音向量和文本向量之间的相似度,可以记为正例相似度;针对属于不同第二语音文本对的第二语音的语音向量和第二文本的文本向量,第二语音和第二文本构成一组反例,此两者的语音向量和文本向量之间的相似度,可以记为反例相似度。进一步地,此处向量之间的相似度,包括正例相似度和反例相似度,均可以通过向量内积、余弦相似度、欧式距离等相似度计算方法实现,本发明实施例对此不作具体限定。

在此基础上,基于将正例相似度最大化和反例相似度最小化作为训练目标,对语音编码网络和文本编码网络进行对比训练,具体可以以正例相似度最大化和反例相似度最小化为目标,构建损失函数,并基于正例相似度和反例相似度计算损失函数值,基于损失函数值对语音编码网络和文本编码网络的网络参数进行更新迭代,直至损失函数收敛。

基于上述任一实施例,相关技术中,为了提升低资源语音识别率,除了自监督预训练之外,还可能通过迁移学习实现,迁移学习即利用其他语种的大量有监督数据训练一个初始化模型作为低资源语种的初始化网络,然后再使用低资源语种的有监督数据再次训练,上述方式是从帧级别的音素分类进行训练,能够很好地模拟人类发音,但是效果提升幅度依然有限。针对这一问题,本发明实施例中的第二语音和第二文本均以句为单位,通过句级的对比学习,突破效果提升的限制。图3是本发明提供的第一编码网络的训练流程示意图之二,如图3所示,预先收集的大量第二语音文本对可以划分为多个minibatch数据,每个minibatch数据均包含N组第二语音文本对,即包括N句话的第二语音和第二文本。

N句话的第二语音通过语音编码网络得到每句话的语音向量,记作S

在得到N句话的语音向量和文本向量之后,可以对[S

对比训练的损失函数L(W,(Y,T,S))可以表示为如下公式:

式中D

基于上述损失函数,即可实现梯度计算,进而通过神经网络前后向算法更新文本编码网络和语音编码网络。

基于上述任一实施例,在将第二文本和第二语音分别属于至文本编码网络和语音编码网络之前,可以先对第二文本中的每个字进行word embedding编码,再将编码所得的向量输入到文本编码网络;还可以对第二语音提取filterbank频谱特征,然后进行均值方差规整,再将规整后的向量输入到语音编码网络。

此外,在联合文本编码网络和语音编码网络的训练过程中,还可以对N句话的第二语音的频谱特征进行随机mask,从而增加训练所得的第一编码网络的鲁棒性。此处的随机mask可以是应用小方块在频谱特征的随机位置上进行置零操作,小方块的尺寸可以是4维*8帧,或者6维*4帧等,本发明实施例不对此作具体限定。

基于上述任一实施例,图4是本发明提供的语音识别模型的训练流程示意图之一,如图4所示,所述语音识别模型基于如下步骤训练得到:

步骤410,确定第二编码网络,所述第二编码网络是端到端语音识别模型中的编码器。

具体地,端到端语音识别模型在同一个模型中,同时包含了声学模型训练和语言模型训练。端到端语音识别模型主要包括编码器encoder和解码器decoder两部分,语音识别过程中使用字作为建模单元,输出使用自回归的方式直接预测字。

此处,端到端语音识别模型具备对第一语种下的语音进行语音识别的能力,其中包含的编码器,即第二编码网络,本身即具备对于第一语种下的语音进行编码的功能。

步骤420,基于所述第一编码网络和所述第二编码网络,确定联合编码网络。

为了进一步提高语音识别模型的识别效果,本发明实施例中,将第一编码网络和第二编码网络联合起来,构建联合编码网络。联合编码网络中,第一编码网络和第二编码网络并行执行针对输入的待识别语音的语音编码,并各自输出针对待识别语音的语音向量,联合编码网络中还可以存在对于第一编码网络和第二编码网络各自输出的语音向量进行融合的网络结构,从而实现第一编码网络和第二编码网络的联合编码。

步骤430,应用所述第一语音文本对,训练所述联合编码网络,基于训练完成的联合编码网络,确定所述语音识别模型。

具体地,在确定联合编码网络之后,基于应用第一语音文本对,对联合编码网络进行有监督训练,训练完成的联合编码网络,可以结合针对第一语种的语言模型和/或隐马尔科夫模型等进行解码,从而实现针对第一语种的语音识别。

本发明实施例提供的方法,联合对比学习和端到端两种训练框架下得到第一编码网络和第二编码网络构建语音识别模型,有助于保障语音识别模型的鲁棒性,进一步提高语音识别效果。

基于上述任一实施例,步骤410包括:

基于语音合成模型,确定第三文本对应的合成语音,并基于所述第三文本以及所述合成语音,构建第三语音文本对,所述第三语音文本对属于所述第一语种;

应用所述第三语音文本对,训练初始端到端模型,得到所述端到端语音识别模型,将所述端到端语音识别模型中的编码器确定为所述第二编码网络。

具体地,考虑到端到端语音识别模型是针对第一语种的语音识别模型,端到端语音识别模型的训练需要应用大量第一语种的有监督样本。但是第一语种属于低资源语种,有监督样本的获取难度和获取成本均比较高,本发明实施例中通过语音合成模型针对第一语种下的第三文本进行语音合成,从而得到第三文本的合成语音以构建第三语音文本对。

由此得到的第三语音文本对,即第一语种下合成的有监督样本,可以将第三语音文本对应用到初始端到端模型的训练中,从而得到端到端语音识别模型。此处的初始端到端模型即编码器-解码器结构的模型。

进一步地,在对初始端到端模型进行训练的过程中,可以混合第一语音文本对和第三语音文本对作为模型训练的有监督样本,具体混合比例可以是1:3,也可以是1:4等,本发明实施例对此不作具体限定。图5是本发明提供的第二编码网络的训练流程示意图,如图5所示,样本语音可以是第一语音文本对中的第一语音,也可以是第三语音文本对中的合成语音,编码器和解码器构成初始端到端模型,解码器输出的输出文本可以联合样本语音所处语音文本对中的文本计算损失函数,以更新编码器和解码器的网络参数。此外,编码器输出的编码向量,即样本语音的语音向量,训练完成之后,即可将编码器作为第二编码网络。

基于上述任一实施例,初始端到端模型中,编码器可以使用MobileNet结构,由于MobileNet结构本身的参数量较少,将基于MobileNet结构的第二编码网络应用于语音识别模型,可以加快模型推理速度。解码器可以使用transformer结构,模型尺寸可以不作压缩。

基于上述任一实施例,步骤420包括:

基于所述第一编码网络和所述第二编码网络,以及融合网络,确定联合编码网络;

所述融合网络用于基于所述第一编码网络的第一输出和所述第二编码网络的第二输出确定融合权重,并基于所述融合权重对所述第一输出和所述第二输出进行特征融合。

具体地,考虑到第一编码网络和第二编码网络的输出差异较大,直接拼接会影响模型训练效果,本发明实施例中通过在第一编码网络和第二编码网络后接入融合网络,实现针对第一编码网络的第一输出和针对第二编码网络的第二输出的加权融合。

此处,融合网络中用于加权融合的融合权重,是基于第一编码网络的第一输出和第二编码网络的第二输出,自适应调整的,在此过程中,结合第一输出和第二输出,可以确定第一输出和第二输出中对于语音识别有用的信息的多少,从而确定在对第一输出和第二输出进行加权融合时,是更偏重于第一输出还是第二输出。

本发明实施例提供的方法,通过第一输出和第二输出确定融合权重,据此进行特征融合,有助于突出对于语音识别更加有益的信息,提高模型训练的稳定性。

基于上述任一实施例,在所述融合网络中,融合权重可以基于如下步骤确定:

将所述第一编码网络的第一输出和所述第二编码网络的第二输出规整至相同的特征维度,并将相同特征维度下的第一输出和第二输出进行拼接,得到拼接特征;

对拼接特征进行特征提取,得到所述融合权重。

此处,将第一输出和第二输出规整至相同的特征维度,具体可以是对第一输出进行特征维度压缩,或者对第二输出进行特征上采样。此处的特征维度压缩可以通过深度神经网络实现。

对拼接特征进行特征提取,可以通过深度神经网络实现,也可以通过特征映射的方式实现。

在所述融合网络中,基于融合权重对所述第一输出和所述第二输出进行特征融合,具体可以是基于融合权重分别确定针对第一输出和第二输出的权重,再分别对第一输出和第二输出进行加权后求和;也可以是直接将融合权重作为第一输出或者第二输出的权重,仅对第一输出或者第二输出加权,例如将第二输出与融合权重的乘积与第一输出相加。

基于上述任一实施例,图6是本发明提供的融合网络的结构示意图,如图6所示,DNN1和DNN2是两个深度神经网络(Deep Neural Networks),sigmoid是激活函数。第一输出通过DNN1压缩至与第二输出相同的特征维度,再与第二输出进行拼接。拼接完成后的特征经过DNN2作进一步特征提取后输入Sigmoid激活函数进行特征映射,从而得到取值在0-1之间的融合权重,将融合权重与第二输出相乘,以实现对第二输出的加权,并将经过DNN1压缩后的第一输出与加权后的第二输出进行拼接,以实现第一输出和第二输出的加权融合。加权融合之后,即可通过分类层输出分类结果,例如可以是三音素triphone的分布概率。

假设第一输出为l

基于上述任一实施例,步骤430包括:

在所述训练完成的联合编码网络之后接入至少两个解码网络,得到所述语音识别模型;

所述至少两个解码网络基于不同训练框架确定。

具体地,为了进一步提高语音识别模型的识别效果,在语音识别模型的模型构建上,采用了至少两个解码网络进行语音解码,此处的至少两个解码网络,是基于不同的训练框架确定的,在不同训练框架下训练得到的解码网络,能够实现语音解码层面上的互补,从而保证语音识别的可靠性。

作为优选,此处的至少两个解码网络,可以分别是隐马尔可夫模型,以及端到端语音识别模型中的解码器,将对帧级别进行细粒度建模的隐马尔可夫模型,和在字级别进行粗粒度建模的端到端语音识别模型各自的优势融合在同一个模型之中,能够有效优化语音识别效果。

基于上述任一实施例,图7是本发明提供的语音识别模型的训练流程示意图之二,如图7所示,语音识别模型的训练,基于如下步骤实现:

首先,联合语音编码网络和文本编码网络,应用第二语音文本对,进行对比训练,将训练完成的语音编码网络确定为第一编码网络;并且,通过语音合成模型合成语音以构建第三语音文本对,并据此训练端到端语音识别模型,将其中的编码器确定为第二编码网络。

在得到第一编码网络和第二编码网络之后,在两个编码网络后接融合网络,由此构建联合编码网络。

将第一语音文本对中的第一语音作为联合编码网络的输入,并由此得到联合编码网络基于第一语音预测得到的三音素状态,由预测得到的三音素状态与第一语音文本对中第一语音所对应第一文本的三音素状态进行比对,从而计算得到联合编码网络的损失值,基于损失值对联合编码网络进行梯度更新,以实现联合编码网络的训练,并基于训练完成的联合编码网络,确定语音识别模型。

在此过程中,基于损失值对联合编码网络进行梯度更新,具体可以是在固定第二编码网络的网络参数的前提下,仅对第一编码网络和融合网络的网络参数进行迭代更新。

相应地,在应用语音识别模型进行语音识别的过程中,可以是应用语音识别模型中的第一编码网络和第二编码网络分别对待识别语音进行语音编码,并通过融合网络对第一编码网络和第二编码网络分别输出的语音向量进行融合,从而输出融合后的语音向量,在此基础上,即可通过语音识别模型中的至少两个解码网络对融合后的语音向量进行语音解码,从而得到识别文本。

基于上述任一实施例,图8是本发明提供的语音识别装置的结构示意图,如图8所示,该装置包括:

语音确定单元810,用于确定待识别语音;

语音识别单元820,用于基于语音识别模型,确定所述待识别语音的识别文本;

所述语音识别模型是基于第一编码网络,应用第一语音文本对训练得到的,所述第一编码网络是联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的;

所述待识别语音和所述第一语音文本对属于第一语种,所述第二语音文本对属于所述第一语种之外的其他语种。

本发明实施例提供的装置,基于有监督的第二语音文本对,联合语音编码网络和文本编码网络进行训练以获取第一编码网络,由于第二语音文本对容易获取,且有监督训练时数据规模的增加能够带来训练效果的提升,用于第一语种的语音识别模型预训练的第一编码网络得以保证其优良的性能,虽然第一语种下的第一语音文本对规模有限,但由此训练得到的语音识别模型依然能够保持优秀的识别效果,实现准确、可靠的低资源语种的语音识别。

基于上述任一实施例,该装置还包括第一编码网络训练单元,用于:

基于所述语音编码网络,确定第二语音的语音向量;

基于所述文本编码网络,确定第二文本的文本向量;

基于所述语音向量和所述文本向量之间的相似度,以及所述第二语音和所述第二文本是否属于同一第二语音文本对,对所述语音编码网络和所述文本编码网络进行对比训练,将对比训练完成的语音编码网络确定为所述第一编码网络。

基于上述任一实施例,第一编码网络训练单元具体用于:

基于属于同一第二语音文本对的第二语音的语音向量和第二文本的文本向量,确定正例相似度,基于属于不同第二语音文本对的第二语音的语音向量和第二文本的文本向量,确定反例相似度;

以所述正例相似度最大化和所述反例相似度最小化为目标,对所述语音编码网络和所述文本编码网络进行对比训练。

基于上述任一实施例,该装置还包括第二编码网络训练单元,用于:

确定第二编码网络,所述第二编码网络是端到端语音识别模型中的编码器;

该装置还包括联合编码网络训练单元,用于:

基于所述第一编码网络和所述第二编码网络,确定联合编码网络;

应用所述第一语音文本对,训练所述联合编码网络,基于训练完成的联合编码网络,确定所述语音识别模型。

基于上述任一实施例,第二编码网络训练单元具体用于:

基于语音合成模型,确定第三文本对应的合成语音,并基于所述第三文本以及所述合成语音,构建第三语音文本对,所述第三语音文本对属于所述第一语种;

应用所述第三语音文本对,训练初始端到端模型,得到所述端到端语音识别模型,将所述端到端语音识别模型中的编码器确定为所述第二编码网络。

基于上述任一实施例,联合编码网络训练单元具体用于:

基于所述第一编码网络和所述第二编码网络,以及融合网络,确定联合编码网络;

所述融合网络用于基于所述第一编码网络的第一输出和所述第二编码网络的第二输出确定融合权重,并基于所述融合权重对所述第一输出和所述第二输出进行特征融合。

基于上述任一实施例,联合编码网络训练单元具体用于:

在所述训练完成的联合编码网络之后接入至少两个解码网络,得到所述语音识别模型;

所述至少两个解码网络基于不同训练框架确定。

图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行语音识别方法,该方法包括:

确定待识别语音;

基于语音识别模型,确定所述待识别语音的识别文本;

所述语音识别模型是基于第一编码网络,应用第一语音文本对训练得到的,所述第一编码网络是联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的;

所述待识别语音和所述第一语音文本对属于第一语种,所述第二语音文本对属于所述第一语种之外的其他语种。

此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音识别方法,该方法包括:

确定待识别语音;

基于语音识别模型,确定所述待识别语音的识别文本;

所述语音识别模型是基于第一编码网络,应用第一语音文本对训练得到的,所述第一编码网络是联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的;

所述待识别语音和所述第一语音文本对属于第一语种,所述第二语音文本对属于所述第一语种之外的其他语种。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音识别方法,该方法包括:

确定待识别语音;

基于语音识别模型,确定所述待识别语音的识别文本;

所述语音识别模型是基于第一编码网络,应用第一语音文本对训练得到的,所述第一编码网络是联合语音编码网络和文本编码网络,应用第二语音文本对训练得到的;

所述待识别语音和所述第一语音文本对属于第一语种,所述第二语音文本对属于所述第一语种之外的其他语种。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120114697966