掌桥专利:专业的专利平台
掌桥专利
首页

一种语音识别方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:28:50


一种语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及信息处理领域,具体涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

随着人工智能的迅猛发展和语音识别技术的广泛应用,语音识别技术已经参与到了人工生活的方方面面。

现有技术中对语音的识别通常需要将语音切分成短的语音片段,并分别对各个短的语音片段进行语音识别处理,最终得到各个短语音片段的识别结果。但对于会议、访谈、直播等语境较长的复杂场景,通过现有技术对语音的识别难以把握考虑语音本身的连贯性以及语音上下文之间的关联关系。由此可见,现有技术中的语音识别方法得到的语音识别结果质量有待提升。

发明内容

本申请提供一种语音识别方法、装置、电子设备及存储介质,以提高语音识别结果的质量。

根据本申请实施例的第一方面,提供了一种语音识别方法,包括:

对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;

根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;

对所述第二语音进行语音识别,得到所述第二语音的文本信息。

在本申请的一种可选实施方式中,所述根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,包括:

将所述第一语音的音频特征输入预先训练的语音评分模型,以使所述语音评分模型对所述第一语音进行语音帧级别的有效性评估,确定所述第一语音的各语音帧的有效性;

根据所述各语音帧的有效性,确定所述第一语音中的有效语音片段。

在本申请的一种可选实施方式中,所述语音评分模型通过以下方式训练得到:

获得第三语音的语音帧级别的音频特征,以及各音频特征的有效性分类结果;其中,各音频特征的有效性分类结果包括:音频特征对应的音频有效,或音频特征对应的音频无效;

将所述第三语音的各音频特征以及各音频特征对应的有效性分类结果作为训练样本,对语音评分模型进行音频有效性分类训练。

在本申请的一种可选实施方式中,所述对所述第二语音进行语音识别处理,得到所述第二语音的文本信息,包括:

通过对所述第二语音进行声学特征提取或编码,得到所述第二语音的音频特征;

对所述音频特征进行解码,得到对应所述第二语音的文本信息。

在本申请的一种可选实施方式中,通过对所述第二语音进行声学特征提取得到所述第二语音的音频特征,以及对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:

将所述第二语音输入预先训练的第一语音识别模型,得到对应所述第二语音的文本信息;

其中,所述第一语音识别模型包括声学信息提取模型,以及文本信息提取模型,所述声学信息提取模型用于对所述第二语音进行音素特征提取,得到所述第二语音的音素特征;

所述文本信息提取模型用于对所述第二语音的音素特征进行解码识别处理,得到对应所述第二语音的文本信息。

在本申请的一种可选实施方式中,通过对第二语音进行编码,得到对应所述第二语音的音频特征,包括:

对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征。

在本申请的一种可选实施方式中,所述对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,包括:

对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征;

其中,所述多头注意力机制包含注意力约束项,所述注意力约束项使得所述多头注意力机制在对当前语音帧进行特征编码时,将注意力范围限定在当前语音帧之前和/或当前语音帧之后的设定语音帧范围内。

在本申请的一种可选实施方式中,所述对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,包括:

将所述第二语音输入预先训练的语音编码器,得到所述第二语音的语音帧级别的音频特征;

其中,所述语音编码器包括多头注意力神经网络层,在所述多头注意力神经网络层中包括掩膜矩阵,所述掩膜矩阵用于在所述多头注意力神经网络层对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,控制注意力范围。

在本申请的一种可选实施方式中,对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,以及对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:

将所述第二语音输入预先训练的第二语音识别模型,得到对应所述第二语音的文本信息;

其中,所述第二语音识别模型包括语音编码器和语音解码器,所述语音编码器用于对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征;

所述语音解码器用于对所述音频特征进行解码,得到对应所述第二语音的文本信息。

在本申请的一种可选实施方式中,所述对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:

按照所述第二语音的各语音帧的生成顺序,依次对各语音帧的音频特征进行解码;

在依次对各语音帧的音频特征进行解码的过程中,如果解码出结束符号,则判断对所述第二语音的各语音帧的解码过程是否结束;

在对所述第二语音的各语音帧的解码过程没有结束的情况下,从所述第二语音中未解码的语音帧开始对所述第二语音再次解码,直至得到对应所述第二语音的文本信息。

根据本申请实施例的第二方面,提供了一种语音识别装置,包括:

第一单元,用于对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;

第二单元,用于根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;

第三单元,用于对所述第二语音进行语音识别,得到所述第二语音的文本信息。

根据本申请实施例的第三方面,一种电子设备,包括:

处理器;

用于存储所述处理器可执行指令的存储器;

所述处理器,用于通过运行所述存储器中的指令,执行上述语音识别方法。

根据本申请实施例的第四方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器运行时,执行上述语音识别方法。

本申请提供一种语音识别方法、装置、电子设备及存储介质,所述语音识别方法,包括:对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;对所述第二语音进行语音识别,得到所述第二语音的文本信息。

该方法在对语音进行识别的过程中,摒弃了现有技术中对分割后的语音分别进行语音识别的处理方法,基于第一语音的音频特征,对第一语音中的有效语音片段进行拼接,得到第二语音,进而对第二语音进行识别得到相应的文本信息,保证了第一语音的完整性,使得对语音信息的识别过程能够有效的结合不同语音之间的上下文联系,提高了语音识别的识别质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请一实施例提供的语音识别方法应用场景示意图;

图2为本申请另一实施例提供的语音识别方法流程图;

图3为本申请另一实施例提供的MoChA结构的语音解码器的特征解码示意图;

图4为本申请另一实施例提供的RNN-Transducer结构的语音解码器的特征解码示意图;

图5为本申请另一实施例提供的一种掩膜矩阵的结构示意图;

图6为本申请另一实施例提供的多头注意力神经网络层的计算流程图;

图7为本申请另一实施例提供的语音识别装置结构示意图;

图8为本申请另一实施例提供的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

随着人工智能的迅猛发展和语音识别技术的广泛应用,语音识别技术已经参与到了人工生活的方方面面。

现有技术中对语音的识别通常需要将语音切分成短的语音片段,并分别对各个短的语音片段进行语音识别处理,最终得到各个短语音片段的识别结果。但对于会议、访谈、直播等语境较长的复杂场景,通过现有技术对语音的识别难以把握考虑语音本身的连贯性以及语音上下文之间的关联关系。由此可见,现有技术中的语音识别方法得到的语音识别结果质量有待提升。

本申请提供一种语音识别方法、装置、电子设备及存储介质,以提高语音识别结果的质量,在以下的实施例中将逐一进行详细说明。

示例性实施环境

首先,为了便于理解本申请提供的语音识别方法的具体应用场景,以下结合所述语音识别方法的一种具体应用场景对所述语音识别方法进行详细介绍。

请参考图1,图1为本申请一实施例提供的语音识别方法应用场景示意图。在本场景实施例中,所述语音识别方法应用于会议场景的发言人语音识别。

如图1所示,图1中包括:发言人101、语音识别装置102。

其中,发言人101可以理解为参与会议并在会议中发言的人员。

语音识别装置102可以理解为用于对发言人101的发言语音进行语音识别的语音识别设备,在本申请的一种可选实施方式中,语音识别装置102可以为录音笔、录音机、手机、计算机、智能终端等硬件设备。

语音识别装置102中包括:语音特征提取单元1021、语音评分模型1022,以及语音识别模型1023。

其中,语音特征提取单元1021,用于对发言人101的发言语音进行语音帧级别的音频特征提取处理,得到发言人语音的音频特征。在本申请场景实施例中,所述发言人语音的音频特征具体为与所述发言人语音的各个语音帧对应的频谱特征。

进一步的,语音评分模型1022,用于根据所述发言人语音的音频特征,确定所述发言人语音中的有效片段。

如图1所示,所述有效片段包括有效片段1和有效片段2,在本申请的一种可选实施方式中,语音评分模型1022可以采用预先训练的语音活动检测模型(Voice ActivityDetection,VAD)。

具体的,所述语音评分模型对所述发言人语音的音频特征的处理过程,具体为,对各语音帧级别的音频特征进行有效度评估,之后,基于预先设定的有效度阈值,确定有效音频特征,以及与各有效音频特征对应语音帧。

在本申请场景实施例中,所述有效度阈值的设定仅需考虑该阈值是否能够筛选所述发言人语音中明显处于静音的片段即可。

进一步的,在确定发言人语音中的各有效片段后,对各有效片段进行拼接,得到所述发言人语音中的待识别语音,并将所述待识别语音输入语音识别模型1023,通过语音识别模型1023对所述待识别语音进行语音识别处理,得到与所述发言人语音对应的文本信息。

可以理解的,以上对本申请场景实施例的介绍只是为了便于更好的理解本申请提供的所述语音识别方法,而非用于对所述语音识别方法的应用场景进行限定,所述语音识别方法还可以应用于其他场景,比如说,用于对通话语音的识别、对录音信息的识别等。对此,本申请不作限制。

示例性方法

本申请实施例同时提供一种语音识别方法,其核心在于,基于第一语音的音频特征,对第一语音中的有效语音片段进行拼接,得到第二语音,进而对第二语音进行识别得到相应的文本信息,保证了第一语音的完整性,使得对语音信息的识别过程能够有效的结合不同语音之间的上下文联系,提高了语音识别的识别质量。

在本申请的一种可选实施例中,所述语音识别方法的实施主体可以是笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,游戏主机)等各种类型的用户终端或者是这些数据处理设备中的任意两个或多个的组合,也可以是服务器。

请参考图2,图2为本申请另一实施例提供的语音识别方法流程图,该方法包括以下步骤S201至步骤S203:

步骤S201,对第一语音进行音频特征提取处理,得到所述第一语音的音频特征。

所述第一语音可以理解为有待识别的语音,所述第一语音可以是基于几十秒以上乃至几个小时的人人对话、会议、访谈、直播等场景采集得到的音频数据,其中,用于采集第一语音的装置可以为录音笔、录音机等;所述第一语音也可以是通过网络获得的公开会议中的发言人的发言音频。对此,本申请不作限制。

所述第一语音的音频特征具体为所述第一语音的频谱特征,例如,所述频谱特征可以为梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征。

进一步的,所述对第一语音进行音频特征提取处理,得到所述第一语音的音频特征,包括:对所述第一语音进行分帧处理,之后,提取所述第一语音的语音帧级别的频谱特征。

在本申请的一种可选实施方式中,为了提高第一语音的频谱特征的稳定性,在对所述第一语音进行分帧处理后,还可以对各语音帧进行预加重处理,以提高第一语音中的高频部分,使得第一语音在整个频带中,能够用同样的信噪比得到频谱特征,同时也能够消除第一语音发声过程中的声带和嘴唇效应。在实际应用中,对所述第一语音的各语音帧进行预加重处理可以基于高通滤波器实现。

进一步的,考虑到第一语音中可能会包含一些静默部分,例如:在某发言人发言的过程中,可能会因为设备故障等外在因素的影响中断发言。在语音识别过程中,为了避免静默部分对第一语音上下文之间关联的影响,进一步执行以下步骤S202。

步骤S202,根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音。

在本申请的一种可选实施方式中,所述根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,包括:

将所述第一语音的音频特征数据预先训练的语音评分模型,以使所述语音评分模型对所述第一语音进行语音帧级别的有效性评估,确定所述第一语音的各语音帧的有效性;根据所述各语音帧的有效性,确定所述第一语音中的有效语音片段。

所述语音评分模型,可以理解为一种神经网络,在具体应用的过程中,所述语音评分模型可以采用机器学习(Machine Learning,ML)的方式训练获得。机器学习(是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科)专用于研究通过训练样本,获取新的知识或技能,重新组织已有知识结构并不不断改善自身性能。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术,属于人工智能(Artificial Intellingence,AI)技术的一个分支。

具体的,所述语音评分模型可以通过以下步骤S1和步骤S2方式训练得到:

步骤S1,获得第三语音的语音帧级别的音频特征,以及各音频特征的有效性分类结果;其中,各音频特征的有效性分类结果包括:音频特征对应的音频有效,或音频特征对应的音频无效;

步骤S2,将所述第三语音的各音频特征以及各音频特征对应的有效性分类结果作为训练样本,对语音评分模型进行音频有效性分类训练。

在本申请得到一种可选实施方式中,所述各音频特征的有效性分类结果可以通过标签0或标签1表示,其中,标签0表示所述音频特征对音频无效,标签1表示音频特征对音频有效。

在实施应用的过程中,在通过上述步骤S1和步骤S2的方法训练获得所述语音评分模型,并通过所述语音评分模型接收输入该模型的第一语音各语音帧的音频特征后,所述语音评分模型输出各音频特征的有效性评估结果;其中,所述有效性评估结果在0至1之间。

进一步的,可以通过调整所述有效性评估阈值的方式确定各语音帧中的有效音频特征和无效音频特征,进而确定由有效语音帧组成的有效语音片段。

在本申请的一种可选实施方式中,所述语音评分模型可以为通过上述步骤S1和步骤S2训练得到的语音活动检测模型(Voice Activity Detection,VAD);所述有效性评估阈值可以根据实际情况进行设定,另外,考虑到所述语音评分模型仅仅用于对语音帧进行有效性的评估,该评估过程并不考虑语音帧之间的上下文联系。因此,所述有效性评估阈值的设定仅需考虑该阈值是否能够删除掉第一语音中明显为无效语音的片段(例如:明显处于静音状态的语音片段)。

进一步的,在确定所述第一语音中的有效语音片段后,对所述有效语音片段进行拼接,得到第二语音。可以理解的,通过上述方式得到的第二语音能够完整的保留第一语音中的有效语音,保证了第一语音的完整性。

步骤S203,对所述第二语音进行语音识别,得到所述第二语音的文本信息。

在本申请实施例中,所述对所述第二语音进行语音识别,得到所述第二语音的文本信息,包括:通过对所述第二语音进行声学特征提取或编码,得到所述第二语音的音频特征;对所述音频特征进行解码,得到对应所述第二语音的文本信息。

在本申请的一种可选实施方式中,通过对所述第二语音进行声学特征提取得到所述第二语音的音频特征,以及对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:

将所述第二语音输入预先训练的第一语音识别模型,得到对应所述第二语音的文本信息;

其中,所述第一语音识别模型包括声学信息提取模型,以及文本信息提取模型,所述声学信息提取模型用于对所述第二语音进行音素特征提取,得到所述第二语音的音素特征;所述文本信息提取模型用于对所述第二语音的音素特征进行解码识别处理,得到对应所述第二语音的文本信息。

在本申请的另一种可选实施方式中,通过对第二语音进行编码,得到对应所述第二语音的音频特征,包括:对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征。

更为具体的,所述对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,包括:

对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征;

其中,所述多头注意力机制包含注意力约束项,所述注意力约束项使得所述多头注意力机制在对当前语音帧进行特征编码时,将注意力范围限定在当前语音帧之前和/或当前语音帧之后的设定语音帧范围内。

在实际应用的过程中,对所述第二语音进行语音帧级别的特征编码处理的过程可以基于预先训练的第二语音识别模型中的语音编码器实现,其中,所述语音编码器包括多头注意力神经网络层,在所述多头注意力神经网络层中包括掩码矩阵,所述掩码矩阵用于在所述多头注意力神经网络层对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,控制注意力范围。

即,将所述第二语音输入预先训练的语音编码器,得到所述第二语音的语音帧级别的音频特征。

进一步的,所述预先训练的第二语音识别模型还包括:语音解码器,所述语音解码器用于对所述音频特征进行解码,得到对应所述第二语音的文本信息。

在本申请的一种可选实施方式中,所述语音解码器可以采用单调的模型结构,如MoChA、RNN-Transducer。为了便于理解所述语音解码器对音频特征的解码过程,以下以MoChA和RNN-Transducer两种结构为例,对这两种结构的语音解码器的解码过程进行说明。

首先,请参考图3,图3为本申请另一实施例提供的MoChA结构的语音解码器的特征解码示意图。

如图3所示,图3中包括输入序列301、输出序列302;

输入序列301表示语音编码器输出的各语音帧的音频特征;在图3中各语音帧的音频特征通过“○”表示,图3所示的各行示出的“○”表示所述语音编码器输出的所有的音频特征。

输出序列302表示的MoChA结构的语音解码器输出的文本信息。

如图3所示,MoChA结构的语音解码器对音频特征的解码过程可以理解为,通过对第一个语音帧的音频特征和第二个语音帧的音频特征进行解码,得到文本信息中的第一个字/词;通过对第二个语音帧至第四个语音帧的音频特征进行解码,得到文本信息中的第二个字/词;通过对第三个语音帧至第五个语音帧的音频特征进行解码,得到文本信息中的第三个和第四个字/词;通过对第五个语音帧至第七个语音帧的音频特征进行解码,得到文本信息中的第五个字/词。

其次,请参考图4,图4为本申请另一实施例提供的RNN-Transducer结构的语音解码器的特征解码示意图。

如图4所示,图4中包括输入序列401、输出序列402;

与图3类似的,输入序列401表示语音编码器输出的各语音帧的音频特征;在图4中各语音帧的音频特征通过“○”表示,图4所示的各行示出的“○”表示所述语音编码器输出的所有的音频特征。

输出序列402表示RNN-Transducer结构的语音解码器输出的文本信息。

如图4所示,RNN-Transducer结构的语音解码器对音频特征的解码过程可以理解为,在解码得到文本信息的第一个字/词的过程中,对第一个语音帧的音频特征进行解码的解码结果为空,对第二个语音帧的音频特征进行解码得到了文本信息中的第一个字/词;进一步的,在解码得到文本信息的第二个字/词的过程中,对第二个语音帧和第三个语音帧对应的音频特征进行解码的解码结果为空,对第四个语音帧的音频特征进行解码得到了文本信息中的第二个字/词;进一步的,在对第四个语音帧的音频特征进行解码的过程中还得到了文本信息中的第三个字/词;进一步的,在解码得到文本信息的第五个字/词的过程中,对第五个语音帧和第六个语音帧进行解码的解码结果为空,对第七个语音帧的音频特征进行解码得到了文本信息中的第五个字/词。

进一步的,为了便于理解本申请对所述第二语音进行声学特征提取或编码的原理,以下对用于所述第一语音识别模型和第二语音识别模型的训练过程,以及所述第一语音识别模型中的声学特征提取模型,和所述第二语音识别模型中的语音编码器的结构进行说明。

首先,对于所述第一语音识别模型,如前文描述的,所述第一语音识别模型包括声学信息提取模型,以及文本信息提取模型。

在本申请实施例中,所述声学信息提取模型通过以下方式训练得到:

获得第四语音的语音帧以及各语音帧对应的音素特征;

将所述各语音帧,以及各语音帧对应的音素特征作为训练样本,对所述声学信息提取模型进行音素特征提取训练。

进一步的,所述文本信息提取模型通过以下方式训练得到:

获得第四语音的各语音帧的音素特征,以及各音素特征的文本信息;

将所述各语音帧的音素特征,以及各语音特征的文本信息作为训练样本,对所述文本信息提取模型进行文本解码训练。

其次,对于所述第二语音识别模型,如前文描述的,所述第二语音识别模型,包括:语音编码器和语音解码器。

在本申请实施例中,对所述语音编码器和所述语音解码器的训练过程是一起进行的,具体的,所述第二语音识别模型通过以下方式训练得到:

获得第五语音,以及所述第五语音的文本信息;

将所述第五语音,以及所述第五语音的文本信息作为训练样本,对所述第二语音识别模型进行语音识别训练。

进一步的,考虑到在对第二语音进行识别的过程中,第二语音是所述第一语音的所有有效片段的拼接,考虑到在模型训练的过程中,完整的语音数据相较于分段处理后的语音片段更长,数据量也更多,为了在能够保证语音识别模型能够结合第二语音上下文之间的联系得到更好的文本信息,同时缩减模型训练时间和训练周期,在所述声学信息提取模型和所述语音编码器的模型结构中,对于全连接层FC(Full Connection)、卷积神经网络层CNN(Convolutional Neural Network)、循环神经网络RNN(Recurrent Neural Network)等线性时间与空间复杂度的算子,采用与常规数据一样的计算。对于非线性时间与空间复杂度的自注意力机制SAN(Self Attention)的计算,在常规的多头注意力神经网络层,添加一层掩膜矩阵,来屏蔽掉一些相隔较远的语音帧之间的关联关系。

具体的,请参考图5,图5为本申请另一实施例提供的一种掩膜矩阵的结构示意图。

图5中包括:掩膜矩阵501,掩膜矩阵501中包括掩膜区域502、第一非掩膜区域503以及第二非掩膜区域304;

此处,假设掩膜矩阵501中的任意元素为M

在实际应用中,掩膜矩阵501中的掩膜区域502部分的掩膜附加为∞,第一非掩膜区域503和第二非掩膜区域504部分的掩膜附加为0。

虽然添加掩膜后的多头注意力神经网络层对语音帧之间的关联性的计算相较与未添加掩膜的多头注意力神经网络层对语音帧之间的关联性的计算降低了,但通过多层自注意力计算的的累加,也能看到输入长语音的各语音帧的全量信息,且实际模型训练的完整度也比传统的短语音识别模型训练的完整度要好。

进一步的,请参考图6,图6为本申请另一实施例提供的多头注意力神经网络层的计算流程图。

如图4所示,多头注意力神经网络层输入由全连接层生成的K、Q、V三个向量,在对第一语音帧进行音频特征处理时,通过计算第一语音帧与其他语音帧之间的向量Q与向量K之间的内积,获得所述第一语音帧与其他语音帧之间的相关性,并经过Softmax层对所述相关性进行归一化处理,得到一组Softmax系数,并通过向量V对所述Softmax系数进行加权处理,得到所述第一语音帧的音频特征。

在本申请实施例中,在经过Softmax层对所述相关性进行归一化处理之前,在Softmax层添加所述掩膜矩阵,以限制所述第一语音帧与其他语音帧之间的相关性。以此实现减少训练过程中数据的计算量。

由此可见,本申请实施例提供的语音识别方法,在对语音进行识别的过程中,摒弃了现有技术中对分割后的语音分别进行语音识别的处理方法,基于第一语音的音频特征,对第一语音中的有效语音片段进行拼接,得到第二语音,进而对第二语音进行识别得到相应的文本信息,保证了第一语音的完整性,使得对语音信息的识别过程能够有效的结合不同语音之间的上下文联系,提高了语音识别的识别质量。

示例性装置

相应的,本申请实施例还提供了一种语音识别装置,请参考图7,图7为本申请另一实施例提供的语音识别装置结构示意图,如图7所示,所述语音识别装置,包括:

第一单元701,用于对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;

第二单元702,用于根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;

第三单元703,用于对所述第二语音进行语音识别,得到所述第二语音的文本信息。

在本申请的一种可选实施方式中,所述根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,包括:

将所述第一语音的音频特征输入预先训练的语音评分模型,以使所述语音评分模型对所述第一语音进行语音帧级别的有效性评估,确定所述第一语音的各语音帧的有效性;

根据所述各语音帧的有效性,确定所述第一语音中的有效语音片段。

在本申请的一种可选实施方式中,所述语音评分模型通过以下方式训练得到:

获得第三语音的语音帧级别的音频特征,以及各音频特征的有效性分类结果;其中,各音频特征的有效性分类结果包括:音频特征对应的音频有效,或音频特征对应的音频无效;

将所述第三语音的各音频特征以及各音频特征对应的有效性分类结果作为训练样本,对语音评分模型进行音频有效性分类训练。

在本申请的一种可选实施方式中,所述对所述第二语音进行语音识别处理,得到所述第二语音的文本信息,包括:

通过对所述第二语音进行声学特征提取或编码,得到所述第二语音的音频特征;

对所述音频特征进行解码,得到对应所述第二语音的文本信息。

在本申请的一种可选实施方式中,通过对所述第二语音进行声学特征提取得到所述第二语音的音频特征,以及对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:

将所述第二语音输入预先训练的第一语音识别模型,得到对应所述第二语音的文本信息;

其中,所述第一语音识别模型包括声学信息提取模型,以及文本信息提取模型,所述声学信息提取模型用于对所述第二语音进行音素特征提取,得到所述第二语音的音素特征;

所述文本信息提取模型用于对所述第二语音的音素特征进行解码识别处理,得到对应所述第二语音的文本信息。

在本申请的一种可选实施方式中,通过对第二语音进行编码,得到对应所述第二语音的音频特征,包括:

对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征。

在本申请的一种可选实施方式中,所述对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,包括:

对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征;

其中,所述多头注意力机制包含注意力约束项,所述注意力约束项使得所述多头注意力机制在对当前语音帧进行特征编码时,将注意力范围限定在当前语音帧之前和/或当前语音帧之后的设定语音帧范围内。

在本申请的一种可选实施方式中,所述对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,包括:

将所述第二语音输入预先训练的语音编码器,得到所述第二语音的语音帧级别的音频特征;

其中,所述语音编码器包括多头注意力神经网络层,在所述多头注意力神经网络层中包括掩膜矩阵,所述掩膜矩阵用于在所述多头注意力神经网络层对所述第二语音进行基于多头注意力机制的语音帧级别的特征编码处理,控制注意力范围。

在本申请的一种可选实施方式中,对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征,以及对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:

将所述第二语音输入预先训练的第二语音识别模型,得到对应所述第二语音的文本信息;

其中,所述第二语音识别模型包括语音编码器和语音解码器,所述语音编码器用于对所述第二语音进行基于注意力机制的语音帧级别的特征编码处理,得到所述第二语音的语音帧级别的音频特征;

所述语音解码器用于对所述音频特征进行解码,得到对应所述第二语音的文本信息。

在本申请的一种可选实施方式中,所述对所述音频特征进行解码,得到对应所述第二语音的文本信息,包括:

按照所述第二语音的各语音帧的生成顺序,依次对各语音帧的音频特征进行解码;

在依次对各语音帧的音频特征进行解码的过程中,如果解码出结束符号,则判断对所述第二语音的各语音帧的解码过程是否结束;

在对所述第二语音的各语音帧的解码过程没有结束的情况下,从所述第二语音中未解码的语音帧开始对所述第二语音再次解码,直至得到对应所述第二语音的文本信息。

本实施例提供的语音识别装置,与本申请上述实施例所提供的语音识别方法属于同一申请构思,可执行本申请上述任意实施例所提供的语音识别方法,具备执行所述语音识别方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的语音识别方法的具体处理内容,此处不再加以赘述。

示例性电子设备

本申请另一实施例还提出一种电子设备,请参考图8,图8为本申请另一实施例提供的电子设备结构示意图。

如图8所示,所述电子设备,包括:

存储器200和处理器210;

其中,所述存储器200与所述处理器210连接,用于存储程序;

所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的语音识别方法。

具体的,上述电子设备还可以包括:总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:

总线可包括一通路,在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器,还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请上述实施例所提供的任意一种语音识别方法的各个步骤。

示例性计算机程序产品和存储介质

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音识别方法中的步骤,具体可以实现以下步骤:

步骤S201,对第一语音进行音频特征提取处理,得到所述第一语音的音频特征;

步骤S202,根据所述第一语音的音频特征,确定所述第一语音中的有效语音片段,并对所述有效语音片段进行拼接,得到第二语音;

步骤S203,对所述第二语音进行语音识别,得到所述第二语音的文本信息。

对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术分类

06120115925038