掌桥专利:专业的专利平台
掌桥专利
首页

多系统融合的语音识别方法、装置、设备及可读存储介质

文献发布时间:2024-04-18 20:00:50


多系统融合的语音识别方法、装置、设备及可读存储介质

技术领域

本申请涉及语音处理技术领域,更具体的说,是涉及一种多系统融合的语音识别方法、装置、设备及可读存储介质。

背景技术

自动语音识别(Auto Speech Recognition,简称ASR)技术的目标是将人类说话的语音内容通过机器自动识别成对应的文字信息。然而ASR系统总会受到复杂的环境、口音、远讲、信道以及语义理解等诸多因素的影响,容易在识别结果中出现错误内容,造成语音识别效果并不能令人满意。另外,通常经过ASR系统获得的文字内容,也常被用于诸多下游任务中,如语音理解、机器翻译、人机对话等,而ASR系统产生的错误会导致下游任务处理中的错误积累,因此,获取可靠准确的语音识别结果就显得尤为重要。

近些年,随着各种神经网络不断应用到语音识别技术上,行业内出现了丰富多样的语音识别系统,例如DNN-HMM、BiLSTM、Transformer、Conformer、wav2vec2.0等。不同的语音识别系统采用不同的训练数据、识别框架甚至不同的解码方式,对于同一条语音来说,不同的语音识别系统的识别结果是有较大差异的,而这些差异结果通常具有良好的互补性,因此,充分,将多个语音识别系统的识别结果进行融合,能有效提高语音识别结果的准确性。

目前,多系统融合的语音识别方法有多种,比如识别错误票选降低技术(Recognizer Output Voting Error Reduction,ROVER)、基于混淆网络合并方法、基于最小贝叶斯风险的词图合并方法等,但是,这些多系统融合的语音识别方法得到的语音识别结果的准确性有待提升。

因此,如何提供一种多系统融合的语音识别方法,以提升语音识别结果的准确性,成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于上述问题,本申请提出了一种多系统融合的语音识别方法、装置、设备及可读存储介质。具体方案如下:

一种多系统融合的语音识别方法,所述方法包括:

获取目标语音在多个语音识别系统上分别对应的候选集,其中,所述目标语音在一个语音识别系统上对应的候选集中包括基于该语音识别系统获得的至少一个候选识别结果;

对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果;每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的;

对所述多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果;

基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果。

可选地,获取目标语音在一个语音识别系统上对应的候选集,包括:

获取该语音识别系统对所述目标语音进行识别后输出的多个候选识别结果;

对所述多个候选识别结果进行预处理,得到目标语音在该语音识别系统上对应的候选集。

可选地,所述对获取的多个候选集中各候选识别结果进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果,包括:

从所述多个候选集中各候选识别结果中,确定出参考候选识别结果,所述多个候选集中除所述参考候选识别结果之外的其他候选识别结果为非参考候选识别结果;

针对每个非参考候选识别结果,将所述非参考候选识别结果与所述参考候选识别结果进行词级别对齐处理,得到非参考候选识别结果的对齐结果;所述非参考候选识别结果的对齐结果是从多条候选对齐结果中择优选取的;

各个非参考候选识别结果的对齐结果与所述参考候选识别结果组合得到多个候选集中各候选识别结果的对齐结果。

可选地,所述将所述非参考候选识别结果与所述参考候选识别结果进行词级别对齐处理,得到非参考候选识别结果的对齐结果,包括:

计算所述非参考候选识别结果与所述参考候选识别结果的编辑距离矩阵和最小编辑距离;

基于所述非参考候选识别结果与所述参考候选识别结果的编辑距离矩阵和最小编辑距离,确定出所述非参考候选识别结果的各个候选对齐结果;

从所述各个候选对齐结果中确定出目标候选对齐结果,所述目标候选对齐结果为所述各个候选对齐结果中与所述参考候选识别结果的相似度最高的候选对齐结果;

确定所述目标候选对齐结果中各对齐位置的置信度,得到所述非参考候选识别结果的对齐结果。

可选地,所述从所述各个候选对齐结果中确定出目标候选对齐结果,包括:

计算各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分;

基于各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分,从所述各个候选对齐结果中确定出目标候选对齐结果。

可选地,所述确定所述目标候选对齐结果中各对齐位置的置信度,包括:

将所述目标候选对齐结果中非空对齐的对齐位置的词置信度,确定为所述目标候选对齐结果中非空对齐的对齐位置的初始置信度;

基于所述目标候选对齐结果中非空对齐的对齐位置的初始置信度,确定所述目标候选对齐结果中空对齐的对齐位置的初始置信度;

对所述目标候选对齐结果中各对齐位置的初始置信度进行归一化处理,得到所述目标候选对齐结果中各对齐位置的置信度。

可选地,所述多个候选集的对齐结果中各个对齐结果包含的对齐位置数量相同,所述多个候选集的对齐结果中包括多个对齐位置列,所述对所述多个候选集的对齐结果进行词级别融合处理,得到多个候选集的融合结果,包括:

针对所述多个候选集中各候选识别结果的对齐结果中的每个对齐位置列,对所述对齐位置列进行词级别融合处理,得到所述对齐位置列的融合结果;

将各个对齐位置列的融合结果进行组合,得到所述多个候选集的融合结果。

可选地,所述对所述对齐位置列进行词级别融合处理,得到所述对齐位置的融合结果,包括:

确定所述对齐位置列是否存在目标词,所述目标词的词数超过所述对齐位置列包含的全部词数的一半;

如果所述对齐位置列存在所述目标词,则确定所述目标词为所述对齐位置列的融合结果;

如果所述对齐位置列不存在所述目标词,且存在相同的词时,则计算所述对齐位置列包含的不同对齐位置的综合得分,确定综合得分最高的对齐位置的词为所述对齐位置列的融合结果;

如果所述对齐位置列不存在相同的词时,计算所述对齐位置列包含的不同词的字符级别相似度,确定字符级别相似度最高的两个词中置信度高的一个为所述对齐位置列的融合结果。

可选地,所述基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果,包括:

计算所述多个候选集的融合结果的句子得分;

从所述多个候选集中各候选识别结果选取句子得分最高的目标候选识别结果;

如果所述多个候选集的融合结果的句子得分与所述目标候选识别结果的句子得分满足预设条件,则确定所述多个候选集的融合结果为所述目标语音的识别结果;

如果所述多个候选集的融合结果的句子得分与所述目标候选识别结果的句子得分不满足预设条件,则确定所述目标候选识别结果为所述目标语音的识别结果。

一种多系统融合的语音识别装置,所述装置包括:

获取单元,用于获取目标语音在多个语音识别系统上分别对应的候选集,其中,所述目标语音在一个语音识别系统上对应的候选集中包括基于该语音识别系统获得的至少一个候选识别结果;

对齐处理单元,用于对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果;每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的;

融合处理单元,用于对所述多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果;

确定单元,用于基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果。

可选地,所述获取单元,具体用于:

获取该语音识别系统对所述目标语音进行识别后输出的多个候选识别结果;对所述多个候选识别结果进行预处理,得到目标语音在该语音识别系统上对应的候选集。

可选地,所述对齐处理单元,包括:

参考候选识别结果确定单元,用于从所述多个候选集中各候选识别结果中,确定出参考候选识别结果,所述多个候选集中除所述参考候选识别结果之外的其他候选识别结果为非参考候选识别结果;

词级别对齐处理单元,用于针对每个非参考候选识别结果,将所述非参考候选识别结果与所述参考候选识别结果进行词级别对齐处理,得到非参考候选识别结果的对齐结果;所述非参考候选识别结果的对齐结果是从多条候选对齐结果中择优选取的;

对齐结果组合单元,用于将各个非参考候选识别结果的对齐结果与所述参考候选识别结果组合得到多个候选集中各候选识别结果的对齐结果。

可选地,所述词级别对齐处理单元,包括:

计算单元,用于计算所述非参考候选识别结果与所述参考候选识别结果的编辑距离矩阵和最小编辑距离;

候选对齐结果确定单元,用于基于所述非参考候选识别结果与所述参考候选识别结果的编辑距离矩阵和最小编辑距离,确定出所述非参考候选识别结果的各个候选对齐结果;

目标候选对齐结果确定单元,用于从所述各个候选对齐结果中确定出目标候选对齐结果,所述目标候选对齐结果为所述各个候选对齐结果中与所述参考候选识别结果的相似度最高的候选对齐结果;

置信度确定单元,用于确定所述目标候选对齐结果中各对齐位置的置信度,得到所述非参考候选识别结果的对齐结果。

可选地,所述目标候选对齐结果确定单元,包括:

相似度得分计算单元,用于计算各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分;

目标候选对齐结果确定子单元,用于基于各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分,从所述各个候选对齐结果中确定出目标候选对齐结果。

可选地,所述置信度确定单元,具体用于:

将所述目标候选对齐结果中非空对齐的对齐位置的词置信度,确定为所述目标候选对齐结果中非空对齐的对齐位置的初始置信度;

基于所述目标候选对齐结果中非空对齐的对齐位置的初始置信度,确定所述目标候选对齐结果中空对齐的对齐位置的初始置信度;

对所述目标候选对齐结果中各对齐位置的初始置信度进行归一化处理,得到所述目标候选对齐结果中各对齐位置的置信度。

可选地,所述多个候选集的对齐结果中各个对齐结果包含的对齐位置数量相同,所述多个候选集的对齐结果中包括多个对齐位置列,所述融合处理单元,包括:

对齐位置列融合处理单元,用于针对所述多个候选集中各候选识别结果的对齐结果中的每个对齐位置列,对所述对齐位置列进行词级别融合处理,得到所述对齐位置列的融合结果;

对齐位置列融合结果组合单元,用于将各个对齐位置列的融合结果进行组合,得到所述多个候选集的融合结果。

可选地,所述对齐位置列融合处理单元,具体用于:

确定所述对齐位置列是否存在目标词,所述目标词的词数超过所述对齐位置列包含的全部词数的一半;

如果所述对齐位置列存在所述目标词,则确定所述目标词为所述对齐位置列的融合结果;

如果所述对齐位置列不存在所述目标词,且存在相同的词时,则计算所述对齐位置列包含的不同对齐位置的综合得分,确定综合得分最高的对齐位置的词为所述对齐位置列的融合结果;

如果所述对齐位置列不存在相同的词时,计算所述对齐位置列包含的不同词的字符级别相似度,确定字符级别相似度最高的两个词中置信度高的一个为所述对齐位置列的融合结果。

可选地,所述确定单元,具体用于:

计算所述多个候选集的融合结果的句子得分;

从所述多个候选集中各候选识别结果选取句子得分最高的目标候选识别结果;

如果所述多个候选集的融合结果的句子得分与所述目标候选识别结果的句子得分满足预设条件,则确定所述多个候选集的融合结果为所述目标语音的识别结果;

如果所述多个候选集的融合结果的句子得分与所述目标候选识别结果的句子得分不满足预设条件,则确定所述目标候选识别结果为所述目标语音的识别结果。

一种多系统融合的语音识别设备,包括存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现如上所述的多系统融合的语音识别方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的多系统融合的语音识别方法的各个步骤。

借由上述技术方案,本申请公开了一种多系统融合的语音识别方法、装置、设备及可读存储介质。本方案中,首先获取目标语音在多个语音识别系统上分别对应的候选集,然后,对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果;对多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果;最后基于多个候选集的融合结果与多个候选集,确定目标语音的识别结果。在本方案中,每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的,对齐准确性更高,对多个候选集中各候选识别结果的对齐结果进行词级别融合处理,也更有利于得到更准确的融合结果,从而能够得到准确度更高的语音识别结果。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本申请实施例公开的一种多系统融合的语音识别方法的流程示意图;

图2为本申请实施例公开的一种词级别对齐处理的示例示意图;

图3为本申请实施例公开的一种朴素对齐算法的一个示例;

图4为本申请实施例公开的两种对齐算法的中文示例对比图;

图5为本申请实施例公开的两种对齐算法的英文示例对比图;

图6为本申请实施例公开的两个词的字符级别相似度计算示意图;

图7为本申请实施例公开的一种多系统融合的语音识别装置结构示意图;

图8为本申请实施例公开的一种多系统融合的语音识别设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为了更好地理解本申请的技术方案,本案发明人首先对现有的多系统融合的语音识别方法进行简单介绍。

目前,多系统融合的语音识别方法有多种,比如识别错误票选降低技术(Recognizer Output Voting Error Reduction,ROVER)、基于混淆网络合并方法、基于最小贝叶斯风险的词图合并方法等。其中,

识别错误票选降低技术作为常用的多系统融合的语音识别方法,其实现过程包括对齐和投票两个阶段。对齐阶段:1)为不同语音识别系统的输出建立一个线性的词转移网络WTN;2)将WTN按照词错误率从小到大排序,并选择最小词错误率对应的WTN作为基准WTN;3)运用基准WTN不断地将剩余的WTN进行对齐与合并,直到所有的WTN都合并入基准WTN为止。投票阶段:完成所有WTN的对齐与合并后,将使用一种投票方案,比如词频、置信度,对WTN的每个分支点进行评估,然后挑选最高分的词(拥有最高的票数)作为新的解码结果。但是,该方法是需要进行复杂繁琐的对齐、合并、投票、重新解码、次序连接等操作,这些操作需要耗费较长的时间,因此,语音识别结果的确定效率较低,如果融合系统数量增多,将进一步降低语音识别结果的确定效率,这对于响应速度要求较高的应用场景是非常不利的。另外,该方法只能应用于不同语音识别系统输出的1-Best候选结果,即,最终的语音识别结果从各语音识别系统输出的1-Best候选结果中确定,然而,在某些时候,更优秀的结果有时也会出现在N-Best候选结果中除1-Best之外的其他结果中,这种情况下,该方法无法获得准确度较高的识别结果。

基于混淆网络合并的系统融合方法主要通过对不同ASR系统的中间识别结果在混淆网络上进行对齐与合并,但是,大多数ASR系统难以方便快速地给出混淆网络,而且混淆网络容易产生对齐失真,使系统融合后的识别效果变差。

基于最小贝叶斯风险的词图合并方法旨在寻找一个在不同系统融合后的结果中期望词错误率最小的词序列,该方法能获得较为不错的性能改善。但是大多数ASR系统难以方便快速地给出词图形式,而且该方法的结果稳健性比ROVER差,它有时也会使效果变差。

另外,现有的多系统融合的语音识别方法的对齐算法仅从词层面考虑单一词链路,容易产生词对齐不准确问题,会造成融合后的结果变差。

因此,现有的多系统融合的语音识别方法得到的语音识别结果的准确性有待提升。

鉴于现有的多系统融合的语音识别方法存在的问题,本案发明人进行了深入研究,认为正确结果有时会出现在ASR系统的多候选NBest结果中,并且ASR系统可以很方便输出NBest结果信息,因此充分利用多个语音识别系统的NBest结果信息,能够快速有效地提高语音识别的准确率。另外,多个语音识别系统的NBest结果往往是相似的,即它们的大部分文字是相同的,只在几个有限的位置不同,不同位置是比较容易出错的位置,通常会在同、近及谐音字词的情况下出错。为了对这些相似结果进行更准确的对齐,通过回溯多条词链路路径,并从中挑选最佳对齐结果,有利于获取更准确的融合结果,基于此,本案发明人最终提出了一种多系统融合的语音识别方法,该多系统融合的语音识别方法能够得到准确度更高的语音识别结果。

接下来,通过下述实施例对本申请提供的多系统融合的语音识别方法进行介绍。

参照图1,图1为本申请实施例公开的一种多系统融合的语音识别方法的流程示意图,该方法可以包括:

步骤S101:获取目标语音在多个语音识别系统上分别对应的候选集,其中,所述目标语音在一个语音识别系统上对应的候选集中包括基于该语音识别系统获得的至少一个候选识别结果;

经由步骤S101可获得多个候选集,示例性的,语音识别系统为3个,则经由步骤S101可获得3个候选集。

步骤S102:对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果。

需要说明的是,在本申请中,每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的,各个候选识别结果的对齐结果中包含的对齐位置数量是相同的,各候选识别结果的对齐结果中包括多个对齐位置列,每个对齐位置列包括各个候选识别结果的对齐结果中的相应对齐位置。

步骤S103:对所述多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果。

在本申请中,对所述多个候选集中各候选识别结果的对齐结果进行词级别融合处理是以对齐位置列为单位进行词级别融合处理的,融合过程可以利用相似度度量机制得到更优的融合结果,具体将通过后面的实施例详细说明。

步骤S104:基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果。

在本申请中,可以结合融合前后句子得分判定条件,基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果,具体将通过后面的实施例详细说明。

本实施例公开了一种多系统融合的语音识别方法。本方法中,首先获取目标语音在多个语音识别系统上分别对应的候选集,然后,对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果;对多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果;最后基于多个候选集的融合结果与多个候选集,确定目标语音的识别结果。在本方法中,每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的,对齐准确性更高,对多个候选集中各候选识别结果的对齐结果进行词级别融合处理,也更有利于得到更准确的融合结果,从而能够得到准确度更高的语音识别结果。

在本申请的另一个实施例中,对步骤S101获取目标语音在多个语音识别系统上分别对应的候选集的实现方式进行了说明,具体如下:

由于获取各个候选集的实现方式相同,本实施例以获取一个候选集R

获取目标语音在第i个语音识别系统S

第一种实现方式:获取语音识别系统S

其中,语音识别系统S

假设语音识别系统S

第二种实现方式:获取语音识别系统S

在本申请中,对所述多个候选识别结果进行预处理,得到目标语音在该语音识别系统S

考虑到语音识别系统S

首先,获取语音识别系统S

示例性的,语音识别系统S

可见,若通过上述第一种对所述多个候选识别结果进行预处理,得到目标语音在该语音识别系统S

上述第一种对所述多个候选识别结果进行预处理,得到目标语音在该语音识别系统S

确定语音识别系统S

其中,一候选识别结果r

需要说明的是,若一候选识别结果的单位时间解码词数大于预设词数阈值e

考虑到不同的语音识别系统对目标语音进行识别后输出的多个候选识别结果的数量不同,比如,语音识别系统对目标语音进行识别后输出的多个候选识别结果为所有候选识别结果中的N-best,不同语音识别系统的N不同,并且N的取值一般比较大,为了计算方便,也为了提高识别结果的确定效率,在本申请中还可以预先设置目标语音在一个语音识别系统S

首先,获取该语音识别系统S

需要说明的是,可以同步采用上述两种对所述多个候选识别结果进行预处理,得到目标语音在该语音识别系统S

在本申请的另一个实施例中,对步骤S102对获取的多个候选集中各候选识别结果进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果的具体实现方式进行了说明,该方式可以包括如下步骤:

步骤S201:从所述多个候选集中各候选识别结果中,确定出参考候选识别结果,所述多个候选集中除所述参考候选识别结果之外的其他候选识别结果为非参考候选识别结果。

在本申请中,在获取所述多个候选集的候选识别结果之后,可以获取各候选识别结果的句子得分,选取句子得分最高的一个候选识别结果作为参考候选识别结果,作为一种可实施方式,一个候选识别结果的句子得分可以基于该候选识别结果的声学得分和语言得分确定。

步骤S202:针对每个非参考候选识别结果,将所述非参考候选识别结果与所述参考候选识别结果进行词级别对齐处理,得到非参考候选识别结果的对齐结果。

在本申请中,所述非参考候选识别结果的对齐结果是从非参考候选识别结果的多条候选对齐结果中择优选取的;所述非参考候选识别结果的对齐结果中包含的对齐位置数量与所述参考候选识别结果中包含的对齐位置数量相同。

作为一种可实施方式,所述将所述非参考候选识别结果与所述参考候选识别结果进行词级别对齐处理,得到非参考候选识别结果的对齐结果,包括:

S2021:计算所述非参考候选识别结果与所述参考候选识别结果的编辑距离矩阵和最小编辑距离。

编辑距离表示的是一个单词w1变为w2所需的最少单字符编辑操作(包含插入Ins、删除Del、替换Sub、不变Mth四种操作)的次数,是一种单词或句子相似度的度量方法,通常叫的编辑距离也是指(最小)编辑距离。最小编辑距离为编辑距离矩阵最右下角处的数值。

S2022:基于所述非参考候选识别结果与所述参考候选识别结果的编辑距离矩阵和最小编辑距离,确定出所述非参考候选识别结果的各个候选对齐结果。

在本申请中,所述非参考候选识别结果的每个候选对齐结果中包含的对齐位置数量与所述参考候选识别结果中包含的对齐位置数量相同;作为一种可实施方式,可以基于所述非参考候选识别结果与所述参考候选识别结果的编辑距离矩阵和最小编辑距离,通过路径回溯算法,确定出所述非参考候选识别结果对应的全部编辑路径序列作为所述非参考候选识别结果的各个候选对齐结果。

S2023:从所述各个候选对齐结果中确定出目标候选对齐结果,所述目标候选对齐结果为所述各个候选对齐结果中与所述参考候选识别结果的相似度最高的候选对齐结果。

作为一种可实施方式,所述从所述各个候选对齐结果中确定出目标候选对齐结果,包括:计算各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分;基于各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分,从所述各个候选对齐结果中确定出目标候选对齐结果。

其中,基于各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分,从所述各个候选对齐结果中确定出目标候选对齐结果的一种实现方式可以为:

将各个候选对齐结果中词匹配相似度得分最高或发音相似度得分最高的一个候选对齐结果作为目标候选对齐结果。

考虑到词匹配相似度得分最高或发音相似度得分最高的有可能包含两个或两个以上的编辑路径序列,为了提升对齐准确性,基于各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分,从所述各个候选对齐结果中确定出目标候选对齐结果的另一种实现方式可以为:

如果存在一个词匹配相似度得分最高的候选对齐结果,则以该选择词匹配相似度得分最高的候选对齐结果为目标候选对齐结果。如果存在两个或两个以上的词匹配相似度得分最高的候选对齐结果,可以计算两个或两个以上的词匹配相似度得分最高的候选对齐结果的发音相似度得分,以两个或两个以上的词匹配相似度得分最高的候选对齐结果中,发音相似度得分最高的一个为目标候选对齐结果。

发音相似度得分计算方法具体可以为:通过发音词典,获取词对应的发音序列,计算发音序列最小编辑距离,并取负值,获得发音相似度得分。

为便于理解,参照图2,图2为本申请实施例公开的一种词级别对齐处理的示例示意图,该示例中,待对齐的候选识别结果为“A A B C D”和“E A F B D”,其编辑距离矩阵如图2中左边方框所示,最小编辑距离为3,通过路径回溯算法得到三条编辑路径序列如图2中p

需要说明的是,现有的多系统融合的语音识别方法的对齐算法采用的是朴素对齐算法,朴素对齐算法仅从词层面考虑单一词链路,参照图3,图3为本申请实施例公开的一种朴素对齐算法的一个示例,由图3中可以看出“please”和“me”两个词并没有做到准确对齐。而本申请中对齐算法从词层面考虑多条词链路,从多条词链路中选取最终对齐结果,相对于朴素对齐算法,对齐准确性更高。

为了更直观的看出本申请的对齐算法与朴素对齐算法的效果差异,参照图4和图5,图4为本申请实施例公开的两种对齐算法的中文示例对比图,图5为本申请实施例公开的两种对齐算法的英文示例对比图,从图中可以看出,本申请的对齐算法对齐效果更为准确,明显优于朴素对齐算法。

S2024:确定所述目标候选对齐结果中各对齐位置的置信度,得到所述非参考候选识别结果的对齐结果。

作为一种可实施方式,所述确定所述目标候选对齐结果中各对齐位置的置信度,包括:将所述目标候选对齐结果中非空对齐的对齐位置的词置信度,确定为所述目标候选对齐结果中非空对齐的对齐位置的初始置信度;基于所述目标候选对齐结果中非空对齐的对齐位置的初始置信度,确定所述目标候选对齐结果中空对齐的对齐位置的初始置信度;对所述目标候选对齐结果中各对齐位置的初始置信度进行归一化处理,得到所述目标候选对齐结果中各对齐位置的置信度。

考虑到对齐过程中有插入和删除操作,这种情况下的对齐位置为空对齐的对齐位置,其他情况下的对齐位置为非空对齐的位置。针对目标候选对齐结果中空对齐的对齐位置,可以计算目标候选对齐结果中非空对齐的对齐位置的初始置信度的和,然后除以非空对齐的对齐位置的个数,获取目标候选对齐结果的平均置信度,目标候选对齐结果中空对齐的对齐位置是最开头位置,则目标候选对齐结果中空对齐的对齐位置的初始置信度为该平均置信度,如果目标候选对齐结果中空对齐的对齐位置不是最开头位置,则目标候选对齐结果中空对齐的对齐位置的初始置信度为与该对齐位置相邻的前一非空对齐位置的置信度与所述平均置信度之和的二分之一。

考虑到不同的ASR系统的置信度是采用不同的形式给出的,为了统一可以对所述目标候选对齐结果中各对齐位置的初始置信度进行归一化处理,归一化处理方式可以有多种,示例性的,有些ASR系统的置信度是以对数的形式给出的,用指数函数做转换。有些ASR系统的置信度可能并不在0-1之间,则可利用均值方差归一化、线性归一化及Softmax函数,将置信度均规整到0-1之间。

步骤S203:各个非参考候选识别结果的对齐结果与所述参考候选识别结果组合得到多个候选集中各候选识别结果的对齐结果。

为便于理解,假设多个候选集中一共包含n个候选识别结果,其中一个为参考候选识别结果,采用上述方式可以得到n-1个非参考候选识别结果的对齐结果,参考候选识别结果与n-1个非参考候选识别结果的对齐结果组合即可得到多个候选集中各候选识别结果的对齐结果,多个候选集中各候选识别结果的对齐结果一共包含n个结果。所述多个候选集的对齐结果中各个对齐结果包含的对齐位置数量相同,所述多个候选集的对齐结果中包括多个对齐位置列,每个对齐位置列包括n个对齐位置。

在本申请的另一个实施例中,对步骤S103对所述多个候选集的对齐结果进行词级别融合处理,得到多个候选集的融合结果的具体实现方式进行说明,该方式可以包括如下步骤:

步骤S301:针对所述多个候选集中各候选识别结果的对齐结果中的每个对齐位置列,对所述对齐位置列进行词级别融合处理,得到所述对齐位置列的融合结果。

作为一种可实施方式,确定所述对齐位置列是否存在目标词,所述目标词的词数超过所述对齐位置列包含的全部词数的一半;如果所述对齐位置列存在所述目标词,则确定所述目标词为所述对齐位置列的融合结果;如果所述对齐位置列不存在所述目标词,且存在相同的词时,则计算所述对齐位置列包含的不同对齐位置的综合得分,确定综合得分最高的对齐位置的词为所述对齐位置列的融合结果;如果所述对齐位置列不存在相同的词时,计算所述对齐位置列包含的不同词的字符级别相似度,确定字符级别相似度最高的两个词中置信度高的一个为所述对齐位置列的融合结果。

需要说明的是,对齐位置的综合得分可以基于对齐位置的词的词频和对齐位置的置信度确定。作为一种可实现方式,可以通过下列公式计算对齐位置i总得分score(w,i),取得分最高的对齐位置的词作为该对齐位置的融合结果。

其中,α是词的频率和置信度进行平滑的参数,β

所述对齐位置列包含的不同词中任意两个词w

(1)首先,计算组成w

(2)然后,在字符匹配窗口mw范围内,求取w

其中,m表示w

(3)最后,为了更加突出前缀相同的重要性,即如果两个字符串在前几个字符都相同的情况下,它们会获得更高的相似性。则在相似度sim

sim

其中,γ表示两个词共同前缀字符的个数,一般最大不超过4个。p是缩放因子,表示共同前缀对于相似度的贡献大小,p越大,表示共同前缀权重越大,一般最大不超过0.25。

为便于理解,参照图6,图6为本申请实施例公开的两个词的字符级别相似度计算示意图,图6示出了“email”和“mailbag”两个词的字符级别相似度计算过程,图6中“0”表示字符不匹配,“1”表示字符相等且匹配,“2”表示字符相等但不匹配(超出窗口mw)。则“email”和“mailbag”两个词的匹配窗口mw=2,匹配的字符数m=4,不同顺序匹配字符个数为0,即t=0。“email”和“mailbag”两个词的字符级别相似度sim

字符级别词相似度sim

步骤S302:将各个对齐位置列的融合结果进行组合,得到所述多个候选集的融合结果。

采用上述步骤S301,可以得到各个对齐位置列的融合结果,将各个对齐位置列的融合结果进行组合,即可得到所述多个候选集的融合结果。需要说明的是,各个对齐位置列的融合结果中如果包含空对齐符,则将该空对齐符删除,剩下的融合结果组合得到所述多个候选集的融合结果。

在本申请的另一个实施例中,对步骤S104基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果的具体实现方式进行了说明,

作为一种可实施方式,所述基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果,包括:计算所述多个候选集的融合结果的句子得分;从所述多个候选集中各候选识别结果选取句子得分最高的目标候选识别结果;如果所述多个候选集的融合结果的句子得分与所述目标候选识别结果的句子得分满足预设条件,则确定所述多个候选集的融合结果为所述目标语音的识别结果;如果所述多个候选集的融合结果的句子得分与所述目标候选识别结果的句子得分不满足预设条件,则确定所述目标候选识别结果为所述目标语音的识别结果。

在本申请中,可以将各对齐位置的融合结果的置信度的乘积作为所述多个候选集的融合结果的句子得分。预设条件可以基于场景需求确定,本申请不进行任何限定。

作为一种实现方式,假设多个候选集的融合结果的句子得分为score

在本实施例中,结合融合前后句子得分判定条件,可以获得更为稳健且准确率更高的系统融合识别结果,解决单一语音识别系统无法获得好的识别性能问题。

下面对本申请实施例公开的多系统融合的语音识别装置进行描述,下文描述的多系统融合的语音识别装置与上文描述的多系统融合的语音识别方法可相互对应参照。

参照图7,图7为本申请实施例公开的一种多系统融合的语音识别装置结构示意图。如图7所示,该多系统融合的语音识别装置可以包括:

获取单元11,用于获取目标语音在多个语音识别系统上分别对应的候选集,其中,所述目标语音在一个语音识别系统上对应的候选集中包括基于该语音识别系统获得的至少一个候选识别结果;

对齐处理单元12,用于对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果;每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的;

融合处理单元13,用于对所述多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果;

确定单元14,用于基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果。

可选地,所述获取单元,具体用于:

获取该语音识别系统对所述目标语音进行识别后输出的多个候选识别结果;对所述多个候选识别结果进行预处理,得到目标语音在该语音识别系统上对应的候选集。

可选地,所述对齐处理单元,包括:

参考候选识别结果确定单元,用于从所述多个候选集中各候选识别结果中,确定出参考候选识别结果,所述多个候选集中除所述参考候选识别结果之外的其他候选识别结果为非参考候选识别结果;

词级别对齐处理单元,用于针对每个非参考候选识别结果,将所述非参考候选识别结果与所述参考候选识别结果进行词级别对齐处理,得到非参考候选识别结果的对齐结果;所述非参考候选识别结果的对齐结果是从多条候选对齐结果中择优选取的;

对齐结果组合单元,用于将各个非参考候选识别结果的对齐结果与所述参考候选识别结果组合得到多个候选集中各候选识别结果的对齐结果。

可选地,所述词级别对齐处理单元,包括:

计算单元,用于计算所述非参考候选识别结果与所述参考候选识别结果的编辑距离矩阵和最小编辑距离;

候选对齐结果确定单元,用于基于所述非参考候选识别结果与所述参考候选识别结果的编辑距离矩阵和最小编辑距离,确定出所述非参考候选识别结果的各个候选对齐结果;

目标候选对齐结果确定单元,用于从所述各个候选对齐结果中确定出目标候选对齐结果,所述目标候选对齐结果为所述各个候选对齐结果中与所述参考候选识别结果的相似度最高的候选对齐结果;

置信度确定单元,用于确定所述目标候选对齐结果中各对齐位置的置信度,得到所述非参考候选识别结果的对齐结果。

可选地,所述目标候选对齐结果确定单元,包括:

相似度得分计算单元,用于计算各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分;

目标候选对齐结果确定子单元,用于基于各所述候选对齐结果与所述参考候选识别结果的词匹配相似度得分,和/或,发音相似度得分,从所述各个候选对齐结果中确定出目标候选对齐结果。

可选地,所述置信度确定单元,具体用于:

将所述目标候选对齐结果中非空对齐的对齐位置的词置信度,确定为所述目标候选对齐结果中非空对齐的对齐位置的初始置信度;

基于所述目标候选对齐结果中非空对齐的对齐位置的初始置信度,确定所述目标候选对齐结果中空对齐的对齐位置的初始置信度;

对所述目标候选对齐结果中各对齐位置的初始置信度进行归一化处理,得到所述目标候选对齐结果中各对齐位置的置信度。

可选地,所述多个候选集的对齐结果中各个对齐结果包含的对齐位置数量相同,所述多个候选集的对齐结果中包括多个对齐位置列,所述融合处理单元,包括:

对齐位置列融合处理单元,用于针对所述多个候选集中各候选识别结果的对齐结果中的每个对齐位置列,对所述对齐位置列进行词级别融合处理,得到所述对齐位置列的融合结果;

对齐位置列融合结果组合单元,用于将各个对齐位置列的融合结果进行组合,得到所述多个候选集的融合结果。

可选地,所述对齐位置列融合处理单元,具体用于:

确定所述对齐位置列是否存在目标词,所述目标词的词数超过所述对齐位置列包含的全部词数的一半;

如果所述对齐位置列存在所述目标词,则确定所述目标词为所述对齐位置列的融合结果;

如果所述对齐位置列不存在所述目标词,且存在相同的词时,则计算所述对齐位置列包含的不同对齐位置的综合得分,确定综合得分最高的对齐位置的词为所述对齐位置列的融合结果;

如果所述对齐位置列不存在相同的词时,计算所述对齐位置列包含的不同词的字符级别相似度,确定字符级别相似度最高的两个词中置信度高的一个为所述对齐位置列的融合结果。

可选地,所述确定单元,具体用于:

计算所述多个候选集的融合结果的句子得分;

从所述多个候选集中各候选识别结果选取句子得分最高的目标候选识别结果;

如果所述多个候选集的融合结果的句子得分与所述目标候选识别结果的句子得分满足预设条件,则确定所述多个候选集的融合结果为所述目标语音的识别结果;

如果所述多个候选集的融合结果的句子得分与所述目标候选识别结果的句子得分不满足预设条件,则确定所述目标候选识别结果为所述目标语音的识别结果。

参照图8,图8为本申请实施例提供的一种多系统融合的语音识别设备的硬件结构框图,参照图8,多系统融合的语音识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取目标语音在多个语音识别系统上分别对应的候选集,其中,所述目标语音在一个语音识别系统上对应的候选集中包括基于该语音识别系统获得的至少一个候选识别结果;

对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果;每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的;

对所述多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果;

基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:

获取目标语音在多个语音识别系统上分别对应的候选集,其中,所述目标语音在一个语音识别系统上对应的候选集中包括基于该语音识别系统获得的至少一个候选识别结果;

对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果;每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的;

对所述多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果;

基于所述多个候选集的融合结果与所述多个候选集,确定目标语音的识别结果。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 光通信系统、通信网元与光通信校正方法
  • 光通信系统、通信网元与光通信校正方法
技术分类

06120116545594