一种语音识别方法、装置、存储介质及设备

文献发布时间：2024-04-18 20:01:23

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音识别方法、装置、存储介质及设备。

背景技术

随着人工智能技术的不断突破和各种智能终端设备的日益普及，人机交互在人们日常工作、生活中出现的频率越来越高。语音识别技术也得到了广泛使用，涵盖了人机交互的各个领域。领域语音识别的核心难题在于存在大量的领域专业实体词汇，如何对语音识别中的实体词汇进行准确检测和纠错，以实现领域语音识别保持较高的准确率显得尤为关键。

现有的领域语音识别中对于实体词汇进行检测和纠错的方法通常包含两种：一种是纯文本的专业实体词汇的检测与纠错，该方案是在使用语音识别模型获得识别结果后，使用BERT等自然语言处理模型检测识别结果句子中的实体名词，并修改实体名词中不合理的错误，但该方案实际上没有考虑到声学发音特征，其与语音识别是相割裂的，导致最终的识别结果虽然往往是能获得看似很合理的纠错结果，答有可能与真实的发音并不相符，出现矫枉过正的情况。而另一种则是直接对语音识别模型的纠错方案，该方案需要对语音识别模型进行更新学习，无法实现零样本学习，因此整个过程费时费力，成本较高，且识别准确率的提升幅度高度依赖于所构造的训练语料。但对于未构造的上下文说法，识别准确率通常提升幅度十分有限。另外，对语音识别模型进行更新学习存在一定增量学习的风险，即，难以保证更新后的语音识别模型对于已有领域词汇识别准确率不会产生下降的情况。由于现有的语音识别模型根据新的语料进行了更新，或多或少的会出现对之前训练数据的遗忘，而为了避免这个问题，往往需要采用配合之前的大量数据同步训练的方式，同样会造成费时费力。

发明内容

本申请实施例的主要目的在于提供一种语音识别方法、装置、存储介质及设备，能够在进行语音识别时，有效提高语音识别的效率和准确率。

本申请实施例提供了一种语音识别方法，包括：

获取待识别的目标语音，并生成所述目标语音的音频特征；

将所述目标语音的音频特征输入至预先构建的语音识别模型，识别得到所述目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息；

利用预先构建的领域专业实体词汇列表，对所述目标语音的音素识别结果进行解码，得到第二实体词汇；

确定所述第一实体词汇和第二实体词汇各自对应的相似实体词汇，并利用预设的语言模型对所述第一实体词汇、第二实体词汇以及所述第一实体词汇和第二实体词汇各自对应的相似实体词汇进行打分，得到打分结果；

根据所述打分结果，判断是否需要利用第二实体词汇或所述第一实体词汇和第二实体词汇各自对应的相似实体词汇对所述第一实体词汇进行纠错处理，若是，则根据得到的纠错结果，确定所述目标语音对应的最终识别结果。

一种可能的实现方式中，所述目标语音的音频特征为所述目标语音的幅度谱特征。

一种可能的实现方式中，所述语音识别模型包括编码层、音素识别层、解码层和文本实体词汇检测层；所述将所述目标语音的音频特征输入至预先构建的语音识别模型，识别得到所述目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息，包括：

将所述目标语音的音频特征输入所述语音识别模型的编码层进行编码处理，得到所述目标语音的高维语音表征向量；

将所述目标语音的高维语音表征向量输入所述语音识别模型的音素识别层进行识别处理，得到所述目标语音的音素识别结果；

将所述目标语音的高维语音表征向量输入所述语音识别模型的解码层进行解码处理，得到所述目标语音的初始文本识别结果；

将所述目标语音的初始文本识别结果输入所述语音识别模型的文本实体词汇检测层进行检测处理，得到所述初始文本识别结果中的第一实体词汇及其位置信息。

一种可能的实现方式中，所述识别得到所述目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息之后，所述方法还包括：

根据所述第一实体词汇的位置信息和所述第一实体词汇的标记符号，确定所述目标语音所属的目标领域分类。

一种可能的实现方式中，所述利用预先构建的领域专业实体词汇列表，对所述目标语音的音素识别结果进行解码，得到第二实体词汇，包括：

将所述目标领域分类的领域专业实体词汇与所述目标语音的音素识别结果进行对齐处理，得到所述音素识别结果中所述第一实体词汇对应的发音序列；

将预先构建的所述目标领域分类的领域专业实体词汇列表打包成解码资源；并利用所述解码资源，对所述第一实体词汇对应的发音序列进行解码，得到第二实体词汇。

一种可能的实现方式中，所述确定所述第一实体词汇和第二实体词汇各自对应的相似实体词汇，包括：

对所述第一实体词汇和第二实体词汇分别进行相似音的拓展，并根据拓展结果确定第一实体词汇和第二实体词汇各自对应的相似实体词汇。

一种可能的实现方式中，所述根据所述打分结果，判断是否需要利用第二实体词汇或所述第一实体词汇和第二实体词汇各自对应的相似实体词汇对所述第一实体词汇进行纠错处理，若是，则根据得到的纠错结果，确定所述目标语音对应的最终识别结果，包括：

从所述第一实体词汇的得分、所述第二实体词汇的得分、以及所述第一实体词汇和第二实体词汇各自对应的相似实体词汇的得分中选择出第一高得分和第二得分；

计算所述第一高得分和第二得分的差值，并判断所述差值是否高于预设阈值，若是，则利用所述第一高得分对应的实体词汇对所述第一实体词汇进行纠错处理，得到所述目标语音对应的最终识别结果。

本申请实施例还提供了一种语音识别装置，包括：

获取单元，用于获取待识别的目标语音，并生成所述目标语音的音频特征；

识别单元，用于将所述目标语音的音频特征输入至预先构建的语音识别模型，识别得到所述目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息；

解码单元，用于利用预先构建的领域专业实体词汇列表，对所述目标语音的音素识别结果进行解码，得到第二实体词汇；

打分单元，用于确定所述第一实体词汇和第二实体词汇各自对应的相似实体词汇，并利用预设的语言模型对所述第一实体词汇、第二实体词汇以及所述第一实体词汇和第二实体词汇各自对应的相似实体词汇进行打分，得到打分结果；

纠错单元，用于根据所述打分结果，判断是否需要利用第二实体词汇或所述第一实体词汇和第二实体词汇各自对应的相似实体词汇对所述第一实体词汇进行纠错处理，若是，则根据得到的纠错结果，确定所述目标语音对应的最终识别结果。

一种可能的实现方式中，所述目标语音的音频特征为所述目标语音的幅度谱特征。

一种可能的实现方式中，所述语音识别模型包括编码层、音素识别层、解码层和文本实体词汇检测层；所述识别单元包括：

第一输入子单元，用于将所述目标语音的音频特征输入所述语音识别模型的编码层进行编码处理，得到所述目标语音的高维语音表征向量；

第二输入子单元，用于将所述目标语音的高维语音表征向量输入所述语音识别模型的音素识别层进行识别处理，得到所述目标语音的音素识别结果；

第三输入子单元，用于将所述目标语音的高维语音表征向量输入所述语音识别模型的解码层进行解码处理，得到所述目标语音的初始文本识别结果；

第四输入子单元，用于将所述目标语音的初始文本识别结果输入所述语音识别模型的文本实体词汇检测层进行检测处理，得到所述初始文本识别结果中的第一实体词汇及其位置信息。

一种可能的实现方式中，所述装置还包括：

确定单元，用于根据所述第一实体词汇的位置信息和所述第一实体词汇的标记符号，确定所述目标语音所属的目标领域分类。

一种可能的实现方式中，所述解码单元包括：

对齐子单元，用于将所述目标领域分类的领域专业实体词汇与所述目标语音的音素识别结果进行对齐处理，得到所述音素识别结果中所述第一实体词汇对应的发音序列；

解码子单元，用于将预先构建的所述目标领域分类的领域专业实体词汇列表打包成解码资源；并利用所述解码资源，对所述第一实体词汇对应的发音序列进行解码，得到第二实体词汇。

一种可能的实现方式中，所述打分单元具体用于：

对所述第一实体词汇和第二实体词汇分别进行相似音的拓展，并根据拓展结果确定第一实体词汇和第二实体词汇各自对应的相似实体词汇。

一种可能的实现方式中，所述纠错单元包括：

选择子单元，用于从所述第一实体词汇的得分、所述第二实体词汇的得分、以及所述第一实体词汇和第二实体词汇各自对应的相似实体词汇的得分中选择出第一高得分和第二得分；

纠错子单元，用于计算所述第一高得分和第二得分的差值，并判断所述差值是否高于预设阈值，若是，则利用所述第一高得分对应的实体词汇对所述第一实体词汇进行纠错处理，得到所述目标语音对应的最终识别结果。

本申请实施例还提供了一种语音识别设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音识别方法中的任意一种实现方式。

本申请实施例提供的一种语音识别方法、装置、存储介质及设备，首先获取待识别的目标语音，并生成目标语音的音频特征，然后将目标语音的音频特征输入至预先构建的语音识别模型，识别得到目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息；接着，利用预先构建的领域专业实体词汇列表，对目标语音的音素识别结果进行解码，得到第二实体词汇；再确定第一实体词汇和第二实体词汇各自对应的相似实体词汇，并利用预设的语言模型对第一实体词汇、第二实体词汇以及第一实体词汇和第二实体词汇各自对应的相似实体词汇进行打分，得到打分结果；进而可以根据打分结果，判断是否需要利用第二实体词汇或第一实体词汇和第二实体词汇各自对应的相似实体词汇对第一实体词汇进行纠错处理，若是，则根据得到的纠错结果，确定目标语音对应的最终识别结果。

可见，本申请既实现了文本实体词汇检测的高效性，又添加了根据音素识别结果进行实体词汇纠错的先进性，同时还不需要对已有的语音识别模型进行更新迭代，从而有效提高了语音识别的效率和准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音识别方法的流程示意图；

图2为本申请实施例提供的语音识别模型的结构示意图；

图3为本申请实施例提供的实体词纠错过程的示意图；

图4为本申请实施例提供的一种语音识别装置的组成示意图。

具体实施方式

随着人工智能和深度学习的发展，语音识别技术得到广泛使用，涵盖了人机交互的各个领域。领域语音识别的核心难题在于存在大量的领域专业实体词汇。领域专业实体词汇尤其是较低频词通常来说在语音识别模型的训练数据中较少出现，并且领域专业词汇通常是开放的，不断的会有新的词出现，例如，在语音导航应用中，不断会有新的公司名称和地点名称出现。领域专业实体词汇的上述特点决定了在实际应用中，如果能对语音识别中的实体词汇进行检测和纠错，可以实现领域语音识别保持较高的准确率，并带来更好的用户体验。

传统的提高领域专业词汇识别率的方法是在语言模型中添加热词激励。该方法适用于传统的声学模型和语言模型独立建模的方案。然而当前语音识别系统的主流方法是端到端建模的方法，包括编解码器(Encoder-Decoder)、神经传感器(Neural Transducer)等。在端到端建模方法中，虽然语音识别解码过程通常会采用外置语言模型与端到端模型进行得分融合，但是语言模型的贡献通常较小，因此，单独对语言模型添加热词激励发挥的作用十分有限。为了满足新出现的领域专业实体词汇的识别率要求，现有方法通常是需要录制或者合成出包含领域专业实体词汇的语句对语音识别模型进行更新学习，费时费力。

目前，的领域语音识别中对于实体词汇进行检测和纠错的方法通常包含以下两种：

第一种是纯文本的专业实体词汇的检测与纠错。该方案在使用语音识别模型获得识别结果后，使用BERT等自然语言处理模型检测识别结果句子中的实体名词，并修改实体名词中不合理的错误。可见，该方案实际上没有考虑到声学发音特征，其与语音识别是相割裂的，导致最终的识别结果虽然往往是能获得看似很合理的纠错结果，答有可能与真实的发音并不相符，出现矫枉过正的情况。

第二种是是直接对语音识别模型的纠错，在面对领域专业词汇时，往往需要利用规则或者训练好的上下文扩展模型，根据当前领域实体词汇的文字构造大量不同的上下文文本。例如，一首新的歌曲A出现了之后，需要构造出“给我来一首A”，“我想听新歌A”等等。接着，利用训练好的语音合成模型合成上述文本对应的语音，并对语音做加噪、加混响、音色转换等数据增强操作。最后，利用上述语料，对当前语音识别模型进行更新迭代学习。得到的新模型通常可以提高新增领域词汇的识别准确率。但如果对语音识别模型进行更新学习，是无法实现零样本学习的，因此整个过程费时费力，成本较高，且识别准确率的提升幅度高度依赖于所构造的训练语料。对于未构造的上下文说法，识别准确率通常提升幅度十分有限。

另外，对语音识别模型进行更新学习存在一定增量学习的风险，即，难以保证更新后的语音识别模型对于已有领域词汇识别准确率不会产生下降的情况。由于现有的语音识别模型根据新的语料进行了更新，或多或少的会出现对之前训练数据的遗忘，而为了避免这个问题，往往需要采用配合之前的大量数据同步训练的方式，同样会造成费时费力。

为解决上述缺陷，本申请提供了一种语音识别方法，首先获取待识别的目标语音，并生成目标语音的音频特征，然后将目标语音的音频特征输入至预先构建的语音识别模型，识别得到目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息；接着，利用预先构建的领域专业实体词汇列表，对目标语音的音素识别结果进行解码，得到第二实体词汇；再确定第一实体词汇和第二实体词汇各自对应的相似实体词汇，并利用预设的语言模型对第一实体词汇、第二实体词汇以及第一实体词汇和第二实体词汇各自对应的相似实体词汇进行打分，得到打分结果；进而可以根据打分结果，判断是否需要利用第二实体词汇或第一实体词汇和第二实体词汇各自对应的相似实体词汇对第一实体词汇进行纠错处理，若是，则根据得到的纠错结果，确定目标语音对应的最终识别结果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种语音识别方法的流程示意图，该方法包括以下步骤：

S101：获取待识别的目标语音，并生成目标语音的音频特征。

在本实施例中，将需要进行识别的任一语音定义为目标语音。需要说明的是，本实施例不限制目标语音的语种类型，比如，目标语音可以是中文构成的语音或英文构成的语音等；同时，本实施例也不限制目标语音的长度，比如，目标语音可以是一句话或一段话等。

可以理解的是，目标语音可以根据实际需要，通过录音等方式获得，例如，人们日常生活中的电话通话语音、或者听见会议系统的录音等均可作为目标语音，并在获取到目标语音后，利用现有或未来出现的特征提取方法，提取出目标语音的音频特征，用以通过后续步骤S102，实现对目标语音的有效识别。

需要说明的是，本申请实施例并不限定目标语音的音频特征的提取方法，也不限定具体的提取过程，可根据实际情况选择适当的提取方法，以及进行相应的特征提取操作。

一种可选的实现方式是，目标语音的音频特征可以为目标语音的幅度谱特征，如对数滤波器组能量(Log Filter Bank Energy，LFBE)等。需要说明的是，本申请实施例并不限定目标语音的幅度谱特征的生成方法，也不限定具体的生成过程，可根据实际情况选择适当的生成方法，以及进行相应的幅度谱特征生成操作。

S102：将目标语音的音频特征输入至预先构建的语音识别模型，识别得到目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息。

在本实施例中，通过步骤S101生成目标语音的音频特征(如幅度谱特征)后，为了能够有效提高对于目标语音的识别效果，进一步的，可以将目标语音的音频特征输入至预先构建的语音识别模型，从而识别得到目标语音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息，用以执行后续步骤S103-S105。

其中，需要说明的是，本申请为了提高对于目标语音的识别效果，预先构建了语音识别模型，如图2所示，该模型包括了编码层、音素识别层、解码层和文本实体词汇检测层。这样，一种可选的实现方式是，本步骤S102的具体实现过程可以包括下述步骤S1021-S1024：

步骤S1021：将目标语音的音频特征输入语音识别模型的编码层进行编码处理，得到目标语音的高维语音表征向量。

在本实现方式中，通过步骤S101生成目标语音的音频特征(如幅度谱特征)后，进一步可以将目标语音的音频特征输入语音识别模型的编码层进行编码处理，得到目标语音的高维语音表征向量，用以执行后续步骤S1022和S1023。

需要说明的是，语音识别模型的编码层用于提取目标语音的高维语音表征向量。具体组成结构本申请不做限定，比如可以由卷积神经网络、长短期记忆网络(Long Short-Term Memory，LSTM)或者Transformer构成。编码层可以表示为h＝f(x)，其中，h＝[h

举例说明：如图2所示，将目标语音的音频特征[x

步骤S1022：将目标语音的高维语音表征向量输入语音识别模型的音素识别层进行识别处理，得到目标语音的音素识别结果。

在本实现方式中，通过步骤S1021得到目标语音的高维语音表征向量后，进一步可以将目标语音的高维语音表征向量输入语音识别模型的音素识别层进行识别处理，得到目标语音的音素识别结果。

需要说明的是，语音识别模型的音素识别层用于获得表示目标语音发音的音素序列，作为目标语音的音素识别结果，通常为编码层输出的每一帧triphone分类结果。具体组成结构本申请不做限定，比如可以由卷积神经网络、LSTM或者Transformer构成。音素识别层可以表示为c＝m(h)，其中，c＝[c

举例说明：如图2所示，将目标语音的高维语音表征向量为[h

步骤S1023：将目标语音的高维语音表征向量输入语音识别模型的解码层进行解码处理，得到目标语音的初始文本识别结果。

在本实现方式中，通过步骤S1021得到目标语音的高维语音表征向量后，进一步可以将目标语音的高维语音表征向量输入语音识别模型的解码层进行解码处理，得到目标语音的初始文本识别结果，用以执行后续步骤S1024。

需要说明的是，语音识别模型的解码层用于对目标语音的高维语音表征向量进行解码处理，以解码出目标语音对应的初步文本识别结果。解码层的具体组成结构本申请不做限定，比如可以采用带有注意力机制(Attention)和自回归的Transformer或者LSTM构成。解码层具体可以表示为z

举例说明：如图2所示，将目标语音的高维语音表征向量为[h

步骤S1024：将目标语音的初始文本识别结果输入语音识别模型的文本实体词汇检测层进行检测处理，得到初始文本识别结果中的第一实体词汇及其位置信息。

在本实现方式中，通过步骤S1023得到目标语音的初始文本识别结果后，进一步可以将目标语音的初始文本识别结果输入语音识别模型的文本实体词汇检测层进行实体词检测处理，以得到初始文本识别结果中的实体词汇(此处将其定义为第一实体词汇)及其位置信息。

需要说明的是，语音识别模型的文本实体词汇检测层用于从初始文本识别结果中检测出第一实体词汇及其位置信息。文本实体词汇检测层的具体组成结构本申请不做限定，比如可以采用带预训练的BERT模型主体结构，再增加实体分类层用于每个字符的实体结果判断。文本实体词汇检测层可以表示为e＝n(z)，其中，z表示解码层输出的初始文本识别结果，e＝[e

举例说明：如图2所示，将目标语音的初始文本识别结果“导航张黄镇”输入语音识别模型的文本实体词汇检测层进行检测处理，可以得到初始文本识别结果中的第一实体词汇及其位置信息和标记符号。

接下来，本实施例将对语音识别模型的需要过程进行介绍。需要说明的是，本申请是将语音识别模型的语音识别部分(包括编码层、音素识别层、解码层)和实体词检测部分(包括文本实体词汇检测层)分开训练，从而可以各自使用单模态语料以及预训练模型，不需要平行数据，能最大程度利用已有数据，不增加标注成本。

具体来讲，对于语音识别模型中语音识别部分(包括编码层、音素识别层、解码层)的训练，可以采用预先收集的标注文本和Triphone音素标签作为训练数据，并在训练过程中，采用交叉熵(Cross Entropy)准则进行训练，直至满足预设的条件，比如交叉熵损失约束函数的取值很小且基本不变，则停止语音识别模型中语音识别部分(包括编码层、音素识别层、解码层)参数的更新，完成这一部分模型的训练。

而对于实体词检测部分(即文本实体词汇检测层)的训练，使用的训练数据可以是纯文本。由于其和语音识别部分(包括编码层、音素识别层、解码层)是相对独立训练的部分，所以可以使用的训练语料不仅限于语音标注的文本，还可以使用没有语音的纯文本语料，只要有对应的实体词位置标注即可。为了保证实体词检测的效果，本申请可以使用文本预训练模型BERT初始化，同时对实体词做一些相似音扰动，比如“张璜镇”扰动成“张黄镇”等，增加实体词检测部分(即文本实体词汇检测层)的鲁棒性。具体训练过程与现有方式一致，在此不再赘述。

S103：利用预先构建的领域专业实体词汇列表，对目标语音的音素识别结果进行解码，得到第二实体词汇。

在本实施例中，通过步骤S102识别得到所述目标语音的音素识别结果后，为了提高对于目标语音的识别效果，进一步可以预先构建的领域专业实体词汇列表，对目标语音的音素识别结果进行二次解码，得到实体词汇(此处将其定义为第二实体词汇)，用以执行后续步骤S104，实现对目标语音的有效识别。

具体来讲，一种可选的实现方式是，在识别得到目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息之后，首先需要根据第一实体词汇的位置信息和第一实体词汇的标记符号，确定目标语音所属的目标领域分类。例如，对于第一实体词汇“张韬”来说，其对应的标记符号为“”，则通过标记符号中的“PER”可以确定目标语音所属的目标领域分类为人名领域，即“person”领域；或者，对于第一实体词汇“安徽省”来说，其对应的标记符号为“”，则通过标记符号中的“LOC”可以确定目标语音所属的目标领域分类为地名领域，即“local”领域。

然后，可以利用现有或未来出现的对齐方法，如利用改进的维特比算法，将目标领域分类的领域专业实体词汇与目标语音的音素识别结果进行对齐处理，得到音素识别结果中第一实体词汇对应的发音序列。例如：如图3所示，第一实体词汇“张黄镇”对齐的发音序列为“c

接着，可以将预先构建的目标领域分类的领域专业实体词汇列表打包成解码资源，如加权有限状态转移器(Weighted Finite State Transducer，WFST)资源；并利用该解码资源，对第一实体词汇对应的发音序列进行二次解码，得到第二实体词汇。相比于第一实体词汇，更倾向于解出这些目标领域的实体词汇而不是一个通用词汇。例如，对于地名“张璜镇”，用户说了一句语音“导航张璜镇”，解码层输出初始文本识别结果极易识别为“导航张黄镇”，因为“黄”字比“璜”字更常见；但在打包WFST资源时，使用的语料列表包含“张璜镇”，那么这个实体词汇解码成功的概率会更高。最终，通过这一步解码，可以获得若干个第二实体词汇作为候选项对第一实体词汇进行纠错。

S104：确定第一实体词汇和第二实体词汇各自对应的相似实体词汇，并利用预设的语言模型对第一实体词汇、第二实体词汇以及第一实体词汇和第二实体词汇各自对应的相似实体词汇进行打分，得到打分结果。

在本实施例中，通过步骤S102和S103分别得到第一实体词汇和第二实体词汇后，为了能够有效提高对于目标语音的识别效果，进一步可以对第一实体词汇和第二实体词汇分别进行相似音的拓展，并根据拓展结果确定第一实体词汇和第二实体词汇各自对应的相似实体词汇。比如对于实体词汇“张黄镇”，可以拓展成“张皇镇”、“章黄镇”等等一系列其对应的相似实体词汇。

然后，可以利用预设的语言模型对第一实体词汇、第二实体词汇以及第一实体词汇和第二实体词汇各自对应的相似实体词汇进行打分，得到打分结果，用以执行后续步骤S105。

其中，预设的语言模型可以是是使用专业领域实体词汇列表统计得到，但本申请对其进行了更精细的分类。比如人名语言模型仅仅使用人名统计得到，地名语言模型仅仅使用地名统计得到等。

S105：根据打分结果，判断是否需要利用第二实体词汇或第一实体词汇和第二实体词汇各自对应的相似实体词汇对第一实体词汇进行纠错处理，若是，则根据得到的纠错结果，确定目标语音对应的最终识别结果。

在本实施例中，通过步骤S104利用预设的语言模型对第一实体词汇、第二实体词汇以及第一实体词汇和第二实体词汇各自对应的相似实体词汇进行打分，得到打分结果后，为了能够有效提高对于目标语音的识别效果，进一步可以从第一实体词汇的得分、第二实体词汇的得分、以及第一实体词汇和第二实体词汇各自对应的相似实体词汇的得分中选择出第一高得分和第二得分。然后再计算第一高得分和第二得分的差值，并判断该差值是否高于预设阈值，若是，则利用第一高得分对应的实体词汇对第一实体词汇进行纠错处理，得到目标语音对应的最终识别结果。其中，预设阈值的具体取值可根据实际情况和经验值进行设定，本申请对此不进行限定，比如可以将其设定为-10等。

需要说明的是，不同类型的实体词，在获得第二实体词汇和相似实体词汇等众多候选实体词汇后，仅仅使用对应类别的语言模型进行打分，这样可以尽可能避免不同实体类型的干扰。打分之后设置语言模型显著性，其计算方式可以为：W＝Score

综上，本实施例提供的一种语音识别方法，首先获取待识别的目标语音，然后通过实时语音活动端点检测的方式，检测目标语音的开始帧和结束帧，并根据开始帧和结束帧，确定目标语音中的有效音频段；接着，提取目标语音中有效音频段的音频特征；并根据音频特征对目标语音进行解码，得到初步识别结果；进而可以根据初步识别结果，自适应动态调整预设的裁剪阈值；并根据调整后的裁剪阈值，对目标语音和初步识别结果进行裁剪，得到目标语音对应的最终识别结果。

可见，本申请是先通过实时语音活动端点检测的方式，更为准确的检测出目标语音的开始帧和结束帧，然后再根据音频初步识别结果内容，自适应动态调整预设的裁剪阈值，不仅可以将目标语音中的真正的有效音频段进行裁剪，还可以降低噪声裁剪的误触发，从而能够在进行语音识别时，有效提高识别结果的准确率，也提高了用户体验与识别效果。

第二实施例

本实施例将对一种语音识别装置进行介绍，相关内容请参见上述方法实施例。

参见图4，为本实施例提供的一种语音识别装置的组成示意图，该装置400包括：

获取单元401，用于获取待识别的目标语音，并生成所述目标语音的音频特征；

识别单元402，用于将所述目标语音的音频特征输入至预先构建的语音识别模型，识别得到所述目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息；

解码单元403，用于利用预先构建的领域专业实体词汇列表，对所述目标语音的音素识别结果进行解码，得到第二实体词汇；

打分单元404，用于确定所述第一实体词汇和第二实体词汇各自对应的相似实体词汇，并利用预设的语言模型对所述第一实体词汇、第二实体词汇以及所述第一实体词汇和第二实体词汇各自对应的相似实体词汇进行打分，得到打分结果；

纠错单元405，用于根据所述打分结果，判断是否需要利用第二实体词汇或所述第一实体词汇和第二实体词汇各自对应的相似实体词汇对所述第一实体词汇进行纠错处理，若是，则根据得到的纠错结果，确定所述目标语音对应的最终识别结果。

在本实施例的一种实现方式中，所述目标语音的音频特征为所述目标语音的幅度谱特征。

在本实施例的一种实现方式中，所述语音识别模型包括编码层、音素识别层、解码层和文本实体词汇检测层；所述识别单元402包括：

第一输入子单元，用于将所述目标语音的音频特征输入所述语音识别模型的编码层进行编码处理，得到所述目标语音的高维语音表征向量；

第二输入子单元，用于将所述目标语音的高维语音表征向量输入所述语音识别模型的音素识别层进行识别处理，得到所述目标语音的音素识别结果；

第三输入子单元，用于将所述目标语音的高维语音表征向量输入所述语音识别模型的解码层进行解码处理，得到所述目标语音的初始文本识别结果；

在本实施例的一种实现方式中，所述装置还包括：

确定单元，用于根据所述第一实体词汇的位置信息和所述第一实体词汇的标记符号，确定所述目标语音所属的目标领域分类。

在本实施例的一种实现方式中，所述解码单元403包括：

在本实施例的一种实现方式中，所述打分单元404具体用于：

对所述第一实体词汇和第二实体词汇分别进行相似音的拓展，并根据拓展结果确定第一实体词汇和第二实体词汇各自对应的相似实体词汇。

在本实施例的一种实现方式中，所述纠错单元405包括：

进一步地，本申请实施例还提供了一种语音识别设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音识别方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音识别方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音识别方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：科大讯飞股份有限公司;

上一篇：一种基于双迭代的Turbo均衡方法、装置、设备及存储介质
下一篇：一种换流站主设备价格计算方法、系统、设备及介质