掌桥专利:专业的专利平台
掌桥专利
首页

语音识别方法及其装置

文献发布时间:2023-06-19 10:11:51


语音识别方法及其装置

技术领域

本发明涉及语音识别领域,尤其涉及一种语音识别方法及其装置。

背景技术

语音识别的解码与应用场景相关性很大,用户总是期望语音识别模型能够向用户的场景语料进行一定指向性的解码识别。目前,基于用户热词进行语音识别,在上传热词时,要通过人工定义热词并设置其权重值。若这些权重值的设置相差较大,则会导致语音识别结果严重偏离正常语境,且热词上传的数量也有限制,用户对热词进行选择时存在一定的困难。

发明内容

本申请实施例提供一种语音识别方法,用以解决现有技术中语音识别结果偏离正常语境的问题。具体包括:

获取输入的语音数据;

通过解码模型解码所述语音数据,生成语音识别中间结果;

基于核心词数据库中核心词拼音与声调序列,对所述语音识别中间结果进行匹配;

根据所述拼音与声调序列与所述语音识别中的中间结果的匹配状态,输出匹配结果。

进一步的,在本申请提供的一种优选实施方式中,所述解码模型由声学模型、字典和语言模型共同构成。

进一步的,在本申请提供的一种优选实施方式中,所述语言模型为基于文本预处理语料,对前景语言模型与背景语言模型进行插值拟合生成的新的语言模型;

其中,前景语言模型为用户语言模型,权重值预设为0.5-0.8,该前景语言模型包含用户指定场景语料;背景语言模型为原有语音识别引擎的语言模型,该背景语言模型包含各场景语料。

进一步的,在本申请提供的一种优选实施方式中,对新生成的语言模型要进行平滑和剪枝操作;

其中,剪枝操作基于前景语言模型,对背景语言模型进行无关场景语料删除,且应保留前景语言的分支;平滑操作基于新生成的语言模型,重新分布该语言模型中所有场景语料的条件概率,且平滑操作后所有场景语料条件概率和为1。

进一步的,在本申请提供的一种优选实施方式中,所述核心词数据库基于文本预处理语料进行分词及统计词频,并根据词频生成对应分词权重而建立;

其中,对应分词权重通过每个词的词频除以最大词频与一个常量的和的方式来计算,所述常量取所有词频的中值。

进一步的,在本申请提供的一种优选实施方式中,所述核心词数据库可根据用户上传的核心词信息进行匹配,并自动推荐对应权重值,且用户可根据实际需求调整该权重值,以增加语音识别的准确性;

其中,经检索如未发现用户核心词,则将当前核心词数据库中的所有词的权重中值作为推荐值。

进一步的,在本申请提供的一种优选实施方式中,所述匹配结果为语音识别中间结果在数据库中存在对应的拼音与语调序列时,则对该拼音与语调序列进行核心词替换。

进一步的,在本申请提供的一种优选实施方式中,所述核心词进行替换时,若包含替换序列的句子的语言模型混淆度相比于原有句子降低一个阈值,则可完成核心词序列替换,并输出包含替换序列的语音识别中间结果;

其中,降低的一个阈值,可以根据实际环境进行调整。

进一步的,在本申请提供的一种优选实施方式中,在执行所述包含替换序列的句子作为语音识别结果输出的步骤之前,还包括对该包含替换序列的句子进行断句及标点预测。

本申请实施例提供一种语音识别装置,包括:

语音接收模块,用于接收语音数据;

语音解码模块,用于解码所述语音数据,生成语音识别中间结果;

语音识别中间结果匹配模块,用于语音识别中间结果与数据库中核心词拼音与声调序列进行匹配;

语音识别结果输出模块,用于根据所述拼音于声调序列与所述语音识别中的中间结果的匹配状态,输出匹配结果。

本申请提供的实施例至少具有以下有益效果:

通过语音识别方法与装置可以解决语音识别结果偏离正常语境的问题。

附图说明

图1为本申请实施例提供的语音识别方法的流程图。

图2为本申请实施例提供的语音识别装置的结构示意图。

100 语音识别装置

11 语音接收模块

12 语音解码模块

13 语音识别中间结果匹配模块

14 语音识别结果输出模块

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参照图1,本申请揭示了语音识别方法,包括:

S100:获取输入的语音数据。

所述语音数据为实时输入的语音流数据,或音频文件中的文件流数据。

其中,语音流数据获取通常可通过麦克风、声卡等具有实时录入功能的硬件,将语音进行实时录入生成。文件流数据的获取通常可通过读取存放已完成录制的音频数据的音频文件,常见的音频文件后缀格式为:.WAV/.AIF/.AIFF/.AU/.MP1/.MP2/.MP3/.RA/.RM/.RAM。

S200:通过解码模型解码所述语音数据,生成语音识别中间结果。

进一步的,在本申请提供的一种优选实施方式中,所述语音解码模型由声学模型、字典和语言模型共同构成。

其中,通过声学模型可建立语音数据中语音特征与音素之间的映射;通过字典可建立音素与字词之间的映射;通过语言模型可建立词与词、词与句子的映射。计算机根据所述声学模型、字典和语言模型所建立的映射,可完成语音数据的解码操作,从而生成对应的语音识别中间结果。

具体的,声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示;语言模型是对一组字序列构成的知识表示;字典是字词对应的音素索引集合。

进一步的,在本申请提供的一种优选实施方式中,所述语言模型为基于文本预处理语料,对前景语言模型与背景语言模型进行插值拟合生成的新的语言模型;

其中,前景语言模型为用户语言模型,权重值预设为0.5-0.8,该前景语言模型包含用户指定场景语料;背景语言模型为原有语音识别引擎的语言模型,该背景语言模型包含各场景语料。

具体的,插值拟合即用来合并语言模型,以改善语言模型效果;当前景语言权重可设置值为0.6时,可使得新生成的语言模型语料分布最优,处理效果最佳。

具体的,所述文本预处理语料为用户总文本语料去除标点符号和一些无意义的语气词和停用词,并通过数字转化模块,将数字转换成对应语料文本的表达形式。

进一步的,在本申请提供的一种优选实施方式中,对新生成的语言模型要进行平滑和剪枝操作;

其中,剪枝操作基于前景语言模型,对背景语言模型进行无关场景语料删除,且应保留前景语言的分支;平滑操作基于新生成的语言模型,重新分布该语言模型中所有场景语料的条件概率,且平滑操作后所有场景语料条件概率和为1。

S300:基于核心词数据库中核心词拼音与声调序列,对所述语音识别中间结果进行匹配操作。

进一步的,在本申请提供的一种优选实施方式中,所述核心词数据库基于文本预处理语料进行分词及统计词频,并根据词频生成对应分词权重而建立。

其中,对应分词权重通过每个词的词频除以最大词频与一个常量的和的方式来计算,所述常量取所有词频的中值。

具体的,进行分词操作时,需基于解码模型的字典,并使用逆向最大匹配算法,从而使得分词效果最佳。统计词频,需基于分词结果,统计同一词语出现的次数。

进一步的,在本申请提供的一种优选实施方式中,核心词数据库可根据用户上传的核心词信息进行匹配,并自动推荐对应权重值,且用户可根据实际需求调整该权重值,以增加语音识别的准确性;

其中,经检索如未发现用户核心词,则将当前核心词数据库中的所有词的权重中值作为推荐值。

具体的,根据用户输入的核心词,在核心词数据库中对该词语进行匹配。若可在数据库中匹配到对应的核心词,则将该核心词权重作为推荐值,推荐至用户。推荐给用户的权重值,用户可根据实际场景对其进行增大或减小,用于提高用户场景下语音识别的准确性。

S400:根据所述拼音与声调序列与所述语音识别中的中间结果的匹配状态,输出匹配结果。

进一步的,在本申请提供的一种优选实施方式中,所述匹配结果为语音识别中间结果序列在数据库中存在对应的拼音语调序列时,则对该序列进行核心词替换。

具体的,若语音识别中间结果序列在数据库中未匹配到对应的拼音语调序列时,语音识别中间结果可直接作为语音识别结果输出。

进一步的,在本申请提供的一种优选实施方式中,所述核心词进行替换时,若包含替换序列的句子的语言模型混淆度相比于原有句子降低一个阈值,则可完成核心词序列替换,并输出包含替换序列的语音识别中间结果;

其中,降低的一个阈值,可以根据实际环境进行调整。

具体的,语言模型混淆度值越小,代表核心词替换后,替换序列在句子中的契合度越高。降低的阈值,默认设置为0.1,若想提高替换序列在句子中的契合度,可降低阈值的设置。

进一步的,在本申请提供的一种优选实施方式中,在执行所述包含替换序列的句子作为语音识别结果输出的步骤之前,还包括对该包含替换序列的句子进行断句及标点预测。

一种语音识别装置100,包括:

语音接收模块11,用于接收语音数据;

语音解码模块12,用于解码所述语音数据,生成语音识别中间结果;

语音识别中间结果匹配模块13,用于对语音识别中间结果与数据库中核心词拼音与声调序列进行匹配;

语音识别结果输出模块14,用于根据所述拼音与声调序列与所述语音识别中的中间结果的匹配状态输出匹配结果。

在一个典型的配置中,计算机可以包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 语音识别方法、语音唤醒装置、语音识别装置及终端
  • 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
技术分类

06120112454603