掌桥专利:专业的专利平台
掌桥专利
首页

一种语音识别方法、装置、设备、存储介质及程序产品

文献发布时间:2023-06-19 10:14:56


一种语音识别方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及语音技术领域,具体涉及语音交互、自然语言处理和语音识别技术。

背景技术

人工智能带来了人机交互技术的变革,其中,语音交互技术的应用日趋广泛,成为了人机交互的主要形式之一。在实现人机语音交互的过程中,语音识别技术是其中一个关键技术环节,也是自然语言处理(Natural Langunge Possns,NLP)技术的一个重要分支,语音识别的准确率极大程度上决定了语音交互能否实现以及语音交互过程中的用户体验。

发明内容

本申请实施例提供了一种语音识别方法、装置、设备、存储介质及程序产品,提高语音识别结果的准确度,优化语音交互过程中的用户体验。

第一方面,本申请实施例提供了一种语音识别方法,包括:

获取待识别语音信息;

对所述待识别语音信息进行语音识别,得到原始拼音识别结果;

根据语音识别数据库确定与所述原始拼音识别结果相同的目标拼音数据;

根据所述语音识别数据库确定与所述目标拼音数据对应的目标存储文本;

将所述目标存储文本作为所述待识别语音信息的语音识别结果。

第二方面,本申请实施例提供了一种语音识别装置,包括:

语音信息获取模块,用于获取待识别语音信息;

语音信息识别模块,用于对所述待识别语音信息进行语音识别,得到原始拼音识别结果;

拼音数据确定模块,用于根据语音识别数据库确定与所述原始拼音识别结果相同的目标拼音数据;

存储文本确定模块,用于根据所述语音识别数据库确定与所述目标拼音数据对应的目标存储文本;

识别结果确定模块,用于将所述目标存储文本作为所述待识别语音信息的语音识别结果。

第三方面,本申请实施例提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例所提供的语音识别方法。

第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面实施例所提供的语音识别方法。

第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面实施例所提供的语音识别方法。

本申请实施例通过获取待识别语音信息并识别其原始拼音识别结果,从语音识别数据库中搜索与原始拼音识别结果相同的拼音数据,并将该搜索到的拼音数据对应的存储文本作为语音识别结果,可以自动纠正待识别语音信息中的错误发音音节,得到错误发音音节的正确文本,从而提高语音识别结果的准确度,优化语音交互过程中的用户体验。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是本申请实施例提供的一种语音识别方法的流程图;

图2是本申请实施例提供的一种语音识别方法的流程图;

图3是本申请实施例提供的一种语音识别装置的结构图;

图4是用来实现本申请实施例的语音识别的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在一个示例中,图1是本申请实施例提供的一种语音识别方法的流程图,本实施例可适用于根据语音信息的拼音数据在语音识别数据库中匹配相同的拼音数据以识别其对应的正确文本的情况,该方法可以由语音识别装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。该电子设备可以具备智能语音功能,可以与用户进行语音交互或语音识别,例如可以是智能音箱或车载语音助手等智能终端设备。相应的,如图1所示,该方法包括如下操作:

S110、获取待识别语音信息。

其中,待识别语音信息可以是需要识别其对应的文本或语义的音频,例如可以是用户对智能语音设备发出的语音指令。

在本申请实施例中,可以通过任意具有声音采集功能的设备获取待识别语音信息。可选的,可以通过检测环境中的声音,对检测到的满足语音采集触发条件的声音进行采集,作为待识别语音信息。满足语音采集触发条件的声音可以包括区别于环境噪声的声音或可以被确定为用户所发出的语音指令的声音等。本申请实施例对待识别语音信息的具体获取方式不做限定。

S120、对所述待识别语音信息进行语音识别,得到原始拼音识别结果。

其中,语音识别可以是对待识别语音信息进行预设的处理,以得到待识别语音信息的发音音节。原始拼音识别结果可以是待识别语音信息的发音音节的拼音表示。

相应的,可以采用ASR(Automatic Speech Recognition,自动语言识别)技术对待识别语音信息进行语音识别,可以从待识别语音信息中识别出内容文本,提取文本的标准发音音节并以拼音的形式表示,得到的原始拼音识别结果。

需要说明的是,待识别语音信息的原始拼音识别结果并非被限定为具有任何含义的语音信息的发音音节的拼音表示。由于待识别语音信息可以是用户发出的语音信息,而用户可以具有不同的口音或发音习惯,并非一定可以对其本意要发出的语音信息进行标准的发音,因此语音识别出的原始拼音识别结果可以是用户本意要发出的语音信息的标准或非标准的发音音节的拼音表示。例如,用户本意要发出的语音信息为“吹风模式”,其标准发音音节的拼音表示为“chui-feng-mo-shi”,而由于发音习惯,使用户实际发出的待识别语音信息成为了“催风模式”,并非为具有任何含义的语音信息,则语音识别出的原始拼音识别结果为“cui-feng-mo-shi”,可见,原始拼音识别结果也并非为具有任何含义的语音信息的发音音节的拼音表示。

S130、根据语音识别数据库确定与所述原始拼音识别结果相同的目标拼音数据。

其中,语音识别数据库可以是预先构建的存储有至少一个拼音数据的数据库。拼音数据可以包括任意发音音节的拼音表示。目标拼音数据可以是与原始拼音识别结果完全相同的拼音数据,也可以是包括与原始拼音识别结果完全相同的拼音片段的拼音数据。

相应的,可以根据原始拼音识别结果,在语音识别数据库中查询出与其完全相同或至少有一段拼音片段完全相同的拼音数据作为目标拼音数据。可选的,可以优先查询语音识别数据库中与原始拼音识别结果完全相同的拼音数据作为目标拼音数据,在查询结果为空时,可以继续查询包括与原始拼音识别结果完全相同的拼音片段的拼音数据作为目标拼音数据。例如,原始拼音识别结果可以是“chui-feng”,则可以优先在语音识别数据库中查询与“chui-feng”完全相同的拼音数据,在查询结果为空时,继续查询包括“chui-feng”拼音片段的拼音数据,可以得到目标拼音数据为“chui-feng-mo-shi”。

同样值得说明的是,语音识别数据库中的拼音数据也并非仅包括具有任何含义的语音信息的发音音节的拼音表示。例如,语音识别数据库中的拼音数据可以包括“chui-feng-mo-shi”、“cui-feng-mo-shi”和“chui-fen-mo-shi”等。

S140、根据所述语音识别数据库确定与所述目标拼音数据对应的目标存储文本。

其中,语音识别数据库中还可以存储有至少一个存储文本和各存储文本与拼音数据之间的对应关系,任意存储文本可以是与其对应的拼音数据所表示的语音信息中的内容的文本。目标存储文本可以是与目标拼音数据具有对应关系的存储文本。

相应的,语音识别数据库中的各存储文本可以对应于至少一个拼音数据,任意存储文本对应的多个拼音数据可以具有不同的优先级。根据语音识别数据库中存储的对应关系和优先级,可以确定出目标拼音数据对应的一个确定的目标存储文本。目标存储文本则可以被确定为目标拼音数据所表示的语音信息中的内容的文本。

进一步的,存储文本通常可以是具有含义的文字文本,并非一定是其对应的拼音数据的发音音节对应的文字文本。任意存储文本的发音音节可以与其对应的拼音数据所表示的发音音节相同或相似,即各存储文本可以与不同拼音数据对应。例如,拼音数据“chui-feng-mo-shi”、“cui-feng-mo-shi”和“cui-fen-mo-shi”在语音识别数据库中均可以对应于存储文本“吹风模式”。

可选的,可以将任意词句确定为存储文本,将各存储文本的标准发音音节的拼音表示和全部已知存在的错误发音音节的拼音表示作为分别与各存储文本对应的拼音数据,进而可以构建语音识别数据库。

S150、将所述目标存储文本作为所述待识别语音信息的语音识别结果。

其中,语音识别结果可以是最终确认的待识别语音中的内容的文本。

相应的,由于目标拼音数据与待识别语音信息的原始拼音识别结果相同或包括原始拼音识别结果,目标拼音数据所表示的语音信息则与待识别语音信息相同或包括待识别语音信息。因此,目标存储文本可以被确定为待识别语音信息中的内容的文本。进一步的,对语音识别结果进行语义分析可以确定待识别语音信息所要表达的语义。

示例性的,假设待识别语音信息对应的原始拼音识别结果为“cui-fen-mo-shi”,在语音识别数据库中找到目标拼音数据“cui-fen-mo-shi”,以及目标拼音数据“cui-fen-mo-shi”对应的目标存储文本“吹风模式”,则可以将“吹风模式”作为待识别语音信息最终的语音识别结果。

本申请实施例通过获取待识别语音信息并识别其原始拼音识别结果,从语音识别数据库中搜索与原始拼音识别结果相同的拼音数据,并将该搜索到的拼音数据对应的存储文本作为语音识别结果,可以自动纠正待识别语音信息中的错误发音音节,得到错误发音音节的正确文本,从而提高语音识别结果的准确度,优化语音交互过程中的用户体验。

在一个示例中,图2是本申请实施例提供的一种语音识别方法的流程图,本申请实施例在上述各实施例的技术方案的基础上,进行了优化改进,给出了根据语音识别数据库确定与所述原始拼音识别结果相同的目标拼音数据和根据所述语音识别数据库确定与所述目标拼音数据对应的目标存储文本的多种具体可选的实现方式。

如图2所示的一种语音识别方法,包括:

S210、获取待识别语音信息。

S220、对所述待识别语音信息进行语音识别,得到原始拼音识别结果。

在本申请的一个可选实施例中,所述对所述待识别语音信息进行语音识别,得到原始拼音识别结果,可以包括:对所述待识别语音信息进行文本识别,得到原始文本识别结果;对所述原始文本识别结果进行拼音转换,得到所述原始拼音识别结果。

其中,原始文本识别结果可以是待识别语音信息的发音音节准确对应的文字文本。

相应的,可以采用ASR技术将待识别语音信息转化为计算机可读的输入形式,从而计算机可以得到待识别语音信息中的内容的文本,作为原始文本识别结果。提取原始文本识别结果的标准发音音节并以拼音的形式表示,可以得到原始拼音识别结果。

同样的,原始文本识别结果并非一定为具有任何含义的文本。例如用户将本意要表达的语音信息“吹风模式”读作“cui-feng-mo-shi”,则得到的原始文本识别结果可以是“催风模式”,原始拼音识别结果为“cui-feng-mo-shi”。

上述技术方案通过对待识别语音信息进行语音识别,可以得到待识别语音信息准确对应的原始拼音识别结果,以使后续根据原始拼音识别结果匹配其他数据时的结果更为精确,以进一步提升最终得到的语音识别结果的准确度。

S230、根据语音识别数据库确定与所述原始拼音识别结果相同的目标拼音数据。

在本申请的一个可选实施例中,S230具体可以包括并列的两个步骤S231和S232,可以根据语音识别数据库中与原始拼音识别结果全部相同的第一拼音数据是否存在的情况,选择执行S231或S232。其中:

S231、在所述语音识别数据库存在与所述原始拼音识别结果全部相同的第一拼音数据的情况下,将所述第一拼音数据确定为所述目标拼音数据。

其中,所述第一拼音数据中各个文字拼音与所述原始拼音识别结果中各个文字拼音均相同。文字拼音可以是单个文字对应的拼音。

相应的,可以确定第一拼音数据所表示的语音信息与待识别语音信息完全相同,即可以将第一拼音数据作为待识别语音信息准确对应的拼音表示。

示例性的,假设待识别语音信息对应的原始拼音识别结果为“cui-fen-mo-shi”,在语音识别数据库中找到第一拼音数据“cui-fen-mo-shi”,则该第一拼音数据中各个文字拼音与原始拼音识别结果中各个文字拼音均相同,可以作为目标拼音数据。

上述技术方案,可以在语音识别数据库中确定出待识别语音信息准确对应的拼音表示,在匹配过程中无需对待识别语音信息进行任何发音音节的模糊处理,使匹配结果的精准度具有确定性,进一步提升最终得到的语音识别结果的准确度。

S232、在所述语音识别数据库与所述原始拼音识别结果全部相同的第一拼音数据为空,且所述语音识别数据库存在与所述原始拼音识别结果部分相同的第二拼音数据的情况下,将所述第二拼音数据确定为所述目标拼音数据。

其中,所述第二拼音数据中片段文字拼音与所述原始拼音识别结果中各个文字拼音均相同。片段文字拼音可以是部分连续文字对应的拼音。

具体的,第二拼音数据中片段文字拼音可以包括第二拼音数据中表示一个或多个连续的发音音节的拼音片段,第二拼音数据中可以包括一段或多段与原始拼音识别结果中各个文字拼音均相同的片段文字拼音。

相应的,可以确定第二拼音数据所表示的语音信息中包括待识别语音信息,该语音信息可以被确定为待识别语音信息中语义内容的完整表达形式,即可以将第二拼音数据作为待识别语音信息的完整表达形式准确对应的拼音表示。

示例性的,假设待识别语音信息对应的原始拼音识别结果为“cui-feng”,在语音识别数据库中没有找到文字拼音与原始拼音识别结果的文字拼音完全相同的第一拼音数“cui-feng”,而找到第二拼音数据“cui-feng-mo-shi”,该第二拼音数据中片段文字拼音“cui-feng”与原始拼音识别结果中各个文字拼音均相同,可以作为目标拼音数据。

上述技术方案,在待识别语音信息为用户语义的不完整表达形式时,仍然可以确定待识别语音信息中语义内容的完整表达形式准确对应的拼音表示,实现在待识别语音信息的采集不完整或用户简略表达语音指令时,获取精准的语音识别结果,进一步地提升语音识别的灵活性和成功率。

S240、根据所述语音识别数据库确定与所述目标拼音数据对应的目标存储文本。

在本申请的一个可选实施例中,S240具体可以包括:

S241、在存在多个所述目标拼音数据的情况下,确定各所述目标拼音数据对应的纠错次数数据。

其中,语音识别数据库中还可以存储有各拼音数据与对应的各存储文本之间的纠错次数数据。目标拼音数据对应的纠错次数数据可以是表征目标拼音数据与其对应的各存储文本的标准发音音节的拼音表示之间的差别程度的参数,也即需要对目标拼音数据中各个文字拼音进行纠错的次数。可以理解的是,纠错次数数据越大,对目标拼音数据中各个文字拼音进行纠错的次数越多,则差别程度越大。

相应的,语音识别数据库中的拼音数据对应的各存储文本可以分别对应于一个纠错次数数据。纠错次数数据可以是通过对拼音数据与存储文本的标准发音音节的拼音表示进行比对,得到的两者之间不同的文字拼音的个数。

在一个示例性的例子中,表1示例性地示出了语音识别数据库中的部分数据。其中,拼音数据“cui-fen-mo-shi”中,与其对应的存储文本的标准发音音节的拼音表示“chui-feng-mo-shi”不同的文字拼音个数为2个,纠错次数数据为2;拼音数据“cui-feng-mo-shi”中,与其对应的存储文本的标准发音音节的拼音表示“chui-feng-mo-shi”不同的文字拼音个数为1个,纠错次数数据为1;拼音数据“chui-fen-mo-shi”中,与其对应的存储文本的标准发音音节的拼音表示“chui-feng-mo-shi”不同的文字拼音个数为1个,纠错次数数据为1;拼音数据“chui-feng-mo-shi”中,与其对应的存储文本的标准发音音节的拼音表示“chui-feng-mo-shi”不同的文字拼音个数为0个,与其对应的存储文本的标准发音音节的拼音表示“wei-feng-mo-shi”不同的文字拼音个数为1个,纠错次数数据分别为0和1。

表1

S242、确定各所述纠错次数数据中满足纠错次数确定条件的目标纠错次数数据。

其中,纠错次数确定条件可以是确定存储文本与拼音数据之间的差别程度足够小,以使存储文本可以与拼音数据匹配的条件。目标纠错次数数据可以是可以与目标拼音数据最为匹配的存储文本对应的纠错次数数据。

可选的,纠错次数确定条件可以是纠错次数数据最小。相应的,最小的纠错次数数据对应的存储文本与目标拼音数据最为匹配,即该存储文本的标准发音音节与目标拼音数据的发音音节之间的差别程度最小。

在本申请的一个可选实施例中,所述确定各所述纠错次数数据中满足纠错次数确定条件的目标纠错次数数据,包括:确定所述原始拼音识别结果对应的原始文本识别结果的文字数量;根据所述文字数量确定纠错次数阈值;根据所述纠错次数阈值对各所述目标拼音数据对应的纠错次数数据进行筛选,得到筛选纠错次数阈值;将各所述筛选纠错次数阈值中满足所述纠错次数确定条件的纠错次数数据作为所述目标纠错次数数据。

其中,纠错次数阈值可以是预先设定的可允许的最大纠错次数数据,可以表征目标拼音数据与存储文本之间的被允许的最大差异程度。筛选纠错次数阈值中包括小于纠错次数阈值的纠错次数数据。

相应的,纠错次数阈值可以根据文字数量确定,可以是文字数量的固定比值,例如可以是文字数量的50%。小于纠错次数阈值的纠错次数数据对应的存储文本,其与目标拼音数据的匹配程度则较高。进一步的,大于纠错次数阈值的纠错次数数据可以被筛除,则与目标拼音数据的匹配程度较低的存储文本可以避免被确定为目标存储文本。在筛选纠错次数阈值中可以确定出满足纠错次数确定条件的唯一纠错次数数据作为目标纠错次数数据,从而确定出目标拼音数据的唯一目标存储文本。

上述技术方案,通过设定纠错次数阈值,筛除了与目标拼音数据的差异程度较大的存储文本,减轻了目标存储文本确定过程中的计算量,同时也避免了差异程度过大的存储文本被确定为目标存储文本,避免最终得到的语音识别结果出现误差。

S243、将所述目标纠错次数数据对应的存储文本作为所述目标存储文本。

相应的,目标纠错次数数据对应的存储文本可以是与目标拼音数据最为匹配的文本。

示例性的,在表1所给出的示例中,对于目标拼音数据“chui-feng-mo-shi”,情况对应的纠错次数数据包括0和1,则纠错次数确定条件可以是纠错次数数据最小,则目标纠错次数数据可以确定为0,目标存储文本可以确定为“吹风模式”,而非“微风模式”。

在本申请实施例中,纠错次数数据为0的数据可以实现对同音字的纠正。纠错次数数据大于0的数据则可以实现对易错音的纠正。示例性的,待识别语音信息实际为“吹风么事”,而用户意图实际为“吹风模式”,原始拼音识别结果为“chui-feng-mo-shi”,目标拼音数据为“chui-feng-mo-shi”,对应的目标存储文本为“吹风模式”,则待识别语音信息的语音识别结果为“吹风模式”,实现对“么事”和“模式”的同音字纠正。

上述技术方案,通过对目标拼音数据对应的存储文本进行筛选,得到与目标拼音数据最为匹配的目标存储文本,以使当目标拼音数据与多个存储文本的标准发音音节的拼音表示相同或相似时,仍然可以得到唯一准确的语音识别结果。

S250、将所述目标存储文本作为所述待识别语音信息的语音识别结果。

在本申请的一个可选实施例中,所述方法还可以包括:采集样本语音数据;根据所述样本语音数据确定存储语音数据;根据所述存储语音数据构建所述语音识别数据库。

其中,样本语音数据为非标准语音数据。所述存储语音数据包括存储文本数据、存储拼音数据和纠错次数数据。

具体的,样本语音数据可以包括不同用户发出的待识别语音信息。存储文本数据可以是非标准语音数据的语义对应的标准语音数据的内容文本。存储拼音数据可以是样本语音数据的原始拼音识别结果。纠错次数数据可以是各存储拼音数据对应的纠错次数数据。

相应的,可以采集用户发出的语音指令作为样本语音数据,并获取该样本语音数据的存储语音数据。可以将各存储拼音数据、其对应的存储文本数据和对应的纠错次数数据对应地存储在语音识别数据库中,构建语音识别数据库。

上述技术方案,根据样本语音数据构建语音识别数据库,使语音识别数据库中的数据信息更为精准全面,以使根据语音识别数据库进行语音识别的成功率和准确率进一步提高。

在本申请的一个可选实施例中,所述语音识别数据库安装于离线语音识别系统中。

其中,离线语音识别系统可以在无需网络通信的条件下完成语音识别。

相应的,安装有语音识别数据库的离线语音识别系统可以在网络条件不好的情况下,根据该语音识别数据库获取语音识别结果。可以理解的是,语音识别数据库也可以安装于在线语音识别系统中,对语音信息进行在线识别。但目前在线语音识别技术的纠错功能极为强大,因此,语音识别数据库更适合应用与无法实现在线语音识别的离线语音识别系统中,以在离线的情况下实现对同音字或易错音进行纠正识别,从而得到准确的语音识别结果。

上述技术方案,通过在离线语音数据库中设置语音识别数据库,提供了离线环境中进行精准语音识别的方法,解决了现有技术中在离线环境中无法精准进行语音识别的问题。

在一个示例中,图3是本申请实施例提供的一种语音识别装置的结构图,本申请实施例可适用于根据语音信息的拼音数据在语音识别数据库中匹配相同的拼音数据以识别其对应的正确文本的情况,该装置通过软件和/或硬件实现,并具体配置于电子设备中。该电子设备可以是智能语音设备,可以进行语音交互或语音识别,例如可以是智能音箱或车载语音助手。

如图3所示的一种语音识别装置300,包括:语音信息获取模块310、语音信息识别模块320、拼音数据确定模块330、存储文本确定模块340和识别结果确定模块350。其中,

语音信息获取模块310,用于获取待识别语音信息;

语音信息识别模块320,用于对所述待识别语音信息进行语音识别,得到原始拼音识别结果;

拼音数据确定模块330,用于根据语音识别数据库确定与所述原始拼音识别结果相同的目标拼音数据;

存储文本确定模块340,用于根据所述语音识别数据库确定与所述目标拼音数据对应的目标存储文本;

识别结果确定模块350,用于将所述目标存储文本作为所述待识别语音信息的语音识别结果。

本申请实施例通过获取待识别语音信息并识别其原始拼音识别结果,从语音识别数据库中搜索与原始拼音识别结果相同的拼音数据,并将该搜索到的拼音数据对应的存储文本作为语音识别结果,可以自动纠正待识别语音信息中的错误发音音节,得到错误发音音节的正确文本,从而提高语音识别结果的准确度,优化语音交互过程中的用户体验。

可选的,语音信息识别模块320具体用于:对所述待识别语音信息进行文本识别,得到原始文本识别结果;对所述原始文本识别结果进行拼音转换,得到所述原始拼音识别结果。

可选的,拼音数据确定模块330具体用于:在所述语音识别数据库存在与所述原始拼音识别结果全部相同的第一拼音数据的情况下,将所述第一拼音数据确定为所述目标拼音数据;其中,所述第一拼音数据中各个文字拼音与所述原始拼音识别结果中各个文字拼音均相同。

可选的,拼音数据确定模块330具体用于:在所述语音识别数据库与所述原始拼音识别结果全部相同的第一拼音数据为空,且所述语音识别数据库存在与所述原始拼音识别结果部分相同的第二拼音数据的情况下,将所述第二拼音数据确定为所述目标拼音数据;其中,所述第二拼音数据中片段文字拼音与所述原始拼音识别结果中各个文字拼音均相同。

可选的,存储文本确定模块340包括:纠错次数数据获取子模块,用于在存在多个所述目标拼音数据的情况下,确定各所述目标拼音数据对应的纠错次数数据;目标纠错次数确定子模块,用于确定各所述纠错次数数据中满足纠错次数确定条件的目标纠错次数数据;目标存储文本确定子模块,用于将所述目标纠错次数数据对应的存储文本作为所述目标存储文本。

可选的,目标纠错次数确定子模块具体用于:确定所述原始拼音识别结果对应的原始文本识别结果的文字数量;根据所述文字数量确定纠错次数阈值;根据所述纠错次数阈值对各所述目标拼音数据对应的纠错次数数据进行筛选,得到筛选纠错次数阈值;将各所述筛选纠错次数阈值中满足所述纠错次数确定条件的纠错次数数据作为所述目标纠错次数数据。

可选的,语音识别装置300,还包括:样本语音采集模块,用于采集样本语音数据;其中,所述样本语音数据为非标准语音数据;语音数据确定模块,用于根据所述样本语音数据确定存储语音数据;所述存储语音数据包括存储文本数据、存储拼音数据和纠错次数数据;数据库构建模块,用于根据所述存储语音数据构建所述语音识别数据库。

可选的,所述语音识别数据库安装于离线语音识别系统中。

上述语音识别装置可执行本申请任意实施例所提供的语音识别方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请任意实施例提供的语音识别方法。

由于上述所介绍的语音识别装置为可以执行本申请实施例中的语音识别方法的装置,故而基于本申请实施例中所介绍的语音识别方法,本领域所属技术人员能够了解本实施例的语音识别装置的具体实施方式以及其各种变化形式,所以在此对于该语音识别装置如何实现本申请实施例中的语音识别方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中语音识别方法所采用的装置,都属于本申请所欲保护的范围。

在一个示例中,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如语音识别方法。例如,在一些实施例中,语音识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的语音识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

本申请实施例通过获取待识别语音信息并识别其原始拼音识别结果,从语音识别数据库中搜索与原始拼音识别结果相同的拼音数据,并将该搜索到的拼音数据对应的存储文本作为语音识别结果,可以自动纠正待识别语音信息中的错误发音音节,得到错误发音音节的正确文本,从而提高语音识别结果的准确度,优化语音交互过程中的用户体验。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

相关技术
  • 一种语音识别方法、装置、设备、存储介质及程序产品
  • 语音识别方法、装置及计算机设备、存储介质及程序产品
技术分类

06120112478681