掌桥专利:专业的专利平台
掌桥专利
首页

基于自然语言处理的语音识别方法、装置、设备及介质

文献发布时间:2023-06-19 12:02:28


基于自然语言处理的语音识别方法、装置、设备及介质

技术领域

本发明涉及基于自然语言处理技术领域,属于智慧城市中基于自然语言处理对语音信息进行智能识别的应用场景,尤其涉及一种基于自然语言处理的语音识别方法、装置、设备及介质。

背景技术

随着语音识别技术的快速发展,在采用智能语音客服代替人工客服、在智能语音家居等场景中得到了越来越广泛的应用,可通过语音识别技术构建识别模型对用户输入的语音信息进行识别处理,以得到相应的识别结果,并根据识别结果执行对应的程序或获取对应的答复信息。然而发明人发现,现有的语音识别技术中通常是对语音信息进行识别以得到对应拼音信息,对拼音信息进行语义解析得到文本信息,然而现有技术经常会因匹配精度的问题而导致识别结果中存在文本错误,错误形式通常包括插入错误、替换错误和删除错误,导致难以获取准确对语音信息进行识别得到文本识别结果。因此,现有的语音识别方法存在难以准确对语音信息进行识别的问题。

发明内容

本发明实施例提供了一种基于自然语言处理的语音识别方法、装置、设备及介质,旨在解决现有语音识别方法所存在的难以准确对语音信息进行识别的问题。

第一方面,本发明实施例提供了一种基于自然语言处理的语音识别方法,其中,所述方法包括:

若接收到用户输入的语音信息,根据预置的音频特征提取模型从所述语音信息中提取得到音频特征信息;

根据预置的困惑网络对所述音频特征信息进行解析得到拼音信息及初始文本信息;

根据预置的转换词典分别对所述拼音信息及所述初始文本信息进行转换得到对应的拼音编码序列及初始字符编码序列;

对所述拼音编码序列及所述初始字符编码序列进行叠加组合得到所述语音信息的组合编码序列;

将所述组合编码序列输入预置的文本纠错模型进行纠错以得到对应的纠错编码序列;

根据所述转换词典对所述纠错编码序列进行逆转换得到与所述语音信息对应的文本识别信息。

第二方面,本发明实施例提供了一种基于自然语言处理的语音识别装置,其中,所述基于自然语言处理的语音识别装置,包括:

音频特征信息提取单元,用于若接收到用户输入的语音信息,根据预置的音频特征提取模型从所述语音信息中提取得到音频特征信息;

初始文本信息获取单元,用于根据预置的困惑网络对所述音频特征信息进行解析得到拼音信息及初始文本信息;

编码序列获取单元,用于根据预置的转换词典分别对所述拼音信息及所述初始文本信息进行转换得到对应的拼音编码序列及初始字符编码序列;

组合编码序列获取单元,用于对所述拼音编码序列及所述初始字符编码序列进行叠加组合得到所述语音信息的组合编码序列;

纠错编码序列获取单元,用于将所述组合编码序列输入预置的文本纠错模型进行纠错以得到对应的纠错编码序列;

文本识别信息获取单元,用于根据所述转换词典对所述纠错编码序列进行逆转换得到与所述语音信息对应的文本识别信息。

第三方面,本发明实施例又提供了一种计算机设备,其中,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述第一方面所述的基于自然语言处理的语音识别方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现上述第一方面所述的基于自然语言处理的语音识别方法。

本发明实施例提供了一种基于自然语言处理的语音识别方法、装置、设备及介质。提取语音信息的音频特征信息并通过困惑网络解析得到拼音信息及初始文本信息,分别对拼音信息及初始文本信息进行转换得到拼音编码序列及初始字符编码序列并进行叠加组合得到组合编码序列,根据文本纠错模型对组合编码序列进行纠错得到纠错编码序列,对纠错编码序列进行逆转换得到文本识别信息。通过上述方法,基于上述困惑网络对语音信息进行解析,并通过文本纠错模型对组合编码序列进行纠错处理最终得到文本识别结果,可对初始识别得到的初始文本信息中存在的文本错误进行纠正,从而大幅提升对语音信息进行识别的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于自然语言处理的语音识别方法的流程示意图;

图2为本发明实施例提供的基于自然语言处理的语音识别方法的子流程示意图;

图3为本发明实施例提供的基于自然语言处理的语音识别方法的另一子流程示意图;

图4为本发明实施例提供的基于自然语言处理的语音识别方法的另一子流程示意图;

图5为本发明实施例提供的基于自然语言处理的语音识别方法的另一流程示意图;

图6为本发明实施例提供的基于自然语言处理的语音识别方法的另一流程示意图;

图7为本发明实施例提供的基于自然语言处理的语音识别方法的另一子流程示意图;

图8为本发明实施例提供的基于自然语言处理的语音识别装置的示意性框图;

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,图1是本发明实施例提供的基于自然语言处理的语音识别方法的流程示意图;该基于自然语言处理的语音识别方法应用于用户终端或管理服务器中,该基于自然语言处理的语音识别方法通过安装于用户终端或管理服务器中的应用软件进行执行,用户终端即是对用户输入的语音信息进行智能识别的终端设备,例如台式电脑、笔记本电脑、平板电脑、手机、智能语音助手或智能音箱等,管理服务器即是接收用户所输入的语音信息进行智能识别的服务器端,如企业或政府部门内构建的服务器。如图1所示,该方法包括步骤S110~S160。

S110、若接收到用户输入的语音信息,根据预置的音频特征提取模型从所述语音信息中提取得到音频特征信息。

若接收到用户输入的语音信息,根据预置的音频特征提取模型从所述语音信息中提取得到音频特征信息。用户输入的语音信息可具体表现为用户说出的一句话,其中,所述音频特征提取模型包括频谱转换规则、频率转换公式及逆变换规则,音频特征信息可以是与语音信息对应的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC),音频特征信息可对用户输入的语音信息的音频特征进行量化表示。

在一实施例中,如图2所示,步骤S110包括子步骤S111、S112、S113和S114。

S111、对所述语音信息进行分帧处理得到对应的多帧音频信息。

语音信息在计算机中以包含音轨的声谱图进行表示,声谱图中包含很多帧,每一帧即对应一个时间单元,则可语音信息的声谱图中获取得到每一帧音频信息,每一帧音频信息即对应一个时间单元内所包含的音频信息。

S112、根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱。

可根据单位时间对音频信息进行分段得到多个音频信息段,每一音频信息段中均对应一个单位时间内包含的多帧音频信息,可根据频谱转换规则对得到的每一音频信息段进行快速傅里叶变换(fast Fourier transform,FFT)然后旋转90度,得到与每一音频信息段对应的音频频谱,在音频频谱中的频谱表示频率与能量的关系。例如,单位时间可设置为0.05S。

S113、根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱。

根据频率转换公式将以线性方式表示的音频频谱转换为非线性音频频谱,为进一步凸显用户输入的语音信息中的声音特征,可将以线性方式表示的音频频谱转换为非线性音频频谱。音频频谱及非线性音频频谱均可采用频谱曲线进行表示,则频谱曲线由多个连续的频谱值所组成。

具体的,频率转换公式可采用公式(1)进行表示:

mel(f)=2959×log(1+f/700) (1);

其中mel(f)为转换后非线性音频频谱的频谱值,f为音频音频的频率值。

S114、根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频特征信息。

可根据逆变换规则对每一非线性音频频谱进行逆变换,具体的,对所得到的一个非线性音频频谱取对数后进行离散余弦变换(Discrete Cosine Transform,DCT),取进行离散余弦变换的第2个至第13个系数进行组合以得到与该非线性音频频谱对应的音频系数,则从每一非线性音频频谱可对应获取得到12个维度的音频系数,获取每一非线性音频频谱对应的音频系数即可得到与语音信息对应的音频特征信息。

S120、根据预置的困惑网络对所述音频特征信息进行解析得到拼音信息及初始文本信息。

根据预置的困惑网络对所述音频特征信息进行解析得到拼音信息及初始文本信息。音频特征信息为语音信息的声音特征,为实现对语音信息进行识别,可先通过困惑网络(Confusion Network)对音频特征信息进行解析,得到拼音信息及初始文本信息。具体的,困惑网络即为由多个字符组成的神经网络,每一字符均包含对应的标准拼音信息,一个标准拼音信息可在困惑网络中对应多个字符,如“wèi”这一标准拼音信息可在困惑网络中对应“为”、“位”和“胃”三个字符;每一标准拼音信息均对应包含相应的标准音频特征信息,字符与字符之间通过法线形式建立关联关系,字符与字符之间对应包含关联系数,关联系数即是用于对两个字符之间的关联程度进行表征的信息。

例如,与“位”这一字符的上游相关联的字符为“地”和“座”,与“位”这一字符的下游相关联的字符为“置”和“于”,“位”与下游的“置”之间关联系数为1.2,“位”与下游的“于”之间关联系数为0.75。

在一实施例中,如图3所示,步骤S120包括子步骤S121、S122和S123。

S121、根据所述困惑网络中标准拼音信息与标准音频特征信息的对应关系,获取与所述音频特征信息相匹配的一条拼音信息。

困惑网络中包含标准音频特征与字符拼音之间的对应关系,且一个字符拼音与一个标准音频特征之间一一对应,则可获取音频特征信息中一个字符发音与每一标准音频特征之间的相似度,并获取相似度最高的一个标准音频特征对应的字符拼音作为该字符发音对应的拼音,获取音频特征信息中每一字符发音的拼音即可组合得到对应的一条拼音信息。具体的,可从语音信息中获取响度大于响度阈值的音频片段,例如,响度阈值可以设置为45dB,语音信息中响度大于45dB的部分即为用户对相应字符进行发音的音频片段,每一音频片段即对应一个字符发音,获取音频特征信息中与每一音频片段所对应的音频系数作为相应字符发音的音频特征,并进一步计算字符发音的音频特征与标准音频特征之间的相似度,具体的,相似度可采用以下相似度计算公式(2)进行计算得到:

其中,d

S122、根据所述困惑网络中标准拼音信息与字符之间的关联关系,获取所述困惑网络中与所述拼音信息对应的字符串联形成的多条可选文本信息。

困惑网络中一个标准拼音信息可对应多个字符,可获取困惑网络中与拼音信息对应的多个字符,并根据困惑网络中字符之间的关联关系从困惑网络中获取与拼音信息对应的多个字符,并进一步获取多个字符在困惑网络中按字符顺序串联所形成的多条路径,每一条路径包含的字符即组合为一条可选文本信息。

例如,某一条拼音信息为“wèi,zhì,zài,nǎ,lǐ”,从困惑网络中获取得到与该拼音信息相匹配的多条可选文本信息为“位置在哪里”、“位置再哪里”、“未至在哪里”。

S123、计算所述困惑网络中每一所述可选文本信息的路径相似度,并从所述多条可选文本信息中获取路径相似度最高的一条可选文本信息作为初始文本信息。

根据困惑网络中字符与字符之间的关联系数计算每一条可选文本信息的路径相似度,具体的,将每一条可选文本信息在困惑网络中对应的一条路径所包含的多个关联系数相乘,所得到的乘积即为该可选文本信息的路径相似度,路径相似度即可用于对路径中字符之间关联关系的强弱进行量化表征,若路径相似度的值较大,则表明该路径中字符之间的关联关系较强;否则表明该路径中字符之间的关联关系较弱。根据可选文本信息的路径相似度获取其中路径相似度最高的一条可选文本信息作为与用户输入的语音信息对应的初始文本信息。

例如,可选文本信息“位置在哪里”对应的路径相似度为2.15,“位置再哪里”对应的路径相似度为0.77,“未至在哪里”对应的路径相似度为0.43,则对应选择“位置在哪里”作为初始文本信息。

在一实施例中,如图5所示,步骤S120之前还包括步骤S1201、S1202和S1203。

S1201、根据所述音频特征提取模型分别从预存的标准数据集合包含的标准语音信息中提取得到对应的标准音频特征信息。

在使用困惑网络之前,可通过音频特征提取模型对标准数据集合进行解析以构建得到困惑网络。具体的,标准数据集合即为用户终端或管理服务器中预先存储的包含多条标准数据的数据集合,每一条标准数据中均包含一条标准文本信息、一条标准拼音信息及对应的一条标准语音信息,标准语音信息可以由广播、电视新闻、主持人演讲获取得到,标准文本信息及标准拼音信息可由人工标注得到,标准文本信息中所包含的字符数量与标准拼音信息中包含的字符拼音的数量相等。可根据音频特征提取模型从标准语音信息中提取得到对应的标准音频特征信息,提取得到标准音频特征信息的具体方法与从语音信息中提取音频特征信息的方法相同,在此不作赘述。

S1202、从所述标准音频特征信息中获取所述标准数据集合的标准拼音信息中与每一字符拼音对应的标准音频特征。

每一条标准数据中均包含一条标准拼音信息,标准拼音信息中每一字符拼音均与标准语音信息中的一个语音片段相对应,则可获取标准语音信息中每一语音片段在标准音频特征信息中对应的音频特征,则每一字符拼音可对应标准音频特征信息中的一个或多个音频特征,若一个字符拼音对应多个音频特征,则计算对应的多个音频特征在相同维度的平均值得到该字符拼音的标准音频特征;若一个字符拼音仅对应一个音频特征,则直接将音频特征作为该字符拼音的标准音频特征。

S1203、根据所述标准数据集合中的标准文本信息及所述标准音频特征与每一所述字符拼音之间的关联关系构建得到所述困惑网络。

具体的,标准数据集合中包含多条标准文本信息,每一条标准文本信息由多个字符组合而成,可根据字符、标准音频特征与每一字符拼音之间的关联关系构建得到困惑网络。具体的,对标准文本信息中每一字符上游及下游关联的字符数量进行统计,并获取与每一字符上游及下游关联的字符数量占比,将根据字符数量占比输入预置的关联系数计算公式,即可计算得到字符之间的关联系数,根据关联系数及字符之间的上下游关系构建字符之间的关联关系以组成初始困惑网络;根据标准文本信息中每一字符与字符拼音及标准音频特征的对应关系,对初始困惑网络中每一字符添加对应的字符标签即可构建得到困惑网络,其中字符标签包括字符拼音及标准音频特征。关联系数计算公式可采用公式(3)进行表示:

其中,x为与字符x相关联的一个字符占比,v为公式中预置的参数值,G

例如,将v的取值预先设置为0.03,标准数据集合中字符“地”的下游中字符“位”的字符数量为65,字符“地”的下游包含的总字符数量为1134,则字符“地”的下游中字符“位”的字符数量占比x=65/1134=0.05732,将上述字符数量占比输入关联系数计算公式即可计算得到相应的关联系数G=1.3658。

S130、根据预置的转换词典分别对所述拼音信息及所述初始文本信息进行转换得到对应的拼音编码序列及初始字符编码序列。

根据预置的转换词典分别对所述拼音信息及所述初始文本信息进行转换得到对应的拼音编码序列及初始字符编码序列。转换词典即为对字符拼音及字符进行转换的词典,每一字符或每一字符拼音均可在转换词典中匹配得到对应的一个编码值,拼音信息中包含多个字符拼音,则可根据转换词典中字符拼音与编码值之间的对应关系,将拼音信息转换为由多个编码值组合而成的拼音编码序列,初始文本信息中包含多个字符,可根据转换词典中字符与编码值之间的对应关系,将初始文本信息转换为由多个编码值组合而成的初始字符编码序列。

S140、对所述拼音编码序列及所述初始字符编码序列进行叠加组合得到所述语音信息的组合编码序列。

对所述拼音编码序列及所述初始字符编码序列进行叠加组合得到所述语音信息的组合编码序列。可对获取得到的拼音编码序列及初始字符编码序列进行叠加组合,得到组合编码序列,则组合编码序列中同时包含与语音信息对应的拼音编码值及字符编码值。

在一实施例中,如图4所示,步骤S140包括子步骤S141、S142和S143。

S141、将所述拼音编码序列中每一个拼音编码值与所述字符编码序列中对应的一个字符编码值进行相加,得到对应的第一编码序列。

具体的,拼音编码序列中的任意一个拼音编码值均能够在字符编码序列中对应找到一个字符编码值,则该拼音编码值与该字符编码值均与初始文本信息中的同一个字符相对应,获取初始文本信息中每一字符对应的一个拼音编码值及一个字符编码值,并对同一字符的拼音编码值和字符编码值相加计算,即可得到第一编码序列,则第一编码序列中包含的编码值的数量与初始文本信息中包含的字符的数量相等。

S142、将所述拼音编码序列中每一个拼音编码值与所述字符编码序列中对应的一个字符编码值进行顺序拼接,得到对应的第二编码序列。

获取初始文本信息中每一字符对应的一个拼音编码值及一个字符编码值,并对同一字符的拼音编码值和字符编码值进行顺序拼接,得到第二编码序列,则第二编码序列中包含的编码值的数量是初始文本信息中包含的字符数量的两倍。

S143、将所述第一编码序列与所述第二编码序列进行组合作为对应的组合编码序列。

对所得到的第一编码序列与第二编码序列进行组合,即可得到组合编码序列,具体的,可将第二编码序列拼接于第一编码序列之后并对应组合得到组合编码序列。

S150、将所述组合编码序列输入预置的文本纠错模型进行纠错以得到对应的纠错编码序列。

将所述组合编码序列输入预置的文本纠错模型进行纠错以得到对应的纠错编码序列。文本纠错模型即是用于对组合编码序列进行纠错的神经网络模型,可通过文本纠错模型获取对组合编码序列进行纠错后得到的纠错编码序列,并将纠错编码序列逆转换为文本信息,则逆转换得到的文本信息即为对初始文本信息进行纠错后所得到的文本信息。具体的,神经网络模型可以是基于BERT(Bidirectional Encoder Representations fromTransformers)网络及自然语言处理神经网络(Natural Language ProcessingTransformer,NLP神经网络)构建得到的神经网络模型,其中,NLP神经网络可以是基于多头自注意力网络(Multi-Head Self-Attention)构建得到的神经网络,NLP神经网络由多个编码器和多个解码器组合而成。可先将组合编码序列输入BERT网络进行计算得到对应的表征向量,将所得到的表征向量输入NLP神经网络进行计算得到对应的纠错编码序列。其中,BERT网络由一个输入层、多个中间层及一个输出层组成,输入层与中间层之间、中间层与其他中间层之间、中间层与输出层之间均通过关联公式进行连接,例如某一关联公式可表示为y=a×x+b,a和b即为该关联公式中的参数值,x为该关联公式的输入值,y为该关联公式的输出值,所得到的表征向量的大小为(N,M),也即是一个N行M列的向量矩阵,其中N即等于组合编码序列中所包含编码值的数量,表征向量中每一向量值均属于[0,1]这一取值范围。通过NLP神经网络中的多个编码器和多个解码器对表征向量进行计算即可得到对应的纠错编码序列,所得到的纠错编码序列中编码值的数量与初始文本序列中所包含的字符数量可以相等也可以不相等,若纠错编码序列中编码值的数量与初始文本序列中所包含的字符数量相等,则表明初始文本序列中不存在错误或仅存在替换错误;若纠错编码序列中编码值的数量与初始文本序列中所包含的字符数量不相等,则表明初始文本序列中存在插入错误或删除错误。

在一实施例中,如图6所示,步骤S150之前还包括步骤S151、S152、S153和S154。

在使用文本纠错模型之前,可基于所构建的训练数据集及训练数据集合构建模型训练数据集合以对初始文本纠错模型进行训练,得到训练后的文本纠错模型。

S151、根据所述音频特征提取模型分别从预存的训练数据集合包含的训练语音信息中提取得到对应的训练音频特征信息。

训练数据集合即为用户终端或管理服务器中预先存储的包含多条训练数据的数据集合,每一条训练数据均包括一条训练文本信息及对应的一条训练语音信息。可通过音频特征提取模型从每一条训练语音信息中提取得到对应的训练音频特征信息,获取训练音频特征信息的具体方法与从语音信息中提取音频特征信息的方法相同,在此不作赘述。

S152、根据所述困惑网络对所述训练音频特征信息进行解析以获取训练拼音信息及训练预测文本信息。

可通过困惑网络对所得到的训练音频特征信息进行解析,具体解析方式与对音频特征信息进行解析的方式相同,对训练音频特征信息进行解析即可得到对应的训练拼音信息及训练预测文本信息,具体的,对一条训练拼音特征信息进行解析,可得到对应的一条训练拼音信息及多条训练预测文本信息。

在一实施例中,如图7所示,步骤S152之前还包括步骤S1521、S1522和S1523。

S1521、根据所述困惑网络中标准拼音信息与标准音频特征信息的对应关系,获取与每一所述训练音频特征信息相匹配的一条训练拼音信息。

获取训练拼音信息的具体方法,与获取音频特征信息的拼音信息的具体方法相同,在此不作赘述。

S1522、根据所述困惑网络中标准拼音信息与字符之间的关联关系,获取所述困惑网络中与每一所述训练拼音信息对应的多条备选文本信息。

由于困惑网络中与一条训练拼音信息对应的多个字符在困惑网络中案字符顺序串联可形成多条路径,则一条训练拼音信息可从困惑网络中获取对应的多条备选文本信息,其中获取备选文本信息的具体方法与获取可选文本信息的方法相同,在此不作赘述。

S1523、计算所述困惑网络中每一所述备选文本信息的路径相似度,并根据所述路径相似度从所述多条备选文本信息中筛选得到满足预置筛选条件的多条备选文本信息作为对应的训练预测文本信息。

可对与每一训练拼音信息对应的多条备选文本信息的路径相似度进行计算,并从每一训练拼音信息对应的多条备选文本信息中筛选出满足预置筛选条件的多条备选文本信息,作为与每一条训练拼音信息对应的训练预测文本信息。

例如,预置筛选条件配置为10,则可从每一拼音信息对应的多条备选文本信息中获取路径相似度最高的10条备选文本信息,作为与每一条拼音信息对应的10条训练预测文本信息。

S153、将所述训练拼音信息及训练预测文本信息与所述训练数据集合中对应的训练文本信息进行组合,得到模型训练数据集合。

可将一条训练文本信息进行转换,得到对应的一条目标训练编码信息,将该条训练拼音信息与对应的多条训练预测文本信息分别进行组合,得到对应的多条训练预测编码信息;以该目标训练编码信息作为训练目标,以该目标训练编码信息对应的多条训练预测编码信息中的一条训练预测编码信息作为输入,即可对应组合得到一条模型训练数据。

具体的,根据转换词典对一条训练文本信息进行转换,得到对应的训练字符编码序列,该训练字符编码序列及作为目标训练编码信息进行使用,根据转换词典对该训练文本信息对应的一条训练拼音信息进行转换,得到对应的训练拼音编码序列,根据转换词典对该训练文本信息对应的多条训练预测文本信息分别进行转换,得到对应的多条训练预测字符编码序列,将训练拼音编码序列与其中任意一条训练预测字符编码序列进行叠加组合即可得到对应的一条训练预测编码信息,则对多条训练预测字符编码序列进行处理,可对应获取得到多条训练预测编码信息。一条训练预测编码信息与对应的一条目标训练编码信息进行组合即可得到一条模型训练数据,多条模型训练数据进行组合即得到模型训练数据集合。

S154、根据所述模型训练数据集合对初始文本纠错模型进行迭代训练,得到训练后的文本纠错模型。

具体的,模型训练数据集合中包含多条模型训练数据,将一条模型训练数据中的训练预测编码信息作为文本纠错模型的输入,对应的一条目标训练编码信息则作为文本纠错模型当前训练目标,即可对文本纠错模型进行一次训练,,则多条模型训练数据即可实现对文本纠错模型进行多次迭代训练。

对文本纠错模型进行训练可基于梯度下降计算实现,具体的,可基于文本纠错模型对训练预测编码信息进行计算所得到的输出结果,计算输出结果与对应目标训练编码信息之间的损失值,例如,损失值可通过公式

具体的,梯度计算公式可表示为:

S160、根据所述转换词典对所述纠错编码序列进行逆转换得到与所述语音信息对应的文本识别信息。

根据所述转换词典对所述纠错编码序列进行逆转换得到与所述语音信息对应的文本识别信息。转换词典中包含字符与编码值的对应关系,可根据转换词典对纠错编码序列中包含的编码值进行逆转换,逆转换也即是将编码值转换为对应的字符,逆转换所得到的字符进行顺序排列即可作为与语音信息对应的文本识别信息。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含基于自然语言处理对语音信息进行智能识别的应用场景中,从而推动智慧城市的建设。

在本发明实施例所提供的基于自然语言处理的语音识别方法中,提取语音信息的音频特征信息并通过困惑网络解析得到拼音信息及初始文本信息,分别对拼音信息及初始文本信息进行转换得到拼音编码序列及初始字符编码序列并进行叠加组合得到组合编码序列,根据文本纠错模型对组合编码序列进行纠错得到纠错编码序列,对纠错编码序列进行逆转换得到文本识别信息。通过上述方法,基于上述困惑网络对语音信息进行解析,并通过文本纠错模型对组合编码序列进行纠错处理最终得到文本识别结果,可对初始识别得到的初始文本信息中存在的文本错误进行纠正,从而大幅提升对语音信息进行识别的准确率。

本发明实施例还提供一种基于自然语言处理的语音识别装置100,该基于自然语言处理的语音识别装置用于执行前述的基于自然语言处理的语音识别方法的任一实施例。具体地,请参阅图8,图8为本发明实施例提供的基于自然语言处理的语音识别装置的示意性框图,该基于自然语言处理的语音识别装置100包括音频特征信息提取单元110、初始文本信息获取单元120、编码序列获取单元130、组合编码序列获取单元140、纠错编码序列获取单元150和文本识别信息获取单元160。

音频特征信息提取单元110,用于若接收到用户输入的语音信息,根据预置的音频特征提取模型从所述语音信息中提取得到音频特征信息。

在一实施例中,所述音频特征信息提取单元110包括子单元:分帧处理单元,用于对所述语音信息进行分帧处理得到对应的多帧音频信息;音频频谱获取单元,用于根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱;频率转换单元,用于根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱;音频特征信息获取单元,用于根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频特征信息。

初始文本信息获取单元120,用于根据预置的困惑网络对所述音频特征信息进行解析得到拼音信息及初始文本信息。

在一实施例中,所述初始文本信息获取单元120包括子单元:拼音信息获取单元,用于根据所述困惑网络中标准拼音信息与标准音频特征信息的对应关系,获取与所述音频特征信息相匹配的一条拼音信息;可选文本信息获取单元,用于根据所述困惑网络中标准拼音信息与字符之间的关联关系,获取所述困惑网络中与所述拼音信息对应的字符串联形成的多条可选文本信息;可选文本信息筛选单元,用于计算所述困惑网络中每一所述可选文本信息的路径相似度,并从所述多条可选文本信息中获取路径相似度最高的一条可选文本信息作为初始文本信息。

在一实施例中,所述基于自然语言处理的语音识别装置100还包括子单元:标准音频特征信息获取单元,用于根据所述音频特征提取模型分别从预存的标准数据集合包含的标准语音信息中提取得到对应的标准音频特征信息;标准拼音信息获取单元,用于从所述标准音频特征信息中获取所述标准数据集合的标准拼音信息中与每一字符拼音对应的标准音频特征;困惑网络构建单元,用于根据所述标准数据集合中的标准文本信息及所述标准音频特征与每一所述字符拼音之间的关联关系构建得到所述困惑网络。

编码序列获取单元130,用于根据预置的转换词典分别对所述拼音信息及所述初始文本信息进行转换得到对应的拼音编码序列及初始字符编码序列。

组合编码序列获取单元140,用于对所述拼音编码序列及所述初始字符编码序列进行叠加组合得到所述语音信息的组合编码序列。

在一实施例中,所述组合编码序列获取单元140包括子单元:第一编码序列获取单元,用于将所述拼音编码序列中每一个拼音编码值与所述字符编码序列中对应的一个字符编码值进行相加,得到对应的第一编码序列;第二编码序列获取单元,用于将所述拼音编码序列中每一个拼音编码值与所述字符编码序列中对应的一个字符编码值进行顺序拼接,得到对应的第二编码序列;编码序列组合单元,用于将所述第一编码序列与所述第二编码序列进行组合作为对应的组合编码序列。

纠错编码序列获取单元150,用于将所述组合编码序列输入预置的文本纠错模型进行纠错以得到对应的纠错编码序列。

在一实施例中,所述基于自然语言处理的语音识别装置100还包括子单元:训练音频特征信息获取单元,用于根据所述音频特征提取模型分别从预存的训练数据集合包含的训练语音信息中提取得到对应的训练音频特征信息;训练音频特征信息解析单元,用于根据所述困惑网络对所述训练音频特征信息进行解析以获取训练拼音信息及训练预测文本信息;模型训练数据集合获取单元,用于将所述训练拼音信息及训练预测文本信息与所述训练数据集合中对应的训练文本信息进行组合,得到模型训练数据集合;模型训练单元,用于根据所述模型训练数据集合对初始文本纠错模型进行迭代训练,得到训练后的文本纠错模型。

在一实施例中,所述训练音频特征信息解析单元包括:训练拼音信息获取单元,用于根据所述困惑网络中标准拼音信息与标准音频特征信息的对应关系,获取与每一所述训练音频特征信息相匹配的一条训练拼音信息。备选文本信息获取单元,用于根据所述困惑网络中标准拼音信息与字符之间的关联关系,获取所述困惑网络中与每一所述训练拼音信息对应的多条备选文本信息。训练预测文本信息获取单元,用于计算所述困惑网络中每一所述备选文本信息的路径相似度,并根据所述路径相似度从所述多条备选文本信息中筛选得到满足预置筛选条件的多条备选文本信息作为对应的训练预测文本信息。

文本识别信息获取单元160,用于根据所述转换词典对所述纠错编码序列进行逆转换得到与所述语音信息对应的文本识别信息。

在本发明实施例所提供的基于自然语言处理的语音识别装置应用上述基于自然语言处理的语音识别方法,提取语音信息的音频特征信息并通过困惑网络解析得到拼音信息及初始文本信息,分别对拼音信息及初始文本信息进行转换得到拼音编码序列及初始字符编码序列并进行叠加组合得到组合编码序列,根据文本纠错模型对组合编码序列进行纠错得到纠错编码序列,对纠错编码序列进行逆转换得到文本识别信息。通过上述方法,基于上述困惑网络对语音信息进行解析,并通过文本纠错模型对组合编码序列进行纠错处理最终得到文本识别结果,可对初始识别得到的初始文本信息中存在的文本错误进行纠正,从而大幅提升对语音信息进行识别的准确率。

上述基于自然语言处理的语音识别方法可以实现为计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于自然语言处理的语音识别方法以对语音信息进行智能识别的用户终端或管理服务器。

参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于自然语言处理的语音识别方法,其中,存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于自然语言处理的语音识别方法。

该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的基于自然语言处理的语音识别方法中对应的功能。

本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。

应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现上述的基于自然语言处理的语音识别方法。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 基于自然语言处理的语音识别方法、装置、设备及介质
  • 基于语音的年龄识别方法、装置、设备及存储介质
技术分类

06120113146660