掌桥专利:专业的专利平台
掌桥专利
首页

基于热词图的语音识别方法、装置、设备及存储介质

文献发布时间:2024-07-23 01:35:21


基于热词图的语音识别方法、装置、设备及存储介质

技术领域

本申请属于语音识别技术领域,具体涉及一种基于热词图的语音识别方法、装置、电子设备及计算机可读存储介质。

背景技术

语音识别是一种将人类语音转换为文本或其他可处理格式的技术,它在各种应用场景中具有重要的价值,例如智能助理、语音搜索、语音翻译、语音输入等。语音识别的准确性和效率直接影响用户的体验和满意度,因此提高语音识别的性能是一个重要的研究课题。

现有的语音识别技术通常采用基于热词图的方法,即根据语音的声学特征,在一个预先构建的热词图中搜索最佳的匹配路径,从而确定语音识别的结果。通过比较热词图中标定的概率值,从而快速地找到与语音最相似的文字序列,从而实现语音识别。

然而,现有的基于热词图的语音识别技术存在一些技术问题,主要是在环境噪声较大的情况下,语音的声学特征会受到干扰,导致热词被选中的可能性被升高,造成选词不准确,从而影响语音识别的结果。

发明内容

本申请旨在提供一种基于热词图的语音识别方法、装置、电子设备及计算机可读存储介质,至少解决在语音识别过程中,由于环境噪音引起的识别不准确的问题。

第一方面,本申请实施例公开了一种基于热词图的语音识别方法,包括:

将获取的语音文件切分为多个语音片段,并提取所述语音片段的声学特征;

根据所述声学特征和预设的关系图,获得所述声学特征的声学识别结果;所述声学识别结果包括关系图中预设定的词语以及与所述预设定的词语对应的声学概率;所述声学概率用于表征与所述声学特征与所述词语的匹配程度;

基于预设的热词图,从所述声学识别结果包括的所有词语中筛选获得与所述声学特征对应的至少一个目标词语,并获得与每个所述目标词语对应的热词概率;所述热词概率用于表征所述目标词语作为热词的概率;

根据所述声学识别结果,确定修正参数,并通过所述修正参数修正所述热词概率,以使得所述热词概率后续参与计算时的比重与环境的嘈杂度呈负相关关系;

根据所述声学识别结果和修正后的热词概率,计算每个所述词语的综合得分,并根据所述综合得分,从所有所述词语中选取与所述语音片段对应的输出词语,以及将所有输出词语拼接获得所属语音文件的识别文本。

第二方面,本申请实施例还公开了一种基于热词图的语音识别装置,包括:

声学特征模块,用于将获取的语音文件切分为多个语音片段,并提取所述语音片段的声学特征;

词语模块,用于根据所述声学特征和预设的关系图,获得所述声学特征的声学识别结果;所述声学识别结果包括关系图中预设定的词语以及与所述预设定的词语对应的声学概率;所述声学概率用于表征与所述声学特征与所述词语的匹配程度;

热词概率模块,用于基于预设的热词图,从所述声学识别结果包括的所有词语中筛选获得与所述声学特征对应的至少一个目标词语,并获得与每个所述目标词语对应的热词概率;所述热词概率用于表征所述目标词语作为热词的概率;

修正参数模块,用于根据所述声学识别结果,确定修正参数,并通过所述修正参数修正所述热词概率,以使得所述热词概率后续参与计算时的比重与环境的嘈杂度呈负相关关系;

词语选择模块,用于根据所述声学识别结果和修正后的热词概率,计算每个所述词语的综合得分,并根据所述综合得分,从所有所述词语中选取与所述语音片段对应的输出词语,以及将所有输出词语拼接获得所属语音文件的识别文本。

第三方面,本申请实施例还公开了一种电子设备,包括处理器和存储器、所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面,本申请实施例还公开了一种可读存储介质,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

综上,在本申请实施例中,在热词搜索的过程中,利用了在嘈杂环境下,在关系图中每个词语的声学概率平均化,造成每一帧的声学得分的最大值会下降,进而产生热词概率后续参与计算时的比重与环境的嘈杂度呈负相关关系的特性,在候选词的评估过程中利用热词概率的数字特征对热词识别结果进行调整,以适应不同的环境噪音条件;使得在通过热词识别结果和关系图识别结果计算候选词的综合得分的过程中,可以综合考虑热词识别结果和环境嘈杂度对语音识别的影响,保证了在声音嘈杂的环境下热词概率在综合得分中的比重下降,而在声音安静的环境下,热词概率在综合得分中的比重的不产生明显变化,进而提高了语音识别的准确性和完整性。由此,基于本申请实施例的方法,在环境噪音较大时,可以有效地降低语音的声学特征受到干扰的影响,解决了相关技术中,由于环境嘈杂,造成的语音识别的结果不准确,影响用户的体验和满意度的问题。

附图说明

在附图中:

图1是本实施例提供的一种基于热词图的语音识别方法的步骤流程图;

图2为申请实施例提供的一种基于热词图的语音识别方法的关系图匹配原理示意图;

图3为申请实施例提供的一种基于热词图的语音识别方法的热词图匹配原理示意图;

图4为申请实施例提供的另一种基于热词图的语音识别方法的步骤流程图;

图5是本申请实施例提供的一种基于热词图的语音识别装置的框图;

图6是本申请实施例提供的一个实施例的电子设备的框图;

图7是本申请实施例提供的另一个实施例的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

本申请中:

语音识别(AutomaticSpeechRecognition,ASR)指的是将语音识别成文字的过程。

热词增强(ContextBiasing或ContextualBiasing)指的是在语音识别的实际应用中,由于对于常用的词汇识别效果比较好,但是对于一些特有的人名、歌名、地名或者某个领域的专有词汇,可能存在识别准确率不高的情况,针对于这些专有词汇,通过在识别过程中使用特定词汇增强选择的方案,添加热词可以显著提升识别的准确率。热词增强的过程,即相当于是把一些先验的知识加入到了语音识别系统中。

图1是本实施例提供的一种基于热词图的语音识别方法。

方法可以包括如下步骤:

步骤101,将获取的语音文件切分为多个语音片段,并提取所述语音片段的声学特征。

在本步骤中,语音文件是由用户通过麦克风或其他输入设备输入的一段连续的语音信号,可以包含一个或多个词语。语音片段是指语音文件中的一小段语音信号,通常以时间为单位进行切分。声学特征是指语音片段中的一些特征参数,如音高、音强、音色、音长等,可以用于描述语音片段的声音属性。提取声学特征的方法可以有多种,如短时傅里叶变换、线性预测编码、梅尔频率倒谱系数等,可以将语音片段转换为一些数值向量,以便于后续的处理和分析。

例如,假设获取的语音文件是用户说的一句话:“今天天气很好,我们去公园玩吧。”那么,可以将这个语音文件切分为二十个语音片段。然后,可以使用梅尔频率倒谱系数的方法,对每个语音片段提取其声学特征,得到一些数值向量,如片段1对应的声学特征向量可以是[0.12,-0.34,0.56,…],片段2对应的声学特征向量可以是[-0.23,0.45,-0.67,…]。

在一般情况下,语音片段的长度都比较短,如25毫秒左右,在此情况下,存在多个语音片段所对应一个字的情况。

步骤102,如图2所示,根据所述声学特征和预设的关系图,获得所述声学特征的声学识别结果;所述声学识别结果包括关系图中预设定的词语以及与所述预设定的词语对应的声学概率;所述声学概率用于表征与所述声学特征与所述词语的匹配程度。

在本步骤中,关系图是一种用于表示声学特征与词语之间的关联关系的映射,可以包含多个节点和边。节点代表词语中的字,边代表声学特征与字之间在概率上的关联程度,边的权重越大,表示声学特征所对应的语音片段的含义为节点的字的可能性越高。关系图可以根据语料库或词典等数据源构建,也可以根据用户的偏好或场景进行调整。关系图的特点在于,图中每一个声学特征与每一个关系图中的词语之间均存在一个关联的概率,但不同的声学特征与不同的词语之间的关联的概率大小不同,而这个大小即为声学特征相对于每个词语的声学概率。

例如,如图2所示,假设获取得到的语音片段的声学特征向量是[0.12,-0.34,0.56,…],关系图中共五个词,声学特征向量关联到“今天”的概率是0.70,关联到“晴天”的概率是0.27,关联到“天气”的概率是0.01,关联到“电器”的概率是0.01,关联到“天启”的概率是0.01。

步骤103,如图3所示,基于预设的热词图,从所述声学识别结果包括的所有词语中筛选获得与所述声学特征对应的至少一个目标词语,并获得与每个所述目标词语对应的热词概率;所述热词概率用于表征所述目标词语作为热词的概率。

在本步骤中,热词图是一种用于表示词语的语义上下文的图形结构,可以包含多个节点和边。节点代表词语,边代表词语之间的语义关系,边的权重用数字表示。热词图用于表示词语的语义上下文,语义关系越强,表示词语之间的关联越紧密。热词图的工作原理是,将词语在热词图中搜索,得到与之最相关的一个候选词。进而可以确定在热词存在的情况下,候选词的热词概率,以便于后续的选择。

例如,如图3所示的一个热词图,图中省去了回退弧,选词的权重文字下方数字为热词搜索时相应字的热词概率,假设一个候选词是“北京”,热词图中存储了以下的词语和子概率:北-0.2、京-0.3、极-0.1、方-0.1、北大-0.05、学-0.02、烤-0.2、鸭-0.1;那么,可以从热词图中找到与候选词“北京”匹配的目标词语,即“北京”、“北京大学”和“北京烤鸭”,以及与目标词语对应的子概率。然后,可以将目标词语中相邻两个字符组合成为热词的子概率的加和结果,作为候选词的热词概率,即热词概率(北京)=0.2+0.3=0.5,热词概率(北京大学)=0.2+0.3+0.05+0.02=0.57,热词概率(北京烤鸭)=0.2+0.3+0.2+0.1=0.8;这样,候选词就可以用一个热词概率来表示。这个热词概率就是候选词的热词概率,可以用于后续的比较和选择。

步骤104,根据所述声学识别结果,确定修正参数,并通过所述修正参数修正所述热词概率,以使得所述热词概率后续参与计算时的比重与环境的嘈杂度呈负相关关系。

在本步骤中,修正参数是一种用于调节热词识别结果的权重的数值,可以根据环境的嘈杂程度进行动态变化。修正后的热词识别结果是指根据修正参数对热词识别结果进行加权平均或其他运算,得到新的热词概率。修正后的热词识别结果的特点是,它在后续参与计算时的比重与环境的嘈杂度呈负相关关系,即当环境噪音较大时,修正后的热词概率在评价时的比重较低,而当环境噪音较小时,修正后的热词概率在评价时的比重较高。

本步骤中,利用修正参数和修正后的热词识别结果,提高语音识别的准确性和完整性。修正参数和修正后的热词识别结果可以有效地降低环境噪音对语音识别的干扰,使得热词识别结果在后续的计算中更加合理地分配权重,从而提高候选词的综合得分的合理性,进而提高目标词语的选择准确率,以及最终的识别文本的质量。

由于在较大环境噪声的环境下,噪声对于声音特征的模糊化影响,将会导致关系图中每个词的声学概率呈现平均,而由于概率的归一性属性,各个词的声学概率的总和始终为1,因此在声学概率呈现平均的情况下,声学识别结果的概率指标将会相应下降,即声学识别结果的准确度和环境的嘈杂程度呈负相关关系,也就是说当环境噪音较大时,将造成每个词语对应的声学概率平均化,进而影响热词识别结果的可信度,因此本申请实施例中,将热词识别结果转化为一个对于环境噪声程度的度量,用以对热词修正的结果进行修正。

步骤105,根据所述声学识别结果和修正后的热词概率,计算每个所述词语的综合得分,并根据所述综合得分,从所有所述词语中选取与所述语音片段对应的输出词语,以及将所有输出词语拼接获得所属语音文件的识别文本。

在本步骤中,综合得分是一种用于综合评价候选词的质量的数值,可以根据热词识别结果和修正后的热词识别结果进行加权平均或其他运算。输出词语是指在所有候选词中,与语音片段最匹配的词语,可以根据综合得分的大小,从大到小排序,选择最高分的词语。识别文本是指将所有目标词语按照语音片段的顺序拼接起来,形成完整的语音文件的文本表示。

在本步骤中,利用了综合得分确定目标词语,完成语音识别的最后一步。综合得分可以有效地提高语音识别的准确性和完整性,使得识别文本能够尽可能地还原语音文件的内容和意义。

例如某语音片段A,声学概率为:“今天”-0.66;“晴天”-0.34;修正后的热词概率为:“今天”-0.73;“晴天”-0.27;那么“今天”的综合得分为0.66+0.73=1.39;“晴天”的综合得分为0.34+0.27=0.61;通过比较两个候选词的综合得分,即可快速判断语音片段A的目标词语应当为“今天”;而在获取多个语音片段之后,只需要按照语序将其拼接,即可获得完整的语音文件的文本,如获取到的多个语音片段的文本分别为“今天”、“天气”、“晴朗”、“无云”,那么最终获得的完整语音文件的文本即为“今天天气晴朗无云”。

综上,在本申请实施例中,在热词搜索的过程中,利用了在嘈杂环境下,在关系图中每个词语的声学概率平均化,造成每一帧的声学得分的最大值会下降,进而产生热词概率后续参与计算时的比重与环境的嘈杂度呈负相关关系的特性,在候选词的评估过程中利用热词概率的数字特征对热词识别结果进行调整,以适应不同的环境噪音条件;使得在通过热词识别结果和关系图识别结果计算候选词的综合得分的过程中,可以综合考虑热词识别结果和环境嘈杂度对语音识别的影响,保证了在声音嘈杂的环境下热词概率在综合得分中的比重下降,而在声音安静的环境下,热词概率在综合得分中的比重的不产生明显变化,进而提高了语音识别的准确性和完整性。由此,基于本申请实施例的方法,在环境噪音较大时,可以有效地降低语音的声学特征受到干扰的影响,解决了相关技术中,由于环境嘈杂,造成的语音识别的结果不准确,影响用户的体验和满意度的问题。

图4为申请实施例提供的另一种基于热词图的语音识别方法,参照图4,方法可以包括如下步骤:

步骤201,将获取的语音文件切分为多个语音片段,并提取所述语音片段的声学特征。

本步骤所示方法在步骤101中已作说明,此处不再赘述。

可选的,步骤201包含以下子步骤:

子步骤2011,增强所述语音片段中的高频信号,以获得预加重信号。

本申请的一些实施例中,预加重信号是指对语音信号的高频部分进行加权处理,以提高语音的高频分辨率,消除口唇辐射的影响,减小信噪比。预加重信号的方法有很多,可通过一阶差分、一阶高通滤波器等方法实现。

经过预加重后,语音信号的高频部分会被放大,而低频部分会被减小,从而增强了语音的高频特征。

子步骤2012,将所述预加重信号按照预设的时间周期截断,并在截断的位置增加空白信号,以获得加窗信号。

在本申请的一些实施例中,加窗信号是指对语音信号进行时域上的分割和平滑处理,以减少信号两端的突变,从而降低频谱泄漏。加窗信号的方法有很多,可通过矩形窗、汉明窗、汉宁窗、布莱克曼窗等方法实现。

经过加窗后,语音信号的两端会被平滑,而中间部分会被保留,从而减少了信号的突变和频谱泄漏。

子步骤2013,根据所述加窗信号,获取所述语音的声学特征。

本申请的一些实施例中,声学特征是指反映语音信号的频率、能量、时长等信息的一组参数,可以用于区分不同的语音单元,如音素、音节、词等。获取声学特征的方法有很多,可以通过有梅尔频率倒谱系数、线性预测系数、感知线性预测系数等方法实现。

例如,假设使用梅尔频率倒谱系数方法获取声学特征,其基本步骤如下:对加窗信号进行快速傅里叶变换,得到语音的频谱;对频谱进行梅尔滤波器组的滤波,得到语音的梅尔频谱;对梅尔频谱进行对数运算,得到语音的梅尔对数频谱;对梅尔对数频谱进行离散余弦变换,得到语音的梅尔频率倒谱系数;对梅尔频率倒谱系数进行倒谱平均归一化,得到语音的归一化梅尔频率倒谱系数。这样,每个加窗信号就可以用一组归一化梅尔频率倒谱系数来表示,例如,第一个加窗信号可以用[0.12,-0.34,0.56,…]来表示,第二个加窗信号可以用[0.23,-0.45,0.67,…]来表示,以此类推。这些归一化梅尔频率倒谱系数就是语音的声学特征,可以用于后续的语音识别过程。

可选的,子步骤2013包含以下子步骤:

子步骤20131,获取所述加窗信号频域上的特征函数。

在本申请的一些实施例中,特征函数是指反映信号在频域上的幅度、相位、能量等信息的一组函数,可以用于描述信号的频率特性。获取特征函数的方法有很多,可以通过快速傅里叶变换、短时傅里叶变换、小波变换等方法实现。经过本步骤处理后,信号的频率特性可以更清晰地展现出来,从而便于进行频域分析。

子步骤20132,根据预设的区分函数和所述特征函数,获取所述语音的声学特征;所述区分函数用以表征声音信号在频域上对人耳的敏感程度的差别。

声学特征是指反映语音信号的频率、能量、时长等信息的一组参数,可以用于区分不同的语音单元,如音素、音节、词等。区分函数是指用以表征声音信号在频域上对人耳的敏感程度的差别的一组函数,可以用于对特征函数进行变换,从而得到更符合人耳听觉特性的声学特征。区分函数的方法有很多,可以通过有梅尔刻度、巴克刻度、埃尔布刻度等方法实现。

步骤202,根据所述声学特征和预设的关系图,获得所述声学特征的声学识别结果;所述声学识别结果包括关系图中预设定的词语以及与所述预设定的词语对应的声学概率;所述声学概率用于表征与所述声学特征与所述词语的匹配程度。

本步骤所示方法在步骤102中已作说明,此处不再赘述。

步骤203,基于预设的热词图,从所述声学识别结果包括的所有词语中筛选获得与所述声学特征对应的至少一个目标词语,并获得与每个所述目标词语对应的热词概率;所述热词概率用于表征所述目标词语作为热词的概率。

本步骤所示方法在步骤103中已作说明,此处不再赘述。

可选的,所述热词图中包含每个所述热词的评分以及每个所述热词的热词概率,步骤203包括子步骤2031和子步骤2032:

子步骤2031,利用关系图中的词语与热词图中的热词进行匹配,并确定与关系图中的词语匹配的目标热词的评分。

在本申请的一些实施例中,热词概率是指关系图中的词语在热词图中被找到时被预设的的概率值。热词图是指存储了多个词语,以及词语中相邻两个字符组合成为热词的子概率的一种数据结构,可以用于快速查找和比较热词。

例如,在如图3所示的一个热词图中,图中省去了回退弧与选词的权重说明,假设一个候选词是“北京”,热词图中存储了以下的词语和子概率:北京-0.8、北极-0.1、北方-0.05、北京大学-0.7、北京烤鸭-0.6。

子步骤2032,在所述目标热词的评分超过预设的热词评分阈值的情况下,将关系图的词语确定为目标词语,并将目标热词的热词概率作为目标词语的热词概率。

在本申请的一些实施例中,为了选取到合适的目标热词,预设了用以评价热词评分的热词评分阈值;只有当热词图中的某个词的热词评分超过预设的热词评分阈值之后,才会将关系图中的词语选定为目标词语,并获取目标词语的热词概率。

例如,如图3所示,假设图中各个词的热词评分分别为:北京-3、北极-2、北方-2、北京大学-4、北京烤鸭-4,而预设的热词评分阈值为2,那么超过预设的热词评分阈值的词汇分别为:北京、北京大学、北京烤鸭;所以目标词语就是:北京、北京大学、北京烤鸭。此时将会进一步获取目标词语的热词概率,即“北京”-0.8、“北京大学”-0.7和“北京烤鸭”-0.6。这些热词概率就是目标词语的热词概率,可以用于后续的比较和选择。

步骤204,将所述声学识别结果包含的词语中,声学概率最大的词语对应的声学概率作为所述修正参数。

本步骤中,修正参数的选择应该反映环境噪音的程度,即噪音越大,修正参数越小,热词识别结果的影响越小。为了简化计算,本实施例采用了一种简单的方法,即将所有候选词的热词概率中,数值最大的热词概率作为修正参数。这样,当候选词数增多时,最大的声学概率会下降,修正参数也会下降,从而降低热词识别结果的影响。

例如,假设一个语音片段的候选词有五个,分别是“北京”、“北极”、“北方”、“北斗”和“北美”它们的声学概率分别是0.4、0.3、0.2、0.05和0.05。那么,可以将0.4作为修正参数,用于后续的计算。但在嘈杂环境下,它们的热词概率将会分布较为平均,比如,分别是0.25、0.23、0.22、0.20和0.10。那么,此时0.25将作为修正参数,用于后续的计算。可以看出,当环境嘈杂时,修正参数会下降,热词识别结果的影响会减小。

步骤205,计算每个所述候选词的热词概率的对数值。

本步骤中,将每个候选词的热词概率转换为对数值,以便于后续的计算。对数值是指以某个数为底的指数,可以用于表示一个数的大小。对数值的性质有很多,常见的有对数函数是单调递增函数、对数函数是凹函数、对数函数的导数是反比例函数等。使用对数值的好处有很多,例如,可以将乘法运算转换为加法运算、可以将指数运算转换为乘法运算、可以将非线性关系转换为线性关系等。

例如,假设一个语音片段声学概率前三的候选词分别是“北京”、“北极”和“北方”,它们的声学概率分别是0.8、0.1和0.05。那么,可以使用自然对数函数ln(x)计算每个候选词的热词概率的对数值,即ln(0.8)=-0.22,ln(0.1)=-2.30,ln(0.05)=-2.99。这样,每个候选词就可以用一个对数值来表示,例如,“北京”可以用-0.22来表示,“北极”可以用-2.30来表示,以此类推。这些对数值就是每个候选词的热词概率的对数值,可以用于后续的计算。

步骤206,分别求得每个所述对数值与所述修正参数的乘积,并将所有所述乘积作为修正后的热词识别结果。

本步骤中,通过修正参数调整每个候选词的热词概率的对数值,以降低热词识别结果的影响。修正参数是根据环境噪音的程度确定的,即噪音越大,修正参数越小,热词识别结果的影响越小。通过修正参数与每个候选词的热词概率的对数值相乘,可以实现对热词概率的对数值的缩放,使得在噪音大的环境下,热词概率的对数值变小,而在噪音小的环境下,热词概率的对数值不变或变化不大。

例如,假设一个语音片段声学概率排前三的候选词分别是“北京”、“北极”和“北方”,它们的声学概率分别是0.8、0.1和0.05,修正参数是0.8。那么,可以分别求得每个候选词的热词概率的对数值与修正参数的乘积,即ln0.8×0.8=-0.22×0.8=-0.18,ln0.1×0.8=-2.30×0.8=-1.84,ln0.05×0.8=-2.99×0.8=-2.39。这样,每个候选词就可以用一个乘积来表示,例如,“北京”可以用-0.18来表示,“北极”可以用-1.84来表示,以此类推。这些乘积就是修正后的热词识别结果,可以用于后续的计算。可以看出,当修正参数为0.8时,热词概率的对数值的变化不大,说明环境噪音较小。如果修正参数为0.6时,那么乘积分别为-0.22×0.6=-0.13,-2.30×0.6=-1.38,-2.99×0.6=-1.79。可以看出,当修正参数为0.6时,环境噪音较大,此时热词概率的对数值变小。

步骤207,将所述关系图识别结果中与所述词语对应的声学概率的对数值、修正后的热词识别结果,按照预设的针对所述修正后的热词识别结果中所有乘积设置的权重值,进行加权求和,并将计算结果作为所述热词的综合得分。

本步骤的目的是根据关系图中的词的候选声学概率、修正后的热词识别结果和权重值,计算每个候选词的综合得分。综合得分是指综合考虑候选词的声学特征和热词特征的一个评价指标,可以用于比较不同的候选词的优劣。综合得分的计算方法是将候选词的候选声学概率的对数值、修正后的热词识别结果,以及针对修正后的热词识别结果中每个乘积设置的权重值,进行加权求和。权重值是用于调节不同因素对综合得分的贡献的一个系数,可以根据实际情况进行设定。

例如,假设一个语音片段的声学概率前三的候选词,分别是“北京”、“北极”和“北方”,它们的候选声学概率分别是0.6、0.2、0.1。那么,可以分别计算每个候选词的综合得分,即

综合得分(北京)=0.5×ln(0.6)+0.5×(-0.22×0.8)=-0.51+(-0.09)=-0.6;

综合得分(北极):=0.5×ln(0.2)+0.5×(-2.30×0.8)=-0.80+(-0.92)=-1.72;

综合得分(北方):=0.5×ln(0.1)+0.5×(-2.99×0.8)=-1.15+(-1.20)=-2.35;

这样,每个候选词就可以用一个综合得分来表示,例如,“北京”可以用-0.6来表示,“北极”可以用-1.72来表示,以此类推。这些综合得分就是每个候选词的综合得分,可以用于后续的比较。

可选的,所述综合得分通过以下公式确定:

y

其中,y*表示所述综合得分,P(y|x)表示所述声学概率;Ts表示所述修正参数;P

本公式中,综合得分是指综合考虑候选词的声学特征和热词特征的一个评价指标,可以用于比较不同的候选词的优劣。综合得分的计算方法是将候选词的声学概率的对数值、修正后的热词识别结果,以及针对修正后的热词识别结果中每个乘积设置的权重值,进行加权求和。

例如,例如“上地”为一个地名,在一些场景下需要被识别为输出词语。而“上帝”是常用词,当用户发音是汉语拼音中的“shangdi”时,一般会识别为“上帝”。此时需要通过添加热词的方式,即加“上地”热词,当发音是汉语拼音中的“shangdi”时,就可以识别为“上地”:

发音是汉语拼音中的“shangdi”的声音,两个字的识别候选声学概率结果分别是:

上:0.995291,尚:0.001535,汤:0.000607,胜:0.000602,项:0.000389;帝:0.525626,地:0.423410,弟:0.009881,第:0.009518,D:0.009467;

上述声学概率在取对数之后的值为:

上:-0.00472,尚:-6.47922,汤:-7.40698,胜:-7.41525,项:-7.85193;帝:-0.643,地:-0.8594,弟:-4.6171,第:-4.65457,D:-4.6599。

如果不添加热词,“上”“帝”两个字的得分最高,识别结果会是“上帝”。若以0.7的权重加入热词的概率,则“上帝”的得分为-0.00472-0.643=-0.64772,"上地"的得分为:-0.00472-0.8594+0.7=-0.16412。则此时的识别结果为“上地”。

而当待识别的声音质量较差时,如噪音较大时,由于噪声导致各个字声学概率平均化,每个字的声学概率表现为偏低。此时一旦待识别声音的发音和热词稍微有点相像,也都会被纠正为热词,例如“三D”,“三体”,“山地”等,下面列了一个带噪音的发音是汉语拼音中的“santi”时的结果候选:

三:0.369952,山:0.237629,上:0.232995,伞:0.053558,叁:0.033055;体:0.470968,地:0.378522,题:0.150057,低:0.000042,题:0.000026;

上述声学概率在取了对数之后的值为:

三:-0.994,山:-1.43704,上:-1.4567,伞:-2.92699,叁:-3.40958,体:-0.75296,地:-0.97148,题:-1.8967,低:-10.0778,题:-10.5574。

若此时加热词,虽然“上”“地”候选的排名很靠后,但加了热词后“上地”的得分为-1.4567-0.97148+0.7=-1.72818,超过了“三体”-0.994-0.75296=-1.74696的得分。

而在采用本申请的方法后,“上地”的得分为:-1.4567-0.97148+(0.369952+0.470968)/2*0.7=-2.133858。不会超过“三体”的得分,从而不会误报而对应上面声音清楚发音是汉语拼音中的“shangdi”的例子,采用本申请的方案后,“上地”的得分为-0.00472-0.8594+(0.995291+0.525626)/2*0.7=-0.33179905,仍会超过“上帝”的-0.64772,热词依然有效。

需要强调的是,本申请的方法用以避免热词参与输出词语的选择的过程中对热词在计算过程中的比重的限制,在本申请的方案中,如果在某些情况下从热词图中无法匹配到对应的热词的情况,此时实际参与计算仅有声学概率相关的项,而在热词不参与评价的过程中,直接将上述公式中λ·Ts·logP

步骤208,将所述综合得分最高的热词选取为输出词语。

本步骤中,目标词语是指与语音片段最匹配的词语,可以用于构成语音文件的识别文本。选择目标词语的方法是比较不同候选词的综合得分,选择综合得分最高的候选词作为目标词语。综合得分最高的候选词意味着更有可能是正确的词语。

例如,假设一个语音片段声学概率前三的候选词分别是“北京”、“北极”和“北方”,它们的综合得分分别是-0.34、-1.72和-2.35。那么,可以将综合得分最高的候选词“北京”选取为目标词语。这样,可以认为这个语音片段对应的词语是“北京”,并将其用于拼接语音文件的识别文本。

步骤209,将所有目标词语拼接获得所属语音文件的识别文本。

本步骤中,识别文本是指语音文件的文字表达,可以用于显示、存储或传输语音信息。拼接目标词语的方法是按照语音片段的顺序,将每个语音片段对应的目标词语连接起来,形成一个完整的句子或段落。

例如,假设一个语音文件包含六个语音片段,分别对应六个语音内容:“我”、“想”、“去”、“北”、“京”、“旅”、“游”。假设每个语音片段的目标词语都是与之相同的语音内容,那么,可以将这六个目标词语拼接起来,形成识别文本:“我想去北京旅游。”这样,就可以将这个语音文件的内容用文字表达出来。

综上,在本申请实施例中,在热词搜索的过程中,利用了在嘈杂环境下,在关系图中每个词语的声学概率平均化,造成每一帧的声学得分的最大值会下降,进而产生热词概率后续参与计算时的比重与环境的嘈杂度呈负相关关系的特性,在候选词的评估过程中利用热词概率的数字特征对热词识别结果进行调整,以适应不同的环境噪音条件;使得在通过热词识别结果和关系图识别结果计算候选词的综合得分的过程中,可以综合考虑热词识别结果和环境嘈杂度对语音识别的影响,保证了在声音嘈杂的环境下热词概率在综合得分中的比重下降,而在声音安静的环境下,热词概率在综合得分中的比重的不产生明显变化,进而提高了语音识别的准确性和完整性。由此,基于本申请实施例的方法,在环境噪音较大时,可以有效地降低语音的声学特征受到干扰的影响,解决了相关技术中,由于环境嘈杂,造成的语音识别的结果不准确,影响用户的体验和满意度的问题。

参考图5,其示出了本申请实施例提供的一种基于热词图的语音识别装置30,包括:

声学特征模块301,用于将获取的语音文件切分为多个语音片段,并提取所述语音片段的声学特征;

词语模块302,用于根据所述声学特征和预设的关系图,获得所述声学特征的声学识别结果;所述声学识别结果包括关系图中预设定的词语以及与所述预设定的词语对应的声学概率;所述声学概率用于表征与所述声学特征与所述词语的匹配程度;

热词概率模块303,用于基于预设的热词图,从所述声学识别结果包括的所有词语中筛选获得与所述声学特征对应的至少一个目标词语,并获得与每个所述目标词语对应的热词概率;所述热词概率用于表征所述目标词语作为热词的概率;

修正参数模块304,用于根据所述声学识别结果,确定修正参数,并通过所述修正参数修正所述热词概率,以使得所述热词概率后续参与计算时的比重与环境的嘈杂度呈负相关关系;

词语选择模块305,用于根据所述声学识别结果和修正后的热词概率,计算每个所述词语的综合得分,并根据所述综合得分,从所有所述词语中选取与所述语音片段对应的输出词语,以及将所有输出词语拼接获得所属语音文件的识别文本。

可选的,所述热词图中包含每个所述热词的评分以及每个所述热词的热词概率,热词概率模块303包括:

热词匹配子模块,用于利用关系图中的词语与热词图中的热词进行匹配,并确定与关系图中的词语匹配的目标热词的评分;

目标词子模块,用于在所述目标热词的评分超过预设的热词评分阈值的情况下,将关系图的词语确定为目标词语,并将目标热词的热词概率作为目标词语的热词概率。

可选的,修正参数模块304包括:

修正参数子模块,用于将所述声学识别结果包含的词语中,声学概率最大的词语对应的声学概率作为所述修正参数。

可选的,所述修正参数为:所述声学识别结果的词语中,声学概率最大的词语的声学概率;

修正参数模块304包括:

热词概率对数子模块,用于计算每个所述热词的热词概率的对数值;

乘积子模块,用于分别求得每个所述对数值与所述修正参数的乘积,并将每个所述乘积作为修正后的热词识别结果;

加权求和子模块,用于将所述关系图识别结果中与所述词语对应的声学概率的对数值、修正后的热词识别结果,按照预设的针对所述修正后的热词识别结果中所有乘积设置的权重值,进行加权求和,并将计算结果作为所述热词的综合得分;

输出词语子模块,用于将所述综合得分最高的热词选取为输出词语。

可选的,声学特征模块301包括:

预加重子模块,用于增强所述语音片段中的高频信号,以获得预加重信号;

加窗子模块,用于将所述预加重信号按照预设的时间周期截断,并在截断的位置增加空白信号,以获得加窗信号;

声学特征子模块,用于根据所述加窗信号,获取所述语音的声学特征。

可选的,声学特征子模块包括:

频域特征单元,用于获取所述加窗信号频域上的特征函数;

区分修正单元,用于根据预设的区分函数和所述特征函数,获取所述语音的声学特征;所述区分函数用以表征声音信号在频域上对人耳的敏感程度的差别。

综上,在本申请实施例中,在热词搜索的过程中,利用了在嘈杂环境下,在关系图中每个词语的声学概率平均化,造成每一帧的声学得分的最大值会下降,进而产生热词概率后续参与计算时的比重与环境的嘈杂度呈负相关关系的特性,在候选词的评估过程中利用热词概率的数字特征对热词识别结果进行调整,以适应不同的环境噪音条件;使得在通过热词识别结果和关系图识别结果计算候选词的综合得分的过程中,可以综合考虑热词识别结果和环境嘈杂度对语音识别的影响,保证了在声音嘈杂的环境下热词概率在综合得分中的比重下降,而在声音安静的环境下,热词概率在综合得分中的比重的不产生明显变化,进而提高了语音识别的准确性和完整性。由此,基于本申请实施例的方法,在环境噪音较大时,可以有效地降低语音的声学特征受到干扰的影响,解决了相关技术中,由于环境嘈杂,造成的语音识别的结果不准确,影响用户的体验和满意度的问题。

参照图6,电子设备500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)接口512,传感器组件514,以及通信组件516。

处理组件502通常控制电子设备500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。

存储器504用于存储各种类型的数据以支持在电子设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,多媒体等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件506为电子设备500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为电子设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在电子设备500和用户之间的提供一个输出接口的界面。在一些实施例中,界面可以包括液晶显示器(LCD)和触摸面板(TP)。如果界面包括触摸面板,界面可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的分界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当电子设备500处于操作模式,如拍摄模式或多媒体模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510用于输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当电子设备500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。

输入/输出I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器,用于为电子设备500提供各个方面的状态评估。例如,传感器组件515可以检测到电子设备500的打开/关闭状态,组件的相对定位,例如组件为电子设备500的显示器和小键盘,传感器组件514还可以检测电子设备500或电子设备500一个组件的位置改变,用户与电子设备500接触的存在或不存在,电子设备500方位或加速/减速和电子设备500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件515还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件516用于便于电子设备500和其他设备之间有线或无线方式的通信。电子设备500可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于实现本申请实施例提供的一种基于热词图的语音识别方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由电子设备500的处理器520执行以完成上述方法。例如,非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是本发明另一个实施例的电子设备600的框图。例如,电子设备600可以被提供为一服务器。参照图7,电子设备600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行本申请实施例提供的一种基于热词图的语音识别方法。

电子设备600还可以包括一个电源组件626被配置为执行电子设备600的电源管理,一个有线或无线网络接口650被配置为将电子设备600连接到网络,和一个输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

相关技术
  • 语音类别的识别方法、装置、计算机设备和存储介质
  • 实时语音识别方法、装置、设备及存储介质
  • 语音识别方法、装置、计算机设备及存储介质
  • 语音识别方法、装置、计算机设备及存储介质
  • 语音识别方法、装置、设备及存储介质
  • 基于热词图的语音识别方法、装置、设备及存储介质
  • 热词增强的语音识别方法以及装置、存储介质、电子装置
技术分类

06120116679056