掌桥专利:专业的专利平台
掌桥专利
首页

语音解析方法及装置、智能设备、介质和计算机程序产品

文献发布时间:2024-04-18 19:58:30


语音解析方法及装置、智能设备、介质和计算机程序产品

技术领域

本发明涉及语音解析技术领域,具体而言,涉及一种语音解析方法及装置、智能设备、介质和计算机程序产品。

背景技术

目前,在进行语音解析时,通常采用音素分类建模算法以及二分类算法等语音解析算法。然而,音素分类建模算法通常要依赖于音素级别的对齐信息,其在带噪环境下的分类结果不够准确,并且,其在对干净语音的对齐信息进行修改时,操作较为复杂,容易产生偏差或者错误;而对于二分类算法,其内部建模不够精细。因此,在通过上述两种语音解析算法进行语音解析时,语音解析的准确性均较低,降低了语音解析效率。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此,本发明的第一个方面在于提出一种语音解析方法。

本发明的第二个方面在于提出一种语音解析装置。

本发明的第三个方面在于提出另一种语音解析装置。

本发明的第四个方面在于提出一种智能设备。

本发明的第五个方面在于提出一种可读存储介质。

本发明的第六个方面在于提出一种计算机程序产品。

有鉴于此,根据本发明的一个方面,提出了一种语音解析方法,该方法包括:获取第一语音采样信息;对第一语音采样信息进行特征提取,得到第一语音特征;利用第一模型处理第一语音特征,得到第一音素信息;对第一音素信息进行解码,得到解码结果;其中,第一模型是基于卷积神经网络和分类模型训练得到的。

具体地,在本发明所提供的语音解析方法中,在进行语音解析的过程中,对用户声音进行采集,获取得到用户的第一语音采样信息,进而提取用户的第一语音采样信息的语音特征,得到第一语音特征。进一步地,将提取到的第一语音特征输入至第一模型中,该第一模型为对分类模型以及卷积神经网络进行训练后得到的多音素分类模型。在此基础上,通过第一模型对提取到的第一语音特征进行分类处理和打分处理,得到包含第一语音特征的分类结果和打分结果的第一音素信息,进而对处理得到的第一音素信息进行解码,得到解码结果。这样,基于分类模型以及卷积神经网络训练得到的多音素分类模型进行语音解析,相较于传统的音素算法,无需做信息对齐,在保证高建模区分度的同时,简化训练过程,提高了语音解析的准确性,进而提高了语音解析效率。

根据本发明的上述语音解析方法,还可以具有以下附加技术特征:

在一些技术方案中,可选地,第一音素信息包括第一语音采样信息中的多个音素,在对第一音素信息进行解码,得到解码结果之后,语音解析方法还包括:根据解码结果,确定多个音素之间的第一路径的音素序列;在第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,进行语音唤醒。

在该技术方案中,在对第一音素信息进行解码,得到解码结果之后,具体可根据该解码结果,对智能设备进行语音唤醒。

也就是说,本发明提出的语音解析方法具体可用于对支持语音唤醒功能的智能设备进行语音唤醒。在实际的应用过程中,上述智能设备具体可为智能音箱、智能电视、智能冰箱、智能空调、扫地机器人以及车载设备等智能设备,在此不作具体限制。

具体地,上述第一音素信息具体可包括对上述第一语音采样信息中的多个音素的分类结果信息。在此基础上,在本发明提出的语音解析方法中,基于学习好的网络参数,结合动态规划解码技术,对第一音素信息进行解码,将小颗粒度的音素信息解码为唤醒词信息,并确定第一语音采样信息中多个音素之间的第一路径,该第一路径为第一语音采样信息中的多个音素的最优路径。在此基础上,比较第一路径中的多个音素所对应的唤醒词信息与目标唤醒词,在第一路径覆盖目标唤醒词的情况下,也即在第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,判定用户进行唤醒操作,并对智能设备进行语音唤醒。这样,基于分类模型和卷积神经网络训练得到的多音素分类模型进行语音解析,进而基于解析结果进行语音唤醒,提高了语音唤醒的准确性,进而提高了语音唤醒效率。

在一些技术方案中,可选地,在确定多个音素之间的第一路径的音素序列之后,语音解析方法还包括:根据第一音素信息,确定第一路径的置信度;在第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,进行语音唤醒,包括:在置信度大于第一阈值,且第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,进行语音唤醒。

在该技术方案中,在通过对第一音素信息进行解码,得到第一语音采样信息中多个音素之间的第一路径之后,还可根据上述第一音素信息,对第一路径的置信度进行确定,该置信度用于指示第一路径的可靠程度,置信度越大,第一路径越可靠。在此基础上,在对智能设备进行语音唤醒的过程中,比较第一路径的置信度以及第一阈值,在第一阈值小于置信度,并且第一路径覆盖目标唤醒词即第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,判定用户进行唤醒操作,并对智能设备进行语音唤醒。这样,引入音素序列信息作为辅助信息,来调整唤醒率以及误唤醒率,降低了误唤醒的概率,从而提高了语音唤醒的准确性。

在一些技术方案中,可选地,根据第一音素信息,确定第一路径的置信度,包括:对第一音素信息进行解码,确定第一语音采样信息中每个音素的发音位置;根据每个音素的发音位置,确定每个音素的发音长度;根据每个音素的发音长度确定置信度。

在该技术方案中,在根据上述第一音素信息,对第一路径的置信度进行确定的过程中,具体地,对第一音素信息进行解码,以得到第一语音采样信息中每个音素的发音位置,进而再根据每个音素的发音位置,对每个音素的发音长度进行确定,并根据每个音素的发音长度,对第一路径的置信度进行确定。这样,引入音素的发音长度作为辅助信息,来调整唤醒率以及误唤醒率,降低了误唤醒的概率,从而提高了语音唤醒的准确性。

在一些技术方案中,可选地,第一音素信息包括第一语音采样信息中多个音素的声学分数,根据第一音素信息,确定第一路径的置信度,包括:根据多个音素的声学分数,确定第一分数;根据第一分数确定置信度。

在该技术方案中,上述第一音素信息具体可包括第一语音采样信息中的多个音素的声学分数。在此基础上,在根据上述第一音素信息,对第一路径的置信度进行确定的过程中,具体地,可根据第一语音采样信息中的多个音素的声学分数,得到第一分数,进而再根据该第一分数,对第一路径的置信度进行确定。这样,结合音素的声学分数,确定第一路径的置信度,保证了置信度确定的准确性,进而降低了误唤醒的概率,提高了语音唤醒的准确性。

在一些技术方案中,可选地,根据第一音素信息,确定第一路径的置信度,包括:对第一音素信息进行解码,确定多个音素之间的至少一个第二路径,第二路径的路径分数小于第一路径的路径分数;根据至少一个第二路径与第一路径的路径分数的差值确定置信度。

在该技术方案中,在根据上述第一音素信息,对第一路径的置信度进行确定的过程中,具体地,可基于动态规划解码技术,对第一音素信息进行解码,以确定第一语音采样信息中多个音素之间的至少一个第二路径,该第二路径的音素路径不同于上述第一路径的音素路径,且第二路径的路径分数小于第一路径的路径分数,也即,第二路径为上述第一路径的竞争路径。在此基础上,再根据至少一个第二路径的路径分数与第一路径的路径分数的差值,对第一路径的置信度进行确定。这样,结合竞争路径,来调整唤醒率以及误唤醒率,降低了误唤醒的概率,从而提高了语音唤醒的准确性。

在一些技术方案中,可选地,在对第一音素信息进行解码,得到解码结果之后,语音解析方法还包括:根据解码结果,对第一语音采样信息的音素路径进行语法识别,得到目标音素序列;根据目标音素序列与目标唤醒词的音素序列的对比结果确定目标文本。

在该技术方案中,在对第一音素信息进行解码,得到解码结果之后,具体可基于该解码结果,进行离线命令词识别。

也就是说,本发明提出的语音解析方法具体还可用于智能设备在离线状态的离线命令词识别。在实际的应用过程中,上述智能设备具体可为智能音箱、智能电视、智能冰箱、智能空调、扫地机器人以及车载设备等智能设备,在此不作具体限制。

具体地,在本发明所提出的语音解析方法中,在对第一音素信息进行解码,得到解码结果之后,基于解码结果以及设定的语法规则,对第一语音采样信息的音素路径进行语法识别,将与设定的语法规则语法一致的音素路径的音素序列确定为目标音素序列。在此基础上,比较目标音素序列与目标唤醒词的音素序列,并在目标音素序列与目标唤醒词的音素序列相匹配的情况下,将目标音素序列转换为对应的目标文本进行输出,得到离线命令词识别结果。这样,基于分类模型和卷积神经网络训练得到的多音素分类模型进行语音解析,进而基于解析结果进行离线命令词识别,提高了离线命令词识别的准确性。

在一些技术方案中,可选地,在利用第一模型处理第一语音特征之前,语音解析方法还包括:获取语音样本;对语音样本进行特征提取,得到第二语音特征;通过卷积神经网络和分类模型对第二语音特征进行标注,根据标注结果确定网络损失值;根据网络损失值,更新第一模型的模型参数。

在该技术方案中,在利用第一模型处理第一语音特征之前,还会对第一模型进行训练,在对第一模型进行训练的过程中,具体地,获取用于训练第一模型的语音样本,进而提取语音样本的语音特征,得到第二语音特征。进一步地,通过上述分类模型以及卷积神经网络,对提取到的第二语音特征进行标注,并根据标注结果确定网络损失值。在此基础上,再以降低网络损失值为目的,根据确定的网络损失值,对第一模型的模型参数进行更新,进而再基于更新模型参数后的第一模型继续对语音样本进行处理,并根据新确定的网络损失值,继续对第一模型的模型参数进行更新,直至确定的网络损失值达到收敛条件,完成对第一模型的训练。这样,基于分类模型以及卷积神经网络训练多音素分类模型即第一模型,无需对齐信息,且训练过程简单,保证了对第一模型进行训练的准确性,进而保证了后续进行语音解析的准确性。

在一些技术方案中,可选地,卷积神经网络为时间空洞卷积神经网络,分类模型为连接时序分类模型。

在该技术方案中,上述卷积神经网络具体可为TCN(TemporalConvolutionalNetwork,时间空洞卷积神经网络),上述分类模型具体可为CTC(Connectionist temporalclassification,连接时序分类)模型。如此,基于连接时序分类模型以及时间空洞卷积神经网络训练得到的多音素分类模型进行语音解析,相较于传统的音素算法,无需做信息对齐,在保证高建模区分度的同时,简化训练过程,提高了语音解析的准确性,进而提高了语音解析效率。

根据本发明的第二个方面,提出了一种语音解析装置,该装置包括:获取单元,用于获取第一语音采样信息;处理单元,用于对第一语音采样信息进行特征提取,得到第一语音特征;处理单元,还用于利用第一模型处理第一语音特征,得到第一音素信息;处理单元,还用于对第一音素信息进行解码,得到解码结果;其中,第一模型是基于卷积神经网络和分类模型训练得到的。

具体地,本发明所提供的语音解析装置包括获取单元以及处理单元,在进行语音解析的过程中,通过获取单元对用户声音进行采集,获取得到用户的第一语音采样信息,进而通过处理单元提取用户的第一语音采样信息的语音特征,得到第一语音特征。进一步地,处理单元将提取到的第一语音特征输入至第一模型中,该第一模型为对分类模型以及卷积神经网络进行训练后得到的多音素分类模型。在此基础上,通过第一模型对提取到的第一语音特征进行分类处理和打分处理,得到包含第一语音特征的分类结果和打分结果的第一音素信息,进而通过处理单元对处理得到的第一音素信息进行解码,得到解码结果。这样,基于分类模型以及卷积神经网络训练得到的多音素分类模型进行语音解析,相较于传统的音素算法,无需做信息对齐,在保证高建模区分度的同时,简化训练过程,提高了语音解析的准确性,进而提高了语音解析效率。

根据本发明的第三个方面,提出了另一种语音解析装置,包括:存储器,存储有程序或指令;处理器,处理器执行程序或指令时实现如上述任一技术方案中的语音解析方法的步骤。因此,本发明第三个方面所提出的语音解析装置具备上述第一个方面任一技术方案中的语音解析方法的全部有益效果,在此不再赘述。

根据本发明的第四个方面,提出了一种智能设备,包括:上述第二个方面或者第三个方面技术方案中的语音解析装置。本发明第四个方面所提出的智能设备包括上述第二个方面或者第三个方面技术方案中的语音解析装置。因此,本发明第四个方面所提出的智能设备,具备上述第二个方面或者第三个方面技术方案中的语音解析装置的全部有益效果,在此不再赘述。

根据本发明的第五个方面,提出了一种可读存储介质,其上存储有程序或指令,该程序或指令被处理器执行时实现如上述任一技术方案中的语音解析方法。因此,本发明第五个方面所提出的可读存储介质具备上述第一个方面任一技术方案中的语音解析方法的全部有益效果,在此不再赘述。

根据本发明的第六个方面,提出了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上述任一技术方案中的语音解析方法。因此,本发明第六个方面所提出的计算机程序产品具备上述第一个方面任一技术方案中的语音解析方法的全部有益效果,在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1示出了本发明实施例的语音解析方法的流程示意图之一;

图2示出了本发明实施例的语音解析方法的流程示意图之二;

图3示出了本发明实施例的语音解析方法的原理图之一;

图4示出了本发明实施例的语音解析方法的原理图之二;

图5示出了本发明实施例的语音解析方法的原理图之三;

图6示出了本发明实施例的语音解析装置的结构框图之一;

图7示出了本发明实施例的语音解析装置的结构框图之二;

图8示出了本发明实施例的智能设备的结构框图之一;

图9示出了本发明实施例的智能设备的结构框图之二。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。

下面结合图1至图9,通过具体的实施例及其应用场景对本申请实施例提供的语音解析方法及装置、智能设备、介质和计算机程序产品进行详细地说明。

在本发明的一些实施例中,如图1所示,语音解析方法具体可包括下述的步骤102至步骤108:

步骤102,获取第一语音采样信息;

步骤104,对第一语音采样信息进行特征提取,得到第一语音特征;

步骤106,利用第一模型处理第一语音特征,得到第一音素信息;

步骤108,对第一音素信息进行解码,得到解码结果;

其中,第一模型是基于卷积神经网络和分类模型训练得到的。

具体地,在本发明所提供的语音解析方法中,在进行语音解析的过程中,对用户声音进行采集,获取得到用户的第一语音采样信息,进而提取用户的第一语音采样信息的语音特征,得到第一语音特征。进一步地,将提取到的第一语音特征输入至第一模型中,该第一模型为对分类模型以及卷积神经网络进行训练后得到的多音素分类模型。在此基础上,通过第一模型对提取到的第一语音特征进行分类处理和打分处理,得到包含第一语音特征的分类结果和打分结果的第一音素信息,进而对处理得到的第一音素信息进行解码,得到解码结果。这样,基于分类模型以及卷积神经网络训练得到的多音素分类模型进行语音解析,相较于传统的音素算法,无需做信息对齐,在保证高建模区分度的同时,简化训练过程,提高了语音解析的准确性,进而提高了语音解析效率。

其中,上述第一音素信息为通过第一模型对第一语音特征进行声学处理后得到的语音处理信息,根据第一模型对第一语音特征的处理策略的不同,第一音素信息所包含的内容不同。在实际的应用过程中,上述第一音素信息可包括对第一语音采样信息中的多个音素的分类结果信息即第一语音采样信息中包含的多个音素;上述第一音素信息还可包括对第一语音采样信息中的多个音素的打分信息即第一语音采样信息中的每个音素的声学分数;上述第一音素信息还可同时包括第一语音采样信息中多个音素以及每个音素的声学分数,在此不作具体限制。

进一步地,上述第一语音采样信息具体可为用户输入语音的时域波形信息。

进一步地,在提取用户的第一语音采样信息的语音特征的过程中,具体可提取第一语音采样信息的频域特征,该频域特征具体可为FBank(FilterBank,滤波网络)特征以及MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)特征等,在此不作具体限制。

在此基础上,上述第一语音特征具体可为用户输入语音的频谱特征信息如FBank特征信息以及MFCC特征信息等。在实际的应用过程中,本领域技术人员可根据实际情况对上述第一语音特征的具体类型进行设置,在此不作具体限制。

进一步地,上述第一模型为多音素分类模型,通过该第一模型对上述第一语音特征进行处理,能够基于第一语音特征,对上述第一语音采样信息中的多个音素进行分类和打分,并输出每个音素的声学分数。

进一步地,上述第一模型为对分类模型以及卷积神经网络进行训练得到的。

在实际的应用过程中,上述卷积神经网络具体可为TCN即时间空洞卷积神经网络。

进一步地,上述分类模型具体可为CTC模型即连接时序分类模型。

在实际的应用过程中,对于上述分类模型以及卷积神经网络的具体类型,本领域技术人员可根据实际情况进行选择,在此不作具体限制。

进一步地,上述第一模型能够对上述第一语音采样信息中的多个音素进行分类,并输出每个音素的声学分数。在此基础上,上述第一音素信息具体可包括对上述第一语音采样信息中的多个音素的分类结果信息以及每个音素的声学分数。

在本发明的一些实施例中,可选地,第一音素信息包括第一语音采样信息中的多个音素,在此基础上,如图2所示,在上述步骤108之后,上述语音解析方法具体还可包括下述的步骤110和步骤112:

步骤110,根据解码结果,确定多个音素之间的第一路径的音素序列;

步骤112,在第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,进行语音唤醒。

在该实施例中,在对第一音素信息进行解码,得到解码结果之后,具体可根据该解码结果,对智能设备进行语音唤醒。

也就是说,本发明提出的语音解析方法具体可用于对支持语音唤醒功能的智能设备进行语音唤醒。在实际的应用过程中,上述智能设备具体可为智能音箱、智能电视、智能冰箱、智能空调、扫地机器人以及车载设备等智能设备,在此不作具体限制。

具体地,上述第一音素信息具体可包括对上述第一语音采样信息中的多个音素的分类结果信息。在此基础上,在本发明提出的语音解析方法中,基于学习好的网络参数,结合动态规划解码技术,对第一音素信息进行解码,将小颗粒度的音素信息解码为唤醒词信息,并确定第一语音采样信息中多个音素之间的第一路径,该第一路径为第一语音采样信息中的多个音素的最优路径。在此基础上,比较第一路径中的多个音素所对应的唤醒词信息与目标唤醒词,在第一路径覆盖目标唤醒词的情况下,也即在第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,判定用户进行唤醒操作,并对智能设备进行语音唤醒。这样,基于分类模型和卷积神经网络训练得到的多音素分类模型进行语音解析,进而基于解析结果进行语音唤醒,提高了语音唤醒的准确性,进而提高了语音唤醒效率。

其中,在对第一音素信息进行解码的过程中,可获取第一语音采样信息的解码图,进而结合解码图以及维特比解码算法,对第一音素信息进行解码,得到第一语音采样信息中多个音素之间的最优路径即第一路径,并得到该第一路径的路径分数。

进一步地,在对第一音素信息进行解码的过程中,还可采用贪婪解码算法以及前缀树解码算法等解码算法,在实际的应用过程中,对于上述解码技术的具体算法,本领域技术人员可根据实际情况进行选择,在此不作具体限制。

进一步地,第一路径中所包含的音素数量与上述第一语音采样信息中的音素数量相等,也即,上述第一路径为时序连接第一语音采样信息中的多个音素的最短路径即最优路径。例如,在第一语音采样信息为“小美小美”,第一语音采样信息中的八个音素为“x”、“iao”、“m”、“ei”、“x”、“iao”、“m”、“ei”的情况下,如图4所示,上述第一路径即为时序连接上述八个音素的最短路径,即“xiaomeixiaomei”。

进一步地,上述目标唤醒词为在智能设备中预先设置的唤醒词,在检测到用户输入该目标唤醒词的情况下,即唤醒智能设备,以使智能设备进行工作。

在本发明的一些实施例中,可选地,在上述步骤110之后,上述语音解析方法具体还可包括下述的步骤114,在此基础上,上述步骤112具体可包括下述的步骤112a:

步骤114,根据第一音素信息,确定第一路径的置信度;

步骤112a,在置信度大于第一阈值,且第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,进行语音唤醒。

在该实施例中,在通过对第一音素信息进行解码,得到第一语音采样信息中多个音素之间的第一路径之后,还可根据上述第一音素信息,对第一路径的置信度进行确定,该置信度用于指示第一路径的可靠程度,置信度越大,第一路径越可靠。在此基础上,在对智能设备进行语音唤醒的过程中,比较第一路径的置信度以及第一阈值,在第一阈值小于置信度,并且第一路径覆盖目标唤醒词即第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,判定用户进行唤醒操作,并对智能设备进行语音唤醒。这样,引入音素序列信息作为辅助信息,来调整唤醒率以及误唤醒率,降低了误唤醒的概率,从而提高了语音唤醒的准确性。

其中,上述第一音素信息具体可包括对上述第一语音采样信息中的多个音素的分类结果信息以及每个音素的声学分数,基于上述第一音素信息,能够确定每个音素的发音长度以及竞争路径的路径分数。在此基础上,即可音素的发音长度、音素的声学分数以及竞争路径的路径分数,对第一路径的置信度进行确定。

进一步地,对于上述第一阈值的具体取值,本领域技术人员可根据实际情况进行设置,在此不作具体限制。

在本发明的一些实施例中,可选地,上述步骤114具体可包括下述的步骤114a至步骤114c:

步骤114a,对第一音素信息进行解码,确定第一语音采样信息中每个音素的发音位置;

步骤114b,根据每个音素的发音位置,确定每个音素的发音长度;

步骤114c,根据每个音素的发音长度确定置信度。

在该实施例中,在根据上述第一音素信息,对第一路径的置信度进行确定的过程中,具体地,对第一音素信息进行解码,以得到第一语音采样信息中每个音素的发音位置,进而再根据每个音素的发音位置,对每个音素的发音长度进行确定,并根据每个音素的发音长度,对第一路径的置信度进行确定。这样,引入音素的发音长度作为辅助信息,来调整唤醒率以及误唤醒率,降低了误唤醒的概率,从而提高了语音唤醒的准确性。

其中,每个音素的发音位置用于指示该音素的发音时间。

进一步地,每个音素的发音长度用于指示该音素与其之后的下一音素之间的间隔时间,在音素的发音长度较大的情况下,说明该音素与其之后的下一音素之间间隔较长,表明第一路径的可靠程度较低。

进一步地,在对第一音素信息进行解码的过程中,具体可采用维特比解码算法、贪婪解码算法以及前缀树解码算法等解码算法,在此不作具体限制。

在本发明的一些实施例中,可选地,第一音素信息包括第一语音采样信息中多个音素的声学分数,在此基础上,上述步骤114具体可包括下述的步骤114d和步骤114e:

步骤114d,根据多个音素的声学分数,确定第一分数;

步骤114e,根据第一分数确定置信度。

在该实施例中,上述第一音素信息具体可包括第一语音采样信息中的多个音素的声学分数。在此基础上,在根据上述第一音素信息,对第一路径的置信度进行确定的过程中,具体地,可根据第一语音采样信息中的多个音素的声学分数,得到第一分数,进而再根据该第一分数,对第一路径的置信度进行确定。这样,结合音素的声学分数,确定第一路径的置信度,保证了置信度确定的准确性,进而降低了误唤醒的概率,提高了语音唤醒的准确性。

其中,音素的声学分数用于指示用户对音素发音的标准程度。在某一音素的声学分数较低的情况下,说明用户对该音素发音的标准程度较低,从而表明第一路径的可靠程度较低。

进一步地,上述第一分数具体可为第一语音采样信息中的多个音素的声学分数的平均值。在实际的应用过程中,还可对第一语音采样信息中的多个音素的声学分数进行其他运算处理,以得到上述第一分数,在此不作具体限制。

在本发明的一些实施例中,可选地,上述步骤114具体可包括下述的步骤114f和步骤114g:

步骤114f,对第一音素信息进行解码,确定多个音素之间的至少一个第二路径;

步骤114g,根据至少一个第二路径与第一路径的路径分数的差值确定置信度;

其中,第二路径的路径分数小于第一路径的路径分数。

在该实施例中,在根据上述第一音素信息,对第一路径的置信度进行确定的过程中,具体地,可基于动态规划解码技术,对第一音素信息进行解码,以确定第一语音采样信息中多个音素之间的至少一个第二路径,该第二路径的音素路径不同于上述第一路径的音素路径,且第二路径的路径分数小于第一路径的路径分数,也即,第二路径为上述第一路径的竞争路径。在此基础上,再根据至少一个第二路径的路径分数与第一路径的路径分数的差值,对第一路径的置信度进行确定。这样,结合竞争路径,来调整唤醒率以及误唤醒率,降低了误唤醒的概率,从而提高了语音唤醒的准确性。

其中,在对第一音素信息进行解码的过程中,具体可采用维特比解码算法、贪婪解码算法以及前缀树解码算法等解码算法,在实际的应用过程中,对于上述解码技术的具体算法,本领域技术人员可根据实际情况进行选择,在此不作具体限制。

进一步地,第二路径的音素路径不同于上述第一路径的音素路径,且第二路径的路径分数小于第一路径的路径分数,也即,上述第二路径为上述第一路径的竞争路径。例如,在第一语音采样信息为“小美小美”,第一语音采样信息中的八个音素为“x”、“iao”、“m”、“ei”、“x”、“iao”、“m”、“ei”的情况下,上述第二路径可为“x iao m ei x iao m ei”。

进一步地,对第一音素信息进行解码的过程中,还可对解码得到的第一语音采样信息中多个音素之间的第一路径以及第二路径进行打分。在此基础上,在对第一路径的置信度进行确定的过程中,具体可获取第一路径以及第二路径的路径分数,进而再根据第一路径以及第二路径的路径分数的差值,确定上述置信度。

在本发明的一些实施例中,可选地,在上述步骤108之后,上述语音解析方法具体还可包括下述的步骤116和步骤118:

步骤116,根据解码结果,对第一语音采样信息的音素路径进行语法识别,得到目标音素序列;

步骤118,根据目标音素序列与目标唤醒词的音素序列的对比结果确定目标文本。

在该实施例中,在对第一音素信息进行解码,得到解码结果之后,具体可基于该解码结果,进行离线命令词识别。

也就是说,本发明提出的语音解析方法具体还可用于智能设备在离线状态的离线命令词识别。在实际的应用过程中,上述智能设备具体可为智能音箱、智能电视、智能冰箱、智能空调、扫地机器人以及车载设备等智能设备,在此不作具体限制。

具体地,在本发明所提出的语音解析方法中,在对第一音素信息进行解码,得到解码结果之后,基于解码结果以及设定的语法规则,对第一语音采样信息的音素路径进行语法识别,将与设定的语法规则语法一致的音素路径的音素序列确定为目标音素序列。在此基础上,比较目标音素序列与目标唤醒词的音素序列,并在目标音素序列与目标唤醒词的音素序列相匹配的情况下,将目标音素序列转换为对应的目标文本进行输出,得到离线命令词识别结果。这样,基于分类模型和卷积神经网络训练得到的多音素分类模型进行语音解析,进而基于解析结果进行离线命令词识别,提高了离线命令词识别的准确性。

在本发明的一些实施例中,可选地,在步骤106之前,上述语音解析方法具体还可包括下述的步骤120至步骤126:

步骤120,获取语音样本;

步骤122,对语音样本进行特征提取,得到第二语音特征;

步骤124,通过卷积神经网络和分类模型对第二语音特征进行标注,根据标注结果确定网络损失值;

步骤126,根据网络损失值,更新第一模型的模型参数。

在该实施例中,在利用第一模型处理第一语音特征之前,还会对第一模型进行训练。在对第一模型进行训练的过程中,具体地,获取用于训练第一模型的语音样本,进而提取语音样本的语音特征,得到第二语音特征。进一步地,通过上述分类模型以及卷积神经网络,对提取到的第二语音特征进行标注,并根据标注结果确定网络损失值。在此基础上,再以降低网络损失值为目的,根据确定的网络损失值,对第一模型的模型参数进行更新,进而再基于更新模型参数后的第一模型继续对语音样本进行处理,并根据新确定的网络损失值,继续对第一模型的模型参数进行更新,直至确定的网络损失值达到收敛条件,完成对第一模型的训练。这样,基于分类模型以及卷积神经网络训练多音素分类模型即第一模型,无需对齐信息,且训练过程简单,保证了对第一模型进行训练的准确性,进而保证了后续进行语音解析的准确性。

其中,本发明采用多音素建模,上述语音样本具体可包括正样本以及负样本,正样本包含唤醒词,负样本不包含唤醒词。在通过语音样本对第一模型进行训练的过程中,通过正样本进行标签预测,得到标签序列,通过负样本来训练连接时序模型里面的blank单元。例如,以唤醒词为“小美小美”为例,五个输出单元分别为:x,iao,m,ei以及blank,在训练过程中,通过正样本进行标签预测,得到“xiao m ei,x iao m ei”序列,通过不带唤醒词的负样本训练连接时序模型里面的blank单元。

进一步地,在提取语音样本的语音特征的过程中,具体可提取语音样本的频域特征如FBank特征以及MFCC特征等,在此不作具体限制。

在实际的应用过程中,上述卷积神经网络具体可为TCN,上述分类模型具体可为CTC模型,对于上述分类模型以及卷积神经网络的具体类型,本领域技术人员可根据实际情况进行选择,在此不作具体限制。

进一步地,在通过上述分类模型以及卷积神经网络,对提取到的第二语音特征进行标注,并根据标注结果确定网络损失值的过程中,卷积神经网络能够对语音样本的音素进行声学打分,输出每个音素的声学分数;分类模型能够进行多音素建模,对语音样本的音素进行时序分类,还可在输入序列的任意点进行标签预测,并可以直接输出完整标签序列的概率。其中,分类模型对整个序列进行建模,例如,在目标唤醒词为小美小美的情况下,若输入的语音样本为小美小美,采用多音素建模,则标注结果即预测的标签序列为“xiao meixiao mei”;若输入的语音样本为非小美小美,则标注结果为blank。

在此基础上,通过比较预测的标签序列与预设的标签序列之间的差别,即可确定分类模型输出正确标签即预设的标签序列的概率,进而再根据分类模型输出正确标签的概率,计算上述网络损失值。另外,基于网络损失值以及blank,还可对非发音音素的部分进行建模,使得模型能够自己学习对齐信息。

在本发明的一些实施例中,可选地,卷积神经网络为时间空洞卷积神经网络,分类模型为连接时序分类模型。

在该实施例中,上述卷积神经网络具体可为TCN即时间空洞卷积神经网络。

其中,空洞卷积又叫膨胀卷积,是在标准的卷积层中注入空洞,通过层数、扩张因子和过滤器大小来调整感受野大小,其能够针对不同的领域要求控制模型的内存大小。相比原来的正常卷积,空洞卷积增加了一个超参数即空洞率,空洞率用于指示卷积核的间隔数量,卷积核的间隔数越大,相同层数能够看到的历史信息越长。进一步地,如图3所示,与RNN(Recurrent Neural Network,循环神经网络)不同,TCN可以利用并行性,并行执行卷积。并且,如图3所示,与RNN不同,TCN的梯度不是在时间方向上,而是在网络深度方向上,当输入长度较长时,相较于RNN,TCN中的梯度更加稳定。另外,TCN每一层只有一个过滤层,TCN中过滤器的总数取决于层数,因此,TCN的内存需求低于LSTM(Long Short-TermMemory,长短期记忆网络)和GRU(Gated Recurrent Unit,门控循环单元)。基于此,采用时间空洞卷积神经网络作为声学建模的网络结构,能够通过空洞卷积的膨胀因子,灵活控制模型可以看到的历史信息,具备计算量低,对历史的建模能力强等优点。

进一步地,上述分类模型具体可为CTC模型即连接时序分类模型。

其中,连接时序分类模型为了实现时序分类,允许网络在输入序列中的任意点进行标签预测,如此,可以消除数据预先分段的需求,因此不再需要进行信息对齐。并且,相较于二分类模型,连接时序分类模型具有更丰富的建模能力,能够挖掘唤醒词内部的特征,在有更加精细的建模区分度的同时,其训练方式也更加简单。另外,CTC可以直接输出完整标签序列的概率,而无需额外的后处理模型来进行时序分类。基于此,在进行语音解析的过程中,无需做信息对齐,在保证高建模区分度的同时,简化训练过程,能够提高语音解析的准确性。

如此,基于连接时序分类模型以及时间空洞卷积神经网络训练得到的多音素分类模型进行语音解析,相较于传统的音素算法,无需做信息对齐,在保证高建模区分度的同时,简化训练过程,提高了语音解析的准确性,进而提高了语音解析效率。

综上所述,如图5所示,本发明提出的语音解析方法具体可包括训练阶段以及推理阶段。在进行语音解析时,输入语音的时序波形,在训练阶段和推理阶段均需要对输入的语音时序波形进行特征提取,提取语音的频谱特征。在此基础上,在训练阶段,将提取到的语音特征输入至第一模型,通过TCN网络进行声学打分,并通过CTC对输入的正负样本进行标注,进而利用网络输出概率计算网络损失值CTC_LOSS,并以降低CTC_LOSS为目标,更新优化模型参数,直至CTC_LOSS趋于稳定。而在推理阶段,则将提取到的语音特征输入至第一模型,通过TCN网络对输入的语音的音素进行声学打分,通过不同的解码技术对网络输出的多音素信息进行解码,并基于网络输出的多音素信息确定置信度,进而根据解码结果以及置信度进行语音解析。这样,利用TCN以及CTC训练好的多音素模型进行语音解析,在训练阶段,不需要对齐信息,训练更加简单,而在声学模型上采用时间空洞卷积模型,具有计算量低,对历史信息的建模能力强等优点。

另外,本发明提出的语音解析方法,可用于多种语音解析场景,例如可以用于家居设备、车载设备等硬件设备的语音唤醒,又如通过调整建模单元,本发明提出的语音解析方法还可以用于离线命令词识别算法,在此不作具体限制。

在本发明的一些实施例中,还提出了一种语音解析装置。如图6所示,图6示出了本发明实施例的语音解析装置600的结构框图。其中,该语音解析装置600具体可包括下述的获取单元602以及处理单元604:

获取单元602,用于获取第一语音采样信息;

处理单元604,用于对第一语音采样信息进行特征提取,得到第一语音特征;

处理单元604,还用于利用第一模型处理第一语音特征,得到第一音素信息;

处理单元604,还用于对第一音素信息进行解码,得到解码结果;

其中,第一模型为对卷积神经网络和分类模型进行训练后得到的模型。

具体地,本发明所提供的语音解析装置包括获取单元602以及处理单元604,在进行语音解析的过程中,通过获取单元602对用户声音进行采集,获取得到用户的第一语音采样信息,进而通过处理单元604提取用户的第一语音采样信息的语音特征,得到第一语音特征。进一步地,处理单元604将提取到的第一语音特征输入至第一模型中,该第一模型为对分类模型以及卷积神经网络进行训练后得到的多音素分类模型。在此基础上,通过第一模型对提取到的第一语音特征进行分类处理和打分处理,得到包含第一语音特征的分类结果和打分结果的第一音素信息,进而通过处理单元604对处理得到的第一音素信息进行解码,得到解码结果。这样,基于分类模型以及卷积神经网络训练得到的多音素分类模型进行语音解析,相较于传统的音素算法,无需做信息对齐,在保证高建模区分度的同时,简化训练过程,提高了语音解析的准确性,进而提高了语音解析效率。

其中,上述第一音素信息为通过第一模型对第一语音特征进行声学处理后得到的语音处理信息,根据第一模型对第一语音特征的处理策略的不同,第一音素信息所包含的内容不同。在实际的应用过程中,上述第一音素信息可包括对第一语音采样信息中的多个音素的分类结果信息即第一语音采样信息中包含的多个音素;上述第一音素信息还可包括对第一语音采样信息中的多个音素的打分信息即第一语音采样信息中的每个音素的声学分数;上述第一音素信息还可同时包括第一语音采样信息中多个音素以及每个音素的声学分数,在此不作具体限制。

进一步地,上述第一语音采样信息具体可为用户输入语音的时域波形信息。

进一步地,在处理单元604提取用户的第一语音采样信息的语音特征的过程中,处理单元604具体可提取第一语音采样信息的频域特征,该频域特征具体可为FBank特征以及MFCC特征等,在此不作具体限制。

在此基础上,上述第一语音特征具体可为用户输入语音的频谱特征信息如FBank特征信息以及MFCC特征信息等。在实际的应用过程中,本领域技术人员可根据实际情况对上述第一语音特征的具体类型进行设置,在此不作具体限制。

进一步地,上述第一模型为多音素分类模型,通过该第一模型对上述第一语音特征进行处理,能够基于第一语音特征,对上述第一语音采样信息中的多个音素进行分类和打分,并输出每个音素的声学分数。

进一步地,上述第一模型为通过对分类模型以及卷积神经网络进行训练后得到的。

在实际的应用过程中,上述卷积神经网络具体可为TCN。

进一步地,上述分类模型具体可为CTC模型。

在实际的应用过程中,对于上述分类模型以及卷积神经网络的具体类型,本领域技术人员可根据实际情况进行选择,在此不作具体限制。

进一步地,上述第一模型能够对上述第一语音采样信息中的多个音素进行分类,并输出每个音素的声学分数。在此基础上,上述第一音素信息具体可包括对上述第一语音采样信息中的多个音素的分类结果信息以及每个音素的声学分数。

在本发明的一些实施例中,可选地,第一音素信息包括第一语音采样信息中的多个音素,在对第一音素信息进行解码,得到解码结果之后,处理单元604还用于:对第一音素信息进行解码,确定多个音素之间的第一路径的音素序列;语音解析装置600还包括:唤醒单元606,用于在第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,进行语音唤醒。

在本发明的一些实施例中,可选地,在确定多个音素之间的第一路径的音素序列之后,处理单元604还用于:根据第一音素信息,确定第一路径的置信度;唤醒单元606具体用于:在置信度大于第一阈值,且第一路径的音素序列与目标唤醒词的音素序列相匹配的情况下,进行语音唤醒。

在本发明的一些实施例中,可选地,处理单元604具体用于:对第一音素信息进行解码,确定第一语音采样信息中每个音素的发音位置;根据每个音素的发音位置,确定每个音素的发音长度;根据每个音素的发音长度确定置信度。

在本发明的一些实施例中,可选地,第一音素信息包括第一语音采样信息中多个音素的声学分数,处理单元604具体用于:根据多个音素的声学分数,确定第一分数;根据第一分数确定置信度。

在本发明的一些实施例中,可选地,处理单元604具体用于:对第一音素信息进行解码,确定多个音素之间的至少一个第二路径,第二路径的路径分数小于第一路径的路径分数;根据至少一个第二路径与第一路径的路径分数的差值确定置信度。

在本发明的一些实施例中,可选地,在对第一音素信息进行解码,得到解码结果之后,处理单元604还用于:根据解码结果,对第一语音采样信息的音素路径进行语法识别,得到目标音素序列;根据目标音素序列与目标唤醒词的音素序列的对比结果确定目标文本。

在本发明的一些实施例中,可选地,在利用第一模型处理第一语音特征之前,获取单元602还用于:获取语音样本;处理单元604还用于:对语音样本进行特征提取,得到第二语音特征;通过卷积神经网络和分类模型对第二语音特征进行标注,根据标注结果确定网络损失值;根据网络损失值,更新第一模型的模型参数。

在本发明的一些实施例中,可选地,卷积神经网络为时间空洞卷积神经网络,分类模型为连接时序分类模型。

在本发明的一些实施例中,还提出了另一种语音解析装置。如图7所示,图7示出了本发明实施例提供的语音解析装置700的结构框图。其中,该语音解析装置700包括:

存储器702,存储器702上存储有程序或指令;

处理器704,处理器704执行上述程序或指令时实现如上述任一实施例中的语音解析方法的步骤。

本实施例提供的语音解析装置700包括存储器702和处理器704,存储器702中的程序或指令被处理器704执行时实现如上述任一实施例中的语音解析方法的步骤,因此该语音解析装置700具备上述任一实施例中的语音解析方法的全部有益效果,在此不再赘述。

具体地,存储器702和处理器704可以通过总线或者其它方式连接。处理器704可包括一个或多个处理单元,处理器704可以为中央处理器(Central Processing Unit,CPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)等芯片。

在本发明的一些实施例中,还提出了一种智能设备。如图8所示,图8示出了本发明实施例提供的智能设备800的结构框图。其中,智能设备800包括上述实施例中的语音解析装置600。因此,该智能设备800具备上述实施例中的语音解析装置600的全部技术效果,在此不再赘述。

在本发明的一些实施例中,还提出了一种智能设备。如图9所示,图9示出了本发明实施例提供的智能设备900的结构框图。其中,智能设备900包括上述实施例中的语音解析装置700。因此,该智能设备900具备上述实施例中的语音解析装置700的全部技术效果,在此不再赘述。

在实际的应用过程中,上述智能设备800以及智能设备900具体可为智能音箱、智能电视、智能冰箱、智能空调、扫地机器人以及车载设备等设备,在此不作具体限制。

本发明第五方面的实施例,提出了一种可读存储介质。其上存储有程序或指令,程序或指令被处理器执行时实现如上述任一实施例中的语音解析方法的步骤。

本发明实施例提供的可读存储介质,其存储的程序或指令被处理器执行时,可实现如上述任一实施例中的语音解析方法的步骤。因此,该可读存储介质具备上述任一实施例中的语音解析方法的全部有益效果,在此不再赘述。

具体地,上述可读存储介质可以包括能够存储或传输信息的任何介质。可读存储介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact Disc Read-OnlyMemory,CD-ROM)、闪存、可擦除ROM(EROM)、磁带、软盘、光盘、硬盘、光纤介质、射频(RF)链路、光数据存储设备等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明第六方面的实施例,提出了一种计算机程序产品,其包括计算机程序,该计算机程序被处理器执行时实现如上述任一技术方案中的语音解析方法。因此,本发明第六个方面所提出的计算机程序产品具备上述第一个方面任一技术方案中的语音解析方法的全部有益效果,在此不再赘述。

在实际的应用过程中,上述计算机程序产品包括但不限于:智能手机、笔记本电脑、平板电脑、车载设备、智能手表等产品,在此不作具体限制。

在本说明书的描述中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,除非另有明确的规定和限定;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 语音智能设备的唤醒方法、装置、设备及存储介质
  • 智能设备的交互方法、装置、智能设备和存储介质
  • 智能设备的控制方法、装置、设备和存储介质
  • 智能设备的控制方法、装置、设备和存储介质
  • 智能设备的配网方法、装置、设备及计算机可读介质
  • 语音交互方法、装置、设备、存储介质及计算机程序产品
  • 语音识别方法、装置、设备、存储介质和计算机程序产品
技术分类

06120116498855