掌桥专利:专业的专利平台
掌桥专利
首页

语音音频的检测方法及装置、存储介质及电子装置

文献发布时间:2023-06-19 11:27:38


语音音频的检测方法及装置、存储介质及电子装置

技术领域

本发明涉及通信领域,具体而言,涉及一种语音音频的检测方法及装置、存储介质及电子装置。

背景技术

目前,智能语音交互功能在手机、音箱、家用电器、智能穿戴等各类设备上日渐普及,语音唤醒功能作为语音交互的触发机制在人们日常生活中被使用的频率越来越高。但是,语音唤醒技术在实际应用中却面临着必须在误唤醒率和唤醒率间折中的问题,为了保证用户可以唤醒设备,导致设备误唤醒率居高不下。随着各类智能交互设备在日常生活中使用频次的指数级增长,这一问题变得日益突出。目前现有技术中语音唤醒性能的优化有两种途径,一是优化语音唤醒算法本身,但是因为语音唤醒技术应用场景主要是远场,而远场情况中语音源能量衰减严重,且容易受到环境噪声和房间混响的影响,导致语音唤醒性能表现较差。二是在语音唤醒模块后增加二次检测机制。二次检测机制常规的方法是基于混合高斯模型的语音唤醒方法,采用混合高斯模型对唤醒词进行建模,根据输入的音频,分别计算唤醒词和非唤醒词的概率。然而,混合高斯模型的建模能力有限,无法实现对语音的精确建模,特别是在复杂的实际拾音环境下,基于混合高斯模型的语音唤醒性能严重下降。由此可见,现有技术不能很好解决上述技术问题。

针对相关技术中,为了保证智能设备的语音唤醒率,必然造成智能设备误唤醒率高的问题,尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音音频的检测方法及装置、存储介质及电子装置,以解决相关技术中为了保证智能设备的语音唤醒率,必然造成智能设备误唤醒率高的问题。

根据本发明的一个实施例,提供了一种语音音频的检测方法,包括:接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。

可选的,获取所述第一语音音频的多个第一Fbank特征,包括:对所述第一语音音频进行分帧操作,得到多帧音频;对所述多帧音频进行预增强操作,得到预增强音频;对所述预增强音频的高频语音部分进行加窗操作,得到加窗后的音频;从所述加窗后的音频中提取出所述第一语音音频的多个第一Fbank特征。

可选的,从所述目标音频中提取出所述第一语音音频的多个第一Fbank特征,包括:对所述加窗后的音频进行傅里叶变换操作,得到傅里叶变换结果;对所述傅里叶变换结果进行Mel滤波操作,得到滤波后的音频;对所述滤波后的音频进行对数运算处理,得到所述多个第一Fbank特征。

可选的,根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,包括:根据以下公式确定所述偏差值A:A=∑

可选的,通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征之前,所述方法还包括:通过使用多个无噪声的唤醒词音频对所述差分自编码器神经网络模型进行模型训练;在所述差分自编码器神经网络模型学习到所述相似特征的情况下,将所述相似特征分别保存到多个GRU单元中,其中,所述差分自编码器神经网络模型包括多个GRU单元。

可选的,通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,包括:通过所述差分自编码器神经网络模型中编码器中的每个GRU单元对接收到的H

可选的,根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频,包括:在所述偏差值大于预设门限的情况下,确定所述第一语音音频不是所述唤醒词音频;在所述偏差值小于或者等于所述预设门限的情况下,确定第一语音音频为所述唤醒词音频。

根据本发明的又一个实施例,还提供了一种语音音频的检测装置,包括:第一获取模块,用于接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;第二获取模块,用于通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;确定模块,用于根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。

根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行以上任一项中所述的方法。

根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行以上任一项中所述的方法。

通过本发明,接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。也就是说,获取所述第一语音音频的多个第一Fbank特征,通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值就可以确定所述第一语音音频是否为唤醒词音频。采用上述技术方案,解决了相关技术中为了保证智能设备的语音唤醒率,必然造成智能设备误唤醒率高的问题,从而使得智能设备在唤醒率高的情况下,降低误唤醒率,提升用户在与设备交互时的体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的一种语音音频的检测方法的智能设备的硬件结构框图;

图2是根据本发明实施例的一种语音音频的检测方法的流程示意图;

图3是根据本发明实施例的一种语音唤醒的两次检测模型的结构框图;

图4是根据本发明实施例的一种语音音频的特征提取方法的流程图;

图5是根据本发明实施例的一种差分自编码器神经网络模型的结构框图;

图6是根据本发明实施例的一种语音音频的检测装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

本申请实施例所提供的方法实施例可以在智能设备,或者类似的运算装置中执行。以运行在智能设备上为例,图1是本发明实施例的一种语音音频的检测方法的智能设备的硬件结构框图。如图1所示,智能设备可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(Microprocessor Unit,简称是MPU)或可编程逻辑器件(Programmable logic device,简称是PLD))和用于存储数据的存储器104,在一个示例性实施例中,上述智能设备还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述智能设备的结构造成限定。例如,智能设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音音频的检测方法的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至智能设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括智能设备的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种语音音频的检测方法,应用于上述智能设备,图2是根据本发明实施例的语音音频的检测方法的流程图,该流程包括如下步骤:

步骤S202:接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;

步骤S204:通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;

步骤S206:根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。

通过本发明,接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。也就是说,获取所述第一语音音频的多个第一Fbank特征,通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值就可以确定所述第一语音音频是否为唤醒词音频。采用上述技术方案,解决了相关技术中为了保证智能设备的语音唤醒率,必然造成智能设备误唤醒率高的问题,从而使得智能设备在唤醒率高的情况下,降低误唤醒率,提升用户在与设备交互时的体验。

在步骤S202中,获取所述第一语音音频的多个第一Fbank特征,包括:对所述第一语音音频进行分帧操作,得到多帧音频;对所述多帧音频进行预增强操作,得到预增强音频;对所述预增强音频的高频语音部分进行加窗操作,得到加窗后的音频;从所述加窗后的音频中提取出所述第一语音音频的多个第一Fbank特征。

需要说明的是,对所述第一语音音频进行分帧操作,是按照第一预设长度分割所述语音音频,得到多个序列,其中,一个序列为一帧,以第二预设长度为帧移的长度。需要说明的是,第一预设长度与第二预设长度可以根据具体情况,自行设置。对得到的多帧音频进行预增强操作,是根据s(nz)=s(n)-as(n-1)对得到的多帧音频进行预增强操作,其中,s(n)是n时刻的语音音频,s(n-1)是n-1时刻的语音音频,s(nz)是对得到的语音音频进行预增强操作后得到的高频语音部分,a是预增强系数,所述多帧音频包括n时刻的语音音频与n-1时刻的语音音频。需要说明的是,预增强系数可以根据具体情况,自行设置。对所述预增强音频的高频语音部分进行加窗操作,通过加窗能够改善由于信号分帧阶段造成的频谱泄露现象。从所述加窗后的音频中,就可以提取出所述第一语音音频的多个第一Fbank特征。

在执行步骤S202时,从所述目标音频中提取出所述第一语音音频的多个第一Fbank特征,包括:对所述加窗后的音频进行傅里叶变换操作,得到傅里叶变换结果;对所述傅里叶变换结果进行Mel滤波操作,得到滤波后的音频;对所述滤波后的音频进行对数运算处理,得到所述多个第一Fbank特征。

需要说明的是,对所述加窗后的音频还需要进行以下处理,才可以提取出所述第一语音音频的多个第一Fbank特征:对所述加窗后的音频进行傅里叶变换操作,将所述加窗后的音频从时域转换到频域,组合所述加窗后的音频的时域信号以及所述加窗后的音频的频域信号,得到所述加窗后的音频的时频图谱,称之为傅里叶变换结果。对所述傅里叶变换结果进行Mel滤波操作,该操作是为了根据人耳对不同频段声音的敏感程度,Mel滤波将信号频带重新划分。根据Mel滤波对信号频带的划分构建一组Mel滤波器组,将信号的傅里叶变换结果转换到Mel频域,称之为信号的Mel频域谱图。其中,Mel滤波器是通过并联方式连接,每一个Mel滤波器对应滤波一个频段。对所述滤波后的音频进行对数运算处理,由于声音信号的动态范围极大,为了压缩信号的动态范围,凸显信号中的细节信息,对Mel频域谱图的能量表示取对数,转化为声压级,称为Fbank谱图。需要说明的是,Fbank谱图包含所述多个第一Fbank特征。通过上述技术手段就可以从一段语音音频中获取到多个第一Fbank特征。

可选的,由于不同设备上声信号到电信号的增益不同,因此为了避免设备差异造成后续差分自编码器神经网络模型性能下降,还可以对Fbank谱进行归一化处理,就是将多个第一Fbank特征的值转化到零到一的区间。

在步骤S206中,根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,包括:根据以下公式确定所述偏差值A:A=∑

需要说明的是,可以根据A=∑

在执行步骤S204之前,也就是通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征之前,所述方法还包括:通过使用多个无噪声的唤醒词音频对所述差分自编码器神经网络模型进行模型训练;在所述差分自编码器神经网络模型学习到所述相似特征的情况下,将所述相似特征分别保存到多个GRU单元中,其中,所述差分自编码器神经网络模型包括多个GRU单元。

需要说明的是,通过使用多个无噪声的唤醒词音频对所述差分自编码器神经网络模型进行模型训练,其中,模型训练是通过深度学习的方式进行的训练。使用大量无噪声的唤醒词音频训练所述差分自编码器神经网络模型,所述差分自编码器神经网络模型学习到所有唤醒词音频的相似特征,进而将所述相似特征保存到所述差分自编码器神经网络模型内的每一个GRU(一种神经网络,全称Gated Recurrent Unit)单元中。需要说明的是,对所述差分自编码器神经网络模型进行训练,使用的唤醒词音频必须满足唤醒词音频无噪声和唤醒词音频数量多。无噪声是为了确保所述差分自编码器神经网络模型学习到的是唤醒词音频的相似特征,如果所述差分自编码器神经网络模型学习到的是噪声(非唤醒词音频的音频都是噪声)的相似特征,那么通过差分自编码器神经网络模型对所述多个第一Fbank特征依次进行编码操作、解码操作,得到的多个第二Fbank特征就是包含噪声特征的(第一Fbank特征与第二Fbank特征存在一一对应的关系)。上述假设会导致第二Fbank特征与第一Fbank特征差值大,所述偏差值过大,最终导致根据所述偏差值再次确定所述第一语音音频都是非唤醒词音频。如果用于训练的唤醒词音频数量少,那么所述差分自编码器神经网络模型学习到所述相似特征不一定准确,最终导致根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频的结果有误。

在步骤S204中,通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,包括:通过所述差分自编码器神经网络模型中编码器中的每个GRU单元对接收到的H

需要说明的是,所述差分自编码器神经网络模型包括编码器和解码器,其中编码器和解码器都包括多个GRU单元。编码器中的每个GRU单元对接收到的H

在步骤S206中,根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频,包括:在所述偏差值大于预设门限的情况下,确定所述第一语音音频不是所述唤醒词音频;在所述偏差值小于或者等于所述预设门限的情况下,确定第一语音音频为所述唤醒词音频。

需要说明的是,如果所述偏差值大于预设门限,确定所述第一语音音频不是所述唤醒词音频;如果所述偏差值小于或者等于所述预设门限,确定第一语音音频为所述唤醒词音频,其中,预设门限可以根据具体情境自行设置。通过上述技术手段,解决了相关技术中为了保证智能设备的语音唤醒率,必然造成智能设备误唤醒率高的问题,从而使得智能设备在唤醒率高的情况下,降低误唤醒率,提升用户在与设备交互时的体验。

为了更好的理解上述技术方案,使用以下结构框图用于解释说明语音音频的两次检测过程。

图3是根据本发明实施例的一种语音唤醒的两次检测模型的结构框图,如图3所示:

两次检测模型包括:端侧语音唤醒模块和唤醒二次检测模块,其中,端侧语音唤醒模块即是所述语音唤醒模块。

端侧语音唤醒模块接收音频流(也就是第一语音音频),当音频流的唤醒词概率大于预设阈值的情况下,将音频流确定为疑似唤醒词音频,发送给唤醒二次检测模块。

唤醒二次检测模块包括所述差分自编码器神经网络模型,唤醒二次检测模块对音频流进行处理,得到所述多个第一Fbank特征,唤醒二次检测模块将所述多个第一Fbank特征输入所述差分自编码器神经网络模型,得到所述多个第二Fbank特征。最后根据所述多个第一Fbank特征和所述多个第二Fbank特征之间的偏差值再次确定所述第一语音音频是否为唤醒词音频,输出唤醒检测结果。

图4是根据本发明实施例的一种语音音频的特征提取方法的流程图,如图4所示:

S402:对所述第一语音音频进行分帧操作:按照固定长度分割所述语音音频,取25ms为一帧,帧移10ms;

S404:根据s(nz)=s(n)-as(n-1)对得到的多帧音频进行预增强操作,其中,s(n)是n时刻的语音音频,s(n-1)是n-1时刻的语音音频,s(nz)是对得到的语音音频进行预增强操作后得到的高频语音部分,a是预增强系数,所述多帧音频包括n时刻的语音音频与n-1时刻的语音音频;

S406:对所述预增强音频的高频语音部分进行加窗操作,通过加窗能够改善由于信号分帧阶段造成的频谱泄露现象;

S408:对所述加窗后的音频进行傅里叶变换操作,将所述加窗后的音频从时域转换到频域,组合所述加窗后的音频的时域信号以及所述加窗后的音频的频域信号,得到所述加窗后的音频的时频图谱,称之为傅里叶变换结果;

S410:对所述傅里叶变换结果进行Mel滤波操作,该操作是为了根据人耳对不同频段声音的敏感程度,Mel滤波将信号频带重新划分,根据Mel滤波对信号频带的划分构建一组Mel滤波器组,将信号的傅里叶变换结果转换到Mel频域,称之为信号的Mel频域谱图;

S412:对Mel频域谱图的能量表示取对数,转化为声压级,称为Fbank谱图,需要说明的是,Fbank谱图包含所述多个第一Fbank特征。

图5是根据本发明实施例的一种差分自编码器神经网络模型的结构框图,如图5所示:

差分自编码器神经网络模型包括编码器和解码器,其中编码器和解码器都包括多个GRU单元。编码器的多个GRU单元对所述编码器的多个GRU单元分别接收到的H

通过本发明,接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。也就是说,获取所述第一语音音频的多个第一Fbank特征,通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值就可以确定所述第一语音音频是否为唤醒词音频。采用上述技术方案,解决了相关技术中为了保证智能设备的语音唤醒率,必然造成智能设备误唤醒率高的问题,从而使得智能设备在唤醒率高的情况下,降低误唤醒率,提升用户在与设备交互时的体验。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种语音音频的检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的一种语音音频的检测装置的结构框图;如图6所示,包括:

第一获取模块60,用于接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;

第二获取模块62,用于通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;

确定模块64,用于根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。

通过本发明,接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。也就是说,获取所述第一语音音频的多个第一Fbank特征,通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值就可以确定所述第一语音音频是否为唤醒词音频。采用上述技术方案,解决了相关技术中为了保证智能设备的语音唤醒率,必然造成智能设备误唤醒率高的问题,从而使得智能设备在唤醒率高的情况下,降低误唤醒率,提升用户在与设备交互时的体验。

可选的,第一获取模块60,还用于对所述第一语音音频进行分帧操作,得到多帧音频;对所述多帧音频进行预增强操作,得到预增强音频;对所述预增强音频的高频语音部分进行加窗操作,得到加窗后的音频;从所述加窗后的音频中提取出所述第一语音音频的多个第一Fbank特征。

需要说明的是,对所述第一语音音频进行分帧操作,是按照第一预设长度分割所述语音音频,得到多个序列,其中,一个序列为一帧,以第二预设长度为帧移的长度。需要说明的是,第一预设长度与第二预设长度可以根据具体情况,自行设置。对得到的多帧音频进行预增强操作,是根据s(nz)=s(n)-as(n-1)对得到的多帧音频进行预增强操作,其中,s(n)是n时刻的语音音频,s(n-1)是n-1时刻的语音音频,s(nz)是对得到的语音音频进行预增强操作后得到的高频语音部分,a是预增强系数,所述多帧音频包括n时刻的语音音频与n-1时刻的语音音频。需要说明的是,预增强系数可以根据具体情况,自行设置。对所述预增强音频的高频语音部分进行加窗操作,通过加窗能够改善由于信号分帧阶段造成的频谱泄露现象。从所述加窗后的音频中,就可以提取出所述第一语音音频的多个第一Fbank特征。

可选的,第一获取模块60,还用于对所述加窗后的音频进行傅里叶变换操作,得到傅里叶变换结果;对所述傅里叶变换结果进行Mel滤波操作,得到滤波后的音频;对所述滤波后的音频进行对数运算处理,得到所述多个第一Fbank特征。

需要说明的是,对所述加窗后的音频还需要进行以下处理,才可以提取出所述第一语音音频的多个第一Fbank特征:对所述加窗后的音频进行傅里叶变换操作,将所述加窗后的音频从时域转换到频域,组合所述加窗后的音频的时域信号以及所述加窗后的音频的频域信号,得到所述加窗后的音频的时频图谱,称之为傅里叶变换结果。对所述傅里叶变换结果进行Mel滤波操作,该操作是为了根据人耳对不同频段声音的敏感程度,Mel滤波将信号频带重新划分。根据Mel滤波对信号频带的划分构建一组Mel滤波器组,将信号的傅里叶变换结果转换到Mel频域,称之为信号的Mel频域谱图。其中,Mel滤波器是通过并联方式连接,每一个Mel滤波器对应滤波一个频段。对所述滤波后的音频进行对数运算处理,由于声音信号的动态范围极大,为了压缩信号的动态范围,凸显信号中的细节信息,对Mel频域谱图的能量表示取对数,转化为声压级,称为Fbank谱图。需要说明的是,Fbank谱图包含所述多个第一Fbank特征。通过上述技术手段就可以从一段语音音频中获取到多个第一Fbank特征。

可选的,由于不同设备上声信号到电信号的增益不同,因此为了避免设备差异造成后续差分自编码器神经网络模型性能下降,还可以对Fbank谱进行归一化处理,就是将多个第一Fbank特征的值转化到零到一的区间。

可选的,确定模块64,还用于根据以下公式确定所述偏差值A:A=∑

需要说明的是,可以根据A=∑

可选的,第二获取模块62,还用于通过使用多个无噪声的唤醒词音频对所述差分自编码器神经网络模型进行模型训练;在所述差分自编码器神经网络模型学习到所述相似特征的情况下,将所述相似特征分别保存到多个GRU单元中,其中,所述差分自编码器神经网络模型包括多个GRU单元。

需要说明的是,通过使用多个无噪声的唤醒词音频对所述差分自编码器神经网络模型进行模型训练,其中,模型训练是通过深度学习的方式进行的训练。使用大量无噪声的唤醒词音频训练所述差分自编码器神经网络模型,所述差分自编码器神经网络模型学习到所有唤醒词音频的相似特征,进而将所述相似特征保存到所述差分自编码器神经网络模型内的每一个GRU(一种神经网络,全称Gated Recurrent Unit)单元中。需要说明的是,对所述差分自编码器神经网络模型进行训练,使用的唤醒词音频必须满足唤醒词音频无噪声和唤醒词音频数量多。无噪声是为了确保所述差分自编码器神经网络模型学习到的是唤醒词音频的相似特征,如果所述差分自编码器神经网络模型学习到的是噪声(非唤醒词音频的音频都是噪声)的相似特征,那么通过差分自编码器神经网络模型对所述多个第一Fbank特征依次进行编码操作、解码操作,得到的多个第二Fbank特征就是包含噪声特征的(第一Fbank特征与第二Fbank特征存在一一对应的关系)。上述假设会导致第二Fbank特征与第一Fbank特征差值大,所述偏差值过大,最终导致根据所述偏差值再次确定所述第一语音音频都是非唤醒词音频。如果用于训练的唤醒词音频数量少,那么所述差分自编码器神经网络模型学习到所述相似特征不一定准确,最终导致根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频的结果有误。

可选的,第二获取模块62,还用于通过所述差分自编码器神经网络模型中编码器中的每个GRU单元对接收到的H

需要说明的是,所述差分自编码器神经网络模型包括编码器和解码器,其中编码器和解码器都包括多个GRU单元。编码器中的每个GRU单元对接收到的H

可选的,确定模块64,还用于在所述偏差值大于预设门限的情况下,确定所述第一语音音频不是所述唤醒词音频;在所述偏差值小于或者等于所述预设门限的情况下,确定第一语音音频为所述唤醒词音频。

需要说明的是,如果所述偏差值大于预设门限,确定所述第一语音音频不是所述唤醒词音频;如果所述偏差值小于或者等于所述预设门限,确定第一语音音频为所述唤醒词音频,其中,预设门限可以根据具体情境自行设置。通过上述技术手段,解决了相关技术中为了保证智能设备的语音唤醒率,必然造成智能设备误唤醒率高的问题,从而使得智能设备在唤醒率高的情况下,降低误唤醒率,提升用户在与设备交互时的体验。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

S1,接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;

S2,通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;

S3,根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。

可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

S1,接收语音唤醒模块发送的第一语音音频,并获取所述第一语音音频的多个第一Fbank特征,其中,所述第一语音音频为所述语音唤醒模块检测到的,且所述第一语音音频的唤醒词概率大于预设阈值;

S2,通过差分自编码器神经网络模型对每个第一Fbank特征依次进行编码操作、解码操作,得到每个第一Fbank特征对应的第二Fbank特征,其中,所述差分自编码器神经网络模型在模型训练过程中,已获取到所有唤醒词音频的相似特征;

S3,根据每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征确定每个第一Fbank特征和每个第一Fbank特征对应的第二Fbank特征之间的偏差值,并根据所述偏差值再次确定所述第一语音音频是否为唤醒词音频。

可选地,在本可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 语音音频的检测方法及装置、存储介质及电子装置
  • 智能终端音频检测方法、电子装置及计算机可读存储介质
技术分类

06120112938360