掌桥专利:专业的专利平台
掌桥专利
首页

语音识别方法、装置、电子设备、存储介质及程序产品

文献发布时间:2023-06-19 15:47:50



技术领域

本发明实施例涉及一种语音识别方法、装置、电子设备、存储介质及程序产品。

背景技术

当下主流语音识别系统多基于Transformer结构进行声学模型和语言模型的构建处理。Transformer结构中具有自注意力模块,用于自注意力的计算。图2为传统Transformer结构中自注意力模块的计算过程示意图,自注意力模块进行自注意力的计算时,采用如下计算过程:

Q=XW

K=XW

V=XW

SelfAttention(Q,K,V)=AV

其中,Input X∈R

上述步骤需要大量的计算过程,对系统服务器性能要求较高。与在线语音识别服务器相比,嵌入式语音识别设备计算资源(如内存、计算力)极为有限,同时还要求系统具有更快的响应速度。因此,如何减小计算量、提高运算速度是嵌入式语音识别应用亟待解决的问题。

发明内容

为解决现有技术中的问题,本发明实施例提供一种语音识别方法、装置、电子设备、存储介质及程序产品。

本发明实施例提供一种语音识别方法,包括:获取待进行语音识别的语音信号;基于声学模型及语言模型对所述语音信号进行语音识别;其中,所述声学模型和所述语言模型是基于修改了自注意力模块的Transformer结构构建的,所述修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。

根据本发明实施例提供的一种语音识别方法,所述基于声学模型及语言模型对所述语音信号进行语音识别,包括:对所述语音信号进行声学处理,得到声学特征;利用所述声学特征及所述声学模型进行声学编码,得到音节序列;将所述音节序列和词表进行词表匹配,得到词序列;将所述词序列输入到所述语言模型输出语言解码结果。

根据本发明实施例提供的一种语音识别方法,所述自注意力值表示为:A=softmax(f(g(W))),且f(g(W))的计算量小于

根据本发明实施例提供的一种语音识别方法,所述自注意力值表示为:g(W)=WX或g(W)=W;其中,X表示所述语音信号。

根据本发明实施例提供的一种语音识别方法,所述神经网络的权重矩阵经过稀疏化处理。

根据本发明实施例提供的一种语音识别方法,所述神经网络的权重矩阵的有效值存在于对角线及从对角线向两侧延伸的位置上;且对应所述神经网络的权重矩阵的每行,有效值数量之和小于所述语音信号的行数。

本发明实施例还提供一种语音识别装置,包括:语音信号获取模块,用于:获取待进行语音识别的语音信号;语音识别模块,用于:基于声学模型及语言模型对所述语音信号进行语音识别;其中,所述声学模型和所述语言模型是基于修改了自注意力模块的Transformer结构构建的,所述修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。

本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法的步骤。

本发明实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法的步骤。

本发明实施例提供的语音识别方法、装置、电子设备、存储介质及程序产品,通过获取待进行语音识别的语音信号,基于声学模型及语言模型对语音信号进行语音识别,其中,声学模型和语言模型是基于修改了自注意力模块的Transformer结构构建的,修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的,可以提高自注意力值的计算速度,进而提高改进的Transformer结构自注意力模块输出结果的速度,提高利用改进的Transformer结构构建的声学模型和语言模型的处理速度,从而从整体上提高了语音识别的处理速度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音识别方法的流程示意图之一;

图2为传统Transformer结构中自注意力模块的计算过程示意图;

图3是本发明实施例提供的语音识别方法中自注意力模块的计算过程示意图之一;

图4是本发明提供的语音识别方法的流程示意图之二;

图5是本发明实施例提供的语音识别方法中自注意力模块的计算过程示意图之二;

图6为本发明实施例提供的语音识别方法中未对神经网络的权重矩阵进行稀疏化处理的计算复杂度示意图;

图7是本发明实施例提供的语音识别方法中神经网络的权重矩阵的稀疏化处理过程示意图;

图8是本发明实施例提供的语音识别装置的结构示意图;

图9是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合图1-图9描述本发明实施例的语音识别方法、装置、电子设备、存储介质及程序产品。

图1是本发明实施例提供的语音识别方法的流程示意图之一。如图1所示,所述方法包括:

步骤101、获取待进行语音识别的语音信号。

获取待进行语音识别的语音信号,待识别的语音信号可以是原始语音信号或经过初步信号处理(如去噪)后的语音信号。

步骤102、基于声学模型及语言模型对所述语音信号进行语音识别;其中,所述声学模型和所述语言模型是基于修改了自注意力模块的Transformer结构构建的,所述修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。

本发明在于对Transformer结构(并非实体结构,体现为各个功能模块的计算过程)中自注意力模块的改进,其中,自注意力模块是一个功能模块,本发明的改进点包括简化自注意力模块中自注意力值A的计算过程,降低自注意力值A的计算量。

本发明的改进在于对Transformer结构中自注意力模块计算的提速,Transformer结构中自注意力模块包括self-Attention模块(自注意力机制模块)和Encoder-DecoderAttention模块(编解码注意力模块),Encoder-Decoder Attention模块因为和self-Attention模块的输入参数不同,所以用不同的形式进行了表示,其也是用于计算自注意力的。

基于声学模型及语言模型对待识别的语音信号进行语音识别。其中,声学模型及语言模型是基于改进的Transformer结构构建的。改进的Transformer结构是通过对现有的Transformer结构中的自注意力模块进行改进得到的。改进的Transformer结构中的自注意力模块的自注意力值A是基于神经网络的权重矩阵得到的。

通过基于神经网络的权重矩阵得到自注意力值A,在有效获得自注意力值A的基础上可以减少自注意力值A的计算量,使得自注意力值A的计算量小于现有自注意力值A的计算量。

图3是本发明实施例提供的语音识别方法中自注意力模块的计算过程示意图之一。如图3所示,本发明的改进在于对于自注意力值A的计算,即图3中的虚线框部分,得到自注意力值A后,通过计算AV的结果得到自注意力模块的最终输出结果Output。V即现有自注意力计算方法中的value。

本发明实施例提供的语音识别方法,通过获取待进行语音识别的语音信号,基于声学模型及语言模型对语音信号进行语音识别,其中,声学模型和语言模型是基于修改了自注意力模块的Transformer结构构建的,修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的,可以提高自注意力值的计算速度,进而提高改进的Transformer结构自注意力模块输出结果的速度,提高利用改进的Transformer结构构建的声学模型和语言模型的处理速度,从而从整体上提高语音识别的处理速度。

根据本发明实施例提供的一种语音识别方法,所述基于声学模型及语言模型对所述语音信号进行语音识别,包括:对所述语音信号进行声学处理,得到声学特征;利用所述声学特征及所述声学模型进行声学编码,得到音节序列;将所述音节序列和词表进行词表匹配,得到词序列;将所述词序列输入到所述语言模型输出语言解码结果。

图4是本发明提供的语音识别方法的流程示意图之二。基于上述自注意力值的计算方法改进Transformer结构中自注意力模块的计算,利用改进的Transformer结构构建声学模型和语言模型,基于构建的声学模型和语言模型进行语音识别。如图4所示,基于构建的声学模型和语言模型进行语音识别的过程包括:

对输入的语音信号进行声学处理后,得到声学特征;利用声学特征及声学模型进行声学编码,得到音节序列;将音节序列和词表进行词表匹配,得到词序列;将词序列输入到语言模型输出语言解码结果,从而完成语音识别过程。

改进后的Transformer结构计算复杂度显著下降,可用于声学模型和语言模型中的信号处理提高应用设备对语音信号的响应速度,从而实现更快的语音识别任务。

本发明实施例提供的语音识别方法,通过基于改进的Transformer结构构建声学模型和语言模型,基于声学模型和语言模型进行语音识别,提高了利用Transformer结构构建的声学模型和语言模型的处理速度,从而从整体上提高了语音识别的处理速度。

根据本发明实施例提供的语音识别方法,所述自注意力值表示为:A=softmax(f(g(W))),且f(g(W))的计算量小于

本发明实施例在自注意力值A的计算中,也是通过归一化处理得到自注意力值A,改进在于归一化处理的对象表示为f(g(W))。现有技术自注意力值A的计算中,归一化处理的对象表示为

本发明实施例提供的语音识别方法,通过改进进行归一化处理的对象来减少自注意力值的计算量,提高计算速度,实现了语音识别速度提高的简便性。

根据本发明提供的一种语音识别方法,g(W)=WX或g(W)=W;其中,X表示所述语音信号。

g(W)可以表示为WX,则自注意力值A表示为:A=softmax(f(WX)),也即通过对WX的函数进行归一化处理得到自注意力值A。f(WX)可以是WX的非线性函数,如f(WX)表示为sigmoid(WX),f(WX)=sigmoid(WX+b)等等。其中b可以取值为神经网络的偏置,sigmoid表示神经网络的激活函数。g(W)表示为WX,在保留输入语音信号的基础上减少了自注意力值的计算量,提高了自注意力值的计算速度。

为进一步减少自注意力值A的计算量,f(WX)也可以表示为WX的线性函数,如f(WX)表示为f(WX)=WX,f(WX)=WX+b等等。其中b可以取值为神经网络的偏置。通过使得f(WX)表示为WX的线性变换函数,在保留输入语音信号的基础上进一步减少了自注意力值的计算量,提高了自注意力值的计算速度。

为进一步减少自注意力值A的计算量,g(W)也可以不依赖输入的语音信号X,即完全随机初始化生成自注意力值A,神经网络在训练中对自注意力值A进行更新,g(W)可以表示为W,即g(W)=W,则自注意力值A表示为:A=softmax(f(W)),也即通过对W的函数进行归一化处理得到自注意力值A。

图5是本发明实施例提供的语音识别方法中自注意力模块的计算过程示意图之二。如图5所示,在g(W)=W时,自注意力值A的计算将不依赖于输入的语音信号X。通过使得g(W)=W,不进行输入的语音信号的计算,进一步减少了自注意力值的计算量,提高了自注意力值的计算速度。

本发明实施例提供的语音识别方法,通过令g(W)=WX或g(W)=W,进一步减少了自注意力值的计算量,提高了自注意力值的计算速度,从而进一步提高了语音识别的速度。

根据本发明实施例提供的语音识别方法,所述神经网络的权重矩阵经过稀疏化处理。

自注意力值A的计算过程中,可以将神经网络的权重矩阵W进行稀疏化处理,进一步减少自注意力值A的计算量。对神经网络的权重矩阵W进行稀疏化处理可以通过使得W的某些位置上固定为0值,使这些位置上的数据不参与计算过程。

本发明实施例提供的语音识别方法,通过对神经网络的权重矩阵进行稀疏化处理,减少了自注意力值的计算复杂度,提高了自注意力值的计算速度。

根据本发明实施例提供的一种语音识别方法,所述神经网络的权重矩阵的有效值存在于对角线及从对角线向两侧延伸的位置上;且对应所述神经网络的权重矩阵的每行,有效值数量之和小于所述语音信号的行数。

图6为本发明实施例提供的语音识别方法中未对神经网络的权重矩阵进行稀疏化处理的计算复杂度示意图。如图6所示,比如W∈R

图7是本发明实施例提供的语音识别方法中神经网络的权重矩阵的稀疏化处理过程示意图。如图7所示,左图表示稀疏化处理前的W,W∈R

并且,根据语音的局部相关性只计算局部自注意力值,W的有效值存在于对角线及从对角线向两侧延伸的位置上实现局部注意力值的计算。若输入的语音信号的行数表示为帧数,则如图7右图所示,第一行的第一个有效值用于计算第1帧和第1帧的相关度,第一行的第二个有效值用于计算第1帧和第2帧的相关度;第二行的第一个有效值用于计算第2帧和第1帧的相关度,第二行的第二个有效值用于计算第2帧和第2帧的相关度,第二行的第三个有效值用于计算第2帧和第3帧的相关度,因此保证了局部自注意力值的计算。

通过对应每行对角线上的元素和两侧相邻的元素的数量之和的最大值a(神经网络的权重矩阵W每行的有效值所占的最大列数)小于语音信号的行数n实现计算矩阵计算复杂度的降低。

W∈R

a可以是通过随机数法随机生成的。可以通过多轮实验,根据语音识别的效果选择最优a值,如根据语音识别的处理速度和准确性确定最优a值。

本发明实施例提供的语音识别方法,通过使得W的有效值存在于对角线及从对角线向两侧延伸的位置上,且每行有效值数量之和小于语音信号的行数,平衡了计算速度的提高和语音识别准确度的需求。

下面对本发明实施例提供的语音识别装置进行描述,下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

图8是本发明实施例提供的语音识别装置的结构示意图。如图8所示,所述装置包括语音信号获取模块10和语音识别模块20,其中:语音信号获取模块10用于:获取待进行语音识别的语音信号;语音识别模块20用于:基于声学模型及语言模型对所述语音信号进行语音识别;其中,所述声学模型和所述语言模型是基于修改了自注意力模块的Transformer结构构建的,所述修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。

本发明实施例提供的语音识别装置,通过获取待进行语音识别的语音信号,基于声学模型及语言模型对语音信号进行语音识别,其中,声学模型和语言模型是基于修改了自注意力模块的Transformer结构构建的,修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的,可以提高自注意力值的计算速度,进而提高改进的Transformer结构自注意力模块输出结果的速度,提高利用改进的Transformer结构构建的声学模型和语言模型的处理速度,从而从整体上提高语音识别的处理速度。

根据本发明实施例提供的一种语音识别装置,语音识别模块20在用于基于声学模型及语言模型对所述语音信号进行语音识别时,具体用于:对所述语音信号进行声学处理,得到声学特征;利用所述声学特征及所述声学模型进行声学编码,得到音节序列;将所述音节序列和词表进行词表匹配,得到词序列;将所述词序列输入到所述语言模型输出语言解码结果。

本发明实施例提供的语音识别装置,通过基于改进的Transformer结构构建声学模型和语言模型,基于声学模型和语言模型进行语音识别,提高了利用Transformer结构构建的声学模型和语言模型的处理速度,从而从整体上提高了语音识别的处理速度。

根据本发明实施例提供的一种语音识别装置,所述自注意力值表示为:A=softmax(f(g(W))),且f(g(W))的计算量小于

本发明实施例提供的语音识别装置,通过改进进行归一化处理的对象来减少自注意力值的计算量,提高计算速度,实现了语音识别速度提高的简便性。

根据本发明实施例提供的一种语音识别装置,g(W)=WX或g(W)=W;其中,X表示所述语音信号。

本发明实施例提供的语音识别装置,通过令g(W)=WX或g(W)=W,进一步减少了自注意力值的计算量,提高了自注意力值的计算速度,从而进一步提高了语音识别的速度。

根据本发明实施例提供的一种语音识别装置,所述神经网络的权重矩阵经过稀疏化处理。

本发明实施例提供的语音识别装置,通过对神经网络的权重矩阵进行稀疏化处理,减少了自注意力值的计算复杂度,提高了自注意力值的计算速度。

根据本发明实施例提供的一种语音识别装置,所述神经网络的权重矩阵的有效值存在于对角线及从对角线向两侧延伸的位置上;且对应所述神经网络的权重矩阵的每行,有效值数量之和小于所述语音信号的行数。

本发明实施例提供的语音识别装置,通过使得W的有效值存在于对角线及从对角线向两侧延伸的位置上,且每行有效值数量之和小于语音信号的行数,平衡了计算速度的提高和语音识别准确度的需求。

图9是本发明实施例提供的电子设备的结构示意图,如图9所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行语音识别方法,该方法包括:获取待进行语音识别的语音信号;基于声学模型及语言模型对所述语音信号进行语音识别;其中,所述声学模型和所述语言模型是基于修改了自注意力模块的Transformer结构构建的,所述修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。

此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语音识别方法,该方法包括:获取待进行语音识别的语音信号;基于声学模型及语言模型对所述语音信号进行语音识别;其中,所述声学模型和所述语言模型是基于修改了自注意力模块的Transformer结构构建的,所述修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。

又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语音识别方法,该方法包括:获取待进行语音识别的语音信号;基于声学模型及语言模型对所述语音信号进行语音识别;其中,所述声学模型和所述语言模型是基于修改了自注意力模块的Transformer结构构建的,所述修改了自注意力模块的Transformer结构中的自注意力模块的自注意力值是基于神经网络的权重矩阵得到的。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120114581834