掌桥专利:专业的专利平台
掌桥专利
首页

基于注意力机制的CRNN网络在麦克风唤醒中应用方法

文献发布时间:2024-04-18 20:00:25


基于注意力机制的CRNN网络在麦克风唤醒中应用方法

技术领域

本发明涉及语音识别技术领域,尤其涉及基于注意力机制的CRNN网络在麦克风唤醒中应用方法。

背景技术

语音识别是人机交互领域的一个热门话题,语音识别技术在现代社会的应用越来越广泛,其中包括大词汇量连续语音识别技术(Large Vocabulary Continuous SpeechRecognition,LVCSR)和关键词识别(Keyword Spotting,KWS)。

但是LVCSR需要高计算能力和大量存储空间,因此一般在云服务器上运行,不能在小型移动设备(如麦克风)上进行使用,而KWS对计算能力的要求较小,可以在移动设备上实现,但识别效率不高,使得现有的语音识别技术不能实现在模型参数和运算量都大幅降低的情况下,同时又具有高识别率。

发明内容

有鉴于此,本发明的目的在于提出基于注意力机制的CRNN网络在麦克风唤醒中应用方法,以解决现有的语音识别技术不能实现小体积高识别率的多分类KWS系统问题。

基于上述目的,本发明提供了基于注意力机制的CRNN网络在麦克风唤醒中应用方法,包括以下步骤:

S1、建立端到端神经网络模型,网络模型由卷积神经网络、循环神经网络和注意力机制构成;

S2、输入特征经过卷积神经网络后得到输出特征,再经过循环神经网络计算各个时间步的隐藏状态;

S3、注意力机制选择更可能包含关键词的语音部分,同时忽略不相关的部分,计算每一个输入位置与当前输出位置的关联性;

S4、通过线性变换和softmax函数生成概率分布,实现关键词的识别。

优选的,在S2中,先对输入特征进行处理,包括语音的特征选取和提取以及标签处理,处理步骤包括如下步骤:

S2.1采用Hann进行STFT,公式如下,

y(n)=x(n)w(n)

其中,n为第n个采样点,x(n)为缓存的语音信号,w(n)为Hann窗系数取平方根;

S2.2、将进行DFT变换到频域,公式如下,

其中,k表示第k个频点,N为DFT长度,e

优选的,在S2.2中根据心理声学模型将频点划分成M个子带,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为B,三角滤波器的频率响应定义为:

S2.3、求这个子带的能量倒谱s,公式如下;

其中,ln(·)为自然对数;

S2.4、求出前6个子带倒谱的一阶差分和二阶差分,公式如下,

c

c

其中,1≤m≤6,将s、c

优选的,标签就是标注wav音频文件对应的内容,将关键词和其他语音进行分类,且按关键词持续时长进行分类。

优选的,在S2中,在循环神经网络中,我们使用了双向GRU,通过该网络可以直接利用语音上下文信息。

优选的,在S3中,计算每一个输入位置与当前输出位置的关联性公式如下,

输入语音特征x=(x

e

其中,W、v为学习到的权重,b为偏置参数;

注意力机制从特征表示中学习归一化的权重α

其中,exp(·)表示取指数;然后,再通过attention对不同时间步的隐藏状态进行加权形成固定长度向量c;

优选的,在S4中,生成概率分布的公式如下:

p(y

其中是线性变换,表示是否检测到第个关键词;

softmax,函数表达式如下;

其中,v为输入向量,v

本发明的有益效果:本发明提供的基于注意力机制的CRNN网络在麦克风唤醒中应用方法,通过建立端到端的神经网络模型,将语音特征表示为更高维度的特征表示,并使用注意力机制选择更可能包含关键词的语音部分,并通过线性变换和softmax函数生成概率分布,实现关键词的识别,实现了小体积、高识别率的多分类KWS系统,并将其应用于麦克风唤醒控制中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程图;

图2为本发明实施例的训练过程示意图;

图3为本发明实施例的STFT窗长示意图;

图4为本发明实施例的特征提取流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

如图1、图2、图3、图4所示,基于注意力机制的CRNN网络在麦克风唤醒中应用方法,基于注意力机制的CRNN网络在麦克风唤醒中应用方法,包括以下步骤:

S1、建立端到端神经网络模型,网络模型由卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制(Attention)构成;

S2、输入特征经过卷积神经网络后得到输出特征,再经过循环神经网络计算各个时间步的隐藏状态,在循环神经网络中,我们使用了双向GRU,通过该网络可以直接利用语音上下文信息。

在S2中,先对输入特征进行处理,包括语音的特征选取和提取以及标签处理,针对16khz语音,以10ms为帧长,步进10ms,采用汉宁窗(Hann)进行短时傅里叶变换(STFT)处理步骤包括如下步骤:

S2.1采用Hann进行STFT,公式如下,

y(n)=x(n)w(n)

其中,n为第n个采样点,x(n)为缓存的语音信号,w(n)为Hann窗系数取平方根;

S2.2、将进行DFT变换到频域,公式如下,

其中,k表示第k个频点,N为DFT长度,e

在S2.2中根据心理声学模型将频点划分成M个子带,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为B,三角滤波器的频率响应定义为:

S2.3、求这个子带的能量倒谱s,公式如下;

其中,ln(·)为自然对数;

S2.4、求出前6个子带倒谱的一阶差分和二阶差分,公式如下,

c

c

其中,1≤m≤6,将s、c

S3、注意力机制选择更可能包含关键词的语音部分,同时忽略不相关的部分,计算每一个输入位置与当前输出位置的关联性;

在S3中,计算每一个输入位置与当前输出位置的关联性公式如下,

输入语音特征x=(x

e

其中,W、v为学习到的权重,b为偏置参数;

注意力机制从特征表示中学习归一化的权重α

其中,exp(·)表示取指数。然后,再通过attention对不同时间步的隐藏状态进行加权形成固定长度向量c;

S4、通过线性变换和softmax函数生成概率分布,实现关键词的识别。

在S4中,生成概率分布的公式如下:

p(y

其中是线性变换,表示是否检测到第个关键词;

softmax,函数表达式如下;

其中,v为输入向量,v

在对模型进行训练时,不需要庞大的预训练模型,选取好的语音输入特征,可以降低网络的复杂度,使得模型参数和运算量都大幅降低。训练过程中,先设定的标签(label)进行loss计算(根据设定的损失函数计算),然后通过反向传播来更新权重后,再迭代进行前向传播、loss计算和反向传播更新权重,直至loss值达到预期效果。根据麦克风的应用场景,我们设定了多分类关键词模型,其中,关键词包括“增加音量”,“降低音量”,“通透模式”,“降噪模式”我们的端到端系统直接输出置信度得分,无需后处理,在p(y=1,2,3,4)超过预设阈值时被触发。具体的,输入是一个语音特征的滑动窗口,具有预设的长度并包含整个关键字。同时,采用帧移技术(streaming)[10],只需要将新的一帧输入到网络中进行计算,其余帧已在前一个滑动窗口中计算完成,因此,我们的系统具有较低的计算成本。

标签就是标注wav音频文件对应的内容,将关键词和其他语音进行分类,且按关键词持续时长进行分类。

我们需要将关键词和其他语音进行分类,一般的,按关键词持续时长进行分类。具体的,将“增加音量”标记1,“降低音量”标记2,“通透模式”标记3,“降噪模式”标记4,其他标记0。训练前要把语料分成训练集,验证集,测试集,比例为8:1:1。训练集和验证集用于训练,测试集用于评估。

训练语料我们运用了MAGIC DATA的开源语料库,关键词搜集,我们请了20位同学分别先以正常语速说一遍关键词,然后以较快语速说一遍,最后以较慢语速说一遍。接下来,需要对数据语料进行扩展,包括不同音量,不同pitch,并且加入噪声,如白噪声(whitenoise),粉红噪声(pink noise),背景人声(babble noise)。训练时,我们一共运用了近100小时的音频,其中包括纯净语音,带噪语音和纯噪声,并且加入了相似发音、半个关键字等干扰项。

为了节省降低CPU计算量和内存开销,训练得到的参数以字节存储。经过实践论证,我们的模型可以在麦克风小型嵌入式系统中运行,并且有非常高的识别率,和非常低的误检率(false alarms)和漏检率(false rejects)。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。

基于注意力机制的CRNN网络模型,用于实现小体积、高准确率的多分类关键词检测系统,并应用于麦克风上,使得语音控制麦克风更加方便和快捷,同时减少了产品的物理按键,提高了产品的美观度,具有较好的应用前景。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120116526395