掌桥专利:专业的专利平台
掌桥专利
首页

基于LORA微调辅助的语音唤醒快速自适应方法

文献发布时间:2024-04-18 19:59:31


基于LORA微调辅助的语音唤醒快速自适应方法

技术领域

本发明涉及语音识别技术领域,具体是涉及一种基于LORA微调辅助的语音唤醒快速自适应方法。

背景技术

语音唤醒(KWS,KeyWord Spotting),指通过语音(指定词语),唤醒设备。这里的“唤醒”指的是,让设备从待机状态进入工作状态,开始对用户的话语进行监听、识别与回应。现有的语音唤醒系统基本具备了在轻量级设备上实现较高水平的唤醒率与较低水平的误唤醒率,然而面对客户端定制的唤醒词与较为复杂的唤醒场景,现有的语音唤醒模型仍然需要针对性地使用目标数据进行全量数据的微调以达到实际应用的标准。

发明内容

本发明要解决的技术问题是在语音唤醒领域,针对特定的唤醒词与唤醒场景,现有的语音唤醒解决方案往往采用目标数据进行针对性地全参数微调训练,需要较高的时间与数据成本。

为解决上述技术问题,本发明的技术方案如下:基于LORA微调辅助的语音唤醒快速自适应方法,包括以下步骤:

S1使用大量通用的语音识别数据训练得到一个通用的音素识别模型,通过所述音素识别模型对输入音频可以进行初步的音素序列分类。

进一步地,所述步骤S1中音素识别模型包括:特征提取器、音频编码模块、映射层;

所述音频编码模块包括卷积降采样层、卷积增强变压器层(Conformer Layer)、连接时序分类层(Connectionist temporal classification,CTC);

所述卷积降采样层是由两层卷积神经网络(Convolutional Neural Network,CNN)模块组成;

所述卷积增强变压器层(Conformer Layer)为多层结构,每一层包括前馈神经网络、多头自注意力模块、卷积模块。

语音信号以音素为建模单元,经过音频编码模块的卷积降采样层进行降采样编码并送入到若干层卷积增强变压器层(Conformer Layer)中进行编码,再将卷积增强变压器层(Conformer Layer)的输出输入到连接时序分类层(Connectionist temporalclassification,CTC)中并输入数据标签来计算连接时序分类层(Connectionisttemporal classification,CTC)的损失,最终初步得到识别音素序列的音素序列识别器。

S2构建常用的唤醒词数据库,唤醒词数据库覆盖大部分汉语发音,使唤醒词数据混合一定比例S1步骤中的语音识别数据后对音素识别模型进行微调,提高识别模型的唤醒词识别能力,使得语音唤醒模型在常用的短唤醒词领域得以有效提高识别效果。在通用音素识别模型的基础上得到针对唤醒词识别性能较好的唤醒词基础模型。

S3基于客户提供的目标唤醒词语料,使用LORA训练S2中唤醒词基础模型并进行部分参数微调,使得模型输出快速提高目标关键词唤醒的自适应能力。

进一步地,所述使用LORA训练的方案进行模型的一部分参数微调的步骤为:

S3-1从S2中得到的唤醒词基础模型中提取卷积增强变压器层的权重矩阵

S3-2从

其中,A为降维矩阵,B为升维矩阵,

S3-3使用少量客户指定的目标唤醒词语料进行LORA模型训练,在训练过程中数据经过卷积降采样层降采样后分别与原有的卷积增强变压器层、LORA模块的参数矩阵相乘,相乘后的两组矩阵重新相加在一起输入下一个训练模块,其中卷积增强变压器层的参数完全冻结,视任务情况选取LORA矩阵的秩(r=1,2,4,8),在计算训练损失后仅更新降维矩阵A和升维矩阵B的参数;

S3-4完成LORA模块训练后,在实际的推理过程中实际数据同样经过卷积降采样层降采样后分别与原有的卷积增强变压器层、已训练的LORA模块的参数矩阵相乘,相乘后的两组矩阵重新相加在一起输入至下一个推理模块并最终完成唤醒词的预测与判定。

步骤S3中基于客户的唤醒需求,利用客户提供的少量唤醒语料,构建一个LORA模型,具体表现为: 对S1步骤中的音频编码模块中的卷积增强变压器层注入低秩分解矩阵:训练时,原模型固定,只训练低秩分解矩阵的降维矩阵A和升维矩阵B;推理时,将B、A加到原参数上,不引入额外的推理延迟。

S4根据客户提供的目标唤醒词语料中列表,构建处理识别结果的热词模块,使用热词增强唤醒词匹配,进一步提高目标关键词唤醒的准确率。

与现有技术相比,本发明的有益效果体现在:本发明的方法通过利用LORA辅助训练的方法帮助语音唤醒模型在现有唤醒水平的基础上依照客户的具体唤醒词与唤醒环境的需求,利用少量的目标域数据进行快速高效的模型微调训练,使得模型可以在短时间内适应目标域的实际应用场景,在短时间低成本内实现唤醒模型的实际应用效果的提升。

附图说明

图1为基础唤醒模型的训练框架;

图2是LORA微调模型的训练框架;

图3是最终唤醒模型的推理框架。

具体实施方式

以下结合附图来对本发明作进一步的说明。

实施例

基于LORA微调辅助的语音唤醒快速自适应方法,包括以下步骤:

S1使用大量通用的语音识别数据训练得到一个通用的音素识别模型,通过音素识别模型对输入音频进行初步的音素序列分类。

其中,如图1所示,通用的音素识别模型包括:特征提取器、音频编码模块、映射层;

所述音频编码模块包括卷积降采样层、卷积增强变压器层(Conformer Layer)、连接时序分类层(Connectionist temporal classification,CTC);

所述卷积降采样层是由两层卷积神经网络(Convolutional Neural Network,CNN)模块组成,

如图1所示,所述卷积增强变压器层(Conformer Layer)为多层结构,每一层包括前馈神经网络、多头自注意力模块、卷积模块;

其中,所述音素识别模型提取输入音频的场景相关特征的方法为:

S1-1首先通过特征提取器提取出80维滤波器组(Filter-bank,Fbank)特征;

S1-2通过音频编码模块对输入特征进行编码,具体为:

S1-2-1通过卷积降采样层的两层卷积神经网络(Convolutional NeuralNetwork,CNN)模块对输入的语音在时间维度降采样为原来的四分之一;

S1-2-2经过若干层卷积增强变压器层(Conformer Layer)搭建编码器用来对输入特征进行编码;

S1-3经过编码器模块的语音模块输入到连接时序分类层(Connectionisttemporal classification,CTC)进行音素序列预测并根据标签计算训练损失。

S2构建常用的唤醒词数据库覆盖大部分汉语发音,使常用的唤醒词数据混合一定比例S1步骤中通用的语音识别数据后对音素识别模型进行微调,提高识别模型的唤醒词识别能力,微调后得到的通用唤醒词模型在常用的短唤醒词领域可以达到较好的识别效果。

常用唤醒词信息包括并不限于:

你好,小X。

小X小X。

小X。

S3基于客户提供的目标唤醒词语料,使用LORA训练的方法对S2得到的通用的唤醒词模型进行部分参数微调,使得模型快速提高目标关键词唤醒的自适应能力。

其中,如图2所示,所述使用LORA训练的方案进行模型的部分参数微调的步骤为:

S3-1从S2步骤得到的唤醒词基础模型中提取卷积增强变压器层的权重矩阵

S3-2从

其中,A为降维矩阵,B为升维矩阵;原有W矩阵的维度为

S3-3使用少量客户指定的目标唤醒词语料进行LORA模型的训练,如图2所示,在训练过程中数据经过卷积降采样层降采样后,分别与原有的卷积增强变压器层与新定义的LORA模块(A、B矩阵模块)的参数矩阵相乘,相乘后的两组矩阵重新相加在一起输入至下一个训练模块。其中,卷积增强变压器层的参数完全冻结,整个训练流程视任务情况选取LORA矩阵的秩(r=1,2,4,8),在计算训练损失后仅更新降维矩阵A和升维矩阵B的参数。

S3-4完成LORA模块的训练后,如图3所示,在实际的推理过程中实际数据同样经过卷积降采样层降采样后分别与原有的卷积增强变压器层与训练好的LORA模块(A、B矩阵模块)的参数矩阵相乘,相乘后的两组矩阵重新相加在一起输入至下一个推理模块并最终完成唤醒词的预测与判定。

S4基于客户的唤醒词列表,构建处理识别结果的热词模块,使用热词增强唤醒词匹配,进一步提高目标关键词唤醒的准确率。

进一步地,使用热词增强唤醒词匹配的步骤为:

S4-1基于客户提供的目标唤醒词构建热词前缀树;

S4-2给热词前缀树添加回退弧,得到唤醒词专属AC 自动机;

S4-3基于步骤S3的模型输出提取前N个识别候选序列,并使用AC自动机构图对识别候选序列进行匹配,若匹配成功则输出匹配的热词音素序列,匹配失败则输出原有音素序列;

S4-4 对输出的音素序列结果与用户定义的唤醒词进行似然度打分,若打分高于唤醒阈值则唤醒成功,低于阈值则唤醒失败。

本实施例的基于LORA微调辅助的语音唤醒快速自适应方法是基于Wenet语音识别工具,除特殊说明,其他配置如下:

音频:采样率为16kHz,采样位数为16-bit,格式为wav格式。

特征:采用80维滤波器组(Filter-bank,Fbank)特征,训练时提取特征时语音波形数值的抖动为1.0,测试时为0。

模型的配置:

音频编码模块的配置为4层Encoder,模型维度为64。

本发明客户一般提供的需唤醒词在10-20个之间,本发明的LORA模型自适应训练一次一般持续半个小时左右,经过前期基础模型的训练+针对性的LORA训练,唤醒模型的唤醒率可达到98%以上,误唤醒率可达到小于1次/24小时。

相关技术
  • 一种液体烟油型电子烟加热器及电子烟
  • 一种过滤部件以及使用该过滤部件的电子烟具
  • 一种具有消炎抗菌功效的电子烟烟液
  • 一种电子烟烟盒及电子烟具
  • 电子烟烟盒及电子烟具
技术分类

06120116522043