掌桥专利:专业的专利平台
掌桥专利
首页

一种基于SincNet的短语音说话人识别方法

文献发布时间:2024-04-18 19:59:31


一种基于SincNet的短语音说话人识别方法

技术领域

本发明涉及基于生物特征的身份认证方式中的声纹识别问题,尤其是涉及一种基于SincNet的短语音说话人识别方法。

背景技术

声纹确认是基于音频信号进行身份认证的生物识别技术。目前声纹确认技术在测试语音足够长的环境下已经达到了较高的水平,但在大规模的实际应用场景中,由于例如通信质量差语音断断续续、多说话人问题中语音重叠等,这必然导致得到的有效测试语音较短,所以在真实的短语音环境下,如何有效提高说话人识别系统的性能是极具研究价值和实用意义的。

声纹确认系统的性能主要取决于特征和模型两个方面。在特征方面,尽可能提取更多的、可以区分不同说话人的独一无二特征;在模型方面,要增强模型对有关说话人身份特征的提取能力和不同说话人的区分特征能力。

目前大多数性能良好的说话人识别系统就是从以上两个角度入手:提取过程模拟人耳听觉特性的特征能对噪声环境保持更好的相对稳定;多特征融合则可以更全面地考虑多个角度的信息,以获得更可靠的说话人识别测试结果。在网络模型上,目前集中在基于深度学习的端到端说话人识别结构,改进模型以学习更有效的身份信息。对此,本发明通过基于SincNet与ResNet结合的网络,并在SincNet提取的多通道特征进行特征融合,提高声纹确认系统性能。

发明内容

因此,针对短测试语音说话人识别准确率不高的问题,提出了一种基于SincNet与ResNet网络结合注意力机制的说话人识别模型。引入具有带通滤波器特性的卷积层代替标准卷积神经网络的第一层卷积层,并基于不同的滤波器窗口大小,得到不同分辨率的特征,同时结合注意力机制,对提取的不同特征赋予自适应的权重,拼接成三通道的特征图,再通过解决了网络退化问题的ResNet进行更深层次特征的提取,最后通过空洞空间金字塔池化(ASPP)进行多尺度特征融合,并通过全连接层得到最终的分类结果。

本发明通过以下技术方案来实现上述目的:

(1)引入Sinc卷积层代替标准卷积层;

(2)通过使用不同1D卷积核大小的Sinc卷积层提取多分辨率的特征;

(3)通过加入注意力模块的残差网络ResNet对(2)中多通道特征进行进一步特征提取;

(4)网络的后端通过空洞空间金字塔池化(ASPP)进行多尺度特征融合,并输入到全连接层得到分类结果。

附图说明

图1多尺度Sinc滤波器组。

图2注意力模块。

图3ASPP模块。

图4改进的基于SincNet的说话人识别网络结构。

具体实施方式

下面结合附图对本发明作进一步说明:

多尺度Sinc滤波器组构建方法如下:

多尺度Sinc滤波器组的结构如图1所示,首先我们使用了三组不同窗口大小的Sinc滤波器,即三种不同尺寸的一维卷积核(L=63,125,251),并且每组Sinc滤波器设置为120个卷积核(K=120),并把Sinc卷积核提取的特征通过批标准化将偏离的分布拉回标准化的分布,消除特征分布差异,并防止在后续的激活函数中产生梯度消失或梯度爆炸的问题。批标准化操作后再采用修正线性单元(rectifiedlinearunit,ReLU)激活函数对提取的特征进行非线性映射,进一步增强特征的区分度。然后,通过自适应平均池化得到统一长度的紧凑特征向量(512维),最终把三个通道上的二维特征表示进行拼接得到三通道的特征图。

注意力模块如图2所示,SE模块对Sinc滤波器组卷积得到的特征图进行Squeeze、Excitation和Reweight三步操作。如图2所示,Squeeze将每个通道中的二维特征(H×W)经过全局平均池化(GlobalAvearagePooling,GAP)操作,得到1×1×C大小的特征图,C为通道数。Exitation将经过Squeeze得到的1×1×C的表示通过全连接层FC对每个通道的重要性进行预测,再将各个通道的重要性大小经过激活函数f(Sigmoid)归一化到0~1。Reweight将Excitation的输出的权重用“shortconnection”的连接方式把权重分配给各个通道的特征。

再把得到的二维特征图通过ResNet18中进一步提取用于分类的嵌入,并且把上述的SE注意力机制加入ResNet的残差模块中。ResNet对深层次信息有着杰出的提取能力,与之前的网络结构相比,ResNet引入了捷径连接(shortcut connection)解决了梯度消失的问题,并进一步从特征中提取丰富的判别性信息来进行分类。

在网络的后端引入了ASPP模块对SEResNet输出的特征图进行处理,来聚合多尺度上下文信息,增强模型的识别能力,其结构如图3所示。首先将骨干网络的输出特征图作为ASPP模块的输入,第一条支路是1×1标准卷积,保持原有的感受野;其次第二到第四条支路利用3种不同膨胀率的空洞卷积来提升模型对不同尺度特征的提取能力;第五条支路是全局平均池化层,获取全局特征;然后将各条支路各自经过批标准化层和ReLU激活层,来提高训练速度和加快网络收敛;最后再把所有支路的输出特征图在通道维度上进行拼接,并经过1×1标准卷积来融合不同尺度的信息。

整体的网络结构如图4所示,首先,使用了多种不同窗口大小的Sinc滤波器组对原始语音信号进行带通滤波并生成多通道二维特征图;其次,通过SE注意力模块对多通道特征进行自适应分配权重,更多的聚焦于有用特征;最后,使用融合了SE模块的ResNet和ASPP模块提取更具判别性的信息,并通过全连接层(FC)和Softmax层获得语音的说话人分类概率。

为了验证本发明提出的改进的基于SincNet的说话人识别方法的有效性,在TIMIT数据集上进行了实验,TIMIT数据集的划分如表1所示:

表1TIMIT数据集的具体划分

使用表1中的训练集进行说话人识别模型训练,最终在TIMIT测试集上测试结果。测试时,为了比较说话人识别系统在短测试语音条件下的性能优劣,把测试集中的语音随机地截取为3种不同的长度(0.5s,1s,2s)。实验采用RMSprop优化器,学习率设置为0.001,批处理大小为64,迭代次数为200。性能评价指标为分类错误率(Classification ErrorRate,CER),即分类错误的语音的数量与测试集中语音总数的比值。在训练阶段我们将每条语音以步长10ms截取得到很多长度为0.2s的语音片段,将语音片段输入网络并通过softmax层得到该语音片段的分类类别。在测试阶段我们将每条语音截取的所有语音片段得到的最多的类别判定为该条语音的类别。

为了更好地验证本文说话人辨认方法的有效性,设计了三组对比实验,如表2所示。第一组对比实验使用标准卷积神经网络(CNN),输入为原始语音信号。第二组对比实验为常用的手工特征梅尔倒谱系数(MFCC)+卷积神经网络(CNN),MFCC采用13维特征。第三组对比实验为把损失函数改进为AM-softmax的AM-SincNet。

表2不同模型的说话人识别实验结果CER

通过表2可知,首先当测试语音的长度减小时,分类错误率急剧提升,可见当测试语音较短时,更难从语音中提取充足的判别性信息。其次,对比原始信号为输入的实验一,常用的手工特征MFCC特征表现更佳,体现了MFCC特征的有效性。本发明用带有带通滤波器意义的Sinc卷积层替换了标准卷积层,在识别性能上有着不小的提升,在测试语音长度为0.5s时,分类错误率(CER)指标比实验一和实验二分别降低了71.9%、70.8%,充分证明了本发明方法的有效性。此外,本文复现了AM-SinNet的方法并进行对比,本发明提出的方法也有着一定的优势。

相关技术
  • 关键点匹配方法、装置、电子设备以及存储介质
  • 文本属性字段的匹配方法、装置、电子设备及存储介质
  • 航带匹配方法、装置、电子设备和可读存储介质
  • 药品购买自动匹配方法、装置、电子设备及存储介质
  • 一种图像匹配方法、装置、电子设备及存储介质
  • 目标对象匹配方法及装置、电子设备和存储介质
  • 目标对象的匹配方法、装置、存储介质及电子设备
技术分类

06120116518898