掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多监督多特征融合的语音测谎方法

文献发布时间:2023-06-19 13:26:15



技术领域

本发明属于语音信号处理技术领域,具体涉及到一种基于多监督多特征融合的语音测谎方法。

背景技术

说谎在人际交往中较为常见,是有意图传递错误信息的一个重要方式。从古至今,谎言检测都一个非常重要的一个研究方向,且该研究对刑事侦查、心理学研究等领域都有着重要的作用。传统的谎言检测技术主要是根据生理参数的变化进行判别,这种方法数据采集较困难,同时会引起受试者的抵触心理,从而影响检测结果。语音是人与人沟通交流最重要的途径之一,近些年,有学者提出了基于语音的测谎技术,该方法数据采集简单,隐蔽性较好,可以有效破解现有谎言检测技术的诸多问题,因此,该研究受到了广泛关注。

当前,针对语音谎言检测的研究主要集中在两个部分:谎言语料库的构建和语音特征的提取。对于数据库的构建,主要可以分为三类:游戏类型的谎言语料库、访谈类型的谎言语料库、模拟犯罪类型的谎言语料库。游戏类型的谎言语料库贴近生活,但受试者压力程度较低,谎言信息不显著;访谈类型的谎言语料库主要涉及面试、采访等场景,受试者相对研究,压力度略高于游戏类型数据库;模拟犯罪类型语料库主要涉及刑侦、间谍,问询者更加专业,包含诸多询问技巧与策略,受试者压力显著高于上述语料库,谎言特征相对显著,但数据不易获取。尽管学者们对谎言数据库的有了一定的研究,但与相关研究领域相比,公开的谎言数据库极少且数据量小,这给基于语音谎言检测的研究带来了巨大的难题。在特征提取方面,主要围绕韵律特征、谱相关特征、语音质量特征等进行研究。尽管上述研究取得了诸多巨大进步,但仍未有一种特征能够有效的表征语音中的谎言信息,因此,如何获取到更丰富的谎言特征仍需进一步努力。

基于上述分析,本文开展针对谎言特征提取及半监督识别模型的研究,旨在降低模型对有标签谎言语料库的依赖,同时提升模型识别性能。本研究首先搭建基于CNN、LSTM、AE的混合神经网络模型,利用CNN从语音的Mel谱中提取到与谎言相关的谱图时频信息;利用LSTM从语音谱图中逐帧提取语音谎言特征,补充卷积神经网络忽略的帧级情感特征;自编码网络实现人工设计声学谎言特征的迁移表征,可以为其他网络补充人工设计特征所包含的谎言信息;不同网络提取到的特征具有互补性,通过使用不同类型的特征,达到充分利用语音中包含的谎言信息的目的;其次,将不同网络提取到的深度特征融合,并利用AE获取无监督重构误差,利用模型预测生成伪标签,并获取伪标签预测误差,利用少量有标签数据获取有监督识别误差,根据三部分误差对模型进行反复训练以得到最佳模型。

发明内容

基于伪标签的半监督方法在图像分类中有良好的性能,但是语音测谎与这些领域的分类任务不同,根据语音测谎的特点,将基础网络进行改进,使其可以实现对无标记输入数据的高置信度伪标签的预测,并实现分类。于是,一种基于多监督多特征融合的语音测谎方法,具体步骤如下:

(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;

(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,提取预处理后语音的mels谱数据,并按帧输入LSTM网络中,提取帧级特征,其次将mels谱数据构建成3D图片,输入Alexnet网络,提取全局特征;再次采用人工设计特征提取人工设计特征,输入AE网络中;

(3)搭建网络模型:首先构建了基于CNN网络、LSTM网络、AE网络网络的混合神经网络模型,实现不同特征的互补,从特征层面确保模型的性能,然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程:

A.首先,将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络,其中该输入特征中包含了大量的无标签数据和少量的有标签数据,并对无标记数据的AE特征进行加噪,于是得到加噪后的数据如公式并(1)所示,将其作为强增强数据同时输入网络,于是网络的输入数据可以用公式(2)表示:

X={x

其中,

B.本发明中提取深层语音谎言特征之后,先利用少量的有标签数据训练模型,并对弱增强数据进行伪标签的生成,然后计算强增强数据的预测,并采用交叉熵损失对模型训练,最后结合AE的重构损失,对模型进行反复的训练,以生成置信度最高的伪标签用于模型反复训练,其中本发明的伪标签选择的约束条件使用以下公式表示:

max(P(y'|x;θ))>τ (3)

其中P(y'|x;θ)表示网络对弱增强无标签数据的标签预测输出,当输出最大概率大于所设置的阈值τ时,将该预测标签作为伪标签用于网络训练;

(4)将构建的三种不同的网络提取的不同特征输出进行深层融合,该过程保留语音中更丰富的谎言信息;

(5)本发明所提方法的优化过程由三部分误差函数共同实现,其中,利用AE对数据进行重构的功能,构建了AE的输入特征与重构特征之间的误差,同时利用模型为无标记数据生成伪标签,并获取伪标签预测误差,另外根据少量的有标签数据获取模型的监督识别误差。根据三部分的误差对网络进行训练,重复以上过程得到最佳语音测谎识别方法;

(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:

y

其中,c是三个网络模块输出特征的融合数据集合,y

(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差),并根据误差函数进行网络参数的调整,此外,采用余弦退火衰减学习率对学习率进行调整,原理如公式(7),以使该发明所提出的语音测谎方法性能达到最佳,全部损失用公式(8)表示;

L

附图说明

图1为一种基于多监督多特征融合的语音测谎方法结构图,图2为Alexnet结构图,图3为Bi-LSTM结构图,图4为AE结构图,图5为伪标签生成过程图。

具体实施方式

下面结合具体实施方式对本发明做更进一步的说明。

本发明提出的是一种基于多监督多特征的语音测谎方法,针对在语音测谎领域存在的难题提出了可行性的解决方法,步骤如下:

基于伪标签的半监督方法在图像分类中有良好的性能,但是语音测谎与这些领域的分类任务不同,根据语音测谎的特点,将基础网络进行改进,使其可以实现对无标记输入数据的高置信度伪标签的预测,并实现分类。于是,一种基于多监督多特征融合的语音测谎方法,具体步骤如下:

(1)语音信号预处理:在语音处理预处理阶段先给语音添加上真话与谎言的标签,然后再对语音进行分帧加窗等处理;

(2)语音特征提取:对(1)中经分帧加窗处理后的数据进行语音特征提取,提取预处理后语音的mels谱数据,并按帧输入LSTM网络中,提取帧级特征,其次将mels谱数据构建成3D图片,输入Alexnet网络,提取全局特征;再次采用人工设计特征提取人工设计特征,输入AE网络中;

(3)搭建网络模型:首先构建了基于CNN网络、LSTM网络、AE网络网络的混合神经网络模型,实现不同特征的互补,从特征层面确保模型的性能,然后利用网络中的无监督误差、半监督误差及监督误差对实现反向微调的过程:

A.首先,将(2)中提取的语音特征作为输入发送(3)中构建的混合神经网络,其中该输入特征中包含了大量的无标签数据和少量的有标签数据,并对无标记数据的AE特征进行加噪,于是得到加噪后的数据如公式并(1)所示,将其作为强增强数据同时输入网络,于是网络的输入数据可以用公式(2)表示:

X={x

其中,

B.本发明中提取深层语音谎言特征之后,先利用少量的有标签数据训练模型,并对弱增强数据进行伪标签的生成,然后计算强增强数据的预测,并采用交叉熵损失对模型训练,最后结合AE的重构损失,对模型进行反复的训练,以生成置信度最高的伪标签用于模型反复训练,其中本发明的伪标签选择的约束条件使用以下公式表示:

max(P(y'|x;θ))>τ (3)

其中P(y'|x;θ)表示网络对弱增强无标签数据的标签预测输出,当输出最大概率大于所设置的阈值τ时,将该预测标签作为伪标签用于网络训练;

(4)将构建的三种不同的网络提取的不同特征输出进行深层融合,该过程保留语音中更丰富的谎言信息;

(5)本发明所提方法的优化过程由三部分误差函数共同实现,其中,利用AE对数据进行重构的功能,构建了AE的输入特征与重构特征之间的误差,同时利用模型为无标记数据生成伪标签,并获取伪标签预测误差,另外根据少量的有标签数据获取模型的监督识别误差。根据三部分的误差对网络进行训练,重复以上过程得到最佳语音测谎识别方法;

(6)分类识别输出:将步骤(4)得到的融合后的特征送入全连接层,并采用有标签的数据通过softmax层进行识别分类,该过程可以表示为:

y

其中,c是三个网络模块输出特征的融合数据集合,y

(7)为优化该发明提出的方法,采用梯度下降法来最小化误差函数(无监督重构误差、伪标签预测误差、有监督识别误差),并根据误差函数进行网络参数的调整,此外,采用余弦退火衰减学习率对学习率进行调整,原理如公式(7),以使该发明所提出的语音测谎方法性能达到最佳,全部损失用公式(8)表示;

L

为了验证所提出的一种基于多监督多特征融合的语音测谎方法,本发明的验证在Interview和CSC谎言语料库上进行实验。其中,Interview库共包含真话477条,谎言891条,合计1368条语音。在本发明中,将训练集与测试集按照约9:1的比例划分,并且在测试集中仅选择150、300条有标签语音进行训练。CSC谎言语料库包含有5411条语音(谎言为2209条,真话为3202条)。在本发明中,将训练集与测试集按照约9:1的比例划分,并且在测试集中仅选择500、1000条有标签语音进行训练。首先,3D-Mel谱图特征、帧级特征、384维静态特征分别输入到Alexnet、Bi-LSTM、AE用于深度特征的提取。特别地,Alexnet两层全连接层的输出节点分别为2048和2(类别数);Bi-LSTM模块隐层神经节点数设置为512,层数为2;AE为最简单的三层自编码器,每层的节点数为(384,64),(64,384),且对无标记的384维静态特征添加系数为0.3的随机噪声。其次,在伪标签的选择上,本文将最大概率阈值选择为0.80,假如预测概率超过该阈值,则保留该伪标签。最后,通过Adam优化器最小化误差函数对模型进行优化,学习率设置为0.0000005。本发明提出的方法性能将用准确率进行评估,在每次的训练过程中,迭代次数为512,批次大小为32。为保证模型的有效性,模型进行10次的训练,并将10次训练的平均值作为最终的识别率。仿真实验结果表明:所提方法能够有效降低模型对有标签数据的依赖,在相同有标签数据的情况下,识别性能显著优于现有诸多方法。

相关技术
  • 一种基于多监督多特征融合的语音测谎方法
  • 一种基于多传感器、多特征融合的半监督的人检测方法
技术分类

06120113676862