掌桥专利:专业的专利平台
掌桥专利
首页

基于低秩双线性融合的线索语识别方法及系统

文献发布时间:2024-04-18 19:53:33


基于低秩双线性融合的线索语识别方法及系统

技术领域

本发明涉及图像处理领域,更具体涉及基于低秩双线性融合的线索语识别方法及系统。

背景技术

唇读是说话人通过嘴唇与舌头的动作来表达语音信息的一种方式。然而由于很多不同音素对应的唇部动作看起来十分相似,因此唇读具有一定的混淆性。据统计,在脱离语境的情况下,能够通过唇读准确识别的音素仅占不到60%。线索语是一种通过引入手部动作来辅助唇读的表达方式。线索语中,唇形相似的音素会由唇形与不同的手部动作共同表示,其中辅音由唇形与手形共同表示,元音由唇形与手位共同表示。自动线索语识别包含以下几个步骤:目标区域检测、特征提取、序列识别。

线索语识别模型的输入是一段线索语视频,而线索语视频中,对线索语识别任务有用的部分只有说话人的唇部动作与手部动作,其余如画面的背景,说话人的其余身体部分都是会作为影响识别结果的噪声存在的。因此,提取手部与唇部的目标区域是线索语识别的首要任务。早期人们通过将线索语说话人的手部与唇部涂上彩色标记的来追踪手部与唇部的位置,但这类方法容易受到遮挡、光照等外界因素的干扰,鲁棒性较差;其次,在手部与唇部涂抹颜色标记的方法在实际应用中实用性较差。随着深度学习的兴起,Faster R-CNN与YOLO在目标检测领域大放异彩,例如,文献《Redmon J,Divvala S,Girshick R,etal.You Only Look Once:Unified,Real-Time Object Detection[C].Computer Vision&Pattern Recognition.IEEE,2016.》表明YOLO算法在实时目标检测任务中具有较好的准确性和泛化能力,其基于深度学习的特点使得模型具有很高的识别准确率的同时具有很强的鲁棒性,在线索语识别任务中,也均有着较好的目标提取效果。

将模型的目标区域提取出后,需要对目标区域图像进行特征提取以进行线索语识别。早期人们通过主动轮廓模型等传统的方法提取目标区域的图像特征,但需要设置较多的阈值,特征提取过程复杂,同时对实验条件的鲁棒性较差。

提取出手形特征、手位特征与唇形特征后,需要将三者融合并输入至序列模型中识别出线索语音素序列,具体包括特征融合与序列识别两个部分。线索语识别任务中,对现有的特征融合多数采用拼接融合的策略,即将手形、手位与唇形三个模态进行简单的拼接得到融合后的特征并将其输入至序列模型中,难以建模不同模态特征之间的互补关系,也无法针对线索语识别任务的特殊性对识别不同音素时不同模态的特征赋予权重,导致识别结果不够准确。现有的序列识别模型通常为基于循环神经网络的序列模型,但是循环神经网络存在长距离依赖问题,从而导致短时间内难以输出线索语音因素预测结果且输出结果不够准确。

发明内容

本发明所要解决的技术问题在于现有技术线索语识别方法特征提取过程复杂,鲁棒性差,难以输出线索语音素预测结果且输出结果不够准确的问题。

本发明通过以下技术手段实现解决上述技术问题的:基于低秩双线性融合的线索语识别方法,所述方法包括:

步骤一:获取数据集,所述数据集中每个数据包括线索语句子视频及其对应的音素序列;

步骤二:构建线索语识别模型,提取当前时间步的短时运动特征与空间特征并进行堆叠,作为时空特征,将唇形时空特征与手形时空特征融合得到辅音特征,将唇形时空特征与手部位置时空特征融合得到元音特征,对融合得到的元音特征与辅音特征通过多模态注意力机制赋予不同的权重输入至序列识别模型中,序列识别模型输出最终的音素序列;

步骤三:利用数据集对线索语识别模型进行端到端的训练,得到训练好的线索语识别模型;

步骤四:将实时采集的线索语视频输入训练好的线索语识别模型,输出对应的因素序列。

有益效果:本发明直接利用训练好的线索语识别模型进行特征提取、特征融合、特征加权以及序列识别,从而特征提取过程简单,将唇形时空特征分别与手形时空特征及手部位置时空特征融合,建模不同模态之间的互补关系,同时通过多模态注意力机制对识别不同类型音素时的不同模态动态地赋予权重,以得到更好的线索语识别结果,鲁棒性好,识别结果较为准确。

进一步地,所述步骤一包括:

在CSF18法语线索语数据集中标记每个时间步长对应的唇部区域与手部区域,将数据集划分为测试集和训练集。

进一步地,所述线索语识别模型包括特征提取模型,所述特征提取模型的处理过程包括:

对于每一时间步的唇部与手部的ROI图像,将其缩放至64*64,采用二维卷积神经网络从该组图像中的第一帧RGB图像中提取空间特征,采用另外一个同样结构的二维卷积神经网络从该时间步对应的图像序列经计算得到的光流栈中提取短时运动特征,空间特征与短时运动特征进行堆叠,并通过一维卷积进行降维后得到当前时间步的多维时空特征。

更进一步地,所述图像序列经计算得到的光流栈包括:将单个时间步输入至特征提取模型中的多帧手部与唇部目标图像之间的光流图堆叠成光流栈。

更进一步地,所述线索语识别模型还包括双线性多模态融合层,所述双线性多模态融合层的处理过程为:

将唇形特征向量与手形特征向量做外积后通过三阶的高阶参数张量对其做线性变换,得到唇形特征向量与手形特征向量融合后的向量,作为辅音特征,所述特征向量指的是时空特征;对唇形特征向量与手部位置特征向量采用同样的策略进行特征融合,得到唇形特征向量与手部位置特征向量融合后的向量,作为元音特征。

更进一步地,所述线索语识别模型还包括多模态注意力机制层,所述多模态注意力机制层的处理过程为:

分别计算上一时间步的隐状态向量与当前时间步的辅音特征以及元音特征之间的相似度,分别作为辅音特征的权重及元音特征的权重,并分别将对应的权重分配给辅音特征以及元音特征后进行加权拼接,得到最终的融合向量。

更进一步地,所述线索语识别模型还包括序列识别模型,所述序列识别模型的处理过程为:

序列识别模型采用门控循环单元,将每一输入时间步中多模态注意力机制层输出的融合向量输入至门控循环单元中,输出音素序列。

更进一步地,所述步骤三包括:

采用Adam优化算法设置学习率,控制线索语识别模型中参数的更新速度,当线索语识别模型识别的因素序列的音素错误率最小或者达到训练次数时,停止线索语识别模型的训练,得到训练好的线索语识别模型。

本发明还提供基于低秩双线性融合的线索语识别系统,所述系统包括:

数据集获取模块,用于获取数据集,所述数据集中每个数据包括线索语句子视频及其对应的音素序列;

模型构建模块,用于构建线索语识别模型,提取当前时间步的短时运动特征与空间特征并进行堆叠,作为时空特征,将唇形时空特征与手形时空特征融合得到辅音特征,将唇形时空特征与手部位置时空特征融合得到元音特征,对融合得到的元音特征与辅音特征通过多模态注意力机制赋予不同的权重输入至序列识别模型中,序列识别模型输出最终的音素序列;

模型训练模块,用于利用数据集对线索语识别模型进行端到端的训练,得到训练好的线索语识别模型;

结果输出模块,用于将实时采集的线索语视频输入训练好的线索语识别模型,输出对应的因素序列。

进一步地,所述数据集获取模块还用于:

在CSF18法语线索语数据集中标记每个时间步长对应的唇部区域与手部区域,将数据集划分为测试集和训练集。

进一步地,所述线索语识别模型包括特征提取模型,所述特征提取模型的处理过程包括:

对于每一时间步的唇部与手部的ROI图像,将其缩放至64*64,采用二维卷积神经网络从该组图像中的第一帧RGB图像中提取空间特征,采用另外一个同样结构的二维卷积神经网络从该时间步对应的图像序列经计算得到的光流栈中提取短时运动特征,空间特征与短时运动特征进行堆叠,并通过一维卷积进行降维后得到当前时间步的多维时空特征。

更进一步地,所述图像序列经计算得到的光流栈包括:将单个时间步输入至特征提取模型中的多帧手部与唇部目标图像之间的光流图堆叠成光流栈。

更进一步地,所述线索语识别模型还包括双线性多模态融合层,所述双线性多模态融合层的处理过程为:

将唇形特征向量与手形特征向量做外积后通过三阶的高阶参数张量对其做线性变换,得到唇形特征向量与手形特征向量融合后的向量,作为辅音特征,所述特征向量指的是时空特征;对唇形特征向量与手部位置特征向量采用同样的策略进行特征融合,得到唇形特征向量与手部位置特征向量融合后的向量,作为元音特征。

更进一步地,所述线索语识别模型还包括多模态注意力机制层,所述多模态注意力机制层的处理过程为:

分别计算上一时间步的隐状态向量与当前时间步的辅音特征以及元音特征之间的相似度,分别作为辅音特征的权重及元音特征的权重,并分别将对应的权重分配给辅音特征以及元音特征后进行加权拼接,得到最终的融合向量。

更进一步地,所述线索语识别模型还包括序列识别模型,所述序列识别模型的处理过程为:

序列识别模型采用门控循环单元,将每一输入时间步中多模态注意力机制层输出的融合向量输入至门控循环单元中,输出音素序列。

更进一步地,所述模型训练模块还用于:

采用Adam优化算法设置学习率,控制线索语识别模型中参数的更新速度,当线索语识别模型识别的因素序列的音素错误率最小或者达到训练次数时,停止线索语识别模型的训练,得到训练好的线索语识别模型。

本发明的优点在于:

(1)本发明直接利用训练好的线索语识别模型进行特征提取、特征融合、特征加权以及序列识别,从而特征提取过程简单,将唇形时空特征分别与手形时空特征及手部位置时空特征融合,建模不同模态之间的互补关系,同时通过多模态注意力机制对识别不同类型音素时的不同模态动态地赋予权重,以得到更好的线索语识别结果,鲁棒性好,识别结果较为准确。

(2)本发明序列识别模型采用门控循环单元,相比于长短期记忆网络,门控循环单元省去了冗余的结构,相比于循环神经网络,不存在长距离依赖问题,能够得到更好的识别效果。

(3)本发明采用Adam优化算法设置学习率,能基于训练数据迭代地更新神经网络权重,为不同的参数设计独立的自适应性学习率,模型训练效果好。

附图说明

图1为本发明实施例1提供的基于低秩双线性融合的线索语识别方法中线索语识别模型整体结构示意图;

图2为本发明实施例1提供的基于低秩双线性融合的线索语识别方法中双流卷积网络的单个流(单个二维卷积神经网络)模型结构与参数示意图;

图3为本发明实施例1提供的基于低秩双线性融合的线索语识别方法中双线性多模态融合层的结构示意图;

图4为本发明实施例1提供的基于低秩双线性融合的线索语识别方法中多模态注意力机制层的结构示意图;

图5为本发明实施例1提供的基于低秩双线性融合的线索语识别方法中不同特征提取模型的对比结果示意图;

图6为本发明实施例1提供的基于低秩双线性融合的线索语识别方法中不同特征融合策略的对比结果示意图

图7为本发明实施例1提供的基于低秩双线性融合的线索语识别方法中线索语识别模型在测试数据集上得到的混淆矩阵。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

本发明提供基于低秩双线性融合的线索语识别方法,所述方法主要过程为:获取数据集,所述数据集中每个数据包括线索语句子视频及其对应的音素序列;构建线索语识别模型,该模型能够输出最终的音素序列;对线索语识别模型进行端到端的训练,得到训练好的线索语识别模型;将实时采集的线索语视频输入训练好的线索语识别模型,输出对应的因素序列。其中,本发明的数据集采用法语的CSF18数据集与一个开源的英语数据集。CSF18是一个法语句子数据集,其中包含说话人说的476个线索语句子及其对应的音素序列。英语数据集中则包含说话人说的100个英文线索语句子及其对应的音素序列。

以下通过实验的方式详细介绍本发明的方法过程,本次实验主要通过以下两个方向进行比较:

1)由于本发明在时空特征提取与多模态特征融合方面进行了创新,因此本发明通过消融实验对比不同的时空特征提取方法与多模态融合策略对线索语识别结果的影响。

2)将本发明提出的线索语识别模型与现有的线索语识别模型进行比较。

实验1)、不同的特征提取模型与多模态融合策略对线索语识别效果的影响

评价线索语识别效果首先要有评价指标,线索语识别效果的评价指标为音素错误率。音素错误率越高,识别结果越差。

音素错误率为模型识别出的音素序列与标注音素序列之间的编辑距离与标注音素长度之比。具体而言,两个音素序列之间的编辑距离为其中一个音素序列转换为另一个音素序列所需要的单个音素的编辑操作次数。其中单个音素的编辑操作包括三种:插入、删除和替换。音素编辑距离可以通过动态规划的思想计算得到。令音素序列s

其中

当min(i,j)≠0时,

1.

2.

3.

音素序列s的音素错误率PER

PER

其中t为数据集中标注的音素序列,N为音素序列t的长度。

软件方面,实验使用Ubuntu18.04下基于CUDA10.1的Pytorch作为深度学习框架。硬件方面实验所使用的CPU为Xeon(R)Platinum8260 CPU,GPU为Nvidia GeForceRTX2080ti,显存为12G。实验步骤如下:

S1:将数据集分为十等份,用于进行K折交叉验证。此外,CSF18数据集中的476个句子是由说话人说238个句子,每句话重复两遍获得的,因此本发明在进行数据集划分时有意识地避免了重复的话同时出现在测试集与训练集中的情况。

S2:构建线索语识别模型,其整体结构如图1所示。线索语识别模型包括基于双流卷积网络的特征提取模型、双线性多模态融合层、多模态注意力机制层以及最后的序列识别模型。

基于双流卷积网络的特征提取模型:对于每一时间步的唇部与手部的ROI图像,将其缩放至64*64,并通过双流卷积网络对其提取空间特征与短时运动特征,其中空间特征是从该组图像中的第一帧RGB图像中提取,短时运动特征则从该时间步对应的图像序列经计算得到的光流栈中提取,二者均采用二维卷积神经网络进行特征提取。双流卷积网络中的空间流与时间流特征使用同样结构的二维卷积神经网络进行提取,以空间流为例,单一流的特征提取网络也即二维卷积神经网络包含四个卷积层(图2中的Conv表示卷积层,且后面的数字表示卷积层的参数设置),具体模型结构与参数如图2所示。最后将全局平均池化层(图2中的Global Average Pooling)输出的空间特征与另一个二维卷积神经网络输出的短时运动特征进行堆叠,并通过一维卷积进行降维后得到当前时间步的256维时空特征。

双线性多模态融合层:双线性多模态融合层能够建立不同模态之间的互补关系。具体做法为将唇形特征向量与手形特征向量做外积后通过三阶的高阶参数张量对其做线性变换,得到唇形特征向量与手形特征向量融合后的向量,其中,特征向量指的是时空特征,如图3所示。对唇形特征向量与手部位置特征向量的特征融合采用同样的策略。此外,由于该方法会使得三阶参数张量的参数量过大,本发明通过张量低秩逼近的思想,通过给定作为超参数CP秩,通过张量CP分解的思想使用低秩因子拟合高阶参数张量,以达到降低参数量,减小模型内存占用,减少过拟合的可能的目的,张量低秩逼近的思想属于现有技术,参阅文献《Liu Z,Shen Y,Lakshminarasimhan V B,et al.Efficient Low-rankMultimodal Fusion with Modality-Specific Factors:,10.18653/v1/P18-1209[P].2018.》。

多模态注意力机制层:如图4所示,将双线性多模态融合层中唇形特征向量与手形特征向量融合得到的特征向量称为辅音向量,唇形特征向量与手部位置特征向量融合得到的特征向量称为元音向量。多模态注意力机制层中首先计算上一时间步的隐状态向量与当前时间步的辅音特征与元音特征之间的相似度作为辅音特征与元音特征的权重,并将该权重分配给辅音特征与元音特征后进行加权拼接,得到最终的融合向量。

序列识别模型:将每一输入时间步中多模态注意力机制层输出的融合向量输入至序列识别模型中。循环神经网络难以建模长期以来,其效果较好的改进方法是长短期记忆网络与门控循环单元。相比于长短期记忆网络,门控循环单元省去了冗余的结构,并且通常能够得到更好的识别效果,因此,门控循环单元是本发明所采用的序列识别模型。最后,门控循环单元与时序分类方法相结合,输出音素序列。

S3:对上述线索语识别模型进行端到端的训练,主要采用adam算法。在训练神经网络时,需要设置学习率控制参数更新的速度,学习率决定了参数每次更新的幅度,如果幅度过大,则可能导致参数在极优值的两侧来回移动;若幅度过小,又会大大降低优化速度。所以在本发明中选取了一种更加灵活的学习率设置方法,Adam算法。Adam优化算法是随机梯度下降算法的扩展式,近来其广泛用于深度学习应用中,尤其是计算机视觉和自然语言处理等任务。Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。Adam算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率更新所有的权重,学习率在训练过程中并不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

S4:通过消融实验分别检验特征提取模型与多模态融合模型对线索语识别效果的提升。

对比特征提取模型时,特征融合策略采用拼接融合,序列模型为双向门控循环单元。通过实验可以得到特征提取模型分别选用二维残差神经网络(图5中ResNet18)、三维残差神经网络(图5中3D ResNet34)、MediaPipe关键点坐标(图5中MediaPipe)、本发明所提出的基于L2稠密光流法的双流卷积网络(图5中的Two Stream(Dense)N=4)、以及单一时间步输入至模型中的帧数分别为3、4、5时的基于TV-L1稠密光流法的双流卷积网络(图5中的TwoStream N=3、N=4、N=5)时的线索语识别结果,如图5所示。可以看出,虽然MediaPipe可以准确地提取手部与唇部的关键点,ResNet18拥有良好的空间特征提取能力,但它们都缺乏短时时序建模能力,导致识别结果并不理想。而双流卷积网络与三维残差神经网络拥有同时对空间特征与短时时序特征建模的能力,因此二者都能够达到较高的识别准确率,而双流卷积网络有着更小的参数量,在训练速度,推理速度,内存占用上相比于三维残差网络有着一定的优势,是更为理想的特征提取模型。

对比多模态特征融合模型时,特征提取模型采用单一时间步输入至模型中的帧数为4的基于TV-L1稠密光流法的双流卷积网络。序列模型依然采用双向门控循环单元。通过实验可以得到特征融合模型分别为早期拼接、分别使用CP分解与TUCKCER分解的思想进行张量低秩逼近的双线性融合模型、将基于CP分解的双线性融合模型与多模态注意力机制相结合的多模态融合模型的线索语识别结果,如图6所示,图6中可以看出本发明低秩双线性融合结合多模态注意力机制的方法在数据集上的识别错误率最低。并画出本发明所提出的模型的识别混淆矩阵以进一步检验效果,如图7所示。

实验2)、将本发明提出的线索语识别模型与现有的线索语识别模型进行比较。比较结果如表1所示。

表1本发明与现有的线索语识别模型的音素错误率对比

从表1可以看出,本发明的线索语识别模型在法语数据集上的音素错误率最低,在英语数据集上的音素错误相对较低,整体而言相比其他模型音素错误率低,线索语识别结果好。

通过以上技术方案,本发明首先提供了一种通过双流卷积网络对线索语识别任务中唇部图像序列与手部图像序列进行特征提取的特征提取模型。该方法按时间序列在每一个输入时间步中将连续固定帧数的图像输入至双流卷积网络中,将首帧图像作为静态图像信息输入至空间流卷积网络(二维卷积神经网络)中提取静态图像特征也即空间特征;随后计算多帧图像的TV-L1光流图,并堆叠成光流栈作为时序运动信息输入至时间流卷积网络(二维卷积神经网络)中提取短时运动特征;最后将图像特征与短时运动特征融合后得到多帧连续图像的时空特征。其次提供了一种通过双线性融合与多模态注意力机制相结合的多模态融合层,通过双线性特征融合对手形特征与唇形特征、手位特征与唇形特征之间的互补关系进行进行建模,增强了不同特征之间的协同表征能力;并通过低秩逼近的方法大幅减少了双线性融合模型的参数量,提升效率的同时避免了双线性融合模型在小数据集上的过拟合问题。其次通过多模态注意力机制对同一时间步不同模态的特征加权拼接后输入至时序模型中,实现了对不同模态特征重要性的动态建模。消融实验结果和与现有方法进行对比的实验结果证明了本发明所提出的方法的有效性。

实施例2

基于实施例1,本发明实施例2还提供基于低秩双线性融合的线索语识别系统,所述系统包括:

数据集获取模块,用于获取数据集,所述数据集中每个数据包括线索语句子视频及其对应的音素序列;

模型构建模块,用于构建线索语识别模型,提取当前时间步的短时运动特征与空间特征并进行堆叠,作为时空特征,将唇形时空特征与手形时空特征融合得到辅音特征,将唇形时空特征与手部位置时空特征融合得到元音特征,对融合得到的元音特征与辅音特征通过多模态注意力机制赋予不同的权重输入至序列识别模型中,序列识别模型输出最终的音素序列;

模型训练模块,用于利用数据集对线索语识别模型进行端到端的训练,得到训练好的线索语识别模型;

结果输出模块,用于将实时采集的线索语视频输入训练好的线索语识别模型,输出对应的因素序列。

具体的,所述数据集获取模块还用于:

在CSF18法语线索语数据集中标记每个时间步长对应的唇部区域与手部区域,将数据集划分为测试集和训练集。

具体的,所述线索语识别模型包括特征提取模型,所述特征提取模型的处理过程包括:

对于每一时间步的唇部与手部的ROI图像,将其缩放至64*64,采用二维卷积神经网络从该组图像中的第一帧RGB图像中提取空间特征,采用另外一个同样结构的二维卷积神经网络从该时间步对应的图像序列经计算得到的光流栈中提取短时运动特征,空间特征与短时运动特征进行堆叠,并通过一维卷积进行降维后得到当前时间步的多维时空特征。

更具体的,所述图像序列经计算得到的光流栈包括:将单个时间步输入至特征提取模型中的多帧手部与唇部目标图像之间的光流图堆叠成光流栈。

更具体的,所述线索语识别模型还包括双线性多模态融合层,所述双线性多模态融合层的处理过程为:

将唇形特征向量与手形特征向量做外积后通过三阶的高阶参数张量对其做线性变换,得到唇形特征向量与手形特征向量融合后的向量,作为辅音特征,所述特征向量指的是时空特征;对唇形特征向量与手部位置特征向量采用同样的策略进行特征融合,得到唇形特征向量与手部位置特征向量融合后的向量,作为元音特征。

更具体的,所述线索语识别模型还包括多模态注意力机制层,所述多模态注意力机制层的处理过程为:

分别计算上一时间步的隐状态向量与当前时间步的辅音特征以及元音特征之间的相似度,分别作为辅音特征的权重及元音特征的权重,并分别将对应的权重分配给辅音特征以及元音特征后进行加权拼接,得到最终的融合向量。

更具体的,所述线索语识别模型还包括序列识别模型,所述序列识别模型的处理过程为:

序列识别模型采用门控循环单元,将每一输入时间步中多模态注意力机制层输出的融合向量输入至门控循环单元中,输出音素序列。

更具体的,所述模型训练模块还用于:

采用Adam优化算法设置学习率,控制线索语识别模型中参数的更新速度,当线索语识别模型识别的因素序列的音素错误率最小或者达到训练次数时,停止线索语识别模型的训练,得到训练好的线索语识别模型。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120116336078