掌桥专利:专业的专利平台
掌桥专利
首页

一种交互式人脸语音标注方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:58:30


一种交互式人脸语音标注方法、装置、设备及存储介质

技术领域

本发明涉及模式识别中的生物特征匹配领域,特别涉及一种交互式人脸语音标注方法、装置、设备及存储介质。

背景技术

随着跨模态匹配技术的进一步发展,利用跨模态信息交互式标注技术解决不同模态数据之间标签信息数量的不平衡性引起了研究者关注,其研究核心在于利用人脸-语音之间内在的模态信息关联性以及单一模态丰富的标签信息对另一个标签信息匮乏的模态进行数据标注,从而使得补充后的模态信息能够有效地应用到下游任务的训练中。该任务的核心在于构建不同模态信息之间的关联性,利用多种不同的高层语义约束条件将不同模态的特征信息映射到公共的高维特征空间中,从而实现了异构的模态数据在高维特征空间中的可比性。由于图像和音频这两种异构数据所能蕴含的数据量以及数据结构是不一致的,如何设定合理的高层语义约束以促使特征编码器能准确有效地将信息映射到特征空间内,是实现该任务的技术难点。目前人脸-语音标注方法仍然处于较为初步探索的阶段,面临着许多的实际问题,具体表现为:1)同一模态信息内间接对齐的方式不利于跨模态公共高维特征空间的形成;2)模型方法对训练数据的加权策略仅仅停留在样本身份这一粗粒度的级别。这些问题的存在将导致模态公共特征空间的不准确性,对分布差别较大的数据感知性能较弱以及模型泛化性能差。

有鉴于此,提出本申请。

发明内容

本发明公开了一种交互式人脸语音标注方法、装置、设备及存储介质,旨在有效地将不同模态特征准确映射到公共的特征空间中,实现异构模态信息之间的可比性,从而提高交互式人脸语音标注的准确性。

本发明第一实施例提供了一种交互式人脸语音标注方法,包括:

接收人脸图像,并采用卷积神经网络对所述人脸图像进行特征提取,以生成人脸特征;

获取语音信号,并采用循环神经网络及全连接层作对所述语音信号进行特征提取,以生成语音特征;

根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;

基于所述对齐操作所述人脸图像和所述语音信号进行标注。

优选地,所述接收人脸图像,并采用卷积神经网络对所述人脸图像进行特征提取,以生成人脸特征,具体为:

获取人脸图像,并对所述人脸图像进行检测定位人脸区域后裁剪缩放至预设图像尺寸;

对裁剪后的所述人脸图像进行归一化处理后,采用卷积神经网络进行特征提取,通过端到端的训练学习人脸特征表示,输出512维的人脸特征,其中,所述卷积神经网络包含卷积层、池化层、以及全连接层。

优选地,所述获取语音信号,并采用循环神经网络及全连接层作对所述语音信号进行特征提取,以生成语音特征,具体为:

获取语音信号,对所述语音信号进行语音活动检测分割出语音片段;

对所述分割出语音片段进行时长统一和音量归一化,采用循环神经网络对语音片段进行时序建模,再接入全连接层进行语音特征提取,输出128维的语音特征。

优选地,所述对齐操作包括:

通过原型无关模态内对比损失进行模态内特征直接相互感知和语义对齐,以及通过模态间对比损失使得相同身份的模态间特征进行语义对齐。

优选地,还包括:构建对齐操作的损失函数,具体地:

在单一模态内的对齐任务上,根据身份标签并随机选择样本数据作为身份原型特征代入对比学习中,生成模态内原型无关对比学习损失函数;

在一个训练批次的对数据中,通过最小化相同身份的特征信息之间的距离同时最大化不同身份的特征信息之间的距离构建模态间对比损失函数;

基于所述模态内原型无关对比学习损失函数和模态间对比损失函数生成对齐操作的损失函数。

优选地,还包括:

在模型训练过程中不断对样本数据对的特征间距离进行测量,计算出数据对的近似距离值,并以此判断样本数据对相对于其对应的身份类别的偏离程度,并根据偏离程度的高低,将样本数据对划分为偏差对和超偏差对。

优选地,还包括,在训练过程中通过三元组损失的训练方式,对偏差对进行约束。

本发明第二实施例提供了一种交互式人脸语音标注装置,包括:

人脸特征生成单元,用于接收人脸图像,并采用卷积神经网络对所述人脸图像进行特征提取,以生成人脸特征;

语音特征生成单元,用于获取语音信号,并采用循环神经网络及全连接层作对所述语音信号进行特征提取,以生成语音特征;

对齐操作单元,用于根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;

标注单元,用于基于所述对齐操作所述人脸图像和所述语音信号进行标注。

本发明第三实施例提供了一种交互式人脸语音标注设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种交互式人脸语音标注方法。

本发明第四实施例提供了一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的一种交互式人脸语音标注方法。

基于本发明提供的一种交互式人脸语音标注方法、装置、设备及存储介质,先接收人脸图像,并采用卷积神经网络对所述人脸图像进行特征提取,以生成人脸特征;接着获取语音信号,并采用循环神经网络及全连接层作对所述语音信号进行特征提取,以生成语音特征;再接着根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;最后基于所述对齐操作所述人脸图像和所述语音信号进行标注,有效地将不同模态特征准确映射到公共的特征空间中,实现异构模态信息之间的可比性,从而提高交互式人脸语音标注的准确性。

附图说明

图1是本发明第一实施例提供的一种交互式人脸语音标注方法的流程示意图;

图2是本发明提供的结合差异性训练和原型无关的交互式人脸-语音标注框架。

图3是本发明第二实施例提供的一种交互式人脸语音标注装置的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例中提及的“第一第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

以下结合附图对本发明的具体实施例做详细说明。

本发明公开了本发明公开了一种交互式人脸语音标注方法、装置、设备及存储介质,旨在有效地将不同模态特征准确映射到公共的特征空间中,实现异构模态信息之间的可比性,从而提高交互式人脸语音标注的准确性。

本发明第一实施例提供了一种交互式人脸语音标注方法,其可由交互式人脸语音标注设备(以下简称标注设备)来执行,特别的,由所述标注设备内的一个或者多个处理器来执行,以至少实现如下步骤:

S101,接收人脸图像,并采用卷积神经网络对所述人脸图像进行特征提取,以生成人脸特征;

在本实施例中,所述标注设备可为台式电脑、笔记本电脑、服务器、工作站等具有数据处理分析能力的终端,其中,所述标注设备内可安装有相应的操作系统以及应用软件,并通过操作系统以及应用软件的结合来实现本实施例所需的功能。

具体地,在本实施例中,获取人脸图像,并对所述人脸图像进行检测定位人脸区域后裁剪缩放至预设图像尺寸;

对裁剪后的所述人脸图像进行归一化处理后,采用卷积神经网络进行特征提取,通过端到端的训练学习人脸特征表示,输出512维的人脸特征,其中,所述卷积神经网络包含卷积层、池化层、以及全连接层。

需要说明的是,根据模态数据的身份标签,将具有相同身份语义的不同模态数据组合成数据对输入训练模型,针对于数据对中的人脸图像,进行取均值化和归一化预处理,为了不失一般性,总体人脸-语音训练数据集为

定义不同模态信息的高层语义特征提取器为人脸子网络编码器

,/>

人脸子网络编码器

S102,获取语音信号,并采用循环神经网络及全连接层作对所述语音信号进行特征提取,以生成语音特征;

具体地,在本实施例中,获取语音信号,对所述语音信号进行语音活动检测分割出语音片段;

对所述分割出语音片段进行时长统一和音量归一化,采用循环神经网络对语音片段进行时序建模,再接入全连接层进行语音特征提取,输出128维的语音特征。

语音子网络编码器

S103,根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;

具体地,在本实施例中,

所述对齐操作包括:通过原型无关模态内对比损失进行模态内特征直接相互感知和语义对齐,以及通过模态间对比损失使得相同身份的模态间特征进行语义对齐。

需要说明的是,交互式人脸语音标注的实现需要使得不同模态的数据能够映射到公共的特征空间,使其能保证具备可比性,同时需要将不同模态特征对齐来最小化相同身份的不同模态特征之间的距离,最大化不同身份的不同模态特征之间的距离,从而实现相同身份语义的特征在不同模态信息上可以对齐对应。

传统的模态内对齐策略通过预先设定身份原型特征,然后模态内特征往对应的身份原型特征拉近,从而实现特征对齐效果。但是这种方法使得特征之间无法相互感知,导致模态内特征对齐的效果差,最终间接导致公共特征空间的构建并不准确。

本实施例基于上述研究提出了原型无关的特征对齐策略,旨在将传统方法中的原型特征抛弃,直接选择已有的数据提取出相应的特征近似代替身份特征原型,然后约束样本特征数据接近相对应的近似原型,从而达到单一模态特征对齐的效果。

为了实现原型无关的对齐策略,本实施例将模型的输入数据集合定义为

相较于传统方法依赖于预设的身份原型特征,本实施例选择了由子网络生成的特征近似取代了传统方法的原型特征,从而使得特征之间的能够相互感知。具体实现上,在单一模态内的对齐任务上,本实施例根据身份标签并随机选择了样本数据对

S104,基于所述对齐操作所述人脸图像和所述语音信号进行标注。

在本实施例中,还包括:构建对齐操作的损失函数,具体地:

在单一模态内的对齐任务上,根据身份标签并随机选择样本数据作为身份原型特征代入对比学习中,生成模态内原型无关对比学习损失函数;

在一个训练批次的对数据中,通过最小化相同身份的特征信息之间的距离同时最大化不同身份的特征信息之间的距离构建模态间对比损失函数;

基于所述模态内原型无关对比学习损失函数和模态间对比损失函数生成对齐操作的损失函数。

需要说明的是,将上述根据身份标签并随机选择的样本数据作为身份原型特征代入传统的对比学习方法中,得到如下模态内原型无关对比学习损失函数:

其中

模态间的特征对齐策略可以通过最小化相同身份的特征信息之间的距离同时最大化不同身份的特征信息之间的距离实现。在一个训练批次的

因此,在公共子空间中的跨人脸-语音对比学习形式化为:

因此,结合单一模态内以及跨模态的两种特征对齐损失,在公共子空间中的跨人脸-语音原型无关的对比学习可以表示为:

在本实施例中,还包括:

在模型训练过程中不断对样本数据对的特征间距离进行测量,计算出数据对的近似距离值,并以此判断样本数据对相对于其对应的身份类别的偏离程度,并根据偏离程度的高低,将样本数据对划分为偏差对和超偏差对。

需要说明的是,基于原型无关的特征对齐方法需要依赖于样本数据的准确性。本实施例通过在模型训练过程中不断对样本数据对的特征间距离进行测量,计算出数据对的近似距离值,并以此判断样本数据对相对于其对应的身份类别的偏离程度。根据偏离程度的高低,进一步将样本数据对划分为偏差对和超偏差对。一般来说,互为负对的样本对对应的语义特征之间相似度高视为偏差对。因此,本实施例通过使用如下相似度得分筛选出样本数据对中的偏差对:

其中

在本实施例中,还包括,在训练过程中通过三元组损失的训练方式,对偏差对进行约束。

需要说明的是,针对于偏差对而言,本实施例采用进一步进行约束的方式促使其能够重新定位到正确的相对位置。对于每一个人脸语音样本对

为离散余弦距离,/>

则总体的训练损失函数可以定义为

以下,对上述实施例做出进一步描述:

数据集介绍:数据集是基于大规模的视听数据集AVSpeech提取而来的,AVSpeech中包含29万个YouTube视频,每个视频片段中的音频信息只属于视频中唯一可以看见的说话人.本实施例基于数据集性别平衡的准则,从所有的数据中筛选出了550个不同身份的高质量数据组成新的人脸语音数据集,并命名为AVSpeech-CM.在本实施例实验中的参数设置为:随机梯度优化选用Adam优化器,学习率

交互式验证任务:针对交互式人脸-语音的验证任务,交互式验证任务旨在判定给定的人脸图像和语音音频两个样本是否来自同一个人。该任务是一个二类问题。交互式验证任务采用的评价指标为AUC(ROC曲线下与坐标轴围成的面积)。

交互式1:2标注任务。给定一个人脸图像样本,1:2标注任务需要从两条语音数据中挑出与给定样本身份一致的语音样本,简称“F-V”。同样地,给定一个语音样本时,需要从两个人脸样本中挑出与给定样本身份一致的人脸样本,简称“V-F”。1:2标注任务有“F-V”和“V-F”两种场景。交互式1:2标注任务使用的评价指标为准确率。为了验证本发明的有效性,本文选取了代表性的方法进行对比:

实验结果如表1所示,其中“G”表示测试时输入的一对人脸语音来自同一性别的人,而“U”则表示数据没有性别限制,是通过随机选择的方式获取的。从实验结果中可以看出,本实施例在不同的测试任务上相较于基准方法都有着较好的实验结果。SVHF方法由于仅仅是针对于三元组的数据对进行约束,无法在每次批训练中去同时感知多个不同特征数据的相对关系,导致对于整个特征空间的感知较弱,性能较差。DIMNet由于专注于处理数据无法成对输入的情况,所以导致了模型在数据输入上存在着于双流成对数据输入的本质差异,导致性能有所欠缺。SSS方法虽然使用了对比学习进行模态间特征的对齐,但却仍然采用传统的多分类原型特征对齐的方式对单一模态进行特征对齐,导致模型训练效果差。相比之下,本实施例充分考虑了模态内和模态间特征对齐的相互关系,并提出了原型无关的对齐方法从根源上解决了特征间接对齐导致的公共特征空间差的问题,并利用差异化训练策略进一步提高数据的利用率以及模型的泛化性能。从表1可以看出,无论在哪个测试试验任务上,本实施例相较于基准方法都有一个较大的提升,实验验证了本方法的有效性。

表1本发明与各种方法试验结果对比

请参阅图3,本发明第二实施例提供了一种交互式人脸语音标注装置,包括:

人脸特征生成单元201,用于接收人脸图像,并采用卷积神经网络对所述人脸图像进行特征提取,以生成人脸特征;

语音特征生成单元202,用于获取语音信号,并采用循环神经网络及全连接层作对所述语音信号进行特征提取,以生成语音特征;

对齐操作单元203,用于根据所述人脸图像和所述语音信号的身份标签信息,调用训练数据批次中的数据近似作为身份原型特征对所述语音特征和所述人脸特征执行对齐操作;

标注单元204,用于基于所述对齐操作所述人脸图像和所述语音信号进行标注。

本发明第三实施例提供了一种交互式人脸语音标注设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种交互式人脸语音标注方法。

本发明第四实施例提供了一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的一种交互式人脸语音标注方法。

示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述实现一种交互式人脸语音标注设备中的执行过程。例如,本发明第二实施例中所述的装置。

所称处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种交互式人脸语音标注方法的控制中心,利用各种接口和线路连接整个所述实现对一种交互式人脸语音标注方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现一种交互式人脸语音标注方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(SmartMediaCard,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 一种语音学习方法、装置、语音设备及存储介质
  • 一种语音交互设备唤醒方法、装置、设备及存储介质
  • 一种基于直播的人脸处理方法、装置、设备和存储介质
  • 一种人脸关键点检测方法、装置、计算机设备和存储介质
  • 一种人脸网格模型的重建方法、装置、设备和存储介质
  • 一种人脸关键点标注方法、装置、电子设备及存储介质
  • 一种人脸关键点标注方法、装置、电子设备及存储介质
技术分类

06120116505773