导航：首页> 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手>一种多模态数据处理方法及系统

一种多模态数据处理方法及系统

文献发布时间：2023-06-19 18:37:28

技术领域

本申请涉及普适计算技术领域，具体而言，涉及一种多模态数据处理方法及系统。

背景技术

相关技术中，随着软硬件技术的快速发展，信息传递的占主导；各模态数据质量不稳定的问题，传感器自身特性、信号传输不稳定、开放环境干扰性强等因素会使得各模态数据出现诸如噪声严重、部分模态数据缺失等问题，且问题严重程度随着时间会有波动。数据质量不稳定将导致不同模态之间存在信息冲突等问题，降低多模态机器学习模型性能。比如多模态手势识别任务，其可能涉及视频、音频、肌电和关节运动信息等等模态。

针对数据质量问题，现有的主要解决方式是通过中值滤波等方法对数据进行降噪处理、通过下采样或插值等方法减小单一模态数据损坏的影响，以及一些针对特定模态的处理方式，例如具有注意机制的卷积神经网络，它能够感知图像中人脸被遮挡区域，并聚焦于最具可辨别性的未遮挡区域，提高对遮挡的鲁棒性。

然而，现有技术中，针对特定模态的方法无法在多种数据模态中应用，多模态信息中可能存在大量的冗余数据，影响对视频内容的理解效果，缺乏对多模态任务的针对性，而模态通用的处理方法如插值或中值滤波又只能应对比较简单的数据受损情况。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种多模态数据处理方法及系统，该处理方法能充分利用多模态之间的有效冗余性，从主动的高质量数据模态选择的角度来解决问题结构简单，适用性强。

第一方面，本发明实施例提供的一种多模态数据处理方法，包括以下步骤：

S1、获取目标数据中的多模态数据，将所述多模态数据中至少两种单模态数据的语义信息进行特征化，基于所述语义信息特征的相似性确定所述多模态数据中的冗余数据，将两种单模态数据组合进行标签；

S2、多模态数据样本的特征进行数值化，以该数值为输入值，并以多模态数据样本的该标签为调教目标，调教多类分类器模型，得到模态选择模型；

S3、获取待处理多模态数据，将该待处理多模态数据的特征输入该模态选择模型，得到模态组合选择结果，删除该待处理多模态数据的其他数据，仅保留该模态组合选择结果，得到修改后的多模态数据；

S4、修改后的多模态数据上传至服务器，由所述服务器对所述多模态故障数据进行处理，生成处理信息；接收所述服务器发送的处理结果信息。

根据本申请实施例的多模态数据处理方法，解决现有技术中仅从单一模态数据质量提升角度解决数据质量不稳定问题，通过利用不同模态之间的互补性和冗余性，从主动的数据选择角度克服数据质量不稳定问题。由于充分利用的多模态数据的协同特性，该方法相比于简单的数据预处理能够更有效地提升在低质量数据上的性能，针对特定模态的方法在多种数据模态中应用，排除多模态信息中可能存在大量的冗余数据，增强视频内容的理解效果，增加对多模态任务的针对性，能应对较复杂的数据受损情况。该处理方法能充分利用多模态之间的有效冗余性，从主动的高质量数据模态选择的角度来解决问题结构简单，适用性强。

另外，根据本申请实施例的多模态数据处理方法还具有如下附加的技术特征：

优选的，所述至少两种单模态数据包括目标图像数据和目标文本数据；所述基于所述语义信息的相似性确定所述多模态数据中的冗余数据，包括：基于所述目标图像数据的语义信息与所述目标文本数据的语义信息的特征相似性，确定所述目标图像数据中的冗余数据以及目标文本数据中的冗余数据。

优选的，确定所述目标图像数据的语义信息与所述目标文本数的语义信息，包括：将所述目标图像数据在语义空间中的第一语义特征确定为所述目标图像数据的语义信息，并将所述目标文本数据在所述语义空间中的第二语义特征确定为所述目标文本数据的语义信息。

优选的，基于所述目标图像数据的语义信息与所述目标文本数据的语义信息的特征相似性，确定所述目标图像数据中的冗余数据和/或目标文本数据中的冗余数据，包括：将所述目标图像数据的语义信息与所述目标文本数据的语义信息的相似度大于预设值的目标图像数据和/或目标文本数据确定为冗余数据。

优选的，所述服务器为或连接深度神经网络模型或分类模型；

该步骤1还包括：

S11、初始化H为最大熵值，初始化最优模态组合为全模态；针对用于进行多分类的神经网络模型，其最后一层softmax层将会输出一系列概率值，记为pj，设一共有M个分类类别，则通过下式计算熵值Hp：

S12、从当前该多模态数据样本的幂集中选定一种模态组合，将当前该多模态数据样本中符合该幂集中选定的模态组合的模态数据保留原数据，将其他模态清除，得到预处理数据样本；

S13、将该预处理数据样本输入进行预测，得到预测类别，同时输出层或中间层计算熵值h，若该预测类别正确且h；

S14、判断该幂集是否已经全部遍历，若是则执行步骤15，否则执行该步骤12；

S15、记录多模态数据样本的标签，记当前记录的最优模态组合为该多模态数据样本的标签。

优选的，还包括：基于所述冗余数据对所述多模态数据进行去冗余处理，确定所述多模态数据中的有效多模态数据；对所述有效多模态数据进行多模融合，得到多模融合特征。

优选的，其中，所述基于所述冗余数据对所述多模态数据进行去冗余处理，包括：通过降低所述冗余数据对应的自注意力权重，对所述多模态数据进行去冗余处理；

基于所述多模融合特征进行分类。

第二方面，本发明实施例另提供一种多模态数据处理系统，包括

上述任意一项所述的多模态数据处理方法；以及

数据采集网络；

数据服务器，所述数据采集网络与数据服务器通信连接；

多模态数据获取模块，用于获取目标视频的多模态数据；

语义信息确定模块，用于确定所述多模态数据中至少两种单模态数据的语义信息；

冗余数据确定模块，用于基于所述语义信息的相似性确定所述多模态数据中的冗余数据。

优选的，其中，所述至少两种单模态数据包括目标图像数据以及目标文本数据，

所述语义信息确定模块具体用于：确定所述目标图像数据的语义信息与所述目标文本数据的语义信息；

所述冗余数据确定模块具体用于：基于所述目标图像数据的语义信息与所述目标文本数据的语义信息的相似性，确定所述目标图像数据中的冗余数据以及目标文本数据中的冗余数据。

优选的，还包括：

数据安全处理单元，用于在将所述多模态故障数据上传至服务器之前，对所述多模态故障数据进行数据安全处理；

相应地，所述多模态故障数据上传单元，用于将数据安全处理后的多模态故障数据上传至服务器。

所述数据安全处理单元，用于对所述多模态故障数据中的图片和视频添加隐写水印；或对所述多模态故障数据中的音频进行变速和变声；以及采取位置匿名变换算法对所述多模态故障数据进行变换。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是根据本申请实施例的多模态数据处理方法流程图；

图2是根据本申请实施例的多模态数据样本的标签生成流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

为使本申请实施方式的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

下面参考附图描述根据本申请实施例的多模态数据处理方法及系统；

第一方面，如图1-2所示，本发明实施例提供的一种多模态数据处理方法，包括以下步骤：

S1、获取目标数据中的多模态数据，将多模态数据中至少两种单模态数据的语义信息进行特征化，基于语义信息特征的相似性确定多模态数据中的冗余数据，将两种单模态数据组合进行标签；

S2、多模态数据样本的特征进行数值化，以该数值为输入值，并以多模态数据样本的该标签为调教目标，调教多类分类器模型，得到模态选择模型；

S4、修改后的多模态数据上传至服务器，由服务器对多模态故障数据进行处理，生成处理信息；接收服务器发送的处理结果信息。

另外，根据本申请实施例的多模态数据处理方法还具有如下附加的技术特征：

具体而言，至少两种单模态数据包括目标图像数据和目标文本数据；基于语义信息的相似性确定多模态数据中的冗余数据，包括：基于目标图像数据的语义信息与目标文本数据的语义信息的特征相似性，确定目标图像数据中的冗余数据以及目标文本数据中的冗余数据。

具体而言，确定目标图像数据的语义信息与目标文本数的语义信息，包括：将目标图像数据在语义空间中的第一语义特征确定为目标图像数据的语义信息，并将目标文本数据在语义空间中的第二语义特征确定为目标文本数据的语义信息。

具体而言，基于目标图像数据的语义信息与目标文本数据的语义信息的特征相似性，确定目标图像数据中的冗余数据和/或目标文本数据中的冗余数据，包括：将目标图像数据的语义信息与目标文本数据的语义信息的相似度大于预设值的目标图像数据和/或目标文本数据确定为冗余数据。

具体而言，服务器为或连接深度神经网络模型或分类模型；

该步骤1还包括：

S13、将该预处理数据样本输入进行预测，得到预测类别，同时输出层或中间层计算熵值h，若该预测类别正确且h；

S14、判断该幂集是否已经全部遍历，若是则执行步骤15，否则执行该步骤12；

S15、记录多模态数据样本的标签，记当前记录的最优模态组合为该多模态数据样本的标签。

具体而言，还包括：基于冗余数据对多模态数据进行去冗余处理，确定多模态数据中的有效多模态数据；对有效多模态数据进行多模融合，得到多模融合特征。

具体而言，其中，基于冗余数据对多模态数据进行去冗余处理，包括：通过降低冗余数据对应的自注意力权重，对多模态数据进行去冗余处理；

基于多模融合特征进行分类。

第二方面，本发明实施例另提供一种多模态数据处理系统，包括

上述任意一项的多模态数据处理方法；以及

数据采集网络；

数据服务器，数据采集网络与数据服务器通信连接；

多模态数据获取模块，用于获取目标视频的多模态数据；

语义信息确定模块，用于确定多模态数据中至少两种单模态数据的语义信息；

冗余数据确定模块，用于基于语义信息的相似性确定多模态数据中的冗余数据。

具体而言，其中，至少两种单模态数据包括目标图像数据以及目标文本数据，

语义信息确定模块具体用于：确定目标图像数据的语义信息与目标文本数据的语义信息；

冗余数据确定模块具体用于：基于目标图像数据的语义信息与目标文本数据的语义信息的相似性，确定目标图像数据中的冗余数据以及目标文本数据中的冗余数据。

具体而言，还包括：

数据安全处理单元，用于在将多模态故障数据上传至服务器之前，对多模态故障数据进行数据安全处理；

相应地，多模态故障数据上传单元，用于将数据安全处理后的多模态故障数据上传至服务器。

数据安全处理单元，用于对多模态故障数据中的图片和视频添加隐写水印；或对多模态故障数据中的音频进行变速和变声；以及采取位置匿名变换算法对多模态故障数据进行变换。

目标文本数据包括以下至少一项：

目标视频的视频标题；

从目标图像数据中提取出的文本信息；

从目标视频的目标音频数据中识别出的文本信息。

若目标文本数据包括从目标视频的目标音频数据中识别出的文本信息，则装置还包括语音识别模块，语音识别模块用于：

对目标音频数据进行语音检测，确定目标音频数据是否包含语音音频数据；若包含，则识别语音音频数据中包含的文本信息。

还包括：去冗余模块，用于基于冗余数据对多模态数据进行去冗余处理，确定多模态数据中的有效多模态数据；

多模融合模块，用于对有效多模态数据进行多模融合，得到多模融合特征。

还包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一项的方法。

其中，计算机指令用于使计算机执行根据上述中任一项的方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要说明的是，当元件被称为“固定于”、“设置于”、“固设于”或“安设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。进一步地，当一个元件被认为是“固定连接”另一个元件，二者可以是可拆卸连接方式的固定，也可以不可拆卸连接的固定，如套接、卡接、一体成型固定、焊接等，在现有技术中可以实现，在此不再累赘。当元件与另一个元件相互垂直或近似垂直是指二者的理想状态是垂直，但是因制造及装配的影响，可以存在一定的垂直误差。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的，并不表示是唯一的实施方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：萧展辉;邹文景;甘莹;梁置铭;
专利申请人：南方电网数字电网研究院有限公司;

上一篇：一种基于图像识别的鱼卵计数装置和方法
下一篇：一种基于机器视觉的机器人系统