掌桥专利:专业的专利平台
掌桥专利
首页

基于深度对比学习的不完备多视图多标签分类方法和系统

文献发布时间:2023-06-19 19:30:30


基于深度对比学习的不完备多视图多标签分类方法和系统

技术领域

本发明涉及模式识别技术领域,尤其涉及一种基于深度对比学习的不完备多视图多标签分类方法和系统。

背景技术

近年来,随着数据采集与特征提取方式的爆发性增长,仅从单一视角描述,分析和处理样本已难以满足愈加复杂的综合性分析需求,搜集自多种来源的多视图数据能够更加全面和准确地描述观察对象。一些方法利用对抗损失与标签损失学习多个视图的共享语义。另一些方法通过最大化潜在空间、特征空间与标签空间的相关性获得预测标签。另一类基于矩阵分解的方法通过在核空间最大化不同视图的基矩阵的依赖性对齐语义空间。值得注意的是,这些方法无一例外地都是建立在一个不合理的完备数据的前提下。然而真实实践中用于多视图多标签分类的数据往往是不完备的。一方面是搜集自多种来源的特征数据本身可能由于各种原因出现视图缺失现象,例如一些档案库中档案的媒体形式可能包括文本、音频、视频等,这些被看作不同视图的信息媒介并非普遍存在于所有的档案中,因此其所提取的多视图特征数据天然地存在缺失视图;另一方面,由于人工标记所有标签是困难的且成本昂贵的,真实数据中标签信息常常出现不同程度的缺失,这在具有大量强相关性标签的数据集中更为常见。基于此,不同于现有方法仅考虑视图缺失或标签缺失,旨在处理标签与视图双缺失问题,即随机的多视图特征数据缺失与多类别标签缺失问题。一些学者将基于矩阵分解的不完备多视图学习模型和基于标签相关性的多标签预测模型结合起来,通过学习公共表示连接特征空间与语义空间,并对标签相关性矩阵施加低秩约束以增强预测模型的鲁棒性。

尽管这些传统方法在不完备多视图多标签领域取得了一定的效果,然而这种需要人工设计特征提取规则且难以泛化的学习模式限制了不完备多视图和多标签学习的进一步发展。深度神经网络被越来越多地应用于特征提取与数据分析任务,一方面,不论是基于矩阵分解、谱聚类亦或是核学习的传统方法都仅作用于发掘数据浅层特征,而复杂的数据分析任务往往需要捕获相对原始数据更高层的语义表示。另一方面,传统多视图学习模型的性能严重依赖于参数的设置,且通常需要为不同的数据集搜索最优参数组合。

发明内容

本发明针对上述问题,提供了一种基于深度对比学习的不完备多视图多标签分类方法、系统及存储介质,所述分类方法除了以深度神经网络作为框架之外,还通过对比学习的方法提升所提取特征的鉴别能力,进而提升网络分类性能。

本发明的第一方面,提供了基于深度对比学习的不完备多视图多标签分类方法,方法包括以下步骤:

构建不完备多视图多标签分类网络模型;

训练所述不完备多视图多标签分类网络模型;

将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签;

其中,所述不完备多视图多标签分类网络模型包括三个子模块:特定视图表示学习框架、不完备实例级对比学习模块和加权融合与不完备多标签分类模块,所述特定视图表示学习框架利用自编码器提取特征和重建原始数据,所述自编码器包括编码器和解码器,所述编码器用于提取特征,所述解码器用于重建原始数据;所述不完备实例级对比学习模块用于在所述编码器提取的特征上施加不完备实例级对比损失以增强多视图表示的一致性;所述加权融合与不完备多标签分类模块用于进行多视图的加权融合以及利用加权融合结果计算多标签分类得分,得到多标签分类的推理结果。

本发明进一步的技术方案是:在所述特定视图表示学习框架中,针对视图输入数据X

在所述解码器的输出端施加平方损失函数

其中,l表示视图数量,n表示样本数量,m

本发明进一步的技术方案是:所述不完备实例级对比学习模块采用对比学习方法引导编码器提取一致的特征,具体包括:

对于l个视图共存在l×n个实例,其中的任一实例

其中<·>表示点积操作,对于任意两个视图,不完备对比学习损失函数

/>

其中,l表示视图数量,n表示样本数量,

本发明进一步的技术方案是:所述加权融合与不完备多标签分类模块中计算l个视图的融合表示H,对于各样本的融合表示h

其中,l表示视图数量,v表示视图数,

本发明进一步的技术方案是:所述加权融合与不完备多标签分类模块利用加权融合结果计算多标签分类得分,具体包括:

对融合表示H进行线性激活操作,激活函数为Sigmoid函数:

其中,ω表示全连接层

其中,

本发明的第二方面,一种基于深度对比学习的不完备多视图多标签分类系统,包括:

网络模型构建单元,用于构建不完备多视图多标签分类网络模型;

网络模型训练单元,用于训练所述不完备多视图多标签分类网络模型;

预测单元,用于将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签;

其中,所述不完备多视图多标签分类网络模型包括三个子模块:特定视图表示学习框架、不完备实例级对比学习模块和加权融合与不完备多标签分类模块,所述特定视图表示学习框架利用自编码器提取特征和重建原始数据,所述自编码器包括编码器和解码器,所述编码器用于提取特征,所述解码器用于重建原始数据;所述不完备实例级对比学习模块用于在所述编码器提取的特征上施加不完备实例级对比损失以增强多视图表示的一致性;所述加权融合与不完备多标签分类模块用于进行多视图的加权融合以及利用加权融合结果计算多标签分类得分,得到多标签分类的推理结果。

本发明的第三方面,提供了一种基于深度对比学习的不完备多视图多标签分类系统,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述基于深度对比学习的不完备多视图多标签分类方法。

本发明的第四方面,一种存储介质,其上存储有程序,所述程序在被处理器执行时,使得所述处理器执行上述基于深度对比学习的不完备多视图多标签分类方法。

本发明提供的一种基于深度对比学习的不完备多视图多标签分类方法、系统及存储介质,针对双重不完备的多视图多标签分类问题,提出一种深度对比网络,与传统方法不同的是,本发明专注于利用深度神经网络来提取样本的高级语义表示,利用自编码器构建端到端的多视图特征提取框架用以学习样本的表征向量。此外,为了进一步地提高模型的表示能力,本发明引入无监督对比学习来指导编码器依据一致性假设提取多视图的高级表示信息,同时,本发明提出加权融合方法以平衡不同视图的重要性。

综上上述,本发明的有益效果主要有:

1)本发明所提出的不完备多视图多标签分类网络模型对多视图数据的视图数量以及缺失情况无额外限制,即可处理有较多视图数量、存在任意缺失情况的多视图数据集,同时也能够适应于多标签监督信息出现随机缺失的情况。

2)本发明所提出的不完备实例级对比损失能够有效地聚合跨视图特征,使同一样本在不同视图中的实例满足多视图的一致性假设,进而增强高级特征表示能力、提升分类准确度。

3)本发明所提出的不完备多视图多标签分类网络模型具有良好的应用特性,完成训练后即可在生产环境中部署,对于输入的不完备多视图测试数据能够即时地给出推理结果。

附图说明

图1是本发明实施例一中的基于深度对比学习的不完备多视图多标签分类方法流程示意图;

图2是本发明实施例一中的不完备多视图多标签分类网络模型的结构示意图;

图3是本发明实施例一中的不完备多视图多标签分类网络模型训练与推理的流程示意图;

图4是本发明实施例二中的基于深度对比学习的不完备多视图多标签分类系统结构示意图;

图5是本发明实施例三中的一种计算机设备的架构。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅出示了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本发明实施例针对一种基于深度对比学习的不完备多视图多标签分类方法、系统及存储介质,提供了如下实施例:

基于本发明的实施例一

本实施例用于说明基于深度对比学习的不完备多视图多标签分类方法,参见图1,为基于深度对比学习的不完备多视图多标签分类方法流程示意图,具体包括以下步骤:

S110、构建不完备多视图多标签分类网络模型;

S120、训练所述不完备多视图多标签分类网络模型;

S130、将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签;

其中,如图2所示,不完备多视图多标签分类网络模型包括三个子模块:特定视图表示学习框架、不完备实例级对比学习模块和加权融合与不完备多标签分类模块,所述特定视图表示学习框架利用自编码器提取特征和重建原始数据,所述自编码器包括编码器和解码器,所述编码器用于提取特征,所述解码器用于重建原始数据;所述不完备实例级对比学习模块用于在所述编码器提取的特征上施加不完备实例级对比损失以增强多视图表示的一致性;所述加权融合与不完备多标签分类模块用于进行多视图的加权融合以及利用加权融合结果计算多标签分类得分,得到多标签分类的推理结果。

具体实施过程中,先定义问题如下,给定数据

具体地,在所述特定视图表示学习框架中,利用自编码器来提取高级特征。该自编码器由一组编码器和一组解码器组成,分别用于提取高级特征和重建原始数据。每个视图都有对应的编-解码器,用于独立地捕获特定视图的高级判别特征。对于某一视图的输入数据X

其中,l表示视图数量,n表示样本数量,m

进一步地,为了增加提取的高级表示的一致性,提出不完备实例级对比学习损失。具体地,同一个样本在不同的视图中具有不同的表达,即不同的实例。多视图一致性即要求这些不同的实例应该具有一致的语义表达,基于此,在所述不完备实例级对比学习模块采用对比学习方法引导编码器提取一致的特征,具体包括:

对于l个视图共存在l×n个实例,其中的任一实例

其中<·>表示点积操作,对于任意两个视图,不完备对比学习损失函数

其中,l表示视图数量,n表示样本数量,

进一步地,所述加权融合与不完备多标签分类模块中计算l个视图的融合表示H,对于各样本的融合表示h

其中,l表示视图数量,v表示视图数,

进一步地,加权融合与不完备多标签分类模块利用加权融合结果计算多标签分类得分,具体包括:

对融合表示H进行线性激活操作,激活函数为Sigmoid函数:

其中,ω表示全连接层

其中,

综上所述,整体的损失函数

其中β和γ为惩罚系数。

下面给出一个不完备多视图多标签分类网络模型运用的具体示例,如图3所示:

模型训练:

1.训练准备阶段:

1)准备多视图数据

2)设置超参数τ,β,γ和训练停止阈值σ;

3)用‘0’填充所有缺失视图与缺失标签;

4)初始化网络模型参数;

5)设置上一轮损失

2.训练阶段

1)编码器计算特定视图表示

2)根据式(2)、(3)、(4)计算不完备实例级对比损失

3)根据式(5)计算融合表示特征H;

4)根据式(6)计算预测结果P并根据式(7)计算多标签分类损失

5)根据式(8)计算总损失

6)输出预测结果P。

模型测试:

3.测试准备阶段:

1)准备多视图数据

2)用‘0’填充所有缺失视图。

3)加载训练好的网络模型参数。

4.测试阶段

1)编码器计算特定视图表示

2)根据式(5)计算融合表示特征H。

3)根据式(6)计算预测结果P。

4)输出预测结果P。

基于本发明的实施例2

本发明实施例二所提供的一种基于深度对比学习的不完备多视图多标签分类系统400可执行本发明实施例1所提供的基于深度对比学习的不完备多视图多标签分类方法,具备执行方法相应的功能模块和有益效果,该装置可以由软件和/或硬件(集成电路)的方式实现,并一般可集成于服务器或终端设备中。图4是本发明实施例2中的一种基于深度对比学习的不完备多视图多标签分类系统400的结构示意图。参照图4,本发明实施例的基于深度对比学习的不完备多视图多标签分类系统400具体可以包括:

网络模型构建单元410,用于构建不完备多视图多标签分类网络模型;

网络模型训练单元420,用于训练所述不完备多视图多标签分类网络模型;

预测单元430,用于将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签;

其中,所述不完备多视图多标签分类网络模型包括三个子模块:特定视图表示学习框架、不完备实例级对比学习模块和加权融合与不完备多标签分类模块,所述特定视图表示学习框架利用自编码器提取特征和重建原始数据,所述自编码器包括编码器和解码器,所述编码器用于提取特征,所述解码器用于重建原始数据;所述不完备实例级对比学习模块用于在所述编码器提取的特征上施加不完备实例级对比损失以增强多视图表示的一致性;所述加权融合与不完备多标签分类模块用于进行多视图的加权融合以及利用加权融合结果计算多标签分类得分,得到多标签分类的推理结果。

除了上述单元以外,基于深度对比学习的不完备多视图多标签分类系统400还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。

基于深度对比学习的不完备多视图多标签分类系统400的具体工作过程参照上述基于深度对比学习的不完备多视图多标签分类方法实施例1的描述,不再赘述。

基于本发明的实施例三

根据本发明实施例的系统也可以借助于图5所示的计算设备的架构来实现。图5示出了该计算设备的架构。如图5所示,计算机系统501、系统总线503、一个或多个CPU504、输入/输出502、存储器505等。存储器505可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1方法的程序指令。图5所示的架构只是示例性的,在实现不同的设备时,根据实际需要调整图5中的一个或多个组件。存储器505作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于深度对比学习的不完备多视图多标签分类方法对应的程序指令/模块(例如,基于深度对比学习的不完备多视图多标签分类系统400中的网络模型构建单元410、网络模型训练单元420和预测单元430)。一个或多个CPU304通过运行存储在存储器505中的软件程序、指令以及模块,从而执行本发明系统的各种功能应用以及数据处理,即实现上述的基于深度对比学习的不完备多视图多标签分类方法,该方法包括:

构建不完备多视图多标签分类网络模型;

训练所述不完备多视图多标签分类网络模型;

将测试数据输入训练好的所述不完备多视图多标签分类网络模型进行推理,输出预测标签;

其中,所述不完备多视图多标签分类网络模型包括三个子模块:特定视图表示学习框架、不完备实例级对比学习模块和加权融合与不完备多标签分类模块,所述特定视图表示学习框架利用自编码器提取特征和重建原始数据,所述自编码器包括编码器和解码器,所述编码器用于提取特征,所述解码器用于重建原始数据;所述不完备实例级对比学习模块用于在所述编码器提取的特征上施加不完备实例级对比损失以增强多视图表示的一致性;所述加权融合与不完备多标签分类模块用于进行多视图的加权融合以及利用加权融合结果计算多标签分类得分,得到多标签分类的推理结果。

当然,本发明实施例所提供的服务器,其处理器不限于执行如上所述的方法操作,还可以执行本发明任意实施例所提供的基于深度对比学习的不完备多视图多标签分类方法中的相关操作。

存储器505可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器505可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器505可进一步包括相对于一个或多个CPU504远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入/输出502可用于接收输入的数字或字符信息,以及产生与装置的用户设置以及功能控制有关的键信号输入。输入/输出502还可包括显示屏等显示设备。

基于本发明的实施例四

本发明实施例也可以被实现为计算机可读存储介质。根据实施例4的计算机可读存储介质上存储有计算机程序。当所述计算机程序被处理器执行时,可以执行参照以上附图描述的根据本发明实施例1的基于深度对比学习的不完备多视图多标签分类方法。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于深度对比学习的不完备多视图多标签分类方法中的相关操作。

本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

综上所述,通过实施例可以看出,本发明提供的一种基于深度对比学习的不完备多视图多标签分类方法、系统及存储介质,针对双重不完备的多视图多标签分类问题,提出一种深度对比网络,与传统方法不同的是,本发明专注于利用深度神经网络来提取样本的高级语义表示,利用自编码器构建端到端的多视图特征提取框架用以学习样本的表征向量。此外,为了进一步地提高模型的表示能力,本发明引入无监督对比学习来指导编码器依据一致性假设提取多视图的高级表示信息,同时,本发明提出加权融合方法以平衡不同视图的重要性。综上上述,本发明的有益效果主要有:本发明所提出的不完备多视图多标签分类网络模型对多视图数据的视图数量以及缺失情况无额外限制,即可处理有较多视图数量、存在任意缺失情况的多视图数据集,同时也能够适应于多标签监督信息出现随机缺失的情况;本发明所提出的不完备实例级对比损失能够有效地聚合跨视图特征,使同一样本在不同视图中的实例满足多视图的一致性假设,进而增强高级特征表示能力、提升分类准确度;本发明所提出的不完备多视图多标签分类网络模型具有良好的应用特性,完成训练后即可在生产环境中部署,对于输入的不完备多视图测试数据能够即时地给出推理结果。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

相关技术
  • 一种基于深度学习的多标签文本分类场景下的噪声标签检测方法及系统
  • 基于动态权重对比学习的多标签文本分类方法和系统
技术分类

06120115937044