基于深度特征图融合的多视图多标记学习方法
文献发布时间:2024-04-18 19:58:26
技术领域
本发明涉及多视图多标记信息融合、深度学习技术,具体涉及一种基于深度特征图融合的多视图多标记学习方法。
背景技术
伴随云计算、物联网、尤其是人工智能技术的蓬勃发展和相关方法的普及使用,随之而来的是海量的多视图多标记数据,如何合理高效地应用这些数据是一个值得关注的问题。现有的问题是当使用这些数据时,特征层面上会出现语义表征不全,即视图数据语义信息难以得到充分刻画。在多视图多标记学习中,每个实例由多个异构特征表示来描述,并同时与多个有效标记相关联。过去相关领域的研究大多集中于利用共享子空间在不同的视图来表示多视图共识信息,然而利用共享子空间解决该问题是否有效仍然有待验证,特别是该方法虽然能够融合多视图的共识性信息,但视图融合过程中不可避免地导致部分关键单体视图语义信息被遮蔽,从而影响了其完整语义的表征。
为此,本发明提出了一种基于深度特征图融合的多视图多标记分类算法(L-VSM:Label DrivenView-Specifific FusionforMulti-ViewMulti-Label Learning),来解决多视图多标记学习中的语义表征不全问题。通过构建相关的图结构获取视图和标记的结构化表示,最后通IIIII共识性和互补性信息基础上,强调单体视图在特定语义表征的贡献。从而达到提升多视图多标记数据分类性能。
发明内容
本发明的技术解决问题是:提出一种基于深度特征图融合的多视图多标记学习方法,解决现有多视图学习算法存在的多视图特征融合难和语义表征不全问题。
本发明的技术解决方案为:基于深度特征图融合的多视图多标记学习方法,该方法针对单一共享子空间模型无法完整描述多视图数据的所有语义信息,提出了基于深度特征图融合的多视图多标记分类,通过挖掘实例特征多视图互补关系和标记特征结构化共生关系,构建具有更强表征力的实例标记结构化向量表示,并通过平均化单体视图“实例-标记”亲和匹配结果进行分类。具体来说该标记驱动视图特定融合MVML方法(L-VSM)可以绕过对共享子空间表示的搜索,通过深度图神经网络将每个个体视图与其他视图的补充信息进行融合,并将这些有用的信息直接贡献于最终的判别模型。该方法分为以下四个部分:(1)基于标记嵌入的多视图统一特征图构建;(2)结构性实例特征表示;(3)结构性标记特征表示;(4)多标记分类。
具体步骤如下:
在本发明中,矩阵由加粗大写字母表示,如X;向量由加粗小写字母表示,如x;另外,(XR)表示由X·R得到的矩阵,其中·为矩阵乘法。矩阵X的逆和转置分别表示为X
(1)基于标记嵌入的多视图统一特征图构建;
定义
其中,·是向量y
将不同视图下的所有实例构造成不同的图G
其中
在获得每个单独的特征表示图后,将每个实例中的不同特征表示节点连接起来,并将上述单独的特征图集成到统一的多视图特征表示图中,其中不同类型的特征节点即不同视图之间的边表示其连接视图之间的视图相关性。
(2)结构性实例特征表示
在实例特征结构化表示过程中,对第t个视图下的原始特征
这里,
在第t个视图下
此外,进一步考虑其他实例在不同视图中表征的贡献,加强学习结构特征的识别能力,在实验中,利用输出方程(3)作为其输入,并重复这样的传播操作,以融合更多的视图间互补信息到每个特征节点。这个过程可以重复进行多次,以逐步提取和整合更丰富的结构特征表示。通过迭代传播操作,模型可以更好地捕获不同视图间的关联信息,并对实例进行更准确的表征。然后获得所需的结构特征表示
(3)结构性标记特征表示
为了探索多标记学习中广泛存在的标记相关性,引入Transforer架构来构建动态语义感知的标记图,并相应地为每个特定的标记生成结构性语义表示。具体来说,考虑到不同视图中语义关系的多样性,对于每个特定的标记c
在这里,
对于每个特定的类,相应地生成特殊的语义表示形式:
这里,
(4)多标记分类
为了突破传统共享子空间的限制,通过优化Multi-Label Soft Margin Loss来更新模型,并通过平均化单体视图的“实例-标记”匹配亲和度结果来进行标记预测。
提出的L-VSM中,通过采用在第(2)和第(3)步中获得的每个单独的结构特征表示
然后,通过平均来自不同视图的标记置信度,计算每个X
被广泛使用的Multi-Label Soft Margin Loss:
其中,
与现有技术相比,本方法的创新点在于解决传统共享子空间方法无法全面表征样本所有语义的问题,通过构建多视图统一特征图结构,将单视图内近邻关系和跨视图间对齐关系相互融合,提升每个单体视图的结构化语义表征能力。特色在于强调单体视图在特定语义表征的贡献,同时融合多视图数据共识性和互补性关系。方法能够有效提升多视图数据的语义表述能力,突破共享子空间方法的语义表征不全的问题,对于实际数据分析和决策具有很强的应用价值。
附图说明
图1展现了L-VSM模型的训练流程。
具体的实施方式
以下结合附图和实施例对本发明进行详细说明。
1、多视图特征图构建:
在不同视图下构造V个特征图G(t),其中每条边由等式(2)定义,在获得每个单独的特征表示图后,将每个实例中表示不同特征的节点连接起来,并将上述单独的特征图集成到统一的多视图特征表示图中,其中不同类型的特征节点(即不同视图)之间的边对其连接视图之间的视图相关性进行编码。
2、关于结构性实例特征表示:
具体来说,首先将每个原始输入特征向量
3、关于结构性标记特征表示:
构造全连通标记语义图,通过等式(5)计算原始标记表示
4、多标记分类:
通过在上面不断更新获得的由每个单独的结构特征表示的
实验数据集说明:
为了评估提出的L-VSM的性能,为了评估提出的L-VSM的性能,在10个基准数据集上进行了综合实验。Emotions有593种音乐,由两种观点描述:8个节奏属性和64个音色属性。Scene由2407张图像组成,其中来自两个视图的294个特征分别反映了颜色的亮度和色度。Yeast是一个生物基因数据集,其中一个基因的系统发育谱(24个属性)和遗传表达的连接(79个属性)分别对应于其两种不同的特征观点。Plant和Human是两个多重蛋白质定位分类数据集,分别由从植物和人类的978条和3106条序列中提取的两种特征(氨基和双肽)组成。Corel5k和Espgame分别包含4999张和20770张图像,均由4个不同的特征表示:GIST、HSV、HUE、DIFT。Pascal和Mirflflickr,除了上述四个视图之外,还添加了文本视图来描述它们的标记特性。表1总结了上述数据集的特征。
表1:所使用的数据集的特征
-D
实验设计:
采用了两类的六种最先进的方法进行比较研究:第一类是ML-KNN、RakeLD和LSPC等多标记学习方法,将所有视图特征作为学习模型的输入;第二类是LrMMC、SIMM、D-VSM、FIMAN、GRADIS、iMVML和NAIM3L等多视图多标记方法,融合了不同视图的互补性,进行分类模型归纳。
其中多标记学习方法ML-KNN发表在计算机视觉领域顶级期刊PR 2007,RakeLD发表在数据挖掘领域顶级期刊TKDE 2011,LSPC于2016年发表在MDPI旗下的Entropy期刊上,多视图多标记方法LrMMC于2015年发表在顶级会议AAAI上,SIMM发表在国际人工智能联合会议IJCAI 2019,FIMAN发表在知识发现和数据挖掘国际会议ACM SIGKDD 2020,D-VSM发表在人工智能会议AAAI 2022,GRADIS发表在人工智能会议AAAI 2020,iMVML发表在国际人工智能联合会议IJCAI 2018,NAIM3L发表在计算机期刊TPAMI 2021上。上述方法的配置参数均根据该方法的相关文献中的建议进行设置。
此外,还采用了评价每种比较方法的六种流行的多标记指标,Hamming Loss,RankingLoss,One-Error,Coverage,Average Precision和Micro-F1。
实验结果:
表2-9说明了提出的L-VSM和其他7种比较方法在所有评价指标上的实验比较,其中分别记录了平均指标结果和标准差。在420个(10数据集×7方法×6评价指标)的统计比较中,可以进行以下观察:从比较方法的角度来看,提出的L-VSM明显优于两种多标记学习方法和多视图多标记学习方法。具体来说,L-VSM在100%的情况下优于ML-KNN、RakeLD、LSPC、LrMMC和FIMAN。相应地,L-VSM分别在96.25%和88.75%的情况下优于SIMM和D-VSM。这些结果表明,提出的特定视图策略可以有效地提高从多视图多标记数据中获得的学习性能。对于具有大量类的数据集(如Corel5k和Iaprtc12),L-VSM在97.02%的情况下也优于其他比较方法。此外,对于具有高维特征(如Pascal)的数据集,L-VSM仍然取得了很好的性能。这些结果证明了提出的L-VSM在从复杂的多视图多标记数据中学习的有效性。从评估指标的角度来看,提出的L-VSM仍然在几乎所有指标上都有显著的改进。特别是对于反映类不平衡多标记数据学习性能的度量Macro-F1,在97.14%的情况下L-VSM实现了优于其他比较方法的性能,且在某些类不平衡数据集上的优势更为显著。这些结果通过经验证明了提出的标记驱动实例图构造策略在处理类不平衡的多视图多标记数据方面的有效性。
表2:Hamming Loss(the lower the better)
表3:Ranking Loss(the lower the better)
表4:One Error(the lower the better)
表5:Coverage(the lower the better)
本方法提出的L-VSM与其他比较方法在Hamming Loss、Ranking Loss、One Error和Coverage指标上进行了实验比较,其中最佳性能以粗体和“-”显示,表明FIMAN在Mirflflick数据集上需要超过256G的RAM。
表6:Average Precision(the higher the better)
/>
表7:Micro-F1(the higher the better)
/>
表8:Subset Accuracy(the higher the better)
/>
表9:Macro-F1(the higher the better)
将本方法提出的L-VSM与其他比较方法在Average Precision、Micro-F1、SubsetAccuracy和Macro-F1指标上进行了实验比较,其中最佳性能以粗体和“-”表示,表明FIMAN在Mirflflick数据集上需要超过256G的RAM。
本方法对于多视图多标记任务提出了一个标记驱动视图特定融合模型L-VSM,该模型将不同视图的互补性融合到每个单独的视图中,并直接使用这些单独的视图来诱导最终的模型。与以前的方法相比,L-VSM超越了共享子空间的限制,并通过同时利用不同视图之间的互补信息和单个视图中的视图特定信息来提高模型的性能。标记驱动的特征图构造策略和基于transformer的动态标记关系也共同提高了学习模型的有效性和鲁棒性。在经典多视图多标记任务和弱监督多视图多标记任务上的大量实验结果证明了提出的L-VSM比现有的方法具有显著的优势。
- 基于二部图的后期融合多视图聚类机器学习方法及系统
- 一种基于图嵌入和特征降维的多标记学习方法