掌桥专利:专业的专利平台
掌桥专利
首页

一种基于注意力图卷积网络的多组学数据分类方法

文献发布时间:2024-04-18 20:01:23


一种基于注意力图卷积网络的多组学数据分类方法

技术领域

本发明涉及深度学习及多组学融合领域,具体讲是涉及一种基于注意力图卷积网络的多组学数据分类方法。

背景技术

高通量测序技术的快速发展使得我们能够收集到越来越多的组学数据。现在,我们可以在同一样本上收集到不同分子水平的数据,如mRNA表达、miRNA表达和DNA甲基化数据。早期的组学研究主要集中于单组学数据的分析。然而,大量研究表明,单一类型的组学数据只能提供部分生物复杂性。为了全面了解复杂疾病的发病机制,解释多个分子水平的分子复杂性是必要的。因此,随着各种复杂疾病的基因组、转录组和表观基因组数据分子数据来源的增加,整合多组学数据从不同角度理解生物信息对于更全面地了解复杂疾病的生物学过程至关重要。这种综合分析具有显著提高临床诊断准确性的潜力,为实现精准医疗提供了强有力的支持。

大多数传统的多组学数据集成方法主要集中在无监督的方法上。然而,个性化医疗领域已经迅速发展,使我们能够收集越来越多的带注释的样本数据集,包括详细的表型和特征。这些丰富的数据为设计有监督的多组学集成方法提供了强有力的支持。因此,人们对有监督的多组学集成方法越来越感兴趣。

表示学习和多组学数据融合学习是多组学数据研究的关键组成部分。具有高学习能力和更高灵活性的机器学习和深度学习技术可以有效地应用于上述学习任务。早期的代表性学习方法,如随机森林、XGBoost和深度神经网络,往往忽略了样本之间的相关信息。同样,现有的多组学数据融合学习方法主要依赖于组学数据特征的直接拼接和对不同组学数据的分类器预测的集成,而没有充分考虑不同类型组学数据之间的交叉信息和互补信息。

近年来,图卷积网络(GCNs)和注意力机制等深度学习模型已成为人们研究的热点,并得到了广泛的应用。GCNs作为一种功能强大的特征提取工具,可以有效地捕获图结构中嵌入的样本之间的复杂关系和相关性。注意机制自适应地测量不同特征的重要性,将不同的特征分配给不同的注意权重,从而使模型获得更多的区分特征。这些模型为复杂疾病患者的分类提供了新的见解。Wang等人提出了一种基于图卷积网络的有监督的多组学集成方法,专注于组学特异性学习和交叉组学相关学习。Moon等人引入了一种基于注意机制的多组学集成方法,通过使用注意机制识别多组学数据中的关键模块,实现了较高的诊断性能。Gong等人提出了MOADLN,一种基于多组学注意深度学习网络的有监督的多组学集成框架,该框架利用注意机制和深度神经网络联合学习不同类型的组学数据之间的相关性。然而,这些方法未能充分考虑图卷积网络不同图卷积层中的多尺度信息。此外,在整合多组学数据的过程中,不同类型的组学数据对各种复杂疾病的影响程度尚未得到充分阐明。

发明内容

为了克服上述多组学数据分类方法的缺陷,本发明提供了一种基于注意力图卷积网络的多组学数据分类方法,提出了一种新型注意力图卷积网络,通过层注意力机制自适应学习不同图卷积层的注意力权重,进而加权融合不同图卷积层的多尺度特征,深入挖掘组学数据的潜在信息。

本发明所采用的技术方案如下:

(1)注意力图卷积网络;

(1.1)针对每种组学数据,利用余弦相似性构建样本相似性网络,作为注意力图卷积网络的输入,网络训练过程中,通过

(1.2)引入层注意力机制进一步考虑不同图卷积层对最终分类结果的重要性,

(1.3)计算得到不同组学数据对应的初始标签概率预测分布

(2)多组学数据分类;

(2.1)将不同组学数据对应的注意力图卷积网络学习到的特征表示进行拼接,利用注意力机制计算不同组学数据类型的注意力权重,将注意力权重与初始标签概率预测分布相乘,得到不同组学数据类型下新的标签概率预测分布

(2.2)利用新的标签概率预测分布,构造一个三阶张量

通过上述技术方案,本发明提供的一种基于注意力图卷积网络的多组学数据分类方法具有如下有益效果:

本发明提出了一种新型注意力图卷积网络,充分利用网络消息传递过程中学习到的特征信息,区别于人工指定,通过层注意力机制自适应学习不同图卷积层的注意力权重,进而加权融合不同图卷积层的多尺度特征,深入挖掘组学数据的潜在信息。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实施例的多组学数据分类流程示意图;

图2、图3是MOAGCN与现有方法在ROSMAP及BRCA两个数据集上的分类性能比较;

图4是在ROSMAP及BRCA两个数据集上不同类型组学数据下MOAGCN的分类性能比较;

图5是在ROSMAP及BRCA两个数据集上不同超参数k下MOAGCN的分类性能比较。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰明了,结合以下步骤和图1对本发明进行进一步的详细解释。此处所描述的具体实施方式仅用于解释本发明,并不能限定本发明。

假设使用三种组学数据,

:表示样本数;

,/>

:依赖于经验参数/>

:表示加权样本相似度网络中每个节点的平均度,/>

:表示第/>

:表示第/>

,/>

:表示分类的类别数;

(1)注意力图卷积网络;

(1.1)针对每种组学数据,计算样本

(1.2)针对第

(2)多组学数据分类;

(2.1)考虑到不同组学数据类型对于最终分类结果的重要性不同,将由不同类型的组学数据对应的注意引导图卷积网络学习到的特征表示进行拼接,

(2.2)利用新的标签概率预测分布,构造一个三阶张量

验证与分析

(1)分类性能对比实验验证

为评价本发明给出的基于注意力图卷积网络的多组学数据分类方法(MOAGCN)的有效性,我们将其应用于两个不同复杂疾病患者分类任务的数据集,即阿尔茨海默病数据集(ROSMAP),浸润性乳腺癌数据集(BRCA),进行患者分类,并使用mRNA表达、DNA甲基化、miRNA表达数据三种组学数据。具体来说,对于ROSMAP数据集,包含351个样本,特征数分别为200、200、200,我们将阿尔茨海默病患者(AD)和正常样本(NC)进行二分类;对于BRCA数据集,包含875个样本,特征数分别为1000、1000、503,我们通过PAM50将乳腺癌患者分为5种亚类型。为了评估本发明在分类任务中的性能,我们对二进制和多类分类任务使用了几个指标。对于二分类任务,我们采用了四个指标: ACC、F1、AUC和MCC。对于多类分类任务,我们通过ACC、F1_weighted和F1_macro来评估性能。在实验中,每个数据集被随机划分为由其70%的样本组成的训练集和由其余30%的样本组成的测试集。为了全面分析本发明MOAGCN的分类性能,我们随机生成了5个训练集和测试集,并计算了这5个实验的平均值和标准差。对比结果如图2、3所示,其中图2为在ROSMAP数据集上进行分类任务的对比实验结果,图3为在BRCA数据集上进行分类任务的对比实验结果。MOAGCN-LAM,MOAGCN-AM,MOAGCN-VCDN分别为MOAGCN去掉层注意力机制、注意力机制、视图相关发现网络的变体,验证了几个模块的有效性。其他对比方法分别为:k最近邻分类器(KNN)、随机森林(RF)、支持向量机分类器(SVM)、XGBoost、全连接神经网络分类器(NN)、MOGONET、MOMA、MOADLN。

(2)不同组学数据类型下的分类性能比较实验验证

为验证本发明中整合三种类型的组学数据可以提高最终的分类性能,我们比较了不同组学数据类型的组合在不同数据集上的分类性能,共比较了7种组合。实验结果如图4所示,在不同的数据集上,分类性能随着组学数据类型的增强而逐渐增强。虽然有一些起伏,例如,ROSMAP数据集,整合mRNA表达,DNA甲基化组学数据的ACC和AUC值比整合mRNA表达miRNA表达组学数据低一些,这可能是因为miRNA表达数据的特性,与DNA甲基化数据相比,其包含更多利于阿尔茨海默病的分类的特性。

显然,本发明的上述验证仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

技术分类

06120116551491