掌桥专利:专业的专利平台
掌桥专利
首页

一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法

文献发布时间:2023-06-19 12:10:19


一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法

技术领域

本发明属于生物信息学领域,具体涉及一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法。

背景技术

lncRNA在许多生物的生命活动中起着非常广泛的调节作用,例如染色质修饰,细胞的分化和增值,RNA的进展和细胞凋亡等。lncRNA-蛋白质相互作用在转录后基因调控中起着重要的作用,例如剪接、翻译、信号转导和复杂疾病的进展。传统的研究过程包括靶点识别、生物大分子的发现、临床前研究、临床研究以及审批,而计算机模拟的方法则具有耗时短,成本低的优势。

发明内容

本发明的目的是提供一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法,能够有效地提高lncRNA-蛋白质相互作用预测的正确率。

为实现上述目的,本发明采用如下的技术方案:

一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法,包括以下步骤:

步骤1:对数据进行预处理;

步骤2:使用Smith-Waterman算法计算各lncRNA之间的相似性,生成lncRNA的相似性矩阵;

步骤3:使用高斯算法计算各lncRNA之间的高斯相似性,最终的相似性为SW相似性与高斯相似性加和取平均;

步骤4:使用Smith-Waterman算法以及高斯算法计算各蛋白质之间的相似性,最终的相似性为SW相似性与高斯相似性加和取平均,以得到蛋白质的相似性矩阵;

步骤5:根据得到的相似性矩阵和lncRNA-蛋白质相互作用矩阵,利用图卷积神经网络提取序列的相似性特征,得到预测结果。

所述步骤1具体为:

步骤1.1:对lncRNA-蛋白质相互作用数据、蛋白质序列信息和lncRNA序列信息进行预处理,去掉异常值和缺失值以及低相关数据,低相关数据即为没有与至少两个蛋白质有相互作用的lncRNA和没有与至少两个lncRNA有相互作用的蛋白质;

步骤1.2:将lncRNA和蛋白质进行排序并编号;

步骤1.3:根据相互作用数据生成lncRNA-蛋白质之间的相互作用矩阵。

所述步骤2具体为:

利用Smith-Waterman算法计算各lncRNA之间的相似性以及各蛋白质之间的相似性,计算方法如下:

其中:LS(l(i),l(j))为针对lncRNA构建的相似性矩阵;sw(l(i),l(j))表示两个lncRNA序列的SW相似性。

所述步骤3具体为:

步骤3.1:利用高斯相似度算法计算序列之间的高斯相似性,计算方法如下:

GS

其中:exp()为求以e为底的指数函数;向量AP(l(i))表示邻接矩阵的第i行;γ

步骤3.2:最终的相似性为两个相似性求和取平均,如果SW相似性为0,则直接用高斯相似性代替,得到相似性矩阵。

所述步骤S5具体为:

步骤5.1:利用序列间的相似性构建相似性图矩阵;

步骤5.2:根据得到的相似性图矩阵,采用图卷积网络对相似性特征建模来提取序列的相似性特征,最终得到预测结果。

所述图卷积模型具体为:

ReLU(x)=max(0,x) (6)

式中,Z为最后计算得到的评分矩阵,X表示lncRNA-蛋白质相互作用图矩阵,A为序列的相似性图矩阵,

本发明与现有技术相比具有以下有益效果:

1、本发明考虑到了序列之间不同的相似性,利用SW相似性与高斯相似性相结合的方式来计算相似性,使相似性更加准确;

2、利用图卷积模型对lncRNA和蛋白质序列的相似性特征建模,有效地提取了序列间的相似性特征,更好地利用序列的相似性提高了相互作用预测的正确性。

附图说明

图1是相似性网络图;

图2是系统的原理示意图;

图3是5折交叉验证下本发明实施例与其他方法性能比较的ROC曲线。

具体实施方式

下面结合附图及实例对本发明做进一步说明。

如图1所示,本专利提出了一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测模型,首先,根据lncRNA和蛋白质的序列信息,计算各自的相似性,然后建立模型预测lncRNA-蛋白质之间潜在的相互作用关系。最后采用相应指标对本模型的性能进行了评估。为了使模型能够更加直观地表示,本发明建立了相应的抽象模型,如图1所示。我们通过已知的lncRNA相似性矩阵、蛋白质相似性矩阵以及lncRNA-蛋白质相互作用矩阵来预测lncRNA-蛋白质之间潜在的相互作用关系。抽象模型中上半部分节点表示蛋白质,下半部分节点表示lncRNA,各蛋白质或lncRNA节点之间连线及数字代表各蛋白质或lncRNA之间的相似性,所有蛋白质节点及蛋白质之间的链接边构成蛋白质相似性网络,各lncRNA和lncRNA之间的链接边构成lncRNA相似性网络,两个网络中间部分的实线代表已知的lncRNA-蛋白质相互作用对,虚线则代表潜在的lncRNA-蛋白质相互作用,即为需要预测的相互作用。本发明的目的即为利用基于图卷积神经网络的lncRNA-蛋白质相互作用预测模型来对潜在的相互作用进行预测。

如图2所示,本发明的具体实施例流程为:

步骤1:首先从数据库NPInter中获取lncRNA-蛋白质的相互作用对共8110个,其中涉及3048个lncRNA和136个蛋白质,去掉异常值、缺失值以及没有与至少两个蛋白质有相互作用的lncRNA和没有与至少两个lncRNA有相互作用的蛋白质的低相关数据后,剩余1422个lncRNA和39个蛋白质;再分别通过查询数据库NONCODE、Uniprot获取lncRNA和蛋白质的序列信息,将lncRNA和蛋白质排序编号后,根据相互作用数据生成LncRNA-蛋白质的相互作用矩阵;

步骤2:使用Smith-Waterman(SW)算法计算各lncRNA之间的相似性,生成lncRNA的相似性矩阵,计算方法如下:

其中LS(l(i),l(j))为针对lncRNA构建的相似性矩阵;sw(l(i),l(j))表示两个lncRNA序列的相似性。

步骤3:使用高斯算法计算各lncRNA之间的高斯相似性,最终的相似性为SW相似性与高斯相似性加和取平均,计算方法如下:

GS

其中向量AP(l(i))表示邻接矩阵的第i行;γ

步骤4:同理使用Smith-Waterman算法和高斯算法计算各蛋白质之间的相似性,最终相似性为SW相似性与高斯相似性加和取平均,以得到蛋白质的相似性矩阵;

步骤5:根据得到的相似性矩阵和lncRNA-蛋白质相互作用矩阵,利用图卷积网络提取序列的相似性特征,得到预测结果,模型具体为:

ReLU(x)=max(0,x) (6)

式中,Z为最后计算得到的评分矩阵,X表示lncRNA-蛋白质相互作用图矩阵,A为序列的相似性图矩阵,

本发明的有效性验证:

通过实现5折交叉验证来对本发明进行性能评估。在5折交叉验证中,把所有lncRNA-蛋白质之间的联系随机分成5份,每次取其中一份作为测试集,剩余的4份作为训练集,用ROC曲线下面积(AUC)来定量评估本发明的性能。为防止随机性,验证结果均为100次五折交叉验证的平均值。本发明与其他方法进行了比较,结果如图3所示,本发明取得了最高的AUC值,AUC=0.9095。验证结果表明,本发明的性能均优于其他方法。

相关技术
  • 一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法
  • 一种基于图卷积神经网络的蛋白质自相互作用预测方法
技术分类

06120113193464