掌桥专利:专业的专利平台
掌桥专利
首页

基于多通道图卷积网络的药物靶标相互作用预测方法

文献发布时间:2023-06-19 11:06:50


基于多通道图卷积网络的药物靶标相互作用预测方法

技术领域

本发明属于药物与靶标关系预测技术领域,具体涉及一种基于多通道图卷积网络的药物靶标相互作用预测方法。

背景技术

药物靶点是能够与药物结合并在细胞内发挥特殊作用的分子,蛋白质是药物的主要分子靶点。

我们需要对数千种化合物进行测试和实验,以找到安全有效的药物。因此,药物发现是一个费时费力的过程,有失败的风险。但通过计算药物与靶点相互作用的概率,可以减少药物发现过程中昂贵的损失。

为了实现这一目标,越来越多的研究者正在探索其他方法来预测药物与靶点之间的关系。药物靶向关系预测不仅可以减少药物发现过程中的损失,而且对药物迁移、多药药理学、耐药性预测、副作用预测等都具有指导作用。

传统的预测已知药物新靶点的方法是基于小分子、蛋白质靶点或表型特征。现有的药物-蛋白质关系预测方法有基于机器学习的方法、基于二部局部模型的方法、基于结构的方法、基于深度学习的方法等。

对于结构未知的蛋白质,使用基于结构的预测方法得到的回报往往很小,而许多蛋白质的回报却很小。

近年来,充分利用药物和靶点的特点,利用基于深度学习和机器学习的方法对药物和靶点的性能进行预测。虽然越来越多的研究表明深度学习可以用来预测药物靶向关系,但是现有的预测方法需要依赖于手工进行特征的提取,这种特征提取的方式必然会受到人为主观因素的影响,导致对特征的提取不准确,进而影响药物靶标相互作用预测的准确性。

发明内容

本发明的目的是为解决现有方法依赖于手工所提取的特征不准确,导致的对药物靶标相互作用预测的准确性差的问题,而提出了一种基于多通道图卷积网络的药物靶标相互作用预测方法。

本发明为解决上述技术问题所采取的技术方案是:一种基于多通道图卷积网络的药物靶标相互作用预测方法,所述方法具体包括以下步骤:

步骤一、从数据库中提取出药物信息、蛋白质信息、疾病信息以及药物副作用信息,并根据提取出的信息构建异构网络;

再采用Jaccard相似度方法和随机重启游走方法对构建的异构网络进行处理,得到药物扩散状态矩阵和蛋白质扩散状态矩阵;

步骤二、分别对药物扩散状态矩阵和蛋白质扩散状态矩阵进行降噪降维,得到药物特征矩阵和蛋白质特征矩阵;

步骤三、将步骤二得到的药物特征矩阵和蛋白质特征矩阵拼接,在拼接得到的各个药物蛋白对中,已知存在关系的药物和蛋白质形成的药物蛋白对是正确的,其余的药物蛋白对是不正确的;

步骤四、在正确的药物蛋白对中随机选取出一部分药物蛋白对,作为训练集正例,在剩余的正确药物蛋白对中再随机选取出一部分,作为测试集正例;

在不正确的药物蛋白对中随机选取出与训练集正例数量相等的药物蛋白对,作为训练集负例,在剩余的不正确药物蛋白对中再随机选取出与测试集正例数量相等的药物蛋白对,作为测试集负例;

若两个药物蛋白对之间共用药物或共用蛋白质,则认为两个药物蛋白对之间有关联,否则两个药物蛋白对之间没有关联,根据训练集正例和训练集负例来构建第一药物蛋白对网络,根据测试集正例和测试集负例来构建第二药物蛋白对网络;

步骤五、采用第一药物蛋白对网络对多通道图卷积网络进行训练,其具体过程为:

分别采用图卷积网络对第一药物蛋白对网络中药物蛋白对之间的拓扑关系和药物蛋白对特征之间的邻近关系进行特征提取,得到拓扑关系嵌入Z

对Z

使用注意力机制对Z

将特征Z输入多层感知机进行二分类,多层感知机输出对药物和蛋白质关系的预测结果;

利用第二药物蛋白对网络对多通道图卷积网络进行测试,直至多层感知机输出的对第二药物蛋白对网络中药物和蛋白质关系的预测结果满足精度要求时,则停止训练,获得训练好的多通道图卷积网络;

步骤六、对于关系待预测的药物蛋白对,重复执行步骤一至步骤三的过程后,从步骤三得到的药物蛋白对中随机选取出一部分,利用关系待预测的药物蛋白对和随机选取出的药物蛋白对构建第三药物蛋白对网络;

构建的第三药物蛋白对网络经过训练好的多通道图卷积网络和注意力机制的处理后,再将处理结果输入多层感知机,获得对待预测的药物蛋白对的关系预测结果。

本发明的有益效果是:本发明提出了一种基于多通道图卷积网络的药物靶标相互作用预测方法,本发明首先获得药物特征矩阵和蛋白质特征矩阵,再根据获得的药物特征矩阵和蛋白质特征矩阵构建药物蛋白对网络,并采用多通道图卷积网络对药物蛋白对网络中药物蛋白对之间的拓扑关系和药物蛋白对特征之间的邻近关系进行特征提取,得到拓扑关系嵌入和特征邻近关系嵌入,通过对拓扑关系嵌入和特征邻近关系嵌入进行处理得到共同嵌入,最后使用注意力机制将拓扑关系嵌入、特征邻近关系嵌入以及共同嵌入融合,将融合结果输入多层感知机,进而对药物靶标关系进行预测。

本发明方法克服了现有方法需要依赖手工提取特征的问题,使提取到的特征准确,通过实验证明,采用本发明方法获得的Roc面积为0.9616,获得的PR面积为0.9612,明显高于现有方法,提高了对药物靶标相互作用预测的准确性。

附图说明

图1为本发明的基于多通道图卷积网络的药物靶标相互作用预测方法的整体流程图;

图中,G

具体实施方式

具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于多通道图卷积网络的药物靶标相互作用预测方法,所述方法具体包括以下步骤:

步骤一、从数据库中提取出药物信息、蛋白质信息、疾病信息以及药物副作用信息,并根据提取出的信息构建异构网络;

再采用Jaccard相似度方法和随机重启游走方法对构建的异构网络进行处理,得到药物扩散状态矩阵和蛋白质扩散状态矩阵;

步骤二、分别对药物扩散状态矩阵和蛋白质扩散状态矩阵进行降噪降维,得到药物特征矩阵和蛋白质特征矩阵;

步骤三、将步骤二得到的药物特征矩阵和蛋白质特征矩阵拼接,在拼接得到的各个药物蛋白对中,已知存在关系的药物和蛋白质形成的药物蛋白对是正确的,其余的药物蛋白对是不正确的;

步骤四、在正确的药物蛋白对中随机选取出一部分药物蛋白对,作为训练集正例,在剩余的正确药物蛋白对中再随机选取出一部分,作为测试集正例;

在不正确的药物蛋白对中随机选取出与训练集正例数量相等的药物蛋白对,作为训练集负例,在剩余的不正确药物蛋白对中再随机选取出与测试集正例数量相等的药物蛋白对,作为测试集负例;

若两个药物蛋白对之间共用药物或共用蛋白质,则认为两个药物蛋白对之间有关联,否则两个药物蛋白对之间没有关联,根据训练集正例和训练集负例来构建第一药物蛋白对网络,根据测试集正例和测试集负例来构建第二药物蛋白对网络;

步骤五、采用第一药物蛋白对网络对多通道图卷积网络进行训练,其具体过程为:

分别采用图卷积网络对第一药物蛋白对网络中药物蛋白对之间的拓扑关系和药物蛋白对特征之间的邻近关系进行特征提取,得到拓扑关系嵌入Z

对Z

使用注意力机制对Z

将特征Z输入多层感知机进行二分类,多层感知机输出对药物和蛋白质关系的预测结果;

利用第二药物蛋白对网络对多通道图卷积网络进行测试,直至多层感知机输出的对第二药物蛋白对网络中药物和蛋白质关系的预测结果满足精度要求时,则停止训练,获得训练好的多通道图卷积网络;

步骤六、对于关系待预测的药物蛋白对,重复执行步骤一至步骤三的过程后,从步骤三得到的药物蛋白对中随机选取出一部分,利用关系待预测的药物蛋白对和随机选取出的药物蛋白对构建第三药物蛋白对网络;

构建的第三药物蛋白对网络经过训练好的多通道图卷积网络和注意力机制的处理后,再将处理结果输入多层感知机,获得对待预测的药物蛋白对的关系预测结果(即预测出药物与蛋白质是否存在关系)。

本实施方式的多通道图卷积网络包括三个图卷积网络,用于药物蛋白对之间的拓扑关系特征提取的图卷积网络,用于药物蛋白对特征之间的邻近关系特征提取的图卷积网络,以及用于对Z

药物蛋白对特征之间的邻近关系

通过构造k近邻图实现特征空间的信息提取。此处利用余弦相似距离来度量特征之间相似距离。对于药物蛋白对(DPP)的特征矩阵X,如果x

我们选择与目标节点(目标DPP)距离最近的两个节点来构造邻近图,得到邻近图G

具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中,从数据库中提取出药物信息、蛋白质信息、疾病信息以及药物副作用信息,并根据提取出的信息构建异构网络;其具体过程为:

从DrugBank数据库中提取药物信息,所述药物信息包括药物间相互作用信息和已知的药物靶点相互作用信息;

从HPRD数据库中提取蛋白质信息,所述蛋白质信息为蛋白质间相互作用信息;

从毒理基因组学数据库中提取疾病信息,所述疾病信息包括疾病与药物间关系信息以及疾病与蛋白质间关系信息;

从SIDER数据库中提取药物副作用信息,所述药物副作用信息为药物与副作用间关系信息;

从提取出的信息中得到M种药物、N种蛋白质、O种副作用和W种疾病,并根据从各数据库中提取出的信息构建异构网络;

所述异构网络包括药物和药物关系网络、药物和疾病关系网络、药物和药物副作用关系网络、药物和蛋白质关系网络、蛋白质和蛋白质关系网络、蛋白质和疾病关系网络、药物化学性质相似性网络以及蛋白质基因序列相似性网络。

药物和蛋白质关系网络用于步骤三中判断形成的药物蛋白对是否是正确的。

具体实施方式三:本实施方式与具体实施方式二不同的是,所述步骤一中,采用Jaccard相似度方法和随机重启游走方法对构建的异构网络进行处理,得到药物扩散状态矩阵和蛋白质扩散状态矩阵;其具体过程为:

对于药物和药物副作用关系网络,将药物和药物副作用关系网络表示为矩阵C的形式:

其中,c

采用Jaccard相似度方法计算矩阵C的第i行和第j行的相似度,i=1,2,…,M,j=1,2,…,M,将计算出的第i行和第j行的相似度作为相似度矩阵H中的第i行第j列的元素,遍历完成矩阵C中的每两行后,得到相似度矩阵H;

再采用随机重启游走方法对相似度矩阵H进行处理,得到药物和药物副作用关系网络对应的扩散状态矩阵;

同理,获得药物和药物关系网络对应的扩散状态矩阵、药物和疾病关系网络对应的扩散状态矩阵、蛋白质和蛋白质关系网络对应的扩散状态矩阵、蛋白质和疾病关系网络对应的扩散状态矩阵、药物化学性质相似性网络对应的扩散状态矩阵以及蛋白质基因序列相似性网络对应的扩散状态矩阵;

相对应的,若两种药物化学性质相似,则矩阵C中对应位置的值为1,否则为0;

将药物和药物副作用关系网络对应的扩散状态矩阵、药物和药物关系网络对应的扩散状态矩阵、药物和疾病关系网络对应的扩散状态矩阵和药物化学性质相似性网络对应的扩散状态矩阵拼接为一个特征矩阵D,将特征矩阵D作为药物扩散状态矩阵;

将蛋白质和蛋白质关系网络对应的扩散状态矩阵、蛋白质和疾病关系网络对应的扩散状态矩阵以及蛋白质基因序列相似性网络对应的扩散状态矩阵拼接为一个特征矩阵P,将特征矩阵P作为蛋白质扩散状态矩阵。

具体实施方式四:本实施方式与具体实施方式三不同的是,所述矩阵C的第i行和第j行的相似度的计算方法为:

其中,J(A,B)为矩阵C的第i行和第j行的相似度,A为矩阵C的第i行,B为矩阵C的第j行。

具体实施方式五:本实施方式与具体实施方式四不同的是,所述步骤二中,对药物扩散状态矩阵和蛋白质扩散状态矩阵进行降噪降维采用的是去噪自动编码(DAE)方法。

具体实施方式六:本实施方式与具体实施方式五不同的是,所述药物和蛋白质关系网络表示为矩阵的形式后,矩阵中的元素1代表药物和蛋白质已知存在关系。

具体实施方式七:本实施方式与具体实施方式六不同的是,所述对Z

使用一个权值共享的图卷积网络对Z

Z

具体实施方式八:本实施方式与具体实施方式七不同的是,所述使用注意力机制对Z

Z=α

其中α

实施例

下面结合实例对本发明方法进行进一步论述

第一步,数据准备,获取药物和靶标的特征嵌入:

药物信息从DrugBank数据库中提取,包括药物间的相互作用和已知的药物靶点相互作用。蛋白质之间的相互作用来自HPRD数据库。我们从毒理基因组学数据库中获得疾病信息,包括疾病与药物、疾病与蛋白质的关系。我们还从SIDER数据库获得了一些关于药物副作用的信息。并从得到了708种药物、1512种蛋白质、副作用4912、疾病5603,和八种关系的异构网络。

分别是药物和药物关系、药物和疾病关系、药物和药物副作用关系、药物和蛋白质关系、蛋白质和蛋白质关系、蛋白质和疾病关系、药物化学性质相似性、蛋白质基因序列相似性;

首先使用Jaccard相似系数比较有限样本集之间的相似性和差异性。例如,计算药物和副作用网络的相似度矩阵H,A和B分别表示矩阵的第i行和第j行,J(A,B)表示第i行和第j行的相似度,相似度矩阵H为对称矩阵,若H为药物相关网络的相似度,则H=(J

然后将得到的相似性矩阵采用随机重启游走算法,得到扩散状态的矩阵,并把同种药物的相关矩阵拼接为一个特征矩阵D,且D=(d

最后将扩散矩阵使用DAE自动去噪编码方法降噪降维,使得药物特征矩阵为100维,蛋白质特征矩阵为400维,即D

第二步,构建药物蛋白对网络:

将第一步得到的药物与蛋白质的特征矩阵拼接,其中已知存在关系药物和蛋白质拼接起来的药物蛋白对被认为是正确的药物蛋白对,其余拼接的药物蛋白对被认为是非正确的。药物蛋白对的特征是其对应药物特征和蛋白质特征的融合共,得到1332对正确的药物蛋白对,因此,随机选择了1332对非正确的药物蛋白对做负例;

如果拼接成的药物和蛋白质对之间共用药物或共用蛋白质,则认为他们之间有关联,以此关系构建药物蛋白对网络。

第三步,使用多通道图卷积网络的药物靶标相互作用预测:

考虑到药物蛋白对之间的拓扑关系和药物蛋白对特征之间的邻近关系,分别使用图卷积对拓扑关系网络和特征邻近关系网络进行特征提取,得到拓扑网络嵌入Z

所述的各通道的图卷积网络均有两个隐藏层,且第L层可以用如下表示:

其中

同时也考虑到拓扑网络和特征邻近网络之间存在一定关系,所以将拓扑网络和特征邻近网络拼接后,因为我们想得到它们的共性,所以我们在卷积模块中使用了共享参数策略。使用图卷积网络对其进行处理得到嵌入Z

其中

之后使用注意力机制对三个嵌入处理得到特征Z,使得更重要的嵌入拥有更大的权重;公式如下:

Z=α

其中α

最后将特征Z输入到多层感知机,进行二分类,以预测药物和蛋白质之间是否有关系。

实验性能通过使用AUROC(Roc曲线下面积)和AUPR(PR曲线下面积)评分来评估,实验性能数据如表1所示:

表1

通过实验对比发现,本发明方法的性能明显优于现有的NRLMF、DTINet、DTI-CNN方法。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

相关技术
  • 基于多通道图卷积网络的药物靶标相互作用预测方法
  • 基于有监督的协同图对比学习的药物-靶标相互作用预测方法
技术分类

06120112807945