掌桥专利:专业的专利平台
掌桥专利
首页

一种基于网络表征学习的药物靶标相互作用预测方法

文献发布时间:2023-06-19 15:47:50



技术领域

本发明涉及生物学信息学和计算机融合技术领域,更具体地说,特别涉及一种基于网络表征学习的药物靶标相互作用预测方法。

背景技术

药物发现已成为药物研发体系必不可少的技术之一,尤其是针对罕见病治疗药物和神经保护药物的研发。而新药研发是一个高度复杂,周期漫长且费用昂贵的过程,相比于从头研发新药,从现有药物中发现潜在的药物将会极大程度地降低药物研发成本和周期。因此,药物重新定位方法近年来受到越来越多的制药公司,政府机构以及科研人员的关注。在生物大数据的推动下,新一代基于网络分析方法的药物预测筛选技术体系正在快速形成。

与传统的实验分析方法相比,系统地识别已知药物的分子靶点,对于药物的开发和了解其意想不到的副作用起着至关重要的作用。此外,多组学技术和系统生物学方法的最新进展产生了大规模的异构生物网络,为基于网络的药物新分子靶点的识别算法提供了很好的机会。

受深度学习技术浪潮的启发,在各种药物发现环境中也开发了具有更高预测能力的模型。这些方法充分利用了药物和靶点相关特征之间的潜在相关性,为DTIs的预测提供了不错的准确性。然而,现有的DTI预测方法大多局限于均匀网络或二部药物靶标网络,不能直接扩展到异构的生物网络。为此,有必要开发一种基于网络表征学习的药物靶标相互作用预测方法。

发明内容

本发明的目的在于提供一种基于网络表征学习的药物靶标相互作用预测方法,以克服现有技术所存在的缺陷。

为了达到上述目的,本发明采用的技术方案如下:

一种基于网络表征学习的药物靶标相互作用预测方法,包括以下步骤:

S1、参数初始化,所述参数包括设置节点度数的阈值、高阶相似性的阶数order、各阶相似度的权重weights和表征向量维度dim;

S2、基于多个药物数据库构建药物异质信息网络;

S3、在药物异质信息网络中根据各个单网络整合出一个稀疏邻接矩阵作为稀疏的异构网络;

S4、将稀疏的异构网络的邻接矩阵A作为输入,计算top-l个矩阵A的特征分解[Λ,X];

S5、通过高阶相似性的阶数order和各阶相似度的权重weights计算出重加权后的特征值Λ′;

S6、对重加权后的特征值Λ′按绝对值的降序进行排序,并选择前d个特征值Λ′;

S7、根据矩阵特征分解[Λ,X]计算出所述邻接矩阵A的前d个奇异值[U,Σ,V],其中U,

S8、根据奇异值[U,Σ,V]获取在低维向量空间中保持高阶近似性的嵌入向量;

S9、使用十折交叉验证,随机选择了已知相互作用药物-靶对的10%子集和等量随机抽样的非相互作用对的匹配数作为测试集,再选择剩余90%已知相互作用药物-靶对集合和等量随机抽样的非相互作用对的匹配数作为训练集;

S10、使用归纳矩阵补全法在训练集上找到从药物空间到蛋白质靶点空间的最佳投影,使得药物的映射特征向量在几何上接近已知的相互作用靶点;对测试集的药物特征向量计算投影,得到药物对各个蛋白质靶点的几何接近度,根据置信度分数从大到小进行排名,并取排名最前的k个靶点,作为潜在药物-靶点相互作用。

进一步地,所述步骤S2具体包括:

S21、通过药物数据库DrugBank、蛋白质数据库UniProt、存储人类蛋白质相互作用信息的数据库HPRD、药物副作用资源数据库SIDER、公共比较毒理基因组学数据库CTD和蛋白质相互作用数据库STRING获取药物交互作用drug-drug、药物蛋白质drug-protein、药物与疾病禁忌drug-disease、药物副作用drug-side effect和蛋白质病protein-disease多个单网络数据;

S22、对所有的数据库进行比对,去除冗余数据,构建包含药物、靶标、疾病和副作用四种类型的药物异质信息网络,并且删除度小于deg的节点;

S23、对网络中的所有节点进行编号x

进一步地,所述步骤S4具体包括:

S41、计算相似网络的特征值和特征向量,选择前l个特征值和对应的特征向量,其中,l是一个邻接矩阵A和维度d的函数,

S42、判断当前l是否可以使得正λ的个数等于d,如果当前正λ的个数小于d,则继续增大l直到满足条件。

进一步地,所述步骤S8具体包括:

S80、采用矩阵分解最小化目标函数

S81、根据Ercart-Young定理,将所述目标函数的全局最优解通过前d个奇异值[U,Σ,V]得到,并通过所述奇异值[U,Σ,V]得出嵌入向量

与现有技术相比,本发明的优点在于:本发明提供的一种基于网络表征学习的药物靶标相互作用预测方法,通过构建大规模的药物-靶点信息网络,构建药物异质信息网络,多样化的数据为药物研发提供了一个多层关联知识,进而提高了预测精度;其次,通过矩阵奇异值分解的方法,给定一定阶数以及各阶权重,可以得到保留该阶相似性的全局最优解,从而提高表征性能;其次,通过以特征值重加权的方法,可以重复利用矩阵的初始特征值,并可以在不同阶次的相似性之间以较低的边际成本进行切换,从而提高表征的效率和性能;最后,利用归纳矩阵补全和十折交叉验证,提高了模型预测性能,帮助预测新的药物-靶点相互作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明基于网络表征学习的药物靶标相互作用预测方法的流程图。

图2是本发明基于网络表征学习的药物靶标相互作用预测方法在十折交叉验证的情况下的实验性能。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。

参阅图1所示,本实施例公开了一种基于网络表征学习的药物靶标相互作用预测方法,包括以下步骤:

步骤S1、参数初始化,所述参数包括设置节点度数的阈值、高阶相似性的阶数order、各阶相似度的权重weights和表征向量维度dim。

步骤S2、基于多个药物数据库构建药物异质信息网络,该步骤具体包括:

步骤S21、通过药物数据库DrugBank、蛋白质数据库UniProt、存储人类蛋白质相互作用信息的数据库HPRD、药物副作用资源数据库SIDER、公共比较毒理基因组学数据库CTD和蛋白质相互作用数据库STRING获取药物交互作用drug-drug、药物蛋白质drug-protein、药物与疾病禁忌drug-disease、药物副作用drug-side effect和蛋白质病protein-disease多个单网络数据;

步骤S22、对所有的数据库进行比对,去除冗余数据,构建包含药物、靶标、疾病和副作用四种类型的药物异质信息网络,并且删除度小于deg的节点。

deg的节点是人为定义的超参数,节点的度的意思是节点和其他节点连接的边的数目,删掉度小于deg的节点即删掉没有连接到网络或者只有很少的边连接到网络的节点。

步骤S23、对网络中的所有节点进行编号x

步骤S3、在药物异质信息网络中根据各个单网络整合出一个稀疏邻接矩阵作为稀疏的异构网络;

这是由于drug-disease,drug-side effect,protein-disease等异构网络都是只有01元素的邻接矩阵。

步骤S4、将根据杰卡德相似系数(Jaccard)计算相应的相似网络的邻接矩阵A作为输入,计算top-l个矩阵A的特征分解[Λ,X]。

矩阵A的特征分解,计算出来有n个特征值,特征值会按照从大到小排列,取前L个,用于在后面求奇异值,控制最后的嵌入向量大小。

具体的,该步骤具体包括:

步骤S41、计算相似网络的特征值和特征向量,选择前l个特征值和对应的特征向量,其中,l是一个邻接矩阵A和维度d的函数,

步骤S42、判断当前l是否可以使得正λ的个数等于d,如果当前正λ的个数小于d,则继续增大l直到满足条件。

步骤S5、通过高阶相似性的阶数order和各阶相似度的权重weights计算出重加权后的特征值Λ′。

具体的:高阶相似性S

其中w1,w2,w3…是weights。

步骤S6、对重加权后的特征值Λ′按绝对值的降序进行排序,并选择前d个特征值Λ′。

步骤S7、根据矩阵特征分解[Λ,X]计算(根据特征值计算奇异值是线性代数书里有的内容,属于现有技术)出所述邻接矩阵A的前d个奇异值[U,Σ,V],其中U,

Order:[1,2,3,4]就是A,A2,A3,A4特征分解[Λ,X]

重加权计算方法:

对特征分解加上高阶相似性的函数F,得到重加权的特征分解[Λ’,X]=[F(Λ’),X]。

具体的,奇异值[U,Σ,V]作为邻接矩阵高阶相似的top-d奇异值分解的结果,奇异值[U,Σ,V]和特征分解[Λ,X]之间有着紧密关联,具体来说:对于任意的对称矩阵S,

该证明可以在线性代数中的常用技术,通过该证明可以很容易的通过特征分解求出奇异值[U,Σ,V]。

步骤S8、根据奇异值[U,Σ,V]获取在低维向量空间中保持高阶近似性的嵌入向量。

具体的,该步骤具体包括:

步骤S80、为了在低维向量空间中保持高阶近似性,采用矩阵分解最小化目标函数

步骤S81、根据Ercart-Young定理,将所述目标函数的全局最优解通过前d个奇异值[U,Σ,V]得到,并通过所述奇异值[U,Σ,V]得出嵌入向量

步骤S9、使用十折交叉验证,随机选择了已知相互作用药物-靶对的10%子集和等量随机抽样的非相互作用对的匹配数作为测试集,再选择剩余90%已知相互作用药物-靶对集合和等量随机抽样的非相互作用对的匹配数作为训练集;

步骤S10、使用归纳矩阵补全法在训练集上找到从药物空间到蛋白质靶点空间的最佳投影,使得药物的映射特征向量在几何上接近已知的相互作用靶点;对测试集的药物特征向量计算投影,得到药物对各个蛋白质靶点的几何接近度,根据置信度分数从大到小进行排名,并取排名最前的k个靶点,作为潜在药物-靶点相互作用。

虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。

技术分类

06120114581781