掌桥专利:专业的专利平台
掌桥专利
首页

基于图正则化矩阵分解的药物疾病关联关系的预测方法

文献发布时间:2023-06-19 19:30:30


基于图正则化矩阵分解的药物疾病关联关系的预测方法

技术领域

本发明涉及药物疾病关联性预测技术领域,具体涉及一种基于图正则化矩阵分解的药物疾病关联关系的预测方法。

背景技术

随着计算机辅助药物设计、网络药理学、生物信息学、人工智能等技术的发展,将计算机技术应用于药物疾病关联关系预测研究中,在已知药物中预筛出针对某些疾病具有一定活性的药物分子,能够有效提升药物研发的成功率,降低药物研发的成本,提升药物研发的速度。

基于药物-疾病关联关系网络批量获取已知药物与疾病之间的关系,充分利用药物-疾病关联关系网络融合其他信息,能够有效促进药物疾病关联关系预测的准确率。此外,各种药物和疾病知识数据库的出现,也进一步促进了新算法的快速发展。

基于网络的推理方法作为目前应用最为广泛的方法。HeTDR采用了一种基于异构网络和文本挖掘的药物疾病关联关系预测方法,利用药物相关网络提取药物特征以及利用生物医学语料库提取疾病特征,并与已知的药物-疾病关联网络相结合,预测药物与疾病之间的相关性。MNBDR设计了基于模块网络的药物筛选方法,利用现有药物样本和疾病样本的基因表达数据集,使用随机游走算法捕捉疾病发展中的基本模块,筛选给定疾病的潜在药物。DRHN构建了一种面向异构网络的计算方法,利用相似性计算和实验验证的药物-疾病关联关系建立药物-疾病二分网络,迭代更新网络中未连接的药物疾病节点权重直到稳定,确定每对药物-疾病的最终亲和力。

随着深度学习的发展,将深度学习应用于药物疾病关联网络图中已成为目前研究的重点。Xuan等人提出了一个基于卷积神经网络和双向长短期记忆网络的深度学习框架来获取药物疾病对的原始特征和路径特征,实现了药物重定位。Metapath2vec基于元路径和随机游走学习异构网络中的嵌入节点表示,并利用异构跳跃图策略实现药物疾病关联预测。由于药物疾病关联网络图为图结构,因此相关学者针对图卷积进行了深入研究。GFPred整合了药物疾病之间的关系、疾病相似性以及药物相似性,提出了一种基于图卷积自动编码器全连接预测方法,融合注意力机制预测与药物相关的疾病。Yu等人提出了一种层注意图卷积网络,针对不同网络使用注意力机制将来自多个图卷积层的特征编码进行组合后,观察药物疾病关联并进行评分。BiFusion利用双向图卷积网络模型对异构信息进行融合,通过蛋白质互作用网络对药物疾病预测结果进行改进,提供了准确的药物重定位算法。

但是,现有的基于网络推理的药物疾病关联关系预测方法所采用的网络结构过于复杂,且并未考虑多种元素融合进行预测分析,无法精确提取药物与疾病之间的关联关系,存在因多种信息导致的异构性以及计算复杂性的问题。因此,亟需提出一种基于图正则化矩阵分解的药物疾病关联关系的预测方法,实现对药物疾病关联关系的精确预测。

发明内容

本发明针对现阶段基于网络推理的药物疾病关联关系预测方法难以精确预测药物疾病关联关系的问题,提出了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法,基于有向无环图获取疾病关联关系,结合药物分子相似性网络构建药物分子与疾病之间的关联矩阵,并基于图正则化与核方法的矩阵分解算法预测药物疾病之间的关联,实现了对药物与疾病之间关联关系的准确预测。

本发明采用以下的技术方案:

基于图正则化矩阵分解的药物疾病关联关系的预测方法,其特征在于,包括以下步骤:

步骤1,根据疾病的分类信息,分别针对各疾病构建有向无环图,基于各疾病的有向无环图提取各疾病之间的语义相似性,再结合现有数据库获取各疾病与药物之间的关联关系,利用图卷积方法在各疾病的有向无环图中提取疾病特征,构建疾病特征矩阵,计算各疾病之间的余弦相似性,通过将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系;

步骤2,提取现有数据库中各药物分子的药物特征,得到药物特征矩阵,通过计算各药物特征之间的余弦相似性,得到药物分子相似性网络;

步骤3,根据疾病特征矩阵和药物特征矩阵,建立药物分子与疾病之间的关联矩阵;

步骤4,基于图正则化与核方法的矩阵分解算法,对药物分子与疾病之间的关联矩阵进行特征分解,结合现有数据库的药物疾病关系图网络,构建目标函数,优化药物相似性网络和疾病相似性网络中节点的近邻关系,预测药物分子与疾病之间的关联。

优选地,所述步骤1中,具体包括以下步骤:

步骤1.1,根据疾病的分类信息,分别针对各疾病构建有向无环图,获取各疾病有向无环图中所有节点的语义值;

所述有向无环图内设置有多个节点,将疾病d本身作为子节点、将于疾病d相关的疾病作为父辈节点,分别针对各疾病构建有向无环图,有向无环图表示为:

DAG(d)=(N(d),E(d)) (1)

式中,d为疾病名称,DAG(·)为疾病的有向无环图,N(·)为有向无环图中与疾病有关的父辈节点,E(·)为有向无环图中父辈节点与子节点之间的连接关系;

分别计算各疾病有向无环图中所有节点的语义值,如公式(2)所示:

式中,n为节点编号,n'为节点n的子节点,C

分别根据各疾病有向无环图中所有节点的语义值,确定各疾病的语义值,如公式(3)所示:

DV(d)=∑

式中,DV(·)为疾病的语义值;

步骤1.2,根据各疾病的语义值,计算疾病之间的语义相似性,如公式(4)所示:

式中,

步骤1.3,基于现有数据库获取治疗各疾病所采用的药物,分别针对各疾病确定疾病与药物之间的关联关系,提取疾病与药物之间的关联关系并作为描述符,(所述描述符为二进制向量,描述符的长度为数据库中药物的数量)若疾病与药物相关联,则将描述符的取值设置为1,若疾病与药物之间不存在关联,则将描述符的取值设置为0;

分别针对各疾病,利用图卷积方法在各有向无环图中提取疾病特征,构建疾病特征矩阵,确定各疾病特征的特征值,如公式(5)所示:

式中,X

步骤1.4,根据各疾病特征,计算疾病之间的余弦相似性,如公式(6)所示:

式中,

步骤1.5,将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系,如公式(7)所示:

式中,

优选地,所述步骤1.3中,所述描述符为二进制向量,描述符的长度为数据库中药物的数量。

优选地,所述步骤2中,根据现有数据库中所有药物的分子结构,确定数据库中所包含的药物分子,利用摩根指纹提取现有数据库中所有药物分子的药物特征,建立药物特征矩阵,并计算药物特征矩阵中各药物特征之间的余弦相似性,得到药物分子相似性网络。

优选地,所述步骤3中,药物分子与疾病之间的关联矩阵为:

式中,Y为药物分子与疾病之间的关联矩阵,D为疾病特征矩阵,G为药物分子特征矩阵。

优选地,所述步骤4中,利用核方法对药物分子与疾病之间的关联矩阵进行特征分解,得到药物相似性矩阵A和疾病相似性矩阵B,药物相似性矩阵A和疾病相似性矩阵B之间的关联函数为:

f(I,J)=∑

式中,f为药物相似性矩阵A和疾病相似性矩阵B之间的关联函数,I为关联矩阵Y内向量的行序号,用于表示关联矩阵内的药物分子名称,J为关联矩阵Y内向量的列序号,用于表示关联矩阵内的疾病名称;a

基于Kronecker最小二乘法,利用药物向量核函数和疾病向量核函数的Kronecker积加速计算过程,分别对药物向量核函数和疾病向量核函数进行特征分解,获取药物分子与疾病之间的关联函数为:

其中,

式中,Q

根据现有数据库药物疾病关系图网络中药物分子与疾病之间的关联,合并特征分解得到的药物相似性矩阵和疾病相似性矩阵构建目标函数,如公式(12)所示:

式中,y

根据药物相似性矩阵和疾病相似性矩阵,构建药物相似性网络和疾病相似性网络,基于图正则化处理药物相似性网络和疾病相似性网络,分别保留药物相似性网络和疾病相似性网络中各节点相邻节点的几何结构信息,计算得到药物相似性权重和疾病相似性权重,如公式(13)所示:

式中,W

根据药物相似性权重和疾病相似性权重,计算得到药物近邻相似性矩阵以及疾病近邻相似性矩阵,如公式(14)所示:

式中,S

由于药物近邻相似性矩阵与药物相似性矩阵、疾病近邻相似性矩阵与疾病相似性矩阵的几何结构一致,基于药物近邻相似性矩阵和疾病近邻相似性矩阵,利用构建目标函数预测药物分子与疾病之间的关联。

本发明具有如下有益效果:

本发明方法提出了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法,根据疾病的有向无环图获取各疾病之间的语义相似性,将疾病的语义相似性与余弦相似性相融合,基于疾病特征与相似性计算方法获取各疾病之间的关联关系,充分考虑了各疾病的特征。

同时,本发明方法还基于图正则化矩阵对药物与疾病之间的关联关系进行分解,结合基于核方法的矩阵分解方法,充分挖掘疾病和药物对药物疾病关联矩阵矩阵分解的影响,将药物相似性网络和疾病相似性网络中节点的近邻关系作为优化目标,分解过程中保留网络中节点原有的几何结构信息,配合Kronecker最小二乘法加快计算速率,实现了对药物与疾病之间关联关系的精准预测。

附图说明

图1为基于图正则化矩阵分解的药物疾病关联关系预测方法的示意图。

图2为基于有向无环图的疾病关联关系图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明:

本发明提出了一种基于图正则化矩阵分解的药物疾病关联关系的预测方法,如图1所示,包括以下步骤:

步骤1,根据疾病的分类信息,分别针对各疾病构建有向无环图(DAG),基于各疾病的有向无环图提取各疾病之间的语义相似性,再结合现有数据库获取各疾病与药物之间的关联关系,利用图卷积方法在各疾病的有向无环图中提取疾病特征,构建疾病特征矩阵,计算各疾病之间的余弦相似性,通过将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系,如图2所示,具体包括以下步骤:

步骤1.1,根据疾病的分类信息,分别针对各疾病构建有向无环图,获取各疾病有向无环图中所有节点的语义值。

所述有向无环图内设置有多个节点,将疾病d本身作为子节点、将于疾病d相关的疾病作为父辈节点,用于连接节点的单向边对应各疾病之间的关联关系,分别针对各疾病构建有向无环图,有向无环图表示为:

DAG(d)=(N(d),E(d)) (1)

式中,d为疾病名称,DAG(·)为疾病的有向无环图,N(·)为有向无环图中与疾病有关的父辈节点,E(·)为有向无环图中父辈节点与子节点之间的连接关系。

分别计算各疾病有向无环图中所有节点的语义值,如公式(2)所示:

式中,n为节点编号,n'为节点n的子节点,C

分别根据各疾病有向无环图中所有节点的语义值,确定各疾病的语义值,如公式(3)所示:

DV(d)=∑

式中,DV(·)为疾病的语义值。

步骤1.2,当两种疾病拥有大量的祖先节点时,证明这两种疾病之间具有较高的语义相似性,所以根据各疾病的语义值,计算疾病之间的语义相似性,如公式(4)所示:

式中,

步骤1.3,由于仅仅依靠疾病之间的语义相似性无法深度挖掘各疾病之间的关联关系,所以本申请技术方案引入了疾病与药物之间的关系,本实施例中基于ComparativeToxicogenics数据库获取治疗各疾病所采用的药物,该数据库中包含已知的708个药物与5603个疾病之间的关联关系,且每个药物都至少能关联一个以上的疾病,分别针对各疾病确定疾病与药物之间的关联关系,提取疾病与药物之间的关联关系并作为描述符,描述符为二进制向量,描述符的长度为数据库中药物的数量;若疾病与药物相关联,则将描述符的取值设置为1,若疾病与药物之间不存在关联,则将描述符的取值设置为0。

分别针对各疾病,利用图卷积方法在各有向无环图中提取疾病特征,构建疾病特征矩阵,确定各疾病特征的特征值,如公式(5)所示:

式中,X

步骤1.4,根据各疾病特征,计算疾病之间的余弦相似性,如公式(6)所示:

式中,

步骤1.5,将各疾病之间的语义相似性和余弦相似性相融合,得到基于有向无环图的疾病关联关系,如公式(7)所示:

式中,

步骤2,根据Comparative Toxicogenics数据库中各药物的分子结构,确定Comparative Toxicogenics数据库中所包含的药物分子,利用摩根指纹提取现有数据库中所有药物分子的药物特征,建立药物特征矩阵,并计算药物特征矩阵中各药物特征之间的余弦相似性,得到药物分子相似性网络。本实施例中基于现有数据库利用摩根指纹提取药物分子的特征构建药物分子相似性网络为本领域的现有技术。

步骤3,根据疾病特征矩阵和药物特征矩阵,建立药物分子与疾病之间的关联矩阵,如公式(8)所示:

式中,Y为药物分子与疾病之间的关联矩阵,D为疾病特征矩阵,G为药物分子特征矩阵。

步骤4,基于图正则化与核方法的矩阵分解算法对药物分子与疾病之间的关联矩阵进行特征分解,预测药物与疾病之间的关联关系,对于标准的非负矩阵分解目的是要找到两个低秩的分解矩阵,他们之间的乘积应该尽可能的接近原始矩阵,在药物与疾病之间关联关系的预测中这两个矩阵分别为药物相似性矩阵与疾病相似性矩阵。

为了避免过拟合提高预测结果的准确性,将核方法引入药物分子与疾病之间的关联矩阵的分解过程中,利用核方法对药物分子与疾病之间的关联矩阵进行特征分解,得到药物相似性矩阵A和疾病相似性矩阵B,药物相似性矩阵A和疾病相似性矩阵B之间的关联函数为:

f(I,J)=∑

式中,f为药物相似性矩阵A和疾病相似性矩阵B之间的关联函数,I为关联矩阵Y内向量的行序号,用于表示关联矩阵内的药物分子名称,J为关联矩阵Y内向量的列序号,用于表示关联矩阵内的疾病名称;a

基于Kronecker最小二乘法,利用药物向量核函数和疾病向量核函数的Kronecker积加速计算过程,将药物向量核函数κ

其中,

式中,Q

根据现有数据库药物疾病关系图网络中药物分子与疾病之间的关联,合并特征分解得到的药物相似性矩阵和疾病相似性矩阵构建目标函数,如公式(12)所示:

式中,y

目标函数中

根据药物相似性矩阵和疾病相似性矩阵,构建药物相似性网络和疾病相似性网络,基于图正则化处理药物相似性网络和疾病相似性网络,分别保留药物相似性网络和疾病相似性网络中各节点相邻节点的几何结构信息,计算得到药物相似性权重和疾病相似性权重,如公式(13)所示:

式中,W

根据药物相似性权重和疾病相似性权重,计算得到药物近邻相似性矩阵以及疾病近邻相似性矩阵,如公式(14)所示:

式中,S

由于药物近邻相似性矩阵与药物相似性矩阵、疾病近邻相似性矩阵与疾病相似性矩阵的几何结构一致,基于药物近邻相似性矩阵和疾病近邻相似性矩阵,利用构建目标函数预测药物分子与疾病之间的关联。

当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

技术分类

06120115930513