掌桥专利:专业的专利平台
掌桥专利
首页

一种抗衰老药物的预测方法、设备及存储介质

文献发布时间:2023-06-19 19:28:50


一种抗衰老药物的预测方法、设备及存储介质

技术领域

本发明涉及抗衰老领域,尤其涉及一种抗衰老药物的预测方法、设备及存储介质。

背景技术

衰老一直是医学界乃至全人类关注的热门话题。近年来,随着老龄人口的日益增加、老龄化趋势不断加剧,与衰老相关的慢性疾病,诸如糖尿病、心脏病、阿尔莫斯海默症等疾病的发病率也不断攀升,不仅严重威胁着老年人的生命健康,也为世界各国带来了沉重的社会、医疗和经济负担。寻找有效的抗衰老药物并通过药物干预的手段延缓衰老配成为当前抗衰老领域中的研究热点。

药物研发是一项“周期长、风险高、投资大”的产业,研发期间的成本可高达几十亿元。随着医药研发的飞速发展,“传统的实验手段进行药物活性预测”已难以满足药物研发日益增长的需求。

借助人工智能算法辅助药物研发,已成为解决药物研发中药物活性预测的重要手段,其中以深度学习为代表的人工智能算法通过借鉴人脑的多分层结构、神经元信息交互结构、系统的整合性能以及高精准的预测性能,辅助解决药物研发中药物活性预测耗时较长、准确率低、效率低的问题。

然而,已有研究只基于药物的单一维度的信息进行药物活性预测,没有充分考虑药物作用于机体潜在影响因素的交互性与叠加性,从而最终影响药物活性的预测。

发明内容

本发明提供了一种抗衰老药物的预测方法、设备及存储介质,旨在提高抗衰老药物的智能预测的准确性。

本发明提供了一种抗衰老药物的预测方法,所述方法包括:获取衰老药效成分的靶标网络、分子描述符、ADMET参数、衰老活性;将所述衰老药效成分的靶标网络、分子描述符和ADMET参数进行关联融合处理,得到所述衰老药效成分的多源关联融合数据;利用所述衰老药效成分的多源关联融合数据和衰老活性,训练抗衰老药物预测模型,得到经训练的抗衰老药物预测模型,以便利用所述经训练的抗衰老药物预测模型,预测目标药物的衰老活性。

优选地,所述将所述衰老药效成分的靶标网络、分子描述符和ADMET参数进行关联融合处理,得到所述衰老药效成分的多源关联融合数据包括:将所述衰老药效成分的靶标网络转换为第一二维特征矩阵数据;将所述衰老药效成分的分子描述符转换为第二二维特征矩阵数据;将所述衰老药效成分的ADMET参数转换为第三二维特征矩阵数据;利用池化层和全连接层,对所述第一二维特征矩阵数据、所述第二二维特征矩阵数据和所述第三二维特征矩阵数据进行关联融合,得到所述衰老药效成分的多源关联融合数据。

优选地,所述将所述衰老药效成分的靶标网络转换为第一二维特征矩阵数据包括:对所述衰老药效成分的靶标网络进行基于图卷积网络的编码重塑,得到所述衰老药效成分的第一二维特征矩阵数据。

优选地,所述将所述衰老药效成分的分子描述符转换为第二二维特征矩阵数据包括:从所述衰老药效成分的分子描述符中提取每个特征名及对应的数据;对每个特征名对应的数据进行归一化处理及sigmiod激活函数的处理,得到所述衰老药效成分的第二二维特征矩阵数据。

优选地,所述将所述衰老药效成分的ADMET参数转换为第三二维特征矩阵数据包括:将所述衰老药效成分的ADMET参数中吸收参数A、分布参数D、代谢参数M、排泄参数E和毒性参数T各自的数据进行归一化处理及ReLU激活函数的处理,得到所述衰老药效成分的第三二维特征矩阵数据。

优选地,所述利用所述衰老药效成分的多源关联融合数据和衰老活性,训练抗衰老药物预测模型,得到经训练的抗衰老药物预测模型包括:将所述衰老药效成分的多源关联融合数据和衰老活性作为数据集;利用所述数据集,对抗衰老药物预测模型进行训练,得到所述抗衰老药物预测模型的参数,以及采用五折交叉验证模型对所述抗衰老药物预测模型的超参数进行寻优,得到所述抗衰老药物预测模型的超参数;根据所述抗衰老药物预测模型的参数和超参数,得到最优的抗衰老药物预测模型作为经训练的抗衰老药物预测模型。

优选地,所述抗衰老药物预测模型是基于注意力机制的卷积神经网络,包括2层池化层、14层卷积层和输出层,其中,3层卷积层包含多头自注意机制模块。

优选地,所述利用所述经训练的抗衰老药物预测模型,预测目标药物的衰老活性包括:获取所述目标药物的衰老药效成分以及所述衰老药效成分的靶标网络、分子描述符、ADMET参数;将所述衰老药效成分的靶标网络、分子描述符和ADMET参数进行关联融合处理,得到所述衰老药效成分的多源关联融合数据;将所述衰老药效成分的多源关联融合数据输入至所述经训练的抗衰老药物预测模型,得到所述经训练的抗衰老药物预测模型输出的分类结果。

本发明还提供了一种抗衰老药物的预测设备,所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现前述的抗衰老药物的预测方法的步骤。

本发明还提供了一种存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时,实现如前述的抗衰老药物的预测方法的步骤。

本发明提供一种抗衰老药物的预测方法、设备及存储介质,通过将药物作用于机体所涉及的多源性数据进行融合,预测具有潜在抗衰老活性的药物,提高了预测准确性。

附图说明

图1是本发明的基于深度学习的抗衰老药物预测方法的总流程图;

图2是本发明的基于图卷积网络编码重塑药物靶标网络模拟数据的流程图;

图3是本发明的多源数据“嵌入式”关联融合示意图;

图4是本发明的抗衰老药物预测模型(AttCNN)的整体结构示意图;

图5是本发明的抗衰老药物预测模型的MHAS结构示意图;

图6是本发明基于多源数据关联融合的预测模型与单一维度/双维度预测模型的预测性能比较示意图;

图7是本发明的抗衰老药物预测模型与其他模型的预测性能比较示意图;

图8是本发明的抗衰老药物的预测方法的流程简图;

图9是本发明的抗衰老药物的预测设备的结构框图。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。

本发明公开了一种抗衰老药物的预测方法、设备及存储介质,将小分子化学结构、ADMET参数(吸收(Absorption,A)、分布(Distribution,D)、代谢(Metabolism,M)、排泄(Excretion,E)和毒性(Toxicity,T))以及靶点网络进行“嵌入式”的多源数据融合,训练基于注意力机制的卷积神经网络模型作为抗衰老药物预测模型,并利用训练好的抗衰老药物预测模型,实现抗衰老药物的智能预测,为开发抗衰老药物提供新的研究策略。

参见图8,本发明提供的一种抗衰老药物的预测方法可以包括以下步骤:

步骤S101:获取衰老药效成分数据集中每个衰老药效成分的靶标网络、分子描述符、ADMET参数、衰老活性。

可以从各种数据库获取所述衰老药效成分数据集中的衰老药效成分,进而获取每个衰老

药效成分的靶标、分子描述符、ADMET参数、衰老活性。根据所述衰老药效成分的靶标,生成所述衰老药效成分的靶标网络。

所述衰老药效成分包括抗衰老药效成分和无抗衰老药效成分。

所述衰老药效成分的衰老活性包括抗衰老活性和无抗衰老活性。

步骤S102:将所述衰老药效成分的靶标网络、分子描述符和ADMET参数进行关联融合处理,得到所述衰老药效成分的多源关联融合数据。

具体地说,对于衰老药效成分数据集中的每个衰老药效成分,将所述衰老药效成分的靶标网络转换为第一二维特征矩阵数据;将所述衰老药效成分的分子描述符转换为第二二维特征矩阵数据;将所述衰老药效成分的ADMET参数转换为第三二维特征矩阵数据;利用池化层和全连接层,对所述第一二维特征矩阵数据、所述第二二维特征矩阵数据和所述第三二维特征矩阵数据进行关联融合,得到所述衰老药效成分的多源关联融合数据。

其中,所述将所述衰老药效成分的靶标网络转换为第一二维特征矩阵数据包括:对所述衰老药效成分的靶标网络进行基于图卷积网络的编码重塑,得到所述衰老药效成分的第一二维特征矩阵数据。具体实施时,首先计算所述靶标网络的邻接矩阵和靶标特征矩阵;然后,将所述靶标网络的邻接矩阵和靶标特征矩阵输入至图自动编码器,生成表示向量,并将所述表示向量输入至解码器,再经sigmoid激活函数,输出所述衰老药效成分的靶标网络的二维特征矩阵数据,记作第一二维特征矩阵数据。

其中,所述将所述衰老药效成分的分子描述符转换为第二二维特征矩阵数据包括:从所述衰老药效成分的分子描述符中提取每个特征名及对应的数据;对每个特征名对应的数据进行归一化处理及sigmiod激活函数的处理,得到所述衰老药效成分的第二二维特征矩阵数据。具体实施时,获得所述衰老药效成分的SMILES格式,然后计算出其分子描述符,从分子描述符中提取特征名及对应的数据,对每个特征名对应的数据进行归一化处理,再经sigmoid激活函数,输出所述衰老药效成分的分子描述符的二维特征矩阵数据,记作第二二维特征矩阵数据。

其中,所述将所述衰老药效成分的ADMET参数转换为第三二维特征矩阵数据包括:将所述衰老药效成分的ADMET参数中吸收参数A、分布参数D、代谢参数M、排泄参数E和毒性参数T各自的数据进行归一化处理及ReLU激活函数的处理,得到所述衰老药效成分的第三二维特征矩阵数据。具体实施时,获得所述衰老药效成分的SMILES格式,然后计算出其ADMET参数,将所述ADMET参数中每个参数的数据进行归一化处理,再经ReLU激活函数,输出所述衰老药效成分的ADMET参数的二维特征矩阵数据,记作第三二维特征矩阵数据。

步骤S103:利用所述衰老药效成分的多源关联融合数据和衰老活性,训练抗衰老药物预测模型,得到经训练的抗衰老药物预测模型,以便利用所述经训练的抗衰老药物预测模型,预测目标药物的衰老活性。

具体地说,将衰老药效成分数据集中的多个或所有衰老药效成分的多源关联融合数据及对应的衰老活性作为数据集;利用所述数据集,对抗衰老药物预测模型进行训练,得到所述抗衰老药物预测模型的参数,以及采用五折交叉验证模型对所述抗衰老药物预测模型的超参数进行寻优,得到所述抗衰老药物预测模型的超参数;根据所述抗衰老药物预测模型的参数和超参数,得到最优的抗衰老药物预测模型作为经训练的抗衰老药物预测模型。在得到经训练的抗衰老药物预测模型后,就可以获取所述目标药物的衰老药效成分以及所述衰老药效成分的靶标网络、分子描述符、ADMET参数,将三者关联融合处理得到所述衰老药效成分的多源关联融合数据,并将所述衰老药效成分的多源关联融合数据输入至所述经训练的抗衰老药物预测模型,得到所述经训练的抗衰老药物预测模型输出的分类结果,即,确定出所述目标药物的衰老药效成分的衰老活性是抗衰老活性还是无抗衰老活性。

所述抗衰老药物预测模型是基于注意力机制的卷积神经网络,包括2层池化层、14层卷积层和输出层,其中,3层卷积层包含多头自注意机制模块。

已有研究基于药物化学结构或者靶点网络,利用深度学习算法进行药物活性的预测,但上述研究方法只限考虑药物的单一维度的信息进行药物活性预测,并没有充分考虑将药物作用于机体潜在的影响因素的交互性与叠加性,最终影响药物活性的预测。本发明将药物作用于机体所涉及的多源性数据进行融合,以预测具有潜在抗衰老活性的药物。参见图1,基于数据库和文献获取衰老药效成分信息(包括抗衰老活性成分和无抗衰老活性成分),分别通过RDkit算法、ADMELab数据平台和变分图自编码(Variational Graph Auto-Encoders,VGAE)算法获取衰老药效成分的化学分子描述符、ADME理化性质参数和靶标网络模拟数据;将上述多源数据通过池化层和全连接层进行“嵌入式”关联融合以获取衰老药效成分多源关联融合数据;之后导入到构建的卷积神经网络模型进行模型的训练(训练预测模型的参数,例如权重、偏置),并通过参数寻优确定预测模型的最优参数(确定预测模型的超参数,例如学习速率、epoch数量)。下面结合图2至图7对多源数据关联融合以及抗衰老药物的预测过程进行详细说明。

步骤一:获取衰老药效成分,所述衰老药效成分包括抗衰老药效成分和无抗衰老药效成分。

衰老药效成分的获取来源可以有多种,例如从Aging Atlas(https://ngdc.cncb.ac.ch/aging)、DrugAge(https://genomics.senescence.info)和Drugbank(https://go.drugbank.com/)数据库获取抗衰老药效成分与无抗衰老药效成分,又例如,将“抗衰老”、“延长寿命”、“延缓衰老”、“anti-aging”、“anti-senescence”、“anti-senescent”“prolong life”、“extend lifespan”、“prolong lifespan”、“prolong life”、“promote longevity”等作为关键词,在中国知网(CNKI)、Pubmed、万方数据库进行检索获得抗衰老药效成分。

步骤二:获取衰老药效成分的靶标网络的二维特征矩阵数据。

基于HIT(http://www.badd-cao.net:2345/)和SwissTargetPrediciton(http://www.swisstargetprediction.ch/)数据库获取衰老药效成分的靶标,通过Uniprot数据库将衰老药效成分的靶标进行标准化处理,删除重复靶标,并基于STRING(https://cn.string-db.org/cgi/)计算平台构建衰老药效成分的靶标网络。

在得到衰老药效成分的靶标网络后,基于变分图自编码(Variational GraphAuto-Encoders,VGAE)预测算法将衰老药效成分的靶标网络定义为G,并引入G的邻接矩阵A以及靶标特征矩阵X,其中,X包含网络节点信息(node)和结合系数(combined score),导入编码器(Encoder)部分生成表示向量Z,如公式(1)-公式(4)所示。

μ=GCN

log

μ表示节点的向量均值,σ表示节点的向量的方差,Z表示后验概率得到的隐变量,W表示权重矩阵;再导入Encoder部分

A

步骤三:获取衰老药效成分的分子描述符的二维特征矩阵数据。

将衰老药效成分数据集中的药效成分导入PubChem获得药效成分的SMILES格式,经RDkit算法计算药效成分的分子描述符信息。

从分子描述符信息中提取特征名及对应的数据,采用min-max标准化方法对所述数据进行归一化量化处理,如公式(6)所示,然后采用sigmoid激活函数处理生成二维特征矩阵数据。

其中,X表示样本的原始数值,Min表示样本中最小数值,Max表示样本中最大数值,X’表示归一化后结果。

步骤四:获取衰老药效成分的ADMET参数的二维特征矩阵数据。

将衰老药效成分数据集中的药效成分导入PubChem获得药效成分的SMILES格式,并上传至ADMETlab平台计算抗衰老活性药物和无抗衰老活性药物的ADMET参数信息,从ADMET参数信息中提取吸收参数A、分布参数D、代谢参数M、排泄参数E和毒性参数T各自的数据,采用min-max标准化方法对所述数据进行归一化量化处理,如公式(6)所示,然后采用ReLU激活函数处理生成二维特征矩阵数据。

需要说明的是,步骤二、步骤三和步骤四可以同时执行,也可以先后执行。

步骤五:将步骤二、步骤三和步骤四的二维特征矩阵数据进行拼接,例如,参见图3,采用池化层和全连接层对步骤二、步骤三和步骤四的二维特征矩阵数据进行“嵌入式”关联融合处理,生成高维特征张量数据(即,多源关联融合数据),作为下一层的输入。

本步骤实现了多源数据的关联融合。

步骤六:模型训练。

将步骤五中的高维特征张量和对应的抗衰老活性和无抗衰老活性作为样本,划分80%作为训练集用来训练模型,20%作为测试集用以测试模型,最终输入本发明的注意力机制的卷积神经网络(Attention CNN,AttCNN)预测模型中进行训练,如图4所示,该AttCNN预测模型由2层池化层和14层卷积层组成,其中,第一层为卷积,采用7×7的卷积核进行卷积运算,输出通道为64,卷积步长为2,填充为3;第二层为池化层,采用3×3核,步长为2,填充为1;第三至六层为卷积层,采用3×3的卷积核进行卷积运算,输出通道为64,卷积步长为1,填充为1;第七至十五层为循环卷积层,三层卷积层为一组,循环3次,每组分别采用1×1的卷积核,输出通道为512,卷积步长为1,填充为1,后接MHSA模块,输出通道为512,最后接1×1的卷积核,输出通道为2048,卷积步长为1,填充为1;第16层为平均池化层,输出层采用Sigmoid激活函数进行分类判断。训练时使用Adam优化算法。

本发明中,3层卷积层引入多头自注意机制(Multi-head self-attention,MHSA)模块以全局汇总捕捉更多的局部信息,具体结构如图4所示,(1)x为输入文件或输入数据,输入指定q,k,v的1×1卷积文件,首先将Wq与Wk进行张量相乘拼接,表示为内容与内容的交互(qk

步骤七:进一步对模型关键参数设置寻优范围,其中epoch number为[5,10,50,100],learning rate为[0.01,0.001,0.00001],decay rate为[0.01,0.001,0.0001],并通过5折交叉验证模型对构建的36(4×3×3)个模型进行寻优。

步骤八:通过使用建模数据中的测试集样本对训练好的模型的预测性能进行评估,采用准确度(Accuracy,ACC)、精确度(Precision,PRE)、召回性(Recall,REC)和F1评分(F1 score,F1)对模型性能进行评价,它们的定义如公式(7-10)所示:

/>

其中,TP表示正类样本被正确预测的数目;TN表示负类样本被正确预测的数目;FP表示负类样本被错误预测(即被预测为正类)的数目;FN表示正类样本被错误预测(即被预测为负类)的数目。所述正类指抗衰老药效成分,具有抗衰老活性;负类指无抗衰老药效成分,无抗衰老活性。

步骤九:通过参数寻优,最优模型的具体参数设定为epoch number设定为50,learning rate设定为0.00001,decay rate设定为0.001,通过训练集和测试集对最优模型的性能进行考察,其训练集的预测准确度为99.46%,精确度为99.46%,召回性为99.46%,F1评分为99.46%;其测试集的预测准确度为96.23%,精确度为96.26%,召回性为96.23%,F1评分为96.13%。同时计算单一维度-分子描述符(diml)、ADME参数(dim2)、靶标网络(dim3)和双维度-分子描述符-ADME参数(dim12)、靶标网络-ADME参数(dim23)、靶标网络-分子描述符(dim13)的预测性能,结果参见图6所示,本发明的多源数据关联融合的抗衰老药物预测模型(dim123)的训练集和测试集的准确率、精确度、召回性和F1评分性能优于单一维度-分子描述符(dim1)、ADME参数(dim2)、靶标网络(dim3)和双维度-分子描述符-ADME参数(dim12)、靶标网络-ADME参数(dim23)、靶标网络-分子描述符(dim13)的预测性能,本发明的三个数据维度(dim123)的预测性能显著高于单一维度/双维度的预测性能,表明本发明的多源数据关联融合的整合模式具有较优的整合性能。

步骤十:分别搭建卷积神经网络(CNN)、深度神经网络(DNN)、DenseNet121等深度学习预测模型(参数设定同步骤九)以及支持向量机(SVM)、贝叶斯(Bayes)等机器学习预测模型,计算准确度、精确度、召回性和F1评分,并与本发明所构建的模型进行比较分析,结果参见图7所示,本发明的抗衰老药物预测模型的准确率、精确度、召回性和F1评分显著性优于CNN、DNN和DenseNet121的深度学习预测模型和Bayes和SVM的机器学习的预测模型,本预测模型的预测性能值显著高于其他模型,表明本发明的抗衰老药物预测模型与其他模型相比具有较优的预测性能。

参见图9,本发明还提供了一种抗衰老药物的预测设备100,所述设备100包括存储器1、处理器2、存储在所述存储器1上并可在所述处理器2上运行的程序,所述程序被所述处理器2执行时实现前述的抗衰老药物的预测方法的步骤。

另外,本发明还提供了一种存储介质,所述存储介质中存储有程序,所述程序被处理器执行时,实现如前述的抗衰老药物的预测方法的步骤。

本发明适用于Ubuntu/Linux系统,NVIDIA 3070ti GPU,Intel W-3235CPU,等等。

综上所述,本发明充分纳入药物作用于机体潜在的影响因素,将化学结构、药物吸收/分布/代谢/排泄的体内过程参数与靶标网络三者间潜在的交互性与叠加性进行系统性与多维性的“嵌入式”融合,并采用深度学习预测模型进行抗衰老药物的预测,且与单一维度/双维度数据相比以及国内外其他预测模型相比,具有更优的预测性能,为抗衰老药物的研发提供一条新的研究策略。

以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

技术分类

06120115927375