掌桥专利:专业的专利平台
掌桥专利
首页

基于分数阶神经网的蛋白质-ATP结合位点预测方法及装置

文献发布时间:2023-06-19 19:28:50


基于分数阶神经网的蛋白质-ATP结合位点预测方法及装置

技术领域

本发明涉及蛋白质-配体结合位点预测技术领域,特别是指一种基于分数阶神经网的蛋白质-ATP结合位点预测方法及装置。

背景技术

蛋白质作为构成生命的重要物质,人们对其的研究一直没有停下脚步。最初,蛋白质的组成都是令人捉摸不透的难题,如今,在计算机技术飞速发展的今天,科学家们利用计算机确定越来越多的蛋白质的一级结构,并建立了专门的数据库,以便查询和使用,比如PDB蛋白数据库[H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H.Weissig, I.N. Shindyalov, P.E. Bourne. (2000) The Protein Data Bank NucleicAcids Research, 28: 235-242.]。但是蛋白质的其他信息,如三级结构,以及与其他物质的结合位点的确定并不是一件容易的事。

蛋白-配体相互作用位点的预测对于药物靶向作用位点的确定有着重要意义,确定蛋白质结构以及与其他化合物结合位点,对于发挥药物作用,提高体内生化反应速率与效率,如酶促反应,ATP结合等有着促进意义。蛋白质-配体的相互作用对各种生物过程至关重要,如膜运输、细胞运动、肌肉收缩、信号转导、DNA的转录和复制[刘桂霞,裴志尧,宋佳智.基于深度学习的蛋白质-ATP结合位点预测[J].吉林大学学报(工学版),2022,52(01):187-194]。在药物发现过程中,蛋白-配体相互作用是药物靶向作用点确定的重要依据,对癌症,糖尿病,阿尔兹海默症等疾病的新药研发具有指导意义。因此,准确识别蛋白质结合位点对蛋白质功能注释和药物作用的靶点的确定都具有重要意义。

在这些配体中,ATP被称为核苷三磷酸,作为一种小分子化合物,它在细胞中可以起到辅酶的作用,也在各种代谢过程中发挥重要作用[Hu Jun, Li Yang, Zhang Yang,etc. ATPbind: accurate protein-ATP binding site prediction by combiningsequence-profiling and structure-based comparisons[J]. Journal of ChemicalInformation & Modeling, 2018, 58: 501-510.]。ATP结合位点是抗菌和抗癌化疗的重要药物靶点。然而,通过湿实验室实验技术来识别蛋白质配体结合位点通常是成本高且耗时的,截至2019年6月,蛋白质数据库(PDB)中有7055个蛋白标注为ATP结合,约占所有记录的4.62%[[4]Song Jiazhi, Liang Yanchun, Liu Guixia, etc. A Novel PredictionMethod for ATP-Binding Sites From Protein Primary Sequences Based on Fusionof Deep Convolutional Neural Network and Ensemble Learning[J]. IEEE Access,2020, 8: 21485-21495],面对后基因组时代的大规模蛋白序列,已知ATP结合蛋白的数量还远远不够。在机器学习等算法快速发展的今天,通过计算机来确定蛋白质上的结合位点的方法不断出现,生物信息学也在不断发展,然而传统的计算方法存在准确率较低,预测结果假阳性率高的问题[洪嘉俊.基于深度学习的蛋白质功能预测及药物靶点发现研究[D].杭州:浙江大学,2020]。为了揭示蛋白质-配体相互作用的内在机制,人们进行了大量的湿实验室工作,成千上万的蛋白质-配体相互作用结构复合物沉积在PDB 中。然而,通过湿实验室实验技术来识别蛋白质配体结合位点通常是成本高且耗时的。由于蛋白质-配体相互作用的重要性和实验识别结合位点的困难程度,开发高效、自动化的计算方法快速预测蛋白质-配体结合位点已成为生物信息学中一个日益重要的问题。特别是当面对后基因组时代的大规模蛋白质序列。

AI技术,比如我们熟知的机器学习,深度学习等可以用于蛋白-配体相互作用位点的确定,并且极大效率的提高了实验速率(相较于湿实验室),是目前可以选择并继续探索的好方法。使用合适的数据集,对模型进行训练并检验,大大节省了进行湿实验的次数与实验成本。然而这些方法也存在着一些问题,预测准确率欠佳,错误预测率较高,如何提高预测的准确度并进一步减少时间成本是很有研究价值的问题。

在生物医学中,了解蛋白质与ATP的相互作用有助于蛋白质功能注释和药物开发。精准地识别蛋白质-ATP结合残基是获取蛋白质和ATP相互作用知识的一项重要但具有挑战的任务,特别是只提供蛋白质序列信息的情况下。随着深度学习算法的发展,卷积神经网(CNN)已经在多种生物信息领域得到广泛应用。然而卷积神经网为提高分类器性能,通常只能通过卷积层叠加越来越深来实现;另一方面卷积神经网中的梯度算法即使一个目标函数,传统的梯度下降算法也不能爆炸收敛到真正的极值点。

发明内容

针对现有技术中,针对目前蛋白质-ATP预测问题中应用的卷积神经网络模型,收敛速度慢、预测效果有待提高、并且数据分布不平衡等的问题,本发明提出了一种基于分数阶神经网的蛋白质-ATP结合位点预测方法及装置。

为解决上述技术问题,本发明提供如下技术方案:

一方面,提供了一种基于分数阶神经网的蛋白质-ATP结合位点预测方法,该方法应用于电子设备,包括以下步骤:

S1:构建初始预测模型,基于PDB蛋白数据库获取训练集,通过滑动窗口技术收集训练集中目标残基及目标残基的相邻残基的特征,将特征整合为特征矩阵;

S2:利用加权交叉熵作为预测模型的损失函数,基于损失函数,通过赋予不同的权重调整每个氨基酸种类的预测迭代算法,获得调整后的预测迭代算法;

S3:构建基于Caputo定义的分数阶导数,基于分数阶导数对调整后的预测迭代算法进行修改;

S4:将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型;将特征矩阵输入至新预测模型,输出预测结果,完成基于分数阶神经网的蛋白质-ATP结合位点预测。

可选地,训练集为未经过处理的原始蛋白序列ATP-227。

可选地,S1中,构建初始预测模型,基于PDB蛋白数据库获取训练集,通过滑动窗口技术收集训练集中目标残基及目标残基的相邻残基的特征,将特征整合为特征矩阵,包括:

S11:基于PDB蛋白数据库获取训练集,确定滑动窗口大小;所述滑动窗口中包含目标残基,且在目标残基的左右两侧分别有目标残基的相邻残基;

S12:通过基于局部比对算法的搜索工具blast,在经过注释的蛋白质序列Swissprot数据库中运行psi-blast,输入训练集,获得训练集的PSSM矩阵;

S13:获取训练集中的蛋白质二级结构,将蛋白质二级结构通过3态二级结构表示法进行表示,获得蛋白质二级结构向量;

S14:对训练集中的氨基酸进行one-hot编码,获得每个氨基酸的One-hot编码向量;其中,编码方式为根据偶极子和卷侧链的氨基酸分类方式进行one-hot编码;

S15:通过滑动窗口对PSSM矩阵、蛋白质二级结构向量以及每个氨基酸的One-hot编码向量进行特征提取,获得集训练集中目标残基及目标残基的特征,将所属特征整合为特征矩阵。

可选地,S2中,利用加权交叉熵作为预测模型的损失函数,基于损失函数,通过赋予不同的权重调整每个氨基酸种类的预测迭代算法,获得调整后的预测迭代算法,包括:

定义第i个样本的交叉熵为下述公式(1)所示:

(1)

其中,

将加权交叉熵定义如下述公式(2)所示:

(2)

其中,

可选地,S3中,Caputo定义的分数阶导数如下述公式(3):

(3)

其中,f(t)为目标函数,α为阶数,0﹤α﹤1,m-1<α<m,m表示一个常数,m为正整数,

可选地,步骤S3中基于分数阶导数对调整后的预测迭代算法进行修改,包括:

分数阶梯度法如下述公式(4)所示:

(4)

其中,μ为迭代步长或学习速率,K为迭代次数,

将公式(4)中的

(5)

将上述公式(5)带入公式(3)并简化得到如下述公式(6)的修改后的预测迭代算法:

(6)

其中,上述公式(6)的预测迭代算法收敛,且收敛到真正的极值点为x*。

可选地,步骤S4中,将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型,包括:

将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型中卷积神经网络的全连接层,其中,全连接层的反向传播梯度采用分数阶和整数阶的混合;其中全连接层包括两种类型的梯度通过层,两种类型的梯度通过层包括:连接两层之间结点的传递梯度,以及更新梯度。

一方面,提供了一种基于分数阶神经网的蛋白质-ATP结合位点预测装置,该装置应用于电子设备,该装置包括:

特征提取模块,用于构建初始预测模型,基于PDB蛋白数据库获取训练集,通过滑动窗口技术收集训练集中目标残基及目标残基的相邻残基的特征,将特征整合为特征矩阵;

函数修改模块,用于利用加权交叉熵作为预测模型的损失函数,基于损失函数,通过赋予不同的权重调整每个氨基酸种类的预测迭代算法,获得调整后的预测迭代算法;

算法修改模块,用于构建基于Caputo定义的分数阶导数,基于分数阶导数对调整后的预测迭代算法进行修改;

结果输出模块,用于将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型;将特征矩阵输入至新预测模型,输出预测结果,完成基于分数阶神经网的蛋白质-ATP结合位点预测。

可选地,训练集为未经过处理的原始蛋白序列ATP-227。

可选地,特征提取模块,进一步用于基于PDB蛋白数据库获取训练集,确定滑动窗口大小,则在滑动窗口中包含目标残基,且在目标残基的左右两侧分别有目标残基的相邻残基;

通过基于局部比对算法的搜索工具blast,在经过注释的蛋白质序列Swissprot数据库中运行psi-blast,输入训练集,获得训练集的PSSM矩阵;

获取训练集中的蛋白质二级结构,将蛋白质二级结构通过3态二级结构表示法进行表示,获得蛋白质二级结构向量;

对训练集中的氨基酸进行one-hot编码,获得每个氨基酸的One-hot编码向量;其中,编码方式为根据偶极子和卷侧链的氨基酸分类方式进行one-hot编码;

通过滑动窗口对PSSM矩阵、蛋白质二级结构向量以及每个氨基酸的One-hot编码向量进行特征提取,获得集训练集中目标残基及目标残基的特征,将所属特征整合为特征矩阵。

一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种基于分数阶神经网的蛋白质-ATP结合位点预测方法。

一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种基于分数阶神经网的蛋白质-ATP结合位点预测方法。

本发明实施例的上述技术方案至少具有如下有益效果:

上述方案中,将深度学习方法和分数阶微分结合提出一种蛋白质-ATP结合位点预测的方法,并提高准确率。本发明的重点在于将Caputo定义的分数阶梯度加在单起始预测器的全连接层,在保证收敛和链式法则的前提下,改进了预测器的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于分数阶神经网的蛋白质-ATP结合位点预测方法的流程图;

图2是本发明实施例提供的一种基于分数阶神经网的蛋白质-ATP结合位点预测方法的流程图;

图3是本发明实施例提供的一种基于分数阶神经网的蛋白质-ATP结合位点预测方法的前向传播算法示意图;

图4是本发明实施例提供的一种基于分数阶神经网的蛋白质-ATP结合位点预测方法的更新过程图;

图5是本发明实施例提供的一种基于分数阶神经网的蛋白质-ATP结合位点预测方法的预测结果实例图;

图6是本发明实施例提供的一种基于分数阶神经网的蛋白质-ATP结合位点预测装置框图;

图7是本发明实施例提供的一种电子设备的结构示意图。

实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于分数阶神经网的蛋白质-ATP结合位点预测方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的结合多尺度卷积与自注意力编码的基于分数阶神经网的蛋白质-ATP结合位点预测方法流程图,该方法的处理流程可以包括如下的步骤:

S101:构建初始预测模型,基于PDB蛋白数据库获取训练集,通过滑动窗口技术收集训练集中目标残基及目标残基的相邻残基的特征,将特征整合为特征矩阵;

S102:利用加权交叉熵作为预测模型的损失函数,基于损失函数,通过赋予不同的权重调整每个氨基酸种类的预测迭代算法,获得调整后的预测迭代算法;

S103:构建基于Caputo定义的分数阶导数,基于分数阶导数对调整后的预测迭代算法进行修改;

S104:将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型;将特征矩阵输入至新预测模型,输出预测结果,完成基于分数阶神经网的蛋白质-ATP结合位点预测。

可选地,训练集为未经过处理的原始蛋白序列ATP-227。

可选地,S101中,构建初始预测模型,基于PDB蛋白数据库获取训练集,通过滑动窗口技术收集训练集中目标残基及目标残基的相邻残基的特征,将特征整合为特征矩阵,包括:

S111:基于PDB蛋白数据库获取训练集,确定滑动窗口大小;所述滑动窗口中包含目标残基,且在目标残基的左右两侧分别有目标残基的相邻残基;

S112:通过基于局部比对算法的搜索工具blast,在经过注释的蛋白质序列Swissprot数据库中运行psi-blast,输入训练集,获得训练集的PSSM矩阵;

S113:获取训练集中的蛋白质二级结构,将蛋白质二级结构通过3态二级结构表示法进行表示,获得蛋白质二级结构向量;

S114:对训练集中的氨基酸进行one-hot编码,获得每个氨基酸的One-hot编码向量;其中,编码方式为根据偶极子和卷侧链的氨基酸分类方式进行one-hot编码;

S115:通过滑动窗口对PSSM矩阵、蛋白质二级结构向量以及每个氨基酸的One-hot编码向量进行特征提取,获得集训练集中目标残基及目标残基的特征,将所属特征整合为特征矩阵。

可选地,S102中,利用加权交叉熵作为预测模型的损失函数,基于损失函数,通过赋予不同的权重调整每个氨基酸种类的预测迭代算法,获得调整后的预测迭代算法,包括:

定义第i个样本的交叉熵为下述公式(1)所示:

(1)

其中,

将加权交叉熵定义如下述公式(2)所示:

(2)

其中,

可选地,S103中,Caputo定义的分数阶导数如下述公式(3):

(3)

其中,f(t)为目标函数,α为阶数,0﹤α﹤1,m-1<α<m,m表示一个常数,m为正整数,

可选地,步骤S103中基于分数阶导数对调整后的预测迭代算法进行修改,包括:

分数阶梯度法如下述公式(4)所示:

(4)

其中,μ为迭代步长或学习速率,K为迭代次数;

将公式(4)中的

(5)

将上述公式(5)带入公式(3)并简化得到如下述公式(6)的修改后的预测迭代算法:

(6)

其中,上述公式(6)的预测迭代算法收敛,且收敛到真正的极值点为x*。

可选地,步骤S104中,将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型,包括:

将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型中卷积神经网络的全连接层,其中,全连接层的反向传播梯度采用分数阶和整数阶的混合;其中全连接层包括两种类型的梯度通过层,两种类型的梯度通过层包括:连接两层之间结点的传递梯度,以及更新梯度。

本发明实施例中,将深度学习方法和分数阶微分结合提出一种蛋白质-ATP结合位点预测的方法,并提高准确率。首先,选取数据集ATP-227和ATP-14作为训练集和测试集,从蛋白质的数字化信息中提取模型所需特征,并将其整合成特征矩阵作为输入。接着选用卷积神经网络对其反向传播过程的参数更新过程修改为分数阶梯度迭代,测试数据表明,经过分数阶修改的卷积神经网预测效果优于之前已有的机器学习和整数阶的深度学习模型。本发明的重点在于将Caputo定义的分数阶梯度加在单起始预测器的全连接层,在保证收敛和链式法则的前提下,改进了预测器的性能。

本发明实施例提供了一种基于分数阶神经网的蛋白质-ATP结合位点预测方法,

该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图2所示的结合多尺度卷积与自注意力编码的基于分数阶神经网的蛋白质-ATP结合位点预测方法流程图,该方法的处理流程可以包括如下的步骤:

S201:基于PDB蛋白数据库获取训练集,确定滑动窗口大小;所述滑动窗口中包含目标残基,且在所述目标残基的左右两侧分别有所述目标残基的相邻残基;

一种可行的实施方式中,训练集为未经过处理的原始蛋白序列ATP-227。本发明利用在蛋白质-ATP结合位点预测中的两个常用的经典数据集,本发明中选取未经过处理的原始蛋白序列:ATP-227和ATP-14。 ATP-227是2010年3月10日之前在PDB蛋白数据库中发布的与ATP结合的227条蛋白质链。这227条链中共包含3393个ATP结合残基,以及80409个非ATP结合残基。同时,在ATP-17选取了14条蛋白质链(其余三个蛋白质序列无法根据蛋白质ID在PDB数据库中找到对应的fasta文件),命名为ATP-14,作为独立测试集,可以保证的是,ATP-14中任意一条链与ATP-227的相似度均小于41%。从PDB蛋白数据库批量下载数据集的fasta序列文件,ATP-227为训练集,ATP-14为测试集。

一种可行的实施方式中,由于每个蛋白质序列中氨基酸数目较大,非结合残基和结合残基的比例较高,且研究表明,目标残基的结合特性受其相邻残基的影响,因此,采用滑动窗口技术来收集目标残基及其相邻残基的特征。大小为L的滑动窗口包含目标残基和在目标残基的左右两侧分别有 (L-1)/2 相邻残基的特征。在本实施例中通过不同窗口大小的性能比较,最终选择L=15。即一个滑动窗口的取值为:000000010000000。

S202:通过基于局部比对算法的搜索工具blast,在经过注释的蛋白质序列Swissprot数据库中运行psi-blast,输入训练集,获得训练集的PSSM矩阵。

一种可行的实施方式中,PSSM矩阵中还包含其他信息,再本实施例中只截取前20列即可。

S203:获取训练集中的蛋白质二级结构,将所述蛋白质二级结构通过3态二级结构表示法进行表示,获得蛋白质二级结构向量。

一种可行的实施方式中,对于蛋白质二级结构,本发明选取3态二级结构表示法,即螺旋(C)、螺旋(H)和股(E),使用PSIPRED4.02在blast的环境下运行。溶剂可及性则使用ASAquick得到。提取以上三种特征都是基于fasta序列文件的。

S204:对训练集中的氨基酸进行one-hot编码,获得每个氨基酸的One-hot编码向量;其中,编码方式为根据偶极子和卷侧链的氨基酸分类方式进行one-hot编码。

一种可行的实施方式中,对于One-hot编码,氨基酸的分类方式有很多种,本文依照偶极子和卷侧链的氨基酸,照此分类方式进行编码,每个氨基酸都由一个1*7的向量表示,例如丙氨酸(Ala)属于第一类,则它的One-hot编码为[0,0,0,0,0,0,1],而酪氨酸(Tyr)属于第四类,它的One-hot编码为[0,0,0,1,0,0,0]。

S205:通过滑动窗口对PSSM矩阵、蛋白质二级结构向量以及每个氨基酸的One-hot编码向量进行特征提取,获得集训练集中目标残基及所述目标残基的特征,将所属特征整合为特征矩阵。

一种可行的实施方式中,通过滑动窗口进行特征的提取,则在本实施例中将得到15*20的PSSM矩阵,15*3的蛋白质二级结构向量,15*1的溶剂可及性向量和15*7的One-hot编码向量。本实施例中将数据集ATP-227和ATP-14作为训练集和测试集,从蛋白质的数字化信息中提取模型所需特征,并将其整合成特征矩阵作为新的预测模型的输入。

S206:利用加权交叉熵作为预测模型的损失函数,基于所述损失函数,通过赋予不同的权重调整每个氨基酸种类的预测迭代算法,获得调整后的预测迭代算法;

一种可行的实施方式中,本发明采用修改损失函数来解决数据不平衡问题,即交叉熵。利用加权交叉熵作为损失函数,通过赋予不同的权重调整每个类的预测,包括:

定义第i个样本的交叉熵为下述公式(1)所示:

(1)

其中,

将加权交叉熵定义如下述公式(2)所示:

(2)

其中,

一种可行的实施方式中,本发明利用加权交叉熵作为损失函数,通过赋予不同的权重来调整每个类的预测,可以解决不平衡学习问题。类权重由Scikit-learn计算,平衡的类权重由公式(编号)决定:

其中,

S207:构建基于Caputo定义的分数阶导数,基于所述分数阶导数对所述调整后的预测迭代算法进行修改;

一种可行的实施方式中,由于Caputo定义的分数阶导数有着很好的性质,即常数的导数等于0,所以本发明选择在此定义下研究分数阶梯度。

Caputo定义的分数阶导数如下述公式(3):

(3)

其中,f(t)为目标函数,α为阶数,0﹤α﹤1,m-1<α<m,m表示一个常数,m为正整数,

一种可行的实施方式中,设f(x)是平滑凸函数,x*是f(x)的唯一极值点,传统的整数阶梯度法的每个迭代步长为:

其中,μ为迭代步长或学习速率,K为迭代次数,

(4)

一种可行的实施方式中,如果直接应用分数阶导数,上述分数阶梯度方法不能收敛到f(x)的真正的极值点x*,只能收敛到在Caputo分数阶导数定义下的一个极值点,该极值点与初值x

为了保证算法收敛到真正的极值点,在后续的迭代过程中考虑另一种分数阶梯度方法,即,将x0替换成xk-1:将公式(4)中的

(5)

其中,0﹤α<1。

将上述公式(5)带入公式(3)可得:

当只保留第一项并引入其绝对值时,将0<α<2的分数阶梯度法简化为:得到如下述公式(6)的修改后的迭代算法:

(6)/>

其中,上述公式(6)的迭代算法收敛,且收敛到真正的极值点为x*。

S208:将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型;将特征矩阵输入至新预测模型,输出预测结果,完成基于分数阶神经网的蛋白质-ATP结合位点预测。

一种可行的实施方式中,构建卷积神经网的全连接层,其中,全连接层的反向传播梯度采用分数阶和整数阶的混合,以保证链式法则成立。设置两种类型的梯度通过层,一个是连接两层之间结点的传递梯度,另一个是更新梯度,用于层内参数。

一种可行的实施方式中,前向传播算法示意图如图3所示

这里

为保证链式法则成立,传播梯度仍然整数梯度:

但在更新梯度时,我们采用分数阶梯度更新:

更新过程如图4所示。

一种可行的实施方式中,本发明采用ATP-17作为测试集对上述模型进行测试,本发明模型输出为蛋白质序列每一位点的一维预测概率矩阵,根据最大化MCC的标准,我们设置阈值为0.80,即当某一位点的预测概率大于0.8时,将其判断为结合位点,用“1”来表示,反之用“0”表示。我们在测试集上进行了15次重复实验,并选取准确性(Acc),敏感性(Sen),特异性(Spe)和马修斯相关系数(MCC)作为评价指标,对传统卷积神经网进行对比,取多次实验的平均值得下表:

表1 评价指标表

/>

然后,对比现有技术中表现较好的几种蛋白质-ATP结合位点的预测器,分别是NsitePred,TargetATPsite,TargetS和ATPseq,在ATP-17上的预测结果,如下表所示:

表2 现有预测器与本发明预测器的结果对比

以蛋白质2YAA序列预测结果为例,如图5所示。本发明可以较正确的预测出结合位点。

本发明实施例中,将深度学习方法和分数阶微分结合提出一种蛋白质-ATP结合位点预测的方法,并提高准确率。首先,选取数据集ATP-227和ATP-14作为训练集和测试集,从蛋白质的数字化信息中提取模型所需特征,并将其整合成特征矩阵作为输入。接着选用卷积神经网络对其反向传播过程的参数更新过程修改为分数阶梯度迭代,测试数据表明,经过分数阶修改的卷积神经网预测效果优于之前已有的机器学习和整数阶的深度学习模型。本发明的重点在于将Caputo定义的分数阶梯度加在单起始预测器的全连接层,在保证收敛和链式法则的前提下,改进了预测器的性能。

图6是根据一示例性实施例示出的一种基于分数阶神经网的蛋白质-ATP结合位点预测装置框图。参照图6,该装置300包括:

特征提取模块310,用于构建初始预测模型,基于PDB蛋白数据库获取训练集,通过滑动窗口技术收集训练集中目标残基及目标残基的相邻残基的特征,将特征整合为特征矩阵;

函数修改模块320,用于利用加权交叉熵作为预测模型的损失函数,基于损失函数,通过赋予不同的权重调整每个氨基酸种类的预测迭代算法,获得调整后的预测迭代算法;

算法修改模块330,用于构建基于Caputo定义的分数阶导数,基于分数阶导数对调整后的预测迭代算法进行修改;

结果输出模块340,用于将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型;将特征矩阵输入至新预测模型,输出预测结果,完成基于分数阶神经网的蛋白质-ATP结合位点预测。

可选地,训练集为未经过处理的原始蛋白序列ATP-227。

可选地,特征提取模块310,进一步用于基于PDB蛋白数据库获取训练集,确定滑动窗口大小;所述滑动窗口中包含目标残基,且在目标残基的左右两侧分别有目标残基的相邻残基;

通过基于局部比对算法的搜索工具blast,在经过注释的蛋白质序列Swissprot数据库中运行psi-blast,输入训练集,获得训练集的PSSM矩阵;

获取训练集中的蛋白质二级结构,将蛋白质二级结构通过3态二级结构表示法进行表示,获得蛋白质二级结构向量;

对训练集中的氨基酸进行one-hot编码,获得每个氨基酸的One-hot编码向量;其中,编码方式为根据偶极子和卷侧链的氨基酸分类方式进行one-hot编码;

通过滑动窗口对PSSM矩阵、蛋白质二级结构向量以及每个氨基酸的One-hot编码向量进行特征提取,获得集训练集中目标残基及目标残基的特征,将所属特征整合为特征矩阵。

可选地,函数修改模块320,用于定义第i个样本的交叉熵为下述公式(1)所示:

(1)

其中,

将加权交叉熵定义如下述公式(2)所示:

(2)

其中,

可选地,算法修改模块330,用于Caputo定义的分数阶导数如下述公式(3):

(3)

其中,f(t)为目标函数,α为阶数,m-1<α<m,m为正整数,

可选地,算法修改模块330,用于对迭代算法进行修改,使所述迭代算法收敛至真正的极值点,包括:

分数阶梯度法如下述公式(4)所示:

(4)

其中,μ为迭代步长或学习速率,K为迭代次数,

将公式(4)中的

(5)

将上述公式(5)带入公式(3)并简化得到如下述公式(6)的修改后的迭代算法:

(6)/>

其中,上述公式(6)的迭代算法收敛,且收敛到真正的极值点为x*。

可选地,结果输出模块340,用于将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型中卷积神经网络的全连接层,其中,全连接层的反向传播梯度采用分数阶和整数阶的混合;其中全连接层包括两种类型的梯度通过层,两种类型的梯度通过层包括:连接两层之间结点的传递梯度,以及更新梯度。

本发明实施例中,将深度学习方法和分数阶微分结合提出一种蛋白质-ATP结合位点预测的方法,并提高准确率。首先,选取数据集ATP-227和ATP-14作为训练集和测试集,从蛋白质的数字化信息中提取模型所需特征,并将其整合成特征矩阵作为输入。接着选用卷积神经网络对其反向传播过程的参数更新过程修改为分数阶梯度迭代,测试数据表明,经过分数阶修改的卷积神经网预测效果优于之前已有的机器学习和整数阶的深度学习模型。本发明的重点在于将Caputo定义的分数阶梯度加在单起始预测器的全连接层,在保证收敛和链式法则的前提下,改进了预测器的性能。

图7是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现下述基于分数阶神经网的蛋白质-ATP结合位点预测方法的步骤:

S1:构建初始预测模型,基于PDB蛋白数据库获取训练集,通过滑动窗口技术收集训练集中目标残基及目标残基的相邻残基的特征,将特征整合为特征矩阵;

S2:利用加权交叉熵作为预测模型的损失函数,基于损失函数,通过赋予不同的权重调整每个氨基酸种类的预测迭代算法,获得调整后的预测迭代算法;

S3:构建基于Caputo定义的分数阶导数,基于分数阶导数对调整后的预测迭代算法进行修改;

S4:将初始预测模型中卷积神经网络的反向传播过程的参数更新过程,替换为修改后的预测迭代算法,构建新预测模型;将特征矩阵输入至新预测模型,输出预测结果,完成基于分数阶神经网的蛋白质-ATP结合位点预测。

在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于分数阶神经网的蛋白质-ATP结合位点预测方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 结合蛋白质序列与结构信息的ATP绑定位点预测方法
  • 一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法
技术分类

06120115924281