掌桥专利:专业的专利平台
掌桥专利
首页

基于二级结构特征编码的药物-蛋白亲和力预测方法及装置

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及药物虚拟筛选领域,尤其涉及一种基于二级结构特征编码的药物-蛋白亲和力预测方法及装置,属于机器学习神经网络模型在生物信息学中的应用。

背景技术

在现今药物发现领域中,由于生物实验的不可避免并且过程繁琐,药物发现成本极其高昂且耗时。究其根本是因为候选药物的数量过于庞大,需要实验一一进行验证。新药的发现伴随着冗长的周期,首先从海量的小分子药物中进行生物实验的初筛,紧接是多种功能域的验证以及临床实验。以上每一步无不伴随着高额的花费和巨大的风险。

药物虚拟筛选是利用计算机强大的模拟能力和现有海量的生物数据进行生物实验的模拟,基于计算机的强大计算能力,根据药物和靶标的相关生物数据,进行虚拟的筛选。例如,模拟药物和靶标蛋白的立体结构,并尝试对药物和靶标的分子进行对接试验。分子对接试验可以在物理层面验证药物和蛋白是否会结合。或者,通过特征计算的方式如矩阵分解对药物和靶标的各项生化指标进行计算预测亲和分数。与传统方法相比,药物虚拟筛选可以节省大量时间和资源。在进行生物实验之前,对药物进行虚拟筛选可以为生物实验提供指导。在各种方法中,高通量筛选和分子对接作为虚拟预筛选的两种主要方法被广泛应用。然而,这些方法都依赖于药物和蛋白质的结构信息,这些信息是通过复杂的实验获得,所以需要借助深度学习实现亲和力的预测。

深度学习框架可以利用有限的数据来实现与现代主流的药物虚拟筛选方法相当的性能。并且现有的深度学习药物虚拟筛选方法主要侧重于对药物和靶标的亲和力分数进行建模。具体来说,首先通过编码有限的药物和靶标,将序列信息特征到矩阵中,获得药物和靶标的特征表示,然后搭建神经网络对特征矩阵进行运算,即这些特征被输入神经网络以预测亲和力分数。尽管现有的一些工作表现出了不错的性能,但计算过程是无法解释的,并且也没有对药物蛋白亲和的生物过程进行建模。

有些工作注意到了深度学习框架的这些弊端,它们通过在计算过程中对实际生物过程进行建模,使得计算过程更具有可解释性,并且因此提升了效果。比如,在经典双塔计算模型中融合了注意力块模块,使得模型更关注于结合的区域,使计算更接近实际生物过程中的分子对接,虽然这些改变是可以提高模型的性能。但是模型对于实际生物过程进行显式的建模,因此仍然导致预测的效果不太理想。

由此可知,现有技术中的方法存在预测效果不佳的技术问题。

发明内容

为了解决上述技术问题,本发明提供了一种二级结构特征编码的药物蛋白亲和分数预测方法,该方法首先采用二级结构作为最小的编码单位,并且对模型进行二级结构关系理解预训练,在此基础上获得更具有可解释性、性能更好的亲和分数预测模型,并用于药物-蛋白亲和力的预测,以提升预测效果。

本发明采用的技术方案为:

第一方面提供了基于二级结构特征编码的药物-蛋白亲和力预测方法,其包括:

S1:获取蛋白氨基酸序列和药物SMILES序列,对蛋白氨基酸序列和药物SMILES序列进行拼接,并根据二级结构进行切分,转换得到代表蛋白和药物序列的向量X;

S2:将X进行随机掩码,得到部分二级结构掩码表示X

S3:搭建多头注意力模型,作为预测模型A,随机初始化预测模型A中的参数;

S4:将X

S5:在预测模型A的基础上增加分数拟合层,作为拟合模型B,并以训练好的模型A作为初始化参数;

S6:将X作为训练数据输入拟合模型B,对拟合模型B进行训练,以预测药物蛋白亲和分数为训练目标,直至拟合模型B收敛,得到训练好的拟合模型B;

S7:将需要预测的药物和蛋白输入训练好的拟合模型B,进行药物-蛋白亲和力预测。

在一种实施方式中,步骤S1中根据二级结构进行切分的方法为:

使用FCS算法挖掘序列中的多个二级结构,并整理得到二级结构的词表,FCS算法为二级结构挖掘算法;

将词表中的二级结构作为序列中的最小单位,并根据词表序号对蛋白氨基酸序列和药物SMILES序列中的二级结构进行替换,得到代表蛋白和药物序列的向量X。

在一种实施方式中,步骤S2中将X进行随机掩码的方法为:

通过使用预设标记对需要掩码的区域进行统一替换。

在一种实施方式中,步骤S3中搭建的多头注意力模型包括:6个堆叠的多头注意力模块,其中,每个多头注意力模块由多头注意力层,标准化层和前向传播层组成,多头注意力层用于进行注意力计算,得到输入数据的特征,标准化层用于对特征进行归一化处理,前向传播层用于将计算得到特征映射到输出空间。

在一种实施方式中,多头注意力层为由W

其中,d为模型隐藏层大小,softmax为归一化函数,W

在一种实施方式中,步骤S4中以预测掩码的二级结构为训练目标包括:将掩码位置的输出通过分类头映射为词表维度的概率,词表中每一个二级结构对应一个概率,词表中概率最高的为预测的二级结构,训练过程中的目标函数表示为:

其中,h

在一种实施方式中,步骤S6中以拟合亲和力分数为训练目标包括:将拟合模型B第一个位置的输出经过分数拟合层输出预测分数,然后计算实际亲和分数和预测的分数的差距,采用的目标函数为:

y

其中,MSE表示均方差计算,y

基于同样的发明构思,本发明第二方面提供了基于二级结构特征编码的药物-蛋白亲和力预测装置,包括:

数据获取模块,用于获取蛋白氨基酸序列和药物SMILES序列,对蛋白氨基酸序列和药物SMILES序列进行拼接,并根据二级结构进行切分,转换得到代表蛋白和药物序列的向量X;

掩码模块,用于将X进行随机掩码,得到部分二级结构掩码表示X

第一模型构建模块,用于搭建多头注意力模型,作为预测模型A,随机初始化预测模型A中的参数;

第一训练模块,用于将X

第二模型构建模块,用于在预测模型A的基础上增加分数拟合层,作为拟合模型B,并以训练好的模型A作为初始化参数;

第二训练模块,将X作为训练数据输入拟合模型B,对拟合模型B进行训练,以预测药物蛋白亲和分数为训练目标,直至拟合模型B收敛,得到训练好的拟合模型B;

预测模块,用于将需要预测的药物和蛋白输入训练好的拟合模型B,进行药物-蛋白亲和力预测。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本发明提供的基于二级结构特征编码的药物-蛋白亲和力预测方法,首先将获取的蛋白氨基酸序列和药物SMILES序列进行拼接,并根据二级结构进行切分得到代表蛋白和药物序列的向量X,然后对向量X进行随机掩码,接着将部分二级结构掩码表示输入预测模型A进行训练,预测模型A的基础上增加分数拟合层得到模型B,将向量X作为训练数据输入拟合模型B,对拟合模型B进行训练,最后将需要预测的药物和蛋白输入训练好的拟合模型B进行药物-蛋白亲和力预测。一方面,本发明提出了一种统一的编码策略,即将药物和蛋白质同时编码,通过识别序列中的多个二级结构来切分蛋白质或药物序列。另一方面本发明提出了二级结构理解预训练方法,通过设置预测被掩码的二级结构的方法来增强模型的性能。此外,本发明采用了先预训练方法和后微调的方法,有效的提升了深度学习模型在药物蛋白亲和力预测领域的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的基于二级结构特征编码的药物-蛋白亲和力预测方法的流程图;

图2为本发明实施例中序列编码以及掩码示例图;

图3为本发明实施例中模型结构图。

具体实施方式

本申请发明人通过大量的研究与实践发现:实际的药物蛋白结合过程是物理化学性质和物理结构相互吻合的二级结构相互作用。但是,现有的方法在特征编码过程中直接使用了更细粒度单位,比如原子。这种方法是与实际的生物过程不匹配的,会在计算过程中带来更多的冗余信息。其次,药物与蛋白相互作用的过程建模并不充分。前面的一些工作仅仅只是利用注意力块或矩阵乘法来计算蛋白质和药物之间的亲和力得分,这些模块的加入实验证明提升也并不明显。并且对于药物蛋白亲和分数预测而言,相互作用机制是实际生物学过程中的主要因素。

本发明的主要构思如下:

提供了一种二级结构特征编码的药物蛋白亲和分数预测方法,该方法首先采用二级结构作为最小的编码单位,并且对模型进行二级结构关系理解预训练,在此基础上获得更具有可解释性、性能更好的亲和分数预测模型(即拟合模型B),再利用训练好的模型B进行药物-蛋白亲和力的预测,提升了预测效果。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本发明实施例提供了基于二级结构特征编码的药物-蛋白亲和力预测方法,包括:

S1:获取蛋白氨基酸序列和药物SMILES序列,对蛋白氨基酸序列和药物SMILES序列进行拼接,并根据二级结构进行切分,转换得到代表蛋白和药物序列的向量X;

S2:将X进行随机掩码,得到部分二级结构掩码表示X

S3:搭建多头注意力模型,作为预测模型A,随机初始化预测模型A中的参数;

S4:将X

S5:在预测模型A的基础上增加分数拟合层,作为拟合模型B,并以训练好的模型A作为初始化参数;

S6:将X作为训练数据输入拟合模型B,对拟合模型B进行训练,以预测药物蛋白亲和分数为训练目标,直至拟合模型B收敛,得到训练好的拟合模型B;

S7:将需要预测的药物和蛋白输入训练好的拟合模型B,进行药物-蛋白亲和力预测。

具体来说,二级结构具体指蛋白质和药物中功能单位,与现有技术不同的是,本发明中蛋白的氨基酸序列是根据二级结构进行划分后再进行编码的,而不是根据每个氨基酸的种类进行编码的。

本发明采用二级结构作为最小的编码单位,搭建多头注意力模型,将X

在具体应用过程中,本发明使用基于二级结构特征编码的药物蛋白亲和分数预测方法,进行药物的虚拟筛选,为后续生物实验提供指导和减少工作量,加速新药研发。

在一种实施方式中,步骤S1中根据二级结构进行切分的方法为:

使用FCS算法挖掘序列中的多个二级结构,并整理得到二级结构的词表,FCS算法为二级结构挖掘算法;

将词表中的二级结构作为序列中的最小单位,并根据词表序号对蛋白氨基酸序列和药物SMILES序列中的二级结构进行替换,得到代表蛋白和药物序列的向量X。

其中,FCS算法的全称为Frequent Consecutive Sub-sequence(FCS)mining,具体可以参见论文MolTrans:Molecular Interaction Transformer for drug–targetinteraction prediction。通过挖掘FCS算法得到二级结构列表(词表),然后进行排序,将蛋白或者药物中出现的二级结构替换为词表中的序号,从而得到表示的向量X。

在一种实施方式中,步骤S2中将X进行随机掩码的方法为:

通过使用预设标记对需要掩码的区域进行统一替换。

具体来说,预设标记可以根据需要选取,例如可以采用一些特殊的标记。

在一种实施方式中,步骤S3中搭建的多头注意力模型包括:6个堆叠的多头注意力模块,其中,每个多头注意力模块由多头注意力层,标准化层和前向传播层组成,多头注意力层用于进行注意力计算,得到输入数据的特征,标准化层用于对特征进行归一化处理,前向传播层用于将计算得到特征映射到输出空间。

在一种实施方式中,多头注意力层为由W

其中,d为模型隐藏层大小,softmax为归一化函数,W

具体来说,Q(query)是查询向量,K(key)与V(value)是键值对,通过计算Q与K的相似度得到attention分数,attention分数与V相乘得到最后的表示。

Attention(Q,K,V)表示的是三个线性层多头中,单头的计算方式,多头是将多个单头的计算结果进行拼接。

在一种实施方式中,步骤S4中以预测掩码的二级结构为训练目标包括:将掩码位置的输出通过分类头映射为词表维度的概率,词表中每一个二级结构对应一个概率,词表中概率最高的为预测的二级结构,训练过程中的目标函数表示为:

其中,h

具体来说,分类头的功能是对最终输出的特征进行分类,多头注意力模型可以看作是特征抽取的作用,分类头对多头注意力模型抽取的特征进行分类,得到最终的结果。

在一种实施方式中,步骤S6中以拟合亲和力分数为训练目标包括:将拟合模型B第一个位置的输出经过分数拟合层输出预测分数,然后计算实际亲和分数和预测的分数的差距,采用的目标函数为:

y

其中,MSE表示均方差计算,y

下面通过具体的实施例对本发明提出的方法进行详细介绍。

请参见图1,为本发明实施例提供的基于二级结构特征编码的药物蛋白亲和分数预测方法的流程图,该方法包括以下步骤:

步骤1:将输入的蛋白氨基酸序列和药物SMILES序列进行拼接,起始位置增加特殊起始符,优选的,本实施例采用作为起始符号,中间位置增加一个特殊的分割符号,以辅助模型识别蛋白和药物序列,优选的,本实施例采用作为分隔符。进而根据二级结构进行切分,转换得到代表蛋白和药物序列的向量,记为X。

其中,根据二级结构进行切分的方法具体为:首先使用FCS算法挖掘序列中的多个二级结构,并整理得到二级结构的词表,优选的,本实施例采用的二级结构词表大小为40235。将词表中的二级结构作为序列中的最小单位,并根据词表序号对蛋白氨基酸序列和药物SMILES序列中的二级结构进行替换。

步骤2:将X进行随机掩码得到部分二级结构掩码的表示X

步骤3:搭建多头注意力模型,记做预测模型A,随机初始化预测模型A中的参数。搭建模型多头注意力模型具体为:采用6个多头注意力模块堆叠,每个多头注意力模块由多头注意力层,标准化层和前向传播层组成。多头注意力层具体是由W

其中,d为隐藏层大小,softmax为归一化函数。模型具体结构参见图3.

步骤4:输入X

其中,h

步骤5:在模型A的基础上增加分数拟合层,记做拟合模型B,并以训练好的模型A作为初始化参数。

步骤6:输入X,训练拟合模型B,以预测药物蛋白亲和分数为训练目标,直至模型收敛。优选的,训练轮数设置为30。

步骤7:将需要预测的药物和蛋白输入模型B,并预测得到亲和分数。

以拟合亲和分数为训练目标具体指:将模型B第一个位置的输出经过分数拟合层输出预测分数,然后计算实际亲和分数和预测的分数的差距,目标函数为:

y

其中,MSE是指均方差计算,y

其中,训练过程均基于随机梯度下降算法,采用Adam优化器,学习率指数衰减,优选地,初始学习率取值为0.00001,batch_size取值为8。优选的,训练集大小为:263584,测试集大小为:113168,均为筛选来自BindingDB、STITCH和UniRef数据库。下表展示了本实施例的实验结果,以及其他方法的结果:

其中Ridge Regression是回归模型中常用的一种方法;RMSE是均方差,该指标越小表示模型预测的越准确;r是皮尔逊相关系数,该指标越大表示模型预测越准确。以上实验结果也证明了本发明的效用。

与现有技术相比较,本发明的有益效果在于:

1.本发明提出了一种统一的编码策略,即将药物和蛋白质同时编码,通过识别序列中的多个二级结构来切分蛋白质或药物序列。

2.本发明提出二级结构理解预训练方法,通过设置预测被掩码的二级结构的方法来增强模型的性能。

3.本发明采用了先预训练方法和后微调的方法,有效的提升了深度学习模型在药物蛋白亲和分数预测领域的效果。

实施例二

基于同样的发明构思,本实施例提供了基于二级结构特征编码的药物-蛋白亲和力预测装置,包括:

数据获取模块,用于获取蛋白氨基酸序列和药物SMILES序列,对蛋白氨基酸序列和药物SMILES序列进行拼接,并根据二级结构进行切分,转换得到代表蛋白和药物序列的向量X;

掩码模块,用于将X进行随机掩码,得到部分二级结构掩码表示X

第一模型构建模块,用于搭建多头注意力模型,作为预测模型A,随机初始化预测模型A中的参数;

第一训练模块,用于将X

第二模型构建模块,用于在预测模型A的基础上增加分数拟合层,作为拟合模型B,并以训练好的模型A作为初始化参数;

第二训练模块,将X作为训练数据输入拟合模型B,对拟合模型B进行训练,以预测药物蛋白亲和分数为训练目标,直至拟合模型B收敛,得到训练好的拟合模型B;

预测模块,用于将需要预测的药物和蛋白输入训练好的拟合模型B,进行药物-蛋白亲和力预测。

由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于二级结构特征编码的药物-蛋白亲和力预测方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该装置的具体结构,在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

技术分类

06120114697081