掌桥专利:专业的专利平台
掌桥专利
首页

一种基于口袋电子密度生成配体的生成方法和生成系统

文献发布时间:2023-06-19 18:35:48


一种基于口袋电子密度生成配体的生成方法和生成系统

技术领域

本发明涉及药物成分分析技术领域,具体涉及一种基于口袋电子密度生成配体的生成方法和生成系统。

背景技术

在药物设计领域,针对特定的靶点蛋白生成与之结合的配体分子,一直是研究的热门,近些年有大量针对smiles结构式,2D图(graph)结构的研究。但这些分子表示方式缺乏空间结构信息,尤其当进行靶向药物(靶向药物是指被赋予了靶向能力的药物或其制剂。其目的是使药物或其载体能瞄准特定的病变部位,并在目标部位蓄积或释放有效成分。)研究时,这些分子表示方式会导致生成的分子大小和形状都很难与靶点相契合。因此,在最近的研究中,结合深度学习,基于3D逻辑云表示的3D分子成为一个新的热点。但是为了区分不同原子和化学性质,在深度学习模型的输入中,现有技术会使用多个通道表示不同元素类型,或使用多个表示化学性质的通道(氢键受体,氢键供体,芳香体系等),并没有充分的考虑靶点特征。因此,如何在考虑靶点蛋白特征的情况下,准确的生成对应的配体小分子药物,是目前的还未解决的难题。

发明内容

有鉴于此,本发明实施方式提供了一种基于口袋电子密度生成配体的生成方法和生成系统,从而提高了生成的配体小分子与口袋结合的契合度。

根据第一方面,一种基于口袋电子密度生成配体的生成方法,所述方法包括:

获取目标口袋电子密度;

将所述目标口袋电子密度输入预设的最优配体密度推断模型,生成预测配体电子密度,所述预设的最优配体密度推断模型基于真实口袋电子密度和真实配体电子密度训练生成;

将所述预测配体电子密度输入预设的条件生成模型,生成多个相似配体电子密度,所述预设的条件生成模型基于小分子样本训练生成;

利用预设的解析模型解析所述多个相似配体电子密度生成目标原子信息,所述预设的解析模型基于小分子样本训练生成,所述目标原子信息包括目标原子的原子位置和原子类型;

根据所述目标原子信息搭建目标配体分子。

可选地,基于真实口袋电子密度和真实配体电子密度训练生成所述预设的最优配体密度推断模型的步骤,包括:

获取训练样本,所述训练样本包括所述真实口袋电子密度和所述真实配体电子密度,所述真实配体电子密度为所述真实口袋电子密度的标签;

将所述训练样本输入生成对抗网络中的生成器,得到第二预测配体电子密度;

将所述真实配体电子密度与真实口袋电子密度建立连接获得正样本,并将所述第二预测配体电子密度与真实口袋电子密度建立连接获得负样本;

标记所述正样本为真,并标记所述负样本为假;

将所述正样本和所述负样本分别输入所述生成对抗网络中的判别器以得到判别结果,并根据所述判别结果和对应标记之间的误差计算预设损失函数的结果;

根据所述预设损失函数的结果调整所述生成器的参数和/或所述判别器的参数;

判断训练次数和/或所述预设损失函数的结果是否满足预设条件;若训练次数和/或所述预设损失函数的结果不满足预设条件,重复从所述获取训练样本,到所述根据所述预设损失函数的结果调整所述生成器的参数和/或所述判别器的参数的步骤,直至训练次数和/或所述预设损失函数的结果满足预设条件;

将满足预设条件时的生成器作为所述最优配体密度推断模型。

可选地,所述获取训练样本,包括:

将所述真实口袋电子密度和对应的所述真实配体电子密度离散化得到离散样本;

将所述离散样本进行归一化处理和空间变换处理得到所述训练样本。

可选地,根据所述判别结果和对应标记之间的误差计算预设损失函数的结果,包括:

基于第二预测配体电子密度的梯度和真实配体电子密度的梯度之间的相似度,计算第一损失函数的结果,所述第一损失函数用于调整生成器的参数;

基于参考位置的真实配体电子密度和第二预测配体电子密度之间的相似度,计算第二损失函数的结果,所述第二损失函数用于调整生成器的参数,所述参考位置是真实配体电子密度中非共价相互作用所在的位置;

基于所述判别结果和真实结果的均衡程度,计算第三损失函数的结果,所述第三损失函数用于同时调整判别器和生成器的参数;

基于第二预测配体电子密度和真实配体电子密度之间的相似度,计算第四损失函数的结果,所述第四损失函数用于调整生成器的参数;

根据生成器和判别器的类型将所述第一损失函数、第二损失函数、第三损失函数和第四损失函数的结果相加得到所述预设损失函数的结果。

可选地,基于小分子样本训练生成所述预设的条件生成模型的步骤,包括:

基于所述小分子样本生成条件训练样本;

根据所述条件训练样本训练变分自编码器,以对所述条件训练样本的概率分布进行学习;

将学习结束时的变分自编码器作为所述条件生成模型。

可选地,所述基于所述小分子样本生成条件训练样本,包括:

获取所述小分子样本的结构模型;

统计所述结构模型中的原子坐标;

将所述原子坐标从实空间转换到频域空间生成结构因子;

以预设分辨率调整所述结构因子返回实空间,以生成电子密度格点信息,并将所述电子密度格点信息作为所述条件训练样本,所述预设分辨率为预设的频域空间向量分量的求和范围。

可选地,在所述利用预设的解析模型解析所述多个相似配体电子密度生成目标原子信息之后,所述方法还包括:

根据预设化学规则修正所述原子位置和原子类型。

根据第二方面,一种基于口袋电子密度生成配体的生成系统,所述系统包括:

信息采集模块,用于获取目标口袋电子密度;

配体电子密度推断模块,用于将所述目标口袋电子密度输入预设的最优配体密度推断模型,生成预测配体电子密度,所述预设的最优配体密度推断模型基于真实口袋电子密度和真实配体电子密度训练生成;

配体电子密度扩展模块,用于将所述预测配体电子密度输入预设的条件生成模型,生成多个相似配体电子密度,所述预设的条件生成模型基于小分子样本训练生成;

原子解析模块,用于利用预设的解析模型解析所述多个相似配体电子密度生成目标原子信息,所述预设的解析模型基于小分子样本训练生成,所述目标原子信息包括目标原子的原子位置和原子类型;

配体生成模块,用于根据所述目标原子信息搭建目标配体分子。

根据第三方面,一种电子设备,包括:

存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。

根据第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。

本发明技术方案,具有如下优点:

本发明实施例提供的一种基于口袋电子密度生成配体的生成方法和生成系统。该方法首先利用真实口袋电子密度和真实配体电子密度训练出最优配体密度推断模型,从而利用口袋电子密度推断出较好的预测配体电子密度。之后利用条件生成模型生成多个和预测配体密度类似的相似配体密度,从而扩充了分析样本,最后将多个相似配体密度输入到解析模型中,得到目标配体分子中原子的原子坐标和原子类型,从而根据化学规则将所得原子连接起来即可获得目标配体分子。通过上述方法基于电子密度得到的目标配体分子,包含了完备的口袋拓扑特征,从而生成的目标配体分子更为准确,使其能够与蛋白口袋更加紧密的结合,在药物研发分析领域,精确结合口袋的配体靶向药物使得药效大幅度提高。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种基于口袋电子密度生成配体的生成方法的步骤示意图;

图2为本发明实施例的一种基于口袋电子密度生成配体的生成系统的结构示意图;

图3为本发明实施例的一种电子设备的结构示意图;

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

如图1所示,本发明实施例提供的一种基于口袋电子密度生成配体的生成方法,具体包括如下步骤:

步骤S101:获取目标口袋电子密度。具体地,蛋白质是由多种氨基酸构成的,与配体能够互相结合的氨基酸即为口袋,也就是靶点蛋白。针对口袋制作小分子药物,即生成与分子口袋能够结合的配体分子。为了使生成的配体分子与口袋的契合度更高,充分考虑口袋的特征是至关重要的。而电子密度其本身的获取需要结合原子位置,元素类型等因素,因此在本发明实施例中,使用同时包含元素类型和化学性质信息的电子密度来表示目标分子,这种表示方法相对于使用3D逻辑云对于化学性质的表征更为优秀,更节省计算资源。并且由口袋的电子密度生成的分子,可以很好的考虑到小分子与口袋形状的契合度,并且对提高活性影响极大的非共价相互作用(Non-covalent Interactions,NCI)区域有明显的侧重,同时可以生成合法的分子构象。因此,在生成目标配体分子之前,首先需要获取目标分子中口袋的电子密度,即目标口袋电子密度,其中目标口袋电子密度的获取方法包括但不限于实验法和计算法。

步骤S102:将目标口袋电子密度输入预设的最优配体密度推断模型,生成预测配体电子密度,预设的最优配体密度推断模型基于真实口袋电子密度和真实配体电子密度训练生成。具体地,在深度学习领域,无监督学习一直是研究热门,通过获取已知对象的特征信息,并使用无监督的机器学习模型生成与已知对象相似的新对象,在多种科学领域有着重要的应用价值。针对本发明的技术领域,通过无监督学习模型使用已知分子口袋(蛋白口袋)的电子密度(即用来表示分子口袋特征的量)生成符合该特征的、并且能够与已知分子口袋相结合的配体分子,在新药物研发的过程中有着重大应用价值。本发明实施例基于但不限于生成对抗网络(Generative Adversarial Networks,GAN)模型建立最优配体密度推断模型,实现生成口袋电子密度对应的预测配体密度的功能,之后再对预测配体密度进行解析,从而得到与预测配体密度相对应的配体分子。

步骤S103:将预测配体电子密度输入预设的条件生成模型,生成多个相似配体电子密度,预设的条件生成模型基于小分子样本训练生成。具体地,由于口袋-配体这种成对数据获取难度较大,从而口袋-配体结构的电子密度数据过于少,从而通过最优配体密度推断模型得到的同种结构但是不同表现形式的预测配体密度数量较少;另一方面由于基于GAN得到预测配体密度是对潜变量的分布隐式建模,整个GAN训练完后我们是不知道潜变量具体分布是怎么样的,也就无法随心所欲生成想要的配体电子密度,我们只能任意的输入一个噪声,然后网络的生成数据看起来像训练数据集中的数据,这样的数据具有局限性,所以直接利用该预测结果构建配体分子难免出现误差。因此如何把得到的预测结果进行合理的扩充是一个需要解决的问题。在新药研发的过程中,生成满足靶点特征的配体分子越多,对于后续的实验分析越有利,其结论可靠性越高。本发明实施例基于变分自编码器(variational auto-encoder,VAE),建立条件生成模型,本发明并不以此为限。该模型使用大量小分子样本训练得到,而大量的单一小分子样本是很容易得到的,因此通过大量的训练样本可以训练出一个完备的变分自编码器,从而根据一个配体电子密度得到多种多样的类似配体电子密度。在步骤S102得到预测配体电子密度之后,通过条件生成模型得到与预测配体电子密度非常相似的,并且满足靶点特征和电子密度规律的多个相似配体电子密度。由于VAE是对潜变量的分布显式建模,我们训练完VAE后是可以得到潜变量的具体分布的,因此也就可以指定生成的数据的样子。本发明实施例采用GAN先生成较为准确的预测配体电子密度之后,再利用VAE对预测配体电子密度进行扩展,从而得到满足靶点特征的多个合法配体电子密度,扩展了数据的表征形式,利用多通道数据提高了后续生成配体分子的可靠性和准确性。

步骤S104:利用预设的解析模型解析多个相似配体电子密度生成目标原子信息,预设的解析模型基于小分子样本训练生成,目标原子信息包括目标原子的原子位置和原子类型。具体地,在本发明实施例中,电子密度是一种在三维空间上的图的表现形式,因此在获取了多个合法配体电子密度图之后,通过解析电子密度值在图中的强度大小、与NCI的联系,并将多个解析结果综合比对、剔除误差点,即可得到目标配体分子中包含的所有目标原子,及其相应的原子位置和原子类型。进而按照化学物质的组合规则,即可将得到的原子连接起来获取最终的目标配体分子。本发明采用的解析模型包括但不限于:Vnet、Transformer关键点识别模型,模型通过大量小分子样本训练得到,该模型输入是小分子的电子密度,输出是对应的小分子构象(包括原子位置和原子类型)。利用上述识别模型识别关键点的具体过程为现有技术,本发明不再赘述。

步骤S105:根据目标原子信息搭建目标配体分子。具体地,利用步骤S104中得到的目标原子信息,利用化学物质的连接规则,即可将相关的原子连接起来,从而搭建成最终的目标配体分子。本发明实施例中原子的连接在openbabel软件中完成,具体连接规则为现有技术,本发明不再赘述。

具体地,在一实施例中,一种基于口袋电子密度生成配体的生成方法,在步骤S104之后,还包括如下步骤:

步骤S106:根据预设化学规则修正原子位置和原子类型。具体地,虽然解析模型中的关键点识别技术已经很成熟,通过解析模型得到的原子位置和原子类型虽然准确率已经很高,但是其中无可避免地会出现原子位置和原子类型解析错误的情况。因此,在一实施例中,本发明进一步使用基于键长和键角传统化学规则对识别出来的原子位置和原子类型进行纠正,从而提高了得到的目标配体分子的准确度。在本发明实施例中,根据预设化学规则进行原子位置和原子类型修正的步骤如下:

1.输入原子位置、元素类型和置信度(置信度表示某一位置存在原子的可能性)

2.基于dbscan技术对生成的点进行聚类,将距离相近的点聚为一个簇,以减少冗余的点

3.对于任意一个簇,选取该簇中置信度最高的点作为起始点,清除该簇中其它的点

4.依据键长和键角规则,选取当前簇所连接的相邻簇

5.依据键长和键角规则,选取并微调相邻簇中符合键长键角的点,并清除该簇中其它的点,簇中元素类别最多的类为该簇的元素类型

6.重复步骤4~5,直到连接完所有簇为止

7.使用openbabel软件连接选取的原子点

具体地,在一实施例中,针对上述步骤S102中的最优配体密度推断模型,其训练过程具体包括如下步骤:

步骤S201:获取训练样本,训练样本包括真实口袋电子密度和真实配体电子密度,真实配体电子密度为真实口袋电子密度的标签。具体地,在训练之前首先获取训练模型所需的训练样本,在本发明实施例中,基于GAN建立配体预测模型,GAN中包含生成器和判别器,以真实配体电子密度为目标,生成器需要根据真实口袋电子密度生成与目标类似的预测配体电子密度,因此一个训练样本中包含真实口袋电子密度和真实配体电子密度,并将真实配体电子密度作为真实口袋电子密度的标签,从而进行有监督训练。具体地,获取真实口袋电子密度和真实配体电子密度的方法包括但不限于实验方法和计算方法,常用的方法有:基于X-射线晶体学实验获得电子密度的方法、基于电子显微镜实验获得电子密度的方法和基于量子化学计算得到电子密度的方法。

步骤S202:将训练样本输入生成对抗网络中的生成器,得到第二预测配体电子密度。具体地,生成对抗网络是在生成器和判别器进行对抗的过程中完成训练的,生成器的目的是生成越来越逼真的配体电子密度,判别器需要判断出真实电子密度为真,并且判别出生成器生成的预测电子密度为假。当判别出第二预测配体电子密度的结果为假时,说明生成器生成的配体电子密度还不够逼真,从而对生成器进行参数调节;当判别器判别第二预测配体电子密度的结果为真时,说明判别器的判别能力不够强,分辨不出来假密度,从而对判别器进行参数调节;此外,在判别器判别真实配体电子密度时,当判别结果为假,说明判别器判别不出来真的电子密度,需要对判别器的参数进行调节,但满足预设条件时训练停止,生成对抗网络即可以视为训练完成。所以,本发明实施例中,将真实口袋电子密度输入生成器,并将得到的结果即第二预测配体电子密度,对判别器进行训练,从而实现对生成器和判别器参数的调节。

步骤S203:将真实配体电子密度与真实口袋电子密度建立连接获得正样本,并将第二预测配体电子密度与真实口袋电子密度建立连接获得负样本;标记正样本为真,并标记负样本为假。具体地,对判别器进行训练时,使用了真实配体电子密度和第二预测配体电子密度,判别器充分考虑口袋与配体的结合特性,需要判断出生成器生成的第二预测配体电子密度是假结果,获取的真实配体电子密度是真结果,因此本步骤针对上述两种电子密度进行打标签。

步骤S204:将正样本和负样本分别输入生成对抗网络中的判别器以得到判别结果,并根据判别结果和对应标记之间的误差计算预设损失函数的结果。具体地,根据判别器是否能够做出正确判断,结合步骤S202中描述的判别器原理,利用判别结果和对应标记之间的误差计算预设损失函数的结果,当预损失设函数越来越小时,即表明该模型的训练效果正在变准确,从而尽可能的保证预设损失函数下一次结果均比上一次结果小,依据此标准调整生成器和/或判别器的参数。

步骤S205:根据预设损失函数的结果调整生成器的参数和/或判别器的参数。具体地,参数调节的具体原理参见步骤S202,在此不再赘述。

步骤S206:判断训练次数和/或预设损失函数的结果是否满足预设条件;若训练次数和/或预设损失函数的结果不满足预设条件,重复从获取训练样本,到根据预设损失函数的结果调整生成器的参数和/或判别器的参数的步骤。具体地,在一次参数调整之后,若不满足预设条件,则返回步骤S201,重复步骤S201~S205的操作,使用新的正样本并得到新的负样本,利用新样本再次对生成器和判别器的参数进行调整。预设条件包括但不限于在完成指定训练次数循环后训练停止(例如执行1000次训练循环,结束训练)、损失函数在减小时趋于稳定时训练停止和损失函数的值在小于一个指定值时停止训练。在本发明实施例中,设置为当生成器的损失函数出现连续十次,每次的结果相较于上一次结果变化不超过2%时停止训练,结束调整生成器和判别器的参数。

步骤S207:将满足预设条件时的生成器作为最优配体密度推断模型。具体地,满足预设条件时的生成器,即可实现输入目标口袋电子密度,输出预测配体电子密度的功能。判别器只起训练生成器的作用,对预测配体电子密度的结果不起作用,因此将生成器作为最优配体密度推断模型。在本发明实施例中,使用的是GAN家族中的pixel2pixel网络进行步骤S201~206的训练,本发明并不以此为限。

具体地,在一实施例中,上述步骤S201,具体包括如下步骤:

步骤S301:将真实口袋电子密度和对应的真实配体电子密度离散化得到离散样本。具体地,电子密度图是在空间上的连续函数,利用电子密度进行训练需要将连续数据转换为离散数据,本发明实施例中,在空间中以0.5×0.5×0.5(单位:埃米)范围为间隔将训练样本的输入和标签(即真实口袋电子密度和对应的真实配体电子密度)存入三维矩阵中,得到离散训练样本。

步骤S302:将离散样本进行归一化处理和空间变换处理得到训练样本。具体地,电子密度值范围通常在1-100范围之间,为了简化神经网络模型的计算,提高计算效率,将离散样本中的电子密度值进行归一化。之后选定随机角度和随机方向,以三维矩阵的中心为旋转中心,对真实口袋电子密度和真实配体电子密度进行相同的旋转和平移,从而增加训练样本的表现形式,提高模型训练的准确度。

具体地,在一实施例中,上述步骤S204中计算预设损失函数的结果,具体包括如下步骤:

步骤S303:基于第二预测配体电子密度的梯度和真实配体电子密度的梯度之间的相似度,计算第一损失函数的结果,第一损失函数用于调整生成器的参数。具体地,分别计算第二预测配体电子密度的梯度和真实配体电子密度的梯度,之后根据梯度的相似程度设立损失函数,预设相似阈值,本发明实施例采用计算两个梯度的均方误差方法表征相似程度,令均方误差小于预设相似阈值作为停止训练的依据之一。通过电子密度梯度设置损失函数以便生成器更好的学习到密度的拓扑特征。

步骤S304:基于参考位置的真实配体电子密度和第二预测配体电子密度之间的相似度,计算第二损失函数的结果,第二损失函数用于调整生成器的参数,参考位置是真实配体电子密度中非共价相互作用所在的位置。具体地,在本实施例中,设置NCILoss作为第二损失函数,首先使用正方体表示NCI区域(即参考位置),以真实配体分子上参与NCI作用的原子中心为正方体中心,以x倍的共价半径长为立方体的边长(x一般取大于1的值),取得的立方体即为NCI区域。接下来,在真实配体分子中,计算NCI区域内真实配体电子密度与预测配体电子密度的相似度(如MSE),即为NCILoss,令计算得到的相似度与预设相似度的误差小于指定值作为停止训练的依据之一。通过结合NCI位置设置NCILoss,考虑了更多分子内的NCI拓扑特征,使得训练好的配体推断模型能够推断出特征更加完善的预测配体电子密度。

步骤S305:基于判别结果和真实结果的均衡程度,计算第三损失函数的结果,第三损失函数用于同时调整判别器和生成器的参数。具体地,第三损失函数具体包括:根据正样本的判别结果误差设立的损失函数、根据负样本的判别结果误差设立的损失函数。令损失函数结果变化趋于稳定作为停止训练的依据之一,原理参考步骤S202,具体损失函数模型可以选择常用的diceIOU、patchGAN Loss,本发明并不以此为限,具体计算步骤在此不再赘述。

步骤S306:基于第二预测配体电子密度和真实配体电子密度之间的相似度,计算第四损失函数的结果,第四损失函数用于调整生成器的参数。具体地,通过生成器生成的电子密度结果和真实的电子密度标签之间误差设置第四损失函数,进一步提高停止训练的标准,保证模型训练的准确性。

步骤S307:根据生成器和判别器的类型将第一损失函数、第二损失函数、第三损失函数和第四损失函数的结果相加得到预设损失函数的结果。

具体地,本发明实施例通过上述步骤S303~S306设置的四类损失函数,建立模型训练标准。当基于上述四类损失函数建立的生成器和判别器损失函数满足步骤S206中预设损失函数的预设条件时停止训练,或者在训练指定次数后停止训练。其中生成器与判别器的损失函数公式如下:

L

生成器的损失函数L

L

判别器的损失函数L

具体地,在一实施例中,针对上述步骤S103中的条件生成模型,其训练过程具体包括如下步骤:

步骤S208:基于小分子样本生成条件训练样本。具体地,为了提高基于变分自编码器的生成模型的准确度,便于应用于药物研发领域,需要大量类药配体小分子样本对变分自编码器模型进行训练,针对每一个样本学习其独特的概率分布,因此样本量越多,得到的概率分布越多,从而在接收到新样本时,可以找到更准确的概率分布,并生成多个和新样本类似的、符合拓扑特征以及化学规则的合法配体电子密度。在一实施例中,通过类药数据集制作训练数据,首先使用openbabel等软件将表示配体分子的smiles表达式采样成多个合理的分子构象,之后计算分子构象对应的电子密度,作为训练集。

步骤S209:根据条件训练样本训练变分自编码器,以对条件训练样本的概率分布进行学习。通过大量的条件训练样本对变分自编码器进行训练,将条件训练样本作为输入,并将其本身作为目标,令通过编码器和解码器的输出结果与其自身无限接近,从而在训练结束时得到一组编码器和解码器,这组编码器和解码器就组成了变分自编码器。从而在学习完成后,可以根据GAN得到的预测配体电子密度生成多个复合该预测配体电子密度概率分布的相似配体电子密度。使用VAE学习多种样本概率分布的具体过程为现有技术,本发明不再赘述。

步骤S210:将学习结束时的变分自编码器作为条件生成模型。

具体地,在一实施例中,上述步骤S208具体包括如下步骤:

步骤S211:获取小分子样本的结构模型。具体地,使用openbabel等软件将表示配体分子的小分子样本(smiles表达式)采样成多个合理的分子构象(即结构模型),之后计算分子构象对应的电子密度,将大量计算的电子密度结果作为训练集,即可获得包含大量条件训练样本的集合。

步骤S212:统计结构模型中的原子坐标;

步骤S213:将原子坐标从实空间转换到频域空间生成结构因子;

步骤S214:以预设分辨率调整结构因子返回实空间,以生成电子密度格点信息,并将电子密度格点信息作为条件训练样本,预设分辨率为预设的频域空间向量分量的求和范围。

具体地,针对上述步骤S212~214,通过软件得到的大量小分子结构模型的电子密度是无法通过实验获得的,并且基于量子化学计算得到的电子密度过于注重小分子体系,往往忽略了大分子体系中小分子体系之间的联系,因此若从宏观角度出发,其计算结果往往出错。基于此,本发明提供的标注方法提供了一种获得电子密度的优选方案:基于晶体学理论计算得到电子密度的方法,首先将原子坐标信息从实空间(实体空间)转换到频域空间,晶格对电磁波衍射得到的就是频域空间的图案,频域空间不仅延续了实空间里晶格的对称性以及分子结构和理化性质等信息,而且还把实空间分子的“细节程度”按照不同的“频率”分解开来,即频域空间中频率高的信息反应实空间中分子的细节,而频率低的信息反应实空间中分子的粗轮廓。将频域空间中的信息按频率进行过滤后,再变换回实空间,就得到了“不同细节程度”的分子表示。具体来说,将实空间的分子坐标信息做傅里叶变换,得到频域空间转换后的结果(在本发明实施例中称为结构因子),再以预设频率范围对频域空间向量进行反傅里叶变换即可回到实空间,将实空间的分子坐标信息先变换到频域空间再转换回实空间所得到的值,即为电子密度格点信息。

具体地,采用基于傅里叶变换的方式实现原子坐标信息从实空间转换到频域空间生成结构因子,首先获取目标分子结构的原子坐标信息,原子坐标信息是目标分子结构中大量的原子空间坐标组成的集合,之后,利用傅里叶变换公式将原子坐标信息从实空间转换到频域空间生成结构因子,在本发明实施例中利用傅里叶变换根据原子坐标信息计算结构因子,具体转换公式如下:

其中,r代表原子坐标信息,x、y、z分别代表原子坐标信息的三个分量,f

其中,f(bulk solvent)为溶剂外壳描述函数,bulksolvent称为溶剂外壳,f(b)为温度因子描述函数,b称为温度因子,温度因子用于度量晶体中原子热运动的程度,溶剂外壳描述了溶剂对于衍射的贡献。

之后以预设分辨率调整结构因子返回实空间,以生成电子密度格点信息。

具体计算公式如下:

其中,r代表原子坐标信息,s代表频域空间向量,h、k、l分别代表频域空间向量的三个分量,F(s)为s向量的结构因子,ρ(r)代表电子密度格点信息,Vcell代表晶胞体积,2πi为虚数,预设分辨率由预设的h、k、l求和范围得到。具体地,其中预设分辨率是由预设频域空间向量的分量求和范围得到的,也就是通过变化h,k,l的求和范围,可以获得不同分辨率的电子密度。分辨率越高得到的电子密度图越清晰,其原子间的键表述的更准确;分辨率越低,得到的电子密度图越模糊,但是分子整体的框架表述更准确。基于晶体学理论计算电子密度的方法,不仅更多的考虑了大分子体系下原子之间的宏观联系,并且通过调整不同的预设分辨率,得到细节程度不同的电子密度图,从而可以得到多种分辨率条件下的电子密度图。之后通过将目标分子结构划分为预设数量的格点形式,并将格点的x、y、z坐标带入电子密度格点信息函数ρ(r),从而对应的将电子密度图划分为离散的格点形式,得到了电子密度格点信息。通过不同分辨率电子密度格点信息获得的最终鞍点位置也不同,从而通过分析和比对高分辨率下的鞍点位置和低分辨率下的鞍点位置,还能够在宏观和微观的角度下实现剔除噪声的目的,使得识别结果更加准确。

通过执行上述各个步骤,本发明实施例提供的一种基于口袋电子密度生成配体的生成方法,首先将口袋电子密度输入配体推断模型获得预测配体电子密度,之后使用扩展推断模型得到多个符合预测配体电子密度特征的合法配体电子密度,增加了样本数量,最后利用解析模型解析出合法配体电子密度中的关键点得到想要生成的目标配体分子中的原子位置和原子类型,从而根据化学物质的连接规则将得到的原子位置和原子类型连接起来,即可获取目标配体分子。由上述方法得到的目标配体分子,基于电子密度的特性,充分考虑了蛋白口袋的拓扑特征以及空间结构,使得生成的目标配体分子和靶点蛋白(口袋)的契合度更高,更准确。将本发明提供的方法应用在药物设计领域,将会大大减小配体小分子药物的设计难度,提高了小分子药物锚定受体的准确率,从而提高治疗药效。

如图2所示,本实施例还提供了一种基于口袋电子密度生成配体的生成系统,该系统包括:

信息采集模块101,用于获取目标口袋电子密度。详细内容参见上述方法实施例中步骤S101的相关描述,在此不再进行赘述。

配体电子密度推断模块102,用于将目标口袋电子密度输入预设的最优配体密度推断模型,生成预测配体电子密度,预设的最优配体密度推断模型基于真实口袋电子密度和真实配体电子密度训练生成。详细内容参见上述方法实施例中步骤S102的相关描述,在此不再进行赘述。

配体电子密度扩展模块103,用于将预测配体电子密度输入预设的条件生成模型,生成多个相似配体电子密度,预设的条件生成模型基于小分子样本训练生成。详细内容参见上述方法实施例中步骤S103的相关描述,在此不再进行赘述。

原子解析模块104,用于利用预设的解析模型解析多个相似配体电子密度生成目标原子信息,预设的解析模型基于小分子样本训练生成,目标原子信息包括目标原子的原子位置和原子类型。详细内容参见上述方法实施例中步骤S104的相关描述,在此不再进行赘述。

配体生成模块105,用于根据目标原子信息搭建目标配体分子。详细内容参见上述方法实施例中步骤S105的相关描述,在此不再进行赘述。

本发明实施例提供的一种基于口袋电子密度生成配体的生成系统,用于执行上述实施例提供的一种基于口袋电子密度生成配体的生成方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。

图3示出了本发明实施例的一种电子设备,该设备包括:处理器901和存储器902,可以通过总线或者其他方式连接,图3中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。

本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

技术分类

06120115626767