掌桥专利:专业的专利平台
掌桥专利
首页

一种口袋内分子生成模型的训练方法及装置

文献发布时间:2024-04-18 19:52:40



技术领域

本申请涉及人工智能技术领域,特别是涉及一种口袋内分子生成模型的训练方法及装置。

背景技术

分子从头设计是理性药物设计当中的重要一环。依据分子生成的原理划分,可以分为基于配体的方法和基于结构的方法。但是目前的分子生成模型大部分通过学习一个化学隐空间,然后采样出新的二维分子,属于基于配体的方法。这些方法无法显式地捕捉到小分子和蛋白口袋结构的相互作用,从而使得模型无法针对某个蛋白靶标进行药物设计。同时,这些模型面临过拟合,难以泛化的问题。

目前基于深度学习框架的全新药物设计方法按照模型的底层逻辑可以分为两类:第一类是基于配体的全新药物设计方法;第二类是基于口袋的全新药物设计方法。

然而,基于配体的分子生成的主要问题是:1)忽略了分子的立体构象及与蛋白口袋内的结合模式;2)没有底层物理的支持,模型面临过拟合,泛化能力低以及生成的分子合理但并不针对特定靶标。而目前已有的基于结构的分子生成的主要问题在于:1)模型无法有效捕捉和蛋白质口袋之间的作用力模式,生成的分子结构不合理,亲和力无法超过原位配体;2)主流方法只能预测分子的二维结构,并不能产生对应的分子和口袋的结合模式。

发明内容

本申请实施例所要解决的技术问题是提供一种口袋内分子生成模型的训练方法及装置,以实现在指定需要进行药物设计的蛋白靶标结构生成对应的活性分子及其构象的目的。

第一方面,本申请实施例提供了一种口袋内分子生成模型的训练方法,所述方法包括:

获取训练数据,所述训练数据包括:蛋白分子的蛋白口袋拓扑文件;

将所述蛋白口袋拓扑文件输入至待训练口袋内分子生成模型,所述待训练口袋内分子生成模型包括:相互作用学习网络层和生成网络层;

调用所述相互作用学习网络层对所述蛋白口袋拓扑文件中的口袋表面特征进行处理,得到所述蛋白分子的口袋表面对应的相互作用特征;

调用所述生成网络层对所述相互作用特征和所述口袋表面特征进行处理,得到所述口袋表面对应的预测结构特征;

基于所述预测结构特征,计算得到所述待训练口袋内分子生成模型的损失值;

在所述损失值处于预设范围内的情况下,将训练后的待训练口袋内分子生成模型作为所述口袋内分子生成模型。

可选地,所述口袋表面特征包括:表面电荷特征、氢键势特征、疏水相互作用特征、高斯曲率特征、平均曲率特征和形状指数特征中的至少一种。

可选地,所述相互作用学习网络层包括:第一GNN网络层和第二GNN网络层,

所述调用所述相互作用学习网络层对所述蛋白口袋拓扑文件中的口袋表面特征进行处理,得到所述蛋白分子的口袋表面对应的相互作用特征,包括:

调用所述第一GNN网络层对所述口袋表面特征进行处理,得到所述口袋表面对应的拓扑相互作用特征;

调用所述第二GNN网络层对所述口袋表面特征和所述拓扑相互作用特征进行处理,得到所述口袋表面对应的几何相互作用特征;

将所述拓扑相互作用特征和所述几何相互作用特征作为所述相互作用特征。

可选地,所述生成网络层包括:拓扑生成模块和几何生成模块,

所述调用所述生成网络层对所述相互作用特征和所述口袋表面特征进行处理,得到所述口袋表面对应的预测结构特征,包括:

调用所述拓扑生成模块对所述相互作用特征和所述口袋表面特征进行处理,得到所述口袋表面对应的预测拓扑结构特征;

调用所述几何生成模块对所述相互作用特征、所述口袋表面特征和所述预测拓扑结构特征进行处理,得到所述口袋表面对应的预测几何结构特征;

将所述预测拓扑结构特征和所述预测几何结构特征作为所述预测结构特征。

可选地,所述预测拓扑结构特征包括:原子类型特征和键连关系特征,所述预测几何结构特征包括:原子位置特征。

可选地,在所述将训练后的待训练口袋内分子生成模型作为所述口袋内分子生成模型之后,还包括:

获取待预测蛋白靶标对应的目标蛋白口袋拓扑文件;

将所述目标蛋白口袋拓扑文件输入至所述口袋内分子生成模型;

调用所述相互作用学习网络层对所述目标蛋白口袋拓扑文件中的目标口袋表面特征进行处理,得到所述待预测蛋白靶标的口袋表面对应的目标相互作用特征;

调用所述生成网络层对所述目标相互作用特征和所述目标口袋表面特征进行处理,得到所述目标口袋表面对应的目标预测结构特征;

根据所述目标预测结构特征,确定所述待预测蛋白靶标对应的预测蛋白分子。

第二方面,本申请实施例提供了一种口袋内分子生成模型的训练装置,所述装置包括:

训练数据获取模块,用于获取训练数据,所述训练数据包括:蛋白分子的蛋白口袋拓扑文件;

拓扑文件输入模块,用于将所述蛋白口袋拓扑文件输入至待训练口袋内分子生成模型,所述待训练口袋内分子生成模型包括:相互作用学习网络层和生成网络层;

相互作用特征获取模块,用于调用所述相互作用学习网络层对所述蛋白口袋拓扑文件中的口袋表面特征进行处理,得到所述蛋白分子的口袋表面对应的相互作用特征;

预测结构特征获取模块,用于调用所述生成网络层对所述相互作用特征和所述口袋表面特征进行处理,得到所述口袋表面对应的预测结构特征;

损失值计算模块,用于基于所述预测结构特征,计算得到所述待训练口袋内分子生成模型的损失值;

分子生成模型获取模块,用于在所述损失值处于预设范围内的情况下,将训练后的待训练口袋内分子生成模型作为所述口袋内分子生成模型。

可选地,所述口袋表面特征包括:表面电荷特征、氢键势特征、疏水相互作用特征、高斯曲率特征、平均曲率特征和形状指数特征中的至少一种。

可选地,所述相互作用学习网络层包括:第一GNN网络层和第二GNN网络层,

所述相互作用特征获取模块包括:

拓扑特征获取单元,用于调用所述第一GNN网络层对所述口袋表面特征进行处理,得到所述口袋表面对应的拓扑相互作用特征;

几何特征获取单元,用于调用所述第二GNN网络层对所述口袋表面特征和所述拓扑相互作用特征进行处理,得到所述口袋表面对应的几何相互作用特征;

相互作用特征获取单元,用于将所述拓扑相互作用特征和所述几何相互作用特征作为所述相互作用特征。

可选地,所述生成网络层包括:拓扑生成模块和几何生成模块,

所述预测结构特征获取模块包括:

预测拓扑特征获取单元,用于调用所述拓扑生成模块对所述相互作用特征和所述口袋表面特征进行处理,得到所述口袋表面对应的预测拓扑结构特征;

预测几何特征获取单元,用于调用所述几何生成模块对所述相互作用特征、所述口袋表面特征和所述预测拓扑结构特征进行处理,得到所述口袋表面对应的预测几何结构特征;

预测结构特征获取单元,用于将所述预测拓扑结构特征和所述预测几何结构特征作为所述预测结构特征。

可选地,所述预测拓扑结构特征包括:原子类型特征和键连关系特征,所述预测几何结构特征包括:原子位置特征。

可选地,所述装置还包括:

目标文件获取模块,用于获取待预测蛋白靶标对应的目标蛋白口袋拓扑文件;

目标文件输入模块,用于将所述目标蛋白口袋拓扑文件输入至所述口袋内分子生成模型;

目标相互作用特征获取模块,用于调用所述相互作用学习网络层对所述目标蛋白口袋拓扑文件中的目标口袋表面特征进行处理,得到所述待预测蛋白靶标的口袋表面对应的目标相互作用特征;

目标预测结构特征获取模块,用于调用所述生成网络层对所述目标相互作用特征和所述目标口袋表面特征进行处理,得到所述目标口袋表面对应的目标预测结构特征;

预测蛋白分子确定模块,用于根据所述目标预测结构特征,确定所述待预测蛋白靶标对应的预测蛋白分子。

第三方面,本申请实施例提供了一种电子设备,包括:

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的口袋内分子生成模型的训练方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的口袋内分子生成模型的训练方法。

与现有技术相比,本申请实施例包括以下优点:

本申请实施例中,通过获取训练数据,训练数据包括:蛋白分子的蛋白口袋拓扑文件。将蛋白口袋拓扑文件输入至待训练口袋内分子生成模型,待训练口袋内分子生成模型包括:相互作用学习网络层和生成网络层。调用相互作用学习网络层对蛋白口袋拓扑文件中的口袋表面特征进行处理,得到蛋白分子的口袋表面对应的相互作用特征。调用生成网络层对相互作用特征和口袋表面特征进行处理,得到口袋表面对应的预测结构特征。基于预测结构特征,计算得到待训练口袋内分子生成模型的损失值。在损失值处于预设范围内的情况下,将训练后的待训练口袋内分子生成模型作为口袋内分子生成模型。本申请实施例通过学习蛋白口袋表面上的拓扑相互作用、及配体原子与口袋之间的空间相互作用,并利用这些相互作用特征通过几何和拓扑生成模块生成指定口袋内的3D分子,从而可以在使用过程中达到在指定需要进行药物设计的蛋白靶标结构生成对应的活性分子及其构象的目的。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

图1为本申请实施例提供的一种口袋内分子生成模型的训练方法的步骤流程图;

图2为本申请实施例提供的一种模型处理流程的示意图;

图3为本申请实施例提供的一种分子结合能分布的示意图;

图4为本申请实施例提供的一种口袋内分子分布的示意图;

图5为本申请实施例提供的一种口袋内分子生成模型的训练装置的结构示意图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端中还存在另外的相同要素。

参照图1,示出了本申请实施例提供的一种口袋内分子生成模型的训练方法的步骤流程图,如图1所示,该口袋内分子生成模型的训练方法可以包括以下步骤:

步骤101:获取训练数据,所述训练数据包括:蛋白分子的蛋白口袋拓扑文件。

本申请实施例可以应用于训练口袋内分子生成模型的场景中。

训练数据是指用于训练口袋内分子生成模型的数据,在本示例中,训练数据可以包括:蛋白分子的蛋白口袋拓扑文件。

在具体实现中,蛋白口袋(Protein Pockets):是指蛋白质表面或内部具有适合与配体结合的空腔,口袋周围的氨基酸残基决定了它的形状、位置、物化特性以及功能。

在本示例中,训练数据可以是利用开源软件(如MSMS、pymesh等)获取蛋白分子的蛋白口袋拓扑文件,以作为口袋内分子生成模型的训练数据。

在获取到训练数据之后,执行步骤102。

步骤102:将所述蛋白口袋拓扑文件输入至待训练口袋内分子生成模型,所述待训练口袋内分子生成模型包括:相互作用学习网络层和生成网络层。

在获取到训练数据之后,可以将训练数据中包含的蛋白口袋拓扑文件输入至待训练口袋内分子生成模型。该待训练口袋内分子生成模型可以包括:相互作用学习网络层和生成网络层。

在将蛋白口袋拓扑文件输入至待训练口袋内分子生成模型之后,执行步骤103。

步骤103:调用所述相互作用学习网络层对所述蛋白口袋拓扑文件中的口袋表面特征进行处理,得到所述蛋白分子的口袋表面对应的相互作用特征。

在将蛋白口袋拓扑文件输入至待训练口内分子生成模型之后,可以调用相互作用学习网络层对蛋白口袋拓扑文件中的口袋表面特征进行处理,得到蛋白分子的口袋表面对应的相互作用特征。

在实际应用中,拓扑表面(即口袋表面)(Multiscale Modeling):由三角面所覆盖的分子溶剂可及表面积,每一个节点上面带有表面对应的物理性质,如电荷,氢键势能,该点的曲率等。

溶剂可及表面积(Solvent accessible surface area):通过球形探针滚动探测得到的目标分子的表面轨迹。包含接触表面和凹陷表面。与球形探针(探针直径通常为

在本实施例中,口袋表面特征可以包括:表面电荷特征、氢键势特征、疏水相互作用特征、高斯曲率特征、平均曲率特征和形状指数特征等特征中的至少一种。如图2所示,口袋表面的原始特征,I代表高斯和平均曲率,II代表形状指数,III代表溶液当中生物体系的表面电荷,IV代表氢键势,V代表非极性相互作用。

在具体实现中,蛋白通道的节点上包括三个几何特征和三个能量特征,其中几何特征可以包括高斯曲率、平均曲率和形状指数;能量特征可以包括Poisson-Boltzmann电荷、氢键供受体和亲疏水性,具体定义如下:

高斯曲率:可以度量曲面内在的弯曲程度,一个曲面做任何非拉伸变换都不会改变其高斯曲率,是一个内蕴不变量。曲面上的高斯曲率计算公式可以如下述公式(1)所示:

上述公式(1)中,

其中,j是i的一阶邻居,θ

平均曲率:定义为主曲率的平均值。与高斯曲率不同,平均曲率是一种外在的曲面曲率的度量,度量了曲面在空间当中的弯曲程度。如下公式(3)所示:

其中,X为一族光滑嵌入超曲面,

对于蛋白三角面而言,计算可以简化为下述公式(4):

上述公式(4)中,j是i的一阶邻居,α

形状指数:是一种描述局部曲面拓扑的曲率,由Koenderink和van Doom所提出,是一种单值和角度化的测度。定义可以如下述公式(5)所示:

上述公式(5)中,K

Poisson-Boltzmann方程描述了生物大分子在溶液当中的连续电荷分布,具体公式如下公式(7)所示:

上述公式(7)中,φ为体系电势,ε为溶液当中的介电常数,

氢键供受体:氢键本质上是偶极-偶极相互作用,通常可用X-H…Y来表示。其中X以共价键(或离子键)与氢相连,具有较高的电负性,而Y一般是含有孤对电子的原子。氢键相互作用广泛用于力场的构建当中的。类似于masif和hydrogen potential的方法,可以计算表面节点的氢键势能。

疏水相互作用是存在于非极性基团之间的一种弱的、非共价的相互作用,是生物体系当中广泛存在的相互作用力。类似于hydropathic的protocol,可以计算表面节点的亲疏水相互作用。

在本实施例中,相互作用学习网络层可以包括两个GNN网络层(即第一GNN网络层和第二GNN网络层),其中,第一GNN网络层可以学习口袋表面的拓扑相互作用,第二GNN网络层可以学习口袋表面的几何相互作用。在具体实现中,第一GNN网络层可以为Geodesic-GNN,第二GNN网络层可以为Geoattn-GNN。对于相互作用学习网络层对口袋表面特征的处理过程可以结合下述具体实现方式进行详细描述。

在本申请的一种具体实现方式中,上述步骤103可以包括:

子步骤S1:调用所述第一GNN网络层对所述口袋表面特征进行处理,得到所述口袋表面对应的拓扑相互作用特征。

在本实施例中,在将训练数据输入至待训练口袋内分子生成模型之后,可以调用第一GNN网络层对口袋表面特征进行处理,得到口袋表面对应的拓扑相互作用特征。

在调用第一GNN网络层对口袋表面特征进行处理,得到口袋表面对应的拓扑相互作用特征之后,执行步骤S2。

子步骤S2:调用所述第二GNN网络层对所述口袋表面特征和所述拓扑相互作用特征进行处理,得到所述口袋表面对应的几何相互作用特征。

在调用第一GNN网络层对口袋表面特征进行处理,得到口袋表面对应的拓扑相互作用特征之后,可以调用第二GNN网络层对口袋表面特征和拓扑相互作用特征进行处理,得到口袋表面对应的几何相互作用特征。

在得到口袋表面对应的几何相互作用特征之后,执行子步骤S3。

子步骤S3:将所述拓扑相互作用特征和所述几何相互作用特征作为所述相互作用特征。

在得到口袋表面对应的几何相互作用特征之后,则可以将拓扑相互作用特征和几何相互作用特征作为蛋白分子的口袋表面对应的相互作用特征。

对于上述实现过程可以结合图2所示:该口袋内分子生成模型的原始输入为蛋白口袋拓扑文件,其由节点和三角面构成。通过计算口袋表面的物理和几何性质,然后附在每一个节点上面,这些特征包括:(物理)表面电荷,氢键势,疏水相互作用;(几何)高斯曲率,平均曲率,形状指数。

相互作用学习网络层可以包括:Geodesic-GNN和Geoattn-GNN,分子生成的流程为图2中C所示,首先可以在Geodesic-GNN模块当中学习口袋表面的拓扑相互作用,之后在Geoattn-GNN模块当中学习已经生成原子和拓扑表面之间的几何相互作用。

在具体实现中,由于蛋白口袋被抽象为用三角面所包围的拓扑表面结构,直接利用现有的三维图神经表征框架学习底层的相互作用存在一些问题。如图2中G所示,当对原子i聚合周围信息的时候,原子i的感受野会包含到如图2所示的蛋白口袋的“背面”,而小分子并不直接和这些背面进行匹配。所以利用已有的几何图神经框架,虽然可以更好地聚合空间的信息,但无法充分地考虑口袋表面的拓扑特征,基于此,本实施例设计了Geodesic-GNN,用于聚合口袋表面的信息。在Geodesic-GNN当中,原子i的感受野不会包含背面的信息。与传统的欧式几何图神经框架相比,Geodesic-GNN可以在拓扑表面上进行更为合理的信息聚合。对于配体原子和蛋白口袋的相互作用则,空间几何关系则是更应该被关注的。基于此,本实施例设计了基于几何注意力机制的相互作用模块,用于学习原子和口袋之间的匹配规律。至此,能够得以构建SurfGen的表征学习框架。首先可以将边特征和原子特征映射到更高维的表征空间。如下述公式(8)所示:

/>

为第i个原子在第l-1lun2迭代的标量和矢量特征,GVP是几何向量感知机12。之后对于拓扑表面的每一个点,可以对其与其邻居进行拓扑特征学习,使得每一个点代表一个表面块:

聚合完拓扑表面信息之后,可以对配体原子和拓扑口袋之间进行几何注意力卷积,使得模型学习到空间相互作用。

本实施例可以利用学习到的相互作用特征指导模型进行分子生成:

Geodesic-GNN:

Interaction Block for Surface and Ligand(Geometry):

A′

在通过相互作用学习网络层获取到口袋表面对应的拓扑相互作用特征和几何相互作用特征之后,执行步骤104。

步骤104:调用所述生成网络层对所述相互作用特征和所述口袋表面特征进行处理,得到所述口袋表面对应的预测结构特征。

在通过相互作用学习网络层获取到口袋表面对应的拓扑相互作用特征和几何相互作用特征之后,可以调用生成网络层对相互作用特征和口袋表面特征进行处理,得到口袋表面对应的预测结构特征。

在本示例中,预测结构特征可以包括:拓扑结构特征和几何结构特征。生成网络层可以包括:拓扑生成模块和几何生成模块。其中,拓扑生成模块可以生成口袋表面对应的预测拓扑结构特征,几何生成模块可以生成口袋表面对应的预测几何结构特征。对于该实现过程可以结合下述具体实现方式进行详细描述。

在本申请的一种具体实现方式中,上述步骤104可以包括:

子步骤M1:调用所述拓扑生成模块对所述相互作用特征和所述口袋表面特征进行处理,得到所述口袋表面对应的预测拓扑结构特征。

在本实施例中,在通过相互作用学习网络层得到相互作用特征(即几何相互作用特征和拓扑相互作用特征)之后,则可以调用拓扑生成模块对相互作用特征和口袋表面特征进行处理,得到口袋表面对应的预测拓扑结构特征。

在调用拓扑生成模块对相互作用特征和口袋表面特征进行处理,得到口袋表面对应的预测拓扑结构特征之后,执行子步骤M2。

子步骤M2:调用所述几何生成模块对所述相互作用特征、所述口袋表面特征和所述预测拓扑结构特征进行处理,得到所述口袋表面对应的预测几何结构特征。

在调用拓扑生成模块对相互作用特征和口袋表面特征进行处理,得到口袋表面对应的预测拓扑结构特征之后,则可以调用几何生成模块对相互作用特征。口袋表面特征和预测拓扑结构特征进行处理,以得到口袋表面对应的预测几何结构特征。

子步骤M3:将所述预测拓扑结构特征和所述预测几何结构特征作为所述预测结构特征。

在得到预测拓扑结构特征和预测几何结构特征之后,则可以将预测拓扑结构特征和预测几何结构特征作为预测结构特征。在本示例中,预测拓扑结构特征可以包括:原子类型特征和键连关系特征,预测几何结构特征可以包括:原子位置特征(如原子坐标等)。

在具体实现中,在得到相互作用特征之后,将这些相互作用特征送到生成模块当中,分别生成下一个原子的几何结构(原子坐标)和拓扑结构(原子类型和键连关系)。假设生成的分子有N(N为正整数)个原子,那么就需要在生成模块中迭代N次(如图2中C部分模块所示)。

在本实施例中,分子的生成方法可以分为自回归式的生成和一次性的生成。自回归式的生成有ResGen,Pkt2mol,GraphBP,GraphAF等;一次性生成的方法有DiffSBDD,DiffBP等。一次性生成的方法一般都需要预先拟设一个分子矩阵,即先预测原子数,然后再预测分子矩阵的原子类别,位置坐标和键连关系。在本实施例提供的模型当中,可以采用自回归的形式,这样可以充分的与拓扑口袋进行交互,进而更充分地学习这种几何匹配作用。具体过程为:1、锚定原子生成:在聚合口袋表面的相互作用之后,SurfGen从拓扑口袋的节点上选取起始节点。即训练一个网络用于对拓扑口袋上的每一个节点预测起始概率,如图下公式所示:

(s

其中,(s

当已经有生成好的原子在蛋白口袋内部的时候,可以从已经生成好的原子上选取下一步的起始原子,公式和t=0时候的情况一样。

为了满足预测的几何坐标的SE(3)等变性,可以选择VP作为几何预测的主要框架,VP输出的值满足旋转不变性,即:

在本实施例中,可以采用NLL损失函数为基础,拟合一个三维的多元高斯分布,即:

(s

(s

(s

μ=μ

∑=MLP

π=MLP

其中,

当在已知原子和其它原子之间的位置关系后,可以预测这个原子的类型及其与已经生成原子的键连关系。但是考虑到蛋白质口袋内对原子类型的分布也有一定的偏向性,本实施例采用几何kNN图的结构聚合预测原子与空间k个最近邻节点之间的特征,然后再做原子类型和键长的预测。

e′

其中,Attention模块采用的是三角注意力机制网络。

在得到预测结构特征之后,执行步骤105。

步骤105:基于所述预测结构特征,计算得到所述待训练口袋内分子生成模型的损失值。

在通过上述过程得到预测结构特征之后,可以基于预测结构特征计算得到待训练口袋内分子生成模型的损失值。在本示例中,可以采用交叉熵损失等方式计算得到待训练口袋内分子生成模型的损失值。具体地,对于损失值的计算方式可以根据业务需求而定,本实施例对此不加以限制。

在基于预测结构特征计算得到待训练口袋内分子生成模型的损失值之后,执行步骤106。

步骤106:在所述损失值处于预设范围内的情况下,将训练后的待训练口袋内分子生成模型作为所述口袋内分子生成模型。

在基于预测结构特征计算得到待训练口袋内分子生成模型的损失值之后,可以判断该损失值是否处于预设范围内。

若该损失值处于预设范围内,则可以将训练后的待训练口袋内分子生成模型作为最终的口袋内分子生成模型,以进行后续的口袋内分子推理的场景中。

本申请实施例通过学习蛋白口袋表面上的拓扑相互作用、及配体原子与口袋之间的空间相互作用,并利用这些相互作用特征通过几何和拓扑生成模块生成指定口袋内的3D分子,从而可以在使用过程中达到在指定需要进行药物设计的蛋白靶标结构生成对应的活性分子及其构象的目的。

在训练得到口袋内分子生成模型之后,则该口袋内分子生成模型即可以应用于后续的推理场景中。对于推理过程可以结合下述具体实现方式进行详细描述。

在本申请的另一种具体实现方式中,在上述步骤106之后,还可以包括:

步骤N1:获取待预测蛋白靶标对应的目标蛋白口袋拓扑文件。

在本实施例中,在训练得到口袋内分子生成模型之后,在进行模型推理过程中,可以获取待预测蛋白靶标对应的目标蛋白口袋拓扑文件。具体地,可以预先准备蛋白靶标pdb结构文件,指定口袋位置。然后,给定口袋截断距离,利用MSMS,pymesh(均为开源软件)等准备口袋拓扑文件。

在获取到待预测蛋白靶标对应的目标口袋拓扑文件之后,执行步骤N2。

步骤N2:将所述目标蛋白口袋拓扑文件输入至所述口袋内分子生成模型。

在获取到待预测蛋白靶标对应的目标口袋拓扑文件之后,则可以将目标蛋白口袋拓扑文件输入至口袋内分子生成模型,进而,执行步骤N3。

步骤N3:调用所述相互作用学习网络层对所述目标蛋白口袋拓扑文件中的目标口袋表面特征进行处理,得到所述待预测蛋白靶标的口袋表面对应的目标相互作用特征。

在将目标蛋白口袋拓扑文件输入至口袋内分子生成模型之后,可以调用相互作用学习网络层对目标蛋白口袋拓扑文件中的目标口袋表面特征进行处理,得到待预测蛋白靶标的口袋表面对应的目标相互作用特征。

在得到待预测蛋白靶标的口袋表面对应的目标相互作用特征之后,执行步骤N4。

步骤N4:调用所述生成网络层对所述目标相互作用特征和所述目标口袋表面特征进行处理,得到所述目标口袋表面对应的目标预测结构特征。

在得到待预测蛋白靶标的口袋表面对应的目标相互作用特征之后,则可以调用生成网络层对目标相互作用特征和目标口袋表面特征进行处理,得到目标口袋表面对应的目标预测结构特征。

对于相互作用学习网络层和生成网络层的处理过程可以结合上述模型训练过程的描述,本实施例在此不再加以赘述。

步骤N5:根据所述目标预测结构特征,确定所述待预测蛋白靶标对应的预测蛋白分子。

在得到目标预测结构特征之后,则可以根据目标预测结构特征,确定待预测蛋白靶标对应的预测蛋白分子。

在本示例中,可以选取靶标为新冠靶标3CL,激酶靶标AKT1和CDK2,具体过程如下:

1、准备蛋白靶标pdb(protein data bank,蛋白质三维结构数据文件)结构文件,并指定口袋位置;

2、给定口袋截断距离,利用MSMS、pymesh(均为开源软件)等准备口袋拓扑文件,默认口袋大小为8埃,分别率为1.5;

3、利用SurfGen在蛋白质拓扑表面上采样,生成新的200个活性分子。

同时,可以收集3CL,AKT1,CDK2靶标上的活性分子数据,随机从药库当中选择200个分子作为随机分子,利用GraphBP和Pocket2Mol生成两组分子,做其结合能的分布,如图3所示:三种方法中SurfGen(即本示例中的口袋内分子生成模型)分子的活性分布总体要优于Pocket2Mol和GraohBP方法,甚至有些分子还要优于已有实验数据的活性分子。而Pocket2Mol生成的分子与Random分子更接近;GraphBP生成的分子甚至活性要低于随机挑选的分子。

在实际应用中,往往会出现各种耐药问题,即某种药物的治疗效果大幅下降甚至失效,这样的情况在癌症用药中尤为常见。耐药问题的主要机理是发挥药效的蛋白口袋发生突变,改变了口袋与分子之间的相互作用,进而使得药物脱靶。耐药问题也是个性化药物治疗当中重要的一环。

利用SurfGen可以提供全新的解决耐药问题的分子生成方案:当药物靶标发生突变之后,其口袋当中的物理,几何性质也会发生相应的改变。而这种改变可以被SurfGen所捕捉到,从而生成与对应突变靶标发生互作的分子。以一个抗菌靶标—莽草酸激酶作为案例,展示SurfGen可以捕捉不同突变下口袋当中的分子分布,如图4所示,首先从图4C当中可以看出的基于野生型结构所生成的分子骨架与原生配体相似,都以六元环作为骨架结构,并且在蛋白口袋中占据的空间位置配体相差较多。这是因为口袋内所有的氨基酸侧链残基被突变为丙氨酸,R基团全部被突变为最小的甲基,使得蛋白质口袋空间显著变大,所以导致SurfGen生成更大的分子,以在几何上适配于突变后的更大的口袋。all-interact突变体系上将六个关键残基突变为甲基,生成的分子与也原生配体相差较大,不过与将口袋全部突变的All Pocket相比,生成的分子体积更小,与预期相符。all_no_interact体系则是突变了除了六个关键残基以外的口袋当中的其他残基,其生成分子的骨架与1zyu口袋当中的配体相似,保留了六元环上参与互作的羧基,保留了较多的能量匹配的特征,但是从几何匹配上,由于all_no_interact也将许多残基突变为更小的丙氨酸,所以口袋结构与WT相比仍然变大了许多,导致所得的分子体积也比较大。

接下来讨论单位点突变的实验。在Arg58Ala与Arg136Ala两个体系中,可以观察到Surfgen生成的分子依然能保留环骨架和一号位上的含氧原子的基团,这是因为Arg58和Arg136中的胍基可以与一号位上的含氧基团发生氢键或者盐桥互作。如果将这两个关键残基突变(如Arg(58,136)Ala所示),则生成的分子在六元环的一号位上不再携带羧基,骨架的其余部分依然保持着与原生配体的相似性。在Asp34ala的突变实验中,也可以观察到了类似的现象。由于Asp34Ala只突变34号位的残基,保留了58,136位的两个Arg,所以生成的分子保持了与58,136号位置互作的羧基,失去了与Asp34相作用的羟基。其余的三个突变体系所生成的分子在环上基团的变化较小,可能是因为这三个位置的残基对形成氢键的贡献没有Arg等残基显著。

本申请实施例提供的口袋内分子生成模型的训练方法,通过获取训练数据,训练数据包括:蛋白分子的蛋白口袋拓扑文件。将蛋白口袋拓扑文件输入至待训练口袋内分子生成模型,待训练口袋内分子生成模型包括:相互作用学习网络层和生成网络层。调用相互作用学习网络层对蛋白口袋拓扑文件中的口袋表面特征进行处理,得到蛋白分子的口袋表面对应的相互作用特征。调用生成网络层对相互作用特征和口袋表面特征进行处理,得到口袋表面对应的预测结构特征。基于预测结构特征,计算得到待训练口袋内分子生成模型的损失值。在损失值处于预设范围内的情况下,将训练后的待训练口袋内分子生成模型作为口袋内分子生成模型。本申请实施例通过学习蛋白口袋表面上的拓扑相互作用、及配体原子与口袋之间的空间相互作用,并利用这些相互作用特征通过几何和拓扑生成模块生成指定口袋内的3D分子,从而可以在使用过程中达到在指定需要进行药物设计的蛋白靶标结构生成对应的活性分子及其构象的目的。

参照图5,示出了本申请实施例提供的一种口袋内分子生成模型的训练装置的结构示意图,如图5所示,该口袋内分子生成模型的训练装置500可以包括以下模块:

训练数据获取模块510,用于获取训练数据,所述训练数据包括:蛋白分子的蛋白口袋拓扑文件;

拓扑文件输入模块520,用于将所述蛋白口袋拓扑文件输入至待训练口袋内分子生成模型,所述待训练口袋内分子生成模型包括:相互作用学习网络层和生成网络层;

相互作用特征获取模块530,用于调用所述相互作用学习网络层对所述蛋白口袋拓扑文件中的口袋表面特征进行处理,得到所述蛋白分子的口袋表面对应的相互作用特征;

预测结构特征获取模块540,用于调用所述生成网络层对所述相互作用特征和所述口袋表面特征进行处理,得到所述口袋表面对应的预测结构特征;

损失值计算模块550,用于基于所述预测结构特征,计算得到所述待训练口袋内分子生成模型的损失值;

分子生成模型获取模块560,用于在所述损失值处于预设范围内的情况下,将训练后的待训练口袋内分子生成模型作为所述口袋内分子生成模型。

可选地,所述口袋表面特征包括:表面电荷特征、氢键势特征、疏水相互作用特征、高斯曲率特征、平均曲率特征和形状指数特征中的至少一种。

可选地,所述相互作用学习网络层包括:第一GNN网络层和第二GNN网络层,

所述相互作用特征获取模块包括:

拓扑特征获取单元,用于调用所述第一GNN网络层对所述口袋表面特征进行处理,得到所述口袋表面对应的拓扑相互作用特征;

几何特征获取单元,用于调用所述第二GNN网络层对所述口袋表面特征和所述拓扑相互作用特征进行处理,得到所述口袋表面对应的几何相互作用特征;

相互作用特征获取单元,用于将所述拓扑相互作用特征和所述几何相互作用特征作为所述相互作用特征。

可选地,所述生成网络层包括:拓扑生成模块和几何生成模块,

所述预测结构特征获取模块包括:

预测拓扑特征获取单元,用于调用所述拓扑生成模块对所述相互作用特征和所述口袋表面特征进行处理,得到所述口袋表面对应的预测拓扑结构特征;

预测几何特征获取单元,用于调用所述几何生成模块对所述相互作用特征、所述口袋表面特征和所述预测拓扑结构特征进行处理,得到所述口袋表面对应的预测几何结构特征;

预测结构特征获取单元,用于将所述预测拓扑结构特征和所述预测几何结构特征作为所述预测结构特征。

可选地,所述预测拓扑结构特征包括:原子类型特征和键连关系特征,所述预测几何结构特征包括:原子位置特征。

可选地,所述装置还包括:

目标文件获取模块,用于获取待预测蛋白靶标对应的目标蛋白口袋拓扑文件;

目标文件输入模块,用于将所述目标蛋白口袋拓扑文件输入至所述口袋内分子生成模型;

目标相互作用特征获取模块,用于调用所述相互作用学习网络层对所述目标蛋白口袋拓扑文件中的目标口袋表面特征进行处理,得到所述待预测蛋白靶标的口袋表面对应的目标相互作用特征;

目标预测结构特征获取模块,用于调用所述生成网络层对所述目标相互作用特征和所述目标口袋表面特征进行处理,得到所述目标口袋表面对应的目标预测结构特征;

预测蛋白分子确定模块,用于根据所述目标预测结构特征,确定所述待预测蛋白靶标对应的预测蛋白分子。

本申请实施例提供的口袋内分子生成模型的训练装置,通过获取训练数据,训练数据包括:蛋白分子的蛋白口袋拓扑文件。将蛋白口袋拓扑文件输入至待训练口袋内分子生成模型,待训练口袋内分子生成模型包括:相互作用学习网络层和生成网络层。调用相互作用学习网络层对蛋白口袋拓扑文件中的口袋表面特征进行处理,得到蛋白分子的口袋表面对应的相互作用特征。调用生成网络层对相互作用特征和口袋表面特征进行处理,得到口袋表面对应的预测结构特征。基于预测结构特征,计算得到待训练口袋内分子生成模型的损失值。在损失值处于预设范围内的情况下,将训练后的待训练口袋内分子生成模型作为口袋内分子生成模型。本申请实施例通过学习蛋白口袋表面上的拓扑相互作用、及配体原子与口袋之间的空间相互作用,并利用这些相互作用特征通过几何和拓扑生成模块生成指定口袋内的3D分子,从而可以在使用过程中达到在指定需要进行药物设计的蛋白靶标结构生成对应的活性分子及其构象的目的。

本申请实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述口袋内分子生成模型的训练方法。

图6示出了本发明实施例的一种电子设备600的结构示意图。如图6所示,电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在RAM603中,还可存储电子设备600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标、麦克风等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理,可由处理单元601执行。例如,上述任一实施例的方法可被实现为计算机软件程序,其被有形地包含于计算机可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序被加载到RAM603并由CPU601执行时,可以执行上文描述的方法中的一个或多个动作。

本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述口袋内分子生成模型的训练方法。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端上,使得在计算机或其他可编程终端上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

以上对本申请所提供的一种口袋内分子生成模型的训练方法、一种口袋内分子生成模型的训练装置、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 一种训练摘要生成模型的方法和装置
  • 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
  • 一种神经网络模型训练方法及装置、文本标签确定方法及装置
  • 一种分子生成模型的训练方法及装置
  • 分子生成模型的训练方法、装置、设备及存储介质
技术分类

06120116334355