掌桥专利:专业的专利平台
掌桥专利
首页

一种非共价相互作用的模型训练、识别方法和系统

文献发布时间:2023-06-19 18:35:48


一种非共价相互作用的模型训练、识别方法和系统

技术领域

本发明涉及结构生物学分析技术领域,具体涉及一种非共价相互作用模型训练、识别方法和系统。

背景技术

非共价相互作用(Non-Covalent Interaction,NCI)不同于共价键,它不涉及共享电子,而是涉及分子之间或分子内部更分散的电磁相互作用变化。NCI对于维持蛋白质和核酸等大分子的三维结构至关重要。此外,NCI还参与了许多生物过程,在这些过程中大分子会特异性但短暂地相互结合。这些相互作用也会严重影响药物设计、结晶度和材料设计,特别是自组装,以及许多有机分子的合成,因此在蛋白结构中对NCI的识别有着极强的应用性。

现有技术对NCI的研究总结了若干判断一个结构是否是NCI的规则。而使用规则进行NCI识别具有只能定性不能定量的缺陷,针对复杂环境下的NCI识别能力差。除NCI结构识别外,对NCI进行强度等属性预测也是对NCI类型准确判断的一个有效依据,传统方法中基于分子力场的NCI预测属于基于经验的的方法,依赖规则的提炼,对于少数经典NCI,如氢键、盐键可以预测,但是缺乏对于非经典NCI的预测模型,其无法考虑周边环境对NCI强度的影响;基于量子化学计算NCI强度的方法,虽然精度高,但只适用于小分子体系,在大分子体系情况下其计算量和全局视角均不达标,从而导致该方法的失效。因此,如何进行准确的NCI识别是亟待解决的问题。

发明内容

有鉴于此,本发明实施方式提供了一种非共价相互作用模型训练、识别方法和系统,从而提高了大分子体系下非共价相互作用的识别准确度。

根据第一方面,一种非共价相互作用的识别模型的训练方法,所述方法包括:

基于目标分子结构建立训练样本,所述训练样本中包括所述目标分子结构的空间结构信息与所述空间结构信息对应的标签,所述标签包括位置标签和拓扑特征标签,所述位置标签用于标定目标分子结构中非共价相互作用的空间位置,所述拓扑特征标签用于标定目标分子结构中非共价相互作用的属性;

以所述空间结构信息为输入利用初始机器学习模型对所述目标分子结构中的非共价相互作用进行预测,并根据预测结果与所述标签之间的误差校正所述初始机器学习模型,以得到识别模型,所述识别模型用于目标分子结构中非共价相互作用位置和属性的识别。

可选地,所述初始机器学习模型采用卷积神经网络搭建,基于目标分子结构建立训练样本,包括:

将所述目标分子结构进行标准化姿态矫正,并将矫正后的目标分子结构中预设数量的原子坐标信息存入三维矩阵中以得到所述空间结构信息;

基于电子密度生成所述空间结构信息对应的标签。

可选地,基于不同种类的化学特征将所述空间结构信息从三维矩阵映射为四维矩阵以得到四维空间结构信息。

可选地,所述基于电子密度生成所述空间结构信息对应的标签,包括:

将所述目标分子结构格点化,得到格点分子结构;

获取至少一个预设分辨率的电子密度格点信息,所述电子密度格点信息用于存储所述格点分子结构内各个格点的电子密度;

基于所述电子密度格点信息中电子密度鞍点所在的格点位置确定鞍点位置,所述鞍点位置用于表示非共价相互作用在所述目标分子结构中的空间位置;

基于所述原子坐标信息确定各鞍点位置对应的归属关系,所述归属关系用于表示非共价相互作用和附近原子对的匹配关系;

将所述鞍点位置和与其对应的所述归属关系作为所述空间结构信息的位置标签;

至少利用所述鞍点位置的电子密度、一阶梯度和海森矩阵生成所述鞍点位置的电子密度拓扑特征,并将所述电子密度拓扑特征作为所述空间结构信息的拓扑特征标签,所述电子密度拓扑特征用于描述非共价相互作用的属性。

可选地,所述基于所述电子密度格点信息中电子密度鞍点所在的格点位置确定鞍点位置,包括:

将所述电子密度格点信息划分为多个第一预设范围大小的子信息块;

获取所述子信息块中的配体-受体原子对,并将以所述配体-受体原子对的连接线中点位置为圆心、预设长度为半径覆盖的范围作为候选范围;

计算所述候选范围内各个格点的约化电子密度梯度值,并筛选出其中最小约化电子密度梯度值的格点作为候选鞍点;

计算所述候选鞍点的相邻格点的约化电子密度梯度值,并将所述候选鞍点和所述相邻格点中约化电子密度梯度值最小的格点作为所述鞍点位置。

可选地,在所述计算所述候选鞍点的相邻格点的约化电子密度梯度值,并将所述候选鞍点和所述相邻格点中约化电子密度梯度值最小的格点作为所述鞍点位置之后,还包括:

放弃电子密度海森矩阵特征值不满足λ

当一个所述鞍点位置对应多个所述配体-受体原子对时,将其中配体和受体距离最近的原子对作为该鞍点位置标注的目标原子对;

当任意两个所述鞍点位置的距离小于预设距离时,舍弃其中电子密度值小的鞍点位置。

根据第二方面,一种非共价相互作用的识别方法,所述方法包括:

获取待识别分子结构的空间结构信息;

将所述待识别分子结构的空间结构信息输入根据第一方面所述训练方法得到的识别模型,并通过所述识别模型生成所述待识别分子结构中非共价相互作用的位置坐标、归属关系和拓扑特征。

根据第三方面,一种非共价相互作用的识别系统,所述系统包括:

信息采集模块,获取待识别分子结构的空间结构信息;

识别模块,用于将所述待识别分子结构的空间结构信息输入根据第一方面所述训练方法得到的识别模型,并通过所述识别模型生成所述待识别分子结构中非共价相互作用的位置坐标和拓扑特征。

根据第四方面,一种电子设备,包括:

存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面和第二方面,或者第一方面任意一种可选实施方式中所述的方法。

根据第五方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行第一方面和第二方面,或者第一方面任意一种可选实施方式中所述的方法。

本发明技术方案,具有如下优点:

本发明实施例提供的一种非共价相互作用的模型训练、识别方法和系统。该方法具体包括:通过采集目标分子结构的三维空间结构,并将该结构中NCI的位置和NCI拓扑特征作为目标分子结构对应的标签,创建训练样本,之后结合卷积神经网络算法,训练出能够准确识别大分子-配体中NCI的机器学习模型,提高了NCI的识别准确度和识别效率。在训练样本的创建过程中,通过将大分子-配体的空间结构划分为多个格点,并基于晶体学理论计算各个格点的电子密度从而得到可靠性更高的电子密度格点信息。根据电子密度本身的属性,获知其电子密度鞍点与非共价相互作用的位置几乎相同,之后通过各个格点内的电子密度梯度等特征找出代表电子密度鞍点的格点,将该格点位置的空间坐标作为NCI的空间坐标,将该格点计算得到的电子密度拓扑特征作为NCI的拓扑特征,从而准确地将大量的目标分子结构打上标签。并且采用多个不同分辨率的电子密度格点信息,得到多个分辨率条件下的训练样本,从而实现了从微观和宏观上分析目标分子结构的NCI,进一步提高了NCI识别的准确率和可靠性。此外,根据目标分子结构中原子的不同原子特征,将训练样本从三维向量映射为四维向量,进一步提高了卷积神经网络训练的细致程度,从而进一步提升了本发明实施例提供的识别模型的识别结果可靠性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种非共价相互作用的识别模型的训练方法步骤示意图;

图2为本发明实施例的一种非共价相互作用的识别模型的训练方法的样本升维映射结构示意图;

图3为本发明实施例的一种非共价相互作用的识别模型的训练方法中的CP点结构示意图;

图4为本发明实施例的一种非共价相互作用的识别方法的步骤示意图;图5为本发明实施例的一种非共价相互作用的识别模型的训练系统的结构示意图;

图6为本发明实施例的一种非共价相互作用的识别系统的结构示意图;

图7为本发明实施例的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

如图1所示,本发明实施例提供的一种非共价相互作用的识别模型的训练方法,具体包括如下步骤:

步骤S101:基于目标分子结构建立训练样本,训练样本中包括目标分子结构的空间结构信息与空间结构信息对应的标签,标签包括位置标签和拓扑特征标签,位置标签用于标定目标分子结构中非共价相互作用的空间位置,拓扑特征标签用于标定目标分子结构中非共价相互作用的属性。具体地,在生物结构领域,NCI是一种维持蛋白质和核酸等分子的三维结构至关重要的弱相互作用,NCI还参与了许多生物过程,在这些过程中分子会特异性但短暂地相互结合。这些相互作用也会严重影响药物设计、结晶度和材料设计等场景,因此准确标注出分子体系(包括分子之间和分子内部)中的NCI对研发设计过程有着至关重要的作用。通过基于电子密度的方法建立识别模型训练所需的训练样本,使得训练样本中包含了详细的NCI的位置坐标和拓扑特性,提高了训练后的识别模型的准确度。通过建立的识别模型,可以实现在目标分子结构中识别分子内部和分子间的非共价相互作用的功能,本发明实施例采用pdbbind数据集中1w个蛋白复合物构建样本,并得到对应的20w个不同分辨率下的非共价相互作用的位置标签及其各个点的电子密度拓扑特征的拓扑特征标签。

步骤S102:以空间结构信息为输入利用初始机器学习模型对目标分子结构中的非共价相互作用进行预测,并根据预测结果与标签之间的误差校正初始机器学习模型,以得到识别模型,识别模型用于目标分子结构中非共价相互作用位置和属性的识别。

具体地,由于本发明实施例中非共价相互作用的位置是目标分子结构中电子密度的鞍点位置,其表现形式是格点形式坐标,为了便于处理格点形式的训练样本,本发明实施例采用卷积神经网络(CNN,Convolutional Neural Networks)建立识别模型,使得训练过程更加准确,得到的识别模型可靠性更高。使用训练样本不断输入CNN,并根据CNN输出的预测结果和预先标定的标签之间的误差校正CNN模型。在训练完成之后得到训练好的识别模型,根据模型输出的鞍点位置和电子密度拓扑特征,即可用于识别任意目标分子结构中的NCI位置和属性,其中基于电子密度拓扑特征表示的NCI属性包括但不限于:NCI的有无、类型、方向、强度、归属。NCI并在CNN的全连接层能得到一列表示NCI局部特征的embedding向量。并且通过不同分辨率电子密度得到的训练样本,CNN模型可以针对同一个目标分子结构的空间结构信息,直接得出不同分辨率下的识别结果。根据不同识别结果间的差别,方便本领域技术人员进一步分析NCI中的噪声。

具体地,上述步骤S101,具体包括如下步骤:

步骤S201:将目标分子结构进行标准化姿态矫正,并将矫正后的目标分子结构中预设数量的原子坐标信息存入三维矩阵中以得到空间结构信息。具体地,在上述训练样本构建之前,为了提高训练过程中的计算效率,将目标分子结构进行标准化姿态矫正,将该结构旋转到配体原子位置在(0,0,0)原点处,受体原子位置在Z轴上的标准姿态。之后,从目标分子结构中提取预设数量的原子坐标信息(本发明实施例中的采用的分子结构为大分子,每个分子结构中提取1000个原子坐标),将原子坐标存入三维矩阵中即可得到一个用于训练识别模型的输入数据,即空间结构信息。通过上述方法,利用大量的目标分子结构即可生成大量的空间结构信息,以此获得完备的训练样本。

步骤S202:基于电子密度生成空间结构信息对应的标签。具体地,步骤S201所获得的空间结构信息是训练样本中用于输入训练模型的原始输入数据,每个原始输入数据需要对应一个期望输出,即训练样本的标签。本发明实施例中,标签为目标分子结构中NCI的位置、归属关系和拓扑特征。本步骤基于电子密度生成的标签相比传统方法,在目标分子结构中标注NCI更加准确。

具体地,在一实施例中,在上述步骤S201之后,还包括如下步骤:

步骤S203:基于不同种类的化学特征将空间结构信息从三维矩阵映射为四维矩阵以得到四维空间结构信息。具体地,在一种优选方案中,考虑到目标分子结构中具有多种化学特征,例如原子类型,芳香性,预训练特征等。在不同特征条件下,三维矩阵中的数值及数值的分布规律是不同的,因此,如图2所示,根据原子特征将原空间结构信息从三维特征向量映射为表示不同原子特征的四维特征向量,增加了训练特征维度,使得训练结果更加精确。

具体地,在一实施例中,上述步骤S202,具体包括如下步骤:

步骤S301:将目标分子结构格点化,得到格点分子结构。具体地,传统技术大多采用总结的若干规则来进行NCI识别,例如两个原子之间的距离、角度等规则,这种方式具有只能定性不能定量的缺陷,针对复杂环境下的NCI识别能力差。电子密度表示在原子或分子周围特定位置发现电子的概率,由于NCI和共价键之间作用力强度的区别,其电子密度的分布具有一定的规律性。本发明实施例通过大量的实验测得,其电子密度鞍点的位置与弱相互作用的位置非常接近,若用电子密度鞍点对NCI进行标记,从而可以大大提高目标分子结构中NCI识别的准确度。而在电子密度鞍点的具体位置是需要在空间中使用空间坐标表示的,因此首先需要将目标分子结构划分为格点形式,以获取其中各个格点的电子密度值,从而确定电子密度鞍点的位置和具体坐标。

步骤S302:获取至少一个预设分辨率的电子密度格点信息,电子密度格点信息用于存储格点分子结构内各个格点的电子密度。

具体地,为了获取这些电子密度鞍点,首先需要知道代表该目标分子结构(单个分子或多个分子组合)中电子密度分布的电子密度格点信息,目标分子结构各个格点内的电子密度值。从而可以通过各个格点的电子密度值来找到电子密度鞍点的所在位置。

其中,获取电子密度格点信息的方法包括但不限于实验方法和计算方法,常用的方法有:基于X-射线晶体学实验获得电子密度方法、基于电子显微镜实验获得电子密度方法和基于量子化学计算得到电子密度方法。传统的基于X-射线晶体学可在原子或接近原子的水平上分析分子的精细三维结构,从而通过实验获取的分子结构等信息,再计算出电子密度格点信息;通过电子显微镜获得的实验电子密度直接保存为空间点阵文件,可直接读取;在不具备实验条件的情况下,根据目标分子结构中非常容易获取的原子空间坐标,基于量子化学计算得到电子密度,该方法可以将目标分子结构划分成多个小份,即多个小分子体系,并在小分子体系下计算得到各个格点的电子密度值。

在上述方法中,一方面由于条件的限制,实验条件并不是所有实验室均能达到,另一方面基于量子化学计算得到的电子密度过于注重小分子体系,往往忽略了大分子体系中小分子体系之间的联系,因此若从宏观角度出发,其计算结果往往出错。基于此,在本发明实施例中提出了一种基于晶体学理论使用傅里叶和反傅里叶变换计算电子密度的方法来获取电子密度格点信息,具体地,首先从步骤S201中的获得的空间结构信息提取原子坐标信息,根据原子坐标信息利用傅里叶变换计算结构因子,其中计算公式为:

其中,r代表原子坐标信息,x、y、z分别代表原子坐标信息的三个分量,f

利用结构因子计算生成预设分辨率的电子密度格点信息,其中预设分辨率是由预设倒易空间向量的求和范围得到的,也就是通过变化h,k,l的求和范围,可以获得不同分辨率的电子密度,其中分辨率越高得到的电子密度图越清晰,其原子间的键表述的更准确;分辨率越低,得到的电子密度图越模糊,但是分子整体的框架表述更准确。其中计算公式为:

其中,r代表原子坐标信息,s(h,k,l)代表倒易空间向量,F(s)为s向量的衍射振幅,ρ(r)代表电子密度格点信息,Vcell代表晶胞体积。基于晶体学理论计算电子密度的方法,不仅更多的考虑了大分子体系下,原子之间的宏观联系,并且通过调整不同的预设分辨率,得到清晰度不同的电子密度图,从而可以得到多种分辨率条件下的电子密度图。之后通过步骤S301中得到的目标分子结构的格点数量和格点坐标,再按照不同的格点坐标取不同的x、y、z,从而对应的将电子密度图划分为离散形式,得到了电子密度格点信息。由于通过不同分辨率电子密度格点信息获得的鞍点位置也不同,从而通过分析和比对高分辨率下的鞍点位置和低分辨率下的鞍点位置,还能够在宏观和微观的角度下实现剔除噪声的目的,使得识别结果更加准确。

步骤S303:基于电子密度格点信息中电子密度鞍点所在的格点位置确定鞍点位置,鞍点位置用于表示非共价相互作用在目标分子结构中的空间位置。具体地,通过计算电子密度格点信息中各个格点的约化电子密度梯度,通过找到约化电子密度梯度的最小值的格点,即可确定鞍点位置。

步骤S304:基于原子坐标信息确定各鞍点位置对应的归属关系,归属关系用于确定非共价相互作用和附近原子对的匹配关系。具体地,在鞍点位置的空间坐标确定之后,即确定了NCI在空间中的位置坐标,但是确定的NCI具体属于分子中的哪一个原子对,还需要根据原子坐标信息、结合NCI的属性和各个原子对的距离,来综合分析判断。

步骤S305:将鞍点位置和与其对应的归属关系作为空间结构信息的位置标签;

步骤S306:至少利用鞍点位置的电子密度、一阶梯度和海森矩阵生成鞍点位置的电子密度拓扑特征,并将电子密度拓扑特征作为空间结构信息的拓扑特征标签,电子密度拓扑特征用于描述非共价相互作用的属性。具体地,NCI又可分为静电作用、π-效应、范德华力和疏水效应等,而不同的NCI其常用的描述方式又有不同,例如:通常π-效应使用电子密度描述,但是范德华力通常使用拉格朗日动能密度描述。常用的用于描述NCI属性和/或类型的电子密度拓扑特征包括但不限于:电子密度、拉格朗日动能密度、哈密尔顿动能密度、势能密度、能量密度、电子密度拉普拉斯和静电势。至少利用鞍点位置的电子密度、一阶梯度和海森矩阵即可计算出上述全部常用的电子密度拓扑特征。之后,在训练过程中,将得到的全部电子密度拓扑特征作为空间结构信息的拓扑特征标签,从而在使用机器学习模型识别的时候,其识别结果可以对每个NCI输出各种拓扑特征值,本领域技术人员根据实际需要直接选择其中的任意结果即可,大大方便了实验研究。

通过上述步骤S301~S306得到目标分子结构的鞍点位置和电子密度拓扑特征,作为一个完整流程已经可以实现对目标分子结构中NCI的识别,但是其中计算的过程使用一次所需的资金成本和时间成本已经很大,对于长时间和大量的NCI识别,其成本消耗是不可估量的。因此在步骤S101~S102中,通过步骤S301~306的方法建立的大量数据样本,训练出机器学习的识别模型,在后续识别过程中,解决了长久的成本消耗大的问题。

具体地,在一实施例中,上述步骤S303,具体包括如下步骤:

步骤S401:将电子密度格点信息划分为多个第一预设范围大小的子信息块。具体地,在上述步骤S1获取的电子密度格点信息中搜索电子密度的鞍点位置,即可得到NCI所在的位置坐标。首先将电子密度格点信息在空间坐标系中划分为多个第一预设范围大小的子信息块,并在每一个子信息块中搜索鞍点位置,以保证搜索的准确率。在本发明实施例中,采用

步骤S402:获取子信息块中的配体-受体原子对,并将以配体-受体原子对的连接线中点位置为圆心、预设长度为半径覆盖的范围作为候选范围。具体地,根据电子密度鞍点本身的特性,其位置更加靠近于原子对两个原子的中间位置,因此获取子信息块中的所有配体-受体原子对,并将原子对连接线中点位置为圆心,预设长度(本发明实施例采用

步骤S403:计算候选范围内各个格点的约化电子密度梯度值,并筛选出其中最小约化电子密度梯度值的格点作为候选鞍点。具体地,在电子密度分布中,结合数学鞍点的性质,鞍点梯度为0,由于离散空间的特性,不存在梯度绝对为0的点,因此计算候选范围内各个格点的约化电子密度梯度值(RDG,Reduced electron Density Gradient),并筛选出其中最小约化电子密度梯度值的格点作为候选鞍点。

步骤S404:计算候选鞍点的相邻格点的约化电子密度梯度值,并将候选鞍点和相邻格点中约化电子密度梯度值最小的格点作为鞍点位置。具体地,若候选鞍点落在候选范围的边缘,该鞍点很可能不是附近的最小梯度点,由于边缘外的点没有进行比对,但是距离候选鞍点又很近,所以边缘外的点很可能是目标原子对的电子密度梯度鞍点,因此计算候选鞍点的相邻格点的约化电子密度梯度值,并将候选鞍点和相邻格点中约化电子密度梯度值最小的格点作为鞍点位置,保证了鞍点位置的准确性。

具体地,在一实施例中,在上述步骤S404之后,还包括如下步骤:

步骤S405:放弃电子密度海森矩阵特征值不满足λ

步骤S406:当一个鞍点位置对应多个配体-受体原子对时,将其中配体和受体距离最近的原子对作为该鞍点位置标注的目标原子对。具体地,由于一个鞍点位置只能标注一个原子对的非共价相互作用,所以在本发明实施例中,当一个鞍点位置对应多个配体-受体原子对时,将其中配体和受体距离最近的原子对作为该鞍点位置标注的目标原子对。

步骤S407:当任意两个鞍点位置的距离小于预设距离时,舍弃其中电子密度值小的鞍点位置。具体地,当两个鞍点位置的距离过于接近时,基于经验判断其中一个鞍点大概率是误差点,因此在本发明实施例中,当任意两个鞍点位置的距离小于预设距离时,舍弃其中电子密度值小的鞍点位置。之后,将最终获得的鞍点位置在模型训练过程中即可作为空间结构信息的位置标签。

通过执行上述各个步骤,本发明实施例提供的一种非共价相互作用的识别别模型训练方法,通过采集目标分子结构的三维空间结构,并将该结构中NCI的位置和NCI拓扑特征作为目标分子结构对应的标签,创建训练样本,之后结合卷积神经网络算法,训练出能够准确识别大分子-配体中NCI的机器学习模型,提高了NCI的识别准确度和识别效率。在训练样本的创建过程中,通过将大分子-配体的空间结构划分为多个格点,并基于晶体学理论计算各个格点的电子密度从而得到可靠性更高的电子密度格点信息。根据电子密度本身的属性,获知其电子密度鞍点与非共价相互作用的位置几乎相同,之后通过各个格点内的电子密度梯度等特征找出代表电子密度鞍点的格点,将该格点位置的空间坐标作为NCI的空间坐标,将该格点计算得到的电子密度拓扑特征作为NCI的拓扑特征,从而准确地将大量的目标分子结构打上标签。并且采用多个分辨率划分分子-配体结构的格点,得到多个分辨率条件下的训练样本,从而实现了从微观和宏观上分析目标分子结构的NCI,进一步提高了NCI识别的准确率和可靠性。此外,根据目标分子结构中原子的不同原子特征,将训练样本从三维向量映射为四维向量,进一步提高了卷积神经网络训练的细致程度,从而进一步提升了本发明实施例提供的识别模型的识别结果可靠性。

如图4所示,本发明实施例还提供了的一种非共价相互作用的识别方法,具体步骤如下:

步骤S103:获取待识别分子结构的空间结构信息。

步骤S104:将待识别分子结构的空间结构信息输入由步骤S102得到的识别模型,并通过识别模型生成待识别分子结构中非共价相互作用的位置坐标、归属关系和拓扑特征。

具体地,通过实验或模拟方式可以直接获取非常容易得到的待识别分子结构的空间结构信息,并将空间结构信息直接输入步骤S102得到的识别模型,该识别模型即可立即输出该分子结构中所有NCI的空间位置坐标和表示NCI属性的电子密度拓扑特征,根据实验人员所需选取其中可用的电子密度拓扑特征即可,大大提高了识别的速度和便利性。

通过执行上述各个步骤,本发明实施例提供的一种非共价相互作用的识别方法,通过大量训练样本训练得到的完备训练模型,对输入的任意一个目标分子结构进行识别,即可在短时间内准确识别出目标分子结构中的NCI位置、归属关系和拓扑特征,提高了NCI的识别效率和识别准确性。

如图5所示,本发明实施例还提供了一种非共价相互作用的识别模型的训练系统,该系统包括:

样本创建模块101,基于目标分子结构建立训练样本,训练样本中包括目标分子结构的空间结构信息与空间结构信息对应的标签,标签包括位置标签和拓扑特征标签,位置标签用于标定目标分子结构中非共价相互作用的空间位置,拓扑特征标签用于标定目标分子结构中非共价相互作用的属性。详细内容参见上述方法实施例中步骤S101的相关描述,在此不再进行赘述。

训练模块102,以空间结构信息为输入利用初始机器学习模型对目标分子结构中的非共价相互作用进行预测,并根据预测结果与标签之间的误差校正初始机器学习模型,以得到识别模型,识别模型用于目标分子结构中非共价相互作用位置和属性的识别。详细内容参见上述方法实施例中步骤S102的相关描述,在此不再进行赘述。

本发明实施例提供的一种非共价相互作用的识别模型的训练系统,用于执行上述实施例提供的一种非共价相互作用的识别模型的训练方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。

如图6所示,本实施例还提供了一种非共价相互作用的识别系统,该系统包括:

信息采集模块103,获取待识别分子结构的空间结构信息。详细内容参见上述方法实施例中步骤S103的相关描述,在此不再进行赘述。

识别模块104,用于将待识别分子结构的空间结构信息输入由步骤S102得到的识别模型,并通过识别模型生成待识别分子结构中非共价相互作用的位置坐标、归属关系和拓扑特征。详细内容参见上述方法实施例中步骤S104的相关描述,在此不再进行赘述。

本发明实施例提供的一种非共价相互作用的识别系统,用于执行上述实施例提供的一种非共价相互作用的识别方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。

图7示出了本发明实施例的一种电子设备,该设备包括:处理器901和存储器902,可以通过总线或者其他方式连接,图7中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。

本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

相关技术
  • 合同公章分类模型的训练方法、系统和识别方法、系统
  • 一种图像识别模型的训练方法、图像识别方法和相关装置
  • 一种医学图像的识别方法、模型训练的方法及服务器
  • 一种基于SSD模型的建筑图纸非构件识别方法
  • 含螺环的芴基分子晶体中分子间非共价键弱相互作用能预测方法及其预测模型训练方法
  • 非正视虹膜图像的矫正模型训练、矫正、识别方法及装置
技术分类

06120115627836