一种通过计算电子密度预测分子环结构的方法
文献发布时间:2024-04-18 19:54:45
技术领域
本发明涉及一种分子环结构预测方法,具体说是通过计算电子密度预测分子环结构的方法。
背景技术
分子生成算法广泛应用于药物研发、催化剂设计等科学研究和产业研发领域。分子生成算法十分依赖于分子表征方式,常用的分子表征方式有SMILES、马库什结构式、分子3D结构等,它们分别以一维、二维、三维的信息方式表示分子,所表示的信息量依次增加。但它们对分子的电子结构信息依然没有显式描述,可以显式描述电子结构的表征方式有电子密度和分子轨道。其中,使用电子密度表征分子,与SMILES、马库什式、3D结构相比,可以蕴含分子更多信息;同时与分子轨道相比,又可以显著降低计算量,以电子密度作为表征方式的分子生成算法有着巨大的开发价值和应用潜力。以电子密度作为表征方式时,在有些情况也需要预测分子环结构,现有的技术中没有通过电子密度预测分子环结构的方法。
发明内容
本发明要解决的技术问题是提供一种通过计算电子密度预测分子环结构的方法,采用该方法通过计算电子密度预测出分子环结构,从而适用于以电子密度为表征方式的分子生成算法中。
为解决上述问题,提供以下技术方案:
本发明的通过计算电子密度预测分子环结构的方法的特点是包括如下步骤:
第一步,构建数据集,数据集中有300个以上的分子,每个分子各不相同,且都包含一个环结构,代表了不同的化学环境。
二步,量子化学计算,对数据集的每个分子做量子化学计算,获取电子密度拓扑信息,找到每个分子的环临界点。
第三步,计算每个环临界点的电子密度拓扑信息。
第四步,将数据集中分子环临界点电子密度拓扑信息作为特征,对应的分子环结构作为标签,训练机器学习模型。
第五步,经过训练后的机器学习模型为机器预测模型,输入分子环临界点的电子密度拓扑信息即可预测出相应的分子环结构信息,进而实现通过计算电子密度预测分子环结构。
其中,所述数据集中分子选自分子数据库中截取的分子片段,所述分子数据库含分子环结构。
第三步中计算每个环临界点的电子密度拓扑信息采用的方法是:电子密度值、拉格朗日动能密度、势能密度、电子密度拉普拉斯、静电势、电子密度汉斯矩阵本征值,以及由这些值构成的函数。
第四步中训练机器学习模型的过程是:采用交叉验证法,将数据集中的分子分成训练集、验证集和测试集,分别输入到机器学习模型中进行学习训练,学习训练过程中输入机器模型的是分子环临界点的电子密度拓扑信息,输出的是对应分子的环结构信息。
所述训练集的分子数量占数据集的分子数量一半以上,所述验证集的分子数量不少于测试集的分子数量。
所述机器学习模型为支持向量机、树模型、逻辑回归或神经网络。
采取以上方案,具有以下优点:
由于本发明的通过计算电子密度预测分子环结构的方法采用分子的电子密度信息即可发推出分子的环结构,即通过电子密度在空间中的一个点的信息,预测分子在此处应该含有的环状结构。因而,该方法可适用于以电子密度为表征方式的分子生成算法中,对以电子密度作为表征方式的分子生成算法有较大的推动作用。
附图说明
图1是分子的环结构图;
图2是本发明的通过计算电子密度预测分子环结构的方法的流程图。
具体实施方式
以下结合图1、图2和实施例对本发明作进一步详细描述。
图1中展示了三个分子,分别含有一个五元环,一个六元环,和一个开环。环中的点即为分子的电子密度的一阶鞍点,称为环临界点。在给出分子结构后,环临界点可通过计算获得。本发明通过计算电子密度预测分子环结构,可用于基于电子密度表征方式的分子生成算法,即如果先给出的是电子密度,即可反推出所处的环结构。
本发明的通过计算电子密度预测分子环结构的方法包括如下步骤:
第一步,构建数据集,数据集中有6524个分子,每个分子各不相同,且都包含一个环结构,代表了不同的化学环境。所述数据集中分子选自分子数据库中截取的分子片
第二步,量子化学计算,对数据集的每个分子做量子化学计算,获取电子密度拓扑信息,找到每个分子的环临界点。
第三步,计算每个环临界点的电子密度拓扑信息。采用的方法是:电子密度值、拉格朗日动能密度、势能密度、电子密度拉普拉斯、静电势、电子密度汉斯矩阵本征值,以及由这些值构成的函数,如键椭率等。本实施例中使用了电子密度值、电子密度汉斯矩阵第二本征值及键椭率,公式分别如下:
电子密度值公式
其中,η
电子密度汉斯矩阵本征值通过对电子密度汉斯矩阵对角化获得,获得的三个本征值分别记为:
λ
此处使用的是λ
键椭率公式
∈(r)=|λ
第四步,将数据集中分子环临界点电子密度拓扑信息作为特征,对应的分子环结构作为标签,训练机器学习模型。
所述训练集的分子数量占数据集的分子数量一半以上,所述验证集的分子数量不少于测试集的分子数量。本实施例中6524个分子按60%、20%、20%分成训练集、验证集、测试集。
机器学习模型为支持向量机、树模型、逻辑回归或神经网络。
训练机器学习模型的过程是:采用交叉验证法,将数据集中的分子分成训练集、验证集和测试集,分别输入到机器学习模型中进行学习训练,学习训练过程中输入机器模型的是分子环临界点的电子密度拓扑信息,输出的是对应分子的环结构信息。
第五步,经过训练后的机器学习模型为机器预测模型,输入分子环临界点的电子密度拓扑信息即可预测出相应的分子环结构信息,进而实现通过计算电子密度预测分子环结构。
采用不同机器学习模型得出的预测准确度如下表:
本发明的通过计算电子密度预测分子环结构的方法通过电子密度在空间中的一个点的信息,预测分子在此处应该含有的环状结构,可用于基于电子密度表征方式的分子生成算法。预测几元环只是一种性质,除此之外,对环的芳香性等性质也可以预测。