掌桥专利:专业的专利平台
掌桥专利
首页

基于多学习模型的有机分子常见理化性质的预测方法

文献发布时间:2023-06-19 19:30:30


基于多学习模型的有机分子常见理化性质的预测方法

技术领域

本发明涉及化学化工应用的生产领域,具体涉及一种基于多学习模型的有机分子常见理化性质的预测方法。

背景技术

有机分子的常见理化性质包括但不限于沸点、熔点、闪点、密度、粘度、表面张力、蒸汽压、堆积密度指数(PDI),是化学化工生产过程的重要参数。有机分子的理化性质获取方法包括:实验或仪器分析测量、理论计算预测、机器学习方法预测。

尽管实验或仪器分析取得常见理化性质比较容易,但许多化合物的常见理化性质仍难以直接测量或需要耗费大量成本测量,须通过预测方法取得理化性质。

传统的理论计算方法预测不仅会花费大量的时间,并且预测结果准确度不高。

近年来,机器学习方法的迅速发展,使得通过机器学习方法解决有机分子理化性质预测问题成为一个重要研究方向。在本领域中,机器学习方法具有拟合精度高的优点,相比冗杂的线性回归方法具有更强的非线性拟合能力,同时,机器学习方法对数据的学习结果的泛化性能强于传统数理方法,因此机器学习方法经常被用于探索有机分子结构-性质的内在联系。

然而由于机器学习方法的黑箱特性,难以通过简单的手段优化模型,所取得的预测精度难以具备高应用价值。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于多学习模型的有机分子常见理化性质的预测方法。

本发明是通过以下技术方案实现的:

一种基于多学习模型的有机分子常见理化性质的预测方法,包括以下步骤:

步骤一,收集已具有理化性质测试信息的有机分子数据,构建初始有机分子理化性质数据集;

步骤二,利用有机分子数据计算分子描述符和分子指纹,并利用归一化规范所有分子描述符和分子指纹数据,得到分子指纹数据集以及分子描述符数据集;

分子描述符数据集划分为解释性描述符集和回归描述符集两种类型,其中,所述解释性描述符集主要为分子特征官能团,分子理化性质,分子结构组成指数,分子拓扑信息指数;所述回归描述符集为依据Spearman相关系数筛选,多元逐步回归等算法取得的浓缩描述符集;

步骤三,针对分子指纹数据集以及两种不同类型的分子描述符数据集,分别构建并训练得到三种用于预测分子理化性质的学习模型:

步骤四,分别使用每个训练完成的学习模型对未知理化性质分子的理化性质进行预测,得到各学习模型的预测值;然后利用集成策略对学习模型的预测值进行集成,生成最终的预测值,根据最终的预测值确定未知理化性质分子的理化性质。

在上述技术方案中,所述有机分子包括但不限于:脂肪烃、芳香烃、醇醚酚、胺、硫醇硫醚、卤代烃、杂环化合物、醛酮、羧酸衍生物、硝基化合物和磺酰基化合物等类别。

所述有机分子样本量占比分布依上述类别序列降低。有机分子的分子质量分布于16-520Da间。

在上述技术方案中,当有机分子的理化性质为沸点时,类别中脂肪烃、芳香烃、卤代烃分别占据数据库的28%,14%和20%,剩余每种分子类别约占据6%。

在上述技术方案中,所述分子描述符包括但不限于:分子特征官能团、分子结构组成指数、分子拓扑信息指数、分子典型描述符、2D自相关因子、分子理化性质。

在上述技术方案中,所述分子指纹包括:MACSS指纹、PubChem指纹、子结构指纹、KlekotaRoth指纹、扩展连通性指纹(ECFP)、路径指纹(PFP);分子指纹的输入特征为基于指纹光谱,稀疏化处理的各类分子指纹所形成的复合指纹。

在上述技术方案中,第一种学习模型和第二种学习模型是根据反向传播神经网络构建的基于贝叶斯算法的全连通神经网络模型;第三种学习模型是根据SVMR构建的支持向量机模型,使用高斯函数映射样本向量,该模型的学习器核函数采用RBF函数,参数Scale取值5-20。

在上述技术方案中,第一种学习模型是使用解释性描述符集的数据进行训练得到的,第二种学习模型是使用回归描述符集的数据进行训练得到的,第三种学习模型是使用分子指纹数据集的数据进行训练得到的。

在上述技术方案中,所述集成策略包括但不局限于放缩加权法、投票法。

在上述技术方案中,种集成策略如下:

一种集成策略为:Output=Σ

本发明的优点和有益效果为:

1、本发明使用基于高斯函数的支持向量机,有效整合大量分子指纹信息,使用多个异质学习模型,使样本有机分子的结构特征充分映射至理化性质空间,增强本发明系统的可预测有机分子的种类范围和实用性。

2、基于贝叶斯算法的神经网络有效减少训练迭代轮次并获得更高的训练结果,相对于传统实验检测以及常规机器学习方法,本发明显著提高理化性质预测效率和预测精度;

3、对三个模型预测结果的平均有效整合三个模型的优势,显著提升模型的泛化能力和预测精度。

附图说明

图1是本发明实施例一的一种基于多组件间学习器的邮寄分子理化性质预测方法的流程图。

对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据以上附图获得其他的相关附图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施例进一步说明本发明的技术方案。

一种基于多学习模型的有机分子常见理化性质的预测方法,参见图1,该方法包括以下步骤:

步骤一,收集已具有理化性质测试信息的有机分子数据,构建初始有机分子理化性质数据集。

所述有机分子包括但不限于:脂肪烃、芳香烃、醇醚酚、胺、硫醇硫醚、卤代烃、杂环化合物、醛酮、羧酸衍生物、硝基化合物和磺酰基化合物等类别。

所述有机分子样本量占比分布依上述类别序列降低。有机分子的分子质量分布于16-520Da间。

所述数据集包含总分子样本量500~10000。

优选的,当有机分子的理化性质为沸点时,类别中脂肪烃、芳香烃、卤代烃分别占据数据库的28%,14%和20%,剩余每种分子类别约占据6%。

步骤二,利用有机分子数据计算分子描述符和分子指纹,并利用归一化规范所有分子描述符和分子指纹数据,得到分子指纹数据集以及分子描述符数据集。

所述分子描述符包括但不限于:分子特征官能团、分子结构组成指数、分子拓扑信息指数、分子典型描述符、2D自相关因子、分子理化性质;分子描述符数据集可以划分为解释性描述符集和回归描述符集两种类型,其中,所述解释性描述符集主要为分子特征官能团,分子理化性质,分子结构组成指数,分子拓扑信息指数;所述回归描述符集为依据Spearman相关系数筛选,多元逐步回归等算法取得的浓缩描述符集。

所述分子指纹包括但不限于:MACSS指纹、PubChem指纹、子结构指纹、KlekotaRoth指纹、扩展连通性指纹(ECFP)、路径指纹(PFP);分子指纹的输入特征为基于指纹光谱,稀疏化处理的各类分子指纹所形成的复合指纹。

步骤三,针对分子指纹数据集以及两种不同类型的分子描述符数据集,分别构建并训练得到三种用于预测分子理化性质的学习模型。其中:

第一种学习模型是使用解释性描述符集的数据进行训练得到的,是根据BPNN(反向传播神经网络)构建的基于Bayes算法的全连通神经网络模型(并不限定为这一种网络模型,也可以是其他神经网络模型);该学习模型从前到后依次为输入层、隐含层和输出层,该学习模型中的学习器中参数mu取值10

第二种学习模型是使用回归描述符集的数据进行训练得到的,是根据BPNN(反向传播神经网络)构建的基于Bayes算法的全连通神经网络模型(并不限定为这一种网络模型,也可以是其他神经网络模型);该学习模型从前到后依次为输入层、隐含层和输出层,该学习模型中的学习器中参数mu取值10

第三种学习模型是使用分子指纹数据集的数据进行训练得到的,是根据SVMR(支持向量化结构),构建支持向量机模型,使用高斯函数映射样本向量,该模型的学习器核函数采用RBF函数,参数Scale取值5-20。

进一步的说,训练学习模型时,先将步骤二得到的分子指纹数据集以及两种不同类型的分子描述符数据集分别按9:1的比例划分训练集和测试集,应用训练集对各学习模型进行训练,应用测试集对学习模型的预测效果进行测试,最后得到预测效果满足要求的学习模型。

步骤四,分别使用每个训练完成的学习模型对未知理化性质分子的理化性质进行预测,得到各学习模型的预测值;然后利用集成策略对学习模型的预测值进行集成,生成最终的预测值,根据最终的预测值确定未知理化性质分子的理化性质。

所述集成策略包括但不局限于放缩加权法、投票法。本实施例提供的一种集成策略如下:

一种集成策略为:Output=Σ

其中O

以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

技术分类

06120115933014