掌桥专利:专业的专利平台
掌桥专利
首页

一种基于自动机器学习的化学材料吸附性能预测方法及装置

文献发布时间:2023-06-19 11:26:00


一种基于自动机器学习的化学材料吸附性能预测方法及装置

技术领域

本发明涉及机器学习技术领域,尤其涉及一种基于自动机器学习的化学材料吸附性能预测方法及装置。

背景技术

化学材料的筛选与设计对重要化工气体的存储与运输具有重要意义。但是合成的气体存储的材料种类多种多样,数量庞大,将其用于气体吸附工作容量的研究时,需要通过分子动力学模拟的方法实现,这种方法虽然准确,但是十分耗时,要想从海量的存储材料中寻找出合适的存储材料,依靠传统的计算方法显然是不可行的。

机器学习给材料性能计算带来了极大的便利,但同时也存在的一些问题。随着算法的种类的增加与复杂度的提升,工程师需要选择相应的模型架构,训练过程,正则化方法以及超参数等,这些都对算法的性能有很大的影响。构建准确而强大的学习模型的过程需要先进的数据科学技能,为解决问题而选择适当的方法并为特定模型配置最佳参数值也是一项艰巨的任务。因此,如何快速有效地计算材料的吸附性能,筛选出合适的气体存储材料,成为亟需解决的问题。

现有技术存在以下问题。第一,传统材料计算方法速度慢,效率低,无法满足现有需求。第二,普通机器学习算法的调参过程复杂,对非专业人员使用的要求门槛较高。第三,没有关于材料预测内容的管道模型的设计。

发明内容

为此,本发明一个方面提供一种基于自动机器学习的材料吸附性能预测方法。包括通过数据构件模块获取化学材料的特征并建立原始数据,通过模型预训练模块建立初始模型,通过模型构建模块生成最佳预测模型以及通过测试模块预测化学材料的吸附性能。用以克服现有技术中因没有关于材料预测内容的管道模型的设计导致的对材料吸附性能预测速度慢,进一步导致效率低的问题。

为实现上述目的,本发明提供一种基于自动机器学习的化学材料吸附性能预测方法,包括:

获取与化学材料吸附性能具有相关性的多种特征,并结合不同类型的特征建立原始数据集,并对该原始数据集进行预处理;

对所述预处理完成的原始数据集进行特征处理并利用机器学习以根据特征处理完成的原始数据利用机器学习生成多个包含超参数的初始模型;

通过管道方法对多个所述初始模型进行迭代训练以生成最佳预测模型;

将测试数据集输入至所述最佳预测模型以进行化学材料吸附性能预测。

进一步地,针对所述原始数据的预处理的方法包括数据采样、数据清洗、特征压缩、特征转换以及特征提取中的一种或多种;

所述通过机器学习生成多个包含超参数的初始模型的方法包括对所述原始数据进行特征处理以保证数据的合理性,以及选取不同的机器进行学习以根据先验知识生成多个包含超参数的初始模型。

进一步地,所述通过管道方法对多个所述初始模型进行迭代训练获得最佳预测模型的方法包括:根据特征重要性对所述特征处理完成的数据集进行数据筛选和特征处理并通过遗传算法和迭代法地对所述初始模型进行调参。

进一步地,所述数据筛选包括使用SelectKBest方法选择最优的前n%的特征信息并移除不符合最小方差阈值的特征信息,该选择方法通过卡方验证和互信息结合计算得出最优的前n%特征,公式如下所示:

其中,p(x,y)是x和y的联合分布函数,p(x)和p(y)分别为是x和y的边际概率密度函数,F

进一步地,所述特征重要性包括特征与目标变量之间的相关性以及各个特征之间的相关性,通过对特征与目标变量的相关性以及各个特征之间的相关性进行分析并保留与目标变量相关性强的特征并删除特征间相关性强的特征以生成该所述特征重要性,相关性通过公式计算得出,公式为:

其中r(x,y)代表两个变量x和y之间的相关系数,

进一步地,所述通过遗传算法对所述初始模型的调参方法包括:通过分别对多个初始模型的超参数进行优化生成多个最佳性能的初始模型,并通过选择最佳参数以生成最佳预测模型。

进一步地,所述生成最佳预测模型的方法包括:通过叠加组合将所述多个所述最佳性能的初始模型集成为最佳预测模型集,集成公式如下所示:

其中A={A

通过在模型选择时对所述数据集进行k个交叉验证,将所述数据集分为k个训练集

进一步地,通过拟合优度R

其中n代表数据集的总数,

本发明另一个方面提供一种用于执行权利要求1-8任一项权利要求所述的基于自动机器学习的化学材料吸附性能预测方法的基于自动机器学习的化学材料吸附性能预测装置,包括:

数据集构建模块,用以获取化学材料的物理、化学结构特征,对无效数据以及空值进行判断和过滤,并对过滤完成的特征建立原始数据集;

模型预训练模块,其与所述数据构件模块相连,用以根据不同的算法生成多个包含超参数的初始模型;

模型构建模块,其与所述模型的预训练模块相连,用以通过管道方法对多个初始模型迭代训练以生成最佳预测模型;

测试模块,其与所述模型构件模块相连,用以输入测试数据集到所述最佳预测模型进行化学材料吸附性能预测。

进一步地,所述模型构建模块包括:

特征工程模块,其与所述模型的预训练模块相连,用以对原始数据集进行特征处理并根据特征重要性对该原始数据集中的原始数据进行特征选择、压缩、提取;

模型选择模块,其与所述特征工程模块相连,用以结合特征重要性对特征处理后的所述原始数据集进行算法模型选择并以不同的算法搭建初始模型;

参数寻优模块,其与所述模型选择模块相连,用以通过遗传算法优化方法分别对多个初始模型优化超参数生成多个最佳性能的初始模型:

管道模块,其与所述参数寻优模块相连,用以通过叠加组合方法将多个所述最佳性能的初始模型集成为最佳预测模型集;

模型评估模块,其分别与所述管道模块和所述测试模块相连,用以对形成的管道模块中所述最佳预测模型集中模型的性能进行评估,选出最佳预测模型。

与现有技术相比,本发明的有益效果在于,通过获取化学材料的结构特征构建原始数据集,对原始数据集进行预处理,根据机器学习生成包含超参数的初始模型,利用管道方法初始模型迭代训练生成最佳预测模型,输入测试数据集到最佳预测模型对化学材料的吸附性能进行预测,本发明所述方法可以快速准确地实现材料吸附性能预测,实现了材料预测内容的管道模型的设计,并通过改管道模型结合多种机器学习算法自动地对预测模型的参数进行优化调节,不需要人工介入,提高了预测过程中的计算速度,并进一步提高了预测的效率。

进一步地,通过对所述原始数据经采样和/或数据清洗和/或特征压缩和/或特征提取的预处理,并对所述原始数据进行特征处理以及选取不同的机器学习,根据先验知识生成多个包含超参数的初始模型,保证了数据的合理性,进一步简化了调参的过程,从而进一步提高了预测的效率。

进一步地,对经过特征处理的所述数据集根据特征重要性进行数据筛选和特征处理,通过遗传算法迭代地对所述初始模型进行调参,进一步简化了调参的过程,从而进一步提高了预测的效率。

进一步地,通过SelectKBest方法选择最优的前n%的特征信息和移除不符合最小方差阈值的特征,提高了对所述数据的特征选择,从而进一步提高了预测的效率。

进一步地,通过保留与目标变量相关性强的特征并删除特征间相关性强的特征生成该所述特征重要性,提高了对所述数据的特征选择,从而进一步提高了预测的效率。

进一步地,通过遗传算法分别对多个初始模型的超参数进行优化生成多个最佳性能的初始模型,并选择最佳参数生成最佳预测模型,实现了对模型的自动处理,从而进一步提高了预测的效率。

进一步地,通过叠加组合将所述多个最佳性能的初始模型集成为最佳预测模型集,在模型选择时进行k个交叉验证,将所述数据集分为k个训练集和k个验证集,在训练完成后对算法进行验证,以生成最佳的预测模型组合以及超参数组合,实现了对模型的自动处理,从而进一步提高了预测的效率。

进一步地,通过拟合优度R

进一步地,通过将上述基于自动及其学习的化学材料吸附性能预测方法设置在所述基于自动及其学习的化学材料吸附性能预测装置中,实现了对所述化学材料吸附性能的自动预测,从而进一步提高了预测的效率。

附图说明

图1为本发明所述基于自动机器学习的化学材料吸附性能预测方法流程图;

图2是步骤S103的具体流程图;

图3是本发明所述基于自动机器学习的化学材料吸附性能预测装置的结构框图。

图4为本发明所述有机分子对甲烷气体吸附性能的评估模型表现的示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。

需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示,其为本发明所述一种基于自动机器学习的化学材料吸附性能预测方法流程图。

本实施例所述一种基于自动机器学习的化学材料吸附性能预测方法包括:

步骤S100,获取化学材料的多种特征,并结合不同类型的特征构建原始数据集;

步骤S200,输入原始数据集进行特征处理,利用基学习器得到多个包含超参数的初始模型;

步骤S300,用管道方法对多个初始模型进行迭代训练以得到最佳预测模型:对输入数据集进行数据筛选和特征处理;通过遗传算法对模型进行调参,通过逐步迭代方法得到最佳预测模型;

步骤S400,输入测试数据集到最佳预测模型进行化学材料吸附性能预测。

所述步骤S100中,通过使用传统的分子模拟方法计算出材料的物理特征和化学特征,包括材料的孔径特征、体积、密度、表面积以及元素含量百分比等物理特征以及吸附热等化学特征,并且对无效数据以及空值的判断以及过滤,并根据所述特征建立原始数据集。

所述步骤S200中,通所述原始数据集进行特征处理,根据先验知识对获取机器学习的初始参数模型,通过机器学习生成多个包含超参数的初始模型。

所述步骤S300中,通过对输入数据集进行数据筛选和特征处理;通过遗传算法对模型进行调参;通过逐步迭代方法得到最佳预测模型。

本实施例中,根据先验知识获取多个包含超参数的初始模型,通过管道方法对所述多个初始模型进行迭代训练以生成最佳预测模型;

具体而言,通过对输入数据集进行数据筛选和特征处理,通过遗传算法对所述初始模型进行调参,通过逐步迭代方法生成最佳预测模型,并将测试数据集输入至所述最佳预测模型对化学材料的吸附性能进行预测。所述管道方法包括使用管道端到端的进行数据预处理、特征工程、模型选择、模型评估等流程,以使预测模型不需人工参与就可以达到最优。通过化学材料性能预测中结合自动机器学习的方法,在保证了预测准确度的同时可以最小化时间及人力成本。

请参阅图2所示,其为本发明所述一种基于自动机器学习的化学材料吸附性能预测方法中步骤S103的具体流程图。

本发明实施例所述一种基于自动机器学习的化学材料吸附性能预测方法,所述步骤S103包括:

步骤310,特征工程,对所述原始数据进行特征处理和对原始数据集预处理,所述预处理包括数据采样、数据清洗、特征压缩、特征转换、特征提取中的一种或多种以及根据特征的重要性进行特征筛选。

具体而言,通过SelectKBest方法,选择最优前n%的特征信息和移除不符合最小方差阈值的特征,其中选择最优前n%特征的方法是结合卡方验证和互信息进行的:

其中p(x,y)是x和y的联合分布函数,而p(x)和p(y)是x和y的边际概率密度函数,F

具体而言,通过下式进行计算,若两个特征变量相关系数大于0.9,则判定两个特征变量相关性强:

其中r(x,y)代表两个变量x和y之间的相关系数,

步骤320,模型选择,选择所述机器学习中的初始化模型表现优异的模型进行选择。

步骤330,模型调参,通过所述遗传算法分别对多个初始模型优化超参数生成多个最佳性能的初始模型,并选定一批最佳参数,使得模型性能达到最佳。

步骤340,通过管道的方式对步骤330得到的最佳模型进行叠加组合,根据遗传算法生成多个最佳性能初始模型,使用叠加组合方法将多个最佳性能的初始模型集成为最佳预测模型集:

其中A={A

具体而言,模型选择时进行k个交叉验证,将数据集分为k个训练集

具体而言,利用叠加组合方法进行集成得到最佳管道模型,可以避免高性能的模型被丢弃,还形成更加复杂的模型结构,可以得到预测能力更强的模型,避免超参数的单一化以及数据的过拟合化,得到的模型鲁棒性更强;所述管道方法是迭代的,每个步骤都被重复执行,不断提高模型的准确性并获得成功的算法。将所有处理过程的方法模型组合起来,构成一条流水线的预测模型,最终得到一个完成的包含数据预处理、特征工程、模型预测的完成管道预测模型。

步骤350,管道模型评估,通过目标函数拟合优度R

其中n代表数据集的总数,

请参阅图3所示,其为本发明所述一种基于自动机器学习的化学材料吸附性能预测装置的结构框图。

本发明实施例所述一种基于自动机器学习的化学材料吸附性能预测装置,包括:

数据集构建模块10,用以获取化学材料的物理、化学结构特征,对无效数据以及空值的判断以及过滤,并结合这些特征建立原始数据集;

模型预训练模块20,根据不同的算法得到多个包含超参数的初始模型;根据先验知识对每个模型设定一组初始的超参数值,以方便后续迭代寻优操作。

模型构建模块30,用以通过管道方法对多个初始模型迭代训练以得到最佳预测模型,所述训练模块包括:

特征工程模块31,用以对原始数据集进行特征处理,根据特征重要性对其进行特征选择、压缩、提取等;

模型选择模块32,用以结合特征重要性对特征处理后的原始数据集进行算法模型选择,选取不同的算法搭建初始模型;

参数寻优模块33,用以通过遗传算法优化方法分别对多个初始模型优化超参数得到多个最佳性能的初始模型:

管道模块34,用以通过叠加组合方法将多个最佳性能的初始模型集成为最佳预测模型;

模型评估模块35,用以对形成的管道模块中模型的性能评估,选出最佳预测模型;

测试模块36,用以输入测试数据集到佳预测模型进行化学材料吸附性能预测。

请参阅图4所示,其为本发明所述基于自动机器学习的化学材料吸附性能预测方法所述有机分子对甲烷气体吸附性能的评估模型表现的示意图。

本发明实施例所述有机分子对甲烷气体吸附性能的评估模型表现通过管道模型对共价有机化合物对甲烷气体吸附性能的预测值和真实观测值进行比较,从而评估模型表现,与传统的分子模拟计算方法相比在效率上提升了2到3个数量级。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于自动机器学习的化学材料吸附性能预测方法及装置
  • 一种基于机器学习的液流电池电堆优化和性能预测方法
技术分类

06120112922793