掌桥专利:专业的专利平台
掌桥专利
首页

一种树脂材料吸附容量预测模型及其预测方法

文献发布时间:2024-07-23 01:35:12


一种树脂材料吸附容量预测模型及其预测方法

技术领域

本申请属于机器学习以及环保领域,更具体地,涉及一种基于机器学习的树脂材料吸附容量预测模型及其预测方法。

背景技术

随着工业的快速发展,工业废水的排放量逐年上升,由于废水中广泛存在多种重金属离子,这会严重破坏水生生态系统。在目前已报道的方法中,吸附法被认为是最有前途的技术之一,因为它在处理重金属废水方面具有卓越的效率、价格低廉且易于操作,而吸附剂的开发是吸附法应用的关键,开发具有良好吸附性能的吸附剂在重金属废水处理中具有广阔的前景,树脂由于其结构稳定、官能团丰富被广泛用于新型高性能吸附剂的开发。

在新型树脂类吸附剂开发的过程中,吸附容量是评价吸附材料吸附性能的主要指标。目前,研究人员在针对特定金属离子开发新型高性能吸附剂时,主要通过实验的方法对其性能进行测试。首先,利用交联法等方法制备出多种改性后的吸附树脂;然后,通过化学药剂配置出不同浓度、不同离子的模拟废水,用于吸附性能评价实验;将制备的新型树脂分批次加入模拟废水中,通过批次实验,在充分反应后计算不同吸附剂对金属的吸附容量;最后,通过计算的吸附容量,评价筛选出最优的改性材料。尽管这种方法可以筛选出性能较好的新型吸附剂,但是批次实验中需要额外的仪器和大量的人力、物力、时间的投入,试验后的废水可能会造成二次污染,且该方法受限于实验场地等因素,不能同时制备出大量的新型吸附剂用于性能测试。因此,亟需开发一种树脂材料吸附容量的预测模型,替代传统批次实验实现树脂吸附性能的预测,用于辅助吸附材料的开发。

目前国内外研究中尚未构建一个吸附容量预测的模型,通常通过定量构效关系(QSAR)实现吸附容量的预测,例如专利文献CN 111613276 A公开了一种基于量子化学参数构建定量构效关系预测微塑料吸附有机物的方法。然而其构效关系的构建需要选择大量参数,如Fukui-C、Fukui-O等参数,这些参数种类多、不易获取,且吸附容量与各个参数之间的影响关系不一定是线性的,因此大大限制了吸附容量预测的发展。而且树脂为有机物,其结构具有立体化、原子之间成键种类复杂的特点,很难标准化为模型可用的数据。

发明内容

为解决上述树脂类吸附剂开发中所遇到的问题,本申请旨在构建一种树脂材料吸附容量预测模型及其预测方法。以树脂材料的结构式、金属离子特征以及环境特征作为模型输入,以树脂材料吸附容量作为模型输出,实现对树脂吸附容量的快速、准确预测。

为实现上述目的,本申请提供了一种树脂材料吸附容量预测模型,其特征在于,所述树脂材料吸附容量预测模型的建立包括以下步骤:

S1.获取吸附特征与树脂材料吸附容量的数据集;所述吸附特征包括与树脂材料吸附容量对应的SMILES表示法规则的树脂材料的结构式、金属离子特征以及环境特征;

将所述数据集分为训练集和测试集;

S2.在所述训练集上,通过机器学习的基本算法,以第一决定系数R

所述基本算法为神经网络、极致梯度提升、随机森林或支持向量机算法;

其中,

x

S3.获得所述测试集在所述第一树脂材料吸附模型上的第二决定系数R

其中,

y

S4.根据第二决定系数R

优选地,在所述步骤S1中的所述金属离子特征包括金属离子的原子序数和价态。

作为进一步优选地,在所述步骤S1中的所述金属离子特征还包括金属离子的电负性和离子半径。

优选地,在所述步骤S1中的所述环境特征包括环境温度、PH值。

优选地,在所述步骤S1中获取吸附特征与树脂材料吸附容量的数据集时,还包括对所述吸附特征进行标准化和补充处理。

优选地,所述测试集与所述训练集的样本总量比例N:M为1:9~4:6。

优选地,在所述步骤S1和所述步骤S2之间,还包括:用评价指标初步选取基本算法,所述评价指标为平均绝对误差MAE

其中,

x

优选地,,所述步骤S2中的所述基本算法为极致梯度提升;在所述步骤S2中,通过对所述极致梯度提升的学习率、所述极致梯度提升中树的最大深度以及所述极致梯度提升中树的数量进行优化,构建第一树脂材料吸附模型。

优选地,所述步骤S2中的所述基本算法为神经网络;在所述步骤S2中,通过对所述神经网络的隐藏层数、所述神经网络的每层隐藏神经元个数、所述神经网络的学习率以及所述神经网络的迭代次数进行优化,构建第一树脂材料吸附模型。

优选地,所述步骤S2中的所述基本算法为随机森林;在所述步骤S2中,通过对所述随机森林的树棵数、所述随机森林的最小叶子数、所述随机森林的最大树深度进行优化,构建第一树脂材料吸附模型。

优选地,所述步骤S2中的所述基本算法为支持向量机;在所述步骤S2中,通过对所述随机森林的核系数以及所述随机森林的正则化参数进行优化,构建第一树脂材料吸附模型。

作为进一步优选地,所述优化的方法为网格搜索。

优选地,所述步骤S2中的第一决定系数R

本申请还提供了一种利用上述树脂材料吸附容量预测模型,预测树脂材料的吸附容量的方法,根据树脂材料的结构式、金属离子特征以及环境特征,预测树脂材料对特定金属离子的最大饱和吸附容量。

总体而言,通过本申请所构思的以上技术方案由于将树脂材料的结构式以SMILES表示法进行规范化后,选用了原子序数和价态等作为金属离子特征、以及pH和温度作为环境特征;相较于定量构效关系(QSAR),这些参数更易获取,从而获得足够建立预测模型的样本总量;本申请进一步对所述吸附特征进行标准化和补充处理;根据原子序数和价态可以补充电负性和离子半径的特征,根据PH值和温度可以补充价态的特征,增大了可使用的样本总量,提高了模型的可信度;

通过建立树脂材料吸附容量预测模型,可以计算出不同吸附特征的特征贡献值,能有效分析预测模型中各个特征的重要性,为进一步优化树脂吸附的环境条件提供理论指导;

经验证,在对重金属的吸附容量的预测中,误差小于等于40%,能够为生产上筛选合适的树脂材料吸附剂起到参考作用,从而降低了研发和测试成本。

附图说明

图1为本申请树脂材料吸附容量预测模型的建立的流程示意图;

图2为验证例2中TP260饱和吸附容量的真实值与预测值的对比;

图3为验证例3中CR11饱和吸附容量的真实值与预测值的对比。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

另外,贯穿本说明书对“一个实施例”的引用;“一个实施例”、“一个示例”或类似的语言表示结合该实施例描述的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,短语“在一个实施例中;”的出现贯穿本说明书的“在一个实施例中”和类似的语言可能但不一定都指代相同的实施例。

由于现有技术中,研究学者针对不同的金属离子已经开发了大量的新型树脂材料;申请人认为,树脂材料的吸附容量与材料本身的化学结构、吸附金属的特征(金属元素种类、元素价态、电负性、离子半径)、反应条件(温度、pH)有着密切关系,从而提出了本申请。

本申请提供了一种树脂材料吸附容量预测模型及其预测方法,所述树脂材料吸附容量预测模型的建立包括以下步骤,如图1所示:

S11.获取吸附特征与树脂材料吸附容量的数据集;所述吸附特征包括与树脂材料吸附容量对应的SMILES表示法规则的树脂材料的结构式、金属离子特征以及环境特征;其中,金属离子特征包括金属离子的原子序数、价态、电负性、离子半径,环境特征包括环境温度、pH值;所述树脂材料吸附容量为特定树脂材料在特定环境特征下对特定金属离子的最大饱和吸附容量;

S12.对所述吸附特征进行标准化和补充处理,在标准化和补充处理后仍缺少吸附特征的,作为缺失值不纳入数据集;

其中标准化具体为将各特征中的单位统一;例如分子式可能为结构式也可能为分子式、中文常用名、中文学名或英文学名,需统一为SMILES表示法规则的结构式;环境温度可能为摄氏温度也可能为开氏温度,可以统一为摄氏温度,但统一为开氏温度也不影响模型的成功建立;同时,在数据集中树脂材料吸附容量的原始数据并不包括最大饱和吸附容量时,需要根据等温吸附方程计算出最大饱和吸附容量;

补充处理的目的为补充金属离子的金属离子的价态、电负性、离子半径等金属离子特征;因为金属离子的价态与pH值和金属离子的原子序数有关,例如锰在碱性条件下价态为+6;在金属原子序数和价态固定的前提下,电负性和离子半径也是固定的,所以价态、电负性和离子半径可以互相作为参考根据进行补充;还有部分金属在污水中只可能呈现一个价态,例如铜离子固定为+2价。补充处理具体为:先统计出特定金属离子(例如二价铁离子的)在数据集中完整数据样本(即原子序数、价态、电负性、离子半径、环境温度、pH值特征均齐全)的离子半径范围和电负性范围,并计算其平均值;然后对缺失的数据样本进行吸附特征补充:例如离子半径或电负性落入完整数据样本的相应范围的,价态设置为与相应完整数据样本的一致;价态未缺失但离子半径或电负性缺失的,按对应金属离子特征的平均值进行补充;仍无法判断价态、离子半径和电负性的,还可以根据原子序数和pH值进行补充;最后仍无法补充的,则作为缺失值不纳入数据集;

S13.将所述数据集按样本总量比例N:M为1:9~4:6分为测试集与训练集;

S2.在所述训练集上,通过机器学习的基本算法(如神经网络、极致梯度提升、随机森林或支持向量机算法),以第一决定系数R

所述基本算法为神经网络、极致梯度提升、随机森林或支持向量机算法;

其中,

x

当基本算法为极致梯度提升时,通过对极致梯度提升的学习率learning_rate、极致梯度提升中树的最大深度max_depth以及极致梯度提升中树的数量n_estimators的参数进行优化,构建第一树脂材料吸附模型;当基本算法为神经网络时,通过对神经网络的隐藏层数n_layer、每层隐藏神经元个数n_neuron、学习率learning_rate以及迭代次数epoch的参数进行优化,构建第一树脂材料吸附模型;当基本算法为为随机森林时,通过对随机森林的树棵数n_estimators、最小叶子数min_samples_leaf以及最大树深度的参数max_depth进行优化,构建第一树脂材料吸附模型;当基本算法为支持向量机时,通过对支持向量机的核系数gamma以及正则化参数C进行优化,构建第一树脂材料吸附模型;优化参数可使用网格搜索法,进行自动优化,比手动调参更加高效且性能更好;构建后第一树脂材料吸附模型的第一决定系数R

S3.获得所述测试集在所述第一树脂材料吸附模型上的第二决定系数R

其中,

x

S4.根据第二决定系数R

在某一些实施例中,步骤S1之后,步骤S2之前可以对基本算法利用评价指标(除了预决定系数R

其中,

x

预决定系数R

同样的,平均绝对误差MAE

其中,

y

以RMSE为例,在一些实施例使用的数据集为基础进行计算的基础上,通常RMSE

在利用上述树脂材料吸附容量预测模型,进行金属吸附容量的预测时,需要至少获取树脂材料的结构式、金属离子的价态和环境温度、pH值;并按上述步骤S12相同的方法进行标准化和补充处理,再输入树脂材料吸附容量预测模型进行预测,获得相应的最大饱和吸附容量。在标准化和补充处理后仍缺少吸附特征的,则无法成功进行预测。

以下内容为实施例:

实施例1

本实施例构建出预测模型的方法具体包括以下步骤:

S11.获取树脂吸附材料的特征(包括树脂的吸附容量、树脂的特征结构式)、吸附金属的特征(原子序数、元素价态、电负性和离子半径)、反应条件(温度、pH)三类特征的数据,并构建为数据集;上述数据可以通过从已公开发表的论文中检索关键词下载对应的中英文文献,从文献中获取相关实验数据。本实施例主要参考了Web of Science数据库中树脂材料的相关文献,共收集了381组数据;

S12.将获取的数据集做数据预处理(即标准化和补充)

其中树脂吸附容量为等温吸附方程所计算的最大饱和吸附容量,等温线拟合R

以聚乙烯基四唑接枝聚苯乙烯(PVT-g-PS)为例,一部分标准化前后的数据分别如表1和2所示:

表1标准化前的数据

表2标准化后的数据

在预处理后,对数据的完整性进行检验,对于有特征缺失的数据组直接删除,删除后的数据的数量为368组;

S13.按照8:2的比例将数据集划分为训练集和测试集;

S21.基于训练集数据,在神经网络、极致梯度提升、随机森林、支持向量机等算法中,以R

S22.利用网格搜索方法,对S21中构建的模型的参数(包括学习率learning_rate,树的最大深度max_depth,树的数量n_estimators三个参数)进行调整,找到最佳的参数组合,构建树脂吸附剂吸附容量预测模型。首先通过控制单个参数变化找到较好的参数范围,此时learning_rate的参数调整区间设置为0.02~0.3,增加梯度为0.02,max_depth的参数调整区间设置为1~201,其增加梯度为10,n_estimators的参数调整区间设置为10~500,其中10~100的梯度增加区间为20,100~500的梯度增加区间为50。其次,在确定最优参数的可能存在范围后,考虑了三个参数的交互影响,利用网格搜索法同时对三个参数进行调整,以R

其中

S3.利用构建的预测模型,在测试集上测试模型的性能,并以R

其中,y

S4.根据R

验证例1各特征对于树脂材料吸附模型的贡献值验证

实施例1中构建的树脂预测模型为f(x

通过如下方程可获取第i个特征在所述树脂材料吸附模型中的贡献率Φ

其中N为所有特征的集合;S为不包括x

本实施例中利用python中的SHAP包计算每个特征的SHAP值(也就是贡献率Φ

验证例2氨基磷酸型树脂的树脂吸附容量测试

在实验室制备了一种氨基磷酸型树脂(TP260),并通过废水模拟实验模拟了含有Cu、Zn、Mn、Cd、Co、Cr不同离子的六种废水,并通过等温吸附动力学实验,找到树脂的最大吸容量。

同样的,收集树脂吸附材料的化学结构(包括树脂的吸附容量、树脂的特征结构式)、吸附金属的特征(吸附的金属元素、金属元素价态)、反应条件(电负性和离子半径)三类特征的数据,并按实施例1相同的标准进行数据的标准化,标准化的数据以及实际吸附容量如表3所示,标准化数据的单位与表2一致。

表3TP260标准化后的数据

将表格上的六个样本的参数输入模型,以预测该树脂对不同金属的饱和吸附容量,同时,通过实验的方法来实际测试吸附容量,该值也列于表2中。测试方法为:配置了Cu(II)、Zn(II)、Cd(II)、Mn(II)、Co(II)、Cr(III)六种重金属离子的溶液,浓度梯度为0~800mg/L,将配置的溶液置于离心管中,将离心管放置于空气摇床中进行振荡以完成吸附反应,反应温度设置为25℃,pH为5,转速为160rpm,于24小时吸附反应平衡后取出,采用Langmuir方程对实验结果进行拟合,得到吸附树脂对6种重金属离子的最大吸附量,即为实际测试吸附容量。

对比实验所得到的吸附容量与模型计算的吸附容量之间的差值,对模型进行应用评价。如图2所示,通过对比,模型在同时对六种重金属离子的吸附容量的预测中,Cu和Cr的预测效果较差,相对误差达到了30%,其他预测效果均较为理想,相对误差在20%以内。

验证例3螯合亚氨基二乙酸型树脂的树脂吸附容量测试

在实验室制备了一种螯合亚氨基二乙酸型树脂(CR11),并通过废水模拟实验模拟了Cu、Zn、Mn、Cd、Co、Cr六种废水,并通过等温吸附动力学实验,找到树脂的最大吸容量。

同样的,收集树脂吸附材料的化学结构(包括树脂的吸附容量、树脂的特征结构式)、吸附金属的特征(吸附的金属元素、金属元素价态)、反应条件(电负性和离子半径)三类特征的数据,并按实施例1相同的标准进行数据的标准化,标准化的数据如表4所示,标准化数据的单位与表2一致。

表4CR11标准化后的数据

将表格上的六个样本输入模型,以预测该树脂对不同金属的饱和吸附容量,同时,通过实验的方法来实际测试吸附容量。实验中配置了Cu(II)、Zn(II)、Cd(II)、Mn(II)、Co(II)、Cr(III)六种重金属离子的溶液,浓度梯度为0-800mg/L,将配置的溶液置于离心管中,将离心管放置于空气摇床中进行振荡以完成吸附反应,反应温度设置为25℃,pH为5,转速为160rpm,于24小时吸附反应平衡后取出,采用Langmuir方程对实验结果进行拟合,得到各吸附树脂对6种重金属离子的最大吸附量,即为实际测试吸附容量。

对比实验所得到的吸附容量与模型计算的吸附容量之间的差值,对模型进行应用评价。如图3所示,通过对比,模型在同时对6重金属的吸附容量的预测中,Cd和Co的预测效果较差,相对误差达到了40%,其他预测效果均较为理想,相对误差在20%以内。

本领域的技术人员容易理解,以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。

相关技术
  • 一种高吸水树脂内养护补偿收缩水泥基材料早龄期水化预测模型构建方法及应用
  • 一种掺水化热调控材料的水泥基材料早龄期水化预测模型的构建方法及应用
  • 一种硬脆材料工艺参数预测模型及其多目标优化方法
  • 品质预测模型生成方法、品质预测模型、品质预测方法、金属材料的制造方法、品质预测模型生成装置以及品质预测装置
  • 基于ARIMA预测模型和灰色预测模型实现容量预测的方法
技术分类

06120116668129