掌桥专利:专业的专利平台
掌桥专利
首页

近红外定量模型构建方法、装置及存储介质

文献发布时间:2024-04-18 19:54:45


近红外定量模型构建方法、装置及存储介质

技术领域

本发明涉及化学计量学领域,尤其涉及一种基于粒子群算法的近红外定量模型构建方法、装置及存储介质。

背景技术

近红外光谱技术具有分析速度快、对样品无损等优点,在农业、食品、石油化工、烟草等诸多行业广泛应用。然而,受到测量条件和样品状态等外界因素影响,导致量测信号中不可避免的包含与量测目标本身无关的信号与噪声,影响近红外光谱数据的建模效果,需要采取数据增强、导数分析、标准正态变换、多元散射校正等诸多方法对近红外光谱数据进行处理,以消除光谱中的噪声影响。由于,近红外数据建模分析的流程长,算法及参数众多,且相关算法参数与预处理算法顺序间存在复杂的相互影响关系,导致近红外数据的预处理、变量选择与建模工作已成为近红外研究领域亟待解决的问题。

当前,近红外光谱预处理算法及其参数的确定方法,仍以人工经验法为主,部分辅以网格搜索等局部优化方法。前者根据研究者的过往经验来确定合适的光谱预处理分析方案,严重依赖研究者对某种类型近红外光谱分析的预处理经验;后者则以网格搜索算法为例,往往需要对大量网格节点进行实验分析,整体性能较低。

基于此,本发明研究基于粒子群优化方法的近红外定量模型的智能构建及优化方案。该方案基于粒子群方法的全局优化搜索思想,在近红外定量模型构建中系列预处理算法、变量选择算法、建模算法参数,以及预处理算法顺序所构成的全域空间中进行快速搜索,以最终确定与近红外数据特征相匹配的相关算法参数,与预处理算法顺序优选,达到提高近红外模型的预测能力和稳健性的目的。

发明内容

针对现有技术的不足之处,本发明提供了一种近红外定量模型构建方法、装置及存储介质,以解决现有的近红外定量模型构建整体性能不高且效率低的问题。

第一方面,提供了一种近红外定量模型构建方法,包括:

获取近红外光谱数据,构建近红外定量模型训练样本集;

构建粒子群搜索空间,获取多种近红外光谱数据预处理算法、变量选择算法及建模算法及其参数的取值范围,构建由这些参数以及其中多种红外光谱数据预处理算法顺序组成的粒子群搜索空间;

基于近红外定量模型训练样本集,利用粒子群优化算法在粒子群搜索空间中对多种近红外光谱数据预处理算法、变量选择算法及建模算法的参数及多种红外光谱数据预处理算法顺序进行优化;其中每个粒子为各算法的参数及多种红外光谱数据预处理算法顺序构成的向量;

根据粒子群迭代输出结果,选择得到的全局最优解作为各算法的参数以及多种红外光谱数据预处理算法顺序,对近红外光谱数据进行预处理、变量选择和建模,得到近红外定量模型。

进一步地,所述粒子群搜索空间构建过程如下:

构建近红外光谱数据预处理算法、变量选择算法和建模算法集合A={A

对于算法A

搜索空间S

假设搜索空间S

S

进一步地,所述基于近红外定量模型训练样本集,利用粒子群优化算法在粒子群搜索空间中对多种近红外光谱数据预处理算法、变量选择算法及建模算法的参数及多种红外光谱数据预处理算法顺序进行优化,具体包括:

A1:设定粒子速度迭代策略,采用基于线性递减权值方法设定粒子飞行速度迭代策略;

A2:设定粒子位置迭代策略,基于粒子飞行速度,计算迭代后粒子位置,并根据多种近红外光谱数据预处理算法、变量选择算法及建模算法的参数取值范围及多种红外光谱数据预处理算法顺序取值范围,对粒子位置进行验证,并确定最终的迭代后粒子位置;

A3:粒子群初始化,初始化粒子群个数,各粒子初始位置和初始速度,以及粒子迭代退出机制;其中,粒子的位置用多种近红外光谱数据预处理算法、变量选择算法及建模算法的参数及多种红外光谱数据预处理算法顺序构成的向量表示;

A4:粒子群位置检验和调整,判断所有粒子所在位置是否为可行的近红外预处理算法、变量选择算法、建模算法的参数与可行的红外光谱数据预处理算法顺序;若是,则计算粒子与最优解间距离;否则,对粒子所在位置进行调整与优化后,再计算其所在位置与最优解距离;

A5:粒子迭代,若满足粒子迭代退出机制,则将历史全局最优位置作为粒子群优化算法的最优解输出;否则,按照粒子飞行速度迭代策略和粒子位置迭代策略计算粒子下一步飞行位置,并返回到步骤A4。

进一步地,所述步骤A1中,粒子飞行速度迭代公式如下式所示:

式中,

式中,G

进一步地,所述步骤A2中,根据粒子飞行速度预估粒子下一次迭代所处位置

最终确定的粒子位置更新策略如下式所示:

进一步地,所述步骤A3中,粒子迭代退出机制包括达到最大迭代次数和模型R

进一步地,其中,模型R

在进行粒子群优化过程中,每一次迭代完成后,将粒子所代表的各算法参数及多种红外光谱数据预处理算法顺序代入到相应的近红外光谱数据预处理算法、变量选择算法及建模算法后,基于近红外定量模型训练样本集进行建模,并利用模型的R

Dist=1-R

其中,R

其中,y

第二方面,提供了一种近红外定量模型构建装置,包括:

数据获取模块,用于获取近红外光谱数据,构建近红外定量模型训练样本集;

粒子群搜索空间构建模块,用于获取多种近红外光谱数据预处理算法、变量选择算法及建模算法及其参数的取值范围,构建由这些参数以及其中多种红外光谱数据预处理算法顺序组成的粒子群搜索空间;

参数优化模块,用于基于近红外定量模型训练样本集,利用粒子群优化算法在粒子群搜索空间中对多种近红外光谱数据预处理算法、变量选择算法及建模算法的参数及多种红外光谱数据预处理算法顺序进行优化;其中每个粒子为各算法的参数及多种红外光谱数据预处理算法顺序构成的向量;

模型构建模块,用于根据粒子群迭代输出结果,选择得到的全局最优解作为各算法的参数以及多种红外光谱数据预处理算法顺序,对近红外光谱数据进行预处理、变量选择和建模,得到近红外定量模型。

第三方面,提供了一种电子设备,包括:

存储器,其存储有计算机程序;

处理器,加载并执行所述存储器上存储的计算机程序时,实现如上所述的近红外定量模型构建方法。

第四方面,提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的近红外定量模型构建方法。

有益效果

本发明提出了一种近红外定量模型构建方法、装置及存储介质,与现有技术相比,具有如下优点:

(1)不受样本特征及其所对应的近红外光谱数据特征的影响,针对不同领域、不同类型、不同批次样本分析所得到的数据,均无需借鉴研究人员的建模分析经验,可简单、高效地获得高质量的近红外定量模型,极大地降低了对分析人员的要求,满足近红外技术对数据建模分析的要求;

(2)通过前期快速全局搜索与后期强化局部搜索,构建预处理算法、变量选择算法与建模算法的参数优化与预处理算法顺序的高维空间搜索方案,其性能与模型结果均显著优于传统分析等参数优化方法;

(3)本发明所提出的方案,可通过构建更全面、更广阔的近红外光谱优化空间,可进一步优化建模过程中所涉及到的算法参数与顺序,具备较强的可扩展性与可移植性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种近红外定量模型构建方法流程图;

图2是本发明实施例提供的原始近红外光谱数据;

图3是本发明实施例提供的粒子群迭代次数实验结果图;

图4是本发明实施例提供的近红外光谱数据采用粒子群优化后建模与采用传统方法建模模型的R

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

实施例1

如图1所示,本实施例提供了一种近红外定量模型构建方法,包括:

S1:获取近红外光谱数据,构建近红外定量模型训练样本集。

S2:构建粒子群搜索空间,获取多种近红外光谱数据预处理算法、变量选择算法及建模算法及其参数的取值范围,构建由这些参数以及其中多种红外光谱数据预处理算法顺序组成的粒子群搜索空间。

具体地,所述粒子群搜索空间构建过程如下:

构建近红外光谱数据预处理算法、变量选择算法和建模算法集合A={A

对于算法A

搜索空间S

由于,不同的算法其参数取值范围既可能是一段连续的实数区域(如SNV算法的参数范围为预设的一段连续实数区间Γ=(a,b)),也可能是离散的整数(如求导数据处理方法的参数取值范围为Γ={1,2},表示求取一阶导或二阶导),为此搜索空间S

假设搜索空间S

S

S3:基于近红外定量模型训练样本集,利用粒子群优化算法在粒子群搜索空间中对多种近红外光谱数据预处理算法、变量选择算法及建模算法的参数及多种红外光谱数据预处理算法顺序进行优化;其中每个粒子为各算法的参数及多种红外光谱数据预处理算法顺序构成的向量。

具体地,上述过程具体包括:

A1:设定粒子速度迭代策略,采用基于线性递减权值方法设定粒子飞行速度迭代策略。

更具体地,采用如下式所示的线性递减权值机制:

其中,ω

因此,粒子飞行速度迭代公式可如下式所示:

式中,

A2:设定粒子位置迭代策略,基于粒子飞行速度,计算迭代后粒子位置,并根据多种近红外光谱数据预处理算法、变量选择算法及建模算法的参数取值范围及多种红外光谱数据预处理算法顺序取值范围,对粒子位置进行验证,并确定最终的迭代后粒子位置。

更具体地,针对近红外光谱数据预处理算法与建模算法的部分参数取值非连续,粒子搜索空间S

假设第i个粒子在经过t次迭代后所处位置为

最终确定的粒子位置更新策略如下式所示:

A3:粒子群初始化,初始化粒子群个数,各粒子初始位置和初始速度,以及粒子迭代退出机制;其中,粒子的位置用多种近红外光谱数据预处理算法、变量选择算法及建模算法的参数及多种红外光谱数据预处理算法顺序构成的向量表示。

更具体地,粒子迭代退出机制包括达到最大迭代次数和模型R

其中,模型R

在进行粒子群优化过程中,每一次迭代完成后,将粒子所代表的各算法参数及多种红外光谱数据预处理算法顺序代入到相应的近红外光谱数据预处理算法、变量选择算法及建模算法后,基于近红外定量模型训练样本集进行建模,并利用模型的R

Dist=1-R

其中,R

其中,y

综合上述两式,确定粒子迭代搜索过程中,粒子当前位置与最优解之间的距离,由根据粒子当前位置训练所得模型的R

A4:粒子群位置检验和调整,判断所有粒子所在位置是否为可行的近红外预处理算法、变量选择算法、建模算法的参数与可行的红外光谱数据预处理算法顺序;若是,则计算粒子与最优解间距离;否则,对粒子所在位置进行调整与优化后,再计算其所在位置与最优解距离;

A5:粒子迭代,若满足粒子迭代退出机制,则将历史全局最优位置作为粒子群优化算法的最优解输出;否则,按照粒子飞行速度迭代策略和粒子位置迭代策略计算粒子下一步飞行位置,并返回到步骤A4。

S4:根据粒子群迭代输出结果,选择得到的全局最优解作为各算法的参数以及多种红外光谱数据预处理算法顺序,对近红外光谱数据进行预处理、变量选择和建模,得到近红外定量模型。

实施例2

本实施例提供了一种近红外定量模型构建装置,包括:

数据获取模块,用于获取近红外光谱数据,构建近红外定量模型训练样本集;

粒子群搜索空间构建模块,用于获取多种近红外光谱数据预处理算法、变量选择算法及建模算法及其参数的取值范围,构建由这些参数以及其中多种红外光谱数据预处理算法顺序组成的粒子群搜索空间;

参数优化模块,用于基于近红外定量模型训练样本集,利用粒子群优化算法在粒子群搜索空间中对多种近红外光谱数据预处理算法、变量选择算法及建模算法的参数及多种红外光谱数据预处理算法顺序进行优化;其中每个粒子为各算法的参数及多种红外光谱数据预处理算法顺序构成的向量;

模型构建模块,用于根据粒子群迭代输出结果,选择得到的全局最优解作为各算法的参数以及多种红外光谱数据预处理算法顺序,对近红外光谱数据进行预处理、变量选择和建模,得到近红外定量模型。

实施例3

本实施例提供了一种电子设备,包括:

存储器,其存储有计算机程序;

处理器,加载并执行所述存储器上存储的计算机程序时,实现如实施例1所述的近红外定量模型构建方法。

实施例4

本实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如实施例1所述的近红外定量模型构建方法。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

为了加深对本发明的技术方案的理解,下面结合一具体实例对本发明的技术方案做进一步说明。

实例数据:采用图2所示3批次,共计408个香精香料样本的近红外光谱数据及其相应的辩香评结果,以及物理指标进行建模分析。

实例数据情况如下表所示:

(1)预处理算法与变量选择算法的选择,及参数优化搜索场景的构建

本实例中采用PLS算法作为建模算法,由于PLS算法潜变量参数计算的特殊性,因此建模算法的潜变量参数优化采用外部验证集优选,为此在此实例中,不需要在粒子群优化过程中对建模算法参数进行优化,最终,确定的采用粒子群算法进行预处理算法、变量选择算法(其中,无信息变量剔除为变量选择算法)及算法参数优化,如下表所示:

如上表所示,实验光谱数据的预处理与变量选择,总计涉及9个预处理算法与1个变量选择算法,除标准正态变量变换(SNV)算法不需要任何参数设置外,需设置与共同优化的算法参数15个,在加上9个预处理算法的顺序,共同构建24维算法参数空间S

(2)粒子迭代搜索策略设计

如前所述,在上述搜索空间中,粒子搜索过程中的速度更新公式设计如下:

即设置粒子速度更新算法中的学习因子c

(3)粒子初始化设计

初始化粒子群数量为200,粒子退出阈值为0.2(即模型R2≧0.8),最大迭代次数为20次。

对于每个粒子而言,该粒子的前15维通过相应参数取值范围内随机确定,后9维通过向量(1,2,3,4,5,6,7,8,9)中任意分量间随机打乱顺序后确定,最终确定的15+9=24个数值,作为该粒子的初始位置。在对200个粒子均进行上述处理后,得到个粒子的初始化位置。

(4)模型的评价

在完成近红外光谱数据的预处理变量选择分析后,随机选取2/3数据作为模型训练集,剩余1/3作为模型验证集,构建偏最小二乘回归模型,并计算模型的R

如图3所示,在粒子群优化过程中,最快迭代5次就找到了满足退出条件(R

如图4所示,从整体上看,采用粒子群优化参数后所构建的模型,与采用传统分析所构建模型的外部验证Q

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术分类

06120116380712