掌桥专利:专业的专利平台
掌桥专利
首页

一种近红外模型维护方法

文献发布时间:2024-04-18 19:54:45


一种近红外模型维护方法

技术领域

本发明涉及近红外光谱分析技术领域,特别涉及一种近红外模型维护方法。

背景技术

近红外光谱分析技术作为一种绿色分析技术,具有分析速度快、操作简单,并可实现原位、无损、在线的定性定量分析等优点,并逐渐成为烟草及烟草制品质量控制和评价的优选方法。应用近红外技术,可快速得到烟草及烟草制品中的化学成分(例如总植物碱、总糖等)的浓度,使卷烟品质评价从感官走向与内在的结合,从而达到外观质量与内在质量的相互统一。

然而随着样本化学成分的变化,会导致原来所建的近红外模型的预测结果产生严重的偏差,不利于产品的检测。因此近红外模型的更新或维护是非常必要的,并且成为影响近红外光谱分析是否成功的关键性因素,然而目前缺乏有效的模型维护方案。

发明内容

本发明的主要目的在于解决现有技术中因待测样本成分变化而导致的原近红外模型的预测结果产生严重的偏差的问题。为实现上述目的,本发明提供了一种近红外模型维护方法,能够基于检测指标的光谱纯信号选择合适的模型维护样本,扩充模型中样本的覆盖范围,从而提高模型的预测准确性。

本发明一实施例提供了一种近红外模型维护方法,包括:

获取待维护的近红外模型的各建模样本的纯光谱信号以及待测样本集中的各待测样本的纯光谱信号;

对各建模样本的纯光谱信号进行主成分分析,确定各建模样本的主成分得分和主成分模型;

将各待测样本的纯光谱信号分别投影至主成分模型,获取各待测样本的特征得分;

基于主成分得分和待测样本集中各待测样本的特征得分,确定各维护样本;

基于各维护样本更新待维护的近红外模型。

具体的,本方法中的检测指标可以是烟草或烟草制品的化学成分,比如总植物碱、总糖、总氮等。样本的纯光谱信号可由基于样本的检测指标的近红外光谱和浓度值确定。

具体的,随着时间的推移,近红外模型需要使用最新维护样品进行修正。本方法基于建立原模型所用的建模样本的光谱数据和浓度值确定原建模样本的纯光谱信号,并对纯光谱信号进行主成分分析,获取各建模样本的主成分得分和主成分模型。进而根据主成分模型和待测样本的纯光谱信号确定各待测样本的特征得分,基于特征得分从各待测样本中筛选出维护样本对原近红外模型进行修正更新,实现了对原模型的快速准确修正,不仅扩大了其样品光谱主成分空间的覆盖范围,也扩大了模型的适用范围,从而使得模型更适应新样品的预测,并且修正后的模型预测能力有较大的提高。另外,本方案是在确定待维护样本后,再测量待维护样本的检测指标浓度,不需要测量所有维护样本的检测指标浓度,因而可以减少时间和成本,提高检测效率。

作为本发明的一个具体实施方式,主成分得分包括第一主成分得分和第二主成分得分;

待测样本的特征得分包括将待测样本的纯光谱信号投影至主成分模型获得的第一特征得分和第二特征得分;

各维护样本基于第一主成分得分、第二主成分得分以及待测样本集中各待测样本的第一特征得分和第二特征得分确定。

具体的,各维护样本的第一特征得分不在建模样本的第一主成分得分的范围内且其第二特征得分也不在建模样本的第二主成分得分的范围内。

作为本发明的一个具体实施方式,基于主成分得分和待测样本集中各待测样本的特征得分,确定维护样本,包括:

针对待测样本集中的每一个待测样本,根据待测样本的特征得分不在主成分得分的范围内,确定待测样本为维护样本。

具体的,如果待测样本的特征得分不在建模样本的主成分得分的范围内,则表明该待测样本不在原近红外模型的范围内,不能用原模型预测,因此需要将该待测样本添加到原模型中,进而扩充模型的覆盖范围。

作为本发明的一个具体实施方式,基于各维护样本更新待维护的近红外模型,包括:

基于各维护样本的特征得分进行排序,选取设定数量的维护样本;

基于设定数量的维护样本更新待维护的近红外模型。

作为本发明的一个具体实施方式,获取待维护的近红外模型的各建模样本的纯光谱信号以及待测样本集中的各待测样本的纯光谱信号,

分别获取各建模样本的检测指标的光谱数据和浓度值,以及,各待测样本的检测指标的光谱数据和浓度值;

基于各建模样本的光谱数据和浓度值,构建投影矩阵;

基于投影矩阵分别对各建模样本的光谱数据和各待测样本的光谱数据进行投影,获取各建模样本的纯光谱信号以及各待测样本的纯光谱信号。

作为本发明的一个具体实施方式,基于各建模样本的光谱数据和浓度值,构建样本对应的投影矩阵,包括:

根据各建模样本的光谱数据重构第一光谱矩阵,在第一光谱矩阵中,位于同一行的元素代表同一建模样本的光谱数据;

根据第一光谱矩阵和各建模样本的浓度值确定第一浓度向量;

根据第一光谱矩阵和第一浓度向量确定第二光谱矩阵,其中,第二光谱矩阵用于表征由与检测指标的子空间相正交的其它信息所组成的空间;

基于第二光谱矩阵和第二光谱矩阵的广义逆矩阵构建投影矩阵。

作为本发明的一个具体实施方式,根据各建模样本的光谱数据重构第一光谱矩阵,包括:

根据各建模样本的光谱数据构建近红外光谱矩阵;

对近红外光谱矩阵进行奇异值分解,并利用分解得到的前p个主成分对近红外光谱矩阵进行光谱重构,获得第一光谱矩阵。

作为本发明的一个具体实施方式,第一浓度向量的表达式为:

其中,

作为本发明的一个具体实施方式,投影矩阵的表达式为:

H=I-X

其中,H表示投影矩阵,I表示单位矩阵,X

作为本发明的一个具体实施方式,还包括:对近红外光谱矩阵进行预处理,预处理包括标准正态变量变换或多元散射校正。

附图说明

图1示出本发明实施例提供的近红外模型维护方法的流程图一;

图2示出本发明实施例提供的近红外模型维护方法的流程图二;

图3示出本发明实施例提供的各建模样本的近红外光谱示意图;

图4示出本发明实施例提供的各建模样本的纯光谱信号的示意图;

图5示出本发明实施例提供的各建模样本的主成分得分和各待测样本的特征得分的示意图;

图6示出本发明实施例提供的各建模样本和各待测样本中的检测指标总糖的浓度值的分布图;

图7示出本发明实施例提供的各建模样本、各维护样本以及剩余各待测样本的主成分得分的分布图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式, 本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点及功效。虽然本发明的描述将结合较佳实施例一起介绍, 但这并不代表此发明的特征仅限于该实施方式。恰恰相反, 结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解, 以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外, 为了避免混乱或模糊本发明的重点, 有些具体细节将在描述中被省略。需要说明的是, 在不冲突的情况下, 本发明中的实施例及实施例中的特征可以相互组合。

应注意的是, 在本说明书中, 相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义, 则在随后的附图中不需要对其进行进一步定义和解释。

为使本发明的目的、技术方案和优点更加清楚, 下面将结合附图对本发明的实施方式作进一步地详细描述。

随着仪器部件的老化和更换, 建模样本化学成分的变化,会导致原所建校正模型的预测结果产生严重的偏差, 因此校正模型的更新或维护是非常必要的, 并成为影响近红外光谱分析是否成功的关键性因素。

针对烟草行业而言, 由于烟叶属于天然产物, 不同年份、等级、产地的烟叶成分会随时间、产地而变化, 从而引起待测样品本身的物化信息超出了原有模型的范围, 进而导致原来所建的近红外模型的预测结果产生严重的偏差,因此需要及时补充这些新样本到建模样本集中,扩充模型的覆盖范围,即如何快速准确的判定原近红外模型对待测样本检测的适用性以及扩充样本是模型维护的关键,然而目前缺乏有效的解决方法。

基于上述内容,本发明一具体实施方式提供了一种近红外模型维护方法,具体地,如图1所示,该方法包括如下步骤:

S101:获取待维护的近红外模型的各建模样本的纯光谱信号以及待测样本集中的各待测样本的纯光谱信号。

具体的,建模样本的纯光谱信号可基于建模样本的检测指标的光谱数据和浓度值确定,待测样本的纯光谱信号可基于该待测样本的检测指标的光谱数据确定。其中,光谱数据可以为近红外光谱数据,检测指标可以是烟草或烟草制品的化学成分,比如总植物碱、总糖、总氮等。

进一步的,如图2所示,纯光谱信号的获取过程可以包括以下步骤:

步骤S1011:分别获取各建模样本的检测指标的光谱数据和浓度值,以及,各待测样本的检测指标的光谱数据。

在该步骤中,各建模样本可构成建模样本集,在获取各建模样本的近红外光谱数据后,根据获取的各近红外光谱数据构建关于建模样本集的近红外光谱矩阵X;在近红外光谱矩阵X中,位于同一行的元素表征同一建模样本在各不同波数点的光谱数据,位于同一列的元素表征各建模样本在相同波数点的光谱数据。

假使建模样本的数量为m,每个建模样本的光谱由n个变量组成,则该建模样本集对应的近红外光谱矩阵为m×n矩阵,即该矩阵具有m行n列,n对应的就是波数点,即同一行的矩阵元素对应同一个样本的n个波数点的光谱信息。

步骤S1012:对近红外光谱矩阵X进行预处理获得预处理后的近红外光谱矩阵Xs,预处理包括标准正态变量变换(Standard Normal Variate,SNV)或多元散射校正(Multiplicative Scatter Correction,MSC),其作用是用来消除样本固体颗粒大小、表面散射及光程变化对光谱的影响,提高后续识别的精准性。

步骤S1013:根据各建模样本的光谱数据重构第一光谱矩阵X

具体的,对预处理后的近红外光谱矩阵X

以m个样本,n个变量为例,预处理后的近红外光谱矩阵X

其中,该矩阵中位于第i行第j列的数据元素x

步骤S1014:根据第一光谱矩阵X

具体的,第一浓度向量

其中,

步骤S1015:根据第一光谱矩阵X

具体的,第二光谱矩阵X

其中,X

步骤S1016:基于第二光谱矩阵和第二光谱矩阵的广义逆矩阵构建投影矩阵H。

具体的,投影矩阵H的表达式为:

H=I-X

其中,I表示单位矩阵,(X

步骤S1017:根据投影矩阵H分别对各建模样本的光谱数据和各待测样本的光谱数据进行投影,获取各建模样本的纯光谱信号以及各待测样本的纯光谱信号。

具体的,根据投影矩阵H分别对建模样本的预处理后的近红外光谱矩阵X

其中,

进一步的,各待测样本的纯光谱信号

其中,

步骤S102:对各建模样本的纯光谱信号进行主成分分析,确定各建模样本的主成分得分和主成分模型。

具体的,将上述得到的各建模样本的纯光谱信号进行主成分分析,一般来说,当前两个主成分的累积方差解释率大于95%,取前两个成分建立建模样本的主成分模型。其中,第一主成分基本表明了检测指标的浓度变化信息,对样本的识别具有非常重要的作用。

在本步骤中,根据建模样本集中的各建模样本的纯光谱信号的主成分模型,获得建模样本集的第一主成分得分和第二主成分得分。

步骤S103:将各待测样本的纯光谱信号分别投影至主成分模型,获取各待测样本的特征得分。

具体的,分别将各待测样本的纯光谱信号的代入主成分模型,分别获得各待测样本的第一主成分得分作为待测样本的第一特征得分和第二主成分得分作为待测样本的第二特征得分。

步骤S104:基于主成分得分和待测样本集中各待测样本的特征得分,确定各维护样本。

具体的,针对待测样本集中的每一个待测样本,若待测样本的第一特征得分不在第一主成分得分的范围内且其第二特征得分也不在第二主成分得分的范围内,则该待测样本为维护样本。

步骤S105:基于各维护样本更新待维护的近红外模型。

首先基于各维护样本的特征得分进行排序,选取设定数量的维护样本,然后基于设定数量的维护样本更新待维护的近红外模型。

具体的,比较待测样本的第一特征得分与建模样本的第一主成分得分的大小,如果待测样本的第一特征得分不在建模样本的第一主成分得分的范围内,表明待测样本不在模型范围内,不能用原模型预测,因此需要将待测样本添加到原模型中,进而扩充模型的覆盖范围。进一步的,可将第一特征得分小于或者大于建模样本的第一主成分得分的各维护样本进行排序,选取设定数量的维护样本作为模型维护的一部分维护样本。

进一步的,还可计算待测样本的第二特征得分,将第二特征得分不在建模样本的第二主成分得分范围内的各待测样本进行排序,选取一定数量的待测样本作为模型维护的另一部分维护样本。

然后将选取的两部分维护样本与建模样本混合建立模型,使原有校正模型的光谱差异和浓度范围都得到补充。

本发明的近红外模型维护方法,基于建立原模型所用的建模样本的光谱数据和浓度值确定原建模样本的纯光谱信号,并对纯光谱信号进行主成分分析,获取各建模样本的主成分得分和主成分模型。进而根据主成分模型和待测样本的纯光谱信号确定各待测样本的特征得分,基于特征得分从各待测样本中筛选出维护样本对原近红外模型进行修正更新,实现了对原模型的快速准确修正,不仅扩大了其样品光谱主成分空间的覆盖范围,也扩大了模型的适用范围,从而使得模型更适应新样品的预测,并且修正后的模型预测能力有较大的提高。并且本方案是在确定待维护样本后,只测量待维护样本的检测指标浓度作为模型更新的一部分数据,不需要测量所有维护样本的检测指标浓度,因而可以减少时间和成本,提高检测效率。

【实施例】

以烟叶样品进行模型维护为例,阐述下本申请识别方法的具体过程。需要说明的是,在本实施例中,烟叶样品中的检测指标为总糖的浓度。

步骤1):烟叶样品处理

209个烟叶样品由贵州中烟工业有限责任公司提供,来自于广东、河南、黑龙江、湖南、辽宁、陕西、四川、云南省产地。采集样品光谱之前,按照《YCT 31-1996烟草及烟草制品试样的制备和水分测定烘箱法》将烟叶样品放置于40℃烘箱中,烘两个小时;然后取出样品,冷却至室温。将样品倒入植物粉碎机进行粉碎后过40目筛网,筛分出粒径小于40目(≤0.45mm)的样品。待样品冷却至室温后,装入一次性密封袋低温、避光保存。

步骤2):实验仪器及光谱采集

实验室温度控制在22±2℃之间,相对湿度控制在40%±10%之间。近红外仪器开机预热不低于1小时,然后用ValPro程序校检合格后使用。取适量已经制备好的烟叶粉末装入样品杯中扫描,扫描范围4000-10000cm

步骤3):化学值测定

按照烟草行业标准,测定烟叶样品中总糖化学成分的浓度。《YC/T 159-2002烟草及烟草制品水溶性糖的测定连续流动法》。

步骤4):模型维护

烟叶样品粉末的近红外光谱如图3所示(图3中的每一条曲线就代表一个样本的光谱),可见样品光谱的漂移范围比较大。选择标准正态变量变换方法对光谱进行预处理。按照上面的计算过程,基于烟叶的总糖检测指标,得到建模样本的纯光谱信号图3所示。将建模样本的纯光谱信号进行主成分分析,第一个主成分解的方差解释率为97.04%的方差,第二个主成分的方差解释率为0.72%,两个主成分累积方差解释率为97.76%的方差。因此用2个主成分建立主成分模型。同理地,计算建模样本和待测样本的纯光谱信号,并用所建立的主成分模型预测。由建模和待测样本的得分图5可知,大部分待测样本的纯光谱信号不在建模样本所反映的空间中,因此该待测样本超出了原模型的覆盖范围。因此需要进行将待测样本添加到建模样本中,对原模型进行维护。比较待测样本的与建模样本的第一主成分的得分,将待测样本的得分小于或者大于建模样本的分别排序,选取一定数量的样本用作模型维护样本。根据差异大小的排序,依据第一主成分,选取了10个样本。同理地,计算待测样本的第二主成分的得分大小与建模样本的得分待测样本的得分小于或者大于建模样本的,选取了9个样本,合计19个模型维护样本。

由图6可以看出明显,大部分待测样本的浓度不在原校正模型范围内,其浓度有低于模型的,也有高于的,因此原模型对待测样本检测的适用性差。可加入选取的维护样本到原建模样本中混合建模,图7给出了原模型维护后的样本的主成分得分图,由图7可知,原模型的样本的光谱差异和浓度范围都得到补充。

经过模型维护,原模型的相关系数和均方根误差都得到明显的改善和提高。校正模型维护前和后的校正、交叉验证和预测均方根误差由0.803、0.885、1.294变为0.892、0.996、0.881,尤其是预测均方根误差由1.294降低到0.881。模型稳健性评价参数SEP/SEC的值一般要小于1.2,才能表明模型对待测样具有较好的稳健性。计算模型维护前后样本的SEP/SEC的值分别为1.61和0.99,说明通过本方法对原近红外模型进行维护后,近红外校正模型更加稳健准确。因此模型维护后,模型样本的光谱和检测指标覆盖范围更广。

该方法能够计算待测样本与建模样本的差异,自动进行建模样本的模型维护。该方法不仅参考了光谱信息,也参考了检测指标的浓度信息,通过待测样本的纯光谱信号,找到需要模型维护的样本,然后获模型维护样本的检测指标的浓度,用于模型维护,扩充模型的适用范围。

虽然通过参照本发明的实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。本领域技术人员可以在形式上和细节上对其作各种改变,包括在不偏离本发明的精神和范围的情况下做出若干简单推演或替换。

相关技术
  • 一种便于操作的吸塑装置
  • 一种针对于吸塑盘自动超声波清洗离心干燥设备
  • 一种便于对钢带定位的吸塑窄带盘
  • 一种便于定位堆叠的吸塑盘
技术分类

06120116381214