掌桥专利:专业的专利平台
掌桥专利
首页

膳食纤维近红外光谱特征波长选择方法

文献发布时间:2023-06-19 18:46:07


膳食纤维近红外光谱特征波长选择方法

技术领域

本发明涉及光谱分析技术领域,特别涉及一种膳食纤维近红外光谱特征波长选择方法。

背景技术

近红外光谱技术是一种快速、无损、低成本、无污染的分析监测方法,它可以对物质的品质、种类、成分等进行定性和定量的分析,被广泛应用于食品、药品、化学分析、环境监测、精准农林等众多领域。

通常而言,近红外区的谱代复杂、重叠多、数据量大,而大多数波段数据与定量建模无关或相关性很低,这就会导致处理数据时算法运行效率降低,且对建模精度产生不利影响。在“高维度”的光谱信息中准确地提取我们想要的特征信息进行建模变得尤为重要。

连续投影算法(SPA)是一种使矢量空间共线性最小化的前向变量选择算法,该方法通过计算变量之间的相似性,找到光谱信息中共线性最小的变量组以达到最低限度去除冗余信息的目的,从而缩小了光谱数据分析处理过程中所用变量的个数,提高建模精度。

利用近红外光谱技术对膳食纤维进行检测时,传统连续投影算法中“初始迭代向量”和“提取变量个数”的选择对提取特征的建模效果有着极为重要的影响,对这两个参数带有主观性的选择不利于高质量的特征提取。针对初始参数选择具有主观性的问题,有人选择将“初始迭代向量”和“提取变量个数”进行随机设置,但是这样使得结果具有偶然性;现有技术将“初始迭代向量”和“提取变量个数”所能取到的可能的数进行逐个循环计算取最优,但是实际应用中,光谱数据的光谱维度少则几百,多则上千,这种方式算法计算量过大,寻优效率太低;针对算法结果可能存在不敏感波段的问题,有人提出每次去掉一个波长用剩余波长建模对不敏感波段逐个剔除,算法过程过于繁琐。

由于投影过程中每个序列的选取并没有考虑待测成分的信息,这将导致可能存在对待测成分无关波段,对建模效果产生不利影响。

发明内容

鉴于上述问题,本发明的目的是提出一种膳食纤维近红外光谱特征波长选择方法,对传统连续投影算法进行改进,对“初始迭代向量”进行随机选取,保留N个特征波段,对保留的N个特征波段使用无信息变量消除法(UVE)保留对于待测成分重要的特征波段,使用经过无信息变量消除法(UVE)保留下来特征波段对划分好的训练集进行回归拟合,计算均方误差,将此过程迭代L

为实现上述目的,本发明采用以下具体技术方案:

本发明提供一种膳食纤维近红外光谱特征波长选择方法,包括以下步骤:

S1、设定参数:

设定初始化算法迭代次数L=0,最大迭代次数L

训练集中的光谱数据是由M个J维向量组成的光谱数据矩阵,M为样本数量,J为光谱全波段数;

在光谱数据矩阵中任选第j列光谱数据赋值给x

S2、将x

将得到的最大投影值对应的一列光谱数据记作k(n),则k(n)=arg(max(||Px

S3、令x

其中,N为连续投影算法特征提取的波段数;

S4、通过无信息变量消除法去除变量R中的不相关特征,保留重要特征M;

S5、通过重要特征M中的特征波段计算目标函数f(M)判断是否存在最优波段组合M

若不存在将其更新记录为最佳波段组合M

S6、判断f(M)

S7、令L=L+1并判断L是否达到最大迭代次数L

S8、得到最优波段组合M

优选地,还包括预处理步骤S0:对近红外光谱数据进行多元散射校正、滤波去燥、吸光度或反射率计算,训练集和验证集的划分处理。

与现有的技术相比,本发明对传统连续投影算法进行改进,对“初始迭代向量”进行随机选取,保留N个特征波段,对保留的N个特征波段使用无信息变量消除法(UVE)保留重要的特征波段,去除无关和弱相关的特征波段,并迭代此过程得到建模效果最佳的波段组合进行建模,既可以同时解决传统连续投影算法的两个缺点。保留全光谱数据的绝大部分特征,因此,可以有效的提高建模的速度以及模型的稳定性和预测能力。

附图说明

图1是根据本发明实施例提供的膳食纤维近红外光谱特征波长选择方法的流程示意图。

具体实施方式

在下文中,将参考附图描述本发明的实施例。在下面的描述中,相同的模块使用相同的附图标记表示。在相同的附图标记的情况下,它们的名称和功能也相同。因此,将不重复其详细描述。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,而不构成对本发明的限制。

图1示出了根据本发明实施例提供的膳食纤维近红外光谱特征波长选择方法的流程示意图。

如图1所示,本发明实施例提供的膳食纤维近红外光谱特征波长选择方法包括以下步骤:

预处理步骤S0:对近红外光谱数据进行多元散射校正(MSC)、滤波去燥、吸光度或反射率计算,训练集和验证集的划分处理。

S1、设定参数:

设定初始化算法迭代次数L=0,最大迭代次数L

训练集中的光谱数据是由M个J维向量组成的光谱数据矩阵,M为样本数量,J为光谱全波段数。

在光谱数据矩阵中任选第j列光谱数据赋值给x

S2、将x

将上述得到的最大投影值对应的一列光谱数据记作k(n),则k(n)=arg(max(||Px

S3、令x

N为连续投影算法特征提取的波段数。

S4、使用无信息变量消除法(UVE)去除变量R中的不相关特征,保留重要特征M。

S5、通过重要特征M中的特征波段计算目标函数f(M)判断是否存在最优波段组合M

若不存在将其更新记录为最佳波段组合M

使用M中的波段对验证集数据进行交叉验证,的到的预测结果的均方根误差即为目标函数值。

S6、判断f(M)

S7、令L=L+1并判断L是否达到最大迭代次数L

S8、得到最优波段组合M

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

技术分类

06120115687284