掌桥专利:专业的专利平台
掌桥专利
首页

一种基于中红外光谱技术及特征提取的小米产地溯源方法

文献发布时间:2023-06-19 12:02:28


一种基于中红外光谱技术及特征提取的小米产地溯源方法

技术领域

本发明属于食品产地鉴别技术领域,特别涉及一种基于中红外光谱技术及特征提取的小米产地溯源方法。

背景技术

小米为谷子去壳的籽实,又称粟(米),禾本科狗尾草属。谷子耐旱,在我国北部地区广泛种植,占全世界总产量的80%。小米富含碳水化合物、脂肪及脂肪酸、蛋白质及氨基酸、维生素和矿物质等营养物质,其功能不仅可以作为主食还可以酿酒、制作饴糖等,同时还具有“易丹田,补虚损,开肠胃,助睡眠”的功效。小米的品质与其产地来源密切相关,中国已出现许多名优原产地域小米产品群落,如:山东省济宁市金乡县马庙镇的金米(金小米)、山西省沁州(沁县)的沁州黄(黄小米)、山东省济南章丘县的龙山米(龙山小米)和河北省蔚县的桃花小米是我国“四大著名小米”品种。“四大著名小米”色味俱佳、品质优良,深得广大消费者的喜爱。优质小米产量有限,价格较高,一些不法分子为谋取暴利,制售假冒产品,以假乱真欺骗消费者。假冒产地不仅损害消费者和企业利益,同时也增加了食品安全问题追溯与风险管理难度。因此,对优质小米的产地保护问题亟待解决。

在食品产地溯源技术研究中主要是探寻表征不同地区来源食品的特异性指标,包括同位素指纹溯源技术、矿物元素指纹溯源技术、有机成分指纹溯源技术等。传统的小米鉴别多凭借颜色、气味和口感等人工感官鉴别,具有主观性强、标准不统一等不足。现有分析仪器对小米的产地鉴别研究主要包括高光谱、拉曼光谱和近红外光谱技术。近红外光谱技术具有快速、简单、高效、无损检测等特点,谱区体现的基团信息主要以氢基团为主,包括C-H、O-H、S-H、N-H等,也包含一些其他的基团信息,如C=C、C=O等,谱区包含的丰富信息决定了近红外技术既可测定化学成分又能分析物理性质,因此被较多应用于小米产地溯源领域。

由于绝大多数有机物和无机物的基频吸收带都出现在中红外区,因此中红外区是研究和应用最多的区域,广泛应用于有机物结构研究中。相较近红外光谱而言,中红外光谱中的频谱峰通常更尖锐、分辨率好且峰值高,且市场上更新换代后的中红外光谱分析仪不需要压片制样,大大节约了测试耗时,是一种理想的快速检测技术。同种农作物由于生长环境差异,其内部成分与结构也会有较大区别,可通过其相应光谱显现。目前,中红外技术在小米组织结构及品质评价等方面的研究取得了较大成果,但有关小米产地判别的中红外研究较少。赵晓燕等人采用中红外光谱技术开展5种小米蛋白质同步二维相关红外光谱研究,可以鉴别5种小米。然而该研究的样本数量较少,未考虑样品间的质量波动情况,该方法对大样本鉴别准确度的情况未知。

基于以上分析,本案由此产生。

发明内容

本发明的目的,在于提供一种基于中红外光谱技术及特征提取的小米产地溯源方法,能够快速判别小米的产地。

为了达成上述目的,本发明的解决方案是:

一种基于中红外光谱技术及特征提取的小米产地溯源方法,包括如下步骤:

步骤1,分别采集不同产地的小米样品的红外光谱,进行预处理;

步骤2,将步骤1预处理后的红外光谱数据首先进行主成分分析,然后利用窗口分析法对变量数据进行分组,分别采用支持向量机建立分类模型,再利用层次聚类分析法确定相关性小的一组变量数据,构建小米产地鉴别模型;

步骤3,采集未知产地的小米样品的红外光谱,进行预处理后,输入小米产地鉴别模型,输出得到小米样品的产地。

上述步骤1中,在分辨率0.4821cm

上述步骤1中,对红外光谱进行预处理包括依次进行去噪、标准正态变量变换、多元散射校正和归一化处理。

上述步骤2中,进行主成分分析时,主成分数为12。

上述步骤2中,采用支持向量机进行建模时,将每种小米样品的2/3数据作为训练集,1/3数据作为预测集,采用径向基核函数,通过网格搜索技术对gamma和c参数进行优化,通过预测集的识别率比较模型的优劣。

上述步骤2中,利用窗口分析法进行分组后,对于每一组分别采用支持向量机建模,还将任意至少两组进行组合后采用支持向量机建模。

上述步骤2中,利用层次聚类分析法确定相关性小的一组变量数据的方法是:

步骤A,选择识别率高的分类模型所对应的分组数据,对该数据缩小窗口再次进行分组;

步骤B,分别利用欧氏距离、标准欧氏距离、城市街区距离和余弦距离四种距离计算方法计算波数间的相似性,采用平均距离法、最短距离法和最长距离法分别创建系统聚类树,计算各种方法下的同表象型相关系数,选择相关性小于设定值的变量数据,即为需要的变量数据。

采用上述方案后,本发明以来源于5个主产地的177份小米样品为研究对象,应用傅里叶变换中红外漫反射光谱法结合化学计量学以产地溯源判别率为指标,建立小米产地的判别模型,为利用中红外光谱技术实现快速判别小米的产地提供理论依据。

附图说明

图1是5种小米的中红外光谱经去噪、SNV、MSC、归一化后的图;

其中,横轴表示谱峰;

图2是主成分贡献率(Contribution rate)和累计贡献率(AccumulatedContribution rate)的示意图;

图3是5种小米在前3主成分上的分布图;

图4是5种小米前3主成分的载荷图;

其中,横轴表示谱峰,纵轴表示回归系数;

图5是本发明的整体流程示意图。

具体实施方式

如图5所示,本发明提供一种基于中红外光谱技术及特征提取的小米产地溯源方法,包括如下步骤:

步骤1,分别采集不同产地的小米样品的红外光谱,进行预处理;

步骤2,将步骤1预处理后的红外光谱数据首先进行主成分分析,然后利用窗口分析法对变量数据进行分组,分别采用支持向量机建立分类模型,再利用层次聚类分析法确定相关性小的一组变量数据,构建小米产地鉴别模型;

步骤3,采集未知产地的小米样品的红外光谱,进行预处理后,输入小米产地鉴别模型,输出得到小米样品的产地。

以下将结合附图,对本发明实施例的技术方案及有益效果进行详细说明。

1、材料与方法

1.1材料

5种地理标志小米均为粳性小米,分别为河北省蔚县的蔚州贡米(WZ),山西省沁县的黄小米(H),吉林省乾安县的乾安黄小米(QAH),山西省广灵县的广灵小米(GL),内蒙古赤峰市敖汉旗的刘僧小米(LS)。小米为2019年间种植,为了保证样品的代表性,在地理标志小米种植区域内分散采样,蔚州贡米、黄小米、乾安黄小米、广灵小米和刘僧小米分别在33、36、36、36、36个采样点采集样品,每个采样点采集约1kg样品。

1.2仪器与设备

NA-JCB碾米机,宁波科麦仪器有限公司;JYS-M01型磨粉机,九阳股份有限公司;Nicolet IS-10型傅立叶变换红外光谱仪,美国赛默飞世尔科技公司;JA1003电子分析天平,上海力辰仪器科技有限公司。

1.3方法

1.3.1供试品制备

将谷子进行晾晒、脱粒、挑选和碾米等加工,每份谷子碾米3次。称取加工后的每份米100g,粉碎1.5min,作为中红外光谱测试的供试品,置于冰柜中冷藏储存,使用前置于干燥器中平衡至室温。

1.3.2光谱采集

红外光谱采集参数如下:分辨率0.4821cm

1.3.3数据处理

为了从原始谱图数据中去除干扰的和无关的信息,在数据分析之前应对原始数据做一些预处理。中红外光谱数据首先经wden小波函数进行去噪处理,经wden(X,TPTR,SORH,SCAL,N,'wname')返回输入信号X去噪后的信号,经优化去噪参数的最佳组合为TPTR='rigrsure',SORH='s',SCAL='mln',N=5,'wname'='sym5'。其次,用标准正态变量变换(standard normal variable transformation,SNV)和多元散射校正(multiplicativescatter correction,MSC)消除散射对光谱的影响,用mapminmax函数进行归一化。再次,基于主成分分析与支持向量机(support vector machine,SVM)联用对样本地理来源进行鉴别,将每种小米2/3的数据作为训练集数据,1/3的数据作为预测集数据,训练集用于构建指纹因子-小米产地模型,预测集用于对构建的模型进行验证、评价,SVM建模使用径向基核函数(Radial Basis Function,RBF),通过网格搜索技术对gamma和c参数进行优化,通过预测集的识别率比较模型的优劣。最后,通过主成分分析、窗口分析和层次聚类分析组合方法提取差异特征。所有数据预处理和模型构建均基于MATLAB 2019b进行。

2、结果与分析

2.1中红外光谱数据分析

以5种小米的1个中红外光谱为例,经去噪、SNV、MSC、归一化处理后的谱图如图1所示,部分谱峰代表的官能团信息见表1。整体上看,5种小米的中红外光谱高度相似,吸收较强的峰位置在758、859、928、997、1077、1149、1240、1338、1419、1537、1645、1744、2855、2925和3287cm

表1主要的中红外谱峰及归属

2.2中红外光谱主成分分析

将光谱范围中每个波数点对应的透光率作为一个变量,5种小米的177个红外光谱数据则列为177×7209的数据矩阵X,177为样本数,7209为变量数,由于变量数远高于样本数,容易导致模型过拟合的问题。考虑到某些峰之间含有关联性,对预处理后的数据矩阵进行降维分析,结果如图2所示。前3个主成分的累计贡献率为84.9%,前12个主成分的累计贡献率为98.3%,前3个主成分可以代表原始谱图绝大部分的信息。5种大米在前3主成分构成的空间中的分布图如图3所示。黄小米可以很好地与其它小米区分开,广灵小米和蔚州小米样本簇重叠严重,刘僧小米和乾安黄小米样本簇重叠较多,5种小米无法通过主成分聚类分析准确鉴别。

2.3小米产地鉴别模型建立

对红外光谱数据矩阵进行主成分分析,采用不同主成分的信息构建分类鉴别模型,以主成分数12为例,将中红外光谱前12个主成分对应的数据作为自变量,以产地分类作为因变量,5种小米的177个红外光谱数据则列为177×12的数据矩阵Y和177×1的数据矩阵Z,177为样本数,12为主成分数,1为分类变量。取2/3的样品作为训练集,1/3的样品作为预测集,利用SVM判断样品所属类别,分别考察了累计贡献率达85%、88%、90%、95%、98%和100%对应主成分数建模的情况,结果如表2所示。前3主成分所建模型的识别准确率仅为55.2%,这与图3结果相吻合。随着主成分数的增加,识别准确率有增大趋势,主成分数为12时,训练集和验证集的识别率最高,分别为99.2%和98.3%。当主成分数为176,累计贡献率为100%时,模型的准确率反而比主成分数为12时要低,说明部分数据是无用数据会干扰模型,由于主成分数为12时的累计贡献率已达98%,基本代表了全部的成分信息,因此主成分数为12所建模型为最优模型,对小米产地的鉴别效果较理想。该模型将1个刘僧小米误认为广灵小米,从图3可见,某些刘僧小米分散在广灵小米的团簇中,容易产生误判。

表2红外光谱不同主成分数下模型的鉴别结果

2.4不同产地小米中红外光谱差异特征分析

依次采用主成分分析、窗口分析和层次聚类分析挖掘小米差异性的特征峰信息。177份小米的中红外光谱经主成分分析,得到176个主成分,可以使用此176个主成分的信息表示原始信息。根据前3主成分的载荷图(图4)分析区分5种产地小米的主要特征波段,以红外光谱位移对PC1的载荷值为主要参考指标,参考PC2和PC3的载荷值,可得525-1778和2820-3687cm

为实现小米产地鉴别特征数据的挖掘,在上述载荷分析的基础上,利用窗口分析法,采用小米红外光谱局部波段数据建立SVM分类模型。波段范围525-1778和2820-3687cm-1对应数据矩阵变量范围1-2600和4761-6560,以变量间隔200将波段范围划分为22个窗口,得到每个窗口数据下的模型识别率,其中变量范围1001-1200、1801-2000、2001-2200、2201-2400、2401-2600和6361-6560共6个窗口的训练集和预测集识别率均在80%之上。考虑到波段的连续性与完整性,把变量范围1801-2000、2001-2200、2201-2400和2401-2600组合成1801-2600,训练集和预测集的识别准确率分别为98.3%和89.7%,组合后的结果与2401-2600的类似,说明变量范围1801-2000、2001-2200和2201-2400对鉴别模型的贡献较小,可舍弃。进一步地,对变量范围1001-1200,2401-2600和6361-6560进行不同的组合,分别建立SVM分类模型(表3)。组合4建立的分类识别模型识别率最高,且与表2相比识别率类似,说明变量范围1001-1200、2401-2600和6361-6560对5种小米分类识别的贡献最大,可作为区分5种小米的特征变量。窗口分析法结果与PCA载荷分析结果相比,进一步缩小了特征波段的范围,使得特征波段越来越精确。

表3 4种组合变量范围下的模型分类识别实验结果

进一步地,以变量间隔100为窗口,将表3中组合4划分为6个窗口,经层次聚类分析探究信号间的相关性,筛选出不相关的信号。分别使用欧氏距离、标准欧氏距离、城市街区距离和余弦距离四种距离计算方法计算波数间的相似性,采用平均距离法、最短距离法和最长距离法分别创建系统聚类树,计算各种方法下的同表象型相关系数。研究表明,当距离度量方法为余弦距离法、创建系统聚类树的方法为平均距离法时,大多数窗口的同表象型相关系数最大,该方法下创建的系统聚类树最佳。从聚类树图中可见连续的波数往往紧挨在一起,这是由于相邻波数代表分子中相同共价键经不同的跃迁能级振动产生的,因此样品固定,这些共价键及其含量就是固定的,对应的波数和吸收强度就是固定的,即具有相关性。经筛选,变量1041、1096、2408、2469和2530的相关性较小,以每个样本的这5个变量数据按照1.3.3中的方法建立鉴别模型,训练集和预测集的识别率分别为95.8%和100%,所筛选的变量即区分不同产地小米的特征变量,对应的波数分别为1026、1053、1685、1715、1744cm

3、结论

本实施例以广灵小米、黄小米、刘僧小米、乾安黄小米和蔚州小米5种产地小米为例,探究红外光谱技术鉴别小米产地的可行性,并挖掘影响小米产地鉴别模型准确度的特征信息。首先,谷子样品分别经碾米、粉碎操作制得小米米粉。其次,分别采集每份米粉样品的红外光谱,所得红外光谱依次经去噪、标准正态变量变换、多元散射校正和归一化预处理。最后,采用主成分分析结合支持向量机建立小米产地鉴别模型,主成分数为12时,所得模型的训练集和预测集识别准确率为99.2%和98.3%,本实施例所探究的中红外光谱方法为构建小米产地溯源模型提供了更为准确、有效的数据,所提出的数据预处理方法、产地鉴别模型具有潜在推广应用价值。同时,为了明确不同产地小米中红外光谱的特征信息,采用主成分分析—窗口分析—层次聚类分析—支持向量机组合方法提取中红外光谱的特征,采用波数为1026、1053、1685、1715、1744cm

以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

相关技术
  • 一种基于中红外光谱技术及特征提取的小米产地溯源方法
  • 一种基于太赫兹时域光谱技术的软玉产地的鉴定方法
技术分类

06120113147539