掌桥专利:专业的专利平台
掌桥专利
首页

NIR光谱结合数据增强CNN对白芷产地溯源的方法

文献发布时间:2024-04-18 20:02:18


NIR光谱结合数据增强CNN对白芷产地溯源的方法

技术领域

本发明涉及中药产地鉴别技术领域,具体是NIR光谱结合数据增强CNN对白芷产地溯源的方法。

背景技术

不同产地的气候及土壤条件等均是药材有效成分积累的重要影响因素,因此中药的产地溯源鉴别在保证中药品质及疗效、保护中药消费者权益、减少由于假劣中药引发医疗事故等方面具有重要的作用。

以白芷为例:白芷,为伞形科植物白芷Angelica dahurica(Fisch.ex Hoffm.)Benth.et Hook.f.或杭白芷Angelica dahurica(Fisch.ex Hoffm.)Benth.etHook.f.var.formosana(Boiss.)Shan et Yuan的干燥根。具有解表散寒,祛风止痛,宣通鼻窍,燥湿止带,消肿排脓的功效。为我国四十种常用大宗中药材之一,药用历史悠久。目前,市场上主流白芷药材主要为川白芷、禹白芷、祁白芷、亳白芷。由于城市建设,杭州市已无栽种的白芷,川白芷和杭白芷的基源植物相同,但因气候不同性状有所变化。从外观性状来看,川白芷由于个头大、粗壮、疙瘩丁排成的四棱形较明显,体重质坚实,香气浓,质量较好,被奉为道地药材。

目前,市场上销售的白芷药材主要存在2种现象:

1、白芷粉末中掺入滑石粉或在白芷炮制品中加入其他近缘种根类药材,掺假现象严重。

有研究报道,近红外光谱技术可以定量检测白芷中掺杂的滑石粉含量,ITS2序列能有效地鉴定白芷药材及其混伪品。

2、由于各产区地理环境、气候条件、栽培方式、加工采收的方式时间等差异,造成不同产地的药材质量相差较大,最终导致白芷的疗效差异,故白芷的产地鉴别对于白芷药材在临床选用具有重要意义。

传统性状鉴别法受检验者主观因素的影响,导致对药材气味、色泽的鉴别差异较大。气相色谱法、高效液相色谱法等存在耗时、样本前处理复杂、检测对样本有损、检测成本高等缺点。

近红外光谱技术是近年来发展迅速的一种检测分析技术,其结合了光谱学、计算机技术与化学计量学方法,具有操作简便、无损检测、分析成本低、分析速度快、样本一般无需预处理、不用化学试剂、不污染环境等优点。

发明内容

本发明所要解决的技术问题是提供一种NIR光谱结合数据增强CNN对白芷产地溯源的方法,解决了现有技术中存在的问题。

本发明公开了一种NIR光谱结合数据增强CNN对白芷产地溯源的方法,包括如下步骤:

S1、获取并制备不同产地的白芷标准样品;

S2、扫描S1步骤获取的白芷标准样品的近红外光谱数据;

S3、通过SPXY样本划分法将样本划分为训练集与测试集;向训练集光谱添加高斯噪声进行样本增强;

S4、利用增强训练集光谱建立以FocalLoss作为损失函数的一维卷积神经网络模型;

S5、获取待测样品的近红外光谱数据,并将其作为卷积神经网络模型的输入,从而预测出该待测样品的产地来源。

进一步地,所述S3步骤,还包括如下步骤:

S31、对每个样本的近红外光谱添加一定信噪比的高斯噪声;

S32、将原始数据集与增噪数据集联合,作为建立后续模型的训练集。

进一步地,所述S31步骤包括:

计算光谱数据的平均功率

将信噪比SNR转换为线性比例γ=10

计算噪声的平均功率

将噪声信号

进一步地,所述S4步骤包括如下步骤:

定义一维卷积神经网络结构;

读取训练集光谱数据;以FocalLoss作为损失函数,同时设定优化器及其参数、训练轮数、批处理大小等参数;

执行模型训练;使用测试集光谱数据对建立的一维卷积神经网络进行模型评价。

本发明的有益效果在于:

1、利用样品的组成和结构与近红外光谱之间存在一定的函数关系的特点,判定不同产地的白芷;

2、使用全波段光谱进行建模的方法能提升模型的通用性,减少波段选择的复杂过程;

3、分析有快速、无损、准确等优点;

4、克服了白芷数据集样本量小且不平衡的问题。

附图说明

图1本申请流程框图;

图2实施例1白芷近红外光谱数据图像。

具体实施方式

下面结合实施例对本发明的具体实施方式作进一步描述,以下实施例仅用于更加清楚地说明本发明的技术实施例,而不能以此来限制本发明的保护范围。

首先对在本实施方式中会出现的近红外光谱做以下说明:

近红外光指的是波长在780~2526nm范围内的电磁辐射,处于可见光谱中可见光和中红外光谱之间,近红外光可以穿透许多物质,因此可以利用近红外光谱区域物质分子的振动、转动、拉伸等特征来分析样品组成和结构。

近红外光谱检测原理的基础是不同化学结构的分子在近红外区域会吸收不同的光谱,这种吸收表现为吸收谱,是由于样品中吸收的光量与光谱区域波长的关系而形成的。通过对光谱图的分析,可以得到物质的结构、含量、组成等信息。

近红外光谱仪器由光学系统、机械系统、电子系统和计算机系统组成。按照检测方法的不同可分为滤光片型光谱仪、光栅光谱仪、傅立叶变换光谱仪和声光可调谐型光谱仪。本研究采用德国布鲁克光学仪器公司(Bruker Optics)生产的MPA傅里叶变换近红外光谱仪,配备OPUSTM光谱采集软件,测量方式选用固体积分球漫反射方式。

实施例1

如附图1所示,在本实施方式中,一种鉴别白芷产地的方法实现具体如下:

S1、获取并制备不同产地的白芷标准样品;

将收集到的95批不同产地的白芷样品,粉碎,过80目筛,混匀。

S2、扫描S1步骤获取的白芷标准样品的近红外光谱数据;

取适量的白芷药材粉末,放入石英样品杯中至三分之二处,均匀铺平,45℃烘干置恒重。采用德国布鲁克MPA傅里叶变换近红外光谱仪,以空气为参比扣除背景采集光谱图,采用积分球漫反射采集光谱,扫描条件为:分辨率8cm-1,扫描波段范围:12500cm-1~4000cm-1,样品背景和样品扫描时间:32s,每批样品重复扫描3次,计算平均光谱。根据白芷的产地将所有样本分为四类,分别为安徽亳州、河南禹州、四川遂宁、河北安国,分别含有8、9、23、55个样本;

S3、通过SPXY样本划分法将样本划分为训练集与测试集;

将所有已获取的样品近红外光谱数据按行排列存储至CSV文件中,第一行代表光谱采集时的波长点信息,其余每行代表一个样品的近红外光谱数据,CSV文件最后一列存储每个样品的产地信息顺序编码;

通过Python的Numpy库中的loadtxt方法读取CSV文件,并以数组的形式存储数据;通过SPXY样本划分法将上述数组形式的数据划分为训练集和测试集,测试集比例为0.2。数据集划分结果及样本类别分布情况如表1所示:

表1白芷数据集划分结果

向训练集光谱添加高斯噪声进行样本增强;

S31、对每个样本的近红外光谱添加一定信噪比的高斯噪声;

计算光谱数据的平均功率

将信噪比SNR转换为线性比例γ=10

计算噪声的平均功率

将噪声信号

数据增强后的样本量和类别分布等信息见表2:

表2数据增强后数据集信息

S4、用增强训练集光谱建立以FocalLoss作为损失函数的一维卷积神经网络模型;

定义一维卷积神经网络结构;读取训练集光谱数据;以FocalLoss作为损失函数,同时设定优化器及其参数、训练轮数、批处理大小等参数;执行模型训练;使用测试集光谱数据对建立的一维卷积神经网络进行模型评价,模型评价指标主要包括混淆矩阵、总体正确率。

其中一维卷积神经网络结构如表3所示:

表3一维卷积神经网络CNN结构

其中一维卷积核(1,16,21)表示输入维度为1,输出维度为16,卷积核大小为21,padding取为0,步长为1,其他卷积核格式相同。

使用torch.utils.data.DataLoader方法读取光谱数据训练集,并将FocalLoss作为损失函数,FocalLoss损失函数定义如下:

FL(p

其中,α

参数设置如下:训练200轮,优化器使用Adam方法,初始学习率0.001,学习率衰减率0.0001。

在模型评价过程中,为了突出数据增强和FocalLoss的使用对于模型性能的提升,还将以CNN模型设置对照试验。将测试集的样本光谱数据输入到所建立的模型中,即可输出分类结果。具体模型表现如表4所示:

表4白芷产地鉴别实验结果

根据表4结果可以发现:

传统一维卷积神经网络模型(1号实验)不使用数据增强算法,损失函数为交叉熵损失函数,分类正确率为78.9%;

使用数据增强后的白芷近红外光谱数据集的一维卷积神经网络模型(2号实验),使用交叉熵损失函数进行训练后,分类正确率为84.2%;

使用原始数据集的一维卷积神经网络模型(3号实验),使用FocalLoss损失函数进行训练后,模型分类正确率达到89.5%;

本方法所建立的模型(4号实验),在对白芷近红外光谱数据集进行数据增强后,使用FocalLoss损失函数进行一维卷积神经网络模型的训练,最终正确率达到94.7%,

由此可见,本申请效果优于其他方法,这也说明数据增强过程和FocalLoss损失函数的有效性。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 基于近红外光谱特征和1D-VD-CNN的金银花产地溯源方法
  • 傅里叶红外光谱结合代谢组学分析的煤炭产地溯源方法
技术分类

06120116583296