掌桥专利:专业的专利平台
掌桥专利
首页

高粱表面农药残留含量检测方法、装置及电子设备

文献发布时间:2024-04-18 20:01:30


高粱表面农药残留含量检测方法、装置及电子设备

技术领域

本公开涉及农药残留检测技术领域,尤其涉及一种高粱表面农药残留含量检测方法、装置及电子设备。

背景技术

在高粱的田间种植过程中,为减少锈病、炭疽病、纹枯病、黑穗病等病虫害对高粱品质和产量的影响,通常需要对高粱喷洒农药溶液,这不可避免的造成高粱表面存在大量的农药残留,为避免残留农药带来的安全隐患,有必要准确检测高粱表面残留的农药。

相关场景中,残留农药检测方法包括气相色谱-质谱法、免疫分析法和液相色谱法。上述方法作为检测农药残留含量的有效方法,具有较高的灵敏和可靠检测结果,但同时也存在检测耗时长、破坏样品、准确性较低、仪器昂贵、样品制作复杂以及需要专业的操作人员等导致成本较高的缺点。因此,寻找一种快速、无损、准确性较高且成本较低的检测高粱表面农药残留含量的方法是非常重要的。

发明内容

为克服相关技术中检测耗时长、破坏样品、准确性较低以及仪器昂贵、样品制作复杂以及需要专业的操作人员等导致成本较高的技术问题,本公开提供一种高粱表面农药残留含量检测方法、装置及电子设备。

在本公开实施例的第一方面,提供一种高粱表面农药残留含量检测方法,所述高粱表面农药残留含量检测方法包括:

获取多组高粱农药残留样品的高光谱图像,并对每一组所述高光谱图像进行黑白校正,得到对应组的校正高光谱图像,其中,多组所述高粱农药残留样品是用不同浓度的农药溶液喷洒得到的;

对每一组所述校正高光谱图像进行光谱提取,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据;

结合主成分分析法和孤立森林算法,剔除每一组所述高粱籽光谱数据中的异常值,并使用多元散射校正对剔除异常值后的高粱籽光谱数据进行预处理,得到对应的待用光谱数据;

以所述农药残留含量标签、所述待用光谱数据为输入,基于SPXY数据集划分方法,将所述农药残留含量标签和所述待用光谱数据分为校准集和预测集,选择类型提升算法作为特征波长选择方法,提取所述待用光谱数据的特征波长,得到特征光谱数据;

以所述农药残留含量标签、所述特征光谱数据为输入,使用SPXY数据集划分方法将所述农药残留含量标签和所述特征光谱数据分为校准集和预测集,选择集成学习算法作为含量检测模型,以所述校准集为校准参考对所述预测集进行农药残留含量预测,得到农药残留含量检测结果。

在一种优选的实施方式中,所述对所述校正高光谱图像进行光谱提取,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据,包括:

基于灰度变换法,通过所述校正高光谱图像中像素点的最大灰度值和最小灰度值改变所述校正高光谱图像的灰度值,得到灰度图像;

基于大津阈值法,计算所述灰度图像的二值化阈值,并根据所述二值化阈值对所述灰度图像进行灰度二值化,得到二值化图像;

基于分水岭算法模拟水淹没盆地的方式,从所述二值化图像的多个像素点的像素值最低点开始注水,在所述二值化图像中形成分水岭,并根据所述分水岭对所述二值化图像进行分割,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据。

在一种优选的实施方式中,所述含量检测模型包括基础子模型和极端梯度提升子模型,所述基础子模型包括:梯度提升决策树模型、光梯度提升模型和类型提升模型;

所述以所述校准集为校准参考对所述预测集进行农药残留含量预测,得到农药残留含量检测结果,包括:

分别将所述校准集和所述预测集分别带入所述梯度提升决策树模型、所述光梯度提升模型和所述类型提升模型中进行预测,得到对应模型输出的预测子结果;

将3个所述预测子结果进行垂直结合,第二部分为极端梯度提升(XGBoost)模型,将3类模型的预测结果带入XGBoost模型中,使用SPXY数据集划分方法将3类模型的预测结果划分为校准集和预测集并进行预测,得到最终的高粱农药残留含量预测值。

在一种优选的实施方式中,所述高粱表面农药残留含量检测方法还包括:

使用网格寻优对所述类型提升算法的算法参数、所述梯度提升决策树模型的模型参数、所述光梯度提升模型的模型参数和所述类型提升模型的模型参数进行优化;

其中,类型提升算法的算法参数为:最大迭代次数为1000,学习速率为0.1,树深为5,L2正则项为3;

所述梯度提升决策树模型的模型参数为:最大迭代次数为900,学习速率为0.1,树深为5,内部节点再划分所需最小样本数为100,叶子节点最少样本数为60,划分时考虑的最大特征数为7,子采样为0.8;

所述光梯度提升模型的模型参数为:boosting的迭代次数为900,学习速率为0.1,树深为9,叶子节点个数为27,特征随机采样的比例为0.75,叶子节点中最小的样本权重和为3;

所述类型提升模型的模型参数为:最大迭代次数为900,学习速率为0.1,树深为3,叶子节点最小样本数为6,校准集抽样比例为0.6,拟合一棵树使用的特征比例为0.6。

在一种优选的实施方式中,所述结合主成分分析法和孤立森林算法,剔除所述高粱籽光谱数据中的异常值,包括:

基于所述主成分分析法,利用前3个主成分代表所述高粱籽光谱数据;

将前3个主成分光谱数据带入所述孤立森林算法中,计算所述高粱籽光谱数据中高粱籽的异常值;

将所述高粱籽光谱数据中异常值大于预设值的光谱数据视为异常值剔除。

在一种优选的实施方式中,所述对所述高光谱图像进行黑白校正,得到校正高光谱图像,包括:

采集标准反射率白板,获取全白图像;

使用镜头盖遮蔽近红外相机镜头后,获取全黑图像;

通过所述全黑图像和所述全白图像,对所述高光谱图像进行黑白校正,得到所述校正高光谱图像。

在一种优选的实施方式中,通过如下公式对所述高光谱图像进行黑白校正:

其中,Y是所述校正高光谱图像,Y

在一种优选的实施方式中,多组所述高粱农药残留样品是通过如下方式得到的:

按照预设组数将高粱样品等量划分为多个实验组,并在每组所述高粱样品用喷壶喷洒不同浓度的农药溶液,得到高粱农药残留样品,其中,浓度值相邻的所述农药溶液的浓度差相同。

在本公开实施例的第二方面,提供一种高粱表面农药残留含量检测装置,所述高粱表面农药残留含量检测装置包括:

获取模块,被配置为获取多组高粱农药残留样品的高光谱图像,并对每一组所述高光谱图像进行黑白校正,得到对应组的校正高光谱图像,其中,多组所述高粱农药残留样品是用不同浓度的农药溶液喷洒得到的;

光谱提取模块,被配置为对每一组所述校正高光谱图像进行光谱提取,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据;

剔除模块,被配置为结合主成分分析法和孤立森林算法,剔除每一组所述高粱籽光谱数据中的异常值,并使用多元散射校正对剔除异常值后的高粱籽光谱数据进行预处理,得到对应的待用光谱数据;

特征提取模块,被配置为以所述农药残留含量标签、所述待用光谱数据为输入,基于SPXY数据集划分方法,将所述农药残留含量标签和所述待用光谱数据分为校准集和预测集,选择类型提升算法作为特征波长选择方法,提取所述待用光谱数据的特征波长,得到特征光谱数据;

含量检测模块,被配置为以所述农药残留含量标签、所述特征光谱数据为输入,使用SPXY数据集划分方法将所述农药残留含量标签和所述特征光谱数据分为校准集和预测集,选择集成学习算法作为含量检测模型,以所述校准集为校准参考对所述预测集进行农药残留含量预测,得到农药残留含量检测结果。

在一种优选的实施方式中,所述光谱提取模块,被配置为:

基于灰度变换法,通过所述校正高光谱图像中像素点的最大灰度值和最小灰度值改变所述校正高光谱图像的灰度值,得到灰度图像;

基于大津阈值法,计算所述灰度图像的二值化阈值,并根据所述二值化阈值对所述灰度图像进行灰度二值化,得到二值化图像;

基于分水岭算法模拟水淹没盆地的方式,从所述二值化图像的多个像素点的像素值最低点开始注水,在所述二值化图像中形成分水岭,并根据所述分水岭对所述二值化图像进行分割,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据。

在一种优选的实施方式中,所述含量检测模型包括基础子模型和极端梯度提升子模型,所述基础子模型包括:梯度提升决策树模型、光梯度提升模型和类型提升模型;

所述含量检测模块,被配置为:

分别将所述校准集和所述预测集分别带入所述梯度提升决策树模型、所述光梯度提升模型和所述类型提升模型中进行预测,得到对应模型输出的预测子结果;

将3个所述预测子结果进行垂直结合,第二部分为极端梯度提升(XGBoost)模型,将3类模型的预测结果带入XGBoost模型中,使用SPXY数据集划分方法将3类模型的预测结果划分为校准集和预测集并进行预测,得到最终的高粱农药残留含量预测值。

在一种优选的实施方式中,所述含量检测模块,还被配置为:

使用网格寻优对所述类型提升算法的算法参数、所述梯度提升决策树模型的模型参数、所述光梯度提升模型的模型参数和所述类型提升模型的模型参数进行优化;

其中,类型提升算法的算法参数为:最大迭代次数为1000,学习速率为0.1,树深为5,L2正则项为3;

所述梯度提升决策树模型的模型参数为:最大迭代次数为900,学习速率为0.1,树深为5,内部节点再划分所需最小样本数为100,叶子节点最少样本数为60,划分时考虑的最大特征数为7,子采样为0.8;

所述光梯度提升模型的模型参数为:boosting的迭代次数为900,学习速率为0.1,树深为9,叶子节点个数为27,特征随机采样的比例为0.75,叶子节点中最小的样本权重和为3;

所述类型提升模型的模型参数为:最大迭代次数为900,学习速率为0.1,树深为3,叶子节点最小样本数为6,校准集抽样比例为0.6,拟合一棵树使用的特征比例为0.6。

在一种优选的实施方式中,所述剔除模块,被配置为:

基于所述主成分分析法,利用前3个主成分代表所述高粱籽光谱数据;

将前3个主成分光谱数据带入所述孤立森林算法中,计算所述高粱籽光谱数据中高粱籽的异常值;

将所述高粱籽光谱数据中异常值大于预设值的光谱数据视为异常值剔除。

在一种优选的实施方式中,所述获取模块,被配置为:

采集标准反射率白板,获取全白图像;

使用镜头盖遮蔽近红外相机镜头后,获取全黑图像;

通过所述全黑图像和所述全白图像,对所述高光谱图像进行黑白校正,得到所述校正高光谱图像。

在一种优选的实施方式中,通过如下公式对所述高光谱图像进行黑白校正:

其中,Y是所述校正高光谱图像,Y

在一种优选的实施方式中,多组所述高粱农药残留样品是通过如下方式得到的:

按照预设组数将高粱样品等量划分为多个实验组,并在每组所述高粱样品用喷壶喷洒不同浓度的农药溶液,得到高粱农药残留样品,其中,浓度值相邻的所述农药溶液的浓度差相同。

在本公开实施例的第三方面,提供一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述存储器中的可执行指令,以实现第一方面中任意一项所述的高粱表面农药残留含量检测方法。

本公开的实施例提供的技术方案可以包括以下有益效果:

对高光谱图像进行黑白校正得到校正高光谱图像;对校正高光谱图像进行光谱提取,获取高粱籽光谱数据;剔除高粱籽光谱数据中的异常值,对剔除异常值后的高粱籽光谱数据进行预处理得到待用光谱数据;以农药残留含量标签、待用光谱数据为输入,将农药残留含量标签和待用光谱数据分为校准集和预测集,提取待用光谱数据的特征波长得到特征光谱数据;以农药残留含量标签、特征光谱数据为输入,将农药残留含量标签和特征光谱数据分为校准集和预测集,选择集成学习算法作为含量检测模型,以校准集为校准参考对预测集进行农药残留含量预测,得到农药残留含量检测结果。降低检测耗时和成本,提高了准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种高粱表面农药残留含量检测方法的流程图。

图2是根据一示例性实施例示出的一种特征波长分布的示意图。

图3是根据一示例性实施例示出的一种实现图1中步骤S12的流程图。

图4是根据一示例性实施例示出的一种图像处理的示意图。

图5是根据一示例性实施例示出的一种集成模型的示意图。

图6a是根据一示例性实施例示出的一种校准集农药残留预测含量的图像示意图。

图6b是根据一示例性实施例示出的一种预测集农药残留预测含量的图像示意图。

图7是根据一示例性实施例示出的一种实现图1中步骤S13的流程图。

图8是根据一示例性实施例示出的一种高粱表面农药残留含量检测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开提供的高粱表面农药残留含量检测方法旨在解决相关场景中检测耗时长、破坏样品、准确性较低以及仪器昂贵、样品制作复杂以及需要专业的操作人员等导致成本较高等技术问题。

图1是根据一示例性实施例示出的一种高粱表面农药残留含量检测方法的流程图。如图1所示,该方法包括以下步骤。

在步骤S11中,获取多组高粱农药残留样品的高光谱图像,并对每一组所述高光谱图像进行黑白校正,得到对应组的校正高光谱图像,其中,多组所述高粱农药残留样品是用不同浓度的农药溶液喷洒得到的。

本公开实施例中,农药残留浓度相同的高粱样品为一组,分组采集高粱农药残留样品的高光谱图像。

示例地,不同浓度的农药溶液分别为浓度为2毫克/千克、6毫克/千克、10毫克/千克、14毫克/千克、18毫克/千克的马拉硫磷溶液。以2毫克/千克的马拉硫磷溶液为例,配置流程如下:吸取1毫升马拉硫磷溶液加入装有500毫升蒸馏水的烧杯中,用玻璃棒将该溶液充分混合,再吸取1毫升稀释后马拉硫磷溶液加入装有700毫升蒸馏水的烧杯中。为保证所有的高粱样品都完全附有农药,用喷壶将配置的农药溶液喷洒在高粱上。将喷洒农药后的高粱样品放置于通风条件好的室内区域,经过12小时的自然干燥后,每批挑选高粱样品各480颗,共计2400颗,将不同农药残留浓度的高粱样品分别标记为M2、M6、M10、M14、M18。

其中,通过包括近红外高光谱相机(GaiaField-N17E-HR)、照明系统(FSL)、集成支架、配备专业处理软件SpacVIEW的计算机(ASUS)组成的系统获取多组高粱农药残留样品的高光谱图像。近红外高光谱相机采集的光谱范围为900-1700nm,光谱分辨率为5nm,共产生512个波段。为了确保准确采集高粱样品的图像信息,在采集图像之前,在图像采集软件SpacVIEW上设置采集参数,设置近红外高光谱相机曝光时间为2ms,相机增益为2,图像R、G、B值分别为954.15、927.55和904.28。

在步骤S12中,对每一组所述校正高光谱图像进行光谱提取,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据。

本公开实施例中,将校正高光谱图像中每颗高粱样品所对应的区域视为一个ROI,计算每个ROI内像素点的平均光谱值,获取校正高光谱图像中每颗高粱籽的高粱籽光谱数据。

在步骤S13中,结合主成分分析法和孤立森林算法,剔除每一组所述高粱籽光谱数据中的异常值,并使用多元散射校正对剔除异常值后的高粱籽光谱数据进行预处理,得到对应的待用光谱数据。

在采集高粱农药残留样品的高光谱图像过程中,高粱籽粒大小不同,并且随机分布在培养皿中,导致采集的高光谱信息中存在散射现象。此外,暗流产生的噪声也会影响高光谱数据的质量。为了减轻散射和噪声对后续分析的影响,采用多元散射校正MSC数据进行预处理,MSC可以消除光谱数据中的散射成分来纠正散射效应,提高光谱数据的稳定性和可靠性。

在步骤S14中,以所述农药残留含量标签、所述待用光谱数据为输入,基于SPXY数据集划分方法,将所述农药残留含量标签和所述待用光谱数据分为校准集和预测集,选择类型提升算法作为特征波长选择方法,提取所述待用光谱数据的特征波长,得到特征光谱数据。

使用全波长光谱数据虽然可以实现对高粱样品残留农药含量的预测,但全波长数据中存在的冗余信息会影响模型的运行速度和预测精度。本实施例中,使用类型提升CatBoost根据设置特征重要性得分阈值选择特征波长,剔除了全波长中影响预测模型建模效果或者对预测模型贡献较小的波长,经过多次尝试,最终将特征重要性得分阈值设置为0.004,选择了54个特征波长。参见图2所示,直观的显示了所选特征波长的分布及其相应的重要性得分,平均光谱曲线以左侧Y坐标为参考,每个特征波长的重要性分数,以右侧Y坐标为参考。可以说明的是,类型提升CatBoost所提取的特征波长分布主要分布在950、1440、1600、1650nm左右,其中最高重要性得分波长位于1600~1700nm之间,重要性得分为12.2%。

可以加快高粱表面农药残留含量的检测,并在一定程度上提升检测精度。

在步骤S15中,以所述农药残留含量标签、所述特征光谱数据为输入,使用SPXY数据集划分方法将所述农药残留含量标签和所述特征光谱数据分为校准集和预测集,选择集成学习算法作为含量检测模型,以所述校准集为校准参考对所述预测集进行农药残留含量预测,得到农药残留含量检测结果。

高粱样品中的农药残留含量主要是根据气相色谱-质谱法(GC-MS)进行测定,其原理是试样于加速溶剂萃取仪中用乙腈提取,提取液经固相萃取柱净化后,用乙腈-甲苯溶液(3+1)洗脱农药及相关化学品,用气相色谱-质谱仪检测。高粱样品中的农药残留含量计算公式如下:

式中,X为试样中被测物残留量,C

使用GC-MS对高粱样品中农药残留含量进行了测定,对于喷洒不同浓度马拉硫磷农药溶液的高粱样品,检测结果如下:M2高粱样品农药残留范围为1.38~1.92毫克/千克,M6高粱样品农药残留范围为4.4~4.89毫克/千克,M10高粱样品农药残留范围为8.41~8.55毫克/千克,M14高粱样品农药残留范围为12.4~12.9毫克/千克,M18高粱样品农药残留范围为14.3~15.0毫克/千克。

上述技术方案对高光谱图像进行黑白校正得到校正高光谱图像;对校正高光谱图像进行光谱提取,获取高粱籽光谱数据;剔除高粱籽光谱数据中的异常值,对剔除异常值后的高粱籽光谱数据进行预处理得到待用光谱数据;以农药残留含量标签、待用光谱数据为输入,将农药残留含量标签和待用光谱数据分为校准集和预测集,提取待用光谱数据的特征波长得到特征光谱数据;以农药残留含量标签、特征光谱数据为输入将农药残留含量标签和特征光谱数据分为校准集和预测集,选择集成学习算法作为含量检测模型,以校准集为校准参考对预测集进行农药残留含量预测,得到农药残留含量检测结果。降低检测耗时和成本,提高了准确性。

在一种优选的实施方式中,参见图3所示,在步骤S12中,所述对所述校正高光谱图像进行光谱提取,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据,包括:

在步骤S121中,基于灰度变换法,通过所述校正高光谱图像中像素点的最大灰度值和最小灰度值改变所述校正高光谱图像的灰度值,得到灰度图像;

在步骤S122中,基于大津阈值法,计算所述灰度图像的二值化阈值,并根据所述二值化阈值对所述灰度图像进行灰度二值化,得到二值化图像;

在步骤S123中,基于分水岭算法模拟水淹没盆地的方式,从所述二值化图像的多个像素点的像素值最低点开始注水,在所述二值化图像中形成分水岭,并根据所述分水岭对所述二值化图像进行分割,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据。

为准确提取到每颗农药残留高粱样品的高光谱信息,需要对高粱RGB图像进行图像处理。图像处理包括:灰度变换、二值化和粘连高粱样品的分割,如图4所示。对高粱农药残留样品的RGB图像进行了灰度变换,改变图像中像素点的灰度值,使背景与高粱籽粒区分明显,灰度图像如图4中左边第二图像所示。随后对灰度图像进行二值化,在二值化图像中高粱样品为白色,背景为黑色,二值化图像如图4中左边第三图像所示。使用传统的分水岭算法,确定二值化图像中的分水岭脊线,实现粘连高粱籽粒的分割,分割后的高粱样品图像如图4中最右边图像所示。

在一种优选的实施方式中,所述含量检测模型包括基础子模型和极端梯度提升子模型,所述基础子模型包括:梯度提升决策树模型、光梯度提升模型和类型提升模型;

所述以所述校准集为校准参考对所述预测集进行农药残留含量预测,得到农药残留含量检测结果,包括:

分别将所述校准集和所述预测集分别带入所述梯度提升决策树模型、所述光梯度提升模型和所述类型提升模型中进行预测,得到对应模型输出的预测子结果;

将3个所述预测子结果进行垂直结合,第二部分为极端梯度提升(XGBoost)模型,将3类模型的预测结果带入XGBoost模型中,使用SPXY数据集划分方法将3类模型的预测结果划分为校准集和预测集并进行预测,得到最终的高粱农药残留含量预测值。

本公开实施例中,梯度提升决策树GBDT模型通过逐步训练一系列决策树来提高预测模型的性能。在GBDT中,通过计算负梯度纠正前一棵树的预测错误。所述GBDT模型参数为:最大迭代次数:900,学习速率:0.1,树深:5,内部节点再划分所需最小样本数:100,叶子节点最少样本数:60,划分时考虑的最大特征数:7,子采样:0.8。构建GBDT预测模型包括以下步骤:

步骤(1):初始化模型,以训练数据标签的均值为初始值。

f

步骤(2):迭代构建决策树,对于第m棵树(m=1,2,…M,M为树的总数),执行以下步骤:

步骤(2.1):计算每个样品残差(负梯度)。

其中,

步骤(2.2):拟合决策树。

用样本(x

步骤(2.3):更新模型预测。

f

其中,α是一个控制步长的学习率,h

步骤(3):集成预测。

其中,此处的F

类型提升CatBoost模型是一种由对称树组成的梯度提升算法。CatBoost中对称树的使用不仅降低了模型过拟合的风险,而且对数据中的异常值表现出良好的稳健性,并且有能力自适应地处理数据中的缺失值,而不需要额外的预处理,为了防止过度拟合,CatBoost还采用了正则化策略。所述CatBoost算法参数为:最大迭代次数:1000,学习速率:0.1,树深:5,L2正则项:3。构建CatBoost预测模型包括以下步骤:

步骤(1):初始化模型,以训练数据标签的均值为初始值。

f

步骤(2):迭代构建决策树,对于第m棵树(m=1,2,…M,M为树的总数),执行以下步骤:

步骤(2.1):计算每个样品残差(负梯度)。

其中,

步骤(2.2):拟合决策树。

使用有关的类别特征信息,拟合一棵特殊的决策树,该树将对类别特征进行优化,以更好地捕捉类别间的关系,得到一棵决策树h

步骤(2.3):更新模型预测。

f

其中,α是一个控制步长的学习率,h

步骤(3):集成预测。

其中,此处F

光梯度提升模型可以用于用于处理大规模的高维数据。相比于XGBoost,LGBM主要进行了3个方面的优化。采用直方图算法寻找最优分割点,节省算法运算时间和内部储备。采用梯度单边采样算法保留梯度较大的数据减少训练数据的规模,提高计算效率。此外,还采用独占特征捆绑算法合并不同维度的信息,将稀疏特征矩阵变为低维稠密矩阵,降低高维数据的计算复杂程度。所述LGBM模型参数为:boosting的迭代次数:900,学习速率:0.1,树深:9,叶子节点个数:27,特征随机采样的比例:0.75,叶子节点中最小的样本权重和:3。构建LGBM预测模型包括以下步骤:

步骤(1):初始化模型,给定模型初始预测值

f

步骤(2):迭代构建决策树,对于第m棵树(m=1,2,…M,M为树的总数),执行以下步骤:

步骤(2.1):计算每个样品残差(负梯度)

其中,

步骤(2.2):构建分裂,通过最大化分裂的增益(Gain)选择最佳分裂特征和分裂点,将叶节点分为左右两个子节点。

其中,I

步骤(2.3):根据分裂后的叶节点的负梯度总和与Hessian总和计算叶节点的新预测值。

步骤(3):集成预测

其中,此处F

集成学习算法构建的含量检测模型(简称SEL模型)整合了多个基础模型的预测结果,可以降低单个模型过拟合的风险,提高模型的预测精度。本实施例中,SEL模型使用了GBDT、XGBoost、CatBoost、LGBM四种基础模型,其原理如图5所示。简单来说,利用GBDT、CatBoost、LGBM基础模型分别对数据进行训练和预测,校准集结果分别表示为Calibrationpredict1、Calibration predict2和Calibration predict3,预测集结果分别表示为Prediction predict1、Prediction predict2和Prediction predict3。分别对每个模型的预测结果进行垂直结合,得到的特征值表示为A1、A2和A3。这些特征值被用作XGBoost模型的输入,以获得最终的预测结果,即Calibration predict和Prediction predict。构建SEL预测模型包括以下步骤:

步骤(1):以实际高粱农药残留含量为标签,预处理后的光谱数据为输入构建GBDT预测模型,将GBDT模型预测结果进行垂直结合;

步骤(2):以实际高粱农药残留含量为标签,预处理后的光谱数据为输入构建CatBoost预测模型,将CatBoost模型预测结果进行垂直结合;

步骤(3):以实际高粱农药残留含量为标签,预处理后的光谱数据为输入构建LGBM预测模型,将LGBM模型预测结果进行垂直结合;

步骤(4):以实际高粱农药残留含量为标签,3类基础模型的预测结果为输入构建XGBoost预测模型,得到最终的高粱农药残留含量预测结果。

模型评价指标:为评价模型的性能,采用校准系数(Rc

其中,

模型预测结果:利用特征波长分别建立了GBDT、XGBoost、CatBoost、LGBM和SEL高粱农药残留预测模型,表1为高粱农药残留含量的预测结果。在所有模型中,相比于单一的预测模型,SEL模型表现出了优越的预测性能,使用全波长与特征波长所建立的模型都获得了更好的预测结果,这说明对多个基础模型进行集成可以提升模型的预测性能。

表1

其中,使用CatBoost提取的特征波长建立的模型性能最优,RPD=7.029,RMSEP=0.694mg/kg,具有较高的RPD值和较低的RMSEP值,这说明该模型具有可靠的预测能力。此外,CatBoost-SEL训练模型时间为9.874s,实现了对高粱农药残留含量的快速检测。为了直观的了解校准集和预测集的拟合效果,本研究绘制了预测残留农药含量相对于真实农药残留含量的散点图,如图6a和图6b所示。其中,实线表示真实值与预测值之间的理想相关性的回归线,散点表示预测的农药残留含量。

极端梯度提升XGBoost模型是GBDT的改进模型,常被用于解决分类和回归问题。GBDT只使用了损失函数的一阶导数信息,XGBoost还使用了损失函数的二阶泰勒信息,并且通过贪心算法寻找全局的最优解,加快算法的训练收敛速度,为防止模型过拟合,还加入了L1和L2的正则项。所述XGBoost模型参数为:最大迭代次数:900,学习速率:0.1,树深:3,叶子节点最小样本数:6,校准集抽样比例:0.8,拟合一棵树使用的特征比例:0.6。构建XGBoost预测模型包括以下步骤:

步骤(1):初始化模型,给定模型初始预测值。

f

步骤(2):迭代构建决策树,对于第m棵树(m=1,2,…M,M为树的总数),执行以下步骤:

步骤(2.1):计算每个样品残差(负梯度)。

其中,

步骤(2.2):构建分裂,通过最大化分裂的增益(Gain)选择最佳分裂特征和分裂点,将叶节点分为左右两个子节点。

其中,I

步骤(2.3):根据分裂后的叶节点的负梯度总和与Hessian总和计算叶节点的新预测值。

步骤(3):集成预测。

其中,F

在一种优选的实施方式中,所述高粱表面农药残留含量检测方法还包括:

使用网格寻优对所述类型提升算法的算法参数、所述梯度提升决策树模型的模型参数、所述光梯度提升模型的模型参数和所述类型提升模型的模型参数进行优化;

其中,类型提升算法的算法参数为:最大迭代次数为1000,学习速率为0.1,树深为5,L2正则项为3;

所述梯度提升决策树模型的模型参数为:最大迭代次数为900,学习速率为0.1,树深为5,内部节点再划分所需最小样本数为100,叶子节点最少样本数为60,划分时考虑的最大特征数为7,子采样为0.8;

所述光梯度提升模型的模型参数为:boosting的迭代次数为900,学习速率为0.1,树深为9,叶子节点个数为27,特征随机采样的比例为0.75,叶子节点中最小的样本权重和为3;

所述类型提升模型的模型参数为:最大迭代次数为900,学习速率为0.1,树深为3,叶子节点最小样本数为6,校准集抽样比例为0.6,拟合一棵树使用的特征比例为0.6。

上述技术方案可以寻找不同光谱数据对应检测模型的最优参数,提升模型的检测精度。

在一种优选的实施方式中,参见图7所示,在步骤S13中,所述结合主成分分析法和孤立森林算法,剔除所述高粱籽光谱数据中的异常值,包括:

在步骤S131中,基于所述主成分分析法,利用前3个主成分代表所述高粱籽光谱数据;

在步骤S132中,将前3个主成分光谱数据带入所述孤立森林算法中,计算所述高粱籽光谱数据中高粱籽的异常值;

在步骤S133中,将所述高粱籽光谱数据中异常值大于预设值的光谱数据视为异常值剔除。

由于受到噪声、环境因素和仪器稳定性的影响,高光谱数据经常包含一些异常值,异常值会降低模型的检测精度,为保证建立高性能的高粱农药残留含量检测模型,因此,有必要剔除光谱数据中的异常值。

本实施例中,采用孤立森林IF算法识别高粱农药残留样品光谱数据中存在的异常值,并剔除对应高粱样品的光谱数据。高光谱数据具有高维度的特点,高粱农药残留样品光谱数据达到512维,考虑到孤立森林IF算法处理高维数据时鲁棒性相对较弱的缺点,先使用了主成分分析法PCA降低光谱数据的维度。参见表2所示,列出了高粱农药残留样品前3个主成分的贡献率,M2、M6、M10、M14、M18的前3个主成分的累计贡献率分别为99.31%、99.19%、99.09%、98.89%、99.43%,这表明前3个主成分可以充分的代表光谱数据,因此,将其用于IF算法中剔除异常光谱值。

表2

在一种优选的实施方式中,所述对所述高光谱图像进行黑白校正,得到校正高光谱图像,包括:

采集标准反射率白板,获取全白图像;

使用镜头盖遮蔽近红外相机镜头后,获取全黑图像;

通过所述全黑图像和所述全白图像,对所述高光谱图像进行黑白校正,得到所述校正高光谱图像。

在一种优选的实施方式中,通过如下公式对所述高光谱图像进行黑白校正:

其中,Y是所述校正高光谱图像,Y

在一种优选的实施方式中,多组所述高粱农药残留样品是通过如下方式得到的:

按照预设组数将高粱样品等量划分为多个实验组,并在每组所述高粱样品用喷壶喷洒不同浓度的农药溶液,得到高粱农药残留样品,其中,浓度值相邻的所述农药溶液的浓度差相同。

示例地,所述农药溶液为马拉硫磷溶液,该农药溶液的马拉硫磷浓度分别为2毫克/千克、6毫克/千克、10毫克/千克、14毫克/千克、18毫克/千克。可见,6毫克/千克与2毫克/千克之间的浓度差为4毫克/千克,而10毫克/千克与6毫克/千克之间的浓度差也为4毫克/千克,同理,14毫克/千克与10毫克/千克之间的浓度差也为4毫克/千克。

示例地,选择高粱样品,并将高粱样品随机划分为5个实验组,在每组高粱样品用喷壶喷洒上述浓度的农药溶液,将制备的高粱样品放于通风干燥的室内存放12小时,得到高粱农药残留样品。

上述技术方案采用高光谱技术获取高粱农药残留样品的高光谱信息,不同浓度农药残留含量的高粱样品光谱曲线变化趋势相似,但光谱反射率略有不同,这不仅有利用后续对高粱表面农药残留的含量进行检测,而且不会对高粱样品产生破坏,检测更为方便快捷,通过CatBoost算法计算不同波长在构建模型时被选择的次数衡量波长的重要性,选择对于预测高粱农药残留含量贡献较高的特征波长,减少高粱农药残留含量检测模型的运行时间,采用了SEL方法构建高粱农药残留含量检测模型,相比于单一的检测模型,集成模型集成了3个基础模型的预测结果,可以补充不同基础模型的不足,调整基础模型的偏差-方差权衡,提高模型的泛化精度和预测能力,避免单一模型过拟合的风险。

本公开实施例还提供一种高粱表面农药残留含量检测装置,参见图8所示,所述高粱表面农药残留含量检测装置包括:

获取模块810,被配置为获取多组高粱农药残留样品的高光谱图像,并对每一组所述高光谱图像进行黑白校正,得到对应组的校正高光谱图像,其中,多组所述高粱农药残留样品是用不同浓度的农药溶液喷洒得到的;

光谱提取模块820,被配置为对每一组所述校正高光谱图像进行光谱提取,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据;

剔除模块830,被配置为结合主成分分析法和孤立森林算法,剔除每一组所述高粱籽光谱数据中的异常值,并使用多元散射校正对剔除异常值后的高粱籽光谱数据进行预处理,得到对应的待用光谱数据;

特征提取模块840,被配置为以所述农药残留含量标签、所述待用光谱数据为输入,基于SPXY数据集划分方法,将所述待用光谱数据分为校准集和预测集,选择类型提升算法作为特征波长选择方法,提取所述待用光谱数据的特征波长,得到特征光谱数据;

含量检测模块850,被配置为以所述农药残留含量标签、所述特征光谱数据为输入,使用SPXY数据集划分方法将所述特征光谱数据分为校准集和预测集,选择集成学习算法作为含量检测模型,以所述校准集为校准参考对所述预测集进行农药残留含量预测,得到农药残留含量检测结果。

在一种优选的实施方式中,所述光谱提取模块820,被配置为:

基于灰度变换法,通过所述校正高光谱图像中像素点的最大灰度值和最小灰度值改变所述校正高光谱图像的灰度值,得到灰度图像;

基于大津阈值法,计算所述灰度图像的二值化阈值,并根据所述二值化阈值对所述灰度图像进行灰度二值化,得到二值化图像;

基于分水岭算法模拟水淹没盆地的方式,从所述二值化图像的多个像素点的像素值最低点开始注水,在所述二值化图像中形成分水岭,并根据所述分水岭对所述二值化图像进行分割,获取所述校正高光谱图像中每颗高粱籽的高粱籽光谱数据。

在一种优选的实施方式中,所述含量检测模型包括基础子模型和极端梯度提升子模型,所述基础子模型包括:梯度提升决策树模型、光梯度提升模型和类型提升模型;

所述含量检测模块850,被配置为:

分别将所述校准集和所述预测集分别带入所述梯度提升决策树模型、所述光梯度提升模型和所述类型提升模型中进行预测,得到对应模型输出的预测子结果;

将3个所述预测子结果进行垂直结合,第二部分为极端梯度提升(XGBoost)模型,将3类模型的预测结果带入XGBoost模型中,使用SPXY数据集划分方法将3类模型的预测结果划分为校准集和预测集并进行预测,得到最终的高粱农药残留含量预测值。

在一种优选的实施方式中,所述含量检测模块850,还被配置为:

使用网格寻优对所述类型提升算法的算法参数、所述梯度提升决策树模型的模型参数、所述光梯度提升模型的模型参数和所述类型提升模型的模型参数进行优化;

其中,类型提升算法的算法参数为:最大迭代次数为1000,学习速率为0.1,树深为5,L2正则项为3;

所述梯度提升决策树模型的模型参数为:最大迭代次数为900,学习速率为0.1,树深为5,内部节点再划分所需最小样本数为100,叶子节点最少样本数为60,划分时考虑的最大特征数为7,子采样为0.8;

所述光梯度提升模型的模型参数为:boosting的迭代次数为900,学习速率为0.1,树深为9,叶子节点个数为27,特征随机采样的比例为0.75,叶子节点中最小的样本权重和为3;

所述类型提升模型的模型参数为:最大迭代次数为900,学习速率为0.1,树深为3,叶子节点最小样本数为6,校准集抽样比例为0.6,拟合一棵树使用的特征比例为0.6。

在一种优选的实施方式中,所述剔除模块830,被配置为:

基于所述主成分分析法,利用前3个主成分代表所述高粱籽光谱数据;

将前3个主成分光谱数据带入所述孤立森林算法中,计算所述高粱籽光谱数据中高粱籽的异常值;

将所述高粱籽光谱数据中异常值大于预设值的光谱数据视为异常值剔除。

在一种优选的实施方式中,所述获取模块810,被配置为:

采集标准反射率白板,获取全白图像;

使用镜头盖遮蔽近红外相机镜头后,获取全黑图像;

通过所述全黑图像和所述全白图像,对所述高光谱图像进行黑白校正,得到所述校正高光谱图像。

在一种优选的实施方式中,通过如下公式对所述高光谱图像进行黑白校正:

其中,Y是所述校正高光谱图像,Y

在一种优选的实施方式中,多组所述高粱农药残留样品是通过如下方式得到的:

按照预设组数将高粱样品等量划分为多个实验组,并在每组所述高粱样品用喷壶喷洒不同浓度的农药溶液,得到高粱农药残留样品,其中,浓度值相邻的所述农药溶液的浓度差相同。

在本公开实施例还提供一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述存储器中的可执行指令,以实现前述实施例中任意一项所述的高粱表面农药残留含量检测方法。

本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术分类

06120116561088