掌桥专利:专业的专利平台
掌桥专利
首页

基于半监督学习的固废检测模型构建方法及固废检测方法

文献发布时间:2023-06-19 19:28:50


基于半监督学习的固废检测模型构建方法及固废检测方法

技术领域

本发明属于固废检测技术领域,具体涉及一种基于半监督学习的固废检测模型构建方法及固废检测方法。

背景技术

据统计,全球每年产生超100亿吨垃圾,我国约10亿吨,占地75万亩,并以10%速率逐年增长,垃圾“围城”、固废“填海”的景象屡见不鲜,特别是部分企业为利益违法倾倒固废现象严重,常选择在夜间偏僻地段偷排、倾倒污染物,这些未经处理的固废随着自然降解和雨水侵蚀,固废渗滤液和有害化学物质破坏土壤结构,污染附近河流和地下水系。固废传统监测以人工巡查与视频监控为主:监控摄像头布设成本高,监控观测区域受限;人工巡查易存在死角,点多面广难以全覆盖,且效率低下,检测方式亟需改变。

而固废检测领域中的深度学习研究仍处于起步阶段,现有应用深度学习的固废检测模型构建和检测方法的不足之处在于:(1)固废的光谱特征、形态特征、纹理特征复杂多样,同时遥感图像分布的背景复杂性极大地增加了深度学习中从场景和对象中学习鲁棒性和区分性表示的难度,导致现有模型的提取能力不足,鲁棒性较弱;(2)训练数据量较少,固体废弃物的边缘复杂、标记成本高,因此普遍缺乏高质量的训练图像,在这种情况下,使用少量训练数据应用深度学习方法效果欠佳,难以得到较为准确的预测结果。

发明内容

本发明的发明目的是提供一种基于半监督学习的固废检测模型构建方法;

本发明的另一发明目的是提供一种基于半监督学习的固废检测方法。

该基于半监督学习的固废检测模型构建方法通过半监督学习机制综合生成器和判别器提取未标记数据信息,采用融合损失来规范训练实现像素级预测;

该基于半监督学习的固废检测方法对标签的低需求量使其具有较高的应用价值和推广性,本发明提出的改造方法可有效提高现有方法的召回率。

为实现上述发明目的,本发明的技术方案为:

一种基于半监督学习的固废检测模型构建方法,所述的固废检测模型包括生成器和判别器,所述的生成器基于输入的有标签影像特征图和无标签影像特征图输出预测结果,所述的判别器基于生成器的预测结果和相应影像特征图的真实标签输出一致性判别结果,基于有标签影像特征图和无标签影像特征图的样本集组合,通过判别器与生成器的对抗训练使判别器学习到预测结果与真实标签的判别知识,生成器学习到基于输入的影像特征图识别固废目标的能力。

本发明是首次将半监督学习运用于固废检测中,其中生成器类似于孪生网络模型(Siamese Net),判别器通过接受分割结果或者影像标签作为输入,对预测样本和真实样本进行了更高阶的一致性度量,因此固废识别结果对比其他模型具有精度上的优势,无需大量的高质量的训练图像。本发明优选适用于城市固废检测中。

在上述的基于半监督学习的固废检测模型构建方法中,所述的生成器包括编码器、解码器和注意力模块,所述的编码器对影像特征图进行特征提取,所述的注意力模块将编码器的特征远程传递至解码器,由解码器通过卷积和反卷积的组合将特征定位为原始空间位置,输出预测结果。

本发明设计了一种注意力机制SA用于优化特征和远程信息传递,通过特征的自我约束增强模型对固体废弃物深层特征学习能力,实现更高效的特征表征学习和远程信息传递,通过中间特征的可视化分析,与其他模型跳跃连接的方式相比较,本模型显著提高特征表征能力。

在上述的基于半监督学习的固废检测模型构建方法中,所述的生成器通过共享参数的编码器提取特征,提取特征后通过所述的注意力模块进行特征传递。

半监督学习的固废检测模型构建方法,让模型可以不依赖外界交互、自动地利用未标记样本来提升学习性能,而一般情况下相似的固废目标拥有相似的特征,因此可以利用生成器通过共享参数的编码器提取特征。

在上述的基于半监督学习的固废检测模型构建方法中,所述注意力机制包括三种分支,

分支一用于通道维度上的显式建模和特征交互,获得各个通道调整结果;

分支二用于将输入值在局部空间邻域上进行信息整合;

分支三用于在综合通道调整和局部空间邻域信息整合的基础上关注总体空间相关性,得到缩放后的新特征。

本发明中的注意力机制识别结果边缘较为准确,适用于形态多样的固废提取,不会将背景与前景目标混淆,对建筑物、绿地等背景具有较好的区分,在同样少量标注数据集下性能优异。

在上述的基于半监督学习的固废检测模型构建方法中,分支一首先对输入特征卷积,再执行全局池化压缩获得向量,该向量表征特征通道上响应的全局分布,通过卷积对各个通道进行权重生成并通过Gelu激活函数调整,最后与输入的卷积后特征乘积获得各个通道调整结果;

分支二通过不对称卷积从横纵向分布的卷积核捕捉突出固体废弃物在相关方向边缘梯度,并由BN层将卷积模块输出的特征分布拉回到均值为[0,1]之间的标准正态分布,以将输入值在局部空间邻域上进行信息整合;

分支三先对输入特征进行卷积,再执行全局平均池化和最大池化获得通道描述,通过卷积层和Gelu激活函数得到空间权重系数,最后以权重系数与分支一输出、分支二输出的叠加结果进行乘积得到缩放后的新特征。

优选地,分支一用于完成通道维度上的显式建模和特征交互。首先对输入特征进行3*3卷积,再执行全局池化顺着空间维度压缩获得1*1*C向量,该向量表征特征通道上响应的全局分布,通过1*1卷积对各个通道进行权重生成并通过Gelu激活函数调整,最后与输入的卷积后特征乘积获得各个通道调整结果。

分支二对输入值在局部空间邻域上进行信息整合,通过不对称卷积可以通过横纵向分布的卷积核捕捉突出固体废弃物在相关方向边缘梯度,提高边缘提取精度,是常规3*3卷积特征的补充,三种感受野卷积的组合侧重不同可以有效互补。BN层可以将卷积模块输出的特征分布拉回到均值为[0,1]之间的标准正态分布,使Gelu激活函数输出差异较小,避免梯度消失。

分支三在综合通道调整和局部邻域信息的基础上关注总体空间相关性,先对输入特征进行3*3卷积,再顺着通道维度执行全局平均池化和最大池化获得通道描述,进行一个卷积层和Gelu激活函数得到空间权重系数,最后以权重系数与分支一输出、分支二输出的叠加结果进行乘积得到缩放后的新特征征。

在上述的基于半监督学习的固废检测模型构建方法中,所述编码器的网络最底层特征尺度为512*8*8,且分别在编码器尺度为8、16、32、64部分采用所述的注意力模块进行特征传递;

所述的判别器模块引入Unet结构,且采用数值叠加方式进行远程信息传递。

本发明的判别器网络通过接受分割结果或者影像标签作为输入,对预测样本和真实样本进行了更高阶的一致性度量,通过引入Unet结构,在远程信息传递过程中将原始模型的通道叠加方式更改为数值叠加方式,使特征解码过程趋近于残差学习,判别器生成了像素级的不确定性图/置信度图计量生成器生成样本的质量,隐式地强制语义分割网络生成整体更接近期望掩膜的预测结果。经过一定训练过程后,判别器将学习到生成器预测结果与真实标签的判别知识。

在上述的基于半监督学习的固废检测模型构建方法中,所述的固废检测模型还包括有位于预测结果输出的边缘提取模块,通过canny算子将生成器预测结果的面状结果和真实标签图转为边缘图,通过提取结果边缘损失函数L

由于边缘线和背景差异的极端不均衡,该模块不在反向传播中进行参数更新。

在上述的基于半监督学习的固废检测模型构建方法中,生成器训练的损失函数L

L

L

本发明的检测模型采用融合损失来规范训练实现像素级预测,优选地,λ

在上述的基于半监督学习的固废检测模型构建方法中,训练本模型的损失函数包括所述的生成器监督损失L

表示无标签样本的c类预测结果,上标u表示无标签,c表示分类类别数量,Y为真实标签;

分别为预测结果R和真实标签Y在判别器网络在位置i,j处的置信图,y表示是否由生成器生成的判断结果;

L

FL(p

P

L

L

一种基于半监督学习的固废检测方法,包括由上述任意一项所述的方法构建的固废检测模型,并基于半监督学习方法使用包括有标签影像特征图和无标签影像特征图的样本集对所述的固废检测模型进行训练得到训练后的固废检测模型,训练后的固废检测模型基于输入的待识别影像特征图识别固废目标。

本发明在缺乏高质量的训练图像,仅能使用少量训练数据进行深度学习的情况下,采用半监督学习的方法进行模型训练从而有效提高模型的召回率。

优选地,所述数据为256*256的图像,所述生成器模块通过输入2张不同区域影像特征图提取特征,2张不同区域影像特征图中一张为有标签数据,另一张为无标签数据,该远程信息传递采用注意力模块进行特征传递,和/或在远程信息传递过程中采用数值叠加方式进行特征解码。

进一步地,采用遥感图像作为数据源,空间分辨率为0.038m,影像中选样的固废目标应大于0.5平方米。

本发明提供的固废检测方法提高了深度学习中从场景和对象中学习鲁棒性和区分性表示的能力,固废识别结果对比其他模型具有精度上的优势,且本方法对标签的需求量较低,因此具有较高的应用价值和推广性。

与现有技术相比,本发明的有益效果体现在:

(1)本发明是首次将半监督学习运用于固废检测中,其中生成器类似于孪生网络模型(Siamese Net),判别器通过接受分割结果或者影像标签作为输入,对预测样本和真实样本进行了更高阶的一致性度量,因此固废识别结果对比其他模型具有精度上的优势,无需大量的高质量的训练图像。

(2)本发明设计了一种注意力机制SA用于优化特征和远程信息传递,通过特征的自我约束增强模型对固体废弃物深层特征学习能力,实现更高效的特征表征学习和远程信息传递,通过中间特征的可视化分析,与其他模型跳跃连接的方式相比较,本模型显著提高特征表征能力。

(3)本发明中的注意力机制识别结果边缘较为准确,适用于形态多样的固废提取,不会将背景与前景目标混淆,对建筑物、绿地等背景具有较好的区分,在同样少量标注数据集下性能优异。

(4)本发明的判别器通过接受分割结果或者影像标签作为输入,对预测样本和真实样本进行了更高阶的一致性度量,通过引入Unet结构,在远程信息传递过程中将原始模型的通道叠加方式更改为数值叠加方式,使特征解码过程趋近于残差学习,判别器生成了像素级的不确定性图/置信度图计量生成器生成样本的质量,隐式地强制语义分割网络生成整体更接近期望掩膜的预测结果。经过一定训练过程后,判别器将学习到生成器预测结果与真实标签的判别知识。

(5)本发明在缺乏高质量的训练图像,仅能使用少量训练数据进行深度学习的情况下,采用半监督学习的方法进行模型训练从而有效提高模型的召回率。

(6)本发明提供的固废检测方法提高了深度学习中从场景和对象中学习鲁棒性和区分性表示的能力,固废识别结果对比其他模型具有精度上的优势,且本方法对标签的需求量较低,因此具有较高的应用价值和推广性。

附图说明

图1为Semi-SD的网络结构示意图;

图2为注意力机制的结构示意图;

图3为损失函数的关系示意图;

图4为训练集示例图;

图5为不同模型进行远程特征提取的结果示意图;

图6为不同模型和检测方法的固废识别结果示例图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步详细说明。

如图1所示本实施例提供了一种基于半监督学习的固废检测模型的构建方法和一种基于半监督学习的固废检测模型(Semi-supervised Slide Detection,semi-SD)。该模型包括生成器和判别器,采用ResNet34作为特征提取器,网络最底层特征尺度为512*8*8,分别在尺度为8、16、32、64部分采用设计的注意力机制实现高效特征传递,在解码器通过卷积层及反卷积的组合将特征定位为原始空间位置,输出逐像素预测结果。图1中紫色块即为SA结构输出的结果,与橙色块求和,作为远程传递信息。本发明中判别器网络使用Unet结构,如网络图所示的第二部分,经过一定训练过程后,判别器将学习到生成器预测结果与真实标签的判别知识。

如图2所示,生成器远程信息传递采用注意力模块(Self-Attention module,SA)。首先对输入特征进行3*3卷积,再执行全局池化顺着空间维度压缩获得1*1*C向量,该向量表征特征通道上响应的全局分布,通过1*1卷积对各个通道进行权重生成并通过Gelu激活函数调整,最后与输入的卷积后特征乘积获得各个通道调整结果。

分支二通过不对称卷积可以通过横纵向分布的卷积核捕捉突出固体废弃物在相关方向边缘梯度,提高边缘提取精度,是常规3*3卷积特征的补充,三种感受野卷积的组合侧重不同可以有效互补。BN层可以将卷积模块输出的特征分布拉回到均值为[0,1]之间的标准正态分布,使Gelu激活函数输出差异较小,避免梯度消失。

分支三先对输入特征进行3*3卷积,再顺着通道维度执行全局平均池化和最大池化获得通道描述,进行一个卷积层和Gelu激活函数得到空间权重系数,最后以权重系数与分支一输出、分支二输出的叠加结果进行乘积得到缩放后的新特征。

本模型的构建采用融合损失来进行规范训练,模型损失包括5类,判别器鉴别损失L

L

L

L

L

L

L

生成器训练的总体损失函数L

L

λ

SEnet、Unet分别是注意力机制和跳跃连接两种远程信息传递的典型模型,分别应用SEnet、Unet和本实施例提供的模型进行固废检测实验。

采用2021年6月采集的某区局部无人机影像数据作为数据源,空间分辨率为0.038m,将其裁剪为256*256小块,对影像中大于0.5平方米的固废目标进行选样,精细描绘固废分布边界,经过分配后训练集中标记数据100张,未标记数据867张,测试集、验证集各150张,数据集示例如图4。

选取上述三种方法在特征解码过程中远程信息和恢复信息恢复的尺度64*64中间层特征图,在4张影像的多通道特征图中随机抽取9个通道用于特征对比,结果如图5所示。

由图5可知,特征稀疏性方面,Unet存在纯黑色的无信息特征通道,本实施例提取特征各通道均存有信息;特征表征能力方面,FCHarDNet存在较多无规则噪音信息,难以用于特征学习。综合来看,本实施例提供的模型及方法特征表征能力较高,有助于信息的远程传递。

另外,本实施例将本方案方法(简写为Semi-CD)与Unet、PSPNet、FCHarDNet、SegFormer、DeepLabV3+、Res34及其对应半监督改造(名字前缀Semi-)进行识别效果方面的比较,下面分别从定量角度和定性角度分析对实验结果进行分析:

定量分析

表1为前述各模型的识别结果性能数据表,从表1可以看到,对比方法在Accuracy上均能达到80%以上,模型的性能主要区别在于召回率,其中SegFormer召回率最低仅为60%,Semi-Res34最高为79.3%,通过综合指标F1来看,DeepLabV3+、Res34表现较好,F1值在80%左右。本发明提出方法生成器F1高于其他方法4个百分点以上,召回率达84.8%,性能高于其他现有模型。从多种方法的半监督改造比较来看,本方案提出的改造方法可有效提高各方法性能。

表1不同模型和检测方法的识别结果性能数据表

定性分析

如图6所示为不同模型和检测方法的固废识别结果示例图。区域1为零散分布的固废堆,可以看到Unet、PSPNet存在明显过提取,各对比方法提取结果与实际标签相差较大,只有本发明方法识别结果边缘较为准确,可见本发明方法更适用于形态多样的固废提取。

区域2、3为建筑物周边固废,SegFormer、Unet易将背景与前景目标混淆,本发明方法对建筑物、绿地等背景具有较好的区分。综合来看,本发明提出方法在同样少量标注数据集下性能能够优于对比方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

相关技术
  • 一种无人机影像地表固废检测模型及检测方法
  • 基于深度学习与全局推理的遥感影像多尺度固废检测方法
技术分类

06120115924402