掌桥专利:专业的专利平台
掌桥专利
首页

一种用于房屋检测的多专家辅助模型的构建方法

文献发布时间:2024-04-18 20:00:50


一种用于房屋检测的多专家辅助模型的构建方法

技术领域

本发明涉及目标检测技术领域,具体涉及基于无人机影像中目标检测技术的检测城郊地区建好的建筑物和正在建造的建筑的方法。

背景技术

对新建建筑的检测对于违法建筑的查处和城乡规划建设至关重要。传统的违法建筑检测主要依靠效率低下的人工访查方式。随着遥感技术和计算机视觉领域的发展,使用无人机遥感图像来进行建筑物检测已经成为了一种高效可行的方案。

现有的遥感图像建筑物检测主要是为了城市规划提供帮助,大多是针对城市建筑群的遥感图像进行设计。例如FAN等人发表的《A high-resolution remote sensing imagebuilding extraction method based on deep learning》设计了一个采用主成分变换非监督预训练网络结构,加一个自适应池化模型进行建筑物检测,更清晰的寻找到建筑物的边缘;Yuhan等人发表的《Building Extraction in Multitemporal High-ResolutionRemote Sensing ImageryUsing a Multifeature LSTM Network》基于特征长短期记忆网络提出了一个用于提取像素级建筑物的网络;Ryuhei等人发表的《Building Detectionfrom Satellite Imagery using Ensemble of Size-specific Detectors》基于U-Net提出了一个共享特征提取器的多任务模型,区别性的检测不同大小的建筑物和道路。这些建筑物检测的方法主要关注的是对于城市建筑群中建筑物的识别,普遍忽略了对于城郊和乡村地区的建筑物的检测,更重要的是对于建筑物中正在建造的建筑物类别的单独识别任务被没有收到关注。

实际上,在无人机拍摄的图像中,正在建造的建筑物的数量要远远少于已经建好的建筑物。同时,正在建造的建筑物和已经建好的建筑物拥有相似的外观和纹理。这导致我们不能用现在普遍使用的目标检测框架来进行建筑物的检测,这些方法面对样本不均等的数据集会产生向样本量多的类别的倾斜,并且不具备区分相似类别物体的能力,在我们要进行的建筑物检测任务中还存在很多不足。

所以,针对如何在无人机图像中准确识别建筑物和在建建筑物,申请人提出了一种基于改进YOLOV5神经网络模型的检测方法。

发明内容

本发明的目的是为了解决现有技术在进行无人机图像中的建筑物检测时,受到数据集中样本不均衡的影响导致的模型预测结果向着样本量多的已建好的建筑物类别倾斜,以及无人机图像中正在建造的建筑物和已经建好的建筑物外观相似度高的影响,从而无法准确检测在建建筑物的问题。

为了解决上述技术问题,本发明采用的技术方案为:

一种用于房屋检测的多专家辅助模型的构建方法,它包括以下步骤:

步骤1:操控无人机拍摄城郊和乡村的建筑物图像,对拍摄完的影像进行处理,筛选出包含建筑物和在建建筑物的图像,使用矩形框标注出图像中的建筑物和在建建筑,将实例的类别信息和标注框的中心点信息和宽高信息进行保存;

步骤2:构建两个专家分支,第一个专家分支学习建筑物类别的特征表达,第二个专家分支学习正在建造的建筑物的特征表达;

步骤3:在网络中加入类内聚合损失,根据学习到的特征向量的真实类别分别计算它们和对应类别中心向量的相似度,通过提高每一个特征向量和类别中心向量的相似度来减小同一类别的类内差异,明确不同类别间的决策边界;

步骤4:将无人机图像送入网络,经过骨干网络提取特征图后,将相同的特征图分别送入主网络和专家分支,利用专家分支得到的检测结果计算损失来进一步约束骨干网络,同时利用主网络的结果来进行网络整体的训练;

步骤5:在模型训练结束后舍弃专家分支的网络权重,仅保留主网络的权重进行图像的推理,从而减少模型在推理过程中的计算量;

通过以上步骤完成对多专家辅助模型的构建和训练。

在步骤2中,在构建两个专家分支时,采用以下子步骤:

2-1:基于YOLOV5网络,在骨干网络之后加入第一个专家分支,具体来说,骨干网络提取的特征第一次通过一个1×1卷积将特征图的通道维度减半,再使用最临近插值进行上采样使特征图的宽和高扩大2倍,以便和骨干网络中的第四层的特征图延通道维度进行拼接,拼接之后经过一个C3模块将特征图的通道维度减半,之后第二次通过一个1×1卷积将特征图的通道维度减半,再使用最临近插值进行上采样使特征图的宽和高扩大2倍,以便和骨干网络中的第三层的特征图延通道维度进行拼接,拼接之后经过一个C3模块将特征图的通道维度减半,之后分作两个分支,一个分支进入P3层检测头,另一个分支进入3×3卷积将特征图的宽和高减半,以便和第二次通过一个1×1卷积的特征图延通道维度进行拼接,拼接之后经过一个C3模块,之后分作两个分支,一个分支进入P4层检测头,另一个分支进入3×3卷积将特征图的宽和高减半,以便和第一次通过一个1×1卷积的特征图延通道维度进行拼接,拼接之后经过一个C3模块,之后进入P5层检测头;

2-2:基于YOLOV5网络,在骨干网络之后加入第二个专家分支,具体来说,骨干网络提取的特征第一次通过一个1×1卷积将特征图的通道维度减半,再使用最临近插值进行上采样使特征图的宽和高扩大2倍,以便和骨干网络中的第四层的特征图延通道维度进行拼接,拼接之后经过一个C3模块将特征图的通道维度减半,之后第二次通过一个1×1卷积将特征图的通道维度减半,再使用最临近插值进行上采样使特征图的宽和高扩大2倍,以便和骨干网络中的第三层的特征图延通道维度进行拼接,拼接之后经过一个C3模块将特征图的通道维度减半,之后分作两个分支,一个分支进入P3层检测头,另一个分支进入3×3卷积将特征图的宽和高减半,以便和第二次通过一个1×1卷积的特征图延通道维度进行拼接,拼接之后经过一个C3模块,之后分作两个分支,一个分支进入P4层检测头,另一个分支进入3×3卷积将特征图的宽和高减半,以便和第一次通过一个1×1卷积的特征图延通道维度进行拼接,拼接之后经过一个C3模块,之后进入P5层检测头。

在步骤3中,在加入类内聚合损失,采用以下子步骤:

3-1:获取进入P3层检测头,P4层检测头和P5层检测头的特征图,根据真实结果的标注信息获取目标的特征向量;

3-2:根据进入P3层检测头,P4层检测头和P5层检测头的特征图的大小分别构建维度为n×30,n×12,n×3的类别中心特征向量矩阵,其中n为数据集中的类别数;

3-3:对步骤3-1中获取的目标特征向量,根据其真实类别与对应的类别中心向量计算相似度,相似度计算公式使用Dynamic Time Warping(DTW),公式如下所示:

其中x为目标特征向量,c为类别中心向量,A为x和c的代价矩阵,我们使用欧氏距离来计算代价矩阵中的每一个元素,n和m分别表示x和c的维度。DTW的值越小,表示特征和类中心之间相似度越高。

计算所有相似度的平均值作为损失,公式如下:

其中x

在步骤4中,在训练多专家辅助模型时,采用以下子步骤:

4-1:将无人机图像送入骨干网络,得到包含语义信息的特征图;

4-2:将特征图分别输入主网络和两个专家分支,分别得到检测结果;

4-3:检测结果与真实值分别计算损失。

在步骤4-3中,使用数据集对多专家辅助模型进行训练时会得到若干损失,其中第一个专家和第二个专家分别有三个损失函数,公式如下所示:

L

其中,IoU表示预测框和真实框的交并比,b,b

其中,w

两个专家分支的损失函数,公式如下:

L

L

在步骤4-3中,其中主网络有四个损失函数,公式如下所示:

L

L

其中y为输入样本对应的标签

网络总的损失为主网络和两个专家的损失的加权求和,一起进行网络优化,公式如下:

L=γL

其中γ,δ,ε为三个分支的权重。

在步骤5中,模型在最后一次训练后保存最优模型时会舍弃专家分支的模型权重,仅保存主网络的模型权重。

在步骤1中,操控无人机拍摄城郊和乡村的建筑物图像,使用labelimg软件进行图像的标注,标注信息保存为PASCAL VOC格式,然后转换为yolo格式,包含图像中每一个物体的类别和中心点坐标以及标注框的宽和高。

在步骤2中,构建多专家辅助建筑物检测网络,多专家辅助建筑物检测网络包括骨干网络、主网络、专家分支一、专家分支二;

所构建的多专家辅助建筑物检测网络具体如下:

骨干网络特征提取模块的第一层→骨干网络特征提取模块的第二层→骨干网络特征提取模块的第三层→骨干网络特征提取模块的第四层→骨干网络特征提取模块的第五层;

骨干网络特征提取模块的第五层→主网络特征融合模块第一层;

骨干网络特征提取模块的第四层,主网络特征融合模块第一层→主网络特征融合模块第二层;

骨干网络特征提取模块的第三层,主网络特征融合模块第二层→主网络特征融合模块第三层;

主网络特征融合模块第三层→主网络特征融合模块第四层;

主网络特征融合模块第二层,主网络特征融合模块第四层→主网络特征融合模块第五层;

主网络特征融合模块第一层,主网络特征融合模块第五层→主网络特征融合模块第六层;

主网络特征融合模块第四层→主网络检测模块第一层;

主网络特征融合模块第五层→主网络检测模块第二层;

主网络特征融合模块第六层→主网络检测模块第三层;

骨干网络特征提取模块的第五层→专家分支一特征融合模块第一层;

骨干网络特征提取模块的第四层,专家分支一特征融合模块第一层→专家分支一特征融合模块第二层;

骨干网络特征提取模块的第三层,专家分支一特征融合模块第二层→专家分支一特征融合模块第三层;

专家分支一特征融合模块第三层→专家分支一特征融合模块第四层;

专家分支一特征融合模块第二层,专家分支一特征融合模块第四层→专家分支一特征融合模块第五层;

专家分支一特征融合模块第一层,专家分支一特征融合模块第五层→专家分支一特征融合模块第六层;

专家分支一特征融合模块第四层→专家分支一检测模块第一层;

专家分支一特征融合模块第五层→专家分支一检测模块第二层;

专家分支一特征融合模块第六层→专家分支一检测模块第三层;

骨干网络特征提取模块的第五层→专家分支二特征融合模块第一层;

骨干网络特征提取模块的第四层,专家分支二特征融合模块第一层→专家分支二特征融合模块第二层;

骨干网络特征提取模块的第三层,专家分支二特征融合模块第二层→专家分支二特征融合模块第三层;

专家分支二特征融合模块第三层→专家分支二特征融合模块第四层;

专家分支二特征融合模块第二层,专家分支二特征融合模块第四层→专家分支二特征融合模块第五层;

专家分支二特征融合模块第一层,专家分支二特征融合模块第五层→专家分支二特征融合模块第六层;

专家分支二特征融合模块第四层→专家分支二检测模块第一层;

专家分支二特征融合模块第五层→专家分支二检测模块第二层;

专家分支二特征融合模块第六层→专家分支二检测模块第三层。

与现有技术相比,本发明具有如下技术效果:

1)本发明提出一种用于房屋检测的多专家辅助模型的构建方法。通过多专家分支架构,每个专家可以专门学习对应的特征表达,使网络能够从相同的输入中差异化提取不同类别的特征表达,从而是模型学到更好的对于不同类别的特征提取能力,平衡不同样本量所带来的学习能力的差异,从而提高模型的检测性能;

2)本发明提出一个特征级的可学习类别中心特征向量,并计算网络提取的特征图中每一个目标的特征向量与其对应的类别中心特征向量的相似度,以提高每一个目标的特征向量与其对应的类别中心特征向量的相似度来减小类别内可分离性并明确类别间的决策边界,提高模型对类内差异大而类间差异小的物体的区分能力,从而提高模型的检测性能;

3)本发明将模型对在建建筑物的检测性能提高到了与建好的建筑物相当,解决了在建建筑物样本数据少难以训练较好的模型的问题,为查处违章建筑和城乡规划提供了更好的解决方案;

4)本发明提出的专家分支是用于辅助主网络获得更强的特征提取能力和更好的检测能力,同时没有增加模型的参数量,使模型保持了原有的推理速度。

附图说明

下面结合附图和实施例对本发明作进一步说明:

图1为本发明的训练策略流程图;

图2为本发明中多专家辅助目标检测网络结构图。

具体实施方式

一种用于房屋检测的多专家辅助模型的构建方法,包括以下步骤:

步骤1:操控无人机拍摄城郊和乡村的建筑物图像,对拍摄完的影像进行处理,筛选出包含建筑物和在建建筑物的图像,使用矩形框标注出图像中的建筑物和在建建筑,将实例的类别信息和标注框的中心点信息和宽高信息进行保存;

步骤2:构建两个专家分支,第一个专家分支学习建筑物类别的特征表达,第二个专家分支学习正在建造的建筑物的特征表达;

步骤3:在网络中加入类内聚合损失,根据学习到的特征向量的真实类别分别计算它们和对应类别中心向量的相似度,通过提高每一个特征向量和类别中心向量的相似度来减小同一类别的类内差异,明确不同类别间的决策边界;

步骤4:将无人机图像送入网络,经过骨干网络提取特征图后,将相同的特征图分别送入主网络和专家分支,利用专家分支得到的检测结果计算损失来进一步约束骨干网络,同时利用主网络的结果来进行网络整体的训练;

步骤5:在模型训练结束后舍弃专家分支的网络权重,仅保留主网络的权重进行图像的推理,从而减少模型在推理过程中的计算量;

通过以上步骤完成对多专家辅助模型的构建和训练。

图1为本发明的训练策略流程图,从图1中可以看出,无人机图像标注的数据集进行训练,得到三个分支的检测结果后,分别计算各自的损失,然后共同优化模型;

步骤1中,在拍摄无人机图像时使用的图像空间分辨率为0.2m,无人机飞行高度为950m。拍摄完成后将图像按照1000×1000分辨率进行裁剪。裁剪后的图像使用labelimg软件进行图像的标注,标注信息保存为PASCAL VOC格式,然后转换为yolo格式,包含图像中每一个物体的类别和中心点坐标以及标注框的宽和高;

如图2所示,步骤2中,在构建两个专家分支时,采用以下子步骤:

2-1:基于YOLOV5网络,在骨干网络之后加入第一个专家分支,具体来说,骨干网络提取的特征第一次通过一个1×1卷积将特征图的通道维度减半,再使用最临近插值进行上采样使特征图的宽和高扩大2倍,以便和骨干网络中的第四层的特征图延通道维度进行拼接,拼接之后经过一个C3模块将特征图的通道维度减半,之后第二次通过一个1×1卷积将特征图的通道维度减半,再使用最临近插值进行上采样使特征图的宽和高扩大2倍,以便和骨干网络中的第三层的特征图延通道维度进行拼接,拼接之后经过一个C3模块将特征图的通道维度减半,之后分作两个分支,一个分支进入P3层检测头,另一个分支进入3×3卷积将特征图的宽和高减半,以便和第二次通过一个1×1卷积的特征图延通道维度进行拼接,拼接之后经过一个C3模块,之后分作两个分支,一个分支进入P4检测头,另一个分支进入3×3卷积将特征图的宽和高减半,以便和第一次通过一个1×1卷积的特征图延通道维度进行拼接,拼接之后经过一个C3模块,之后进入P5检测头;

2-2:基于YOLOV5网络,在骨干网络之后加入第二个专家分支,具体来说,骨干网络提取的特征第一次通过一个1×1卷积将特征图的通道维度减半,再使用最临近插值进行上采样使特征图的宽和高扩大2倍,以便和骨干网络中的第四层的特征图延通道维度进行拼接,拼接之后经过一个C3模块将特征图的通道维度减半,之后第二次通过一个1×1卷积将特征图的通道维度减半,再使用最临近插值进行上采样使特征图的宽和高扩大2倍,以便和骨干网络中的第三层的特征图延通道维度进行拼接,拼接之后经过一个C3模块将特征图的通道维度减半,之后分作两个分支,一个分支进入P3层检测头,另一个分支进入3×3卷积将特征图的宽和高减半,以便和第二次通过一个1×1卷积的特征图延通道维度进行拼接,拼接之后经过一个C3模块,之后分作两个分支,一个分支进入P4检测头,另一个分支进入3×3卷积将特征图的宽和高减半,以便和第一次通过一个1×1卷积的特征图延通道维度进行拼接,拼接之后经过一个C3模块,之后进入P5检测头;

在步骤3中,在加入类内聚合损失,采用以下子步骤:

3-1:获取进入P3层检测头,P4层检测头和P5层检测头的特征图,根据真实结果的标注信息获取目标的特征向量;

3-2:根据进入P3层检测头,P4层检测头和P5层检测头的特征图的大小分别构建维度为n×30,n×12,n×3的类别中心特征向量矩阵,其中n为数据集中的类别数;

3-3:对步骤3-1中获取的目标特征向量,根据其真实类别与对应的类别中心向量计算相似度,相似度计算公式使用Dynamic Time Warping(DTW),公式如下所示:

其中x为目标特征向量,c为类别中心向量,A为x和c的代价矩阵,我们使用欧氏距离来计算代价矩阵中的每一个元素,n和m分别表示x和c的维度。DTW的值越小,表示特征和类中心之间相似度越高。

计算所有相似度的平均值作为损失,公式如下:

其中x

步骤4中,在训练多专家辅助模型时,采用以下子步骤:

4-1:将无人机图像送入骨干网络,得到包含语义信息的特征图;

4-2:将特征图分别输入主网络分支和两个专家分支,分别得到检测结果;

4-3:检测结果与真实值分别计算损失;

在步骤4-3中,使用数据集对多专家辅助模型进行训练时会得到若干损失,其中第一个专家和第二个专家分别有三个损失函数,公式如下所示:

L

其中,IoU表示预测框和真实框的交并比,b,b

其中,w

两个专家分支的损失函数,公式如下:

L

L

在步骤4-3中,其中主网络有四个损失函数,公式如下所示:

L

L

其中y为输入样本对应的标签,p为模型预测该输入样本为正样本的概率;

网络总的损失为主网络和两个专家的损失的加权求和,一起进行网络优化,公式如下:

L=γL

其中γ,δ,ε为三个分支的权重。

步骤5中,模型在最后一次训练后保存最优模型时会舍弃专家分支的模型权重,仅保存主网络的模型权重。

如图2所示,构建的多专家辅助建筑物检测网络结构如下:

骨干网络特征提取模块的第一层1→骨干网络特征提取模块的第二层2→骨干网络特征提取模块的第三层3→骨干网络特征提取模块的第四层4→骨干网络特征提取模块的第五层5;

骨干网络特征提取模块的第五层5→主网络特征融合模块第一层6;

骨干网络特征提取模块的第四层4,主网络特征融合模块第一层6→主网络特征融合模块第二层7;

骨干网络特征提取模块的第三层3,主网络特征融合模块第二层7→主网络特征融合模块第三层8;

主网络特征融合模块第三层8→主网络特征融合模块第四层9;

主网络特征融合模块第二层7,主网络特征融合模块第四层9→主网络特征融合模块第五层10;

主网络特征融合模块第一层6,主网络特征融合模块第五层10→主网络特征融合模块第六层11;

主网络特征融合模块第四层9→主网络检测模块第一层12;

主网络特征融合模块第五层10→主网络检测模块第二层13;

主网络特征融合模块第六层11→主网络检测模块第三层14;

骨干网络特征提取模块的第五层5→专家分支一特征融合模块第一层15;

骨干网络特征提取模块的第四层4,专家分支一特征融合模块第一层15→专家分支一特征融合模块第二层16;

骨干网络特征提取模块的第三层3,专家分支一特征融合模块第二层16→专家分支一特征融合模块第三层17;

专家分支一特征融合模块第三层17→专家分支一特征融合模块第四层18;

专家分支一特征融合模块第二层16,专家分支一特征融合模块第四层18→专家分支一特征融合模块第五层19;

专家分支一特征融合模块第一层15,专家分支一特征融合模块第五层19→专家分支一特征融合模块第六层20;

专家分支一特征融合模块第四层18→专家分支一检测模块第一层21;

专家分支一特征融合模块第五层19→专家分支一检测模块第二层22;

专家分支一特征融合模块第六层20→专家分支一检测模块第三层23;

采用上述结构,用专家分支一监督骨干网络学习如何更好的提取建筑物的特征表达方式,这样可以进一步增强模型对于建筑物的特征提取能力;

骨干网络特征提取模块的第五层5→专家分支二特征融合模块第一层24;

骨干网络特征提取模块的第四层4,专家分支二特征融合模块第一层24→专家分支二特征融合模块第二层25;

骨干网络特征提取模块的第三层3,专家分支二特征融合模块第二层25→专家分支二特征融合模块第三层26;

专家分支二特征融合模块第三层26→专家分支二特征融合模块第四层27;

专家分支二特征融合模块第二层25,专家分支二特征融合模块第四层27→专家分支二特征融合模块第五层28;

专家分支二特征融合模块第一层24,专家分支二特征融合模块第五层28→专家分支二特征融合模块第六层29;

专家分支二特征融合模块第四层27→专家分支二检测模块第一层30;

专家分支二特征融合模块第五层28→专家分支二检测模块第二层31;

专家分支二特征融合模块第六层29→专家分支二检测模块第三层32。

本发明中主网络包括主网络特征融合模块第一层6、主网络特征融合模块第二层7、主网络特征融合模块第三层8、主网络特征融合模块第四层9、主网络特征融合模块第五层10、主网络特征融合模块第六层11、主网络检测模块第一层12、主网络检测模块第二层13、主网络检测模块第三层14。

采用上述结构,用专家分支二监督骨干网络学习如何更好的提取在建建筑物的特征表达方式,这样可以有效提高模型对于在建建筑物的特征提取能力,并缓解由样本不平衡导致的在建建筑物学习不充分问题。

实施例:

1)参数设置

本发明的代码基于Pytorch框架实现,在Ubuntu环境下使用NVIDIA 3090Ti GPU训练网络模型。采用SGD优化器进行优化网络动量为0.937,权重衰减因子为0.0005,batch-size为16,学习率初始设置为0.01,采用了warm-up方法进行预热,之后使用了余弦退火算法进行更新,最终学习率为初始的0.1倍。整个训练包含300个epochs。本实验使用团队收集的数据集进行,包含1509张图像的训练集和包含418张图像的测试集。为了验证本发明方法的正确性和有效性,增加目前优秀的目标检测方法进行对比。

2)实验结果

为了评估各种方法的性能,本发明采用平均精度(mAP

表1各种算法在数据集上的定量评估

实验结果表明,本发明提出的方法在无人机数据集取得了优异的性能,并且在平均精度方面取得了最好的效果。

3)消融分析

为了验证提出的多专家分支和类内聚合损失的有效性,本发明进行了消融实验,对比了模型的检测性能和模型的推理速度

表2在数据集上的mAP

消融实验的结果证明本发明提出的方法可以有效提高模型的检测精度,不同专家分支对于不同类型的针对性学习有效的解决了数据集中样本数量差异巨大的问题,同时目标级类内聚合损失将网络所提取的特征图中的目标的特征向量进行同类的拉近,有效解决了无人机图像中物体类别内分离性高类别间差异性小的问题,成功解决了房屋检测中的两大难题。

本发明提供一种用于房屋检测的多专家辅助模型的构造方法,与现有的用于房屋检测的模型不同,本发明通过引入专家分支和目标级类别聚合损失,充分利用网络提取到的不同类别的特征信息,从而增强网络的表达能力。同时本发明能够在不改模型参数量的情况下增强模型性能,并且平衡模型对于不同数量的样本的学习能力同时增强模型对于相似类别的区分能力,从而提升网络的检测性能,有效的提升检测效果,准确的检测出无人机图像中的建筑物和在建建筑物。

相关技术
  • 全自动上下料设备及全自动上下料装置
  • 一种全自动化锻压系统
  • 一种微动开关全自动组装生产系统及分选下料装置
  • 一种方便下料的全自动压铸件用分料机
  • 一种用于全自动钳子体钻铣加工的自动防错下料机构
  • 一种全自动下料锻压模具
  • 一种防晃动全自动上下料的锻压设备
技术分类

06120116543099