导航：首页> 医学或兽医学；卫生学>一种基于对抗性域适应的无监督图像目标检测方法

一种基于对抗性域适应的无监督图像目标检测方法

文献发布时间：2023-06-19 10:38:35

技术领域

本发明涉及图像目标检测和迁移学习技术领域，具体涉及一种基于对抗性域适应的无监督图像目标检测方法。

背景技术

目标检测的主要目标是在图像或者图像序列中准确对目标进行准确定位以及正确分类。目标检测任务面临的主要挑战来自于检测目标种类、数量、尺度的变化以及外在环境的影响。

伴随着互联网的飞速发展，图像数据资源爆炸式地飞速增长，但是这些图像数据存在的一个普遍问题就是没有标注，无法直接参与训练。尤其在某些特定的专业领域，获取标注好的数据往往是代价很大，耗时耗力很多,数据依赖问题是深度学习面临的最严重问题之一。因此，在无标注的数据集(无监督图像)上实现图像目标检测是非常必要的，可以有效利用互联网上的海量数据，将目标检测应用的范围大幅度扩大，有效解决大数据与少标注之间的矛盾、大数据与弱计算之间的矛盾、神经网络普适化模型与个性化需求之间的矛盾。这就需要在无标注的数据集和标注好的数据之间建立一种迁移，以使得无标注数据集能直接参与训练，最终应用于目标检测。

迁移学习是利用数据和领域之间存在的相似性关系，把之前学习到的知识，应用于新的未知领域，通过迁移学习，可以有效解决用于训练的标注好的数据不足的问题。域适应是迁移学习一种代表性方法。源域表示与测试样本不同的领域，但是有丰富的标注信息。目标域表示测试样本所在的领域，无标签或者只有少量标签。通常在源域上训练好的模型在目标域上表现不佳，与源域表现差距很大，原因在于源域数据与目标域数据特征分布不同，源域数据训练的网络模型不适用于目标域数据。域适应是指通过调节源域数据与目标域数据通过网络模型后的特征分布至尽可能相同的状态，使模型在目标域数据上也有比较好的表现。现有的域适应调节的源域数据与目标域数据的特征分布还不能完全对齐，导致使用无标注数据实现的目标检测精度较低。

发明内容

本发明的目的是为了克服以上现有技术存在的不足，提供了一种可以大幅度提升目标域检测精度的基于对抗性域适应的无监督图像目标检测方法。

本发明的目的通过以下的技术方案实现：

一种基于对抗性域适应的无监督图像目标检测方法，包括：将待检测的目标域图片样本输入已训练好的神经网络检测模型进行目标检测；其中神经网络检测模型的训练步骤如下：

S1，将公开数据输入特征提取器进行预训练，得到特征提取器的初始参数；

S2，将源域图片样本和目标域图片样本进行预处理；

S3，随机将一张源域图片样本发送至双阶段目标检测模型，依次获取源域浅层特征向量、源域深层特征向量和源域正样本感兴趣区域特征向量；

S4，随机将一张目标域图片样本发送至双阶段目标检测模型，依次获取目标域浅层特征向量、目标域深层特征向量、目标域正样本感兴趣区域特征向量；

S5，依次设计浅层域判别器、深层域判别器、正样本感兴趣区域域判别器；

S6，将源域和目标域的浅层特征向量送入浅层域判别器，将源域和目标域的深层特征向量送入深层域判别器，将源域和目标域的正样本感兴趣区域特征向量送入正样本感兴趣区域域判别器，获取浅层特征向量域分类误差损失函数、深层特征向量域分类误差损失函数、正样本感兴趣区域特征向量域分类误差损失函数；

S7，将源域的浅层特征向量、深层特征向量和感兴趣区域特征向量进行连接；将源域图片样本输入检测模型后获取的目标种类和位置特征向量分别同预先标注的目标种类和位置特征向量进行比较，并分别计算出目标种类误差损失、位置特征向量误差损失；

S8，将三个域判别器的分类误差损失函数、源域图片样本种类和目标种类误差损失、位置特征向量误差损失之和作为神经网络总损失函数；

S9，重复执行步骤S3-S8，直至网络损失函数的误差值小于k，k>0，得到训练好的神经网络检测模型。

优选地，采用ResNet101网络作为特征提取器。

优选地，步骤S2包括：将样本图片左右翻转扩充数据量，将不包含目标物体的样本筛选出去，留下包含目标物体的样本；样本为源域图片样本和目标域图片样本。

优选地，步骤S3包括：在特征提取器的浅层处获取源域浅层特征向量；在特征提取器的深层获取源域深层特征向量；在特征提取器的区域建议网络后获取源域正样本感兴趣区域特征向量；在特征提取器的神经网络尾端全连接层获取源域目标种类和位置特征向量。

优选地，步骤S4包括：在特征提取器的浅层处获取目标域浅层特征向量；在特征提取器的深层获取目标域深层特征向量；在特征提取器的区域建议网络后获取目标域正样本感兴趣区域特征向量。

优选地，浅层域判别器的损失函数表示如下：

其中x

优选地，正样本感兴趣区域域判别器的损失函数如下：

其中x

优选地，深层域判别器的损失函数如下：

其中x

本发明相对于现有技术具有如下优点：

本发明通过设计浅层域判别器、深层域判别器、正样本感兴趣区域域判别器三个域判别器，将域判别器与骨干网络通过梯度反转层连接，并借此发挥对抗训练的作用，即域判别器希望达成准确区分特征向量来自源域或目标域，骨干网络则尽量提取公共特征、对齐输出的特征向量以混淆域判别器。通过对抗方式，特征提取器可以提取源域数据和目标域数据的公共特征，使得骨干网络和区域建议网络提取到的特征向量对齐、特征分布更加接近，实现在无标注目标域数据上的目标检测精度的提升，克服了源域与目标域的特征分布差异。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的训练神经网络检测模型的流程示意图。

图2为本发明的ResNet101网络结构图。

图3为本发明的浅层域判别器网络结构图。

图4为本发明的深层域判别器网络结构图。

图5为本发明的前景感兴趣区域域判别器网络结构图。

图6为本发明的PASCAL VOC为源域和CLIPART为目标域检测精度比较图。

图7为本发明的SIM10K为源域和Cityscape为目标域检测精度比较图。

图8为本发明的Cityscape为源域和SIM10K为目标域检测精度比较图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参见图1、一种基于对抗性域适应的无监督图像目标检测方法，包括：将待检测的目标域图片样本输入已训练好的神经网络检测模型进行目标检测；其中神经网络检测模型的训练步骤如下：

S1具体为：采用ResNet101网络作为特征提取器，在公开数据集ImageNet数据集上进行预训练得到骨干网络(ResNet101网络)初始参数。ResNet101网络如图2所示。残差网络ResNet，通过以跨层连接的方式，在增加网络深度的同时不会影响精度，解决了网络深度达到一定程度后出现的梯度消失问题，具有优秀的特征提取性能，本方法中采用ResNet101作为骨干网络进行特征提取。

S2具体为：将源域图片样本和目标域图片样本左右翻转扩充数据量，将不包含检测目标的源域样本进行剔除，得到筛选后的源域图片样本和全部目标域图片样本。

S3具体为：将随机选取的一张源域样本送入Faster R-CNN检测模型，在ResNet101的Conv2层后获取浅层特征向量备用。将上述源域图像样本经过ResNet101的Conv5层后、进入区域建议网络前的特征向量获取备用。将上述源域图像样本经过区域建议网络后得到的感兴趣区域进行筛选，将正样本(也就是区域建议网络判别为前景样本，即包含目标物体的样本)筛选备用。将上述源域图像样本在检测器神经网络尾端全连接层处获取源域目标种类和位置特征向量。

需要说明的是，现阶段目标检测主要分为两大流派，分别是单阶段端到端的目标检测框架以及以Faster R-CNN目标检测模型为代表的双阶段目标检测框架。双阶段目标检测框架则包含了区域建议网络，特征提取器对图像进行特征提取后得到的特征图进入区域建议网络，得到感兴趣区域。相比较单阶段目标检测框架，双阶段目标检测框架速度较慢，但是检测精确度更高。本发明提出的方法也是基于Faster R-CNN目标检测模型的。

S4具体为：将随机选取的一张目标域域样本送入Faster R-CNN检测模型，在ResNet101的Conv2层后获取浅层特征向量备用。将上述目标域图像样本经过ResNet101的Conv5层后、进入区域建议网络前的特征向量获取备用。将上述目标域图像样本经过区域建议网络后得到的感兴趣区域进行筛选，将正样本筛选备用。

S5具体为：分别设计浅层域判别器、深层域判别器、正样本感兴趣区域域判别器三个域判别器。域判别器的网络结构分别如图3、图4、图5所示。浅层域判别器和前景感兴趣区域域判别器的输出为与输入特征向量长宽均相同、维度为1的特征向量，深层域判别器的输出为长度为2的特征向量。

S6具体为：将源域和目标域的浅层特征向量送入浅层域判别器，将源域和目标域的深层特征向量送入深层域判别器，将源域和目标域的正样本感兴趣区域特征向量送入正样本感兴趣区域域判别器，获取浅层特征向量域分类误差损失函数、深层特征向量域分类误差损失函数、正样本感兴趣区域特征向量域分类误差损失函数；

由于网络不同深度提取的特征向量有不同的含义，因此对于不同处获取的特征向量需借由不同方式进行对齐。网络浅层通常获取到的是局部细节特征，而深层通常获取到的为全局整体特征。在浅层和前景感兴趣区域进行像素级别的强对齐效果较好，即要求域判别器判别每个像素点源自目标域或源域。

在本方法中用0代表源域，1代表目标域。浅层域判别器的损失函数表示如下：

其中x

前景感兴趣区域域判别器的损失函数如下：

其中x

由于图像和目标域图像在背景、目标数量、布局等方面并不相似，因此在深层进行图像级别进行像素级别的强对齐会因强行对齐不应对齐的部分导致检测精度下降。在深层进行图像级别的弱对齐效果较好，即判断特征向量整体来自源域或目标域。对深层域判别器的判别应当更加关注难以区分的样本，忽略易于区分的样本，有效提升域判别器的判别能力，因此我们使用了FocalLoss作为深层域判别器的损失函数。

深层域判别器的损失函数如下：

其中x

S7具体为：将源域的浅层特征向量、深层特征向量和感兴趣区域特征向量进行连接，以达到图像信息辅助判定目标种类和确认目标位置的功能。

将源域图片样本输入检测模型后获取的目标种类和位置特征向量分别同预先标注的目标种类和位置特征向量进行比较，并分别计算出目标种类误差损失、位置特征向量误差损失。目标种类误差损失和位置特征向量误差损失和为检测器(Faster R-CNN检测模型)的检测损失，表示如下：

其中x

S8具体为：将三个域判别器的分类误差损失函数、源域图片样本种类和目标种类误差损失、位置特征向量误差损失之和作为神经网络总损失函数，

三个域判别器的分类误差损失函数之和为对抗域适应损失函数L

总体损失函数可表示为：

其中λ为可人工设置的超参数，用来调节目标检测损失和对抗损失所在的比重。

S9，重复执行步骤S3-S8，直至网络损失函数的误差值小于k(趋于稳定)，k＞0，得到训练好的神经网络检测模型。

本方法在多个公开数据集上取得了较好的检测效果。PASCAL VOC数据集是实际生活中的照片，包含20类目标物体，CLIPART数据集包含相同种类的目标物体的水彩画形式的照片。使用本方法检测到的准确率如下图6所示。其中第一行数据为直接使用PASCAL VOC数据集训练得到的模型在CLIPART数据集上的检测精度，第二行数据为采用本方法在CLIPART数据集上的检测精度。

本方法中采用的精度为精确率和召回率的平均值，可以看出，采用域适应方法迁移学习后的网络模型相对于直接将源域训练得到的模型作用于目标域有了很大幅度的提高，证明了本方法的有效性。

Cityscape数据集是真实的城市场景图片，SIM10K则包含10000张游戏GTA5中的带有标注数据的图片。使用SIM10K数据集和Cityscape数据集分别作为源域及目标域进行小汽车的目标检测实验，结果如图7、图8所示，在源域图片样本的指导下进行无标注目标域图片样本训练可以大幅度提升目标域检测精度。

综上，过对抗性训练域适应，使得卷积神经网络对源域数据和目标域数据进行特征对齐，提取公共特征，实现在无标注目标域数据上的目标检测精度的提升，克服源域与目标域的特征分布差异。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：艾浩然;许洁斌;
专利申请人：华南理工大学;

上一篇：一种祛斑美白中药美容液及其制备方法
下一篇：一种振动光整装置及方法