掌桥专利:专业的专利平台
掌桥专利
首页

一种考虑类别语义匹配的域自适应目标检测方法及系统

文献发布时间:2023-06-19 13:45:04


一种考虑类别语义匹配的域自适应目标检测方法及系统

技术领域

本发明属于计算机视觉目标检测领域,尤其涉及一种考虑类别语义匹配的域自适应目标检测方法及系统。

背景技术

在数据规模剧增、计算能力进步以及算法创新等诸多因素的共同作用下,深度学习得以迅速崛起并取得长足发展,在计算机视觉领域展现出强大的优势。近年来,基于深度学习的目标检测方法借助大规模、带标签的数据来训练目标检测模型,已经在多种公开的数据集上取得了卓著的成果。在实际应用中,训练数据集(称为源域)和测试数据集(称为目标域)的分布通常存在着差异,如果将从源域训练得的目标检测模型应用到目标域,那么模型可能会因域漂移问题而出现明显的性能退化,这便对目标检测模型的泛化能力提出了挑战。

域自适应作为迁移学习的重要分支,为上述问题提供了一种新的解决方案。在目标域缺少可用带标签数据的困境下,域自适应设法将知识从源域迁移到目标域,使得在源域上训练得到的模型能够泛化到目标域。目标检测任务需要同时确定图像中特定实例的位置及其所属类别,与图像分类任务相比,考虑域自适应问题时就会更加复杂。近年来,针对目标检测域自适应问题的研究也得到了越来越多的关注。

申请公布号为CN111860670A(域自适应模型训练、图像检测方法、装置、设备及介质)的专利文献先后使用局部特征模型和全局特征模型分别对局部特征和全局特征进行对齐,该方法利用对抗特征学习策略在图像级和实例级上较好地保持了特征的域不变性,但是经过局部对齐后的实例级特征在类别语义层面仍然处于混乱的状态,不同目标类别在共享的类别空间中并不能得到很好的对齐。

申请公布号为CN112926599A(目标检测方法、装置、智能终端及计算机可读存储介质)的专利文献在进行全局特征弱对齐和局部特征强对齐后,通过特征解耦的方式分离出域不变特征和域特定特征,由此便可以专注于域不变实例级特征的对齐。该方法虽然考虑了对目标检测非常重要的实例级表示,但是忽略了这些实例级表示的可判别性,两域实例级表示的类别可能会出现错误匹配。

授权公告号为CN111950608B(一种基于对比损失的域自适应物体检测方法)的专利文献先使用风格迁移前后的对比损失对预训练后的检测器进行初次微调,再使用初次微调后的检测器为目标域无标签图像打上伪标签,最后使用带伪标签的目标域无标签图像对检测器进行再次微调。为选取正确伪标签,该方法只保留预测概率大于给定阈值的目标。由于预先给定的阈值并不总是最优,因此过滤后得到的伪标签仍普遍存在噪声,这将导致训练过程中误差的累积。

综上所述,当前域自适应目标检测方法大多通过对抗学习域不变特征的策略来提高目标检测模型在各种跨域场景下的检测性能。然而,这些方法往往只是从宏观的角度来对齐源域和目标域的分布,忽略了两域特定类别的语义信息,极易造成类别语义的错误匹配,进而限制了目标检测模型跨域检测性能的提高。而一些使用伪标签进行自训练的方法虽然克服了目标域缺乏带标签数据的困难,在一定程度上提高了目标检测模型的跨域鲁棒性,但是由于选取伪标签的策略不够合理,造成误差的累积而损害跨域目标检测模型的性能。

发明内容

鉴于现有技术的缺点与不足,本发明的目的在于提供一种考虑类别语义匹配的域自适应目标检测方法及系统,在对齐源域和目标域全局特征的同时,考虑两域特定类别语义匹配的问题,避免源域和目标域的目标类别在共享类别空间中出现错误对齐的问题,从而促使目标检测模型在目标域上的检测性能得到进一步提高。

为实现上述目的,本发明的技术方案为:

一种考虑类别语义匹配的域自适应目标检测方法,包括如下步骤:

步骤1,获取源域带标签图像和目标域无标签图像;

步骤2,使用源域带标签图像训练得到经过预训练的基础目标检测器;

步骤3,在经过预训练的基础目标检测器上增加域自适应组件,使用源域带标签图像和目标域无标签图像训练得到经过训练的域自适应目标检测模型;

步骤4,移除增加的域自适应组件,使用经过训练的域自适应目标检测模型对目标域场景进行目标检测。

进一步的改进,所述步骤1包括如下步骤:

步骤1.1,获取目标域无标签图像:根据实际应用需求,采集待检测场景的图像,使用采集得到的图像创建数据集作为无标签的目标域,无标签的目标域中的图像即目标域无标签图像;

步骤1.2,获取源域带标签图像:针对目标域待检测目标的类别,选取与目标检测任务相关的公开数据集作为源域,源域中的图像即源域带标签图像;

源域记为

目标域记为

源域和目标域共享K个目标类别即c∈{1,2,…,K}。

进一步的改进,所述步骤2包括如下步骤:

步骤2.1,主干网络G提取源域带标签图像

步骤2.2,区域生成网络(RPN)生成候选区域:先使用3×3滑动窗口对特征图

步骤2.3,通过兴趣区域头部网络(RoI Head)预测最终的分类结果和边界框回归结果:不同尺寸大小候选框内的候选区域经过兴趣区域头部网络的兴趣区域对齐(RoIAlign)后都转变成维度固定的特征向量,随后经过两个全连接层分别进行目标类别概率预测和边界框回归参数预测;兴趣区域头部网络的损失

步骤2.4,通过优化器获取基础目标检测器的损失并对基础目标检测器进行优化:基础目标检测器的损失

使用随机梯度下降算法对基础目标检测器损失

进一步的改进,所述步骤3包括如下步骤:

步骤3.1,在经过预训练的基础目标检测器增加域自适应组件;

步骤3.2,使用源域带标签图像和目标域无标签图像训练得到域自适应目标检测模型;

所述步骤3.1,包括如下步骤:

步骤3.1.1,增加全局特征判别组件:在主干网络G的输出位置构建域判别器D,域判别器D用于区分主干网络G输出的特征图来自源域还是目标域;在主干网络G和域判别器D之间引入梯度反转层,梯度反转层用于在反向传播时对梯度符号取反,实现主干网络G和域判别器D的对抗训练,从而对齐源域和目标域的全局特征;

采用焦点损失计算域判别器D的损失:

其中,

步骤3.1.2,增加伪标签动态选取组件:

基于源域带标签图像边界框标签b以及对应的类别标签c,根据公式(5),使用所有属于类别c的源域目标类别样本计算对应类别的中心点特征表示

其中,S

使用步骤2中预训练的基础目标检测器为目标域所有无标签图像赋予伪标签,伪标签包括边界框伪标签以及对应的类别伪标签;根据公式(6),计算伪标签下第j个目标域目标类别样本

其中,cos()为余弦相似度;

根据公式(7)在训练过程中对阈值τ进行动态调整;对于

其中,α和β为常数;n为当前遍历次数,n={1,2,…,max_epoch};

步骤3.1.3,增加类别语义匹配组件:在选取具有正确伪标签的目标类别样本后,在类别空间中对齐源域和目标域目标类别的分布,从而增强目标类别特征的可判别性:

基于选取后的目标域目标类别样本,根据公式(8),使用所有属于类别c'的目标域目标类别样本计算对应类别的中心点特征表示

其中,

使用指数加权平均策略对源域和目标域的所有目标类别在嵌入空间中的中心点特征表示进行动态更新;当对源域目标类别中心点特征表示进行更新时,基于属于类别c的所有源域目标类别样本集合S

其中,iter为当前遍历次数中的迭代次数,iter={1,2,…,max_iter};

当对目标域目标类别中心点特征表示进行更新时,基于经过选取的属于类别c'的所有目标域目标类别样本集合

其中,

对不同域的目标类别与对应目标类别中心点特征表示之间进行双向对齐,当进行源域目标类别样本与目标域对应的目标类别中心点特征表示的单向对齐时,给定源域目标类别样本

其中,d()表示距离函数,具体为欧氏距离的平方;γ为温度参数,用来控制相似性概率分布集中或分散程度;

当进行目标域目标类别样本与源域对应的目标类别中心点特征表示的单向对齐时,给定目标域目标类别样本

根据公式(15)和公式(16),分别计算源域匹配目标域相似性概率分布

根据公式(17),将双向对齐得到的相似性概率分布的熵

进一步的改进,所述步骤3.2包括如下步骤:

步骤3.2.1,主干网络G提取源域带标签图像

步骤3.2.2,域判别器D判断步骤3.2.1中特征图的来源;

步骤3.2.3,区域生成网络生成若干候选区域;

步骤3.2.4,兴趣区域头部网络预测最终的分类结果和边界框回归结果;

步骤3.2.5,伪标签动态选取组件选取具有正确伪标签的目标域目标类别样本;

步骤3.2.6,类别语义匹配组件对齐源域和目标域目标类别的分布;

步骤3.2.7,优化器获取域自适应目标检测模型的损失并进行优化;域自适应目标检测模型的损失

其中,λ

进一步的改进,所述步骤4包括如下步骤:

步骤4.1,主干网络G提取目标域无标签图像

步骤4.2,区域生成网络生成候选区域;

步骤4.3,兴趣区域头部网络预测最终的分类结果和边界框回归结果;

步骤4.4,对目标检测模型的预测结果进行后处理,所述后处理包括预测框缩放、预测框绘制、类别信息标注、预测概率标注。

一种上述考虑类别语义匹配的域自适应目标检测方法的系统,包括图像存储模块、预训练模块、再训练模块和检测模块;

图像存储模块用于保存有多种用于目标检测研究的公开数据集,所述用于目标检测研究的公开数据集包含预设场景下的图像以及对应的标签;此外,图像存储模块还用于保存采集得到的待检测场景的图像;

所述预训练模块由域自适应目标检测模型由基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件组合而成;当输入的数据只包含源域带标签图像时,预训练模块使用源域带标签图像对基础目标检测器进行训练,获得经过预训练的基础目标检测器的权重;

当输入的数据包含源域和目标域无标签图像时,所述再训练模块使用经过预训练的基础目标检测器的权重对域自适应目标检测模型进行初始化,使用源域和目标域无标签图像对域自适应目标检测模型进行训练,基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件都参与训练,由此获得经过训练的域自适应目标检测模型的权重;

当输入的数据只包含目标域无标签图像时,所述检测模块使用经过训练的域自适应目标检测模型的权重对基础目标检测器进行初始化,对目标域无标签图像进行检测,绘制包含目标的预测框并标注对应的类别信息和预测概率。

本发明的优点:

(1)本发明提供的考虑类别语义匹配的域自适应目标检测方法及系统,除了从宏观层面对齐图像级表示以保证全局特征的域不变性之外,还从类别层面对齐目标类别分布以保证类别特征的可判别性。本发明从跨域角度获取目标类别与对应类别中心点特征表示之间的相似性概率分布,通过最小化相似性概率分布的熵,对两域的类别语义进行匹配,保持了两域目标类别语义的一致性。

(2)本发明提供的考虑类别语义匹配的域自适应目标检测方法及系统,在使用源域已有标签和目标域伪标签进行类别语义匹配之前,通过为相似性分数设置随训练过程动态变化的阈值,合理地完成易分类目标类别样本的选取,避免因阈值无法适应易分类样本的增长速率而造成选取的易分类样本中混入错误伪标签的情况,从而潜在地降低伪标签噪声的影响,为跨域目标类别语义匹配提供质量保障。

附图说明

图1为本发明实施例1提供的一种考虑类别语义匹配的域自适应目标检测方法的流程示意图。

图2为本发明实施例1步骤1的具体流程示意图。

图3为本发明实施例1步骤2的具体流程示意图。

图4为本发明实施例1步骤3的具体流程示意图。

图5为本发明实施例1提供的一种考虑类别语义匹配的域自适应目标检测方法的模型框架图。

图6为本发明实施例1提供的特征空间中源域和目标域样本分布的示意图。

图7为本发明实施例1提供的类别空间中源域和目标域目标类别样本分布的示意图。

图8为本发明实施例1步骤4的具体流程示意图。

图9为本发明实施例2提供的一种考虑类别语义匹配的域自适应目标检测系统的结构原理图。

具体实施方式

以下结合附图及实施例对本发明做进一步说明。

实施例1:

步骤1,获取源域带标签图像和目标域无标签图像。

步骤2,使用源域带标签图像训练基础目标检测器。

步骤3,在基础目标检测器上增加域自适应组件,使用源域和目标域图像训练域自适应目标检测模型。

步骤4,移除先前增加的域自适应组件,使用自适应后的基础目标检测器对目标域场景进行目标检测。

进一步的,将步骤1中获取源域带标签图像和目标域无标签图像分为以下几个步骤,如图2所示,其具体表述为:

步骤1.1,获取目标域无标签图像。根据实际应用需求,采集待检测场景的图像,使用采集得到的图像创建数据集,以此为目标域。由于这些图像未经过任何标注,因此目标域图像均不带标签。

步骤1.2,获取源域带标签图像。由于目标检测领域已公开多种用于目标检测研究的数据集,因此可以针对目标域待检测目标的类别,选取与目标检测任务相关的公开数据集作为源域,所有源域图像均带有标签。

方便起见,将带标签的源域记为

进一步的,将步骤2中使用源域带标签图像训练基础目标检测器分为以下几个步骤,如图3所示,其具体表述为:

步骤2.1,主干网络G提取源域图像

步骤2.2,区域生成网络(Region Proposal Network,RPN)生成可能包含目标的候选区域。先使用3×3滑动窗口对特征图进行卷积运算,再经过两个1×1卷积层分别预测特征图在当前窗口位置上的前景概率和边界框回归参数。通过先验框模板来生成特征图对应原始图像上的所有先验框。将预测的边界框回归参数应用到先验框上以获得候选框,移除小于指定尺寸的候选框后,再经过非极大值抑制(Non-Maximum Suppression,NMS)处理,最后根据预测的前景概率保留前2000个候选框。RPN的损失

步骤2.3,兴趣区域头部网络(Region of Interest Head,RoI Head)预测最终的分类结果和边界框回归结果。不同尺寸大小的候选区域经过兴趣区域对齐(Region ofInterest Align,RoI Align)后都将转变成维度固定的特征向量,随后经过两个全连接层分别进行目标类别概率预测和边界框回归参数预测。RoI Head的损失

步骤2.4,优化器获取基础目标检测器的损失并对其进行优化。基础目标检测器的损失

进一步的,将步骤3中在基础目标检测器上增加域自适应组件,使用源域和目标域图像训练域自适应目标检测模型分为以下几个步骤,如图4所示,其具体表述为:

步骤3.1,在基础目标检测器上增加域自适应组件。

步骤3.2,使用源域和目标域图像训练域自适应目标检测模型。

进一步的,将步骤3.1中在基础目标检测器上增加域自适应组件(如图5所示)分为以下几个步骤,其具体表述为:

步骤3.1.1,增加全局特征判别组件。图像级表示包含有图像风格、图像尺度、照明条件等丰富的全局信息,为减轻由图像宏观层面差异引起的域漂移问题,首先考虑从全局角度对齐图像级的特征表示。在主干网络G的输出位置构建域判别器D,域判别器D的作用是区分主干网络G输出的特征图来自源域还是目标域。为了促使源域和目标域全局特征的混淆,在主干网络G和域判别器D之间引入梯度反转层(gradient reverse layer,GRL)。梯度反转层能够在反向传播时对梯度符号取反,实现主干网络G和域判别器D的对抗训练,从而对齐源域和目标域的全局特征。

如图6所示,在特征空间中,易分类的样本远离域判别器D的决策边界,而难分类的样本靠近域判别器D的决策边界。如果直接使用交叉熵损失(Cross-Entropy Loss,CEL)作为域判别器D的优化目标,那么由于该损失对两种样本的惩罚力度相当,因此在训练过程中域判别器D无法聚焦于难分类样本,进而造成难分类样本没有得到充分的挖掘。本发明采用焦点损失(Focal Loss,FL),通过对难分类的样本施加较大的权重,对易分类的样本施加较小的权重,使得域判别器D在训练过程中能够更加关注难分类样本。公式(2)为使用焦点损失计算域判别器D对源域样本的分类损失

其中,κ为聚焦参数,用来控制对难分类样本施加的权重。

步骤3.1.2,增加伪标签动态选取组件。全局特征判别组件只是从宏观层面对齐图像级的特征表示,并未考虑类别空间中源域和目标域类别语义的匹配情况。为进一步促进目标检测模型性能的提升,需要匹配源域和目标域目标类别的语义信息,而在此之前,需要对后续使用到的目标域伪标签进行恰当的选取。

由于目标域图像缺少标签信息,因此直接对齐两域的类别分布存在较大的困难。为保证源域和目标域每个类别的语义得到合适的匹配,可以使用步骤2中预训练得到基础目标检测器为目标域所有无标签图像赋予伪标签。如图7所示,在类别空间中,易分类的目标域类别样本远离分类器的决策边界,而难分类的目标域类别样本靠近分类器的决策边界。在易分类的目标域类别样本中,有些类别样本的伪标签虽然具有较高的置信度,但实际上是被分类器错误分类的,也就是说这种目标域类别样本的伪标签存在错误。直接想法是根据分类器预测得到的置信度对伪标签进行过滤,由于最优阈值往往难以把控,因此过滤后得到的伪标签仍普遍存在噪声,错误的伪标签将在目标类别对齐过程中引入错误的信息,进而导致训练过程中误差的累积。

基于源域图像边界框标签b以及对应的类别标签c,根据公式(5),使用所有属于类别c的源域目标类别样本计算对应类别的中心点特征表示

其中,S

使用步骤2中预训练得到基础目标检测器为目标域所有无标签图像赋予伪标签,伪标签包括边界框伪标签以及对应的类别伪标签。根据公式(6),计算伪标签下第j个目标域目标类别样本

其中,cos()为余弦相似度。

在训练过程中,嵌入空间中的源域目标类别样本与目标域目标类别样本之间的距离不断缩短,目标域目标类别样本与所有源域目标类别中心点特征表示之间的相似性分数σ持续增加。在训练初期被视为难分类的目标类别样本随训练过程的推进将会逐渐过渡为易分类的目标类别样本。为选取具有正确伪标签的目标类别样本,可以为相似性分数σ设置固定的阈值τ进行易分类的目标类别样本的选取。由于训练过程中会有越来越多难分类的目标类别样本转变为易分类的目标类别样本,固定的阈值τ无法适应易分类样本的增长速率而造成选取的易分类样本中混入错误伪标签样本。

根据公式(7)在训练过程中对阈值τ进行动态调整。对于

其中,α和β为常数;n为当前遍历次数,n={1,2,…,max_epoch}。

步骤3.1.3,增加类别语义匹配组件。在选取具有正确伪标签的目标类别样本后,需要匹配源域和目标域特定类别的语义信息,在类别空间中对齐源域和目标域目标类别的分布,从而增强目标类别特征的可判别性。

基于选取后的目标域目标类别样本,根据公式(8),使用所有属于类别c'的目标域目标类别样本计算对应类别的中心点特征表示

其中,

然而,由于目标检测模型的训练采用小批量SGD算法,每个批次中的样本量通常较少,这就容易导致同一批次的类别信息不充分。例如,在相同的批次中,源域只有属于A类的目标类别样本,而目标域出现了属于B类的目标类别样本,目标域B类样本在当前批次就无法与源域对应的类别样本得到合适的匹配。

为克服上述困难,使用指数加权平均策略对源域和目标域的所有目标类别在嵌入空间中的中心点特征表示进行动态更新。当对源域目标类别中心点特征表示进行更新时,基于属于类别c的所有源域目标类别样本集合S

其中,iter为当前遍历次数中的迭代次数,iter={1,2,…,max_iter}。

当对目标域目标类别中心点特征表示进行更新时,基于经过选取的属于类别c'的所有目标域目标类别样本集合

为合理匹配源域和目标域的目标类别语义,对不同域的目标类别与对应目标类别中心点特征表示之间进行双向对齐。当进行源域目标类别样本与目标域对应的目标类别中心点特征表示的单向对齐时,给定源域目标类别样本

其中,d()表示距离函数,具体为欧氏距离的平方;γ为温度参数,用来控制相似性概率分布集中或分散程度。

当进行目标域目标类别样本与源域对应的目标类别中心点特征表示的单向对齐时,给定目标域目标类别样本

根据公式(15)和公式(16),分别计算相似性概率分布

根据公式(17),将双向对齐得到的相似性概率分布的熵作为跨域目标类别语义匹配的损失。

进一步的,将步骤3.2中使用源域和目标域图像训练域自适应目标检测模型分为以下几个步骤,其具体表述为:

步骤3.2.1,主干网络G提取源域图像

步骤3.2.2,全局特征判别组件判断步骤3.2.1中特征图的来源。

步骤3.2.3,区域生成网络生成可能包含目标的候选区域。具体过程与步骤2.2相同。

步骤3.2.4,兴趣区域头部网络预测最终的分类结果和边界框回归结果。具体过程与步骤2.3相同。

步骤3.2.5,伪标签动态选取组件选取具有正确伪标签的目标域目标类别样本。

步骤3.2.6,类别语义匹配组件对齐源域和目标域目标类别的分布。

步骤3.2.7,优化器获取域自适应目标检测模型的损失并对其进行优化。域自适应目标检测模型的损失

其中,λ

进一步的,将步骤4中移除先前增加的域自适应组件,使用自适应后的基础目标检测器对目标域场景进行目标检测分为以下几个步骤,如图8所示,其具体表述为:

步骤4.1,主干网络G提取目标域图像

步骤4.2,区域生成网络生成可能包含目标的候选区域。具体过程与步骤2.2相同,但不计算RPN的损失

步骤4.3,兴趣区域头部网络预测最终的分类结果和边界框回归结果。具体过程与步骤2.3相同,但不计算RoI Head的损失

步骤4.4,对目标检测模型的预测结果进行后处理,包括预测框缩放、预测框绘制、类别信息标注、预测概率标注。

实施例2:

本发明还提供了一种考虑类别语义匹配的域自适应目标检测系统,如图9所示,该系统包括:

模块1,图像存储模块。图像存储模块保存有多种用于目标检测研究的公开数据集,这些数据集包含特定场景下的图像以及对应的标签。此外,图像存储模块还保存有采集得到的待检测场景的图像。根据实际应用需求,可以选择其中一种公开数据集作为源域,而将采集得到的图像作为目标域。

模块2,预训练模块。域自适应目标检测模型由基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件组合而成。当输入的数据只包含源域图像时,预训练模块使用源域图像对基础目标检测器进行训练,全局特征判别组件、伪标签动态选取组件、类别语义匹配组件不参与训练,由此获得经过预训练的基础目标检测器的权重。

模块3,再训练模块。当输入的数据包含源域和目标域图像时,再训练模块使用经过预训练的基础目标检测器的权重对域自适应目标检测模型进行初始化,使用源域和目标域图像对域自适应目标检测模型进行训练,基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件都参与训练,由此获得经过训练的域自适应目标检测模型的权重。

模块4,检测模块。当输入的数据只包含目标域图像时,检测模块使用经过训练的域自适应目标检测模型的权重对基础目标检测器进行初始化,对目标域图像进行检测,绘制包含目标的预测框并标注对应的类别信息和预测概率。在检测过程中,目标域图像只会经过基础目标检测器,并不会经过全局特征判别组件、伪标签动态选取组件、类别语义匹配组件。

尽管本发明的实施方案已公开如上,但并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里所示出与描述的图例。

相关技术
  • 一种考虑类别语义匹配的域自适应目标检测方法及系统
  • 基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质
技术分类

06120113791735