掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多特征损失函数融合的目标标注方法及系统

文献发布时间:2024-01-17 01:28:27


一种基于多特征损失函数融合的目标标注方法及系统

技术领域

本发明涉及图像处理以及智能信息提取技术领域,尤其涉及一种基于多特征损失函数融合的目标标注方法及系统。

背景技术

随着传统农业与人工智能技术相结合,智慧果园的建设在果业发展中得到了更为广泛的关注,其中高精度果实检测技术是现代化智慧果园实际应用工作中的重要基础技术,在果实定位、果实分拣、果实产量预测、果实自动采摘等众多智慧果园智能化工作中有着广泛的应用价值。目标标注的通用方法以及在智慧果园上的应用越来越重要。

一方面,现阶段的目标检测技术大多采用深度学习的方法,需要依赖大量已标注数据集支撑深度学习模型的训练学习。因此需要人工对大量样本图像进行标注以便训练图像标注模型,耗费人力和时间,导致图像标注效率较低,进而导致图像检测模型的训练效率较低。因此,虽然现阶段基于深度学习的目标检测技术得到了广泛的应用,但是需要依赖大量已标注数据集才能支撑检测模型的训练学习,造成人工标注成本增高。

第二方面,真实场景中的果树分布密集,果实长势不规律,尺度小且遮挡严重,从而导致场景环境多样性很强。而由于现阶段深度学习模型泛化性能差的原因,研究人员需要针对不同场景环境和不同种类的果实制作新的果实数据集,导致数据集的标注工作的难度大大提升,更为费时费力。

第三方面,在选取最适合的源域数据时,由于有的聚类中只有一种目标,有时候可能无法选取到最适合的源域。由于原始CycleGAN网络只能训练生成器达到重新着色的效果,较难对形状以及纹理等特征进行精准描述,也就缺少真实目标图像的形状纹理特征信息进行网络的拟合训练。

目前的技术方向包括:(1)引入实例级损失约束从而更好地规范图像中前景目标的生成方向,但此类做法引入了额外的人工标注过程,并不适用于基于无监督学习的果实自动标注任务;(2)采用一种跨循环比较路径的果实转换模型Across-CycleGAN,通过引入结构相似性损失函数从而实现了圆形果实到椭圆形果实的转换;然而目标自动标注方法的泛化性不高,无法实现特征差异大尤其是形状存在很大差异目标域目标的自动标注任务。

因此对于如何建立一种泛化性更高、域适应性更强的目标数据集的自动标注方法,同时能够对生成模型进行优化,从而在形状颜色纹理变化很大时,能够实现逼真地转换,实现域差异的减小具有迫切的需求。

发明内容

为了解决现有技术中存在的问题,本发明提供了一种基于多特征损失函数融合的目标标注方法及系统,进一步提高无监督果实转换模型性能,增强算法对于果实表型特征的描述能力,从而控制模型在表型特征差异大的跨越式果实图像转换任务中能够精准控制果实生成方向。

本发明第一方面提供了一种基于多特征损失函数融合的目标标注方法,其中所述方法用于多个类别的目标标注任务,所述多特征损失函数为基于熵权法的多维损失函数,所述基于熵权法的多维损失函数分别用于约束目标转换模型训练过程中多个类别的所述目标的颜色、形状以及纹理的生成方向,包括:

S1,获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;

S2,将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;

S3,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;

S4,将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。

优选的,所述S2包括:

S21,利用预训练特征提取网络或预训练特征编码网络作为编码器挖掘目标图像的潜在空间;

S22,利用反向导向特征可视化映射作为解码器突出目标图像中的目标特征的解空间表示,从而利用无监督的方式发现目标图像中的潜在特征;

S23,基于所述潜在特征提取基于潜在空间的特征图。

优选的,所述编码器为序列化网络VGG16,所述S21包括:从VGG16最后一层的深层卷积层输出图像的矢量化表示提取其高级语义信息,所述矢量化表示为矢量值y;并将所述矢量值y利用潜在编码z进行特征解耦;

所述S22包括:通过解码器进行特征图映射,得到深层卷积层中各特征的梯度信息y',梯度信息y'表示为卷积层中每个通道对于y的贡献,贡献越大表示该通道越重要,针对特征层Conv中c个通道的权重占比记作weight

所述S23包括:进行反向传播,通过ReLU激活函数并加权求和计算图像的激活梯度,对y'在特征图的宽和高求均值进行归一化获得每个通道的重要程度,最大化激活目标中高级语义特征图像,获得空间解耦后各类目标图像的形状纹理特征图FeatureMap,计算过程为:

其中weight

优选的,所述S3包括:

S31,由多维损失函数监督目标转换模型的生成器,所述多维损失函数包含三类损失函数,分别为颜色特征损失函数L

S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后获得基于熵权法的多维损失函数;

S33,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由配平权重后的基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集。

优选的,所述S31中,所述颜色特征损失函数为CycleGAN网络中循环一致损失函数及自映射损失函数;所述颜色特征损失函数表示为:

L

所述循环一致损失表示为:

I

所述自映射损失函数表示为:

L

其中G

所述形状特征损失函数为基于多尺度结构相似性指数MS-SSIM,所述形状特征损失函数表示为:

L

其中MS_SSIM表示基于多尺度结构相似性指数损失计算;

所述纹理特征损失函数为基于局部二值模式(LBP)描述子的纹理特征损失函数,所述纹理特征损失函数表示为:

L

LBP(X,Y)=N(LBP(x

其中Pearson表示利用皮尔森相关系数计算目标纹理特征间的差异性大小,N表示遍历整幅图像中所有的像素值,x

优选的,所述S32包括:

(1)依次计算源域和目标域中第i个目标的形状、颜色以及纹理特征的可量化描述子数值,并对其进行归一化处理,归一化后的第i个目标的形状、颜色以及纹理特征分别记作S

(2)计算每个目标在不同特征值下的比重P

其中,P

(3)计算一组数据的信息熵如公式(13)所示:

(4)根据信息熵的计算公式得到各个指标的权重如公式(14)所示:

(5)基于熵权法的多维损失函数的整体损失函数L

L

+W

其中G

优选的,所述方法还包括:获取所述单一类别最佳源域无背景目标图像中的所述最佳源域,其中所述最佳源域的获取方式包括:

从多类别的目标前景图像中分别提取每种类别的目标的外观特征;

将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同的目标特征计算特定形状、颜色和纹理的相对距离作为不同目标的外观特征的分析描述集;

基于对分析描述集进行多维特征空间重构和特征差异划分构建不同类别描述模型,并从中选取单一类别最佳源域目标图像;

基于所述单一类别描述模型获得目标的最佳源域,包括:基于所述单一类别描述模型对不同的目标按照所述外观特征进行分类;针对实际需求的目标域种类,从所述分类中选择最佳源域目标图像。

发明第二方面提供了一种基于多维空间特征模型最佳源域的目标标注系统,包括:

第一图像获取模块,用于获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始RGB图像表征;

特征图提取模块,用于将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;

第二图像获取模块,用于将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;

目标标注模块,用于将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。

本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。

本发明提供的基于多维空间特征模型最佳源域的目标标注方法、系统、电子设备以及计算机可读存储介质,具有如下有益的技术效果:

建立一种泛化性更高、域适应性更强,而且能够满足不同类别果实数据集的自动标注方法;能够自动获得目标域目标的标签,从而应用到下游的智慧农业项目中;并且大大减少了人工标注目标框时所产生的金钱成本和时间成本(相比现有技术中单个场景数据集标注中,市场上平均0.2元/标注框,每张图像平均30颗果实,每张图像平均耗费3分钟标注时间,每个数据集至少包含10000张图像)。

附图说明

图1为本发明所述的Guided-GAN整体网络架构图。

图2为本发明所述的基于潜在空间的多维表型特征提取方法流程图。

图3为本发明所述的Guided-GAN模型中多维损失函数示意图。

图4为本发明所述的基于多特征损失函数融合的目标标注方法流程图。

图5为本发明所述的基于多特征损失函数融合的目标标注系统架构图。

图6为本发明所述电子设备结构示意图。

具体实施方式

为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

实施例一

参见图4,本实施例提供了一种基于多特征损失函数融合的目标标注方法,其中所述目标具有多个类别,所述多特征损失函数为基于熵权法的多维损失函数,所述基于熵权法的多维损失函数分别用于约束目标转换模型训练过程中多个类别的所述目标的颜色、形状以及纹理的生成方向,包括:S1,获取单一类别最佳源域无背景目标图像;本实施例中,单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;S2,将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;为了有效提取不同类别果实的多维表型特征,提高无监督网络模型的特征学习能力,使得转换得到的目标域果实图像更为逼真,本发明提出了一种基于潜在空间的多维表型特征提取方法,参见图1中序号②部分。利用潜在空间解耦的方式将所需目标特征从原始图像中进行分离,并输入到网络模型中进行训练,该方法实现流程如图2所示。

现阶段无监督学习由于使用未标注数据来进行训练和学习,因此网络难以提取重要的语义特征,导致无监督学习方法的目标特征表征能力较差。随着潜在空间技术在越来越多的领域中展现出强大的潜力,将其应用于生成网络中提取不同域中目标的重要特征可以进一步提高网络性能,从而实现一些更为复杂的任务。目前该方法在人脸图像的转换任务中应用较为广泛,Shen等人提出了一个InterFaceGAN框架来解释现有GAN模型所学习到的解纠缠人脸表征信息,并研究潜在空间中编码的人脸语义的性质,从而实现不同姿态下人脸图像的逼真转换;Sainburg等人提出了一种基于自动编码器(AE)和GAN生成网络结构,通过在潜在空间插值上进行对抗训练来促进凸潜在分布,从而控制目标中不同的属性达到人脸图像中更细致的变化。然而在大部分的目标自动标注领域,需要更多的关注目标的多维表型特征,通过潜在空间将目标的特征分解为多个可解释的属性,用于更好的提取形状和纹理特征。

作为优选的实施方式,所述S2包括:S21,利用预训练特征提取网络或预训练特征编码网络作为编码器挖掘目标图像的潜在空间;S22,利用反向导向特征可视化映射作为解码器突出目标图像中的目标特征的解空间表示,从而利用无监督的方式发现目标图像中的潜在特征;S23,基于所述潜在特征提取基于潜在空间的特征图。

由于原始CycleGAN网络只能训练生成器达到重新着色的效果,较难对形状以及纹理等特征进行精准描述,也就缺少真实目标(本实施例为果实)图像的形状纹理特征信息进行网络的拟合训练,因此本实施例中的所述基于潜在空间的特征图优选为形状纹理特征图,当然本领域技术人员也可以选择将基于潜在空间的特征图优选为颜色形状纹理均包含的全特征图。

本实施例中,在主干网络的选择方面,考虑到编码器要与解码器构造相对应,本实施例使用序列化网络VGG16作为编码器。为了更好地解耦图像形状纹理语义特征,本实施例从VGG16最后一层的深层卷积层输出图像的矢量化表示提取其高级语义信息,所述矢量化表示为矢量值y;并将所述矢量值y利用潜在编码z进行特征解耦,并通过解码器进行特征图映射,得到深层卷积层中各特征的梯度信息y',所述梯度信息y'表示为卷积层中每个通道对于y的贡献,贡献越大表示该通道越重要,每个通道的贡献值记作weight

其中weight

S3,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集。本实施例中,S3的实施是为了更精准地描述特征差异大的目标(本实施例为果实)的表型特征,解决损失函数功能单一性的问题,本发明提出了一种基于熵权法的多维损失函数,参见图1中序号③部分。在果实图像转换模型中更好地控制多维特征的生成方向,最终达到在特征差异大的跨越式果实转换任务中仍能取得较好的效果。

如前所述,由于原始CycleGAN网络只能训练生成器达到重新着色的效果,较难对形状以及纹理等特征进行精准描述,也就缺少真实果实图像的形状纹理特征信息进行网络的拟合训练;现有技术可能会通过引入实例级损失约束从而更好地规范图像中前景目标的生成方向,但此类做法由于引入了额外的人工标注过程,并不适用于基于无监督学习的果实自动标注任务;也有一种跨循环比较路径的果实转换模型Across-CycleGAN,通过引入结构相似性损失函数从而实现了圆形目标到椭圆形目标的转换,应用于例如果实标注的场景下,而为了更好地提高果实自动标注方法的泛化性,从而实现更多种类目标域果实的自动标注任务,需要进一步提高无监督果实转换模型性能,增强算法对于果实表型特征的描述能力,从而控制模型在表型特征差异大的跨越式果实图像转换任务中能够精准控制果实生成方向。

基于此,本发明实施例使用多维损失函数分别用于约束果实转换模型训练过程中果实的颜色、形状以及纹理的生成方向。该模型的生成器中多维损失函数设计示意图如图3所示,本发明实施例利用两个生成器和两个鉴别器分别构建了A和B两个循环训练结构,同时结合循环内训练(如图3内循环箭头方向)以及跨循环训练(如图3垂直双向箭头方向)两种损失函数比较方案分别对颜色、形状以及纹理特征进行精准描述。

作为优选的实施方式,所述S3包括:S31,由多维损失函数监督目标转换模型的生成器,所述多维损失函数包含三类损失函数,分别为L

如图3所示,区域Domain Cycle A和Domain Cycle B为源域到目标域以及目标域到源域的两个域循环方向,用于控制目标(本实施例为果实)的颜色特征的生成;区域Across Cycle表示跨循环损失函数比较路径,在网络不同域循环训练过程中,采用真实目标(本实施例为果实)的图像特征信息训练拟合网络生成仿真果实图像数据,帮助模型更好的学习和约束形状及纹理特征的生成。

本实施例中:

(1)对于颜色特征损失函数:本实施例采用CycleGAN网络中循环一致损失函数及自映射损失函数,着色效果可以帮助目标转换模型更好的控制颜色特征的生成,其中,所述颜色特征损失函数表示为:

L

循环一致损失表示为:

L

自映射损失函数表示为:

L

其中,s、G

(2)对于形状特征损失函数:本实施例采用基于多尺度结构相似性指数MS-SSIM,利用不同尺寸卷积核调整图像感受野大小并统计图像在不同尺度条件下相应区域的形状结构特征信息,从而有效区分不同类别果实图像的几何差异,训练模型更好适应不同类别目标(本实施例为果实)之间形状特征的差异变化。本实施例利用跨循环的比较方式,将原始图像与另一个循环中转换后的图像进行比较,从而更好地约束目标(本实施例为果实)形状特征的生成过程,形状特征损失函数表示为:

L

其中MS_SSIM表示基于多尺度结构相似性指数损失计算。

(3)对于纹理特征损失函数:以果实作为目标进行目标标注的场景,由于果实图像中的纹理特征过于细节,如果只从原RGB图像中进行损失函数的比较无法充分表达纹理特征;而且数据集中果实的分辨率更小,纹理特征更加无法很好的表现出来,为图像转换模型增加了一定的难度。因此本实施例设计一种基于局部二值模式(LBP)描述子的纹理特征损失函数,使其更能凸显目标质地以及其规则性排列的纹理损失计算方法,精准描述其纹理特征,更好地发挥出图像转换模型的性能。纹理特征损失函数表示为:

L

LBP(X,Y)=N(LBP(x

其中Pearson表示利用皮尔森相关系数计算目标(本实施例中为果实)纹理特征间的差异性大小,N表示遍历整幅图像中所有的像素值,x

在没有成对监督信息约束的情况下两个图像域的分布是高度离散无规律的,而本文通过设计使用多维损失函数分别用于约束果实转换模型训练过程中果实的颜色、形状以及纹理等视觉属性的生成方向,可以更加精准的描述果实转换过程中的多维表型特征。

S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后获得基于熵权法的多维损失函数。

步骤S31中,添加多维特征损失函数用于精准描述训练过程中目标(本实施例为果实)的特征,然而在生成对抗网络训练过程中,总损失值由各个维度的损失函数的损失值相加得到,所以各个损失函数的损失值进行相加时的权重影响着网络模型效果,如果权重设置不合理会导致训练阶段模型无法正常拟合,从而失去描述目标特征的生成方向。因此,为了平衡本发明实施例中所添加的多维损失函数,使其能够稳定收敛,精准描述多维果实表型特征,本发明实施例引入了基于可量化目标(本实施例为果实)表型特征的动态自适应权重方法,用于配平多维损失函数的权重。所述S32的具体流程如下:

(1)依次计算源域和目标域中第i个目标(本实施例为果实)的形状、颜色以及纹理特征的可量化描述子数值,并对其进行归一化处理,归一化后的第i个目标的形状、颜色以及纹理特征分别记作S

(2)计算每个目标(本实施例为果实)样本在不同特征值标下的比重P

其中,P

(3)根据信息论中信息熵的定义,不同目标(本实施例为果实)样本的描述子差异值越大,在训练GAN模型中可以提供的信息量也就越多,因此需要在模型训练过程中为其分配更多的权重。此时计算一组数据的信息熵如公式(13)所示:

(4)根据信息熵的计算公式得到各个指标的权重如公式(14)所示:

模型生成器生成的基于熵权法的多维损失函数的整体损失函数L

L

+W

其中G

在果实标注应用场景下,在进行两类果实间转换时,直接比较两类果实所有样本的形状、颜色以及纹理描述子的差异性大小,自动计算其果实之间的差异性具体数值,并动态调整每一次训练时多维损失函数的权重比例W

S33,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由配平权重后的基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集。

S4,将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。

本实施例中,单一类别最佳源域无背景目标图像为单一类别最佳源域无背景果实图像。

作为优选的实施方式,所述单一类别最佳源域无背景目标图像均可以为计算机设备预先存储的图像,或者由计算机设备从其他设备中下载的图像,或者由其他设备上传至计算机设备中的图像,或者为该计算机设备当前采集到的图像。

作为优选的实施方式,所述方法还包括:获取所述单一类别最佳源域无背景目标图像中的所述最佳源域,其中所述最佳源域的获取方式包括:从多类别的目标前景图像中分别提取每种类别的目标的外观特征;将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同的目标特征计算特定形状、颜色和纹理的相对距离作为不同目标的外观特征的分析描述集;基于对分析描述集进行多维特征空间重构和特征差异划分构建不同类别描述模型,并从中选取单一类别最佳源域目标图像;基于所述单一类别描述模型获得目标的最佳源域。

作为优选的实施方式,所述基于所述单一类别描述模型获得目标的最佳源域包括:基于所述单一类别描述模型对不同的目标按照所述外观特征进行分类;针对实际需求的目标域种类,从所述分类中选择最佳源域目标图像。

实施例二

参见图5,本实施例提供了一种基于多维空间特征模型最佳源域的目标标注系统,包括:第一图像获取模块101,用于获取单一类别最佳源域无背景目标图像;本实施例中,单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;特征图提取模块102,用于将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;第二图像获取模块103,用于将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;目标标注模块104,用于将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。

本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。

如图6所示,本发明还提供了一种电子设备,包括处理器301和与所述处理器301连接的存储器302,所述存储器302存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种基于智能合约的数据标注众包平台系统及众包数据标注方法
  • 一种基于标注帧特征融合的长视频目标跟踪方法及系统
  • 一种基于目标检测和特征融合的目标跟踪方法及系统
技术分类

06120116231002