掌桥专利:专业的专利平台
掌桥专利
首页

一种目标定位和提取方法、装置及计算机可读存储介质

文献发布时间:2023-06-19 19:28:50


一种目标定位和提取方法、装置及计算机可读存储介质

技术领域

本发明属于海洋遥感与人工智能交叉领域,具体涉及一种目标定位和提取方法、装置及计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着海洋运输、石油开发等行业对海洋的开发和利用,海洋地位逐渐上升,然而,频繁的海上活动增加了海洋溢油出现的概率,海洋溢油危害巨大,一旦发生会对海洋生态环境造成难以估计的破坏。卫星遥感因具有覆盖范围广、时效性强等优势而被广泛应用于海洋溢油监测。目前,进行溢油监测的卫星主要为光学卫星和合成孔径雷达(SyntheticAperture Radar,SAR)卫星。相比于光学卫星而言,SAR卫星能够穿透云雾,不受恶劣天气的影响,更有利于在复杂多变的海洋环境下进行海洋溢油监测。

一方面,国内外已经开展了许多关于SAR溢油检测的研究,然而大都使用的是纹理、几何等非极化特征的传统特征提取方法,由于SAR卫星特殊的成像机理,引起的相干斑噪声和“类油膜”影响了溢油检测的精度,传统的非极化特征难以有效表达溢油区域与非溢油区域,并且传统方法仅依赖一种图像特征进行识别,无法使用多特征,单一的特征难以有效且精确地区分溢油区域与非溢油区域。

另一方面,SAR溢油检测与常规的人像或车辆等目标检测不同,常规的人像或车辆等目标检测由于其目标有特定的形状结构,使用定位框就能轻易地且完备地标记出识别区域,但是溢油区域通常只占待检测区域的小部分,大范围的边界框往往只会包含小部分的溢油区域,溢油区域通常是不规则的,呈现出非高斯正态分布的现象,与常规的人像或车辆图像中的目标分布及其不同,因此常规的人像或车辆等目标检测方法不能用于SAR溢油检测中。

再一方面,发明人在研究过程中发现仅通过溢油的定位结果来表述溢油区域并不完备,现有的方法并不能综合利用多特征影像的空间信息和语义信息,在进一步训练过程中发现,由于溢油区域不规则的怪异形状,在网络收敛后,该网络并不能很好的识别目标物体,即网络很难真正拟合目标,为此,发明人提出了一种综合利用多特征影像的空间信息和语义信息的目标定位和提取方法,并且将定位和分割结果进一步进行语义补全,进一步引入损失,以更好地拟合溢油区域,不仅进一步提高了溢油检测的精度,还将定位与语义分割有效融合,进一步提高定位的精度。

发明内容

针对上述现有技术中存在的问题,提出了一种目标定位和提取方法、装置及计算机可读存储介质,利用这种方法、装置及计算机可读存储介质,能够至少解决上述部分或全部问题。

本发明提供了一种目标定位和提取方法,并提供了以下方案内容。

在一实施例中,在进行深度神经网络训练的过程中,其特征在于,获取多特征SAR影像;

采用多层主干特征神经网络对所述SAR影像进行特征提取,前一层网络的输出依次作为深一层网络的输入,通过所述第一层级网络得到第一层级影像特征及通过所述第二层级网络得到第二层级影像特征,所述主干特征网络由第一层级网络和第二层级网络组成,所述第一层级影像特征和所述第二层级影像特征分别都包含多层网络输出的特征;

通过特征融合网络对所述第二层级影像特征进行特征融合,获得至少一个特征融合结果,将至少一个所述特征融合结果作为定位头神经网络的输入,确定所述定位头神经网络的第一预测结果和第一损失函数值,所述第一预测结果包含类别值、置信度和定位框;

以及将第一层级影像特征与至少一个特征融合结果进行融合,得到至少一个第二融合结果,将至少一个所述第二融合结果作为语义分割神经网络的输入,确定所述语义分割神经网络的第二预测结果和第二损失函数值;

基于所述第一损失函数值及所述第二损失函数值至少一者反向传播对所述多层主干特征神经网络、所述特征融合神经网络、所述定位头神经网络及所述语义分割神经网络中的至少一者进行调整;

直到整个深度神经网络收敛,根据第一预测结果和第二分割结果定位和提取出SAR影像中的目标区域。

在一实施例中,所述方法还包括:

将所述第一预测结果的定位框与所述第二预测结果进行结合,得到第三融合结果;

将第三融合结果与多特征影像中的至少一个一起输入分水岭算法处理后进行语义补全,获得补全结果;

基于所述补全结果确定第三损失函数值;

所述基于所述第一损失函数值、所述第二损失函数值至少一者反向传播对所述多层主干特征神经网络、特征融合神经网络、所述定位头神经网络及所述语义分割神经网络中的至少一者进行调整,包括:

基于所述第一损失函数值、所述第二损失函数值及所述第三损失函数值用于反向传播对所述多层主干特征神经网络、特征融合神经网络、所述定位头神经网络及所述语义分割神经网络中的至少一者进行调整。

在一实施例中,在所述获取多特征SAR影像之前包括:

对SAR数据进行预处理,分别基于地距多视影像和单视复数影像提取非极化特征影像和极化特征影像;

所述非极化特征影像包括强度图、阻尼比图;

所述极化特征包括熵图、散射角各向异性度图、平均极化散射角图;

将上述非极化特征和极化特征组成五通道的数组,构成多特征SAR影像。

在一实施例中,所述方法还包括以下步骤:

第一步,遥感图像预处理。对SAR数据进行热噪声去除、辐射定标、相干斑滤波、地形校正和多视处理。

1.1)热噪声去除。降低热噪声对雷达后向散射信号精度的影响。

1.2)辐射定标。消除传感器本身的误差,获取更加真实地实际物理量。

1.3)相干斑滤波。在SAR影像上会呈现出明暗交错的相干斑噪声,选用RefineedLee滤波器,降低相干斑噪声的干扰,提高影像信噪比。

1.4)地形校正。把遥感影像映射到另一个平面,消除由地形弓起的辐射亮度误差,使坡度不同但反射性质相同的地物在图像中具有相同的亮度值。

1.5)多视。通过降低方位分辨率,提高SAR影像的信噪比,抑制相干斑噪声。

第二步,在对SAR数据进行基础的预处理之后,分别基于地距多视(Ground RangeDetected,GRD)影像和单视复数(Single Look Complex,SLC)影像提取强度、阻尼比、散射熵、各向异性度和平均极化散射角。

2.1)强度。在经过辐射定标之后,保存为强度单位。然而,通过辐射定标之后得到的值通常是非常小的正值,主要原因是因为传输距离远,导致接收器接收的雷达后向散射很小,因此,为了增强影像质量,对影像进行分贝化处理,用于后续的多特征模块,通过分贝化来扩展低灰度值区域,压缩高灰度值区域,以达到增强图像低灰度部分细节内容的作用,分贝化公式如(1)所示,

其中,σ

2.2)阻尼比。阻尼比定义为无油海面与油膜散射强度之比,能够反映油膜对海水强烈的平滑作用,油膜越厚的地方值越大,能够在一定程度上反应油膜的乳化程度,公式如(2)所示,

其中,

2.3)散射熵、各向异性度和平均极化散射角为极化特征。使用哨兵一号卫星的SLC级别数据进行提取。在经过辐射定标、地形校正、多视等预处理操作之后。提取双极化SAR影像中的极化协方差矩阵C

其中,|S

计算极化协方差矩阵C

其中,λ

然后,计算各个特征值λ

其中,p

分别计算熵、各向异性度和平均极化散射角。熵的公式如(7)所示,各向异性度的公式如(8)所示,平均极化散射角的公式如(9)所示。

其中,H为熵,结果如图3(c)所示,A为各向异性度,结果如图3(d)所示,α为平均极化散射角,结果如图3(e)所示,α

第三步,将上一步提取获得的五个特征值{y

3.1)搭建主干特征网络用于初步的特征提取。如图2主干特征网络部分所示,根据输出特征图的大小,将主干特征网络分为五层,分别为第一神经网络层F1、第二神经网络层S2、第三神经网络层T3、第四神经网络层F4和第五神经网络层F5,对应每层的输出分别记作第一输出结果O

首先,将五个特征值{y

y

其中,I为输入的特征图的个数,J为卷积核的总个数,x

第二神经网络层S2、第三神经网络层T3和第四神经网络层F4这三层为跨阶段局部层(Cross Stage Partial Layer,CSPLayer),除了通道维度不同之外,这三层的结构完全相同,如图5所示。以S2为例,对于输入的O

最后,将O

3.2)将主干特征网络所提取的第一输出结果O

由于O

在一实施例中,所述方法还包括第四步,利用特征融合的结果进行溢油定位和语义分割。

4.1)将TO

TO

对于定位头的预测结果,训练阶段和预测结果会进行不同的操作。预测阶段会使用Sigmoid函数将类别概率和置信度归一化到0-1之间,公式如(13)所示。

其中,x

在使用了Sigmoid函数之后,将特征图上每一个点所对应的类别概率最大的那一项作为该点所属的类别,然后将类别概率和置信度相乘之后的结果作为定位框的得分,记作Score。先使用阈值进行筛选,只保留得分大于阈值的定位框,其他定位框的得分设置为0,接着使用非极大值抑制算法进行定位框的筛选,非极大值抑制的公式如(14)所示。

其中,s

通过上述步骤,就获得了预测阶段的定位结果,识别出溢油区域,用定位框标出目标区域,另外标出类别和置信度。

在一实施例中,其特征在于,

所述深度神经网络训练的过程包括预测阶段和训练阶段,其特征在于,预测阶段在获得第一预测结果与第一损失函数后,将第一损失函数进行反向传播更新所述深度神经网络参数,直到收敛后进入训练阶段;

训练阶段获取类别分支、置信度分支和定位分支的样本结果,其中,置信度分支和类别分支通过如下交叉熵损失公式(15)计算:

L

定位分支通过如下交并比损失公式(16)计算:

其中,L

在一实施例中,所述通过特征融合网络将所述第二层级影像特征进行特征融合,获得至少一个特征融合结果进一步包括:

多层主干特征网络包括五层深度神经网络,前两层为第一层级网络,后三层为第二层级网络,其中前两层由浅到深分别输出第一输出结果和第二输出结果,第一输出结果和/或第二输出结果组成所述第一层级影像特征;后三层由浅到深分别输出第三输出结果、第四输出结果和第五输出结果,第三输出结果、第四输出结果和第五输出结果组成所述第二层级影像特征;

将所述第五输出结果进行卷积运算后得到第一融合结果,将所述第一融合结果上采样后与第四输出结果融合得到第二融合结果,将所述第二融合结果上采样后与第三输出结果融合得到第三融合结果,其中第一融合结果、第二融合结果和第三融合结果组成第三中间结果;第三融合结果下采样后与第二融合结果融合获得第四融合结果,第四融合结果下采样后与第一融合结果融合获得第五融合结果,其中第三融合结果、第四融合结果和第五融合结果组成第四中间结果,其中,所述第一融合结果、第二融合结果、第三融合结果、第四融合结果、第五融合结果是所述特征融合结果。

一实施例中,将第一层级影像特征与特征融合结果进行融合,得到至少一个第二融合结果,将至少一个所述第二融合结果作为语义分割神经网络的输入,确定所述语义分割神经网络的第二预测结果和第二损失函数值包括:

将所述第三融合结果上采样后与所述第二输出结果进行融合,得到第六融合结果;

和/或将所述第六融合结果上采样后与所述第一输出结果进行融合,得到第七融合结果;

将所述第六融合结果或所述第七融合结果进行反卷积和卷积运算,获得分割结果,即所述第二预测结果;

通过所述分割结果和分割标签,确定所述第二损失函数值。

在一实施例中,语义分割分支具体为:

4.2)取出FO

在预测阶段,使用Softmax函数,获取输出特征图mask上每个点所属的类别的概率,然后,选取每个点所对应的最大值的索引作为所属的类别,输出语义分割结果,结果如图7(b)所示。Softmax公式如(17)所示。

其中,x

接着,将定位结果和语义分割结果相结合,定位结果中包含了目标的定位框,根据定位框,将语义分割结果中的除定位框之外的像素值全赋值为0,即背景区域,获取最终的语义分割结果,结果如图7(d)所示。然后将定位结果和语义分割结果在输入图像上进行绘制即可得到最终的结果,同时实现了定位和语义分割,结果如图1右上角最终结果或图7(e)所示。

在训练阶段,使用交叉熵损失和骰子损失,语义分割损失如(18)所示。

其中,L

在一实施例中,语义补全具体为:由于溢油区域分布不均匀,呈现出一种非高斯正态分布的现象,因此,在模型训练阶段,增加语义补全模块,进一步提高定位和语义分割精度。

对标签分配策略获取的k个样本进行补全。首先根据标签分配策略从Reg结果中获得k个定位框,与语义分割结果结合,将定位框之外的样本确定为不确定区域,定位框之内的除语义分割之外的样本也确定为不确定区域,定位框之内的语义分割结果作为确定的溢油区域,这样就获得了一张标签图,只有当标签图中的像素点个数大于1的时候才会进行语义补全,否则直接返回为0。接着,将标签图作为真值标签,然后将原始影像,即图3(a)所示强度特征影像,与真值标签一同输入分水岭算法,接着,根据分水岭的输出结果获得了一个新的语义分割结果,根据新的语义分割结果获取最小外接矩形,作为补全之后的定位框,如图2语义补全部分的补全结果所示,接着与真值框计算交并比损失之后,加入全局损失,一同进行反向传播,更新网络参数。语义补全模块仅在训练阶段使用,并且仅在训练阶段的最后一段时间启动。语义补全的损失如(19)所示。

其中,L

在一实施例中,所使用的标签分配策略的具体流程为:

步骤1,根据人工标记的定位框坐标确定正样本区域,以人工标记的定位框的中心为中心点,半径为r向外获得一个矩形框,所述r为正实数,将所述矩形框和人工标记的真值的交集区域作为正样本的候选区域;

步骤2,根据正样本的候选区域的预测结果和真值结果的交并比、类别损失和置信度损失计算Cost代价矩阵,即每个真实框和当前特征点预测框的重合程度,每个真实框和当前特征点预测框的种类预测准确度和每个真实框的中心是否落在了特征点的一定半径内这三个值;

步骤3,根据交并比,获得至多k

步骤4,获取Cost代价矩阵中得分最低的k个样本作为最终获取的样本,用于后续的损失计算。

在一实施例中,总的函数损失值为:

Loss=λ

其中,Loss为总的函数损失值,L

在一实施例中,当获得了总的损失函数之后,使用反向传播算法更新模型参数的步骤为:

步骤1,进行反向传播,获取输出结果O1和O2的值:

O

O

步骤2,计算总误差:

步骤3,根据链式求导法则对W

步骤4,根据求导结果进行参数更新:

其中,W

在一实施例中,所述SAR影像中的目标区域是指SAR影像海洋溢油区域。

在一实施例中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述部分或全部方法步骤。

在一实施例中,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被多核处理器执行时,使得所述多核处理器执行上述部分或全部方法步骤。

本发明的其他优点将配合以下的说明和附图进行更详细的解说。

应当理解,上述说明仅是本发明技术方案的概述,以便能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施。为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本发明的具体实施例。

附图说明

通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的优点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:

图1为本公开示例性实现方法的流程示意图

图2为本公开的示例性实现方式的环境100的整体框图;

图3为本公开的示例性所提取的五个特征图,其中(a)为强度特征下的溢油影像,(b)为阻尼比特征下的溢油影像,(c)为散射熵特征下的溢油影像,(d)为各向异性度下的溢油影像,(e)为平局极化散射角特征下的溢油影像。

图4为聚焦层示意图。

图5为跨阶段局部层示意图。

图6为空间金字塔池化层示意图。

图7为预测结果示意图,其中(a)为真值图,(b)为模型的语义分割结果,(c)中的白色定位框为模型的定位结果,(d)为语义分割结果和定位结果相结合之后的分割结果,(e)为本专利方法最终结果图。

图8为反向传播的示意图。

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

在本申请实施例的描述中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。

除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。

术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。

本申请中的所有代码都是示例性的,本领域技术人员根据所使用的编程语言,具体的需求和个人习惯等因素会在不脱离本申请的思想的条件下想到各种变型。

在一些实施例中,为进一步解决由于SAR溢油检测与常规的人像或车辆等目标检测不同,常规的人像或车辆等目标检测由于其目标有特定的形状结构,使用定位框就能轻易地且完备地标记出识别区域,但是溢油区域通常只占待检测区域的小部分,大范围的边界框往往只会包含小部分的溢油区域,溢油区域通常是不规则的,呈现出非高斯正态分布的现象,与常规的人像或车辆图像中的目标分布及其不同,因此常规的人像或车辆等目标检测方法不能用于SAR溢油检测中。为此,本发明实施例提供的一种目标定位和提取方法,尤其涉及利用多特征训练深度神经网络定位和提取SAR影像海洋溢油的方法。不仅能用于定位和提取SAR影像海洋溢油,还能用于常规的人像或车辆等目标检测。

如图1和图2所示,下面将参考附图并结合实施例来详细说明本发明。

首先参见图1,其示意性示出了其中可以使用根据本公开的示例性实现方法流程的示意图,图2为使用根据本公开的示例性实现方式的环境100的整体框图。在python3.6、pytorch1.7.1和cuda11.0在windows10系统下进行编译,使用RTX 2080的GPU运行,输入数据大小为1024×1024的SAR影像。在图1或图2所示的方法,可以由各种电子终端装置、计算机和服务器或其组成的网络实现,所述电子终端装置、计算机和服务器可以包括:处理器,例如CPU,网络接口,用户接口,存储器,通信总线。其中,通信总线用于实现这些组件之间的连接通信。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器可选的还可以是独立于前述处理器的存储装置。

为了至少部分或全部解决现有技术中存在的问题,在一实施例中,本发明采用的技术方案为:

第一步,对遥感图像进行预处理。对SAR数据进行热噪声去除、辐射定标、相干斑滤波、地形校正和多视处理。

1.1)热噪声去除。降低热噪声对雷达后向散射信号精度的影响。

1.2)辐射定标。消除传感器本身的误差,获取更加真实地实际物理量。

1.3)相干斑滤波。在SAR影像上会呈现出明暗交错的相干斑噪声,选用RefineedLee滤波器,降低相干斑噪声的干扰,提高影像信噪比。

1.4)地形校正。把遥感影像映射到另一个平面,消除由地形弓起的辐射亮度误差,使坡度不同但反射性质相同的地物在图像中具有相同的亮度值。

1.5)多视。通过降低方位分辨率,提高SAR影像的信噪比,抑制相干斑噪声。

在一些实施例中,为进一步解决由于传统的非极化特征难以有效表达溢油区域与非溢油区域,并且传统方法仅依赖一种图像特征进行识别,无法使用多特征,单一的特征难以有效且精确地区分溢油区域与非溢油区域。为此,本实施例提供的方法可以包括以下步骤:

第二步,在对SAR数据进行基础的预处理之后,分别基于地距多视(Ground RangeDetected,GRD)影像和单视复数(Single Look Complex,SLC)影像提取强度、阻尼比、散射熵、各向异性度和平均极化散射角,特征提取结果如图3所示。

2.1)强度。在经过辐射定标之后,保存为强度单位。然而,通过辐射定标之后得到的值通常是非常小的正值,主要原因是因为传输距离远,导致接收器接收的雷达后向散射很小,因此,为了增强影像质量,对影像进行分贝化处理,用于后续的多特征模块,通过分贝化来扩展低灰度值区域,压缩高灰度值区域,以达到增强图像低灰度部分细节内容的作用,分贝化如公式(26)所示,

其中,σ

2.2)阻尼比。阻尼比定义为无油海面与油膜散射强度之比,能够反映油膜对海水强烈的平滑作用,油膜越厚的地方值越大,能够在一定程度上反应油膜的乳化程度,如公式(27)所示,

其中,

2.3)散射熵、各向异性度和平均极化散射角为极化特征。使用哨兵一号卫星的SLC级别数据进行提取。在经过辐射定标、地形校正、多视等预处理操作之后。提取双极化SAR影像中的极化协方差矩阵C

其中,|S

计算极化协方差矩阵C

其中,λ

然后,计算各个特征值λ

其中,p

分别计算熵、各向异性度和平均极化散射角。熵的公式如(32)所示,各向异性度的公式如(33)所示,平均极化散射角的公式如(34)所示。

其中,H为熵,结果如图3(c)所示,A为各向异性度,结果如图3(d)所示,α为平均极化散射角,结果如图3(e)所示,α

第三步,将上一步提取获得的五个特征值{y

3.1)搭建主干特征网络用于初步的特征提取。如图2主干特征网络部分所示,根据输出特征图的大小,将主干特征网络分为五层,分别为第一神经网络层F1、第二神经网络层S2、第三神经网络层T3、第四神经网络层F4和第五神经网络层F5,对应每层的输出分别记作第一输出结果O

首先,将五个特征值{y

y

其中,I为输入的特征图的个数,J为卷积核的总个数,x

第二神经网络层S2、第三神经网络层T3和第四神经网络层F4这三层为跨阶段局部层(Cross Stage Partial Layer,CSPLayer),除了通道维度不同之外,这三层的结构完全相同,如图5所示。以S2为例,对于输入的O

最后,将O

3.2)将主干特征网络所提取的第一输出结果O

由于O

在一些实施例中,为进一步解决由于仅通过溢油的定位结果来表述溢油区域并不完备,现有的方法并不能综合利用多特征影像的空间信息和语义信息,为此,本实施例提供的方法可以包括以下步骤:

第四步,利用特征融合的结果进行溢油定位和语义分割。

4.1)将TO

TO

对于定位头的预测结果,训练阶段和预测结果会进行不同的操作。预测阶段会使用Sigmoid函数将类别概率和置信度归一化到0-1之间,公式如(38)所示。

其中,x

在使用了Sigmoid函数之后,将特征图上每一个点所对应的类别概率最大的那一项作为该点所属的类别,然后将类别概率和置信度相乘之后的结果作为定位框的得分,记作Score。先使用阈值进行筛选,只保留得分大于阈值的定位框,优选地,阈值设置为0.5,其他定位框的得分设置为0,接着使用非极大值抑制算法进行定位框的筛选,非极大值抑制的公式如(39)所示。

其中,s

通过上述步骤,就获得了预测阶段的定位结果,识别出溢油区域,用定位框标出目标区域,另外标出类别和置信度。结果如图7(c)所示,识别出四个溢油区域的定位框,均标出了目标区域、类别和置信度,从上往下的四个定位框的类别和置信度依次为oil 0.7,oil0.6,oil 0.73,oil 0.77的溢油区域的定位框。

在训练阶段,会通过标签分配策略进行正负样本的分配,正样本为是目标的样本,负样本为不是目标的样本,然后再和人工标记的真值结果进行损失的计算,更新模型参数。

所使用的标签分配策略的具体流程如下所示:

①根据人工标记的定位框坐标确定正样本区域,以人工标记的定位框的中心为中心点,半径为r向外获得一个矩形框,将该矩形框和人工标记的真值的交集区域作为正样本的候选区域。

②根据样本区域的预测结果和真值结果的交并比、类别损失和置信度损失计算Cost代价矩阵,即每个真实框和当前特征点预测框的重合程度,每个真实框和当前特征点预测框的种类预测准确度和每个真实框的中心是否落在了特征点的一定半径内这三个值。

③根据交并比,获得至多10个样本,记作k

④获取Cost代价矩阵中得分最低的k个样本作为最终获取的样本,用于后续的损失计算。

这样,经过标签分配策略就获得了k个样本,然后根据这k个样本分别计算类别损失、置信度损失和定位框损失。其中,置信度的损失和类别的损失使用的是交叉熵损失,公式如(40)所示,定位框的损失使用的是交并比损失,公式如(41)所示。

L

其中,L

4.2)语义分割分支。取出FO

在预测阶段,使用Softmax函数,获取输出特征图mask上每个点所属的类别的概率,然后,选取每个点所对应的最大值的索引作为所属的类别,输出语义分割结果,结果如图7(b)所示。Softmax公式如(42)所示。

/>

其中,x

接着,将定位结果和语义分割结果相结合,定位结果中包含了目标的定位框,根据定位框,将语义分割结果中的除定位框之外的像素值全赋值为0,即背景区域,获取最终的语义分割结果,结果如图7(d)所示。然后将定位结果和语义分割结果在输入图像上进行绘制即可得到最终的结果,同时实现了定位和语义分割,结果如图1右上角最终结果或图7(e)所示。

在训练阶段,使用交叉熵损失和骰子损失,语义分割损失如(43)所示。

其中,L

在一些实施例中,为进一步解决由于溢油区域不规则的怪异形状,在网络收敛后难以真正拟合目标以及仅通过溢油的定位结果不能完备表述溢油区域的问题,发明人提出了一种综合利用多特征影像的空间信息和语义信息的目标定位和提取方法,并且将定位和分割结果进行语义补全,进一步引入损失,以更好地拟合溢油区域,为此,本实施例提供的方法可以包括以下步骤:

4.3)语义补全。由于溢油区域分布不均匀,呈现出一种非高斯正态分布的现象,因此,在模型训练阶段,增加语义补全模块,进一步提高定位和语义分割精度。

对标签分配策略获取的k个样本进行补全。首先根据标签分配策略从Reg结果中获得k个定位框,与语义分割结果结合,将定位框之外的样本确定为不确定区域,定位框之内的除语义分割之外的样本也确定为不确定区域,定位框之内的语义分割结果作为确定的溢油区域,这样就获得了一张标签图,只有当标签图中的像素点个数大于1的时候才会进行语义补全,否则直接返回为0。接着,将标签图作为真值标签,然后将原始影像,即图3(a)所示强度特征影像,与真值标签一同输入分水岭算法,接着,根据分水岭的输出结果获得了一个新的语义分割结果,根据新的语义分割结果获取最小外接矩形,作为补全之后的定位框,如图2语义补全部分的补全结果所示,接着与真值框计算交并比损失之后,加入全局损失,一同进行反向传播,更新网络参数。语义补全模块仅在训练阶段使用,并且仅在训练阶段的最后一段时间启动。语义补全的损失如(44)所示。

其中,L

由此,不仅进一步提高了溢油检测的精度,还将定位与语义分割有效融合,进一步提高定位的精度。

最终,总的损失函数如公式(45)所示。

Loss=λ

其中,Loss为总损失,L

在训练阶段,当获得了总的损失函数之后,会使用反向传播算法进行模型参数的更新。具体的更新步骤以图8为例,具体步骤如下:

①进行前向传播,获取输出结果O

O

O

②计算总误差,此处以L2范数为例。

③以权重参数W

④根据求导结果进行参数更新,其中,W'

因此,当训练过程中的损失值趋于稳定,结束训练。优选地,在5个世代内变化不超过0.01时,结束训练。保存此时的模型参数,即可在预测阶段对样本进行预测。

通过本发明的实施,取得了优于现有技术的技术效果,结果如图7(e)所示。其中白色的定位框为定位结果,定位框中的白色区域为语义分割结果,定位结果交并比IOU=0.82,语义分割结果准确度Accuracy=99.77%,精度Precision=86.2%,召回率Recall=88.36%。

基于相同的技术构思,本发明实施例还提供一种目标定位和提取装置,其特征在于,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,用于执行上述任一实施例所提供的部分或全部方法步骤。

在一实施例中,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被多核处理器执行时,使得所述多核处理器执行上述部分或全部方法步骤。

在本说明书的描述中,参考术语“在一实施例中”、“一些可能的实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

关于本申请实施例的方法流程图,将某些操作描述为以一定顺序执行的不同的步骤。这样的流程图属于说明性的而非限制性的。可以将在本文中所描述的某些步骤分组在一起并且在单个操作中执行、可以将某些步骤分割成多个子步骤、并且可以以不同于在本文中所示出的顺序来执行某些步骤。可以由任何电路结构和/或有形机制(例如,由在计算机设备上运行的软件、硬件(例如,处理器或芯片实现的逻辑功能)等、和/或其任何组合)以任何方式来实现在流程图中所示出的各个步骤。

本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以其描述进行了简化,相关之处可参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然已经参考若干具体实施例描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施例,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

相关技术
  • 一种目标定位方法、装置、系统及计算机可读存储介质
  • 目标点的定位方法、装置及计算机可读存储介质
  • 一种定位方法、装置及计算机可读存储介质
  • 一种伪基站的定位方法、装置及计算机可读存储介质
  • 一种数据采集系统定位方法、装置和计算机可读存储介质
  • 目标血管的提取方法、提取装置与计算机可读存储介质
  • 目标定位方法、装置、计算机可读存储介质和计算机设备
技术分类

06120115927627