掌桥专利:专业的专利平台
掌桥专利
首页

基于多源信息融合的战场目标三维重建与毁伤评估方法

文献发布时间:2024-04-18 19:59:31


基于多源信息融合的战场目标三维重建与毁伤评估方法

技术领域

本发明属于计算机视觉、目标毁伤评估领域,具体涉及一种基于多源信息融合的战场目标三维重建与毁伤评估方法,进一步说,涉及一种基于双分支深度网络三维重建及小样本学习的战场目标毁伤评估方法。

背景技术

在军事战争中,目标毁伤效果评估(Battle Damage Assessment,BDA),又称战斗毁伤评估、作战毁伤评估,对于发动的每一轮打击进行迅速的评估和反馈,以便做出下一轮打击决策。在战争全面信息化的背景下,战争局势高度的动态性和不确定性使对目标毁伤进行全面而实时评估成为迫切需要解决的问题。

传统军事目标的毁伤评估主要依靠人工检查和分析,这种方法存在着许多弱点。首先,人工评估容易受主观因素的影响,评估结果的准确性不高。其次,人工评估效率低下,不能及时地反馈给指挥员和作战人员,对作战决策产生不良影响。此外,传统的毁伤评估方法只能提供目标受损的二维信息,无法给出目标在三维空间中的具体受损情况,给作战决策带来了不便。

发明内容

为了解决现有技术中存在的缺陷,本发明公开一种基于多源信息融合的战场目标三维重建与毁伤评估方法,进一步说,涉及一种基于双分支深度网络三维重建及小样本学习的战场目标毁伤评估方法,其技术方案如下:该评估方法包括如下步骤:

步骤1:多传感器数据源的融合,以实现快速、准确的三维重建;

步骤2:建立三维重建框架网络范式:采用了包含二维视觉图像和稀疏深度数据双处理分支的基于ViT(Vision Transformer)编码器组件的深度学习网络结构,实现具有多模态融合能力;

步骤3:目标点云的重建;

步骤4:基于元学习的小样本点云分类研究,实现对毁伤评估的快速学习。

优选为:所述多传感器数据的融合包括:对相机采集的二维视觉图像数据和经由激光雷达采集的稀疏点云处理得到的稀疏深度数据进行多模态融合。

优选为:所述三维重建框架网络范式包括:单目深度信息挖掘模块,该模块是将单目预测与深度分支预测的稠密深度通过置信度做中期融合,从而快速输出深度预测与语义分割预测结果,辅助双分支网络的训练。

优选为:所述三维重建框架网络范式还包括:双分支网络结构,所述双分支网络结构包括如下内容:

(1)二维视觉图像处理分支:通过将基于ViT(Vision Transformer)编码器组件进行串联的方式构建二维视觉图像处理分支;该解码器分为了两个部分进行实现:

a.重组模块:将任何一个ViT编码器的输出序列重组为图嵌入数据;

该重组模块的结构包括:读取模块、连接模块、重采样模块;

将图片划分成p*p大小的若干个正方形分块,记分块数量为N

所述重采样模块将上一步得到的特征图进行不同尺度的重采样,具体操作如下:首先使用一个1*1卷积层进行特征重组,之后用3*3的反卷积层进行放大,用3*3的卷积层进行缩小,卷积/反卷积的步长由缩放的倍数决定。

b.融合模块:基于多尺度融合的思想对多个ViT编码器输出的图嵌入数据进行融合;

(2)稀疏深度数据处理分支:包括以卷积神经网络CNN为基础的编码器-解码器组件以及池化组件,其工作过程为:来自二维视觉图像处理分支的图像引导信息与稀疏深度数据结合,经过一个残差下采样模块,得到大小为输入图像一半尺寸的特征图;将该特征图与稀疏深度数据非零平均池化后的特征图相结合,再次经过残差下采样得到进一步缩小的特征图,并再次与非零平均池化的特征图结合,如此重复。

优选为:所述步骤3进一步包括如下内容:所述目标点云的重建

(1)深度图-点云转换:将双分支三维重建网络生成的语义分割遮罩作用在经由激光雷达采集的稀疏点云处理得到的稀疏深度数据上,即可获得仅含有目标的深度图,将该深度图的每组坐标转换到世界坐标系坐标,即得到目标在该帧的三维点云。

(2)点云融合:在将每一帧的深度图转化为点云后,对多组点云进行融合。融合中先对点云进行滤波,将点云密度降低,减少数据量并识别和去除点云中的离群点,再对滤波后点云进行平滑处理,从而生成连续的曲面模型。

优选为:所述步骤4进一步包括如下内容:

(1)毁伤等级类别定义:对于装甲车辆目标来说,可将其分为毁伤分级模型的四个等级:

a.无毁伤;

b.“M”级毁伤,指坦克瘫痪不能进行可控运动,且不能有乘员当场修复的破坏;

c.“F”级毁伤,指坦克主要武器丧失功能的破坏,或者由于乘员物理草坪做造成,或是配套设备被破坏,不堪使用且不能由乘员当场修复造成;

d.“K”级毁伤,指坦克被击毁,并达到无法修复程度的破坏。

(2)毁伤评估:将毁伤评估作为分类问题求解,基于ProtoNet小样本学习算法对步骤3中重建得到的点云进行准确分类,归于上述建立的毁伤分级模型中四个等级之一。

本发明针对的毁伤评估问题是一个4分类问题。因此对ProtoNet来说,这是一个4Way-KShot学习。按照不同的K值对ProtoNet进行训练。

ProtoNet训练配置

有益效果

1、本发明使用相机与激光雷达融合+双分支深度网络的方案构建一个三维重建框架,并在框架中添加单目深度信息挖掘模块辅助算法的训练。它对RGB和稀疏深度图进行多模态融合,并快速输出深度预测与语义分割预测结果,实现对目标的实时重建。

2、为实现基于三维点云的准确分类,需要大量毁伤样本提供支撑,但由于数据来源受限,实际能获得的样本数量很少;本发明采用基于小样本学习的毁伤评估方法,在样本数量受限的情况下仍可通过重建得到的点云图像进行毁伤等级评估。

附图说明

图1是本发明各功能组件及其相互关系的描述示意;

图2是本发明采用的三维重建框架整体范式框图;

图3是对三维重建框架中的二维视觉图像处理分支解码器的重组模块示意图;

图4是对三维重建框架中的二维视觉图像处理分支解码器的融合模块示意图;

图5是三维重建框架中的二维视觉图像分支总体结构框图;

图6是三维重建框架中的深度处理分支结构框图;

图7是对本发明采用的三维重建框架结构的说明;

图8是对ProtoNet算法整体架构的说明。

具体实施方式

本发明提出了一种基于数据融合深度网络针对目标进行三维重建及毁伤评估的方法,能够实现对目标的精准三维重建及毁伤状态评估。

参见图1所示。一种基于多源信息融合的战场目标三维重建与毁伤评估方法,进一步说,涉及一种基于双分支深度网络三维重建及小样本学习的战场目标毁伤评估方法,其技术方案如下:该评估方法包括如下步骤:

步骤1:多传感器数据源的融合,以实现快速、准确的三维重建;

本步骤是针对稀疏点云的数据处理,即稀疏点云数据与稀疏深度数据的投影映射:

将激光雷达采集的稀疏点云坐标(x

坐标的转换分为两步:

(1)将点云三维坐标(x

其中,R

(2)将相机坐标系的三维坐标(x

K是相机坐标系到像素坐标系的变换矩阵,由相机内参决定:

其中f

相机内参由配置文件中相机分辨率的高H与宽W以及视场角FOV值得到:

f

在得到(u,v,d)后,去除不符合条件的(u,v)像素坐标(不在像素平面内),得到稀疏深度数据。

步骤2:建立三维重建框架网络范式:采用了包含二维视觉图像和稀疏深度数据双处理分支的基于ViT(Vision Transformer)编码器组件的深度学习网络结构,实现具有多模态融合能力;

主要发明内容包括:

1、三维重建框架网络范式设计(图1中的对象1)

在三维重建领域,传统方法如立体匹配存在着计算量大且速度慢的问题,而目前的使用深度学习进行三维重建的算法虽然速度上有所提升,但非常依赖图像,导致可靠性不强。

针对战场上的军事目标,本发明提出将相机与激光雷达数据进行融合,以实现快速、准确的三维重建。技术框架采用了基于ViT(Vision Transformer)编码器组件的深度学习网络结构,包含二维视觉图像和稀疏深度数据双处理分支,具有多模态融合能力。为提高三维重建精度,该框架创新性地使用了一个单目深度信息挖掘模块,将单目预测信息与深度预测结果进行置信度融合,实现了快速的深度预测与语义分割预测。

具体内容分为以下两个方面:

(1)设计了具有双分支结构的三维重建深度网络(图1中的对象101)

双分支网络结构接收两类输入数据,分别为:二维视觉图像数据(来自相机),以及稀疏点云(来自激光雷达)。稀疏点云经由数据处理后得到稀疏深度数据,二维视觉图像可以提供丰富的边缘和纹理信息,可以引导稀疏深度数据生成稠密深度数据。最终生成两个输出:语义分割图和稠密深度图。语义分割图用于将目标从背景中分离出来,稠密深度图则可以立即得到目标三维数据。

双分支网络结构总体框架如图2所示:

对该结构中的各处理分支的详细设计如下。

·二维视觉图像处理分支

为了利用二维视觉图像中蕴含的丰富信息,本发明通过将基于ViT(VisionTransformer)编码器组件进行串联的方式构建二维视觉图像处理分支。将图片划分成p*p大小的若干个正方形分块,记分块数量为N

之后,每一个向量都会经过一个嵌入层(Embedding Layer),得到图像的图向量。ViT给图像生成的每个图向量都加上了可学习的位置编码。同时,除了图像自身的图向量,ViT还添加了全局图向量,全局图向量不是由图像信息得到的,它的作用是将全局信息进行整合然后用于图像分类,在解码器部分对它进行处理。

划分完毕的图像表示为:

经过l层ViT得到的图向量记为t

解码器部分的设计为充分利用编码过程中的深层信息与浅层信息,需要对多个编码器组件输出的图嵌入数据进行融合。因此,将解码器分为了两个部分进行实现:

a.重组模块

重组模块将任何一个ViT编码器的输出序列重组为图嵌入数据。重组模块的结构如图3所示,由读取模块、连接模块、重采样模块组成:

读取模块读取编码器生成的输入解码器的图向量t

Read(t)=gelu(mlp(cat(t

式中t

重采样模块将上一步得到的特征图进行不同尺度的重采样,具体操作如下:首先使用一个1*1卷积层进行特征重组,之后用3*3的反卷积层进行放大,用3*3的卷积层进行缩小,卷积/反卷积的步长由缩放的倍数决定。

b.融合模块

融合模块基于多尺度融合的思想对多个ViT编码器输出的图嵌入数据进行融合,具体结构如图4所示:

定义了二维视觉图像处理分支后,可通过不同的输出头(Head)可得到不同的输出,如单目预测信息、稠密深度生成引导信息等。二维视觉图像处理分支的完整结构如图5所示。

·稀疏深度数据处理分支

稀疏深度数据处理分支利用二维视觉图像处理分支得到的图像引导信息,协助生成目标的稠密深度信息。稀疏深度数据来自激光雷达,深度距离较为准确但数据点稀疏。该处理分支将来自二维视觉图像分支的图像引导信息与稀疏深度(来自激光雷达)连接起来。为充分利用稀疏深度中准确的距离信息,本发明提出了基于非零平均池化的处理方法。

通常,深度网络的池化(Pooling)操作需要考虑到一定范围内的所有像素值。然而,对稀疏深度数据来说,任何特定范围内的多数像素点均取值为0,因此利用一定区域的像素平均值并不能很好地表达真实深度。非零平均池化的方式是:仍采用平均池化操作,但求平均值时的分母是局部区域内值不为0的像素数量。

稀疏深度数据处理分支进一步分为两个部分(图6):一是以卷积神经网络CNN为基础的编码器-解码器组件,另一个则是池化组件具体构成如公式所示:

DepthEncoder

DepthDecoder

式中DepthEncoder

具体工作过程为:来自二维视觉图像处理分支的图像引导信息与稀疏深度数据结合,经过一个残差下采样模块,得到大小为输入图像一半尺寸的特征图。将该特征图与稀疏深度数据经池化组件非零平均池化后的特征图相结合,再次经过残差下采样得到进一步缩小的特征图,并再次与非零平均池化的特征图结合,如此重复。这种方式确保了在网络的任何位置都将保留激光雷达所携带的原始尺度信息。另外,将编码器阶段的中间信息以跳接的方式融入解码器组件,有效防止损失过多细节信息。

(2)单目深度信息挖掘(图1中的对象102)模块

单目深度信息挖掘的目的是获得深度的相对分布,用于直接衡量二维视觉图像处理分支的性能好坏。本发明在二维视觉图像处理分支中增加单目深度信息挖掘模块,将预测的深度分布与稀疏深度数据处理分支生成的稠密深度做置信度融合。

单目深度信息挖掘模块得到的预测深度分布的求解需要进行归一化,用sigmoid函数将其归一化到0-1之间。

但这使得其无法直接与深度真值之间计算损失。为了解决这个问题,本发明利用了伸缩平移不变性损失函数

选择ρ(x)=ρ

式中

稠密深度与语义分割的损失采用回归任务与分类任务常用的最小均方差损失

由于各种损失的尺度和重要性不同,需要给

在实验中发现,

式中epoch为训练轮次。

最终三维重建的整体框架如图7所示。将单目深度信息挖掘模块得到的单目预测深度作为引导信息的一种,输入深度分支,从而实现同时利用单目预测深度的分布信息跟稀疏深度的尺度信息;将单目预测深度中的伸缩平移不变性损失

步骤3:目标点云的重建,具体内容包括:

1、深度图-点云转换:将双分支网络生成的语义分割遮罩作用在经由激光雷达采集的稀疏点云处理得到的稀疏深度数据上,即可获得仅含有目标的深度图,再对深度图进行反投影操作,即将该深度图的每组坐标转换到世界坐标系坐标,即得到目标在该帧的三维点云。

分为三步:

(1)将深度图坐标(u,v,d)转换为相机坐标系的三维坐标(x

(2)将点在相机坐标系中的三维坐标(x

其中R用于将相机坐标系的坐标轴修正至与机体坐标系一致。R

(3)将机体坐标系坐标(x

其中R

2、点云融合:在将每一帧的深度图转化为点云后,对多组点云进行融合。融合中先对点云进行滤波,将点云密度降低,减少数据量并识别和去除点云中的离群点,再对滤波后点云进行平滑处理,从而生成连续的曲面模型。本发明中使用PCL库中的VoxelGrid,StatisticalOutlierRemoval以及MovingLeastSquares算法进行点云融合。其中前两者为滤波函数,后者则负责最终的点云表面平滑处理。

·VoxelGrid算法将点云分成规则大小的体素格子,并将每个体素格子的点云数据合并为一个体素点,从而将点云密度降低,减少数据量。在实际的点云融合中,将体素大小设定为0.1m。

·StatisticalOutlierRemoval算法识别和去除点云中的离群点。该滤波器通过计算点与其邻域的平均距离和标准差,来判断每个点是否是离群点。

·MovingLeastSquares算法对点云进行平滑处理,从而生成连续的曲面模型。该算法基于最小二乘法,将每个点与其邻域的数据拟合成一个曲面,并将每个点的法线向量根据曲面法线进行调整。

步骤4:基于元学习的小样本点云分类研究,实现对毁伤评估的快速学习。具体内容包括两部分:

1、毁伤等级类别定义:对于装甲车辆目标,将其分为毁伤分级模型的四个等级类别:

(1)无毁伤;

(2)“M”级毁伤,指坦克瘫痪不能进行可控运动,且不能有乘员当场修复的破坏;

(3)“F”级毁伤,指坦克主要武器丧失功能的破坏,或者由于乘员物理草坪做造成,或是配套设备被破坏,不堪使用且不能由乘员当场修复造成;

(4)“K”级毁伤,指坦克被击毁,并达到无法修复程度的破坏。

2、毁伤评估:

将毁伤评估作为分类问题求解,对步骤3中重建得到的点云进行准确分类,归于上述建立的毁伤分级模型中四个等级之一。用于战场目标毁伤评估训练的数据集,通常数量较少且难以大规模扩充。为了解决这个问题,本发明提出小样本训练模型,实现对毁伤评估的快速学习。本发明采用ProtoNet小样本学习算法用于毁伤评估。

ProtoNet(Prototypical Networks,原型网络)是一种基于度量学习的元学习算法,主要目标是通过学习类别的原型表示以提高小样本学习任务的性能。类别的原型表示是指某一类别的样本特征的中心,它通过计算同类样本特征的均值得到。

基于ProtoNet的小样本学习框架如图8所示。在训练阶段,每轮训练之前开始时从数据集中抽样一组任务,并将每组任务划分成支持集与查询集。对支持集内分属于4个不同类别的所有样本都进行编码,即通过编码器进行信息提取,得到每个样本的嵌入向量;再对每一类别下所有样本的嵌入向量分别求和取平均,作为该类别的原型表示;同理,对查询集中查询样本也进行编码得到嵌入向量;并计算查询集的嵌入向量到支持集中4个不同类别的原型表示的距离(多采用欧氏距离);使用softmax函数将计算的距离激活成概率分布;得到查询集样本的分类标签。

与真实标签做交叉熵损失,对该损失进行梯度下降,即完成这个任务的训练。本发明针对的毁伤评估问题是一个4分类问题。因此对ProtoNet来说,这是一个4Way-KShot学习。按照不同的K对ProtoNet进行试验。

表1ProtoNet训练配置

表2ProtoNet验证集的准确率比较

由实验结果可知,学习的效果受K-Shot的影响较大,选取较大的K-Shot可以取得更好的效果,选取K-Shot为5相对于选取2更是可以获得62%的准确率提升。采用度量学习思想的ProtoNet相对于基准模型,准确率提升了630%,这说明度量学习对于极小样本学习具有较好的泛用性。

实施例1

本发明的使用共包含6个步骤,下面结合一个应用实例,对本发明的实施过程进行具体说明。

步骤1:多传感器数据源的融合,以实现快速、准确的三维重建;具体包括:

(1)在无人机上挂载单目摄像头与激光雷达。无人机绕目标环飞捕获多视角目标图像,获得激光雷达数据与多帧单目图像数据。

(2)针对采集数据进行处理,将激光雷达生成的点云数据坐标映射为对应的深度坐标:先将点云三维坐标转换为相机坐标系的三维坐标,再将相机坐标系的三维坐标转化为像素坐标系中的深度图;

步骤2:建立双分支三维重建框架整体范式:采用了包含二维视觉图像和稀疏深度数据的基于ViT编码器组件的双分支网络结构以及单目深度信息挖掘模块,实现具有多模态融合能力;基于公共数据集与采集数据对该网络框架进行训练和预测,检测有效性。

步骤3:目标点云的重建;在有限的位置对目标进行数据捕获,每次捕获后调用训练好的模型进行推理,并经过深度图-点云变换得到当前帧的点云,新的点云出现时,与原来的点云进行融合,捕获结束后显示整个目标的点云并保存

步骤4:基于元学习的小样本点云分类研究,实现对毁伤评估的快速学习。获得目标较为精确的三维点云数据后基于点云进一步评估目标的毁伤状态。

本发明技术方案通过使用相机与激光雷达融合+双分支深度网络的方案构建一个三维重建框架,并在框架中添加单目深度信息挖掘模块辅助算法的训练,解决了传统方法如立体匹配计算量大且速度慢的问题,对比现有的基于深度学习的三维重建算法对图像的依赖减少,可靠性更强,实现对RGB和稀疏深度图进行多模态融合,并快速输出深度预测与语义分割预测结果,完成对目标的实时重建。此外通过基于小样本学习的毁伤评估方法解决了数据来源受限,实际能获得的样本数量很少使基于三维点云的分类效果差的缺陷,达到了通过重建得到的点云图像进行毁伤等级评估的目的。

本发明针对现代战争中无人机进行自主毁伤评估的场景,构建了一种新颖的毁伤评估技术框架,其中包含双分支网络结构的三维重建网络模型,可对来自相机、激光雷达的多源数据进行有效处理,生成战场目标三维结构;而小样本学习算法则能够在样本量较少的情况下快速训练毁伤评估模型,加快实施效率。

本发明提出了一种使用ViT编码器、并具有双分支网络结构的多源数据三维重建算法框架。该框架的双分支结构,可对相机采集的二维视觉图像数据和经由激光雷达采集的稀疏点云处理得到的稀疏深度数据进行多模态融合,并于二维视觉图像处理分支中增加单目深度预测模块,将单目预测与深度分支预测的稠密深度通过置信度做中期融合,快速输出深度预测与语义分割预测结果,提高了目标三维点云重建的效率和精度。

本发明基于小样本学习算法构建智能化毁伤评估算法,基于迁移学习思想将大数据模型迁移到小样本数据集,并结合元学习方法,实现了使用较小数据集就能有效训练毁伤评估模型的目的。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

相关技术
  • 一种基于在线检测技术改善激光打孔质量的装置及方法
  • 利用激光极性变换实现激光打孔和激光清洁的装置
  • 一种用于木板打孔的便携式打孔装置
  • 一种便于煤矿开采用爆破打孔用的打孔装置
  • 一种复合激光打孔方法及激光打孔装置
  • 一种复合激光打孔方法及激光打孔装置
技术分类

06120116522989