掌桥专利:专业的专利平台
掌桥专利
首页

结合多表征特征以及候选区域生成法进行目标检测的方法

文献发布时间:2023-06-19 19:30:30


结合多表征特征以及候选区域生成法进行目标检测的方法

技术领域

本发明涉及一种目标检测方法,特别涉及结合多表征特征以及候选区域生成法进行目标检测的方法。

背景技术

图像的空间域信息常被用于进行各项计算机视觉任务,如图像分类、图像分割和目标检测等。在目标检测算法中,单纯通过空间域信息用于提取图像特征,会因空间信息受光线、遮挡等问题使目标检测产生精度损失。目标检测算法涉及的深度学习模型在训练过程中通常批量输入多个样本,并通过GPU实现并行运算提高训练速度。数据集中经常出现尺度大小不相等的样本,这导致无法使用批量训练。

现有图像的频域信息特征提取的技术中,由于传统深度神经网络的运算算子都是实值的,因此目前性能良好的深度神经网络算法架构不能直接应用于图像频域空间信息。

所以考虑将空间域信息和频域信息融合作为提取的特征。但直接通过空间域和频域信息生成的融合特征表示空间维度低,以至于并不能完全发挥混合特征的多表征优势。

另外,在目标检测过程涉及的候选区域生成算法,现有采用滑动窗口和选择搜索等方法生成目标边界框。但是,这类方法一个窗口只能预测一个目标,并且耗费大量的计算资源,严重影响目标检测的实时性。

虽然区域建议网络能够预测每个先验框中是否包含目标的概率,但是由于先验框具有固定的尺度和长宽比,并且其本身并不具备边界参数回归的能力。

本申请针对空间域信息和频域信息特征融合方法、候选区域生成算法进行改进,并对目标检测的方法从整体上重新进行设计,以提高目标检测精度。

发明内容

本发明的目的是为了解决现有的目标检测方法不能完全发挥混合特征的多表征优势的问题,以及候选区域生成算法过程中,一个窗口只能预测一个目标,并且耗费大量的计算资源,严重影响目标检测的实时性的问题,而提出一种结合多表征特征以及候选区域生成法进行目标检测的方法。

上述目的通过以下的技术方案实现:

结合多表征特征以及候选区域生成法进行目标检测的方法,所述方法通过以下步骤实现:

步骤一、视频或图像被输入到基于多表征特征提取的骨干网络,基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征,生成包含完备表征信息的特征图;包括:

步骤一一、数据预处理的步骤:

将数据集中的样本通过数据预转换为标准的输入格式;

步骤一二、空间域信息特征提取的步骤:

设经过标准化处理后的图像映射为空间域信息I

步骤一三、频域信息特征提取的步骤:

采用快速傅里叶变换将标准化后的图像从空间域转换为频域信息I

其中,M和N代表输入图像的长度和宽度;

之后,图像的频域信息I

至此,经过数据预处理之后的图像信息分别输入空间信息特征提取分支和频域信息特征提取分支并完成特征提取;

步骤一四、采用自适应融合方式融合提取的空间域特征和频域特征,生成具有完备表征的多表征特征图;

步骤二、区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域;包括:首先,设计所述的候选区域包括区域建议网络部分和先验框生成部分;且仅令区域建议网络部分包含被训练的神经网络参数;之后,使用滑动窗口在图像的每个像素点上生成K个不同尺度和不同长宽比的先验框,通过与目标真实标签比较,将先验框划分为正样本或负样本;之后,训练区域建议网络的回归器,并利用训练后的区域建议网络预测每个先验框的目标概率和边界框偏移参数;

(1)所述的先验框生成部分具体为:

进行多表征图像提取,生成特征图;

之后,使用滑动窗口在特征图进行滑动,每滑动一个位置生成K个不同尺度和不同长宽比的先验框;每个先验框边界参数都被表示为四个参数化向量(P

(2)所述的区域建议网络部分具体为:

区域建议网络包括出现目标概率预测和先验框边界的偏移量预测,具体来说,具有多表征信息的特征图通过卷积核为3×3、步长为1、填充为1的卷积层建模特征信息;之后,上述操作生成的特征图送入两个分支,其中一条分支是:通过卷积核为1×1的卷积层生成通道为K的特征向量,K的数值对应上述操作中每个像素包含的先验框个数,该特征向量表示每个先验框中出现目标的概率,在另外一条分支,特征图通过另外一个卷积核为1×1的卷积层生成通道为4*K的特征向量,该特征向量用于计算先验框边界回归的偏移量,以生成候选区域;

(3)所述的训练区域建议网络的回归器具体为:

将所有的先验框划分为正样本和负样本两类,即:先验框/真实值的交并比最高或者重叠比例高于0.7的先验框被划分为正样本,先验框/真实值的交并比小于0.3的先验证框的归为负样本;并抛弃按照上述要求划分成正样本和负样本以外的其他样本;

之后,采用多任务损失来优化区域建议网络,具体的损失函数定义为:

式中,i是生成的先验框的索引,p

其中,区域建议网络为全卷积网络,使用上述多任务损失函数利用反向传播和随机梯度下降算法进行端到端的训练,训练过程中,采用正样本和负样本均衡的采样策略,每个小批量都来自一个包含许多正负样例的图像,在一幅图像中随机抽样先验框样本,其中正负样本的比例设置为1:1,如果出现正样本少于一半的情况,选择使用负样本来填充该小批量;

(4)所述的利用训练后的区域建议网络预测每个先验框的边界框偏移参数,具体为:

区域建议网络预测每个建议框的回归参数(d

其中,

步骤三、待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量,并用来计算目标类型概率和目标边界框回归参数,完成图像/视频的目标检测。

进一步地,步骤一一所述的数据预处理的步骤中,将数据集中的样本通过数据预转换为标准的输入格式的过程包括数据样本采样、数据标准化和样本尺度调整部分,具体为:

(i)所述的数据样本采样部分是将数据集中的样本被统一为图像的形式:

若样本为图像类型,则直接使用图像格式作为模型的输入,若样本为视频类型,则用间隔采样方法获得图像帧样本,将采样到的图像帧作为模型的输入;

(ii)所述的数据标准化部分:

采用下式对图像进行标准化操作,使数据分布均匀化;

其中,I

(iii)样本尺度调整部分:

在给定的N个样本中找到尺度最大的一个样本,记录其宽和高;

创建值全为0并且形状和最大的样本形状相同的张量,将该张量复制N份并在维度0上进行连接操作;

遍历所有样本复制到新生成的张量,并对齐左上角保证坐标不变。

进一步地,步骤一二所述的空间域信息特征提取的步骤中,将经过标准化处理后的图像映射为空间域信息I

空间域子网采用类自动编码器的主体结构,并设计编码器部分由2层卷积核为3×3,步长为1卷积神经网络和单层卷积核为3×3,步长为2的卷积神经网络组成;图像的空间域信息被馈送到编码器,生成包含空间语义信息的特征图;

在解码器部分,包含空间语义信息的特征图依次通过单层卷积核为4×4、步长为2的反卷积层和2层卷积核为3×3、步长为1卷积层,输出包含原图像空间抽象信息并且恢复到原始图像尺度的特征图;

在编码器和解码器之间堆叠6层具有不同扩张率的空洞卷积块,用于捕捉不同感受野下图像的特征信息;空洞卷积块设计感受野的采样方式,其中,一维空洞卷积定义为:

式中,s表示卷积核的大小,r表示扩张率,i表示采样位置,w[i]和o[i]分别表示第i个位置的卷积核和计算后得到的特征值;

编码器和解码器之间的6层空洞卷积块的扩张率拟设定为(2,2,2,4,4,4),每层空洞卷积块包含两层具有相同扩张率的空洞卷积;在不同扩张率的空洞卷积块之后加入残差连接,用于聚合不同感受野下的多尺度信息;空间域子网图像的数据流动形式化为:

F

式中,Encoder和Dncoder分别表示上述的编码器和解码器,ResDilated表示6层具有残差连接的空洞卷积块,I

进一步地,步骤一三所述的频域信息特征提取的步骤具体为:

第一、设计频域子网的结构:

频域子网采用类U-Net的结构,使用复数卷积层代替传统卷积层,并使用CReLU作为激活函数;其中,

所述的复数卷积用于解决传统卷积算子不能进行复值运算的问题,具体地:复数卷积通过两个不同的实值卷积组合实现对复数等同传统卷积的操作,其中实值卷积的滤波器的参数是共享的;设给定一个复数h=x+y和复数卷积滤波器W=A+Bi,式中,x和y分别表示实数分量和虚数分量,A和B为两个不同的传统卷积算子;复数h和复数滤波器W的卷积运算表示为:

W*h=(A*x-B*y)+i(B*x-A*y)(5)

式中,*表示常规的实数卷积运算;

所述的CReLU是为复值设计的激活函数,对神经元的实部和虚部分别应用单独的ReLU激活函数,其定义如下:

CReLU(z)=ReLU(R(z))+iReLU(I(z)). (6)

式中,z是复数,R(z)和I(z)分别表示复数的实部和虚;

第二、获得特征图;

首先,设计特征提取方法:

图像的频域信息I

之后,循环执行三次如下操作:

在接下来的每一阶段中,上一阶段输出的特征图被输入单层卷积核为3×3、步长为1的卷积操作,扩展其通道数到之前的二倍,然后使用两层卷积核为3×3、步长为1的复数卷积来编码深度特征,最后通过2×2最大池化将特征图尺度缩小为原图像的二分之一,并输出到下一阶段,每个阶段的数据流动如下:

stage

式中,stage

循环执行三次操作后,频域子网得到三个不同阶段输出的特征图stage

第三、进行拼接操作,生成新的特征图:

首先,基于stage

之后,重复上述操作直至特征图尺度恢复到输入频域子网的尺度大小;其中,每一阶段的数据流动如下:

U

式中,U

第四、通过逆傅里叶变换将特征图映射到空间域。

进一步地,步骤一四所述的采用自适应融合方式融合提取的空间域特征和频域特征,生成具有完备表征的多表征特征图,具体为:

空间域分支输出的特征图F

weight=Sigmoid(σ(cat(F

F

式中,σ(·)代表卷积神经网络,Sigmoid为激活函数,cat表示在通道维度的拼接操作;采用改造之后的EfficientNetB0生成多表征特征图F,并用于后续的感兴趣区域生成算法和目标预测算法;其中,

所述的改造之后的EfficientNetB0为:

将EfficientNetB0第一阶段的卷积模块的输入通道修改为6,同时在特征预测阶段保留前六个阶段作为特征提取器。

进一步地,步骤三所述的待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量具体为:

根据候选区域的目标概率分数,采用弹性极大值抑制(Soft-NMS)算法对候选区域采样;之后,采用RoIpooling对具有不同尺度大小的候选区域进行特征提取,候选区域映射为7×7大小的特征图。

本发明的有益效果为:

1、本发明算法重新设计特征提取的骨干网络,发掘图像/视频在不同表示空间下的特征,生成更加健壮的特征图并用于目标检测任务。具体地:

对于目标检测数据预处理的步骤:

首先,对图像进行标准化操作,使数据分布均匀化,减少模型学习数据分布的可能性,提升模型的泛化能力。

又有,针对深度学习模型训练过程中不能批量输入不同尺度的样本的问题,本申请通过设计具体的样本尺度调整方法,在给定的N个样本中找到尺度最大的一个样本,记录其宽和高;创建值全为0并且形状和最大的样本形状相同的张量,将该张量复制N份并在维度0上进行连接操作,如果计算资源有限,设定生成张量的形状为最大样本的整数倍;遍历所有样本复制到新生成的张量,并对齐左上角保证坐标不变,对于采用了等比例缩放的操作的,每一个样本也进行相同比例缩放后复制到新的张量;本申请方法能够将样本尺度进行调整的同时,还能保留图像的形状信息,保证图像语义信息不被破坏。

对于空间域信息特征提取的步骤:

在编码器和解码器之间堆叠6层具有不同扩张率的空洞卷积块,用于捕捉不同感受野下图像的特征信息,采用空洞卷积块重新设计感受野的采样方式,以提高网络的学习能力。在空间域子网中,每层卷积后添加批归一化层和ReLU激活函数,增强该网络空间域信息特征建模能力。

对于频域信息特征提取的步骤,本发明保留图像频域的完整性,采用复数卷积作为基础算子设计频域子网,以实现图像不同频率下的傅里叶系数的建模。

对于自适应融合方式融合提取的空间域特征和频域特征,本申请设计基于门控融合机制的网络来学习不同分支特征的重要性权重。充分利用来自不同流的特征信息,采用自适应融合模块动态融合来自双分支的特征。将两个分支分别在图像空间域和频域表示中提取具有标志信息的特征图,生成具有完备表征的多表征特征图。但空间域和频域信息生成的融合特征表示空间维度低,以至于并不能完全发挥混合特征的多表征优势。因此,本发明采用高效的特征提取网络EfficientNetB0来映射融合特征到更高维的特征空间,以使EfficientNetB0能够利用融合特征图生成最终的特征图F,并且将特征图F顺利应用于后续的感兴趣区域生成和目标预测。

2、本发明采用建议区域候选网络生成图像中候选区域,即可能会出现目标的区域。然后,通过采样算法选取最可能出现目标的区域,减少后续操作需要处理的候选框数量来提高算法的执行效率。

在预测候选区域时,本申请通过在一个窗口生成多个不同长宽比的先验框的策略,解决一个窗口只能预测一个目标的问题。在同一窗口生成多个不同尺度的先验框能够有效的解决多尺度问题。

针对区域建议网络先验框具有固定的尺度和长宽比,并且其本身并不具备边界参数回归的能力的问题,本发明设计一种边界框回归的学习策略,通过区域建议网络生成每个先验框的偏移参数,使用先验框和其对应的偏移参数来实现先验框的微调。由于区域建议网络是全卷积神经网络,所以产生偏移参数的函数是可学习的。

3、通过定量和定性的评估,证明本发明算法可以实现在不同场景下目标检测任务,并达到精准的效果。

附图说明

图1是本发明涉及的基于混合表征的图像/视频目标检测算法架构图示;

图2是本发明涉及的多表征图像特征提取过程;

图3是本发明涉及的频域子网结构图示;

图4是本发明涉及的复数滤波器运算过程;

图5是本发明涉及的自适应特征融合网络结构;

图6是本发明涉及的候选区域生成算法总体结构图示;

图7a-7d是利用本发明方法在工业安防领域下的应用效果,其中图7a为人员闯入检测,

图7b、图7c、图7d为安全帽服检测;

图8a-8d是利用本发明方法进行微小火苗检测的效果图示。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

本发明优选的实施例:

请参阅图1-图6、图7a-7d、图8a-8d,本发明提供一种技术方案:一种结合多表征特征以及候选区域生成法进行目标检测的方法,如图1所示的基于检测算法架构和基本流程,所述方法通过以下步骤实现:

步骤一、视频或图像被输入到基于多表征特征提取的骨干网络,基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征,生成包含完备表征信息的特征图;以帮助目标检测算法获取更优异的性能;

所述的基于图像空间域和频域信息的多表征特征提取算法提取完备的图像特征具体为:

图像的空间域信息常被用于进行各项计算机视觉任务,如图像分类、图像分割和目标检测等。事实上,图像的频域信息为更好的提取其特征带来一个新的视角,相比空间域信息,频域信息通常能够忽视由于光线、遮挡等问题带来的精度损失。引入频域信息能够有效提升算法在各类复杂场景下的目标检测精度。本发明设计一种基于图像空间域和频域信息的多表征特征提取算法用于提取完备的图像特征,以使目标检测方法获取更优异的性能。

步骤一一、数据预处理的步骤:

将数据集中的样本通过数据预转换为标准的输入格式;

步骤一二、空间域信息特征提取的步骤:

设经过标准化处理后的图像映射为空间域信息I

步骤一三、频域信息特征提取的步骤:

采用快速傅里叶变换将标准化后的图像从空间域转换为频域信息I

其中,M和N代表输入图像的长度和宽度;

之后,图像的频域信息I

至此,经过数据预处理之后的图像信息分别输入空间信息特征提取分支和频域信息特征提取分支并完成特征提取;

步骤一四、采用自适应融合方式融合提取的空间域特征和频域特征,生成具有完备表征的多表征特征图;图像的多表征特征提取过程如图2所示。

步骤二、区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域;

由于以往滑动窗口和选择搜索等方法经常被用来生成目标边界框。但是,这类方法耗费大量的计算资源,严重影响目标检测的实时性。所以,所述的区域建议网络利用多表征特征图预测可能出现目标的区域作为候选区域包括:首先,设计所述的候选区域包括区域建议网络部分和先验框生成部分;且仅令区域建议网络部分包含被训练的神经网络参数;之后,使用滑动窗口在图像的每个像素点上生成K个不同尺度和不同长宽比的先验框,通过与目标真实标签比较,将先验框划分为正样本或负样本;之后,训练区域建议网络的回归器,并利用训练后的区域建议网络预测每个先验框的目标概率和边界框偏移参数;两者结合实现先验框的回归能力。候选区域生成算法的总体结构如图6所示。

之前的工作中,滑动窗口和选择搜索等方法经常被用来生成目标边界框。但是,这类方法耗费大量的计算资源,严重影响目标检测的实时性。在本算法中,采用建议区域候选网络生成图像中候选区域,即可能会出现目标的区域。然后,通过采样算法选取最可能出现目标的区域,减少后续操作需要处理的候选框数量来提高算法的执行效率。

(1)所述的先验框生成部分具体为:

采用生成先验框来帮助提取图像中可能出现的区域主要有两个原因:

1)以往的算法一个窗口只能预测一个目标,本申请的在一个窗口生成多个不同长宽比的先验框的策略有效的解决了这个问题。

2)在同一窗口生成多个不同尺度的先验框能够有效的解决多尺度问题。

进行多表征图像提取,生成特征图;

例如,设输入图像长宽通道的大小是800×600×3,经过多表征图像提取后生成大小为50×38×112的特征图;

之后,使用滑动窗口在特征图进行滑动,每滑动一个位置生成K不同尺度和不同长宽比的先验框;每个先验框边界参数都被表示为四个参数化向量(P

例如,使用3×3的滑动窗口在特征图进行滑动,每滑到一个位置生成K不同尺度和不同长宽比的先验框。本申请采用128、256、512三种尺度和1:1、1:2、2:1三种长宽比,因此特征图中每个像素点能够生成3×3=9个不同尺度和不同长宽比的先验框;

(2)所述的区域建议网络部分具体为:

区域建议网络包括出现目标概率预测和先验框边界的偏移量预测,具体来说,具有多表征信息的特征图通过卷积核为3×3、步长为1、填充为1的卷积层建模特征信息,提高特征的鲁棒性;之后,上述操作生成的特征图送入两个分支,其中一条分支是:通过卷积核为1×1的卷积层生成通道为K的特征向量,K的数值对应上述操作中每个像素包含的先验框个数,该特征向量表示每个先验框中出现目标的概率,在另外一条分支,特征图通过另外一个卷积核为1×1的卷积层生成通道为4*K的特征向量,该特征向量用于计算先验框边界回归的偏移量,以生成更精确的候选区域;

(3)所述的训练区域建议网络的回归器具体为:

区域建议网络能够生成每个像素点的先验框内是否存在目标,并且给定先验框边界回归偏移量,更好的拟合每个目标的边界参数。为了更好指导区域建议网络生成目标存在概率和边界框的回归偏移量。

将所有的先验框划分为正样本和负样本两类,即:先验框/真实值的交并比最高或者重叠比例高于0.7的先验框被划分为正样本,先验框/真实值的交并比小于0.3的先验证框的归为负样本;并抛弃按照上述要求划分成正样本和负样本以外的对实验没有明显的意义的其他样本;

确定正负样本定义之后,采用多任务损失来优化区域建议网络,具体的损失函数定义为:

式中,i是生成的先验框的索引,p

其中,区域建议网络为全卷积网络,使用上述多任务损失函数利用反向传播和随机梯度下降算法进行端到端的训练,训练过程中,采用正样本和负样本均衡的采样策略,每个小批量都来自一个包含许多正负样例的图像,在一幅图像中随机抽样先验框样本,其中正负样本的比例设置为1:1,如果出现正样本少于一半的情况,选择使用负样本来填充该小批量;

例如,在一幅图像中随机抽样256个先验框样本,如果出现正样本少于一半128个的情况,则选择使用负样本来填充该小批量;

(4)所述的利用训练后的区域建议网络预测每个先验框的边界框偏移参数,具体为:

区域建议网络能够预测每个先验框中是否包含目标的概率,但是由于先验框具有固定的尺度和长宽比,并且其本身并不具备边界参数回归的能力。本发明设计一种边界框回归的学习策略,通过区域建议网络生成每个先验框的偏移参数,使用先验框和其对应的偏移参数来实现先验框的微调。由于区域建议网络是全卷积神经网络,所以产生偏移参数的函数是可学习的。具体来说,区域建议网络预测每个建议框的回归参数(d

其中,

步骤三、待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量,并用来计算目标类型概率和目标边界框回归参数;

步骤四、目标检测;

经过上述过程,算法中的所有参数得到了更新并生成最优的值。目标预测主要包括:首先,经过预处理之后的图像被输入到骨干网络提取多表征特征图;接下来,多表征特征图通过候选区域生成算法生成候选区域;最后,候选区域经过采样算法丢弃冗余部分,然后通过结合原多表征特征图生成最终的目标类别和目标的边界框参数,完成图像/视频的目标检测。

本发明重新设计特征提取的骨干网络,发掘图像/视频在不同表示空间下的特征,生成了更加健壮的特征图并用于后续的目标检测任务。由于基于混合表征的骨干网络的加入,该算法在复杂场景下同样能够保持良好的性能。

步骤一一所述的数据预处理的步骤中,将数据集中的样本通过数据预转换为标准的输入格式的过程包括数据样本采样、数据标准化和样本尺度调整部分,具体为:

(i)所述的数据样本采样部分是将数据集中的样本被统一为图像的形式:

目标检测任务数据集通常分为图像和视频两种类型的样本。算法中深度学习模型的输入规定必须为单一的形式,因此在数据预处理部分将数据集样本转换为统一的表示形式。

若样本为图像类型,则直接使用图像格式作为模型的输入,若样本为视频类型,则用间隔采样方法获得图像帧样本,将采样到的图像帧作为模型的输入;例如,对输入的一段视频,每间隔16帧采样一次。并可根据不同应用场景下的实时性需求,调整采样的间隔帧数,通过较小的间隔数提高输出视频的流畅度。

(ii)所述的数据标准化部分:

经过上述操作数据集中的样本被统一为图像的形式,之后,采用下式对图像进行标准化操作,使数据分布均匀化,减少模型学习数据分布的可能性,提升模型的泛化能力;

其中,I

(iii)样本尺度调整部分:

深度学习模型在训练过程中通常批量输入多个样本,并通过GPU实现并行运算提高训练速度。数据集中经常出现尺度大小不相等的样本,这导致无法使用批量训练,所以采用以下策略解决这个问题:

在给定的N个样本中找到尺度最大的一个样本,记录其宽和高;

创建值全为0并且形状和最大的样本形状相同的张量,将该张量复制N份并在维度0上进行连接操作,如果计算资源有限,设定生成张量的形状为最大样本的整数倍;

遍历所有样本复制到新生成的张量,并对齐左上角保证坐标不变,如果上一步操作中采用了等比例缩放,则这里的每一个样本也进行相同比例缩放后复制到新的张量;相比Resize操作,上述方法能够保留图像的形状信息,保证图像语义信息不被破坏。

步骤一二所述的空间域信息特征提取的步骤中,将经过标准化处理后的图像映射为空间域信息I

遵循现代网络标准设计方法,空间域子网采用类自动编码器的主体结构,并设计编码器部分由2层卷积核为3×3,步长为1卷积神经网络和单层卷积核为3×3,步长为2的卷积神经网络组成;图像的空间域信息被馈送到编码器,生成包含空间语义信息的特征图;此时所输出的特征图的尺度缩小到原尺度的二分之一;

在解码器部分,包含空间语义信息的特征图依次通过单层卷积核为4×4、步长为2的反卷积层和2层卷积核为3×3、步长为1卷积层,输出包含原图像空间抽象信息并且恢复到原始图像尺度的特征图;

此外,为了提高网络的学习能力,拟定在编码器和解码器之间堆叠6层具有不同扩张率的空洞卷积块,用于捕捉不同感受野下图像的特征信息;与传统卷积层不同的是,空洞卷积块重新设计感受野的采样方式,其中,一维空洞卷积定义为:

式中,s表示卷积核的大小,r表示扩张率,i表示采样位置,w[i]和o[i]分别表示第i个位置的卷积核和计算后得到的特征值;

编码器和解码器之间的6层空洞卷积块的扩张率拟设定为(2,2,2,4,4,4),每层空洞卷积块包含两层具有相同扩张率的空洞卷积;除此之外,在不同扩张率的空洞卷积块之后加入残差连接,用于聚合不同感受野下的多尺度信息;总的来说,空间域子网采用简单高效的设计方案,它的图像的数据流动形式化为:

F

式中,Encoder和Dncoder分别表示上述的编码器和解码器,ResDilated表示6层具有残差连接的空洞卷积块,I

步骤一三所述的频域信息特征提取的步骤具体为:

频域子网接受图像的频域信息作为输入,其频域信息I

第一、设计频域子网的结构,频域子网结构如图3所示:

频域子网采用类U-Net的结构,使用复数卷积层代替传统卷积层,并使用CReLU作为激活函数;其中,

所述的复数卷积用于有效解决传统卷积算子不能进行复值运算的问题,具体地:复数卷积通过两个不同的实值卷积组合实现对复数等同传统卷积的操作,其中实值卷积的滤波器的参数是共享的;设给定一个复数h=x+y和复数卷积滤波器W=A+Bi,式中,x和y分别表示实数分量和虚数分量,A和B为两个不同的传统卷积算子;复数h和复数滤波器W的卷积运算表示为:

W*h=(A*x-B*y)+i(B*x-A*y)(5)

式中,*表示常规的实数卷积运算;运算过程的直观表述如图4所示。

所述的CReLU是为复值设计的激活函数,对神经元的实部和虚部分别应用单独的ReLU激活函数,其定义如下:

CReLU(z)=ReLU(R(z))+iReLU(I(z))(6)

式中,z是复数,R(z)和I(z)分别表示复数的实部和虚;

第二、获得特征图;

首先,设计特征提取方法:

图像的频域信息I

之后,循环执行三次如下操作:

在接下来的每一阶段中,上一阶段输出的特征图被输入单层卷积核为3×3、步长为1的卷积操作,扩展其通道数到之前的二倍,然后使用两层卷积核为3×3、步长为1的复数卷积来编码深度特征,最后通过2×2最大池化将特征图尺度缩小为原图像的二分之一,并输出到下一阶段,每个阶段的数据流动如下:

stage

式中,stage

循环执行三次操作后,频域子网得到三个不同阶段输出的特征图stage

第三、进行拼接操作,生成新的特征图:

首先,基于stage

之后,重复上述操作直至特征图尺度恢复到输入频域子网的尺度大小;其中,每一阶段的数据流动如下:

U

式中,U

第四、通过逆傅里叶变换将特征图映射到空间域,以方便使用像素的位置信息来深度融合不同表征空间的信息。

步骤一四所述的采用自适应融合方式融合提取的空间域特征和频域特征,生成具有完备表征的多表征特征图,具体为:

上述两个分支分别在图像空间域和频域表示中提取具有标志信息的特征图。为了充分利用来自不同流的特征信息,本发明采用自适应融合模块动态融合来自双分支的特征。本发明设计基于门控融合机制的网络来学习不同分支特征的重要性权重。空间域分支输出的特征图F

weight=Sigmoid(σ(cat(F

F

式中,σ(·)代表卷积神经网络,Sigmoid为激活函数,cat表示在通道维度的拼接操作;为了突出显示多表征特征图的特点,本发明采用改造之后的EfficientNetB0生成多表征特征图F,并用于后续的感兴趣区域生成算法和目标预测算法;自适应特征融合的结构如图5所示;其中,

所述的改造之后的EfficientNetB0的结构及改进点为:

空间域和频域信息生成的融合特征表示空间维度低,以至于并不能完全发挥混合特征的多表征优势。因此,本发明采用高效的特征提取网络EfficientNetB0来映射融合特征到更高维的特征空间。为了使EfficientNetB0能够利用融合特征图生成最终的特征图F,并且将特征图F顺利应用于后续的感兴趣区域生成和目标预测。本发明将EfficientNetB0第一阶段的卷积模块的输入通道修改为6,同时在特征预测阶段保留前六个阶段作为特征提取器;利用改进后的EfficientNetB0,在多表征图像特征提取阶段,输入大小为(H,W,3)的图像经过双分支特征提取网络和改进后的EfficientNetB0特征提取器得到大小为(H/16,W/16,112)的特征图F;该特征图F聚合了空间域和频域表示空间的特征信息,可以有效提高整体算法的鲁棒性。特别地,由于多表征图像特征算法结构的设计,该算法允许任意尺寸的图像作为输入。

步骤三所述的待选区结合骨干网络生成的多表征特征图进行区域最大池化生成目标特征向量具体为:

根据候选区域的目标概率分数,采用弹性极大值抑制(Sofft-NMS)算法对候选区域采样;之后,采用RoIpooling对具有不同尺度大小的候选区域进行特征提取,候选区域映射为7×7大小的特征图。

另外,本申请采用如下训练方法以使算法中各组件的作用达到最大化,所述的训练方法具体为:首先,在ImageNet数据集上重新训练特征提取骨干网络。在该阶段网络模型选用完整版的EfficientNetB0;

然后,使用预训练骨干网络参数和初始化的区域建议网络的参数来训练区域建议网络,该阶段骨干网络和区域建议网络的参数都会被更新;

接下来,固定区域建议网络的参数,训练整个目标检测网络,该阶段骨干网络和目标回归预测中的网络参数会被更新;

再进一步,固定骨干网络参数,对区域生成网络进行训练,该阶段仅区域生成网络参数改变;

最后,固定骨干网络参数,对整个算法进行训练。该阶段区域生成网络和目标回归预测中的网络参数会被更新,并完成整个训练过程。

本发明的实施例公布的是较佳的实施例,但并不局限于此,本领域的普通技术人员,极易根据上述实施例,领会本发明的精神,并做出不同的引申和变化,但只要不脱离本发明的精神,都在本发明的保护范围内。

相关技术
  • 结合多表征特征以及目标预测法进行目标检测的方法
  • 一种结合区域提取与改进纹理特征的运动目标检测方法
技术分类

06120115930768