掌桥专利:专业的专利平台
掌桥专利
首页

基于多层特征融合的Faster R-cnn上下文机制优化方法

文献发布时间:2024-04-18 19:52:40


基于多层特征融合的Faster R-cnn上下文机制优化方法

技术领域

本发明属于目标识别技术领域,涉及一种优化的上下文机制(基于多层特征融合的Faster R-cnn上下文机制)的目标检测方法。

背景技术

在一些高空监控的场景中,一些无源监控对于环境的捕捉在很长一段时间内是处于静态的,处于静态的摄像头捕捉到的画面相比于动态摄像头有捕捉到的画面在每一帧的分别上更具有长期的高度一致性。在捕捉到的视野中,处于不同月份不同天数的画面可能也具有十分的相似性,例如,轨道交通摄像头用于捕捉画面,在对收集到的画面进行分析处理时,尝试用距离这些画面相近的一段时间内的相关信息来帮助决定以及判断当前情况下的情境。这些通过包含过去记忆数据的注意力机制来完成。

视频目标检测架构建立在单帧模型之上,并通过合并来拟合其他帧的上下文线索(如传统HyperNet方式),来处理视频数据中其余的问题,例如运动模糊、遮挡和罕见的姿势。这类处理方法有类似流的概念来聚合特征,或者使用相关性将当前时间步上的特征和相邻时间步紧密关联。上述大多数的视频检测方法都不太适合目标设置稀疏、不规则帧率的问题。例如,基于流的方法、3d卷积以及LSTMs这些通常比较密集、规则的帧率采样方法。

传统HyperNet方式。cnn通过输入图像进行提取特征,得到对应feature maps,对其输入rpn网络后产生得到对应的候选框,并实现对候选框的分类,分类包含对候选框内内容进行判别,判别其是图片背景还是另外前景内容,判别后剔除背景候选内容,只取前景。但是传统方式中,浅层信息中的特征语义信息薄弱,并不能完整的描述对于小目标的表达,而采用上采样的方式对特征图采样后与其他层特征融合,这一方式不仅会导致信息的遗失和遗漏,不利于对于小目标的检测,影响算法对于不同目标的检测速度。

反卷积,作为卷积层中的上采样方法,又被称作转置卷积。作为传统的卷积方式,它会在得到产生的图像中导致棋盘效应。因此在上采样方法中用反池化的方法替代,使棋盘化效应得到解决。

因此,亟需一种新的上下文机制优化方案来解决现有静态视频目标检测不准确的问题。

发明内容

有鉴于此,本发明的目的在于提供一种基于多层特征融合的Faster R-cnn上下文机制优化方法,利用静态摄像机的长期位置不发生改变的特点,使用一种特征冻结方式创建长期的记忆库,存储受探测者长期以来的习惯性行为。在结构中增加短期注意力机制,将正例和假正例也加入进学习的范围之内,修正识别结果,提高模型对于识别静止不动物体的正确率。

为达到上述目的,本发明提供如下技术方案:

一种基于多层特征融合的Faster R-cnn上下文机制优化方法,在传统的使用HyperNet提取预选框特征向量的基础上,将基于不同于传统方式改进的多层特征融合模块加入模型中,对图像不同层次的语义信息进行提取;并将传统采样方式改进为反池化,避免棋盘化问题。然后,将得到的特征向量与上下文注意力机制融合得到多信息特征向量,最终进行识别分类。

该方法具体包括以下步骤:

S1:将当前关键帧与相关上下文帧输入多层特征融合模块,对其提取预选框特征向量;

S2:多层特征融合模块中卷积层深层次采用反池化进行上采样;

S3:对于通过多层特征融合模块输出的当前关键帧与相关上下文帧的预选框特征向量,将其分别输入到注意力模块和构建短期记忆库的模块中;

S4:当前关键帧的预选框特征向量经过长短期注意力模块,完成上下文相关特征的合并;

S5:收集所得到的处理后的预选框特征向量,对其进行分类与框优化。

进一步,步骤S1中,将当前帧作为关键帧,与和当前作为关键帧的前后相关帧一同被抽取分别输入到多层特征融合模块中,多层特征融合模块是基于改进的HyperNet方法,基于VGG网络,对卷积层的不同深度层次采用不同方式提取特征,更好结合各层的语义信息。具体方法是:将传统方式中对于将传统的第1、3、5层的特征层选取,改进为分别将1、2、5层特征联合,并将1、4、5层的深层特征联合,最后将两层特征进行通道拼接,以获得更详细的语义信息;然后,整个模块通过卷积层转发并生成聚集分层的特征图,然后将它们压缩到一个统一的空间,即超特征;最后,构建一个生成预选框网络,产生大约100个预选框作为输出返回各个帧提取到的预选框特征向量。

更进一步,步骤S1中,多层特征融合模块接收到当前输入的帧,模块以VGGNet作为它的基础网络,将1、2、5三个特征层进行抽取,对其进行特征拼接。对于第1层特征,首先将其通过卷积层以此减小通道数来达到减小计算量,同样将第2、5层特征通过卷积层后通过一个进行上采样,之后采用反池化将第二、三层特征的像素变成与第一层相同,以便于融合。

同样的操作类比于第1、4、5层的深层特征,对于第1层特征,同样将其通过卷积层以此减小通道数来达到减小计算量,同样将第四、五层特征通过卷积层后通过一个进行上采样,之后采用反池化将此第4、5层特征的像素变成与第一层相同,以便于融合。

进一步,步骤S2中,将多层特征融合模块中使用的传统的反卷积上采样方式更替为反池化,以解决前者带来的棋盘化问题,池化将不重要的信息舍去,保留主要的信息。反池化是池化的逆操作;从池化后的数据还原出原始的数据值时,运用补位操作来对还原出的数据中缺失的数据进行补位,实现数据完整的最大化操作。

进一步,步骤S3~S4中,将当前帧预选框特征向量通过两个分别基于不同记忆库的注意力模块,这些模块以不同的方式索引到记忆库中,使得其中短期记忆库将上下文帧的特征纳入到此记忆库中;这些基于注意力的模块返回一个基于上下文的特征向量,并输入到下一步进行对预选框的分类与框优化。

进一步,步骤S3中,相关上下文的预选框特征向量输入短期记忆模块中,构建短期记忆库;当前关键帧的预选框特征向量分别经过长、短期记忆模块中,将其汇总为与短期特征和长期特征相关的特征向量。

进一步,步骤S5中,获取经过注意力模块处理后的关键帧及相关上下文帧的预选框特征向量,送入分类模块中,在传统FC-Dropout-FC-Dropout的层次设计基础上,在全连接层前添加一个3×3×63的卷积层,通过卷积层将特征维度减少一半后输入全连接层,优化之后各层的计算,其次将dropout ratio降低为原来的一半,减少过拟合的现象。即预选框通过池化层后增加一层卷积,其余与传统模型大同小异;通过池化和卷积层对预选框进行分类,完成目标检测输出。

本发明的有益效果在于:本发明首先对传统模型中HyperNet进行改进,即改进HyperNet在上下文注意力模型中的融合,能够获得更详细的语义信息。其次,本发明对传统特征融合中上采样方式的改进。以上方法相结合,运用到高空静态摄像头识别场景,有利于增强对小目标识别的效果,提升检测精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

图1为本发明基于多层融合的改进的HyperNet上下文方法模型框架图;

图2为本发明模型中多层特征融合模块改进后的处理流程图;

图3为本发明采用的注意力模块结构图;

图4为预选框的分类与框优化模块结构图;

图5为平均池化过程示意图;

图6为反平均池化过程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

请参阅图1~图6,本发明提供一种基于多层特征融合的Faster R-cnn上下文机制的目标检测方法,基于上下文框架构建了一个“记忆库”,并修改了一个检测模型,以这个记忆库为条件进行预测。

如图1所示,基于多层融合的改进的HyperNet上下文方法模型结构为:

首先,图像通过多层特征融合模块提取当前帧和相关联帧的预选框特征,并返回关于各个帧的类无关的预选框特征向量集合。如图2所示,多层特征融合模块模型的实现步骤如下:

最初图像输入到特征提取网络中,对不同层进行不同的采样策略。将1、2、5层分别进行不同的特征提取方式后进行融合。

对于第1层,首先将其通过一个3乘3的卷积层,以此方式来减少特征层的通道数,并将其通过一个relu层。其余两层首先通过一个1乘1的卷积层同样达到减少通道数的目的,之后将通过卷积层的特征送入一个relu层后进行反池化上采样,最后将三个特征层进行融合。

类比于第1、4、5层的深层特征,对于第1层特征,同样将其通过卷积层以此减小通道数来达到减小计算量,同样将四、五层特征通过卷积层后通过一个进行上采样,之后采用反池化将此两层特征层的像素与第一层相同以便于融合。

之后整个模块通过卷积层被转发并生成聚集分层的Feature Maps,然后将它们压缩到一个统一的空间,即超特征。接下来,构建一个生成预选框网络,产生大约100个预选框作为输出,完成向量集合的返回。

经过多层特征融合返回的预选框特征通过两个基于注意力的模块(不同地)索引到记忆库,允许模型合并上下文框架(由同一摄像机看到)的特征,以提供局部和全局的时间上下文。其中,当前帧预选框特征向量通过两个分别基于不同记忆库的注意力模块,这些模块以不同的方式索引到记忆库中,使得其中短期记忆库能将上下文帧的特征纳入到此记忆库中,用来提供局部和整体的时间背景。

如图3所示,注意力模块的结构为:

关键帧特征为当前帧的输入特征的张量,其形状为[n×7×7×2048],其中n为通过多层特征网络返回的候选框的数量。在特征宽度和高度维度上对关键帧特征进行空间汇集,产生形状为[n×2048]的池化层。相关上下文特征矩阵的输入可以为短期记忆库或长期记忆库。定义k为关键函数,q为查询函数,v为值函数,f为最终投影,它将我们返回到正确的输出特征长度,并添加回输入特征中。

用两个个不同的θ(θ

其中,w是形状为[n×m]的注意力权重,d是特征深度(2048)。接下来,通过对上下文特征的投影、加权之和,为每个框构建一个上下文特征输出F

F

其中,F

这些基于注意力的模块返回一个基于上下文的特征向量,并输入到下一步进行对预选框的分类与框优化,如图4所示。

上下文长期记忆库:给定一个预定义的时间范围i

限制候选框的数量——考虑多种策略,最终决定保存哪些特征和多少特征存入到记忆库中。以上内容再添加上稀疏帧率,并通过使用这些策略方法,就可以构建容纳多达8500个上下文特征记忆库。

短期记忆:实验过程表明,我们使用与关键帧相同、经过训练的第一阶段特征提取器,并加入一个单独的机制来纳入附近帧的短期背景特征是有帮助的。与上面上期记忆不同,我们使用冻结特征提取器在更长的时间范围上建立长期记忆。不一样的地方在于过程中我们不对短期特征进行整理:对于小的窗口尺寸,可以在记忆中保留所有的候选框窗口特征。在当前帧周围的一个小窗内的所有帧中提取实例级特征的叠加张量,并在空间维度上进行全集汇集。这就产生了一个形状为(每一帧候选框帧数)*(特征深度)的矩阵,其中包含每个候选框的单一嵌入向量(短时记忆),之后被传递到短时注意力模块。

预选框分类与框优化:在传统检测网络基础上的改进,在全连接层之前添加了一个3×3×63的卷积层,减少了一半的特征维度。预选框通过RIO池化层后增加一层卷积,其余与传统模型大同小异,最终通过评分和回归操作得到识别结果,预选框模块如图4所示。

反池化:反池化是池化的逆操作。池化的过程只能保留主要信息,而舍去部分不重要的信息,不能将池化后的操作还原出初始的数据值。若从池化后的数据中尝试还原出原始的数据值,那么得到的结果中则存在数据缺失,可以通过部位操作来实现对数据补全来实现数据完整的最大化操作。

平均池化和反平均池化:如图5和图6所示,首先还原成原来的大小,然后将池化结果中的每个值都填入其对应原始数据区域中相应位置即可。平均池化和反平均池化的过程如图五。

最大池化和反最大池化:要求在池化过程中记录最大激活值的坐标位置,在之后的反池化过程中,只把池化过程中最大激活值所在位置坐标值激活,其他的值设置为0。这个过程只是一种近似。因为在池化过程中,除了最大值的位置,其他的值也是不为0的。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

技术分类

06120116333127