一种基于双线性和空间金字塔的池化方法

文献发布时间：2023-06-19 11:49:09

技术领域

本发明涉及图像处理和计算机视觉领域，特别涉及一种基于双线性和空间金字塔的池化方法。

背景技术

身处智能科学技术高速发展的时代中，智能监控的行为识别与目标检测等功能逐渐完善、普及，而其中的卷积神经网络中常使用池化操作用以降低卷积层输出的特征向量维度，在对表达原图语义影响最小的情况下改善结果。介于图像具有“静态性”的特点，在不同的图像区域，存在有用的特征常可共享适用的情况，旨在模仿人的视觉系统，池化操作可以对不同位置的特征进行聚合统计。

传统的池化方式一般有平均池化、最大池化与随机池化等，即取对应图像区域的平均值、最大值或取其中之一的元素，依照其概率大小随机选择，基于随机选择中元素值大被选中的概率也相继提升，这一方面确保了最大值的取值范围，另一方面保存了其他元素的存在感，防止造成过度失真，但无论何种方式，仍伴随着一定量的数据丢失、全连接层的输入需要固定输入维度、类似纹理上的特征的细节特征模糊等问题。

端倪不同池化方法对应的优劣，本发明拟采用双线性池化针对两个特征融合，再通过金字塔池化降维固定输出维度的方式得到对应特征图，对行为识别目标检测的精确性有更好的帮助。

发明内容

为了解决现有的针对于行为识别、目标检侧等的图像池化方法的缺陷，本发明结合双线性池化与金字塔池化，首先对目标图像中的对象进行多特征提取，将特征组进行双线性融合得到融合后的全局特征图，再对其对应位置进行金字塔池化。本发明的池化方法融合了更多的图像特征，降低了数据丢失，为提高后续的分类准确率打下了基础，且针对于任何大小的图像输入，均产生固定大小的输出，能够适应于多种分类器，应用广泛。本发明解决其技术问题所采用的技术方案如下：

一种基于双线性和空间金字塔的池化方法，包括以下步骤：

S1：根据监控系统记录的时间顺序获取视频流，所述的视频流中包含待检测的对象；

S2：对截取的视频流进行预处理，包括视频镜头分割和关键帧提取，将提取到的关键帧图像作为目标图像；

S3：识别目标图像中的对象并标注候选框，对候选框内的对象进行多特征提取，获取多特征数据；

S4：通过双线性法将目标图像同一位置对应的多特征相乘，得到局部特征图，再将图像中的所有目标位置对应的局部特征图进行求和池化，得到融合后的全局特征图；

S5：将融合后的全局特征图进行金字塔池化，降低特征图的维度；对降维后的特征图进行归一化处理，作为目标图像最终的特征，完成池化操作，将得到的最终特征用于后续分类，实现待检测对象的识别。

与现有技术相比，本发明的优势在于：

(1)本发明利用双线性法能够实现对不同层级、多种类别的特征组进行融合，这组特征组可以是不同层级不同频率的有关特征组；也可以是以不同提取方式提取的相似特征组，其单独特征有自身原有的维度。由于融合后的特征图包含了不同层级、不同种类的特征，得到的特征信息更加全面，为提高后续的分类准确率打下了基础。

(2)本发明对经过双线性融合后的特征图进一步采用金字塔池化的方法进行降维，对特征图进行了不同尺寸的池化操作，得到了不同分辨率的特征信息，从而有效提高网络对特征的识别精度。并且，相对于传统的R-CNN降维方法，本方明使用了不同刻度的窗口对全局特征图进行划分，针对每一个特征区域进行池化，设置不同层的权值，最后经拼接得到统一平方和维度的特征，其数值远小于的R-CNN计算方式下维度，计算效率高。

附图说明

图1是本发明方法的流程图；

图2是本实施例中采用的双线性池化示意图；

图3是本实施例中采用的空间金字塔池化示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步描述本发明。

如图1所示，本发明提出的一种基于双线性和空间金字塔的池化方法，将双线性池化与空间金字塔池化相结合，用于多特征融合并降低得到统一维度，包括如下步骤：

步骤1：采集筛选数据，获取视频流。本发明部分数据来自INRIA XMAX多视角视频库，部分数据由监控系统拍摄录制。

步骤2：对截取的视频流进行预处理，包括视频镜头分割和关键帧提取，将提取到的关键帧图像作为目标图像。

步骤3：识别目标图像中的对象并标注候选框，对候选框内的对象进行多特征提取，获取多特征数据。

步骤4：如图2所示，对已提取的多特征点采用双线性池化的方法对多特征进行线性融合，输出线性融合后的特征图。

步骤5：如图3所示，对线性融合后的特征图采用空间金字塔池化的方法降维，统一输出尺寸，进一步处理。

在本发明的一项具体实施中，步骤1获取的视频流中包括待检测对象的不同视角的拍摄图像，根据具体的应用场景进行设置。在步骤2和步骤3之间还包括采用块匹配的方法将每一个关键帧图像划分为区域块的步骤，连续帧之间的相似性通过比较对应的区域块来进行判断，该方法利用了图像的局部特征来抑制噪声。

在本发明的一项具体实施中，步骤3提取到的多特征构成特征组，每一种类型的特征有自身原有的维度，这组特征组可以是不同层级不同频率的有关特征组；也可以是以不同提取方式提取的相似特征组。本实施例中采用动态视频特征的提取技术进行多特征提取。

如图2所示，对提取到的多特征通过双线性融合处理，将目标图像同一位置对应的多特征相乘，得到局部特征图，再将图像中的所有目标位置对应的局部特征图进行求和池化，得到融合后的全局特征图；具体为：

针对图2中的目标图像I，通过两个分支分别提取不同的特征，将相同位置处提取的特征进行相乘，计算公式为：

式中，b(l,I,f

对图像中的所有目标位置对应的局部特征图进行求和池化，得到全局特征图，计算公式为：

式中，ξ(I)表示目标图像的全局特征图，即图2中的最终输出。

在本发明的一项具体实施中，如图3所示，将融合后的全局特征图进行不同尺度的金字塔池化，降低特征图的维度，得到不同分辨率的特征信息；对降维后的特征图进行归一化处理，以统一的标准维度输出，作为目标图像最终的特征；此处需要说明的是，图3的输入数据为图2中的最终输出，即上述中的ξ(I)，而图3中给出的图片仅作示例用途。具体为：

1)使用不同刻度的窗口对全局特征图进行划分，每种刻度代表金字塔的一层，在每一层中均将全局特征图划分成为图像块。

图像划分计算公式：

Win-size＝[a/n]——池化窗口(向上取整)；

Str-size＝[a/n]——池化步幅大小(向下取整)；

a代表金字塔池化层输入的特征图尺寸为a×a；

n代表金字塔池化层输出的特征图尺寸为n×n。

2)对每一个图像块进行统一的池化操作，设置每一层池化得到的特征图层个数作为权值，提取出更高级的图像特征信息；此处所述的池化操作可以是最大池化、平均池化或者随机池化。

3)将每一层生成的对应维度的特征向量进行级联。

4)对级联后的特征向量进行归一化处理，作为目标图像最终的特征。

本实施例中，如图3所示，采用三层的金字塔进行池化，制定对应层专属的不同分辨率，提取相应层数的特征图。

设定池化层1分辨率为a×a，池化层2分辨率为b×b，池化层3分辨率为c×c，分别为取各池化层特征图层个数为x、y、z作为权值。在每一层对应维度分别为a×a×x、b×b×y、c×c×z的特征向量，其中的x、y、z可针对识别需求选定相应数值的大小，若被识别的对象在整体图片中占据面积较小，则小区域的池化层权值需要相应较大；若被识别对象注重整体图像各部分的关联，占据面积较大，则相对较大区域的池化层对应权值就要酌情加大。例如：当应用于交通信号标志识别等小目标时，由于标志一般比较细微，在图片中占据面积较小，但是其语义信息很集中，那么针对图3中池化层3的z数值就要偏大，在(x+y+z)这个总集数中占比较重；同样的，当应用于行人动作识别时，由于人在整张图片中占比面积较大，那么池化层3的权值z就适量减小，而池化层2和池化层1的权值x、y的占比相对增大，在权重占比方面，x、y、z是有百分比差距的，但是其本身是一个数值(整数)，直接决定了线性级联后各维度语义特征的数量。

结合图3所示，本实施例中池化层1采用1×1的窗口对全局特征图进行划分，即未划分为小区域，设置池化层1的输出的特征图层个数设为x，其输出1×1×x的特征向量；池化层2采用2×2的窗口对全局特征图进行划分，即将全局特征图划分为了2×2的小区域，设置池化层2的输出的特征图层个数设为y，其输出2×2×y的特征向量；池化层3采用4×4的窗口对全局特征图进行划分，即将全局特征图划分为了4×4的小区域，设置池化层3的输出的特征图层个数设为z，其输出4×4×z的特征向量。最终将三个特征向量进行线性级联特征融合，得到(a×a×x+b×b×y+c×c×z)维度的特征向量，此特征向量融合了双线性特征融合的语义信息，同时包含了不同尺度不同层级的特征信息。对级联后的特征向量通过归一函数进行归一化处理，作为目标图像最终的特征，用于后续分类器分类。

在本实施例中，在确定了x、y、z的数值后，由于不同分辨率的池化层设定，在每一层得到了数目不等、维度不同的特征向量，其中池化层3提取了z个16维特征向量，池化层2提取了y个4维特征向量，池化层1提取了x个1维特征向量，在此处是将三层提取的特征向量特征融合，此处的特征融合是神经网络中的一种常规手段，本实施例采用了直接的“早融合”：Concat进行的特征融合，得到的线性级联向量的维度就是三层池化层分别得到的维度向量相加，此融合向量用于后续分类器分类，选取不同维度的语义信息对识别结果进行判别，例如SVM分类器等。本发明对特征融合方法及分类器的选择不做限定，均可依照实际需求与操作环境取代。

本发明利用双线性池化针对特征组进行融合，再通过金字塔池化降维，以固定输出维度的方式得到对应特征图，最终特征图中包含了不同层级、不同特征、不同维度及分辨率采样下后的语义信息，将其用于后续分类能够有效提高行为识别、目标检测的精确性。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：邵一鸣;包晓安;包梓群;许铭洋;马云龙;马铉钧;
专利申请人：浙江理工大学;

上一篇：半导体结构及其形成方法
下一篇：一种全数字化、高效率的VHF电台发射机