掌桥专利:专业的专利平台
掌桥专利
首页

步态识别特征提取方法、步态识别方法、设备和介质

文献发布时间:2023-06-19 19:28:50


步态识别特征提取方法、步态识别方法、设备和介质

技术领域

本申请属于视频图像处理技术领域,具体涉及一种基于视频编码数据的步态识别特征提取方法。

背景技术

步态识别是一种依赖人体行走过程中的姿态、人体的体型信息进行身份识别的技术,具有远距离不易伪装的优点,在刑侦或安防等领域具有广泛的应用前景。

现有的步态识别技术,往往是将连续的步态轮廓图像序列输入到神经网络中,对目标对象进行身份识别。但事实上,原始视频序列中帧间存在大量的冗余信息,庞大的视频数据量会增加存储开销,也使得神经网络模型难以快速提取得到有效的信息,在进行模型训练时会大大增加时间成本;在实际应用中也将导致识别速度变得缓慢。

现有的利用视频编码中运动矢量或残差来代替光流的运动表示,虽然避免了视频的解码和光流的计算,但由于P帧只保留与前一帧(I帧或P帧)的差别,当相邻帧冗余性过高时P帧几乎不包含有用信息,数据具有很高稀疏性;而运动矢量通常是由块匹配估计算法计算而得,容易因为像素变化等环境因素产生错误估计,所得数据包含很多噪点信息;直接将运动矢量或残差来代替光流的运动表示进行步态识别的精度不高。

现有的使用运动矢量进行手势识别的方法取得了较好的效果,其能够准确地识别静止的手型以及运动的手势变化即宏观动作和主要移动方向;但应用于步态识别时无法在连续时间内挖掘步态轮廓变化的特征,即这种精细的步态轮廓是运动矢量无法提供的,因此现有使用运动矢量进行手势识别的方法进行步态识别时识别准确率较低。

综上所述,如何提高识别速度和识别精度,降低存储开销,是目前本领域技术人员亟待解决的技术问题。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足,本申请提供一种步态识别特征提取方法、步态识别方法、设备和介质。

(二)技术方案

为达到上述目的,本申请采用如下技术方案:

第一方面,本申请实施例提供一种基于视频编码数据的步态识别特征提取方法,该方法包括以下步骤:

S1、获取待检测目标的视频图像数据,所述视频图像数据采用MPEG-4视频压缩标准编码;

S2、针对所述视频图像数据中图像组的P帧图像,基于预设的残差图像熵阈值,选取残差图像熵大于所述残差图像熵阈值的残差图像作为待优化残差图像,将相应的运动矢量作为待优化运动矢量;

S3、基于预设的分割阈值,从所述待优化残差图像中分割得到步态轮廓图;

S4、基于所述步态轮廓图对所述待优化运动矢量进行优化,得到优化后的运动矢量。

可选地,步骤S2包括:

通过加权平均法将所述P帧图像中三通道的残差图像转化为灰度图;

计算每张灰度图残差图像的图像熵;

选取残差图像熵大于预设的残差图像熵阈值的灰度残差图像作为待优化残差图像,将相应的运动矢量作为待优化运动矢量。

可选地,通过以下公式将所述P帧图像中三通道的残差图像转化为灰度图像,并转成100*100大小:

Gray(x,y)=0.299Red(x,y)+0.587Green(x,y)+0.114Blue(x,y)

其中,Gray为灰度图像,Red、Green、Blue分别为红色、绿色、蓝色三个通道残差图像,x、y分别为像素点的横、纵坐标。

可选地,在步骤S2之后、S3之前还包括:

通过以下公式对所述待优化残差图像进行双边滤波,

其中,η为归一化因子,

可选地,步骤S3包括:基于预设的分割阈值,采用以下分割函数从所述待优化残差图像中分割得到步态轮廓图:

其中,B

可选地,步骤S4包括:

将所述步态轮廓图与所述待优化运动矢量进行对齐处理,扩充为双通道;

基于所述步态轮廓图,按照以下公式对所述待优化运动矢量优化,得到优化后的运动矢量:

其中,λ表示优化权重,mv

可选地,预设的残差图像熵阈值取值为1。

第二方面,本申请实施例提供一种步态识别方法,该方法包括:

通过如上第一方面任一项所述的基于视频编码数据的步态识别特征提取方法得到待检测目标优化后的运动矢量;

将优化后的运动矢量输入到预先建立的步态识别模型中,得到所述待检测目标的身份识别信息。

第三方面,本申请实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上第一方面任一项所述的基于视频编码数据的步态识别特征提取方法的步骤。

第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面任一项所述的基于视频编码数据的步态识别特征提取方法的步骤。

(三)有益效果

本申请的有益效果是:本申请提出了一种步态识别特征提取方法、步态识别方法、设备和介质,其中的方法包括:S1、获取待检测目标的视频图像数据,视频图像数据采用MPEG-4视频压缩标准编码;S2、针对视频图像数据中图像组的P帧图像,基于预设的残差图像熵阈值,选取残差图像熵大于所述残差图像熵阈值的残差图像作为待优化残差图像,将相应的运动矢量作为待优化运动矢量;S3、基于预设的分割阈值,从待优化残差图像中分割得到步态轮廓图;S4、基于步态轮廓图对待优化运动矢量进行优化,得到优化后的运动矢量。该方法降低了步态识别过程中的计算量及对计算资源的占用率,提高了步态识别速度和准确率,并且降低了存储开销。

附图说明

本申请借助于以下附图进行描述:

图1为本申请一个实施例中的基于视频编码数据的步态识别特征提取方法流程示意图;

图2为本申请一个实施例中用于步态识别的网络模型框架图;

图3为本申请另一个实施例中的步态识别方法流程示意图;

图4为本申请又一实施例中的电子设备的架构示意图。

具体实施方式

为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。可以理解的是,以下所描述的具体的实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合;为了便于描述,附图中仅示出了与发明相关的部分。

在对本申请的基于视频编码数据的步态识别特征提取方法进行介绍之前,先对本申请中涉及的视频编码数据所采用的视频压缩编码标准MPEG-4进行说明。

MPEG-4视频压缩编码方式将视频分为I帧(帧内压缩帧)、P帧(帧间预测帧)和B帧(双向预测帧),其中I帧是视频中的关键帧,通常是包含视频帧完整信息的RGB图像;P帧是帧间预测帧,每个P帧由在它前面的P帧或者I帧预测而来,B帧是双向预测帧,由前面的I或P帧和后面的P帧预测得到,P帧和B帧均采用运动估计和补偿的方法进行计算,完整的压缩视频将由I帧、P帧和B帧堆叠而成。

视频压缩编码算法进行视频编码时,对视频的处理主要包括帧内预测压缩和帧间预测压缩两大部分。压缩算法首先将每帧图像进行分割处理,将视频帧图像横向切割为若干条,再纵向切割成若干块,取划分的像素块称为宏块,通常以16×16大小的宏块为基本的操作单位,然后对视频帧进行帧分组,计算相邻两帧之间宏块的相似度,根据阈值将关联度高的视频帧合并为一组,每组帧中仅保留开始的第一帧的完整图像数据,称为I帧,其他帧均参考上一帧计算得到,称为P帧或B帧,这样编码后的视频帧组称为图像组(Group ofPictures,GOP)。

P帧包含像素块相对于前一帧变化的运动矢量以及恢复运动矢量未捕获的细节所需的残差信息,参考前一时刻的P帧单向计算运动矢量和残差,而B帧可以视为特殊的P帧,与P帧相似,它参考前一时刻和后一时刻的P帧双向计算运动矢量和残差,但由于B帧包含未来时刻的信息,对步态识别任务本身没有太多的帮助,本发明仅使用P帧进行特征提取。

P帧仅由此刻的运动矢量V(t)和残差Δ

其中,

通过运动估计(运动矢量)和运动补偿(残差)可以去除帧间冗余度,使得基于视频编码数据的深度学习方法的训练效率大为提升。然而,由于P帧只保留与前一帧(I帧或P帧)的差别,当相邻帧冗余性太高时,P帧几乎不包含有用的信息,数据很具稀疏性,并不利于输入网络学习。编码视频中的残差数据与运动矢量均提取于P帧,可以清晰的表示出人体的轮廓和步态特征的同时又与运动矢量信息高度相关。直接使用步态视频中提取的运动矢量往往包含很多噪点和干扰信息,这些信息最终会影响识别效果。

为了解决以上问题,本申请从对编码数据优化的角度出发,弥补运动矢量和残差数据中存在的不足之处,将运动矢量与残差结合,提出一种基于视频编码数据的步态识别特征提取方法流,下面通过具体的实施例对本发明方法进行说明。

实施例一

图1为本申请一个实施例中的基于视频编码数据的步态识别特征提取方法流程示意图,如图1所示,本实施例的基于视频编码数据的步态识别特征提取方法可应用于图像识别系统中,包括:

S1、获取待检测目标的视频图像数据,所述视频图像数据采用MPEG-4视频压缩标准编码;

S2、针对所述视频图像数据中图像组的P帧图像,基于预设的残差图像熵阈值,选取残差图像熵大于所述残差图像熵阈值的残差图像作为待优化残差图像,将相应的运动矢量作为待优化运动矢量;

S3、基于预设的分割阈值,从所述待优化残差图像中分割得到步态轮廓图;

S4、基于所述步态轮廓图对所述待优化运动矢量进行优化,得到优化后的运动矢量。

本实施例的基于视频编码数据的步态识别特征提取方法,通过计算每张残差图的图像熵选取更具代表的编码数据用于模型训练识别,减少数据量的同时提升识别精度,解决数据稀疏的问题;利用残差中较为精细的轮廓信息去除运动矢量中因错误估计产生的噪点信息,得到更为精细的特征表示解决运动矢量带来的噪声,降低了步态识别过程中的计算量及对计算资源的占用率,同时提高了步态识别速度和识别精度,并且降低了存储开销。

为了更好地理解本发明,以下对本实施例中的各步骤进行展开说明。

S1、获取待检测目标的视频图像数据,视频图像数据采用MPEG-4视频压缩标准编码。

这里视频图像数据可以是通过位于待检测目标所在环境内的数据采集装置来实时采集并录制的视频数据,也可以是存储于视频存储系统中的预先录制的视频文件。

本实施例对视频图像数据来源不做具体限定。

S2、针对所述视频图像数据中图像组的P帧图像,基于预设的残差图像熵阈值,选取残差图像熵大于所述残差图像熵阈值的残差图像作为待优化残差图像,将相应的运动矢量作为待优化运动矢量。

图像熵是一种特征的统计形式,可用于计算残差所包含的信息量。通过计算每张残差图的图像熵值H,并将其与预先设定的阈值相比较,进而可以提取到较为关键的P帧。

具体过程如下:

每一个GOP中有7帧,第i个GOP中的残差序列如公式(2)所示:

其中,

从所述残差数据中计算所述残差数据的图像熵;

为了加快计算速度,使用如公式(3)所示的加权平均法,将得到的三通道残差图

Gray(x,y)=0.299Red(x,y)+0.587Green(x,y)+0.114Blue(x,y)(3)

其中,Gray为灰度图像,Red、Green、Blue分别为红色、绿色、蓝色三个通道残差图像,x、y分别为像素点的横、纵坐标。

之后根据公式(4)计算每张残差的图像熵:

其中,

其中,f为图像灰度函数,

根据计算的图像熵值可以对残差图进行过滤,本实施例中残差图像熵阈值设置为1,即保留

经过上述筛选,本实施例过滤了约20%信息度低的预测帧(P帧),并完整保留每个GOP组起始I帧的信息,其余图像帧根据对应的编码压缩算法提取与当前GOP组中相应帧的差异信息,对过滤后编码数据(运动矢量和残差)以GOP为单位进行积累。通过对预测帧进行选择,所占计算量不超过整个模型计算量的5%,但减少了约20%无关步态的计算,使网络可以专注于学习关键特征,进而提升特征的有效利用。

S3、基于预设的分割阈值,从所述待优化残差图像中分割得到步态轮廓图。

为了减少残差中噪声对步态分割的影响,采用公式(6)所示的双边滤波对待优化残差图像进行预处理。由于三通道数据形式较复杂、计算速度慢,因此本实施例对公式(3)灰度化后的残差图进行滤波处理。

其中,η为归一化因子,

归一化因子η通过公式(7)计算得到。

η=∫

双边滤波的核函数是空间域与像素范围域的综合结果。一方面,在图像的平坦区域像素值变化较小,对应的像素范围域权重接近于1,此时空间域权重起主要作用,相当于进行高斯模糊;另一方面,在图像的边缘区域像素值变化较大,对应的像素范围域权重变大,从而保持了边缘的信息。因此使用双边滤波可以保留精细的步态边缘,并达到降噪平滑的效果。

对残差数据预处理之后,需要从残差中分割人像,分割函数如(8)所示:

其中,B

优选地,分割阈值取值范围为(3,8)。

S4、基于所述步态轮廓图对所述待优化运动矢量进行优化,得到优化后的运动矢量。

在步骤S4中,针对运动矢量和残差携带的信息特征,即:一方面运动矢量包含噪声和不准确的运动,这会降低步态识别的性能;另一方面残差拥有较为精细的步态轮廓信息,且与运动矢量具有很强的关联性;利用残差得到精细的轮廓图去除运动矢量中人像以外的噪点信息,以便能够从压缩域中得到更为精细的运动矢量,以提高运动矢量的识别效果。

具体地,在得到准确的步态轮廓图即人像部分残差图像后,与待优化运动矢量数据进行对齐处理,将其扩为双通道,并对运动矢量和残差按照公式(9)进行如下运算:

其中,λ表示优化权重,mv

通过与对应的残差步态轮廓图做点乘并与原始运动矢量相加,可以增强运动矢量中步态以内的运动信息,从而得到更有效的特征表示。

本实施例针对运动矢量和残差具有稀疏性,首先通过残差图像熵阈值对残差图像进行关键编码帧选择(Key Coding Frame Selection,KCFS),选取信息量更高的编码帧解决其稀疏性问题;其次提出一种联合残差特征表示(Joint Residual FeatureRepresentation,JRFR)方法,利用残差得到精细的轮廓图去除运动矢量中人像以外的噪点信息,得到物体的移动速度和方向;最后从压缩域中得到更为精细的运动矢量,提高了运动矢量的识别效果。

为了验证本发明方法对步态特征存储的影响,在CASIA-B数据集上分别取10帧、20帧和40帧并统计它们的存储量作为对比。与RGB图像相比,基于编码视频(MPEG-4)的方法存储量平均减少了86.7%的存储量,通过残差图像熵阈值对残差图像进行关键编码帧选择,相比于编码视频的方法平均减少了15%的存储量,相比于原始RGB的方法平均减少了89%的存储量。

在i5-9600K 3.70GHz CPU单线程下测量不同方法单帧/视频的优化时间时发现,KCFS中单帧熵值计算仅需要4.6ms,即可改善运动矢量和残差的稀疏性问题,JRFR中单帧MV优化需要8.7ms。为了保证不同帧数视频测试的公平性,将原始数据集拆分为多个10帧视频进行测试。KCFS+JRFR的单视频优化时间少于单帧处理的十倍时间。

以下结合本实施例的方法给出要给具体的实例。

在本实例中仅使用CASIA-B数据集的具有相同90°视角的视频序列。使用前四个正常步行步态序列(nm-01、nm-02、nm-03、nm-04)作为训练数据,其余序列用于测试,数据集具体实验设计如表2所示。表2为本实例使用的数据集表。

表2

首先,将CASIA-B中所有视频数据进行MPEG-4编码,并对编码后的视频进行残差的提取。在数据集内对残差进行顺序读取并根据公式(4)计算每张残差的图像熵。

需要说明的是,这里为了验证本申请方法的技术效果,对现有数据集进行了MPEG-4编码,实际使用中,可直接从前端对实时采集的视频流进行编码的编码器中提取得到MPEG-4码流。

根据计算的图像熵值对残差图进行过滤,将冗余信息较多的帧进行舍弃,同时保存信息较多的帧。具体的过滤算法如表1所示,表1为关键编码帧选择算法表,其中threshold为筛选阈值。

表1

然后,进行联合残差特征优化,其中,分割阈值取值为6,从残差中提取较为精细的步态轮廓图优化运动矢量。图2为本申请一个实施例中用于步态识别的网络模型框架图,如图2所示,该网络模型框架使用ResNet-50作为主干对I帧进行建模,并使用更小更简单的ResNet-18作为主干来捕获P帧中的变化。

在I帧模型中,将输入的视频编码分成若干个GOP序列,然后从每个GOP中随机选择一帧,以便充分利用视频编码中包含的信息。在ResNet-50网络主干上,一方面,为了促进长期运动信息和短期运动信息之间的相互作用,本实施例将时间转移模块插入到每个标准残差块中。另一方面,为了捕获局部交叉信道之间的交互,本文还插入了通道注意力(Efficient Channel Attention,ECA)模块提高网络模型的性能。

在P帧模型中插入了前面所提的KPFS模块和JRFR模块,对所提取的特征数据进行优化。最后,在ResNet-18网络主干上,保留了ECA模块。同时为了加强浅层网络对长时域特征信息的提取能力,在全连接层之前添加了门控循环单元(Gate Recurrent Unit,GRU)模块,使模型在长序列中拥有更好的表现。

利用相应残差中比较精细的步态轮廓特征的优势,去除运动矢量中步态以外的噪点信息,显著的提高了运动矢量的识别精度。

在训练阶段,设置epochs为100,学习率为0.0001,将nm(01-04)中所有关键帧送入网络模型进行训练。

在测试阶段,使用nm(05-06)、bg(01-02)和cl(01-02),进行测试,得到平均识别准确率为93.8%。

实施例二

本申请第二方面提供了一种步态识别方法,图3为本申请另一个实施例中的步态识别方法流程示意图,如图3所示,该方法包括:

通过如上实施例中任一项所述的基于视频编码数据的步态识别特征提取方法得到待检测目标优化后的运动矢量;

将优化后的运动矢量输入到预先建立的步态识别模型中,得到所述待检测目标的身份识别信息。

本实施例提供的步态识别方法,可用于执行上述方法实施例中基于视频编码数据的步态识别特征提取方法的步骤,其实现原理和技术效果类似,本实施例此处不再赘述。

实施例三

本申请第三方面提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上实施例中任意一项所述的基于视频编码数据的步态识别特征提取方法的步骤。

图4为本申请又一实施例中的电子设备的架构示意图。

图4所示的电子设备可包括:至少一个处理器101、至少一个存储器102、至少一个网络接口104和其他的用户接口103。电子设备中的各个组件通过总线系统105耦合在一起。可理解,总线系统105用于实现这些组件之间的连接通信。总线系统105除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统105。

其中,用户接口103可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)或者触感板等。

可以理解,本实施例中的存储器102可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Sync Link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器102存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统1021和应用程序1022。

其中,操作系统1021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1022,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1022中。

在本发明实施例中,处理器101通过调用存储器102存储的程序或指令,具体的,可以是应用程序1022中存储的程序或指令,处理器101用于执行第一方面所提供的方法步骤。

上述本发明实施例揭示的方法可以应用于处理器101中,或者由处理器101实现。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成上述方法的步骤。

另外,结合上述实施例中的基于视频编码数据的步态识别特征提取方法,本发明实施例可提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上方法实施例中的任意一种基于视频编码数据的步态识别特征提取方法。

应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。

此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

相关技术
  • 步态特征提取及其训练方法、步态识别方法及相关设备
  • 步态特征提取方法、步态识别方法及装置
技术分类

06120115924970