掌桥专利:专业的专利平台
掌桥专利
首页

一种语义可控的人体行为姿态视频数据扩增系统及方法

文献发布时间:2023-06-19 19:28:50


一种语义可控的人体行为姿态视频数据扩增系统及方法

技术领域

本发明涉及人体姿态分析与数据扩增技术领域,具体涉及一种语义可控的人体行为姿态视频数据扩增系统及方法,可适用于公共安全、健康监护、智慧教育等应用场景,构建相应数据资源池,服务于多样化下游检测任务。

背景技术

深度神经网络的方法作为强大的工具之一需要足够的训练数据作支撑。如何有效地训练样本不足的网络一直是深度学习的一大挑战。在一些特殊的应用场景中,面临异常行为数据难以采集;行为数据标注成本高、带标签行为数据少;样本数量分布不均衡等问题,使针对该场景中的检测分类任务难以从数据中获得足够的有效信息,从而得到满意的分类结果。基于不足的数据样本训练的视频分类网络运用深度特征抽取网络提取视频数据的深度信息,容易导致过拟合现象。

在实际场景中,如公共安全、健康监护、智慧教育等应用场景中的人体行为信息多受场景约束,采样参数、视野范围、数据格式和数据质量等均有不同程度的影响。数据集的分布往往遵循长尾分布,异常的人体姿势只占所有数据中的一小部分,这进一步导致罕见姿势缺乏多样性,和现有的姿态估计网络的泛化能力有待提升。故罕见的异常行为存在采样数量少、数据丰富度低、行为特征单一等现象。以上事实共同造成了在具体的应用场景中,低频异常人体行为信息存在数据量少、数据丰富度低和数据采集困难的问题,且难以应用通用数据集和直接迁移模型的方法解决。一些异常检测模型是基于目标检测技术开发的,以单帧图像上的信息作为异常行为识别的基础,在部分场景下并不适用,造成误检。而视频数据检测和视频数据生成的难度更大于针对单帧静态图像的目标检测和图像生成,所以针对人体行为数据的扩增存在研究意义。

数据扩增技术以人为地生成不同版本、不同类型的真实数据集的方式增加其数据量和数据相关的信息。数据扩增的策略多应用于机器智能领域来处理数据稀缺和数据多样性不足的问题。而在面向不同任务的数据扩增策略中,对于图像类的数据扩增有一些被证明有效的方法,如几何变换、色彩增强和裁剪等,然而针对如人体姿态序列这类同时具有时空特性的高维信息,则少见相关数据扩增的研究。同时,大部分数据扩增算法更多旨在当前既有数据的基础上进行泛化加工,而鲜有基于数据含义作可控编辑生成的数据扩增方法。

发明内容

针对现有技术存在的问题,本发明的目的在于提供一种语义可控的人体行为姿态视频数据扩增方法,其可自主生成对应行为数据的新数据样本,从而提升人体行为数据的内容丰富度与姿态丰富度。

为实现上述目的,本发明采用的技术方案是:

一种语义可控的人体行为姿态视频数据扩增系统,所述系统包括数据规范化模块、姿态估计模块、行为生成模块、姿态重建模块和姿态迁移模块;

所述数据规范化模块用于对原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段;所述初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r),其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整;

所述姿态估计模块用于对规范化后的行为视频数据片段进行如下处理:

(1)采用J个关键点对人体姿态进行标注及定义;

(2)利用姿态估计网络对行为视频数据片段进行标注及定义,得到带有3D姿态关键点的标注及其坐标,以及估计姿态数据,该估计姿态数据视为一串真实的人体姿态行为序列;

带有3D姿态关键点的标注及其坐标表示为:

{Joint

姿态估计数据表示给定语义标签的真实动作序列,具体表示为:

其中,J为人体3D姿态估计关键点个数,L为序列长度;

(3)设定映射编码器P

其中,i为序列S在x轴上的索引;

所述行为生成模块,以姿态估计模块中转化后的重构行为序列数据作为输入数据,根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否,则重构行为序列数据作为预训练后的模型生成器G1的输入数据,生成新的序列样本数据;如果判断为是,则重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量,将隐空间向量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据;

姿态重建模块,用于对行为生成模块中行为生成的新样本数据进行解析重建,根据人体关键点标签与坐标数据格式和映射编码器P

姿态迁移模块,用于根据姿态重建模块中重建得到的重建人体姿态行为序列,利用姿态投影算法、姿态迁移算法对该姿态序列进行目标人物迁移,通过调整目标人物参数char,实现对该姿态在不同人物身上的映射,达到数据扩增的目的。

所述模型生成器G1的预训练过程如下:

(1)利用公开数据集预训练对抗生成网络;

具体地,将公开数据集的数据经过数据规范化与姿态估计处理得到的重构行为序列

(2)模型生成器G1预训练过程中,利用判别器衡量重建数据和原数据之间的分布差异,通过反向传播将生成器损失与判别器损失反馈回生成器与判别器,进行迭代训练,训练过程交替训练生成器和判别器,判别器训练的损失函数为:

模型生成器G1的损失函数为:

(3)模型生成器G1预训练模块训练过程中的感知损失为将生成样本和真实值分别送入VGG16网络提取特征,计算其在VGG16网络N个层中M个特征值的L1距离如式(1-4):

其中,z指模型输入,x为对应真实数据

(4)将关键点对的集合ε={i,j}的误差L

所述语义可控模型生成器G2的预训练包括第一训练阶段和第二训练阶段:第一训练阶段如下:

(1)针对真实数据

(2)基于组合后的隐空间向量w,语义可控模型生成器G2生成含有各组合语义属性的生成数据;采用对比学习的方法对隐空间进行解耦,在一个对比训练的分支里取两个不同的隐向量,计算两个向量对第k个属性的对比损失,让两个向量生成的图片在同一个属性时相互靠近,属性不同则相互远离;

同时,将关键点对间的误差L

(3)对比训练的过程中,为了使得生成数据的一个特定属性可控,对属性k定义一个可微函数M

d

(4)通过上述第一阶段的训练,在GAN的隐空间中实现解纠缠;

第二阶段训练如下:

(1)设计多层感知机属性编码器将各语义属性映射为相应的隐空间子向量,对每个属性进行显式控制;对每一个语义属性k训练一个属性编码器E

(2)通过训练后的各个属性的映射编码器E

一种语义可控的人体行为姿态视频数据扩增方法,所述方法采用如上所述的系统实现,所述方法包括以下步骤:

步骤1、对原始视频数据进行统一的规范化处理。

具体地,对拟扩增的原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段;初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r),其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整;

步骤2、根据初始化定义信息和各单位数据的始末视频帧,对原始视频数据进行裁剪,得到视频数据片段X

步骤3、基于规范化后的行为视频数据片段,将上述数据进行人体姿态估计并提取姿态关键点坐标数据;

在进行人体3D姿态表示前,通过姿态估计网络对行为视频数据片段进行标注及定义,输出带有3D姿态关键点的标注及其坐标,得到的估计姿态数据视为一串真实的人体姿态行为序列;姿态估计模块将输出带有3D姿态关键点的标注及其坐标{Joint

步骤4、定义映射编码器P,将人体姿态行为序列

步骤5、利用训练后得到的模型生成器G1和语义可控模型生成器G2,以姿态估计模块中转化后的重构行为序列数据作为输入数据,输出生成数据;

具体如下:

步骤5-1、根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否,则步骤4中转化后的重构行为序列数据作为预训练生成器G1的输入数据,生成新的序列样本数据;

步骤5-2、如果判断为是,则步骤4中转化后的重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量;

步骤5-3、将步骤5-2中的隐空间向量量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据;

步骤6、在姿态序列重建模块中,需要将在步骤5获得的新序列样本进行解析重建,对于步骤4中的编码器P

步骤7、将在步骤6中获得的重建人体姿态行为序列,利用相机焦距f实现相机坐标系、像素坐标系与图像坐标系之间的转换,得到对应的2D人体姿态表示,转换式如1-9所示:

步骤8、利用姿态迁移网络生成器G3对步骤7转换的2D人体姿态序列表示

其中,G对应序列生成函数,当前帧的生成图像

采用上述方案后,针对应用场景中的目标人物行为,进行规范化定义与采集,通过视频逐帧分析进行3D人体姿态估计;利用人体姿态运动学知识对估计模型进行表示,约束各关键点和自由度,构建人体姿态关键点嵌入表达;利用预训练的对抗生成网络对提取信息进行博弈生成,产生尽可能逼真的新数据;对生成数据进行3D姿态重建,通过姿态迁移技术实现人体姿态在不同目标人物上的迁移,实现人体行为数据的扩增。相较于现有技术,本发明具有以下有益效果:

1、本发明利用构建序列编码器的方法,将动作序列S映射为可被卷积神经网络直接处理的运动序列二维嵌入,作为生成模型的输入,生成全新的动作序列数据。缓解在生成模型中单帧生成连续帧图像时,生成序列缺乏空间连续性的问题。

2、本发明利用附加对比学习的隐空间编辑方法,构建语义可控生成模块,通过结构化数据隐空间,对不同人体姿态序列数据中不同的语义属性进行对比划分,最终达到对行为序列中不同的运动特征属性可控编辑的效果,进而生成语义可控的行为序列数据。该方法可以对运动序列数据的语义属性进行可监督划分,在一定程度上解耦数据隐空间,为每一个定义属性训练显性控制参数,通过调节参数达成语义可控的姿态序列数据扩增的目的。

3、本发明主要采用对抗生成网络技术对3D人体姿态与动作数据进行生成与扩增,同时结合姿态迁移技术,实现人物内容上的风格迁移,系统性提升了人体行为在内容层面与动作层面的丰富度。

4、本发明所提方法通过该数据扩增算法,可提升人体行为数据的内容丰富度与姿态丰富度,自主生成新的训练样本,构建相应数据资源池,服务于下游检测任务。本发明具有减少人力劳动、资源优化、生成数据多样化和运行负载小等特点。

附图说明

图1为本发明的总流程结构;

图2为本发明的具体流程结构。

下面将结合附图对本发明作进一步的详细说明。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明公开了一种语义可控的人体行为姿态视频数据扩增系统,其包括数据规范化模块、姿态估计模块、行为生成模块、姿态重建模块和姿态迁移模块。

数据规范化模块用于对原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段。初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r)。其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整。本实施例中,数据规范化模块中对原视频数据进行裁剪,并调整画幅为(512,512)固定大小,得到行为视频数据片段。

姿态估计模块用于对规范化后的行为视频数据片段进行如下处理:

(1)采用J个关键点对人体姿态进行标注及定义。本实施例,全局人体3D姿态估计关键点定义为J=32个,局部人体3D姿态估计关键点定义为J=13个。

(2)利用姿态估计网络对行为视频数据片段进行标注及定义,得到带有3D姿态关键点的标注及其坐标,以及估计姿态数据,该估计姿态数据视为一串真实的人体姿态行为序列。

带有3D姿态关键点的标注及其坐标表示为:

{Joint

姿态估计数据表示给定语义标签的真实动作序列,具体表示为:

其中,J为人体3D姿态估计关键点个数,L为序列长度。

(3)设定映射编码器P

其中,i为序列S在x轴上的索引。

行为生成模块,以姿态估计模块中转化后的重构行为序列数据作为输入数据,根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否(不需要控制语义属性生成),则重构行为序列数据作为预训练后的模型生成器G1的输入数据,生成新的序列样本数据;如果判断为是(需要控制语义属性生成),则重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量,将隐空间向量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据。

其中,模型生成器G1的预训练过程如下:

(1)利用公开数据集预训练对抗生成网络。

具体地,将公开数据集的数据经过数据规范化与姿态估计处理得到的重构行为序列

(2)模型生成器G1预训练过程中,需利用判别器衡量重建数据和原数据之间的分布差异,通过反向传播将生成器损失与判别器损失反馈回生成器与判别器,进行迭代训练,训练过程交替训练生成器和判别器,判别器训练的损失函数为:

模型生成器G1的损失函数为:

(3)模型生成器G1预训练模块训练过程中的感知损失为将生成样本和真实值分别送入VGG16网络提取特征,计算其在VGG16网络N个层中M个特征值的L1距离如式(1-4):

其中,z指模型输入,x为对应真实数据

(4)由于人体姿态结构可视为内部运动链相互独立稳定的刚体,这些语义上重要的关键点间的相对距离应保持稳定。因此,关键点对的集合ε={i,j}的误差L

语义可控模型生成器G2的预训练包括第一训练阶段和第二训练阶段:第一训练阶段如下:

(1)针对真实数据

(2)基于组合后的隐空间向量w,语义可控模型生成器G2生成含有各组合语义属性的生成数据。采用对比学习的方法对隐空间进行解耦,在一个对比训练的分支里取两个不同的隐向量,计算两个向量对第k个属性的对比损失,目的是要让两个向量生成的图片在同一个属性时相互靠近(相似性更高),属性不同则相互远离。

同时,由于人体姿态结构可视为内部运动链相互独立稳定的刚体,这些语义上重要的关键点间的相对距离应保持稳定。因此,关键点对间的误差L

(3)对比训练的过程中,为了使得生成数据的一个特定属性可控,对属性k定义一个可微函数M

d

(4)通过上述第一阶段的训练,在GAN的隐空间中实现解纠缠。

第二阶段训练如下:

(1)设计多层感知机属性编码器将各语义属性映射为相应的隐空间子向量,进而对每个属性进行显式控制。对每一个语义属性k训练一个属性编码器E

(2)通过训练后的各个属性的映射编码器E

姿态重建模块,用于对行为生成模块中行为生成的新样本数据进行解析重建,根据人体关键点标签与坐标数据格式和映射编码器P

姿态迁移模块,用于根据姿态重建模块中重建得到的重建人体姿态行为序列,利用姿态投影算法、姿态迁移算法对该姿态序列进行目标人物迁移,通过调整目标人物参数char,实现对该姿态在不同人物身上的映射,达到数据扩增的目的。

如图2所示,基于以上系统,本发明还公开了一种语义可控的人体行为姿态视频数据扩增方法,其包括以下步骤:

步骤1、对原始视频数据进行统一的规范化处理。

具体地,对拟扩增的原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段。初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r)。其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整。

步骤2、根据初始化定义信息和各单位数据的始末视频帧,对原始视频数据进行裁剪,得到视频数据片段X

本实施例中,数据规范化模块中对原视频数据进行裁剪,并调整画幅为(512,512)固定大小,得到行为视频数据片段。

步骤3、基于规范化后的行为视频数据片段,本发明将上述数据进行人体姿态估计并提取姿态关键点坐标数据。在进行人体3D姿态表示前,采用J个关键点对人体姿态进行标注及定义。其中全局人体3D姿态估计关键点为J=32个,局部人体3D姿态估计关键点定义为J=13个。

通过姿态估计网络对行为视频数据片段进行标注及定义,输出带有3D姿态关键点的标注及其坐标,得到的估计姿态数据视为一串真实的人体姿态行为序列。姿态估计模块将输出带有3D姿态关键点的标注及其坐标{Joint

步骤4、定义映射编码器P,将人体姿态行为序列

步骤5、利用训练后得到的模型生成器G1和语义可控模型生成器G2,以姿态估计模块中转化后的重构行为序列数据作为输入数据,输出生成数据。

具体如下:

步骤5-1、根据扩增需求,判断是否需要对数据进行语义属性编辑生成。如果判断为否(不需要控制语义属性生成),则步骤4中转化后的重构行为序列数据作为预训练生成器G1的输入数据,生成新的序列样本数据。

步骤5-2、如果判断为是(需要控制语义属性生成),则步骤4中转化后的重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量。

步骤5-3、将步骤5-2中的隐空间向量量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据。

模型生成器G1的训练过程如下:

(1)首先利用公开数据集预训练对抗生成网络;

具体地,将公开数据经过步骤1~4,得到经过数据规范化与姿态估计处理得到的重构行为序列

(2)模型生成器G1预训练模块训练过程中,需利用判别器衡量重建数据和原数据之间的分布差异,由通过反向传播将生成器损失与判别器损失反馈回生成器与判别器,进行迭代训练,训练过程交替训练生成器和判别器,判别器训练的损失函数为:

模型生成器的损失函数为:

(2)模型生成器G1预训练模块训练过程中的感知损失如(式1-4所示),将生成样本和真实值分别送入VGG16网络提取特征,计算他们在网络中N个层中M个特征值的L1距离如下式,其中z指模型输入,x为对应真实数据S

其中,z指模型输入,x为对应真实数据

(4)同时,由于人体姿态结构可视为内部运动链相互独立稳定的刚体,这些语义上重要的关键点间的相对距离应保持稳定。因此,关键点对集合ε={i,j}的误差L

语义可控模型生成器G2的训练包括第一训练阶段和第二训练段,第一训练阶段如下:

(1)针对真实数据

(2)基于组合后的隐空间向量w,语义可控模型生成器G2生成含有各组合语义属性的生成数据。通过对比学习的方法对隐空间进行解耦,其中对比学习的损失函数为:

其中,l

针对各个属性的对比损失为:

其中,Ii=G(zi)表示由隐空间向量zi生成的图像,

(3)同时,由于人体姿态结构可视为内部运动链相互独立稳定的刚体,这些语义上重要的关键点间的相对距离应保持稳定。因此关键点对ε={i,j}的误差L

(4)对比训练的过程中,为了使得生成图像的一个特定属性可控,对属性k定义一个可微函数M

d

(4)通过上述第一阶段训练,在GAN的潜在空间中实现解纠缠。

第二训练阶段如下:

(1)设计多层感知机属性编码器将各语义属性映射为相应的隐空间子向量,进而对每个属性进行显式控制。对每一个语义属性k训练一个属性编码器E

(2)通过训练后的各个属性的映射编码器E

步骤6、在姿态序列重建模块中,需要将在步骤5获得的新序列样本进行解析重建,对于步骤4中的编码器P

步骤7、将在步骤6中获得的重建人体姿态行为序列,利用相机焦距f实现相机坐标系、像素坐标系与图像坐标系之间的转换,得到对应的2D人体姿态表示,转换式如1-9所示:

步骤8、利用姿态迁移网络生成器G3对步骤7转换的2D人体姿态序列表示

其中,G对应序列生成函数,当前帧的生成图像

综上所述,本发明针对应用场景中的目标人物行为,进行规范化定义与采集,通过视频逐帧分析进行3D人体姿态估计;利用人体姿态运动学知识对估计模型进行表示,约束各关键点和自由度,构建人体姿态关键点嵌入表达;利用预训练的对抗生成网络对提取信息进行博弈生成,产生尽可能逼真的新数据;对生成数据进行3D姿态重建,通过姿态迁移技术实现人体姿态在不同目标人物上的迁移,实现人体行为数据的扩增。相较于现有技术,本发明具有以下有益效果:

1、本发明利用构建序列编码器的方法,将动作序列S映射为可被卷积神经网络直接处理的运动序列二维嵌入,作为生成模型的输入,生成全新的动作序列数据。缓解在生成模型中单帧生成连续帧图像时,生成序列缺乏空间连续性的问题。

2、本发明利用附加对比学习的隐空间编辑方法,构建语义可控生成模块,通过结构化数据隐空间,对不同人体姿态序列数据中不同的语义属性进行对比划分,最终达到对行为序列中不同的运动特征属性可控编辑的效果,进而生成语义可控的行为序列数据。该方法可以对运动序列数据的语义属性进行可监督划分,在一定程度上解耦数据隐空间,为每一个定义属性训练显性控制参数,通过调节参数达成语义可控的姿态序列数据扩增的目的。

3、本发明主要采用对抗生成网络技术对3D人体姿态与动作数据进行生成与扩增,同时结合姿态迁移技术,实现人物内容上的风格迁移,系统性提升了人体行为在内容层面与动作层面的丰富度。

4、本发明所提方法通过该数据扩增算法,可提升人体行为数据的内容丰富度与姿态丰富度,自主生成新的训练样本,构建相应数据资源池,服务于下游检测任务。本发明具有减少人力劳动、资源优化、生成数据多样化和运行负载小等特点。

以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

相关技术
  • 一种教育考试监控视频的人体行为分析方法及系统
  • 一种基于人体姿态估计的煤矿井下人员不安全行为识别方法
  • 一种基于姿态分析的人体行为分析方法及系统
  • 一种基于语义折叠的人体步态行为主动检测识别系统和方法
技术分类

06120115925560