一种应用在低照度环境下的煤矿井下人员动作识别方法
文献发布时间:2023-06-19 19:28:50
技术领域
本发明涉及视频识别领域,具体是一种应用在低照度环境下的煤矿井下人员动作识别方法。
背景技术
煤矿井下是一个环境多变复杂,工作环节较多,作业人员数量较多,设备庞大集中,综合性危险系数较大的产业,每时每刻都可能出现安全隐患,容易发生安全事故。由于煤矿井下的环境十分复杂及恶劣,井下作业人员需要长时间在这样一个艰苦和危险的环境里进行工作,多重的复杂因素将会给他们造成很大的影响。因此没有强大的自我安全行为能力,应付这样危险困难的工作环境将会捉襟见肘。
煤矿井下对人员动作识别最大的难点在于低照度环境下动作识别的识别精度很低、识别煤矿井下多个工作人员动作的效果很差。煤矿井下人员动作识别本质上可以看作是视频的暗光增强任务、动作识别任务的有机统一。通过对视频进行暗光增强,获得更丰富的语义特征,从而更好地完成动作识别任务。
传统的暗光增强方法,如基于Retinex理论的深度网络和基于图像融合的深度网络,可以通过图像的光照分解和图像的多特征融合来实现暗光增强,并且多是需要成对数据的有监督学习,需要获取大量的成对的标记数据进行模型训练,这使得模型训练的时间和人工成本变高。
传统的动作识别方法,如双流网络和3D网络,可以通过卷积网络实现动作识别,但是双流网络需要抽取视频帧的光流作为时间流网络的输入,而抽取光流是一项耗时又耗计算机资源的任务;3D网络在捕获局部时空区域内的短程模式方面是有效的,但是它们不能对超出其接收域的时空依赖关系进行建模,为了解决这个问题,3D网络需要对视频中所有的时空位置上使用大量的3D卷积滤波器,这大大增加了3D网络的计算成本。
发明内容
为了改进现有技术的不足,本发明提出了一种应用在低照度环境下的煤矿井下人员动作识别方法,解决因煤矿井下光照低、人员多、环境复杂导致无法精准快速识别人员动作的问题。
本发明的目的是这样实现的:一种应用在低照度环境下的煤矿井下人员动作识别方法,利用煤矿井下人员作业的视频数据,实现在低照度环境下的人员动作识别;所述的动作识别方法包括:风格转换模块、全局特征提取模块、目标检测模块、动作分类模块和回归模块;
将视频数据重采样后,经过风格转换模块,把低照度下的视频数据转换为正常光下的视频数据;再经过全局特征提取模块提取视频帧序列的全局时空特征;再经过目标检测模块检测视频中的人员,从视频帧序列中提取人员动作管道的特征表示;最后将管道特征分别经过回归模块和动作分类模块,计算每个管道的位置和属于每个动作的概率。
进一步,具体步骤如下:
步骤1:采集煤矿井下摄像头采集的视频数据,进行重采样,得到预处理后视频数据;
步骤2:将步骤1得到的预处理后视频数据通过风格转换模块,得到正常光下视频数据;
步骤3:将步骤2中得到的正常光下视频数据通过全局时空特征提取模块,提取全局时空特征;
步骤4:将步骤3中得到的全局时空特征通过目标检测模块,得到一组特定的管道特征;
步骤5:将步骤4中得到的特定的管道特征通过动作分类模块和回归模块,计算每个管道的位置和属于每个动作的概率;
步骤6:将步骤2中得到的正常光下视频数据分成训练样本和测试样本,使用设计的损失函数来训练所属应用在低照度环境下的动作识别模型。
进一步,在步骤1中,对采集的视频数据进行重采样;
所述视频数据重采样的方法为:
获取到的视频数据,用
进一步,在步骤2中,使用风格转换模块对步骤1得到的预处理后视频数据U
所述风格转换模块是由改进的CycleGAN组成,使用该模块对视频数据进行风格转换,将暗光下的视频转换为正常光下的视频,丰富视频中人物和场景的信息,使得检测任务和分类任务更加准确。
CycleGAN是一种学习将图像从源域转换到目标域的方法。CycleGAN包含两组生成对抗网络;每组生成对抗网络包含一个生成器和一个鉴别器;生成器和鉴别器组成翻译器,将图像从X域翻译到Y域,反之亦然;采用二组实现,第一组生成对抗网络由煤矿井下暗光的视频图像生成正常光下的视频图像的网络,包括生成器网络G
CycleGAN的网络结构中,生成器的编码解码结构网络,利用ResNet50网络的特征提取层作为编码网络,利用对应的反卷积网络作为解码网络;鉴别器采用VGG19网络结构;网络的输出包括判断真假的分支和分类的分支,用于图像生成真实的对应模态的图像,并且身份标签不发生改变;
CycleGAN网络的损失函数由两部分组成,即Loss=Loss
为了保证迁移后的图像和原图像在颜色和边缘纹理结构上保持相似,在原CycleGAN网络损失函数的基础上加上结构损失,表示为
所述结构损失表示为:
所述
其中,μ
所述
其中β
进一步,所述步骤3,步骤2的到的正常光下视频数据U
所述全局时空特征提取模块使用的主干网络为在Kinectics-400数据集预训练好的I3D网络;视频数据经过主干网络提取时空特征
进一步,所述步骤4,将步骤3得到的全局时空特征通过目标检测模块,得到一组特定的管道特征;
所述特定的管道特征为视频逐帧图像检测出的人员边界预测构成的序列,用于描述每一帧中人员的边界框预测;
所述目标检测模块由一个编码器组和一个解码器组组成;
所述编码器组由M个编码器串联,其作用是对步骤3中的全局时空特征进行时空建模,进一步抽取时空特征
所述解码器组由M个解码器串联,其作用是为了生成当前视频数据的一组管道特征F
进一步,所述编码器组的每一个编码器都由一个自注意力层、两个归一化层和一个前馈神经网络组成;
以第i个编码器为例,i={1,…,M},其具体处理流程为:
步骤4-1-1,将输入序列e
Q=σ
K=σ
V=σ
其中σ(*)为线性变换;
步骤4-1-2,将Q、K、V输入到自注意力层计算点积注意力,具体为:
步骤4-1-3,将SA(Q,K,V)进行残差连接得到z
z
步骤4-1-4,将z
z
其中,MLP(*)是多层感知机。
所述解码器组的每一个解码器都由一个时空自注意力层和一个交叉自注意力层组成,所述时空自注意力层由空间多头自注意力层和时间多头自注意力层组成;
以第i个解码器为例,i={1,…,M},所述空间多头自注意力层用于提取输入序列的空间关系,其具体处理流程为:
步骤4-2-1,将输入序列d
其中,t={1,…,T
步骤4-2-2,将
/>
其中,α为注意力系数,m为注意力向量;
步骤4-2-3,将
所述时间多头自注意力层用于提取输入序列的时间关系,其具体处理流程为:
步骤4-3-1,将序列
步骤4-3-2,将
步骤4-3-3,将s
s
所述交叉自注意力层的输入为F
/>
r
r
其中,CA(*,*)是交叉自注意力函数,r
进一步,所述步骤5,将步骤4得到的特定的管道特征F
所述动作分类模块由时间池化层、自注意力层、交叉注意力层和前馈神经网络组成,其具体流程为:
步骤5-1,将全局时空特征F
步骤5-2,对F
步骤5-3,将SA(F
F
步骤5-4,将F
所述回归模块由两个前馈神经网络组成,输入为特定的管道特征F
其中,N是管道向量的数量,T
进一步,所述步骤6,将步骤2中得到的正常光下视频数据分成训练样本和测试样本,使用设计的损失函数来训练所属应用在低照度环境下的动作识别模型,具体为:
所述的训练样本和测试样本划分方式为:将步骤2中得到的正常光下视频数据进行混洗,并按比例适当划分为训练样本和测试样本;
所述损失函数包括动作分类任务的损失函数和回归任务的损失函数,表示为:
其中y是输出预测,Y是真实数据;
所述动作分类损失函数
其中G是动作类别的总数,g={1,…,G};
所述损失函数
所述回归任务的损失函数
其中n={1,…,N},
有益效果,由于采用了上述方案,包含五个模块分别是:风格转换模块、时空特征提取模块、目标检测模块、动作分类模块和回归模块。在风格转换模块中,使用改进的CycleGAN网络对视频数据进行风格转换,把煤矿井下低照度的视频转换到正常光下,丰富了视频包含的信息,使得后续动作分类任务和目标检测任务更加精准且不需要成对的数据进行训练,降低了数据获取的难度;在目标检测模块中,将视频的目标检测转换为一组集合预测的问题,不需要任何的先验知识和后续处理,实现端到端的检测视频中的人员。
附图说明
图1为本发明一种应用在低照度环境下的煤矿井下人员动作识别方法的流程图。
图2为本发明一种应用在低照度环境下的煤矿井下人员动作识别方法的结构图。
具体实施方式
一种应用在低照度环境下的煤矿井下人员动作识别方法:该方法利用煤矿井下人员作业的视频数据,实现在低照度环境下的人员动作识别;所述的动作识别方法包括:风格转换模块、全局特征提取模块、目标检测模块、动作分类模块和回归模块。
将视频数据重采样后,经过风格转换模块,把低照度下的视频数据转换为正常光下的视频数据;再经过全局特征提取模块提取视频帧序列的全局时空特征;再经过目标检测模块检测视频中的人员,从视频帧序列中提取人员动作管道的特征表示;最后将管道特征分别经过回归模块和动作分类模块,计算每个管道的位置和属于每个动作的概率;
具体步骤如下:
步骤1:采集煤矿井下摄像头采集的视频数据,进行重采样,得到预处理后的视频数据;
步骤2:将步骤1得到的预处理后视频数据通过风格转换模块,得到正常光下的视频数据;
步骤3:将步骤2中得到的正常光下视频数据通过全局时空特征提取模块,提取全局时空特征;
步骤4:将步骤3中得到的全局时空特征通过目标检测模块,得到一组特定的管道特征;
步骤5:将步骤4中得到的特定的管道特征通过动作分类模块和回归模块,计算每个管道的位置和属于每个动作的概率;
步骤6:将步骤2中得到的正常光下视频数据分成训练样本和测试样本,使用设计的损失函数来训练所属应用在低照度环境下的动作识别模型。
在步骤1中,对采集的视频数据进行重采样;
所述视频数据重采样的方法为:
获取到的视频数据,用
在步骤2中,使用风格转换模块对步骤1得到的预处理后视频U
所述风格转换模块由改进的CycleGAN组成,所述的CycleGAN为循环生成对抗网络;使用该模块对视频数据进行风格转换,将暗光下的视频转换为正常光下的视频,丰富视频中人物和场景的信息,使得检测任务和分类任务更加准确。
CycleGAN是一种学习将图像从源域转换到目标域的方法。CycleGAN包含两组生成对抗网络。每组生成对抗网络包含一个生成器和一个鉴别器。生成器和鉴别器组成翻译器,将图像从X域翻译到Y域,反之亦然。采用二组实现,第一组生成对抗网络由煤矿井下暗光的视频图像生成正常光下的视频图像的网络,包括生成器网络G
CycleGAN的网络结构中,生成器的编码解码结构网络,利用ResNet50网络的特征提取层作为编码网络,利用对应的反卷积网络作为解码网络;鉴别器采用VGG19网络结构;网络的输出包括判断真假的分支和分类的分支,用于图像生成真实的对应模态的图像,并且身份标签不发生改变;
CycleGAN网络的损失函数由两部分组成,即Loss=Loss
为了保证迁移后的图像和原图像在颜色和边缘纹理结构上保持相似,在原CycleGAN网络损失函数的基础上加上结构损失,表示为
所述结构损失可表示为:
所述
其中,μ
所述
/>
其中β
所述步骤3,步骤2的到的正常光下视频数据U
所述全局时空特征提取模块使用的主干网络为在Kinectics-400数据集预训练好的I3D网络。视频数据经过主干网络提取时空特征
所述步骤4,将步骤3得到的全局时空特征通过目标检测模块,得到一组特定的管道特征。
所述特定的管道特征为视频逐帧图像检测出的人员边界预测构成的序列,用于描述每一帧中人员的边界框预测。
所述目标检测模块由一个编码器组和一个解码器组组成。
所述编码器组由M个编码器串联,其作用是对步骤3中的全局时空特征进行时空建模,进一步抽取时空特征
所述解码器组由M个解码器串联,其作用是为了生成当前视频数据的一组管道特征F
所述编码器组的每一个编码器都由一个自注意力层、两个归一化层和一个前馈神经网络组成。
以第i个编码器为例,i={1,…,M},其具体处理流程为:
步骤4-1-1,将输入序列e
Q=σ
K=σ
V=σ
其中σ(*)为线性变换;
步骤4-1-2,将Q、K、V输入到自注意力层计算点积注意力,具体为:
步骤4-1-3,将SA(Q,K,V)进行残差连接得到z′
z′
步骤4-1-4,将z′
z
其中,MLP(*)是多层感知机。
所述解码器组的每一个解码器都由一个时空自注意力层和一个交叉自注意力层组成,所述时空自注意力层由空间多头自注意力层和时间多头自注意力层组成。
以第i个解码器为例,i={1,…,M},所述空间多头自注意力层用于提取输入序列的空间关系,其具体处理流程为:
步骤4-2-1,将输入序列d
其中,t={1,…,T
步骤4-2-2,将
其中,α为注意力系数,m为注意力向量;
步骤4-2-3,将
所述时间多头自注意力层用于提取输入序列的时间关系,其具体处理流程为:
步骤4-3-1,将序列
步骤4-3-2,将
步骤4-3-3,将s′
所述交叉自注意力层的输入为F
r′
r
其中,CA(*,*)是交叉自注意力函数,r
所述步骤5,将步骤4得到的一组特定的管道特征F
所述动作分类模块由时间池化层、自注意力层、交叉注意力层和前馈神经网络组成,其具体流程为:
步骤5-1,将全局时空特征F
步骤5-2,对F
步骤5-3,将SA(F
F
步骤5-4,将F
所述回归模块由两个前馈神经网络组成,输入为F
其中,N是管道向量的数量,T
所述步骤6,将步骤2中得到的正常光下视频数据分成训练样本和测试样本,使用设计的损失函数来训练所属应用在低照度环境下的动作识别模型,具体为:
所述的训练样本和测试样本划分方式为:将步骤2中得到的正常光下视频数据进行混洗,并按比例适当划分为训练样本和测试样本;
所述损失函数包括动作分类任务的损失函数和回归任务的损失函数,表示为:
其中y是输出预测,Y是真实数据。
所述动作分类损失函数
其中G是动作类别的总数,g={1,…,G}。
所述损失函数
所述回归任务的损失函数
其中n={1,…,N},
下面结合附图1-2对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
一种应用在低照度环境下的煤矿井下人员动作识别方法,在煤矿井下真实视频数据集的实施例,采集了煤矿井下45天的视频数据,采集的视频文件大小为800个G;包括以下步骤:
步骤1:采集煤矿井下摄像头采集的视频数据,进行重采样,得到预处理后的视频数据;
步骤2:将步骤1得到的视频数据通过风格转换模块,得到正常光下的视频数据;
步骤3:将步骤2中得到的视频数据通过全局时空特征提取模块,提取时空特征;
步骤4:将步骤3中得到的全局时空特征通过目标检测模块目标检测模块,得到一组特定的管道特征;
步骤5:将步骤4中得到的特定的管道特征通过动作分类模块和回归模块,计算每个管道的位置和属于每个动作的概率;
步骤6:将视频数据按照7:3的比例分成训练样本和测试样本,使用设计的损失函数来训练所属应用在低照度环境下的动作识别模型。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
- 一种基于人体姿态估计的煤矿井下人员不安全行为识别方法
- 一种基于人体姿态估计的煤矿井下人员不安全行为识别方法