掌桥专利:专业的专利平台
掌桥专利
首页

基于残影图的动态手语识别方法、系统及器件

文献发布时间:2023-06-19 18:37:28


基于残影图的动态手语识别方法、系统及器件

技术领域

本公开涉及图像处理相关技术领域,具体的说,是涉及一种基于残影图的动态手语识别方法、系统及器件。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,并不必然构成在先技术。

动态手势识别实现手语视频到文本的转换,包括手势检测与分割、手势追踪、特征提取和手势分类四个方面,本公开分析四个方面现有的技术特点,整合现有的模型,提出了基于残影图的动态手语识别方法,旨在通过多流程的残影图法来弥补单纯使用一种技术进行手语识别的缺陷,进而达到较好的效果。

手势检测与分割是将手部从背景中分离出来,手势分割效果直接关系到手势识别的准确率。深度卷积网络在图像手部分割方面取得了很大的成功。然而,这种基于CNN的方法主要集中在每帧推断上,这对于视频中的手部分割是低效的,因为连续的视频帧中存在连续性和冗余性。Li等人提出了一种将基于卷积神经网络的手部分割方法从静止图像扩展到视频图像的方法,它由两个主要分支组成:流动引导特征传播和轻量级遮挡感知细节增强。流引导特征传播分支由于扭曲中的失真和遮挡问题,导致了较大的精度下降。

手势追踪本质上是对手势视频进行逐帧分析,定位目标手部在视频每一帧图像中的位置。李明等人针对复杂背景下视频存在较多噪声导致运动目标检测结果不准确的情况,提出了一种基于金字塔LK光流法结合DBSCAN聚类的复杂背景中运动目标检测算法,有效地排除复杂背景的干扰,取得了很好的运动目标检测效果,但是该算法在运动目标存在阴影和遮挡的情况下仍然存在的错误判断。

手部特征提取是手势识别中的关键步骤,好的特征在充分发掘数据信息的情况下,既可以提升识别准确率,同时又可以减少不必要的计算量。手势特征主要包括全局特征(颜色、纹理、形状等)和局部特征(角点类局部特征和区域类局部特征。

手势分类过程对提取的手势时空特征进行分类,是实现手势识别的最后一个步骤,杨艳芳等人提出了基于卷积神经网络和长短时记忆网络结合的加速度手势识别算法,通过Wiimote采集三轴加速度手势数据,在10个测试者的8种加速度手势数据,共2400条数据的测试中,实现了96.2%的准确率。ElBadawy等人将从手语视频流中提取出的图像帧投入到3D卷积网络中进行阿拉伯动态手语的识别,准确率达到了90%。目前的加速度手势识别算法需要通过佩戴设备来进行识别,实用性差。

发明内容

本公开为了解决上述问题,提出了基于残影图的动态手语识别方法、系统及器件,提出了光流法融合残影图法的动态手语识别,将三维的视频分类问题转换为二维的图像分类问题,从而在维度层面降低了进行手语识别所需的计算量,保障了手语识别的实时性,通过残影图法实现的手语识别只需输入视频,实用性更强。

为了实现上述目的,本公开采用如下技术方案:

一个或多个实施例提供了基于残影图的动态手语识别方法,包括如下步骤:

获取待识别的视频,进行分帧处理得到待识别图片;

采用光流法对待识别图片进行动态皮肤分割处理,提取出视频帧中动态的区域,并提取视频帧动态区域中的肤色区域,得到进行手语动作的手部区域的图像;

将进行手语动作的手部区域的图像,按照图片帧的时间先后顺序,并按照透明度递减的原则合成为残影图;

利用深度学习方法对残影图进行图像分类,得到待识别视频对应的文本信息。

一个或多个实施例提供了基于残影图的动态手语识别系统,包括:

分帧模块:被配置为获取待识别的视频,进行分帧处理得到待识别图片;

图像分割模块:被配置为采用光流法对待识别图片进行动态皮肤分割处理,提取出视频帧中动态的区域,并提取视频帧动态区域中的肤色区域,得到进行手语动作的手部区域的图像;

残影图合成模块:被配置为将进行手语动作的手部区域的图像,按照图片帧的时间先后顺序,并按照透明度递减的原则合成为残影图;

图像分类模块:被配置为利用深度学习方法对残影图进行图像分类,得到待识别视频对应的文本信息。

一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。

一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。

与现有技术相比,本公开的有益效果为:

本公开中,以光流法为基础,针对手语识别进行针对性的调整与创新性的改进,提出了残影图法的动态手语识别。残影图法根据手语视频每帧图片在整个时间序列中所处的位置,按照透明度递减的原则将视频每帧图像由远及近合成为一张残影图,从而将三维的视频分类问题转换为了二维的图像分类问题,从而在维度层面降低了进行手语识别所需的计算量,保障了手语识别的实时性。

本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。

图1是本公开实施例1的识别方法的识别过程示意图;

图2是是本公开实施例1的识别方法流程图;

图3是本公开实施例1的RAFT模型结构示意图;

图4是本公开实施例1的RAFT光流分割效果图;

图5是本公开实施例1的动态皮肤分割前后的视频各帧图像;

图6是本公开实施例1中将图5的帧图像合成的残影图;

图7是本公开实施例1中EfficientNet-B7网络结构示意图;

图8是本公开实施例1中采用EfficientNet-B7网络分类的效果比较图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式公开的技术方案中,如图1-图8所示,基于残影图的动态手语识别方法,包括如下步骤:

步骤1、获取待识别的视频,进行分帧处理得到待识别图片;

步骤2、采用光流法对待识别图片进行动态皮肤分割处理,提取出视频帧中动态的区域,并提取视频帧动态区域中的肤色区域,得到进行手语动作的手部区域的图像;

步骤3、将进行手语动作的手部区域的图像,按照帧时间先后顺序,并按照透明度递减的原则合成为残影图;

步骤4、利用深度学习方法对残影图进行图像分类,得到待识别视频对应的文本信息。

本实施例中,以光流法为基础,针对手语识别进行针对性的调整与创新性的改进,提出了残影图法的动态手语识别。残影图法根据手语视频每帧图片在整个时间序列中所处的位置,按照透明度递减的原则将视频每帧图像由远及近合成为一张残影图,从而将三维的视频分类问题转换为了二维的图像分类问题,从而在维度层面降低了进行手语识别所需的计算量,保障了手语识别的实时性。

步骤1中,对待识别的视频进行处理,首先利用滑动窗口对整段视频进行分割,得到多段视频,对任一段视频进行分帧处理得到一组图片。对图片进行分组处理,每一组图片执行一次的步骤2至步骤4进行处理得到识别结果,对应每段视频分别得到一个识别结果。

步骤2中为图像分割处理,利用光流法对这一组图片进行初步处理,从而提取出视频帧中动态的区域,进一步对图片进行边缘检测、图像分割等处理,将视频帧动态区域中肤色区域提取出来,从而得到了视频帧中的“动态肤色区域”,即进行手语动作的手部区域。

动态皮肤分割的目标主要是将视频流中的肤色区域中发生了运动的部分分割出来。

针对这一问题,本实施例中通过对现有的光流算法进行改进,引入图像YUV色彩空间的信息进行优化,以实现动态皮肤分割。采用光流法对待识别图片进行动态皮肤分割处理的方法,包括如下步骤:

步骤21、对步骤1中得到的待识别图像利用光流法处理,得到光流图像;

具体的,本实施例中采用RAFT光流法对待识别图像进行处理。

RAFT光流法的RAFT模型如图3所示,包括编码器、四维相关体(4D CorrelationVolumes)以及光流场更新器,编码器包括特征编码器(Feature Encoder)和语境编码器(Context Encoder)。特征编码器同时接收相邻两帧图像作为输入,并提取特征向量,通过内积运算生成四维相关体;语境编码器接受第一帧图像,并提取特征向量。最后光流场更新器利用第一帧图像的特征向量,并结合四维相关体的信息来对光流程进行迭代更新。对一组测试图像进行RAFT光流分割的效果如图4所示。

步骤22、对光流图像进行阈值分割,并转化为二值图像,将二值图像与原图像做乘积,提取出发生了运动的区域;

其中,二值图像具体为01二值图像。

步骤23、进一步地,将得到的运动区域图像转换到YUV色彩空间,利用图像的色度信息,分割出运动区域中位于皮肤的区域,也即实现了动态皮肤分割。

步骤3中,为残影图合成方法,将动态皮肤分割后得到的图像以60张为一组在时间上由远及近按照透明度递减的原则合成为残影图。

动态皮肤分割前后的视频各帧图像如图5所示。将进行了动态皮肤分割的视频每一帧的图像,按照透明度递减的原理合成为一张残影图,这样一段手语视频便被转换为了一张图片,即将3D的视频识别转换为了2D的图像识别。将图5的帧图像合成的残影图如图6所示。

步骤4、利用深度学习方法对残影图进行图像分类,得到待识别视频对应的文本信息。

步骤3中的残影图法已经将手语视频转换为了残影图,所以问题也相应地转换为了图像分类。

可选的,本实施例的深度学习方法可以采用迁移学习的方法对获得的残影图进行分类,具体的,可以采用EfficientNet-B7网络对残影图进行图像分类。

EfficientNet-B7网络的网络结构如图7所示,网络的输入为残影图,输出为图像分类对应的手势对应的文本信息。如图1所示,手语表达的信息为茶,最终输出的文本信息为“茶”。

EfficientNet-B7网络的训练过程,如下:

步骤S1,获取分词录制手语视频片段,作为手语语境训练数据集;

步骤S2,按照残影图法步骤1~步骤3对采集的数据进行处理,将每个手语片段都转换为残影图;

步骤S3,按照7:2:1的比例划分训练集、验证集、测试集,设置learning-rate=0.001,batch-size=2。EfficientNet-B7网络模型在迭代大约40个epoch之后,在训练集和验证集上的准确率都超过了91%。

本实施例采用EfficientNet-B7网络对残影图进行图像分类,能够大大提高手势识别的准确性。采用EffcientNet自身及与其他网络的性能对比,如图8所示以及如表1所示。综合考虑性能、准确率,EfficientNet-B7是用于残影图法图像分类过程的最优模型。

表1

可选的,在另一些实施例中,步骤4中的深度学习方法还可以采用3D卷积网络,或者,也可以采用基于卷积神经网络和长短时记忆网络结合的手势识别算法。

基于卷积神经网络和长短时记忆网络结合的手势识别网络,包括两个级联卷积神经网络和长短时记忆网络。

3D卷积网络主要运用在视频分类、动作识别等领域,它是在2D卷积网络的基础上改变而来。在2D卷积网络中,卷积应用于2D特征图,仅从空间维度计算特征。当利用视频数据分析问题的时候,期望捕获在多个连续帧编码的运动信息。为此,提出在CNN的卷积进行3D卷积,以计算空间和时间维度特征,3D卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核。通过这种结构,卷积层中的特征图都会与上一层中的多个相邻帧相连,从而捕获运动信息。

实施例2

基于实施例1,本实施例提供基于残影图的动态手语识别系统,包括:

分帧模块:被配置为获取待识别的视频,进行分帧处理得到待识别图片;

图像分割模块:被配置为采用光流法对待识别图片进行动态皮肤分割处理,提取出视频帧中动态的区域,并提取视频帧动态区域中的肤色区域,得到进行手语动作的手部区域的图像;

残影图合成模块:被配置为将进行手语动作的手部区域的图像,按照图片帧的时间先后顺序,并按照透明度递减的原则合成为残影图;

图像分类模块:被配置为利用深度学习方法对残影图进行图像分类,得到待识别视频对应的文本信息。

此处需要说明的是,本实施例中的各个模块与实施例1中的各个步骤一一对应,其具体实施过程相同,此处不再累述。

实施例3

本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1的方法所述的步骤。

实施例4

本实施例提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1的方法所述的步骤。

以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

相关技术
  • 基于Kinect的动态手语识别方法
  • 一种基于文本的元器件识别方法、系统、装置和存储介质
  • 一种基于三维残差神经网络和视频序列的动态手语识别方法
  • 基于时空残差网络和时序卷积网络的连续手语识别方法
技术分类

06120115636845