掌桥专利:专业的专利平台
掌桥专利
首页

手语识别方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 18:29:06


手语识别方法、装置、电子设备及存储介质

技术领域

本申请属于人工智能技术领域,具体涉及一种手语识别方法、装置、电子设备及存储介质。

背景技术

目前,用户可以通过电子设备翻译手语,从而用户可以根据电子设备翻译的手语与其他用户交流。现有技术中,电子设备可以将包含手语的图像或视频输入骨骼点特征模板中,从而通过该骨骼点特征模板识别出该图像或视频中的手语含义。

然而,上述方法中,由于骨骼点特征模板输出的骨骼点维度较高(即骨骼点特征模板输出的骨骼点特征信息较多),电子设备需要在大量的词汇模板中进行特征检索,才可以达到较为准确的结果,如此,电子设备识别手语的效率较低。

发明内容

本申请实施例的目的是提供一种手语识别方法、装置、电子设备及存储介质,能够解决子设备识别手语的效率较低的问题。

第一方面,本申请实施例提供了一种手语识别方法,该手语识别方法包括:获取目标视频的视频帧中的目标用户的手部特征信息;根据手部特征信息,从目标视频中确定M个视频段,每个视频段包含至少一个连续的视频帧,每个视频段中包括具有相似手语动作对应的视频内容,M为大于1的整数;对M个视频段中的N个视频段进行手语识别,得到目标用户的手语信息,N个视频段中均包含目标手语动作对应的视频内容,N为小于或等于M的整数。

第二方面,本申请实施例提供了一种手语识别装置,该手语识别装置包括:获取模块、确定模块和处理模块。获取模块,用于获取目标视频的视频帧中的目标用户的手部特征信息。确定模块,用于根据手部特征信息,从目标视频中确定M个视频段,每个视频段包含至少一个连续的视频帧,每个视频段中包括具有相似手语动作对应的视频内容,M为大于1的整数。处理模块,用于对M个视频段中的N个视频段进行手语识别,得到目标用户的手语信息,N个视频段中均包含目标手语动作对应的视频内容,N为小于或等于M的整数。

第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。

第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中,电子设备可以获取目标视频中的视频帧中的目标用户的手部特征信息,然后根据该手部特征信息,从目标视频中确定M个视频段,并对M个视频帧中的N个视频帧进行手语识别,得到目标用户的手语信息。本方案中,电子设备可以通过目标用户的手部特征信息来代替骨骼点特征信息,即电子设备可以将复杂且维度高的骨骼点特征,抽象为低维的语言学特征,从而根据低维的语言学特征,从目标视频中确定包含手语动作的M个视频段,而且,电子设备可以进一步对M个视频段进行筛选,得到N个视频段,由于电子设备使用的是低维的语言学特征,从而电子设备可以通过较少的计算量获得包含目标用户手语动作的N个视频段,如此,提升了电子设备识别手语动作的效率。

附图说明

图1是本申请实施例提供的一种手语识别方法的流程图;

图2是本申请实施例提供的一种手语识别装置的结构示意图;

图3是本申请实施例提供的一种电子设备的硬件结构示意图之一;

图4是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的手语识别方法进行详细地说明。

目前,随着通信技术的发展,电子设备中的功能也日趋增多,例如电子设备可以对包含手语动作的视频进行识别,从而得到手语动作信息。现有技术中,(1)电子设备可以通过对视频进行滑动窗口随机切割,得到连续的包含手语动作的视频帧,从而对切割后的视频帧进行手语动作识别,得到手语动作信息;(2)电子设备可以根据骨骼点特征模板对视频进行手语动作识别,得到手语动作信息;(3)电子设备可以根据卷积神经网络,预测视频中应该进行分割的分割点,然后通过分割后的视频帧,得到手语动作信息;然而,对于上述方案(1)电子设备通过暴力切割方法,切割出的视频段较多,电子设备在通过多个视频段进行手语动作识别时,容易产生误召回;对于上述方案(2)骨骼点特征模板输出的特征信息的维度较多,电子设备在得到特征信息之后,需要大量的词汇模板进行特征检索,导致电子设备获取手语动作信息的效率较低;对于上述方案(3)电子设备在通过卷积神经网络预测视频的分割点时,需要前期进行大量的训练,才可以达到预设的效果。

本方案实施例中,电子设备可以获取目标视频中的视频帧中的目标用户的手部特征信息,然后根据该手部特征信息,从目标视频中确定M个视频段,并对M个视频帧中的N个视频帧进行手语识别,得到目标用户的手语信息。本方案中,电子设备可以通过目标用户的手部特征信息来代替骨骼点特征信息,即电子设备可以将复杂且维度高的骨骼点特征,抽象为低维的语言学特征,从而根据低维的语言学特征,从目标视频中确定包含手语动作的M个视频段,而且,电子设备可以进一步对M个视频段进行筛选,得到N个视频段,由于电子设备使用的是低维的语言学特征,从而电子设备可以通过较少的计算量获得包含目标用户手语动作的N个视频段,如此,提升了电子设备识别手语动作的效率。

本申请实施例提供的手语识别方法的执行主体可以为手语识别装置,该手语识别装置可以为电子设备,或电子设备中的功能模块。以下以电子设备为例,对本申请实施例提供的技术方案进行说明。

本申请实施例提供一种手语识别方法,图1示出了本申请实施例提供的一种手语识别方法的流程图。如图1所示,本申请实施例提供的手语识别方法可以包括下述的步骤201至步骤203。

步骤201、电子设备获取目标视频的视频帧中的目标用户的手部特征信息。

可选地,本申请实施例中,上述手部特征信息包括以下至少一项特征:目标标记、手部掌心朝向、手腕朝向、手型,该目标标记用于表征目标用户是否执行手语动作。

可以理解,上述目标视频为包含目标用户的手语动作的视频。

可选地,本申请实施例中,上述目标视频可以为用户通过电子设备中的浏览器应用程序下载的;或者用户通过电子设备中的视频应用程序获得的。

可以理解,上述目标用户为目标视频中做手语动作的用户。

可选地,本申请实施例中,若目标视频中包含多个用户,则电子设备可以从多个用户中选择目标用户,并获取目标用户的手部特征信息。

示例性地,电子设备可以将目标视频中的每一帧图像帧输入至骨骼点特征提取模型(例如MediaPipe模型)中,以得到该每一帧图像中的多个用户的骨骼点信息,从而电子设备可以根据骨骼点信息从多个用户中选择目标用户,并通过该目标用户的骨骼点信息,获取目标用户的手部特征信息。

可选地,本申请实施例中,上述骨骼点信息包括身体骨骼点信息和手部骨骼点信息。

示例性地,电子设备可以通过身体骨骼点信息从多个用户中选择目标用户,然后通过该目标用户手部骨骼点信息,获取目标用户的手部特征信息。

可选地,本申请实施中,电子设备在得到目标用户的骨骼点信息之后,电子设备可以通过骨骼点序列保存目标用户的骨骼点信息。

本申请实施例中,电子设备在获得目标视频中的用户的骨骼点信息之后,电子设备可以通过目标视频中的用户的骨骼点判断该用户是否在做手语动作,然后对包含手语动作的视频帧添加目标标记。

示例性地,以左手为例,电子设备可以通过下述公式(1)计算肩膀(通过11表示)、手肘(通过13表示)、手腕(通过15表示)三个点之间组成的夹角是否小于150度,从而判断用户是否在做手语动作,具体公式为:

angle=tan

其中,angle为夹角度数,y

可选地,本申请实施例中,上述目标标记可以直接添加在包含手语动作的视频帧中,或添加以键值对存储方式存储在目标存储空间中。

可选地,本申请实施例中,在目标用户的双手均在做手语动作时,电子设备可以通过一个目标标记表示目标用户的双手均在执行手语动作;或者,若目标用户的一只手在做手语动作,另一只并未做手语动作,电子设备可以通过不同的目标标记,标记目标用户的双手。

可选地,本申请实施例中,上述目标标记可以包括以下至少一项:数字标识、字母标识和特殊符号标识等。

示例性地,电子设备可以将做过目标标记的视频帧,输入至Yolo目标检测模型中,以得到目标用户双手的手型。

可选地,本申请实施例中,上述步骤201具体可以通过下述的步骤201a至步骤201e实现。

步骤201a、电子设备获取目标用户的手部横线斜率、手部纵线斜率,手部横线方差以及手部纵线方差。

本申请实施例中,电子设备可以对目标用户的手部横向骨骼点进行线性回归计算,得到目标用户的手部横线,即得到了目标用户的手部横线斜率;并且对目标用户的手部纵向骨骼点进行线性回归计算,得到目标用户的手部纵线即得到了目标用户的手部横线斜率,然后根据预设公式获得手掌横线对应的手部横线方差。

可选地,本申请实施例中,上述步骤201a具体可以通过下述的步骤201a1和步骤201a2实现。

步骤201a1、电子设备根据手型和骨骼点信息,确定手部横线斜率和手部纵线斜率。

可选地,本申请实施例中,上述手部横线方差可以包括X轴对应的手部横线方差和Y轴对应的手部横线方差。

示例性地,以一帧视频帧为例,假设手部骨骼点中的第一骨骼点对应的骨骼点为5,9,13,17,电子设备可以对5,9,13,17对应的骨骼点信息进行线性回归运算,然后得到5,9,13,17对应的骨骼横线,可以理解,得到手部横线之后,电子设备通过手部横线与手部横线斜率之间的对应的关系,得到手部横线斜率。

可选地,本申请实施例中,上述手部纵线方差可以包括X轴对应的手部纵线方差和Y轴对应的手部纵线方差。

示例性地,以一帧视频帧为例,假设手部骨骼点中的第二骨骼点对应的骨骼点为0,13,电子设备可以对0,13对应的骨骼点信息进行线性回归运算,然后得到0,13对应的骨骼纵线,可以理解,得到手部纵线之后,电子设备通过手部纵线与手部纵线斜率之间的对应的关系,得到手部纵线斜率。

步骤201a2、电子设备根据手部横线斜率,确定手部横线方差,以及根据所述手部纵线斜率,确定手部纵线方差。

示例性地,电子设备在得到手部横线斜率之后,可以通过下述公式(2)至公式(5)得到手部横线方差,具体公式为:

其中,

其中,

需要说明的是,上述实施例是通过一帧视频帧进行说明的,针对目标视频的至少一帧视频帧,均可以采用上述方式获取手部横线斜率和手部横线方差。

示例性地,电子设备在得到手部纵线斜率之后,可以通过下述公式(6)至公式(9)得到手部纵线方差,具体公式为:

其中,

其中,

需要说明的是,上述实施例是通过一帧视频帧进行说明的,针对目标视频的至少一帧视频帧,均可以采用上述方式获取手部纵线斜率和手部纵线方差。

步骤201b、电子设备根据手部横线斜率和手部横线方差,确定手掌横线平行状态。

可选地,本申请实施例中,上述手掌横线平行状态可以采用三位二进制数表示,每一位表示是否与对应的坐标轴平行。

示例性地,100表示与Z轴平行,010表示与Y轴平行,001表示与X轴平行,101表示与X轴或Z轴平行。

可选地,本申请实施例中,上述步骤201b具体可以通过下述的步骤301和步骤302实现。

步骤301、电子设备根据手部横线斜率和手部横线方差,确定手部横线对应的目标横向参考平行轴。

本申请实施例中,电子设备可以根据手部横线斜率是否与预设斜率平行阈值匹配以及手部横线方差是否与方差下限阈值和方差上限阈值匹配,从而确定手部横线对应的目标横向参考平行轴。

示例性地,若手部横线斜率小于预设斜率平行阈值,则电子设备认为手部横线可能与X轴或Z轴平行,然后再判断手部横线方差,若手部横线方差小于方差下限阈值,则手部横线在xy平面上接近于一个点,即情况1,手部横线平行于Z轴,平行状态设为100;如果手部横线方差大于上限阈值,即情况2,平行于X轴,平行状态设为001;如果手部横线方差介于方差下限阈值和方差上限阈值之间,即情况3,手部横线介于X轴与Z轴之间,平行状态设为101。

步骤302、电子设备根据目标横向参考平行轴,确定手掌横线平行状态。

本申请实施例中,电子设备可以根据手部横线的目标横向参考平行轴,确定手掌横线平行状态。

本申请实施例中,电子设备可以通过手掌横线平行状态,确定目标用户的掌心朝向和手腕朝向,从而通过掌心朝向和手腕朝向识别目标用户的手语动作,即电子设备通过低维的语言学特征,可以识别出目标用户的手语动作,减少了电子设备通过高维骨骼点信息识别目标用户的手语动作的计算量,提高了电子设备识别出目标用户的手语动作的效率。

步骤201c、电子设备根据手部纵线斜率和手部纵线方差,确定手掌纵线平行状态。

可选地,本申请实施例中,上述手掌纵线平行状态可以采用三位二进制数表示,每一位表示是否与对应的坐标轴平行。

示例性地,100表示与Z轴平行,010表示与Y轴平行,001表示与X轴平行,101表示与X轴或Z轴平行。

可选地,本申请实施例中,上述步骤201c具体可以通过下述的步骤401和步骤402实现。

步骤401、电子设备根据手部纵线斜率和手部纵线方差,确定手部纵线对应的目标纵向参考平行轴。

本申请实施例中,电子设备可以根据手部纵线斜率是否与预设斜率垂直阈值匹配以及手部纵线方差是否与方差下限阈值和方差上限阈值匹配,从而确定手部纵线对应的目标纵向参考平行轴。

示例性地,若手部纵线斜率大于斜率垂直阈值,则电子设备认为手部纵线可能与Y轴或Z轴平行,然后对手部纵线方差做相同的判断,若手部纵线方差小于下限阈值,即情况1,平行于Z轴,平行状态设为100;如果手部纵线方差大于上限阈值,情况2,平行于Y轴,平行状态设为010;如果手部纵线方差介于方差下限阈值和方差上限阈值之间,即情况3,平行状态介于Y轴与Z轴之间,平行状态设为110。

又示例性地,若手部纵线斜率或手部横线斜率在平行阈值与垂直阈值之间,若手部横线方差和手部纵线方差均小于下限阈值,属于情况1,平行于Y轴,平行状态设为100;如果只有手部纵线方差均小于下限阈值,属于情况2,平行状态介于X轴与Z轴之间,平行状态设为101;如果手部横线方差小于下限阈值,属于情况3,平行状态介于Y轴与Z轴之间,平行状态设为110;若手部横线方差和手部纵线方差均大于下限阈值,属于情况4,平行状态介于X轴与Y轴之间,平行状态设为011。

步骤402、电子设备根据目标纵向参考平行轴,确定手掌纵线平行状态。

本申请实施例中,电子设备可以根据手部纵线的目标纵向参考平行轴,确定手掌纵线平行状态。

本申请实施例中,电子设备可以通过手掌纵线平行状态,确定目标用户的掌心朝向和手腕朝向,从而通过掌心朝向和手腕朝向识别目标用户的手语动作,即电子设备通过低维的语言学特征,可以识别出目标用户的手语动作,减少了电子设备通过高维骨骼点信息识别目标用户的手语动作的计算量,提高了电子设备识别出目标用户的手语动作的效率。

步骤201d、电子设备根据手部的骨骼点信息,确定目标用户手部的方向。

可选地,本申请实施例中,电子设备可以通过手部横线的顶点骨骼点信息(即对应上述5、17骨骼点)或通过手部纵线的顶点骨骼点信息(即对应上述0、133骨骼点),确定目标用户手部的方向。

示例性地,针对上述手部横线的顶点骨骼点信息,电子设备可以通过5、17两个骨骼点的XYZ的坐标计算手部横线方向,具体为:

若X_17>X_5:则手部横线的方向为左;若X_17<=X_5:则手部横线方向为右;若Y_17>Y_5:则手部横线的方向为上;若Y_17<=Y_5:则手部横线方向方向为下;若Z_17>Z_5:则手部横线的方向为后;若Z_17<=Z_5:则手部横线的方向为前。

又示例性地,针对上述手部纵线的顶点骨骼点信息,电子设备可以通过0、13两个骨骼点的XYZ坐标计算手部竖线方向,具体为:

若X_13>X_0:则手部纵线的方向为左;若X_13<=X_0:则手部纵线的方向为右;若Y_13>Y_0:则手部纵线的方向为上;若Y_13<=Y_0:则手部纵线的方向为下;若Z_13>Z_0:则手部纵线的方向为后;如果Z_13<=Z_0:则手部纵线的方向为前。

步骤201e、电子设备根据目标用户手部的平行状态与目标用户手部的方向,确定目标用户的手部掌心朝向和手腕朝向。

本申请实施例中,上述手部特征信息包括:手部掌心朝向和手腕朝向,目标用户手部的平行状态包括手掌横线平行状态和手掌纵线平行状态中的任一项。

本申请实施例中,电子设备可以根据目标用户手部的平行状态和目标用户手部的方向与预设组合编号之间的对应关系,确定目标用户的手部掌心朝向和手腕朝向。

可选地,本申请实施例中,上述步骤201e具体可以通过下述的步骤501实现。

步骤501、电子设备基于对应关系,确定与目标用户手部的平行状态和目标用户手部的方向对应的第一手部特征。

本申请实施中,上述对应关系包括目标用户手部的平行状态和目标用户手部的方向与手部特征信息间的映射关系,第一手部特征为手部特征信息中基于对应关系确定的特征。

示例性地,以右手为例,若手部横线平行状态第一位为1(平行于X轴),则组合编号的第一位为A,若手部横线方向向右,则组合编号第二位为x,向左则为y,当手掌竖线平行状态第三位为1(平行于Z轴)时,若手掌竖线向前,则组合编号的第三位为1,向后则为4,具体地,可以通过下述表格1查询。

表格1

可选地,本申请实施例中,由于左手和右手是镜像关系,在参照右手的计算公式计算出组合编号之后,将组合编号中间的XY互换就可以得到左手的第一手部特征信息。

步骤202、电子设备根据手部特征信息,从目标视频中确定M个视频段。

本申请实施例中,上述M个视频段中的每个视频段包含至少一个连续的视频帧,该每个视频段中包括具有相似手语动作对应的视频内容,M为大于1的整数。

可选地,本申请实施例中,上述步骤202具体可以通过下述的步骤202a至202c实现。

步骤202a、电子设备通过手部特征信息,对目标视频中的至少一个视频帧进行识别处理,得到至少一个视频帧中的每两帧视频帧之间的手语动作差异信息。

示例性地,以两帧视频帧为例,电子设备可以首先对比两帧视频中的目标标记,如果不同,则差异标记为不相似,在两帧视频目标标记相同的情况,再对两帧视频帧中的掌心朝向和手腕朝向,当视频帧1中的掌心朝向和手腕朝向和视频帧2中的掌心朝向和手腕朝向完全相同时,差异标记为相同,若满足至少其中一个方向相同,差异标记为是相似,否则是不相似,当两帧视频帧终端掌心朝向与手腕朝向都相同时,再对比两帧视频帧中的目标用户的手型,若手型相同,则差异标记为相等,否则为相似。

可选地,本申请实施例中,电子设备可以根据不相似>相似>相同的优先级顺序,合并左右手的差异标记,取两者中优先级最高的作为该帧图像帧差异标记。

步骤202b、电子设备根据手语动作差异信息的差异类别,从至少一个视频帧确定I个目标视频帧。

本申请实施例中,I个目标视频帧为包含相似手语动作的视频帧,I为大于1的整数。

本申请实施例中,电子设备每读入一个新的视频帧,电子设备可以根据该视频帧与前一帧帧视频帧的差异标记,选择将该新的视频帧添加至视频段,还是新建一个视频段。

示例性地,以窗口表示视频段,电子设备在读入第一个视频帧时,电子设备可以根据该视频帧新建一个窗口(下述简称为第一窗口),然后继续读入第二个视频帧,然后判断第二个视频帧与第一个视频帧之间的差异标识(例如相等、相似、不相似),在第一个视频帧与第二个视频帧的之间的差异标识为相等的情况下,电子设备可以将该第二个视频帧添加至第一窗口中;在第一个视频帧与第二个视频帧之间的差异标识为相似的情况下,电子设备可以将该第二个视频帧添加至第一窗口中,并新建第二窗口,以及将第二个视频帧作为第二窗口中的第一帧视频帧;在第一个视频帧与第二个视频帧之间的差异标识为不相似的情况下,电子设备可以新建第三窗口,并将该第二个视频帧作为第二窗口中的第一帧视频帧,如此,至少一个视频帧中确定M个视频段。

步骤202c、、电子设备根据I个目标视频帧,得到M个视频段。

本申请实施例中,电子设备可以根据每两帧视频帧的差异标识,以得到具有相似手语动作的I个目标视频帧,从而对该I个目标视频帧根据目标视频原本的时序信息,得到M个视频段。

本申请实施例中,电子设备可以根据视频帧的差异标识,从至少一个视频帧中确定具有相似手语动作的M个视频段,如此,电子设备可以对分割后的M个视频段进行手语识别,提高了电子设备识别手语动作的效率。

可选地,本申请实施例中,在上述步骤202之后,本申请实施例提供的手语识别方法还包括步骤601至步骤603。

步骤601、电子设备根据M个视频段中的每个视频段的第一值和每个视频段的视频段长度,从M个视频段中确定L个视频段。

本申请实施例中,上述第一值为每个视频段对应的差异程序的平均值。

示例性地,电子设备可以通过下述公式(10)获取每个视频段对应的差异程序的平均值,具体公式为:

Score

其中,Score

又示例行地,电子设备可以通过下述公式(11)获取每个视频段对应的视频段长度,具体公式为:

Length=End-Start+1 (公式11)

其中,Length为每个视频段对应的视频段长度,End为每个视频段中的最后一帧视频的下标,Start为每个视频段中的第一帧视频的下标。

可选地,本申请实施例中,电子设备可以根据每个视频段对应的视频段长度,从M个视频段中选择符合预设长度的视频段,然后将该符合预设长度的视频段按照第一值进行排序。

步骤602、电子设备按照第一值大小,对L个视频段进行排序,并计算排序后的L个视频段中的目标视频段分别与L个视频段中的其他视频段之间的相似度值。

示例性地,以两个窗口为例,电子设备可以通过下述的公式(12)至公式(18),计算L个视频段中的目标视频段分别与L个视频段中的其他视频段之间的相似度值;公式具体为:

Start=max(Start

其中,Start为开始窗口,Start

End=min(End

其中,Ended为结束窗口,End

Inter=End-Start+1 (公式14)

其中,Inter为开始窗口与结束窗口的交集。

Score

其中,Score

Score

其中,Score

Score

其中,Score

Score=Score

步骤603、电子设备基于相似度值,从排序后的L个视频段确定N个视频段。

本申请实施例中,若根据上述公式计算出的Score大于预设阈值,则窗口B从筛选窗口中剔除,直到筛选窗口中不再包含窗口为止。

本申请实施例中,电子设备可以对M个视频段进行进一步筛选,以得到N个视频段,从而减少了电子设备识别视频段的数量,提升了电子设备识别手语动作的效率。

步骤203、电子设备对M个视频段中的N个视频段进行手语识别,得到目标用户的手语信息。

本申请实施例中,上述N个视频段中均包含目标手语动作对应的视频内容,N为小于或等于M的整数。

本申请实施例提供一种手语识别方法,电子设备可以获取目标视频中的视频帧中的目标用户的手部特征信息,然后根据该手部特征信息,从目标视频中确定M个视频段,并对M个视频帧中的N个视频帧进行手语识别,得到目标用户的手语信息。本方案中,电子设备可以通过目标用户的手部特征信息来代替骨骼点特征信息,即电子设备可以将复杂且维度高的骨骼点特征,抽象为低维的语言学特征,从而根据低维的语言学特征,从目标视频中确定包含手语动作的M个视频段,而且,电子设备可以进一步对M个视频段进行筛选,得到N个视频段,由于电子设备使用的是低维的语言学特征,从而电子设备可以通过较少的计算量获得包含目标用户手语动作的N个视频段,如此,提升了电子设备识别手语动作的效率。

需要说明的是,本申请实施例提供的手语识别方法,执行主体可以为手语识别装置,或者电子设备,或者还可以为电子设备中的功能模块或实体。本申请实施例中以手语识别装置执行手语识别方法为例,说明本申请实施例提供的手语识别装置。

图2示出了本申请实施例中涉及的手语识别装置的一种可能的结构示意图。如图2所示,该手语识别装置70可以包括:获取模块71、确定模块72和处理模块73。

其中,获取模块71,用于获取目标视频的视频帧中的目标用户的手部特征信息。确定模块72,用于根据手部特征信息,从目标视频中确定M个视频段,每个视频段包含至少一个连续的视频帧,每个视频段中包括具有相似手语动作对应的视频内容,M为大于1的整数。处理模块73,用于对M个视频段中的N个视频段进行手语识别,得到目标用户的手语信息,N个视频段中均包含目标手语动作对应的视频内容,N为小于或等于M的整数。

在一种可能的实现方式中,上述获取模块71,具体用于获取目标用户的手部横线斜率、手部纵线斜率,手部横线方差以及手部纵线方差;根据手部横线斜率和手部横线方差,确定手掌横线平行状态;并根据手部纵线斜率和手部纵线方差,确定手掌纵线平行状态;以及根据手部的骨骼点信息,确定目标用户手部的方向;以及根据目标用户手部的平行状态与目标用户手部的方向,确定目标用户的手部掌心朝向和手腕朝向;其中,手部特征信息包括:手部掌心朝向和手腕朝向,目标用户手部的平行状态包括手掌横线平行状态和手掌纵线平行状态中的任一项。

在一种可能的实现方式中,上述获取模块71,具体用于根据手型和骨骼点信息,确定手部横线斜率和手部纵线斜率;并根据手部横线斜率,确定手部横线方差,以及根据手部纵线斜率,确定手部纵线方差。

在一种可能的实现方式中,上述获取模块71,具体用于根据手部横线斜率和手部横线方差,确定手部横线对应的目标横向参考平行轴;并根据目标横向参考平行轴,确定手掌横线平行状态;以及根据手部纵线斜率和手部纵线方差,确定手部纵线对应的目标纵向参考平行轴;以及根据目标纵向参考平行轴,确定手掌纵线平行状态。

在一种可能的实现方式中,上述获取模块71,具体用于基于对应关系,确定与目标用户手部的平行状态和目标用户手部的方向对应的第一手部特征;其中,对应关系包括目标用户手部的平行状态和目标用户手部的方向与手部特征信息间的映射关系,第一手部特征为手部特征信息中基于对应关系确定的特征。

在一种可能的实现方式中,上述确定模块72,具体用于通过手部特征信息,对目标视频中的至少一个视频帧进行识别处理,得到至少一个视频帧中的每两帧视频帧之间的手语动作差异信息;根据手语动作差异信息的差异类别,从至少一个视频帧确定I个目标视频帧,I个目标视频帧为包含相似手语动作的视频帧,I为大于1的整数;根据I个目标视频帧,得到M个视频段。

在一种可能的实现方式中,上述确定模块72,还用于根据手部特征信息,从目标视频中确定M个视频段之后,根据M个视频段中的每个视频段的第一值和每个视频段的视频段长度,从M个视频段中确定L个视频段,第一值为每个视频段对应的差异程序的平均值。处理模块73,还用于按照第一值大小,对L个视频段进行排序,并计算排序后的L个视频段中的目标视频段分别与L个视频段中的其他视频段之间的相似度值。上述确定模块72,还用于基于相似度值,从排序后的L个视频段确定N个视频段。

本申请实施例提供一种手语识别装置,手语识别装置可以通过目标用户的手部特征信息来代替骨骼点特征信息,即手语识别装置可以将复杂且维度高的骨骼点特征,抽象为低维的语言学特征,从而根据低维的语言学特征,从目标视频中确定包含手语动作的M个视频段,而且,手语识别装置可以进一步对M个视频段进行筛选,得到N个视频段,由于手语识别装置使用的是低维的语言学特征,从而手语识别装置可以通过较少的计算量获得包含目标用户手语动作的N个视频段,如此,提升了电子设备识别手语动作的效率。

本申请实施例中的手语识别装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(MobileInternet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。

本申请实施例中的手语识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。

本申请实施例提供的手语识别装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。

可选地,如图3所示,本申请实施例还提供一种电子设备90,包括处理器91和存储器92,存储器92上存储有可在所述处理器91上运行的程序或指令,该程序或指令被处理器91执行时实现上述手语识别方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图4为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。

其中,处理器110,用于获取目标视频的视频帧中的目标用户的手部特征信息;并根据手部特征信息,从目标视频中确定M个视频段,每个视频段包含至少一个连续的视频帧,每个视频段中包括具有相似手语动作对应的视频内容,M为大于1的整数;以及对M个视频段中的N个视频段进行手语识别,得到目标用户的手语信息,N个视频段中均包含目标手语动作对应的视频内容,N为小于或等于M的整数。

本申请实施例提供一种电子设备,电子设备可以通过目标用户的手部特征信息来代替骨骼点特征信息,即电子设备可以将复杂且维度高的骨骼点特征,抽象为低维的语言学特征,从而根据低维的语言学特征,从目标视频中确定包含手语动作的M个视频段,而且,电子设备可以进一步对M个视频段进行筛选,得到N个视频段,由于电子设备使用的是低维的语言学特征,从而电子设备可以通过较少的计算量获得包含目标用户手语动作的N个视频段,如此,提升了电子设备识别手语动作的效率。

可选地,本申请实施例中,上述处理器110,具体用于获取目标用户的手部横线斜率、手部纵线斜率,手部横线方差以及手部纵线方差;根据手部横线斜率和手部横线方差,确定手掌横线平行状态;并根据手部纵线斜率和手部纵线方差,确定手掌纵线平行状态;以及根据手部的骨骼点信息,确定目标用户手部的方向;以及根据目标用户手部的平行状态与目标用户手部的方向,确定目标用户的手部掌心朝向和手腕朝向;其中,手部特征信息包括:手部掌心朝向和手腕朝向,目标用户手部的平行状态包括手掌横线平行状态和手掌纵线平行状态中的任一项。

可选地,本申请实施例中,上述处理器110,具体用于根据手型和骨骼点信息,确定手部横线斜率和手部纵线斜率;根据手部横线斜率,确定手部横线方差,以及根据手部纵线斜率,确定手部纵线方差。

可选地,本申请实施例中,上述处理器110,具体用于根据手部横线斜率和手部横线方差,确定手部横线对应的目标横向参考平行轴;并根据目标横向参考平行轴,确定手掌横线平行状态;以及根据手部纵线斜率和手部纵线方差,确定手部纵线对应的目标纵向参考平行轴;以及根据目标纵向参考平行轴,确定手掌纵线平行状态。

可选地,本申请实施例中,上述处理器110,具体用于基于对应关系,确定与目标用户手部的平行状态和目标用户手部的方向对应的第一手部特征;其中,对应关系包括目标用户手部的平行状态和目标用户手部的方向与手部特征信息间的映射关系,第一手部特征为手部特征信息中基于对应关系确定的特征。

可选地,本申请实施例中,上述处理器110,具体用于通过手部特征信息,对目标视频中的至少一个视频帧进行识别处理,得到至少一个视频帧中的每两帧视频帧之间的手语动作差异信息;根据手语动作差异信息的差异类别,从至少一个视频帧确定I个目标视频帧,I个目标视频帧为包含相似手语动作的视频帧,I为大于1的整数;根据I个目标视频帧,得到M个视频段。

可选地,本申请实施例中,上述处理器110,还用于根据手部特征信息,从目标视频中确定M个视频段之后,根据M个视频段中的每个视频段的第一值和每个视频段的视频段长度,从M个视频段中确定L个视频段,第一值为每个视频段对应的差异程序的平均值;并按照第一值大小,对L个视频段进行排序,并计算排序后的L个视频段中的目标视频段分别与L个视频段中的其他视频段之间的相似度值;以及基于相似度值,从排序后的L个视频段确定N个视频段。

本申请实施例提供的电子设备能够实现上述方法实施例实现的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果,为避免重复,此处不再赘述。

应理解的是,本申请实施例中,输入单元104可以包括图形处理器(GraphicsProcessing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器109可以包括易失性存储器或非易失性存储器,或者,存储器109可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元;可选的,处理器110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述手语识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 手语信息处理方法、装置、电子设备和可读存储介质
  • 语音识别方法、装置、电子设备及计算机可读存储介质
  • 票据识别方法及装置、电子设备及存储介质
  • 交通指示灯的状态识别方法、装置、电子设备及存储介质
  • 行人再识别方法和装置、电子设备、存储介质、程序产品
  • 手语识别方法及装置、存储介质及电子设备
  • 一种手语识别方法、装置、电子设备和计算机存储介质
技术分类

06120115581870