掌桥专利:专业的专利平台
掌桥专利
首页

动作教学方法、装置和动作教学系统

文献发布时间:2024-04-18 19:58:30


动作教学方法、装置和动作教学系统

技术领域

本发明涉及动作教学领域,具体而言,涉及一种动作教学方法、装置、计算机可读存储介质和动作教学系统。

背景技术

在全民健身的时代,运动的视频教学方式不够立体化,用户难以掌握动作要领,亟需结合现代科学技术完成2D-3D教学的转变。获取3D人体动作数据是开发动作教学系统的关键。目前专业的动作捕捉系统通过在人体关键位置佩戴传感器或标记采集运动数据,虽然精度较高,但通常价格昂贵,设备调试复杂,且穿戴在身上的传感器设备在一定程度上会束缚人的运动;基于体感相机的无接触动作捕捉技术精度较低,且只能捕捉少量的人体骨骼关键点位置数据,无法还原真实的人体动作。

发明内容

本申请的主要目的在于提供一种动作教学方法、装置、计算机可读存储介质和动作教学系统,以至少解决现有技术中动作捕捉系统无法还原真实的人体动作的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种动作教学方法,所述方法包括:实时获取多个第一动作点云,多个所述第一动作点云为多角度采集的人体动作生成的点云;采用SVD分解算法生成多个所述第一动作点云的位姿变换矩阵,并采用所述位姿变换矩阵将多个所述第一动作点云的转换至同一坐标系,得到多个第二动作点云;将多个所述第二动作点云拼接合成人体动作点云;根据所述人体动作点云生成人体动作,并实时播放所述人体动作以进行动作教学。

可选地,实时获取多个第一动作点云,包括:获取多个深度相机采集的多个RGB图像和多个深度信息,所述RGB图像与所述深度相机一一对应,所述深度信息与所述RGB图像的像素点一一对应;将各所述RGB图像和对应的所述深度信息通过反透视投影变换生成多个所述第一动作点云。

可选地,获取多个深度相机采集的多个RGB图像和多个深度信息,包括:控制多个所述深度相机依次间隔预定时长进行拍摄,得到多个所述RGB图像和多个所述深度信息。

可选地,采用SVD分解算法生成多个所述第一动作点云的位姿变换矩阵,并采用所述位姿变换矩阵将多个所述第一动作点云的转换至同一坐标系,得到多个第二动作点云,包括:将一个所述第一动作点云确定为参考点云;处理步骤,采用所述SVD分解算法生成所述参考点云和目标点云的所述位姿变换矩阵,得到目标位姿变换矩阵,并采用所述目标位姿变换矩阵将所述目标点云转换至所述参考点云的坐标系,得到所述第二动作点云,所述目标点云为所述参考点云以外的任意一个所述第一动作点云;重复所述处理步骤至少一次,直至将除所述参考点云外的所有的所述第一动作点云转化为所述第二动作点云。

可选地,采用SVD分解算法生成所述参考点云和目标点云的所述位姿变换矩阵,得到目标位姿变换矩阵,包括:分别计算所述参考点云的任意三点与第一点云质心的距离,得到三个第一距离,所述第一点云质心为所述参考点云的质心;分别计算所述目标点云的任意三点与第二点云质心的距离,得到三个第二距离,所述第二点云质心为所述目标点云的质心;根据三个所述第一距离和三个所述第二距离生成目标矩阵,且所述目标矩阵的元素为所述第一距离和所述第二距离的乘积;采用所述SVD分解算法对所述目标矩阵进行SVD分解,得到旋转矩阵和平移矩阵;将所述旋转矩阵和所述平移矩阵确定为所述目标位姿变换矩阵。

可选地,将多个所述第二动作点云拼接合成人体动作点云,包括:将多个所述第二动作点云拼接合成第一预备人体动作点云;对所述第一预备人体动作点云进行半径滤波算法进行滤波处理,得到第二预备人体动作点云;对所述第二预备人体动作点云进行体素滤波算法进行滤波处理,得到所述人体动作点云。

可选地,对所述第一预备人体动作点云进行半径滤波算法进行滤波处理,得到第二预备人体动作点云,包括:计算步骤,计算目标点与所有的其他点的欧式距离,得到多个欧式距离,所述目标点为所述第一预备人体动作点云的任意一个点,所述其他点为所述第一预备人体动作点云的所述目标点以外的任意一个点;确定步骤,将所有的小于预定欧式距离的所述欧式距离对应的所述其他点确定为邻近点;删除步骤,在所述邻近点的数量小于预定数量的情况下,删除所述目标点;依次重复所述计算步骤、所述确定步骤和所述删除步骤至少一次,直至所述第一预备人体动作点云的所有的点均完成所述删除步骤一次。

根据本申请的另一方面,提供了一种动作教学装置,所述方法包括:获取单元,用于实时获取多个第一动作点云,多个所述第一动作点云为多角度采集的人体动作生成的点云;处理单元,用于采用SVD分解算法生成多个所述第一动作点云的位姿变换矩阵,并采用所述位姿变换矩阵将多个所述第一动作点云的转换至同一坐标系,得到多个第二动作点云;合成单元,用于将多个所述第二动作点云拼接合成人体动作点云;生成单元,用于根据所述人体动作点云生成人体动作,并实时播放所述人体动作以进行动作教学。

根据本申请的再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的方法。

根据本申请的又一方面,提供了一种动作教学系统,包括:显示设备,一个或多个处理器,存储器,以及一个或多个程序,其中,所述显示设备用于播放人体动作,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的方法。

应用本申请的技术方案,上述动作教学方法中,首先,实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;然后,采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;之后,将多个上述第二动作点云拼接合成人体动作点云;最后,根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。该方法通过多角度采集的人体动作生成的点云,得到多个第一动作点云,并将第一动作点云转换至同一坐标系进行拼接合成人体动作点云,即可根据人体动作点云生成人体动作,并实时播放人体动作以进行动作教学,即通过多角度采集人体动作的点云拼接形成人体动作点云,使得人体动作点云生成的人体动作高度还原实际人体动作,解决了现有技术中动作捕捉系统无法还原真实的人体动作的问题。

附图说明

图1示出了根据本申请的实施例中提供的一种执行动作教学方法的移动终端的硬件结构框图;

图2示出了根据本申请的实施例提供的一种动作教学方法的流程示意图;

图3示出了根据本申请的实施例提供的相机的布置示意图;

图4示出了根据本申请的实施例提供的另一种动作教学方法的流程示意图;

图5示出了根据本申请的实施例提供的一种动作教学装置的结构框图;

其中,上述附图包括以下附图标记:

1、数据传输线;2、PC服务器;3、信号同步电缆;4、深度相机。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

正如背景技术中所介绍的,现有技术中动作捕捉系统无法还原真实的人体动作,为解决该问题,本申请的实施例提供了一种动作教学方法、装置、计算机可读存储介质和动作教学系统。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种动作教学方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的设备信息的显示方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的动作教学方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本申请实施例的动作教学方法的流程图。如图2所示,该方法包括以下步骤:

步骤S201,实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;

具体地,如图3所示,三台深度相机4以120°夹角均匀布置,数据传输线1连接至PC服务器2,数据传输线1可以为USB3.0数据线,传输采集的RGB图像和深度图像,AzureKinect DK深度相机之间连接信号同步电缆3传输时钟同步信号,信号同步电缆3为3.5毫米音频线,三台Azure Kinect DK相机即可多角度采集的人体动作生成的点云。

步骤S202,采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;

具体地,采用SVD分解算法可以计算任意两台相机的第一动作点云的位姿变换矩阵,即可分别将不同相机点云转换至同一坐标系,得到多个第二动作点云。

步骤S203,将多个上述第二动作点云拼接合成人体动作点云;

具体地,多个第二动作点云位于同一坐标系,即可实现人体点云拼接,得到可以多角度查看的人体动作点云。

步骤S204,根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。

具体地,实时播放人体动作点云生成的人体动作,用户可通过可视化界面实时查看3D动作,随意转换观测视角学习动作细节。

上述动作教学方法中,首先,实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;然后,采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;之后,将多个上述第二动作点云拼接合成人体动作点云;最后,根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。该方法通过多角度采集的人体动作生成的点云,得到多个第一动作点云,并将第一动作点云转换至同一坐标系进行拼接合成人体动作点云,即可根据人体动作点云生成人体动作,并实时播放人体动作以进行动作教学,即通过多角度采集人体动作的点云拼接形成人体动作点云,使得人体动作点云生成的人体动作高度还原实际人体动作,解决了现有技术中动作捕捉系统无法还原真实的人体动作的问题。

为了简化点云生成步骤,一种可选的实施方式中,上述步骤S201包括:

步骤S2011,获取多个深度相机采集的多个RGB图像和多个深度信息,上述RGB图像与上述深度相机一一对应,上述深度信息与上述RGB图像的像素点一一对应;

步骤S2012,将各上述RGB图像和对应的上述深度信息通过反透视投影变换生成多个上述第一动作点云。

具体地,采用反透视投影变换公式

为了保证点云的精度,一种可选的实施方式中,上述步骤S2011包括:

步骤S20111,控制多个上述深度相机依次间隔预定时长进行拍摄,得到多个上述RGB图像和多个上述深度信息。

具体地,设置相机捕获间隔为160μs,以防止多个深度相机的激光相互干扰,保证深度相机生成点云的精度。

为了合成便于教学的人体动作点云,一种可选的实施方式中,上述步骤S202包括:

步骤S2021,将一个上述第一动作点云确定为参考点云;

步骤S2022,处理步骤,采用上述SVD分解算法生成上述参考点云和目标点云的上述位姿变换矩阵,得到目标位姿变换矩阵,并采用上述目标位姿变换矩阵将上述目标点云转换至上述参考点云的坐标系,得到上述第二动作点云,上述目标点云为上述参考点云以外的任意一个上述第一动作点云;

步骤S2023,重复上述处理步骤至少一次,直至将除上述参考点云外的所有的上述第一动作点云转化为上述第二动作点云。

具体地,首先对三台Azure Kinect DK相机进行自动标定,PC服务器控制三台相机同步采集图像,使用SuperGlue特征匹配模型提取并匹配图像对的特征点。SuperGlue利用SuperPoint计算得到特征点与描述符,并构建一个可学习的特征匹配器,通过该匹配器得到最佳匹配的特征点,再根据深度图像提供的深度信息计算特征点的三维坐标,然后借助SVD分解算法计算一台相机与另外两台相机的三维特征点的位姿变换矩阵,通过两个位姿变换矩阵将另外两台相机采集的第一动作点云转化为上述第二动作点云,即可合成多角度查看的人体动作点云,便于教学。

为了便于点云拼接,一种可选的实施方式中,上述步骤S2022包括:

步骤S20221,分别计算上述参考点云的任意三点与第一点云质心的距离,得到三个第一距离,上述第一点云质心为上述参考点云的质心;

步骤S20222,分别计算上述目标点云的任意三点与第二点云质心的距离,得到三个第二距离,上述第二点云质心为上述目标点云的质心;

步骤S20223,根据三个上述第一距离和三个上述第二距离生成目标矩阵,且上述目标矩阵的元素为上述第一距离和上述第二距离的乘积;

步骤S20224,采用上述SVD分解算法对上述目标矩阵进行SVD分解,得到旋转矩阵和平移矩阵;

步骤S20225,将上述旋转矩阵和上述平移矩阵确定为上述目标位姿变换矩阵。

具体地,假设

为了优化点云,一种可选的实施方式中,上述步骤S203包括:

步骤S2031,将多个上述第二动作点云拼接合成第一预备人体动作点云;

步骤S2032,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,得到第二预备人体动作点云;

步骤S2033,对上述第二预备人体动作点云进行体素滤波算法进行滤波处理,得到上述人体动作点云。

具体地,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,去除离群点,由于三个相机产生的点云数据量较大,为保证数据的实时传输和演示,需对点云进行下采样操作。首先对滤波后的点云进行体素划分,然后计算非空体素的质心,用该质心代替该体素中所有点,实现点云的下采样。各相机分割得到的人体点云经过滤波和下采样处理之后,结合标定得到的位姿变换矩阵转换至相同坐标系,得到重建后的人体动作点云,完成点云优化,简化点云计算。

为了避免教学的人体动作变形,一种可选的实施方式中,上述步骤S2032包括:

步骤S20321,用于执行计算步骤,计算目标点与所有的其他点的欧式距离,得到多个欧式距离,上述目标点为上述第一预备人体动作点云的任意一个点,上述其他点为上述第一预备人体动作点云的上述目标点以外的任意一个点;

步骤S20322,用于执行确定步骤,将所有的小于预定欧式距离的上述欧式距离对应的上述其他点确定为邻近点;

步骤S20323,用于执行删除步骤,在上述邻近点的数量小于预定数量的情况下,删除上述目标点;

步骤S20324,用于依次重复上述计算步骤、上述确定步骤和上述删除步骤至少一次,直至上述第一预备人体动作点云的所有的点均完成上述删除步骤一次。

具体地,对于第一预备人体动作点云中某个点,计算该点和周围所有点的欧式距离,设定空间点半径范围临近点数量阈值参数,若该点的近邻点小于该阈值则被滤除,避免教学的人体动作变形。

为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实施例对本申请的动作教学方法的实现过程进行详细说明。

本实施例涉及一种具体的动作教学方法,如图4所示,包括如下步骤:

步骤S1:硬件布置如图1所示,三台Azure Kinect DK相机以120°夹角均匀布置,数据传输线(USB3.0数据线)连接至PC服务器,传输采集的RGB图像和深度图像,相机与相机之间连接信号同步电缆(3.5毫米音频线),传输时钟同步信号,为了防止多个深度相机的激光相互干扰,设置相机捕获间隔为160μs。

步骤S2:整体功能实现流程如图2所示,包括相机标定模块、动作重建模块和动作教学模块。首先对三台Azure Kinect DK相机进行自动标定。PC服务器控制三台相机同步采集图像,使用SuperGlue特征匹配模型提取并匹配图像对的特征点。SuperGlue利用SuperPoint计算得到特征点与描述符,并构建一个可学习的特征匹配器,通过该匹配器得到最佳匹配的特征点。再根据深度图像提供的深度信息计算特征点的三维坐标。然后借助SVD分解算法计算两台相机三维特征点的最优变换,假设p

步骤S3:同步采集三个相机的图像,将图像输入预训练的BiSeNet V2语义分割模型,BiSeNet V2模型分为两个分支,细节分支捕获低层细节并生成高分辨率的特征表示,语义分支捕获高层次语义信息,之后采用一个引导聚合层来融合这两种类型的特征,最终输出各图像的人体区域掩膜,提取掩膜区域图像,根据反透视投影变换生成人体点云;

步骤S4:对人体点云采用半径滤波算法剔除离群点。实现流程为:对于点云中某个空间点,计算该点和周围所有点的欧式距离,设定空间点半径范围临近点数量阈值参数,若该空间点的近邻点小于该阈值则被滤除。由于三个相机产生的点云数据量较大,为保证数据的实时传输和演示,需对点云进行下采样操作。首先对滤波后的点云进行体素划分,然后计算非空体素的质心,用该质心代替该体素中所有点,实现点云的下采样。各相机分割得到的人体点云经过滤波和下采样处理之后,结合标定得到的位姿变换矩阵转换至相同坐标系,得到重建后的人体动作点云;

步骤S5:最后,基于QT和Unity显示三维动作视频,通过QT编写交互界面软件,采用TCP网络通信向Unity发送控制命令,实现QT对Unity场景的控制。一方面,用户可通过可视化界面实时查看3D动作,随意转换观测视角学习动作细节,还可对采集的动作序列进行保存和回放;另一方面,用户可导入标准动作文件,同时观察测试动作和标准动作,有助于分析动作差异,使动作教学更加直观科学。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种动作教学装置,需要说明的是,本申请实施例的动作教学装置可以用于执行本申请实施例所提供的用于动作教学方法。该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

以下对本申请实施例提供的动作教学装置进行介绍。

图5是根据本申请实施例的动作教学装置的结构框图。如图5所示,该装置包括:

获取单元10,用于实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;

具体地,如图3所示,三台深度相机4以120°夹角均匀布置,数据传输线1连接至PC服务器2,数据传输线1可以为USB3.0数据线,传输采集的RGB图像和深度图像,深度相机为Azure Kinect DK相机,Azure Kinect DK相机之间连接信号同步电缆3传输时钟同步信号,信号同步电缆3为3.5毫米音频线,三台Azure Kinect DK相机即可多角度采集的人体动作生成的点云。

处理单元20,用于采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;

具体地,采用SVD分解算法可以计算任意两台相机的第一动作点云的位姿变换矩阵,即可分别将不同相机点云转换至同一坐标系,得到多个第二动作点云。

合成单元30,用于将多个上述第二动作点云拼接合成人体动作点云;

具体地,多个第二动作点云位于同一坐标系,即可实现人体点云拼接,得到可以多角度查看的人体动作点云。

生成单元40,用于根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。

具体地,实时播放人体动作点云生成的人体动作,用户可通过可视化界面实时查看3D动作,随意转换观测视角学习动作细节。

上述动作教学装置中,获取单元实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;处理单元采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;合成单元将多个上述第二动作点云拼接合成人体动作点云;生成单元根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。该装置通过多角度采集的人体动作生成的点云,得到多个第一动作点云,并将第一动作点云转换至同一坐标系进行拼接合成人体动作点云,即可根据人体动作点云生成人体动作,并实时播放人体动作以进行动作教学,即通过多角度采集人体动作的点云拼接形成人体动作点云,使得人体动作点云生成的人体动作高度还原实际人体动作,解决了现有技术中动作捕捉系统无法还原真实的人体动作的问题。

为了简化点云生成步骤,一种可选的实施方式中,上述获取单元包括:

获取模块,用于获取多个深度相机采集的多个RGB图像和多个深度信息,上述RGB图像与上述深度相机一一对应,上述深度信息与上述RGB图像的像素点一一对应;

计算模块,用于将各上述RGB图像和对应的上述深度信息通过反透视投影变换生成多个上述第一动作点云。

具体地,采用反透视投影变换公式

为了保证点云的精度,一种可选的实施方式中,上述获取模块包括:

控制子模块,用于控制多个上述深度相机依次间隔预定时长进行拍摄,得到多个上述RGB图像和多个上述深度信息。

具体地,设置相机捕获间隔为160μs,以防止多个深度相机的激光相互干扰,保证深度相机生成点云的精度。

为了合成便于教学的人体动作点云,一种可选的实施方式中,上述处理单元包括:

确定模块,用于将一个上述第一动作点云确定为参考点云;

第一处理模块,用于执行处理步骤,采用上述SVD分解算法生成上述参考点云和目标点云的上述位姿变换矩阵,得到目标位姿变换矩阵,并采用上述目标位姿变换矩阵将上述目标点云转换至上述参考点云的坐标系,得到上述第二动作点云,上述目标点云为上述参考点云以外的任意一个上述第一动作点云;

重复模块,用于重复上述处理步骤至少一次,直至将除上述参考点云外的所有的上述第一动作点云转化为上述第二动作点云。

具体地,首先对三台Azure Kinect DK相机进行自动标定,PC服务器控制三台相机同步采集图像,使用SuperGlue特征匹配模型提取并匹配图像对的特征点。SuperGlue利用SuperPoint计算得到特征点与描述符,并构建一个可学习的特征匹配器,通过该匹配器得到最佳匹配的特征点,再根据深度图像提供的深度信息计算特征点的三维坐标,然后借助SVD分解算法计算一台相机与另外两台相机的三维特征点的位姿变换矩阵,通过两个位姿变换矩阵将另外两台相机采集的第一动作点云转化为上述第二动作点云,即可合成多角度查看的人体动作点云,便于教学。

为了便于点云拼接,一种可选的实施方式中,上述处理模块包括:

第一计算子模块,用于分别计算上述参考点云的任意三点与第一点云质心的距离,得到三个第一距离,上述第一点云质心为上述参考点云的质心;

第二计算子模块,用于分别计算上述目标点云的任意三点与第二点云质心的距离,得到三个第二距离,上述第二点云质心为上述目标点云的质心;

生成子模块,用于根据三个上述第一距离和三个上述第二距离生成目标矩阵,且上述目标矩阵的元素为上述第一距离和上述第二距离的乘积;

第三计算子模块,用于采用上述SVD分解算法对上述目标矩阵进行SVD分解,得到旋转矩阵和平移矩阵;

第一确定子模块,用于将上述旋转矩阵和上述平移矩阵确定为上述目标位姿变换矩阵。

具体地,假设

为了优化点云,一种可选的实施方式中,上述合成单元包括:

第二处理模块,用于将多个上述第二动作点云拼接合成第一预备人体动作点云;

第三处理模块,用于对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,得到第二预备人体动作点云;

第四处理模块,用于对上述第二预备人体动作点云进行体素滤波算法进行滤波处理,得到上述人体动作点云。

具体地,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,去除离群点,由于三个相机产生的点云数据量较大,为保证数据的实时传输和演示,需对点云进行下采样操作。首先对滤波后的点云进行体素划分,然后计算非空体素的质心,用该质心代替该体素中所有点,实现点云的下采样。各相机分割得到的人体点云经过滤波和下采样处理之后,结合标定得到的位姿变换矩阵转换至相同坐标系,得到重建后的人体动作点云,完成点云优化,简化点云计算。

为了避免教学的人体动作变形,一种可选的实施方式中,上述第三处理模块包括:

第三计算子模块,用于执行计算步骤,计算目标点与所有的其他点的欧式距离,得到多个欧式距离,上述目标点为上述第一预备人体动作点云的任意一个点,上述其他点为上述第一预备人体动作点云的上述目标点以外的任意一个点;

第二确定子模块,用于执行确定步骤,将所有的小于预定欧式距离的上述欧式距离对应的上述其他点确定为邻近点;

处理子模块,用于执行删除步骤,在上述邻近点的数量小于预定数量的情况下,删除上述目标点;

重复子模块,用于依次重复上述计算步骤、上述确定步骤和上述删除步骤至少一次,直至上述第一预备人体动作点云的所有的点均完成上述删除步骤一次。

具体地,对于第一预备人体动作点云中某个点,计算该点和周围所有点的欧式距离,设定空间点半径范围临近点数量阈值参数,若该点的近邻点小于该阈值则被滤除,避免教学的人体动作变形。

上述动作教学装置包括处理器和存储器,上述获取单元、处理单元、合成单元和生成单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中动作捕捉系统无法还原真实的人体动作的问题。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述动作教学方法。

具体地,动作教学方法包括:

步骤S201,实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;

具体地,如图3所示,三台深度相机4以120°夹角均匀布置,数据传输线1连接至PC服务器2,数据传输线1可以为USB3.0数据线,传输采集的RGB图像和深度图像,深度相机为Azure Kinect DK相机,Azure Kinect DK相机之间连接信号同步电缆传输时钟同步信号,信号同步电缆为3.5毫米音频线,三台Azure Kinect DK相机即可多角度采集的人体动作生成的点云。

步骤S202,采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;

具体地,采用SVD分解算法可以计算任意两台相机的第一动作点云的位姿变换矩阵,即可分别将不同相机点云转换至同一坐标系,得到多个第二动作点云。

步骤S203,将多个上述第二动作点云拼接合成人体动作点云;

具体地,多个第二动作点云位于同一坐标系,即可实现人体点云拼接,得到可以多角度查看的人体动作点云。

步骤S204,根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。

具体地,实时播放人体动作点云生成的人体动作,用户可通过可视化界面实时查看3D动作,随意转换观测视角学习动作细节。

可选地,上述步骤S201包括:步骤S2011,获取多个深度相机采集的多个RGB图像和多个深度信息,上述RGB图像与上述深度相机一一对应,上述深度信息与上述RGB图像的像素点一一对应;步骤S2012,将各上述RGB图像和对应的上述深度信息通过反透视投影变换生成多个上述第一动作点云。

具体地,采用反透视投影变换公式将多个RGB图像和多个深度信息转换为第一动作点云,简单计算即可生成点云,其中,xc、yc和zc为第一动作点云的三维坐标,fx和fy为深度相机的外参,μ和ν为RGB图像的坐标,h和w分别为RGB图像的长度和宽度,z为深度信息。

可选地,上述步骤S2011包括:步骤S20111,控制多个上述深度相机依次间隔预定时长进行拍摄,得到多个上述RGB图像和多个上述深度信息。

具体地,设置相机捕获间隔为160μs,以防止多个深度相机的激光相互干扰,保证深度相机生成点云的精度。

可选地,上述步骤S202包括:步骤S2021,将一个上述第一动作点云确定为参考点云;步骤S2022,处理步骤,采用上述SVD分解算法生成上述参考点云和目标点云的上述位姿变换矩阵,得到目标位姿变换矩阵,并采用上述目标位姿变换矩阵将上述目标点云转换至上述参考点云的坐标系,得到上述第二动作点云,上述目标点云为上述参考点云以外的任意一个上述第一动作点云;步骤S2023,重复上述处理步骤至少一次,直至将除上述参考点云外的所有的上述第一动作点云转化为上述第二动作点云。

具体地,首先对三台Azure Kinect DK相机进行自动标定,PC服务器控制三台相机同步采集图像,使用SuperGlue特征匹配模型提取并匹配图像对的特征点。SuperGlue利用SuperPoint计算得到特征点与描述符,并构建一个可学习的特征匹配器,通过该匹配器得到最佳匹配的特征点,再根据深度图像提供的深度信息计算特征点的三维坐标,然后借助SVD分解算法计算一台相机与另外两台相机的三维特征点的位姿变换矩阵,通过两个位姿变换矩阵将另外两台相机采集的第一动作点云转化为上述第二动作点云,即可合成多角度查看的人体动作点云,便于教学。

可选地,上述步骤S2022包括:步骤S20221,分别计算上述参考点云的任意三点与第一点云质心的距离,得到三个第一距离,上述第一点云质心为上述参考点云的质心;步骤S20222,分别计算上述目标点云的任意三点与第二点云质心的距离,得到三个第二距离,上述第二点云质心为上述目标点云的质心;步骤S20223,根据三个上述第一距离和三个上述第二距离生成目标矩阵,且上述目标矩阵的元素为上述第一距离和上述第二距离的乘积;步骤S20224,采用上述SVD分解算法对上述目标矩阵进行SVD分解,得到旋转矩阵和平移矩阵;步骤S20225,将上述旋转矩阵和上述平移矩阵确定为上述目标位姿变换矩阵。

具体地,具体地,假设

可选地,上述步骤S203包括:步骤S2031,将多个上述第二动作点云拼接合成第一预备人体动作点云;步骤S2032,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,得到第二预备人体动作点云;步骤S2033,对上述第二预备人体动作点云进行体素滤波算法进行滤波处理,得到上述人体动作点云。

具体地,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,去除离群点,由于三个相机产生的点云数据量较大,为保证数据的实时传输和演示,需对点云进行下采样操作。首先对滤波后的点云进行体素划分,然后计算非空体素的质心,用该质心代替该体素中所有点,实现点云的下采样。各相机分割得到的人体点云经过滤波和下采样处理之后,结合标定得到的位姿变换矩阵转换至相同坐标系,得到重建后的人体动作点云,完成点云优化,简化点云计算。

可选地,上述步骤S2032包括:步骤S20321,用于执行计算步骤,计算目标点与所有的其他点的欧式距离,得到多个欧式距离,上述目标点为上述第一预备人体动作点云的任意一个点,上述其他点为上述第一预备人体动作点云的上述目标点以外的任意一个点;步骤S20322,用于执行确定步骤,将所有的小于预定欧式距离的上述欧式距离对应的上述其他点确定为邻近点;步骤S20323,用于执行删除步骤,在上述邻近点的数量小于预定数量的情况下,删除上述目标点;步骤S20324,用于依次重复上述计算步骤、上述确定步骤和上述删除步骤至少一次,直至上述第一预备人体动作点云的所有的点均完成上述删除步骤一次。

具体地,对于第一预备人体动作点云中某个点,计算该点和周围所有点的欧式距离,设定空间点半径范围临近点数量阈值参数,若该点的近邻点小于该阈值则被滤除,避免教学的人体动作变形。

本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述动作教学方法。

具体地,动作教学方法包括:

步骤S201,实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;

具体地,如图3所示,三台深度相机4以120°夹角均匀布置,数据传输线1连接至PC服务器2,数据传输线1可以为USB3.0数据线,传输采集的RGB图像和深度图像,深度相机为Azure Kinect DK相机,Azure Kinect DK相机之间连接信号同步电缆传输时钟同步信号,信号同步电缆为3.5毫米音频线,三台Azure Kinect DK相机即可多角度采集的人体动作生成的点云。

步骤S202,采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;

具体地,采用SVD分解算法可以计算任意两台相机的第一动作点云的位姿变换矩阵,即可分别将不同相机点云转换至同一坐标系,得到多个第二动作点云。

步骤S203,将多个上述第二动作点云拼接合成人体动作点云;

具体地,多个第二动作点云位于同一坐标系,即可实现人体点云拼接,得到可以多角度查看的人体动作点云。

步骤S204,根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。

具体地,实时播放人体动作点云生成的人体动作,用户可通过可视化界面实时查看3D动作,随意转换观测视角学习动作细节。

可选地,上述步骤S201包括:步骤S2011,获取多个深度相机采集的多个RGB图像和多个深度信息,上述RGB图像与上述深度相机一一对应,上述深度信息与上述RGB图像的像素点一一对应;步骤S2012,将各上述RGB图像和对应的上述深度信息通过反透视投影变换生成多个上述第一动作点云。

具体地,采用反透视投影变换公式将多个RGB图像和多个深度信息转换为第一动作点云,简单计算即可生成点云,其中,xc、yc和zc为第一动作点云的三维坐标,fx和fy为深度相机的外参,μ和ν为RGB图像的坐标,h和w分别为RGB图像的长度和宽度,z为深度信息。

可选地,上述步骤S2011包括:步骤S20111,控制多个上述深度相机依次间隔预定时长进行拍摄,得到多个上述RGB图像和多个上述深度信息。

具体地,设置相机捕获间隔为160μs,以防止多个深度相机的激光相互干扰,保证深度相机生成点云的精度。

可选地,上述步骤S202包括:步骤S2021,将一个上述第一动作点云确定为参考点云;步骤S2022,处理步骤,采用上述SVD分解算法生成上述参考点云和目标点云的上述位姿变换矩阵,得到目标位姿变换矩阵,并采用上述目标位姿变换矩阵将上述目标点云转换至上述参考点云的坐标系,得到上述第二动作点云,上述目标点云为上述参考点云以外的任意一个上述第一动作点云;步骤S2023,重复上述处理步骤至少一次,直至将除上述参考点云外的所有的上述第一动作点云转化为上述第二动作点云。

具体地,首先对三台Azure Kinect DK相机进行自动标定,PC服务器控制三台相机同步采集图像,使用SuperGlue特征匹配模型提取并匹配图像对的特征点。SuperGlue利用SuperPoint计算得到特征点与描述符,并构建一个可学习的特征匹配器,通过该匹配器得到最佳匹配的特征点,再根据深度图像提供的深度信息计算特征点的三维坐标,然后借助SVD分解算法计算一台相机与另外两台相机的三维特征点的位姿变换矩阵,通过两个位姿变换矩阵将另外两台相机采集的第一动作点云转化为上述第二动作点云,即可合成多角度查看的人体动作点云,便于教学。

可选地,上述步骤S2022包括:步骤S20221,分别计算上述参考点云的任意三点与第一点云质心的距离,得到三个第一距离,上述第一点云质心为上述参考点云的质心;步骤S20222,分别计算上述目标点云的任意三点与第二点云质心的距离,得到三个第二距离,上述第二点云质心为上述目标点云的质心;步骤S20223,根据三个上述第一距离和三个上述第二距离生成目标矩阵,且上述目标矩阵的元素为上述第一距离和上述第二距离的乘积;步骤S20224,采用上述SVD分解算法对上述目标矩阵进行SVD分解,得到旋转矩阵和平移矩阵;步骤S20225,将上述旋转矩阵和上述平移矩阵确定为上述目标位姿变换矩阵。

具体地,假设

可选地,上述步骤S203包括:步骤S2031,将多个上述第二动作点云拼接合成第一预备人体动作点云;步骤S2032,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,得到第二预备人体动作点云;步骤S2033,对上述第二预备人体动作点云进行体素滤波算法进行滤波处理,得到上述人体动作点云。

具体地,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,去除离群点,由于三个相机产生的点云数据量较大,为保证数据的实时传输和演示,需对点云进行下采样操作。首先对滤波后的点云进行体素划分,然后计算非空体素的质心,用该质心代替该体素中所有点,实现点云的下采样。各相机分割得到的人体点云经过滤波和下采样处理之后,结合标定得到的位姿变换矩阵转换至相同坐标系,得到重建后的人体动作点云,完成点云优化,简化点云计算。

可选地,上述步骤S2032包括:步骤S20321,用于执行计算步骤,计算目标点与所有的其他点的欧式距离,得到多个欧式距离,上述目标点为上述第一预备人体动作点云的任意一个点,上述其他点为上述第一预备人体动作点云的上述目标点以外的任意一个点;步骤S20322,用于执行确定步骤,将所有的小于预定欧式距离的上述欧式距离对应的上述其他点确定为邻近点;步骤S20323,用于执行删除步骤,在上述邻近点的数量小于预定数量的情况下,删除上述目标点;步骤S20324,用于依次重复上述计算步骤、上述确定步骤和上述删除步骤至少一次,直至上述第一预备人体动作点云的所有的点均完成上述删除步骤一次。

具体地,对于第一预备人体动作点云中某个点,计算该点和周围所有点的欧式距离,设定空间点半径范围临近点数量阈值参数,若该点的近邻点小于该阈值则被滤除,避免教学的人体动作变形。

本发明实施例提供了一种动作教学系统,动作教学系统包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:

步骤S201,实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;

具体地,如图3所示,三台深度相机4以120°夹角均匀布置,数据传输线1连接至PC服务器2,数据传输线1可以为USB3.0数据线,传输采集的RGB图像和深度图像,深度相机为Azure Kinect DK相机,Azure Kinect DK相机之间连接信号同步电缆传输时钟同步信号,信号同步电缆为3.5毫米音频线,三台Azure Kinect DK相机即可多角度采集的人体动作生成的点云。

步骤S202,采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;

具体地,采用SVD分解算法可以计算任意两台相机的第一动作点云的位姿变换矩阵,即可分别将不同相机点云转换至同一坐标系,得到多个第二动作点云。

步骤S203,将多个上述第二动作点云拼接合成人体动作点云;

具体地,多个第二动作点云位于同一坐标系,即可实现人体点云拼接,得到可以多角度查看的人体动作点云。

步骤S204,根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。

具体地,实时播放人体动作点云生成的人体动作,用户可通过可视化界面实时查看3D动作,随意转换观测视角学习动作细节。

可选地,上述步骤S201包括:步骤S2011,获取多个深度相机采集的多个RGB图像和多个深度信息,上述RGB图像与上述深度相机一一对应,上述深度信息与上述RGB图像的像素点一一对应;步骤S2012,将各上述RGB图像和对应的上述深度信息通过反透视投影变换生成多个上述第一动作点云。

具体地,采用反透视投影变换公式将多个RGB图像和多个深度信息转换为第一动作点云,简单计算即可生成点云,其中,xc、yc和zc为第一动作点云的三维坐标,fx和fy为深度相机的外参,μ和ν为RGB图像的坐标,h和w分别为RGB图像的长度和宽度,z为深度信息。

可选地,上述步骤S2011包括:步骤S20111,控制多个上述深度相机依次间隔预定时长进行拍摄,得到多个上述RGB图像和多个上述深度信息。

具体地,设置相机捕获间隔为160μs,以防止多个深度相机的激光相互干扰,保证深度相机生成点云的精度。

可选地,上述步骤S202包括:步骤S2021,将一个上述第一动作点云确定为参考点云;步骤S2022,处理步骤,采用上述SVD分解算法生成上述参考点云和目标点云的上述位姿变换矩阵,得到目标位姿变换矩阵,并采用上述目标位姿变换矩阵将上述目标点云转换至上述参考点云的坐标系,得到上述第二动作点云,上述目标点云为上述参考点云以外的任意一个上述第一动作点云;步骤S2023,重复上述处理步骤至少一次,直至将除上述参考点云外的所有的上述第一动作点云转化为上述第二动作点云。

具体地,首先对三台Azure Kinect DK相机进行自动标定,PC服务器控制三台相机同步采集图像,使用SuperGlue特征匹配模型提取并匹配图像对的特征点。SuperGlue利用SuperPoint计算得到特征点与描述符,并构建一个可学习的特征匹配器,通过该匹配器得到最佳匹配的特征点,再根据深度图像提供的深度信息计算特征点的三维坐标,然后借助SVD分解算法计算一台相机与另外两台相机的三维特征点的位姿变换矩阵,通过两个位姿变换矩阵将另外两台相机采集的第一动作点云转化为上述第二动作点云,即可合成多角度查看的人体动作点云,便于教学。

可选地,上述步骤S2022包括:步骤S20221,分别计算上述参考点云的任意三点与第一点云质心的距离,得到三个第一距离,上述第一点云质心为上述参考点云的质心;步骤S20222,分别计算上述目标点云的任意三点与第二点云质心的距离,得到三个第二距离,上述第二点云质心为上述目标点云的质心;步骤S20223,根据三个上述第一距离和三个上述第二距离生成目标矩阵,且上述目标矩阵的元素为上述第一距离和上述第二距离的乘积;步骤S20224,采用上述SVD分解算法对上述目标矩阵进行SVD分解,得到旋转矩阵和平移矩阵;步骤S20225,将上述旋转矩阵和上述平移矩阵确定为上述目标位姿变换矩阵。

具体地,假设

可选地,上述步骤S203包括:步骤S2031,将多个上述第二动作点云拼接合成第一预备人体动作点云;步骤S2032,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,得到第二预备人体动作点云;步骤S2033,对上述第二预备人体动作点云进行体素滤波算法进行滤波处理,得到上述人体动作点云。

具体地,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,去除离群点,由于三个相机产生的点云数据量较大,为保证数据的实时传输和演示,需对点云进行下采样操作。首先对滤波后的点云进行体素划分,然后计算非空体素的质心,用该质心代替该体素中所有点,实现点云的下采样。各相机分割得到的人体点云经过滤波和下采样处理之后,结合标定得到的位姿变换矩阵转换至相同坐标系,得到重建后的人体动作点云,完成点云优化,简化点云计算。

可选地,上述步骤S2032包括:步骤S20321,用于执行计算步骤,计算目标点与所有的其他点的欧式距离,得到多个欧式距离,上述目标点为上述第一预备人体动作点云的任意一个点,上述其他点为上述第一预备人体动作点云的上述目标点以外的任意一个点;步骤S20322,用于执行确定步骤,将所有的小于预定欧式距离的上述欧式距离对应的上述其他点确定为邻近点;步骤S20323,用于执行删除步骤,在上述邻近点的数量小于预定数量的情况下,删除上述目标点;步骤S20324,用于依次重复上述计算步骤、上述确定步骤和上述删除步骤至少一次,直至上述第一预备人体动作点云的所有的点均完成上述删除步骤一次。

具体地,对于第一预备人体动作点云中某个点,计算该点和周围所有点的欧式距离,设定空间点半径范围临近点数量阈值参数,若该点的近邻点小于该阈值则被滤除,避免教学的人体动作变形。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:

步骤S201,实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;

具体地,如图3所示,三台深度相机4以120°夹角均匀布置,数据传输线1连接至PC服务器2,数据传输线1可以为USB3.0数据线,传输采集的RGB图像和深度图像,深度相机为Azure Kinect DK相机,Azure Kinect DK相机之间连接信号同步电缆传输时钟同步信号,信号同步电缆为3.5毫米音频线,三台Azure Kinect DK相机即可多角度采集的人体动作生成的点云。

步骤S202,采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;

具体地,采用SVD分解算法可以计算任意两台相机的第一动作点云的位姿变换矩阵,即可分别将不同相机点云转换至同一坐标系,得到多个第二动作点云。

步骤S203,将多个上述第二动作点云拼接合成人体动作点云;

具体地,多个第二动作点云位于同一坐标系,即可实现人体点云拼接,得到可以多角度查看的人体动作点云。

步骤S204,根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。

具体地,实时播放人体动作点云生成的人体动作,用户可通过可视化界面实时查看3D动作,随意转换观测视角学习动作细节。

可选地,上述步骤S201包括:步骤S2011,获取多个深度相机采集的多个RGB图像和多个深度信息,上述RGB图像与上述深度相机一一对应,上述深度信息与上述RGB图像的像素点一一对应;步骤S2012,将各上述RGB图像和对应的上述深度信息通过反透视投影变换生成多个上述第一动作点云。

具体地,采用反透视投影变换公式将多个RGB图像和多个深度信息转换为第一动作点云,简单计算即可生成点云,其中,xc、yc和zc为第一动作点云的三维坐标,fx和fy为深度相机的外参,μ和ν为RGB图像的坐标,h和w分别为RGB图像的长度和宽度,z为深度信息。

可选地,上述步骤S2011包括:步骤S20111,控制多个上述深度相机依次间隔预定时长进行拍摄,得到多个上述RGB图像和多个上述深度信息。

具体地,设置相机捕获间隔为160μs,以防止多个深度相机的激光相互干扰,保证深度相机生成点云的精度。

可选地,上述步骤S202包括:步骤S2021,将一个上述第一动作点云确定为参考点云;步骤S2022,处理步骤,采用上述SVD分解算法生成上述参考点云和目标点云的上述位姿变换矩阵,得到目标位姿变换矩阵,并采用上述目标位姿变换矩阵将上述目标点云转换至上述参考点云的坐标系,得到上述第二动作点云,上述目标点云为上述参考点云以外的任意一个上述第一动作点云;步骤S2023,重复上述处理步骤至少一次,直至将除上述参考点云外的所有的上述第一动作点云转化为上述第二动作点云。

具体地,首先对三台Azure Kinect DK相机进行自动标定,PC服务器控制三台相机同步采集图像,使用SuperGlue特征匹配模型提取并匹配图像对的特征点。SuperGlue利用SuperPoint计算得到特征点与描述符,并构建一个可学习的特征匹配器,通过该匹配器得到最佳匹配的特征点,再根据深度图像提供的深度信息计算特征点的三维坐标,然后借助SVD分解算法计算一台相机与另外两台相机的三维特征点的位姿变换矩阵,通过两个位姿变换矩阵将另外两台相机采集的第一动作点云转化为上述第二动作点云,即可合成多角度查看的人体动作点云,便于教学。

可选地,上述步骤S2022包括:步骤S20221,分别计算上述参考点云的任意三点与第一点云质心的距离,得到三个第一距离,上述第一点云质心为上述参考点云的质心;步骤S20222,分别计算上述目标点云的任意三点与第二点云质心的距离,得到三个第二距离,上述第二点云质心为上述目标点云的质心;步骤S20223,根据三个上述第一距离和三个上述第二距离生成目标矩阵,且上述目标矩阵的元素为上述第一距离和上述第二距离的乘积;步骤S20224,采用上述SVD分解算法对上述目标矩阵进行SVD分解,得到旋转矩阵和平移矩阵;步骤S20225,将上述旋转矩阵和上述平移矩阵确定为上述目标位姿变换矩阵。

具体地,假设p

可选地,上述步骤S203包括:步骤S2031,将多个上述第二动作点云拼接合成第一预备人体动作点云;步骤S2032,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,得到第二预备人体动作点云;步骤S2033,对上述第二预备人体动作点云进行体素滤波算法进行滤波处理,得到上述人体动作点云。

具体地,对上述第一预备人体动作点云进行半径滤波算法进行滤波处理,去除离群点,由于三个相机产生的点云数据量较大,为保证数据的实时传输和演示,需对点云进行下采样操作。首先对滤波后的点云进行体素划分,然后计算非空体素的质心,用该质心代替该体素中所有点,实现点云的下采样。各相机分割得到的人体点云经过滤波和下采样处理之后,结合标定得到的位姿变换矩阵转换至相同坐标系,得到重建后的人体动作点云,完成点云优化,简化点云计算。

可选地,上述步骤S2032包括:步骤S20321,用于执行计算步骤,计算目标点与所有的其他点的欧式距离,得到多个欧式距离,上述目标点为上述第一预备人体动作点云的任意一个点,上述其他点为上述第一预备人体动作点云的上述目标点以外的任意一个点;步骤S20322,用于执行确定步骤,将所有的小于预定欧式距离的上述欧式距离对应的上述其他点确定为邻近点;步骤S20323,用于执行删除步骤,在上述邻近点的数量小于预定数量的情况下,删除上述目标点;步骤S20324,用于依次重复上述计算步骤、上述确定步骤和上述删除步骤至少一次,直至上述第一预备人体动作点云的所有的点均完成上述删除步骤一次。

具体地,对于第一预备人体动作点云中某个点,计算该点和周围所有点的欧式距离,设定空间点半径范围临近点数量阈值参数,若该点的近邻点小于该阈值则被滤除,避免教学的人体动作变形。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:

1)、本申请的动作教学方法中,首先,实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;然后,采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;之后,将多个上述第二动作点云拼接合成人体动作点云;最后,根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。该方法通过多角度采集的人体动作生成的点云,得到多个第一动作点云,并将第一动作点云转换至同一坐标系进行拼接合成人体动作点云,即可根据人体动作点云生成人体动作,并实时播放人体动作以进行动作教学,即通过多角度采集人体动作的点云拼接形成人体动作点云,使得人体动作点云生成的人体动作高度还原实际人体动作,解决了现有技术中动作捕捉系统无法还原真实的人体动作的问题。

2)、本申请的动作教学装置中,获取单元实时获取多个第一动作点云,多个上述第一动作点云为多角度采集的人体动作生成的点云;处理单元采用SVD分解算法生成多个上述第一动作点云的位姿变换矩阵,并采用上述位姿变换矩阵将多个上述第一动作点云的转换至同一坐标系,得到多个第二动作点云;合成单元将多个上述第二动作点云拼接合成人体动作点云;生成单元根据上述人体动作点云生成人体动作,并实时播放上述人体动作以进行动作教学。该装置通过多角度采集的人体动作生成的点云,得到多个第一动作点云,并将第一动作点云转换至同一坐标系进行拼接合成人体动作点云,即可根据人体动作点云生成人体动作,并实时播放人体动作以进行动作教学,即通过多角度采集人体动作的点云拼接形成人体动作点云,使得人体动作点云生成的人体动作高度还原实际人体动作,解决了现有技术中动作捕捉系统无法还原真实的人体动作的问题。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 基于手势动作生成与识别的手语教学方法、装置及系统
  • 一种实现动作识别的智能视频教学方法及系统
技术分类

06120116498798