掌桥专利:专业的专利平台
掌桥专利
首页

位姿确定方法、虚拟形象生成方法及模型的训练方法

文献发布时间:2024-04-18 20:01:30


位姿确定方法、虚拟形象生成方法及模型的训练方法

技术领域

本公开涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、虚拟现实、大模型等技术领域,可应用于元宇宙、基于人工智能的内容生成等场景,具体涉及位姿确定方法、虚拟形象生成方法、深度学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

计算机视觉技术是一门研究如何使用计算机“看”的科学。可以将计算机视觉技术应用于图像识别、图像语义理解、图像检索、三维对象重建、虚拟现实、同步定位与地图构建等场景中。针对每个场景,如何利用计算机视觉技术使得生成的结果合理且精准,值得探索。

发明内容

本公开提供了一种位姿确定方法、虚拟形象生成方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面,提供了一种位姿确定方法,包括:对待处理图像进行特征提取,得到特征图,其中,待处理图像包括待确定位姿的对象;对特征图进行关节可见性识别,得到关节可见性识别结果,其中,关节可见性识别结果用于表征对象的预定关节在待处理图像中的可见性;对特征图进行关键点感知,得到关键点感知结果,其中,关键点感知结果用于表征对象的预定关键点在待处理图像中的位置信息;基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果。

根据本公开的另一方面,提供了一种虚拟形象生成方法,包括:确定目标图像中的目标对象的位姿结果;以及基于目标对象的位姿结果和预定虚拟模型,生成目标虚拟形象;其中,目标对象的位姿结果是利用位姿确定方法确定的。

根据本公开的另一方面,提供了一种深度学习模型的训练方法,包括:

对样本图像进行特征提取,得到样本特征图,其中,样本图像包括样本对象;对样本特征图进行关节可见性识别,得到样本关节可见性识别结果,其中,样本关节可见性识别结果用于表征样本对象的预定关节在样本图像中的可见性;对样本特征图进行关键点感知,得到样本关键点感知结果,其中,样本关键点感知结果用于表征样本对象的预定关键点在样本图像中的位置信息;基于样本关键点感知结果和样本关节可见性识别结果,确定样本位姿结果;以及基于样本位姿结果和与样本图像相匹配的样本标签,训练深度学习模型,得到经训练的深度学习模型,其中,样本标签用于表征样本图像中的样本对象的真实位姿结果。

根据本公开的另一方面,提供了一种位姿确定装置,包括:第一特征提取模块,用于对待处理图像进行特征提取,得到特征图,其中,待处理图像包括待确定位姿的对象;第一可见性识别模块,用于对特征图进行关节可见性识别,得到关节可见性识别结果,其中,关节可见性识别结果用于表征对象的预定关节在待处理图像中的可见性;第一关键点感知模块,用于对特征图进行关键点感知,得到关键点感知结果,其中,关键点感知结果用于表征对象的预定关键点在待处理图像中的位置信息;第一位姿结果确定模块,用于基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果。

根据本公开的另一方面,提供了一种虚拟形象生成装置,包括:第二位姿结果确定模块,用于确定目标图像中的目标对象的位姿结果;以及虚拟形象生成模块,用于基于目标对象的位姿结果和预定虚拟模型,生成目标虚拟形象;其中,目标对象的位姿结果是利用位姿确定方法确定的。

根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括:第二特征提取模块,用于对样本图像进行特征提取,得到样本特征图,其中,样本图像包括样本对象;第二可见性识别模块,用于对样本特征图进行关节可见性识别,得到样本关节可见性识别结果,其中,样本关节可见性识别结果用于表征样本对象的预定关节在样本图像中的可见性;第二关键点感知模块,用于对样本特征图进行关键点感知,得到样本关键点感知结果,其中,样本关键点感知结果用于表征样本对象的预定关键点在样本图像中的位置信息;第三位姿结果确定模块,用于基于样本关键点感知结果和样本关节可见性识别结果,确定样本位姿结果;以及模型训练模块,用于基于样本位姿结果和与样本图像相匹配的样本标签,训练深度学习模型,得到经训练的深度学习模型,其中,样本标签用于表征样本图像中的样本对象的真实位姿结果。

根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开的方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1示意性示出了根据本公开实施例的可以应用位姿确定方法及装置的示例性系统架构;

图2示意性示出了根据本公开实施例的位姿确定方法的流程图;

图3示意性示出了根据本公开实施例的第一关节可见性模块的结构图;

图4示意性示出了根据本公开实施例的第二关节可见性模块的结构图;

图5示意性示出了根据本公开实施例的第一关键点感知模块的结构图;

图6示意性示出了根据本公开实施例的第二关键点感知模块的结构图;

图7示意性示出了根据本公开实施例的位姿确定模型的结构图;

图8示意性示出了根据本公开实施例的虚拟形象生成方法的流程图;

图9示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图;

图10示意性示出了根据本公开实施例的位姿确定装置的框图;

图11示意性示出了根据本公开实施例的虚拟形象生成装置的框图;

图12示意性示出了根据本公开实施例的深度学习模型的训练装置的框图;以及

图13示意性示出了根据本公开实施例的适于实现位姿确定方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种位姿确定方法、虚拟形象生成方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本公开的实施例,提供了一种位姿确定方法,包括:对待处理图像进行特征提取,得到特征图。待处理图像包括待确定位姿的对象;对特征图进行关节可见性识别,得到关节可见性识别结果。关节可见性识别结果用于表征对象的预定关节在待处理图像中的可见性。对特征图进行关键点感知,得到关键点感知结果。关键点感知结果用于表征对象的预定关键点在待处理图像中的位置信息。基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果。

在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。

在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。

图1示意性示出了根据本公开实施例的可以应用位姿确定方法及装置的示例性系统架构。

需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用位姿确定方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的位姿确定方法及装置。

如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是,本公开实施例所提供的位姿确定方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的位姿确定装置也可以设置于终端设备101、102、或103中。

或者,本公开实施例所提供的位姿确定方法一般也可以由服务器105执行。相应地,本公开实施例所提供的位姿确定装置一般可以设置于服务器105中。本公开实施例所提供的位姿确定方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的位姿确定装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如,在人机交互场景中,终端设备101、102、103可以采集关于用户的跳舞或者其他动作的视频,然后将采集到的视频发送给服务器105,由服务器105对视频进行拆帧,确定待处理图像;对待处理图像进行特征提取,得到特征图。对特征图进行关键点感知,得到关键点感知结果。对特征图进行关节可见性识别,得到关节可见性识别结果。基于关键点感知结果和关节可见性识别结果,确定用户的位姿结果。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对待处理图像进行分析,并确定用户的位姿结果。以便在元宇宙中的数字人,根据位姿结果,展示相应的动作或者舞蹈。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的位姿确定方法的流程图。

如图2所示,该方法包括操作S210~S240。

在操作S210,对待处理图像进行特征提取,得到特征图。

在操作S220,对特征图进行关节可见性识别,得到关节可见性识别结果。

在操作S230,对特征图进行关键点感知,得到关键点感知结果。

在操作S240,基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果。

根据本公开的实施例,待处理图像包括待确定位姿的对象。

根据本公开的实施例,待处理图像中的待确定位姿的对象可以包括人物对象、动物对象或者机械体对象。可以利用本公开实施例提供的位姿确定方法,处理待处理图像,得到关于对象的位姿结果。基于对象的位姿结果,用于对对象进行对象重建;或者基于对象的位姿结果,调整虚拟模型的动作,得到用于模拟对象动作的目标虚拟形象。由此可以将本公开实施例提供的位姿确定方法应用于虚拟现实、增强现实、人机交互、动作识别等场景中。

根据本公开的实施例,可以利用特征提取模块来提取待处理图像的特征,得到特征图。特征提取模块可以包括但不限于以下至少一项:CNN(Convolutional NeuralNetworks,卷积神经网络)、ResNet(Residual Network,残差网络)、ShuffleNet(一种轻量级网络)。

根据本公开的实施例,预定关节可以包括:预定骨骼的关节点。例如,预定关节可以包括肩关节、肘关节等。预定关节的数量可以不做限定,例如可以包括30个,但是并不局限于此,还可以是其他预定数量。可以根据待确定位姿的对象的类型来确定预定关节的数量。

根据本公开的实施例,关节可见性识别结果,可以用于表征对象的预定关节在待处理图像中的可见性。例如,可见或者不可见。关节可见性识别结果可以包括:用于表征多个预定关节点各自的可见性信息的特征向量。但是并不局限于此。关节可见性识别结果还可以包括用于表征多个预定关节点各自是否可见的标签。

根据本公开的实施例,对特征图进行关节可见性识别,可以包括:对特征图进行关节点检测,得到关节可见性识别结果。可以利用关节可见性模块处理特征图,用于进行关节可见性识别,得到关节可见性识别结果。关节可见性识别结果的网络结构不做限定,例如可以包括卷积网络或者编码解码器(Transformer)的编码器或者解码器等。

根据本公开的实施例,关键点感知结果可以包括:用于表征多个预定关键点各自的三维坐标信息的特征向量。但是并不局限于此。关键点感知结果还可以包括多个预定关键点各自的三维坐标或者二维坐标。

根据本公开的实施例,预定关键点可以包括:待确定位姿的对象的轮廓关键点、骨骼关键点中的一种或多种。预定关键点可以包括预定关节点,但是并不局限于此,预定关键点也可以包括与预定关节点不同的关键点或者包括预定关节点和与预定关节点不同的关键点。

根据本公开的实施例,关键点感知结果用于表征对象的预定关键点在待处理图像中的位置信息,例如三维关键点坐标(X、Y、Z),X可以表征在二维像素空间中的横坐标,Y可以表征在二维像素空间中的纵坐标,Z表征相对深度。

根据本公开的实施例,对特征图进行关键点感知,可以包括:对特征图进行关键点检测,得到关键点感知结果。可以利用关键点感知模块处理特征图,用于进行关键点感知,得到关键点感知结果。关键点感知模块的网络结构不做限定,例如可以包括卷积网络或者编码解码器的编码器或者解码器等。

根据本公开的实施例,对象模型参数可以包括姿态参数和形状参数。姿态参数可以包括对象各个关节的旋转角度,例如对象的头部、手腕等关节的转角。形状参数可以包括对象的轮廓形状和大小,例如对象的高矮、胖瘦等。

根据本公开的实施例,基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果,可以包括:对关键点感知结果和关节可见性识别结果进行融合,得到融合特征。对融合特征进行位姿识别,确定对象的位姿结果。但是并不局限于此。还可以包括:对关键点感知结果和关节可见性识别结果进行编码,得到编码特征。对编码特征进行位姿识别,确定对象的位姿结果。

根据本公开的实施例,通过同时基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果,能够丰富用于确定对象的位姿结果的参考数据的种类,由此提高位姿结果的精度。此外,参考数据中包括关节可见性识别结果,能够使得在待处理图像中的对象包括全局对象信息的情况下,和在待处理图像中的对象包括局部对象信息的情况下,均能得到高精度的位姿结果确定能力,由此提高位姿确定方法的应用范围,使得能够同时待处理图像中的对象包括全局对象信息以及局部对象信息的场景,无缝切换。

根据本公开的相关示例,位姿确定方法还可以包括:对待处理图像进行特征提取,得到特征图。对特征图进行关键点感知,得到关键点感知结果。基于关键点感知结果和特征图,确定对象的位姿结果。或者基于关键点感知结果,确定对象的位姿结果。

与基于关键点感知结果确定对象的位姿结果相比,利用基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果的方式,能够在待处理图像为单目的情况下,提高位姿结果确定精度的同时,能够在对象的对象信息完整或者不完整之间自由切换,由此提高应用的通用性。

根据相关实施例,可以利用不同角度设置的多个摄像系统或特定传感器采集针对目标对象的多个图像。将多个图像结合,确定目标对象的位姿结果。

与利用多个图像确定目标时刻的目标对象的位姿结果的方式相比,利用本公开实施例提供的位姿确定方法,能够利用单目图像即可确定位姿结果,在保证位姿精度的同时,降低设备成本。

根据另一相关实施例,可以设置多个位姿确定模型。例如用于处理包括目标对象全局动作的待处理图像的第一位姿确定模型和用于处理包括目标对象局部动作的待处理图像的第二位姿确定模型。

与利用多个位姿确定模型来处理包含不同动作类型的多个待处理图像的方式相比,利用本公开实施例提供的位姿确定方法,能够利用一种模型即可应对目标对象的全身或者半身场景,在保证位姿精度的同时,提高应用的通用性。

根据本公开的实施例,针对如图2所示的操作S210,对待处理图像进行特征提取,得到特征图,可以包括如下操作。

例如,对待处理图像进行目标检测,得到目标检测框。对待处理图像中的与目标检测框相对应图像区域进行特征提取,得到特征图。

根据本公开的实施例,可以利用目标检测模块,对待处理图像进行目标检测,得到目标检测框和目标检测类别。目标检测模块可以包括YOLO(You Only Look Once,一种基于深度神经网络的对象识别和定位算法),但是并不局限于此,还可以包括YOLO的升级模型。只要是能够对待处理图像进行目标检测,得到目标检测框的模型即可。

根据本公开的实施例,可以直接对待处理图像进行特征提取,得到特征图。与直接对待处理图像进行特征提取,得到特征图的方式相比,对待处理图像中的与目标检测框相对应图像区域进行特征提取,得到特征图,能够将待处理图像中除对象外的背景信息或者噪声信息进行过滤,由此使得提取得到的特征图中的特征表征的是对象的特征。进而提高后续的处理效率和精度。

根据本公开的实施例,对待处理图像中的与目标检测框相对应图像区域进行特征提取,得到特征图,还可以包括:对待处理图像中的与目标检测框相对应图像区域进行特征提取,得到初始特征图。对初始特征图进行反卷积,得到特征图。

根据本公开的实施例,可以对待处理图像中的与目标检测框相对应图像区域进行特征提取,得到初始特征图,并将初始特征图作为特征图。但是并不局限于此。还可以对待处理图像中的与目标检测框相对应图像区域进行特征提取,得到初始特征图。对初始特征图进行反卷积,得到特征图。

根据本公开的实施例,可以利用反卷积层(Transposed Convolution)对初始特征图进行反卷积,得到特征图。利用反卷积层对初始特征图进行反卷积,可以对初始特征图进行降维处理,得到降维后的特征图,并将降维后的特征图作为特征图。

根据本公开的实施例,利用对初始特征图进行反卷积的方式,使得得到的特征图在保留丰富的特征信息的同时,降低了特征图的数据量,从而简化后续的处理操作,提高处理效率。

根据本公开的实施例,针对如图2所示的操作S220,对特征图进行关节可见性识别,得到关节可见性识别结果,包括:对特征图进行卷积,得到关节可见性特征。对关节可见性特征进行重塑,得到重塑关节可见性特征。对重塑关节可见性特征进行识别,得到关节可见性识别结果。

根据本公开的实施例,可以利用卷积层对特征图进行卷积,得到关节可见性特征。卷积层的层数不做限定,每个卷积层的卷积核尺寸可以包括5×5或者7×7,可根据实际情况自行调整。

根据本公开的实施例,对关节可见性特征进行重塑(reshape),可以指:对关节可见性特征进行尺寸缩放或者变形。例如,可以是对矩阵形式体现的关节可见性特征的行数、列数或者维数进行调整或者变换。可以将关节可见性特征输入至重塑函数例如reshape函数中,得到重塑关节可见性特征。

根据本公开的实施例,对重塑关节可见性特征进行识别,得到关节可见性识别结果,可以包括:将重塑关节可见性特征输入至多层感知机(MLP,Multilayer Perceptron)中,得到关节可见性识别结果。但是并不局限于此。还可以是其他用于分类识别的网络结构。

根据本公开的实施例,关节可见性识别结果可以包括与多个预定关节一一对应的多个可见性置信度,每个可见性置信度用于表征与其对应的预定关节是否可见的概率。

根据本公开的实施例,在对特征图进行关节可见性识别,得到关节可见性识别结果的过程中,利用对关节可见性特征进行重塑,可以对关节可见性特征的矩阵结构进行变换或者调整,在保证重塑关节可见性特征的特征丰富性的同时,降低处理量,进而提高利用重塑关节可见性特征得到关节可见性识别结果的精度和处理效率。

图3示意性示出了根据本公开实施例的第一关节可见性模块的结构图。

如图3所示,第一关节可见性模块可以包括关节卷积层(Conv)M310、关节重塑层(Reshape)M320和关节可见性识别层(MLP)M330。

如图3所示,可以将特征图310输入至关节卷积层M310中,用于对特征图进行卷积,得到关节可见性特征。可以将关节可见性特征输入至关节重塑层M320中,用于对关节可见性特征进行重塑,得到重塑关节可见性特征。可以将重塑关节可见性特征输入至关节可见性识别层M330中,用于对重塑关节可见性特征进行识别,得到关节可见性识别结果320。

根据本公开的实施例,利用第一关节可见性模块处理特征图,得到关节可见性识别结果,在保证关节可见性识别结果的精度的同时,减小第一关节可见性模块的层结构构型,提高硬件性能的运行能力,降低能耗。

根据本公开的另一实施例,针对如图2所示的操作S220,对特征图进行关节可见性识别,得到关节可见性识别结果,包括:对特征图进行多次卷积,得到多个关节可见性特征。对多个关节可见性特征分别进行重塑,得到多个重塑关节可见性特征。基于多个重塑关节可见性特征,得到目标重塑关节可见性特征。对目标重塑关节可见性特征进行识别,得到关节可见性识别结果。

根据本公开的实施例,可以利用堆叠的多个卷积层对特征图进行多次卷积,得到多个关节可见性特征。多个卷积层的尺度可以相同,也可以不同。多个关节可见性特征中的每个关节可见性特征为其中一个卷积层的输出结果。但是并不局限于此。还可以利用并行设置的多个卷积层对特征图进行多次卷积,得到多个关节可见性特征。并行设置的多个卷积层为不同尺度的卷积层。多个关节可见性特征与多个卷积层的输出结果一一对应。

根据本公开的实施例,可以利用融合层(或者拼接层)对多个重塑关节可见性特征进行融合(或者拼接),得到目标重塑关节可见性特征。只要是能够将多个重塑关节可见性特征结合的网络结构即可。

根据本公开的实施例,对特征图进行多次卷积,可以得到语义不同的多个关节可见性特征。对多个关节可见性特征分别进行重塑,得到多个重塑关节可见性特征。基于多个重塑关节可见性特征,得到目标重塑关节可见性特征,可以使得目标重塑关节可见性特征包含语义深度不同的多种特征,丰富特征的种类和语义深度,由此提高关节可见性识别结果的精度。

图4示意性示出了根据本公开实施例的第二关节可见性模块的结构图。

如图4所示,第二关节可见性模块可以包括关节卷积层M411、M412、M413、关节重塑层M421、M422、M423、融合层M430和关节可见性识别层M440。

如图4所示,可以将特征图410输入至关节卷积层M411、M412、M413中,用于对特征图进行多次卷积,得到多个关节可见性特征。可以将多个关节可见性特征分别输入至关节重塑层M421、M422、M423中,用于对关节可见性特征进行重塑,得到重塑关节可见性特征。可以将多个重塑关节可见性特征输入至融合层M430,用于对多个重塑关节可见性特征进行融合,得到目标重塑关节可见性特征。可以将目标重塑关节可见性特征输入至关节可见性识别层M440中,用于对目标重塑关节可见性特征进行识别,得到关节可见性识别结果420。

根据本公开的实施例,利用第二关节可见性模块处理特征图,得到关节可见性识别结果,通过关节卷积层,提取特征图中不同深度的语义特征,使得最终得到的关节可见性识别结果精度高。

根据本公开的实施例,针对如图2所示的操作S230,对特征图进行关键点感知,得到关键点感知结果,包括:对特征图进行卷积,得到第一关键点卷积特征;对第一关键点卷积特征进行重塑,得到关键点三维热图;基于关键点三维热图,生成关键点感知结果。

根据本公开的实施例,可以利用卷积层对特征图进行卷积,得到第一关键点卷积特征。卷积层的层数不做限定,每个卷积层的卷积核尺寸可以包括1×1或者3×3,可根据实际情况自行调整。

根据本公开的实施例,对第一关键点卷积特征进行重塑(reshape),可以指:对第一关键点卷积特征进行尺寸缩放或者变形。例如,可以是对矩阵形式体现的第一关键点卷积特征的行数、列数或者维数进行调整或者变换。可以将第一关键点卷积特征输入至重塑函数例如reshape函数中,得到关键点三维热图(heat map)。

根据本公开的实施例,对关键点三维热图进行识别,得到关键点感知结果,可以包括:将关键点三维热图输入至多层感知机(MLP,Multilayer Perceptron)中,得到关键点感知结果。但是并不局限于此。还可以是将关键点三维热图输入至多层感知机+Soft-Argmax函数(软极参函数)中,得到关键点感知结果。

根据本公开的实施例,关键点感知结果可以包括与多个预定关键点一一对应的多个关键点三维位置信息。

根据本公开的实施例,在对特征图进行关键点感知,得到关键点感知结果的过程中,利用对第一关键点卷积特征进行重塑,可以对第一关键点卷积特征的矩阵结构进行变换或者调整,在保证关键点三维热图的特征丰富性的同时,降低处理量,进而提高利用关键点三维热图得到关键点感知结果的精度和处理效率。

图5示意性示出了根据本公开实施例的第一关键点感知模块的结构图。

如图5所示,第一关键点感知模块可以包括关键点卷积层(Conv)M510、关键点重塑层(Reshape)M520和关键点感知层(MLP)M530。

如图5所示,可以将特征图510输入至关键点卷积层M510中,用于对特征图进行卷积,得到第一关键点卷积特征。可以将第一关键点卷积特征输入至关键点重塑层M520中,用于对第一关键点卷积特征进行重塑,得到关键点三维热图。可以将关键点三维热图输入至关键点感知层M530中,用于对关键点三维热图进行识别,得到关键点感知结果520。

根据本公开的实施例,利用第一关键点感知模块处理特征图,得到关键点感知结果,在保证关键点感知结果的精度的同时,减小第一关键点感知模块的层结构构型,提高硬件性能的运行能力,降低能耗。

根据本公开的另一实施例,针对如图2所示的操作S230,对特征图进行关键点感知,得到关键点感知结果,包括:对特征图进行卷积,得到三维热图。对特征图进行卷积,得到第二关键点卷积特征。对第二关键点卷积特征进行重塑,得到重塑第二关键点卷积特征。基于三维热图和重塑第二关键点卷积特征,生成关键点感知结果。

根据本公开的实施例,可以利用第一卷积层对特征图进行卷积,得到三维热图。利用第二卷积层对特征图进行卷积,得到第二关键点卷积特征。第一卷积层和第二卷积层的卷积核大小不同。

根据本公开的实施例,可以将三维热图和重塑第二关键点卷积特征进行融合,生成感知融合特征。对感知融合特征进行关键点感知识别,得到关键点感知结果。

根据本公开的实施例,利用不同处理分支分别处理特征图,得到三维热图和重塑第二关键点卷积特征。基于三维热图和重塑第二关键点卷积特征,生成关键点感知结果,能够使得生成的关键点感知结果包含丰富的特征,由此提高关键点感知结果的精度。

图6示意性示出了根据本公开实施例的第二关键点感知模块的结构图。

如图6所示,第二关键点感知模块可以包括关键点卷积层M610、M620、关键点重塑层M630、关键点融合层M640和关键点感知层M650。

如图6所示,将特征图610输入至关键点卷积层M610,用于对特征图610进行卷积,得到三维热图620。将特征图610输入至关键点卷积层M620,用于对特征图610进行卷积,得到第二关键点卷积特征。将第二关键点卷积特征输入至关键点重塑层M630,用于对第二关键点卷积特征进行重塑,得到重塑第二关键点卷积特征。将三维热图620和重塑第二关键点卷积特征输入至关键点融合层M640,生成关键点融合特征。将关键点融合特征输入至关键点感知层M650,生成关键点感知结果630。

如图6所示,第二关键点感知模块还可以包括激活层(Softmax)M650。可以将三维热图620输入至激活层M650中,再将激活后的三维热图与重塑第二关键点卷积特征输入至关键点融合层M640,生成关键点融合特征。将关键点融合特征输入至关键点感知层M650,生成关键点感知结果630。由此能够通过softmax函数对三维热图进行进一步处理,提高后续融合的处理效率和精度。

根据本公开的实施例,利用第二关键点感知模块处理特征图,得到关键点感知结果,通过第二关键点感知模块不同的处理分支,提取特征图中不同类型的特征,使得最终得到的关键点感知结果精度高。

根据本公开的示例性实施例,可以利用第二关节可见性模块作为第二关键点感知模块,用于处理特征图,得到关键点感知结果。也可以利用第二关键点感知模块作为第二关节可见性模块,用于处理特征图,得到关节可见性识别结果。

与上述两种方式相比,利用第二关节可见性模块处理特征图,得到关节可见性识别结果,且利用第二关键点感知模块处理特征图,得到关键点感知结果。可以使得得到的关节可见性识别结果和关键点感知结果精准、有效的同时,具有针对性,能够提高处理效率。

根据本公开的实施例,针对如图2所示的操作S240,基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果,包括:基于关键点感知结果、关节可见性识别结果和特征图,确定对象的位姿结果。

根据本公开的实施例,可以仅基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果。但是并不局限于此。还可以基于关键点感知结果、关节可见性识别结果和特征图,确定对象的位姿结果。可以将关键点感知结果、关节可见性识别结果和特征图进行融合,得到融合特征。对融合特征进行位姿识别,得到对象的位姿结果。但是并不局限于此。还可以对融合特征进行编码,得到编码特征。对编码特征进行位姿识别,得到对象的位姿结果。

根据本公开的实施例,与仅基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果的方式相比,基于关键点感知结果、关节可见性识别结果和特征图,确定对象的位姿结果,能够将对特征图处理后结果与处理前的特征图结合,通过将深度处理后结果与原始结果结合的方式,提高最终位姿结果的精度和通用性。

根据本公开的另一实施例,针对如图2所示的操作S240,基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果,包括:对特征图进行注意力处理,得到注意力特征图。基于关键点感知结果、关节可见性识别结果和注意力特征图,确定对象的位姿结果。

根据本公开的实施例,可以利用注意力机制(Attention)对特征图进行注意力处理,得到注意力特征图。基于关键点感知结果、关节可见性识别结果和注意力特征图,确定对象的位姿结果。

根据本公开的实施例,利用注意力机制处理特征图,能够使得注意力特征图在保留原始特征信息的同时,重点突出重要特征信息,由此提高对象的位姿结果的精度。

根据本公开的实施例,基于关键点感知结果、关节可见性识别结果和注意力特征图,确定对象的位姿结果,包括:基于关键点感知结果、关节可见性识别结果和注意力特征图,生成目标特征。对目标特征进行图卷积,得到图卷积特征。对图卷积特征进行位姿识别,得到对象的位姿结果。

根据本公开的实施例,可以将关键点感知结果、关节可见性识别结果和注意力特征图进行拼接,得到目标特征。利用图卷积网络(GCN)处理目标特征,得到图卷积特征。

根据本公开的实施例,可以多层感知机对图卷积特征进行位姿识别,得到对象的位姿结果。

根据本公开的实施例,可以利用图卷积网络的网络特性,结合对象的骨骼以及多个关节点之间的关联关系等特性,使得图卷积网络充分学习每个父关节相关关节的有效范围,进而使得利用图卷积网络对目标特征进行处理,得到的图卷积特征是包含了对象的多个关节彼此之间的隐式关系的特征,由此使得基于图卷积特征确定的位姿结果精准且有效。

图7示意性示出了根据本公开实施例的位姿确定模型的结构图。

如图7所示,位姿确定模型可以包括目标检测模块M710、特征提取模块M720、关键点感知模块M730、注意力机制M740、关节可见性模块M750、融合模块M760、图卷积网络(GCN)M770和识别模块(MLP)M780。

如图7所示,将待处理图像710输入至目标检测模块M710中,得到目标检测框。将待处理图像710中的与目标检测框相对应图像区域输入至特征提取模块M720中,得到特征图。可以将特征图输入至注意力机制M740中,得到注意力特征图。将特征图分别输入至关键点感知模块M730和关节可见性模块M750,得到关键点感知结果和关节可见性识别结果。将关键点感知结果、关节可见性识别结果和注意力特征图输入至融合模块M760中,得到目标特征。将目标特征输入至图卷积网络M770中,得到图卷积特征。将图卷积特征输入至识别模块M780中,得到对象的位姿结果。

利用本公开实施例提供的位姿确定方法,因为关节可见性识别结果中表征的是预定关节点的可见性信息,能够利用关节可见性识别结果,精准且有效地学习到待处理图像中的对象所体现的全局信息还是局部信息。此外,利用对象的身体构造特性,能够利用关节可见性识别结果有效地辅助突出关键点感知结果中的重要信息,由此在种类方面提高参考数据的丰富性的同时,提高位姿结果的精度。另外,将特征图与关节可见性识别结果和关键点感知结果相结合,能够保留多的原始信息,保证将不同语义深度的信息相结合,从语义深度方面提高参考数据的丰富性。进一步地,利用对象的身体构造特性以及图网络结构的网络特性,通过图网络结构能够有效地学习目标特征中的多个预定关节以及多个预定关键点彼此之间的隐式关系,进而提高确定的位姿结果的精度。

图8示意性示出了根据本公开实施例的虚拟形象生成方法的流程图。

如图8所示,该方法包括操作S810~S820。

在操作S810,确定目标图像中的目标对象的位姿结果。

在操作S820,基于目标对象的位姿结果和预定虚拟模型,生成目标虚拟形象。

根据本公开的实施例,目标对象的位姿结果是利用如图2所示的位姿确定方法确定的。

根据本公开的实施例,位姿结果可以包括姿态结果和形状结果。

根据本公开的实施例,基于目标对象的位姿结果和预定虚拟模型,生成目标虚拟形象可以包括:将姿态结果、形状结果输入至预定虚拟模型中,得到目标虚拟形象。但是并不局限于此。还可以将姿态结果、形状结果和相机参数输入至预定虚拟模型中,得到目标虚拟形象。相机参数可以为三维数据,例如相机参数包括像素在三维空间和二维空间之间进行投影映射的缩放量和偏移量。

根据本公开的实施例,预定虚拟模型可以包括预先设置的三维虚拟模型,由固定数量的参数控制形态变化的三维虚拟模型。例如可以将对象模型参数输入至预定虚拟模型中,得到更新后的虚拟模型。更新后的虚拟模型呈现与目标图像中的目标对象各个关节角度相匹配的形态。在待重建的目标对象为人体对象的情况下,预定虚拟模型可以包括SMPL(Skinned Multi-Person Linear Model,蒙皮多人线性模型)模型。

根据本公开的实施例,因为目标对象的位姿结果是利用如图2所示的位姿确定方法确定的。基于目标对象的位姿结果和预定虚拟模型,生成目标虚拟形象,使得目标虚拟形象模拟目标对象贴近且真实,提高虚拟现实混合实现能力。

根据本公开的实施例,针对如图3所示的操作S320,基于目标对象的位姿结果和预定虚拟模型,生成目标虚拟形象,可以包括:从目标图像中确定地平面位置结果。基于地平面位置结果,对目标对象的位姿结果进行调整,得到目标位姿结果。基于目标位姿结果和预定虚拟模型,生成目标虚拟形象。

根据本公开的实施例,可以利用目标图像中确定地平面位置结果。基于地平面位置结果,生成触地约束条件。基于触地约束条件,对目标对象的位姿结果进行调整,使得目标位姿结果能够真实且实际。但是并不局限于此。还可以基于地平面位置结果,生成重定向约束条件和触地约束条件。基于触地约束条件和重定向约束条件,对目标对象的位姿结果进行调整,使得目标位姿结果能够真实且实际。

根据本公开的实施例,可以基于目标位姿结果和预定虚拟模型,生成目标虚拟形象,由此使得目标虚拟形象在运动过程中脚踏实地。

根据本公开的实施例,在针对如图3所示的操作S320之后,虚拟形象生成方法还可以包括:基于目标对象的位姿结果序列和预定虚拟模型,生成目标虚拟形象序列。

根据本公开的实施例,位姿结果序列包括用于表征目标对象的全局动作的位姿结果和用于表征目标对象的局部动作的位姿结果。

根据本公开的实施例,可以基于目标图像序列,得到目标对象的位姿结果序列。目标图像序列可以包括按照时序排列的多个目标图像。目标图像序列可以与位姿结果序列一一对应。目标虚拟形象序列可以与目标图像序列一一对应。

根据本公开的实施例,目标图像序列中的多个目标图像,可以是关于目标对象在不同时刻执行不同操作的多个图像。例如,目标图像序列可以包括目标对象处于全局动作例如站立的目标图像和目标对象处于局部动作例如蹲着的目标图像。可以利用如图2所示的位姿确定方法,确定用于表征目标对象的全局动作的位姿结果和用于表征目标对象的局部动作的位姿结果。由此使得基于目标虚拟形象序列生成的视频连贯且顺畅。

根据本公开的实施例,由于位姿结果是基于关键点感知结果和关节可见性结果确定的,利用关键点感知结果和关节可见性结果,能够在提高数据丰富性的同时,提高位姿结果确定的精度,以及确定位姿结果的通用性。能够仅利用如图2所示的位姿确定方法,兼顾确定包括全局动作的目标对象的位姿结果和包括局部动作的目标对象的位姿结果,由此可以使得目标对象在进行蹲起连贯动作或者坐站等连贯动作的过程中,均能保证精度的确定不同时刻的目标虚拟形象,使得基于目标虚拟形象序列生成的视频,能够在动作场景中无缝切换,在降低成本的同时,提高精度处理能力。

根据本公开的实施例,可以将虚拟形象生成方法应用于元宇宙场景中。随着元宇宙的持续火热,用户能够利用终端设备在元宇宙场景中例如元宇宙游戏场景中,进行低成本的人机交互。例如,利用终端设备采集关于用户在真实世界做的一些动作或舞蹈的待处理图像,利用本公开实施例提供的位姿确定方法,确定待处理图像中的用户的位姿结果。并利用本公开实施例提供的虚拟形象生成方法,基于用户的位姿结果和预定虚拟模型,生成在元宇宙场景的数字人(例如目标虚拟形象),该数字人执行与用户相同的动作或舞蹈,完成元宇宙人机交互。由此提升用户沉浸体验感,体验全新的娱乐价值。

根据本公开的实施例,针对如图7所示的位姿确定模型,可以利用如图9所示的深度学习模型的训练方法训练得到。

图9示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。

如图9所示,该方法包括操作S910~S950。

在操作S910,对样本图像进行特征提取,得到样本特征图。

在操作S920,对样本特征图进行关键点感知,得到样本关键点感知结果。

在操作S930,对样本特征图进行关节可见性识别,得到样本关节可见性识别结果。

在操作S940,基于样本关键点感知结果和样本关节可见性识别结果,确定样本位姿结果。

在操作S950,基于样本位姿结果和与样本图像相匹配的样本标签,训练深度学习模型,得到经训练的深度学习模型。

根据本公开的实施例,如图9所示的样本图像、样本特征图、样本关键点感知结果、样本关节可见性识别结果、样本位姿结果与如图2所示的待处理图像、特征图、关键点感知结果、关节可见性识别结果、位姿结果的释义以及处理方式相同或类似,仅是为了体现所处实施例不同,在此不再赘述。

根据本公开的实施例,通过同时基于样本关键点感知结果和样本关节可见性识别结果,确定样本对象的样本位姿结果,能够通过丰富用于确定样本对象的样本位姿结果的参考数据的种类,由此提高样本位姿结果的精度,由此确定的样本位姿结果更为与样本图像相匹配的样本标签接近,由此能够在提高训练效率的同时,提高训练精度。

根据本公开的实施例,基于样本位姿结果和与样本图像相匹配的样本标签,训练深度学习模型,得到经训练的深度学习模型,可以包括:将样本位姿结果和样本标签,输入至损失函数中,得到损失值。基于损失值,调整深度学习模型的参数,得到经训练的深度学习模型。损失函数的类型不做限定,例如可以包括交叉熵损失函数。只要是能够起到调参的目的的损失函数即可。

此外,基于样本位姿结果和与样本图像相匹配的样本标签,训练深度学习模型,得到经训练的深度学习模型,还可以包括:将样本位姿结果和样本标签,输入至第一损失函数中,得到第一损失值。将中间样本数据与中间样本标签输入至第二损失函数中,得到第二损失值。基于第一损失值和第二损失值,调整深度学习模型的参数,得到经训练的深度学习模型。

根据本公开的实施例,中间样本数据可以包括以下至少一项:样本关键点感知结果、样本关节可见性识别结果。中间样本标签可以包括以下至少一项:样本关键点感知标签、样本关节可见性识别标签。

根据本公开的实施例,对样本特征图进行关节可见性识别,得到样本关节可见性识别结果,可以包括:对样本特征图进行卷积,得到样本关节可见性特征;对样本关节可见性特征进行重塑,得到样本重塑关节可见性特征;以及对样本重塑关节可见性特征进行识别,得到样本关节可见性识别结果。

根据本公开的另一实施例,对样本特征图进行关节可见性识别,得到样本关节可见性识别结果,可以包括:对样本特征图进行多次卷积,得到不同尺度的多个样本关节可见性特征;对多个样本关节可见性特征分别进行重塑,得到多个样本重塑关节可见性特征;基于多个样本重塑关节可见性特征,得到样本目标重塑关节可见性特征;以及对样本目标重塑关节可见性特征进行识别,得到样本关节可见性识别结果。

根据本公开的实施例,基于样本关键点感知结果和样本关节可见性识别结果,确定样本对象的样本位姿结果,包括:基于样本关键点感知结果、样本关节可见性识别结果和样本特征图,确定样本对象的样本位姿结果。

根据本公开的实施例,基于样本关键点感知结果和样本关节可见性识别结果,确定样本对象的样本位姿结果,包括:对样本特征图进行注意力处理,得到样本注意力特征图;基于样本关键点感知结果、样本关节可见性识别结果和样本注意力特征图,确定样本对象的样本位姿结果。

根据本公开的实施例,基于样本关键点感知结果、样本关节可见性识别结果和样本注意力特征图,确定样本对象的样本位姿结果,包括:基于样本关键点感知结果、样本关节可见性识别结果和样本注意力特征图,生成样本目标特征;对样本目标特征进行图卷积,得到样本图卷积特征;以及对样本图卷积特征进行位姿识别,得到样本对象的样本位姿结果。

根据本公开的实施例,对样本特征图进行关键点感知,得到样本关键点感知结果,包括:对样本特征图进行卷积,得到样本第一关键点卷积特征;对样本第一关键点卷积特征进行重塑,得到样本关键点三维热图;基于样本关键点三维热图,生成样本关键点感知结果。

根据本公开的实施例,对样本特征图进行关键点感知,得到样本关键点感知结果,包括:对样本特征图进行卷积,得到样本三维热图;对样本特征图进行卷积,得到样本第二关键点卷积特征;对样本第二关键点卷积特征进行重塑,得到样本重塑第二关键点卷积特征;基于样本三维热图和样本重塑第二关键点卷积特征,生成样本关键点感知结果。

根据本公开的实施例,对样本图像进行特征提取,得到样本特征图,包括:对样本图像进行目标检测,得到样本目标检测框;以及对样本图像中的与样本目标检测框相对应图像区域进行特征提取,得到样本特征图。

根据本公开的实施例,对样本图像中的与样本目标检测框相对应图像区域进行特征提取,得到样本特征图,包括:对样本图像中的与样本目标检测框相对应图像区域进行特征提取,得到样本初始特征图;以及对样本初始特征图进行反卷积,得到样本特征图。

根据本公开的实施例,在针对如图3所示的操作S310之前,深度学习模型的训练方法还可以包括:获取初始样本图像。初始样本图像包括样本对象的全局信息。对初始样本图像进行裁剪,得到样本图像,其中,样本图像包含样本对象的局部信息。

根据本公开的实施例,在样本图像数据量小或者样本图像的种类少的情况下,可以对初始样本图像进行裁剪或者其他数据增强手段,得到样本图像。由此提高样本图像的数据类型,进而提高训练精度和效率。

根据本公开的实施例,在初始样本图像包括样本对象的全局信息的情况下,可以对初始样本图像进行裁剪,得到样本图像。

例如,对初始样本图像进行裁剪,得到样本图像,包括:对初始样本图像进行目标检测,得到关于样本对象的样本检测框。对初始样本图像中的与样本检测框相对应的区域进行裁剪,得到样本图像。由此使得样本图像包括样本对象的局部信息。

根据本公开的实施例,全局信息可以指样本对象的完整轮廓信息,例如样本对象的全身信息。局部信息可以指样本对象的局部轮廓信息,例如样本对象的半身信息。

利用对初始样本图像进行裁剪的方式,能够使得样本图像仅包括样本对象的局部轮廓信息。将该样本图像作为训练样本,用于对深度学习模型进行训练,能够使得深度学习模型学习关于样本对象仅存在局部轮廓信息的特征,提高深度学习模型用于识别全局信息和局部信息的位姿结果的精度。

图10示意性示出了根据本公开实施例的位姿确定装置的框图。

如图10所示,该实施例的位姿确定装置1000包括第一特征提取模块1010、第一可见性识别模块1020、第一关键点感知模块1030和第一位姿结果确定模块1040。

第一特征提取模块1010,用于对待处理图像进行特征提取,得到特征图。待处理图像包括待确定位姿的对象。

第一可见性识别模块1020,用于对特征图进行关节可见性识别,得到关节可见性识别结果。关节可见性识别结果用于表征对象的预定关节在待处理图像中的可见性。

第一关键点感知模块1030,用于对特征图进行关键点感知,得到关键点感知结果。关键点感知结果用于表征对象的预定关键点在待处理图像中的位置信息。

第一位姿结果确定模块1040,用于基于关键点感知结果和关节可见性识别结果,确定对象的位姿结果。

根据本公开的实施例,第一可见性识别模块1020包括第一特征图卷积子模块、第一特征重塑子模块和第一特征识别子模块。

第一特征图卷积子模块,用于对特征图进行卷积,得到关节可见性特征。

第一特征重塑子模块,用于对关节可见性特征进行重塑,得到重塑关节可见性特征。

第一特征识别子模块,用于对重塑关节可见性特征进行识别,得到关节可见性识别结果。

根据本公开的实施例,第一可见性识别模块1020还包括第二特征图卷积子模块、第二特征重塑子模块、目标特征确定子模块和第二特征识别子模块。

第二特征图卷积子模块,用于对特征图进行多次卷积,得到不同尺度的多个关节可见性特征。

第二特征重塑子模块,用于对多个关节可见性特征分别进行重塑,得到多个重塑关节可见性特征。

目标特征确定子模块,用于基于多个重塑关节可见性特征,得到目标重塑关节可见性特征。

第二特征识别子模块,用于对目标重塑关节可见性特征进行识别,得到关节可见性识别结果。

根据本公开的实施例,第一位姿结果确定模块1040包括第一位姿结果确定子模块。

第一位姿结果确定子模块,用于基于关键点感知结果、关节可见性识别结果和特征图,确定对象的位姿结果。

根据本公开的实施例,第一位姿结果确定模块1040还包括注意力处理子模块和第二位姿结果确定子模块。

注意力处理子模块,用于对特征图进行注意力处理,得到注意力特征图。

第二位姿结果确定子模块,用于基于关键点感知结果、关节可见性识别结果和注意力特征图,确定对象的位姿结果。

根据本公开的实施例,第二位姿结果确定子模块包括目标特征生成单元、图卷积单元和位姿识别单元。

目标特征生成单元,用于基于关键点感知结果、关节可见性识别结果和注意力特征图,生成目标特征。

图卷积单元,用于对目标特征进行图卷积,得到图卷积特征。

位姿识别单元,用于对图卷积特征进行位姿识别,得到对象的位姿结果。

根据本公开的实施例,第一关键点感知模块1030包括第三特征图卷积子模块、第三特征重塑子模块和第一感知结果生成子模块。

第三特征图卷积子模块,用于对特征图进行卷积,得到第一关键点卷积特征。

第三特征重塑子模块,用于对第一关键点卷积特征进行重塑,得到关键点三维热图。

第一感知结果生成子模块,用于基于关键点三维热图,生成关键点感知结果。

根据本公开的实施例,第一关键点感知模块1030还包括第四特征图卷积子模块、第五特征图卷积子模块、第四特征重塑子模块和第二感知结果生成子模块。

第四特征图卷积子模块,用于对特征图进行卷积,得到三维热图。

第五特征图卷积子模块,用于对特征图进行卷积,得到第二关键点卷积特征。

第四特征重塑子模块,用于对第二关键点卷积特征进行重塑,得到重塑第二关键点卷积特征。

第二感知结果生成子模块,用于基于三维热图和重塑第二关键点卷积特征,生成关键点感知结果。

根据本公开的实施例,第一特征提取模块1010包括目标检测子模块和特征提取子模块。

目标检测子模块,用于对待处理图像进行目标检测,得到目标检测框。

特征提取子模块,用于对待处理图像中的与目标检测框相对应图像区域进行特征提取,得到特征图。

根据本公开的实施例,特征提取子模块包括特征提取单元和反卷积单元。

特征提取单元,用于对待处理图像中的与目标检测框相对应图像区域进行特征提取,得到初始特征图。

反卷积单元,用于对初始特征图进行反卷积,得到特征图。

图11示意性示出了根据本公开实施例的虚拟形象生成装置的框图。

如图11所示,该实施例的虚拟形象生成装置1100包括第二位姿结果确定模块1110和虚拟形象生成模块1120。

第二位姿结果确定模块1110,用于确定目标图像中的目标对象的位姿结果;

虚拟形象生成模块1120,用于基于目标对象的位姿结果和预定虚拟模型,生成目标虚拟形象。

目标对象的位姿结果是利用位姿确定装置确定的。

根据本公开的实施例,虚拟形象生成装置还包括形象序列生成模块。

形象序列生成模块,用于基于目标对象的位姿结果序列和预定虚拟模型,生成目标虚拟形象序列。位姿结果序列包括用于表征目标对象的全局动作的位姿结果和用于表征目标对象的局部动作的位姿结果。

根据本公开的实施例,虚拟形象生成模块1120包括位置结果确定子模块、位姿调整子模块和虚拟形象生成子模块。

位置结果确定子模块,用于从目标图像中确定地平面位置结果。

位姿调整子模块,用于基于地平面位置结果,对目标对象的位姿结果进行调整,得到目标位姿结果。

虚拟形象生成子模块,用于基于目标位姿结果和预定虚拟模型,生成目标虚拟形象。

图12示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。

如图12所示,该实施例的深度学习模型的训练装置1200包括第二特征提取模块1210、第二可见性识别模块1220、第二关键点感知模块1230、第三位姿结果确定模块1240和模型训练模块1250。

第二特征提取模块1210,用于对样本图像进行特征提取,得到样本特征图,其中,样本图像包括样本对象。

第二可见性识别模块1220,用于对样本特征图进行关节可见性识别,得到样本关节可见性识别结果。样本关节可见性识别结果用于表征样本对象的预定关节在样本图像中的可见性。

第二关键点感知模块1230,用于对样本特征图进行关键点感知,得到样本关键点感知结果,其中,样本关键点感知结果用于表征样本对象的预定关键点在样本图像中的位置信息。

第三位姿结果确定模块1240,用于基于样本关键点感知结果和样本关节可见性识别结果,确定样本位姿结果。

模型训练模块1250,用于基于样本位姿结果和与样本图像相匹配的样本标签,训练深度学习模型,得到经训练的深度学习模型。样本标签用于表征样本图像中的样本对象的真实位姿结果。

根据本公开的实施例,深度学习模型的训练装置还包括样本图像获取模块和样本图像裁剪模块。

样本图像获取模块,用于获取初始样本图像。初始样本图像包括样本对象的全局信息。

样本图像裁剪模块,用于对初始样本图像进行裁剪,得到样本图像,其中,样本图像包括样本对象的局部信息。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例的方法。

根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例的方法。

根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例的方法。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示,设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至输入/输出(I/O)接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如位姿确定方法。例如,在一些实施例中,位姿确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时,可以执行上文描述的位姿确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行位姿确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术分类

06120116556804