掌桥专利:专业的专利平台
掌桥专利
首页

人体关键点生成方法及装置、计算机可读存储介质、终端

文献发布时间:2024-04-18 20:01:23


人体关键点生成方法及装置、计算机可读存储介质、终端

技术领域

本发明涉及人体关键点生成技术领域,尤其涉及一种人体关键点生成方法及装置、计算机可读存储介质、终端。

背景技术

随着人工智能技术的发展,生成式人工智能(Artificial IntelligenceGenerated Content,AIGC)已经成为当前最热门的研究课题。其中,元宇宙仍是非常重要的应用方向之一。随着算力和技术的发展,各种和元宇宙相关的增强现实(AugmentedReality,AR)和虚拟现实(Virtual Reality,VR)设备被不断推出。而在这些设备中,人物形象都是不可缺少的一环。无论是虚拟人物形象还是真实人物形象都会涉及到大量生成任务。当前主流的人物形象生成技术通常包含两个任务,其一是基于驱动音频生成人体关键点;其二是基于已获得的人体关键点生成人物形象。研究如何准确地生成人体关键点,对于提高后续生成的人物形象的质量至关重要。

现有技术中,大多数人体关键点生成任务并没有针对人脸区域和非人脸区域(也称为躯体区域)进行区分,而是对这两大区域执行统一的生成任务。例如,直接将驱动音频输入训练好的模型,由模型统一输出包含人脸区域和躯体区域的完整人体关键点。

然而,由于人脸区域与音频的相关性,和躯体区域与音频的相关性并不相同。具体而言,人脸区域的表现状态(例如,表情、口型等)与音频的语义和韵律(例如,节奏、音速、音强等)都具有较强相关性,而躯体区域的表现状态(例如,手势动作)与音频相关性较弱,具体体现在不同个性的人在说同一段话时,可能采取不同风格的手势动作。因此现有技术针对人脸关键点和躯体关键点采用统一生成任务,可能导致最终获得的人体关键点的准确性和稳定性不足。

发明内容

本发明实施例解决的技术问题是如何提高生成的人体关键点的准确性和稳定性。

为解决上述技术问题,本发明实施例提供一种人体关键点生成方法,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括以下步骤:对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,其中,所述第一特征序列至少包含所述目标音频的语义信息和韵律信息;对所述目标音频进行第二特征提取,得到第二特征序列,其中,所述第二特征序列包含所述目标音频的语义信息且不包含韵律信息;采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定与所述第二特征序列相似度最高的样本特征序列,其中,所述待匹配样本库包含多个样本特征序列及每个样本特征序列对应的一组或多组躯体关键点;基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。

可选的,在采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配之前,所述方法还包括:获取说话者说话过程的样本视频,并从中提取样本音频和样本图像序列;对所述样本音频进行特征提取,以得到多个样本特征序列;对于至少一部分样本特征序列,从所述样本图像序列中确定与每个所述样本特征序列时序对齐的多帧样本图像;从与每个所述样本特征序列时序对齐的多帧样本图像中,选取一帧或多帧样本图像进行躯体关键点识别,得到该样本特征序列对应的一组或多组躯体关键点;采用所述至少一部分样本特征序列及其各自对应的一组或多组躯体关键点,构建所述待匹配样本库。

可选的,采用下述方式确定所述至少一部分样本特征序列:确定每个样本特征序列对应的原始样本文本;从所述多个样本特征序列中,选取原始样本文本列入预设文本集合的样本特征序列,作为所述至少一部分样本特征序列。

可选的,从与每个所述样本特征序列时序对齐的多帧样本图像中,选取一帧或多帧样本图像进行躯体关键点识别,包括:从与每个所述样本特征序列时序对齐的多帧样本图像中,选取时序最前的一帧样本图像以及时序最后的一帧样本图像分别进行躯体关键识别。

可选的,基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,包括:如果所述相似度最高的样本特征序列对应的躯体关键点组的总组数,小于所述多组人脸关键点的总组数,则基于所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行插值处理,得到与所述多组人脸关键点在时序上一一对齐的多组躯体关键点;基于预设的标准间距,对每组人脸关键点及其时序对齐的躯体关键点组进行拼接;其中,所述标准间距用于表示每组人脸关键点中预设的基准人脸关键点位置及其时序对齐的躯体关键点组中预设的基准躯体关键点位置之间的间距。

可选的,所述对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,包括:确定人脸关键点生成模型,所述人脸关键点生成模型包括:音频特征提取子模型和解码子模型;将所述目标音频输入所述音频特征提取子模型进行第一特征提取,得到所述第一特征序列;将所述第一特征序列输入所述解码子模型,得到所述多组人脸关键点。

可选的,所述音频特征提取子模型包括第一子模型和第二子模型;将所述目标音频输入所述音频特征提取子模型进行第一特征提取,包括:将所述目标音频输入所述第一子模型进行初步特征提取,得到初步特征序列;将所述初步特征序列输入所述第二子模型进行特征再提取,得到所述第一特征序列;其中,所述第一特征序列中的第一特征的维度小于所述初步特征序列中的初步特征的维度。

可选的,所述确定人脸关键点生成模型,包括:构建初始化模型,所述初始化模型包括预训练的第一子模型、待优化的第二子模型以及预训练的解码子模型;采用训练音频构建训练数据集,以及采用所述训练音频对应的训练图像的人脸关键点作为标注数据,对所述初始化模型进行迭代训练,以得到所述人脸关键点生成模型;其中,迭代训练过程中,仅优化所述待优化的第二子模型的参数。

本发明实施例还提供一种人体关键点生成装置,包括:人脸关键点生成模块,用于对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,其中,所述第一特征序列至少包含所述目标音频的语义信息和韵律信息;特征提取模块,用于对所述目标音频进行第二特征提取,得到第二特征序列,其中,所述第二特征序列包含所述目标音频的语义信息且不包含韵律信息;躯体关键点生成模块,用于采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定与所述第二特征序列相似度最高的样本特征序列,其中,所述待匹配样本库包含多个样本特征序列及每个样本特征序列对应的一组或多组躯体关键点;关键点拼接模块,用于基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述人体关键点生成方法的步骤。

本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述人体关键点生成方法的步骤。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

由于人体的躯体区域与音频的相关性,与人体的人脸区域与音频的相关性并不一致。具体而言,人脸区域的表现状态(例如,表情、口型等)与音频的语义、韵律(例如,节奏、音速、音强等)都具有较强相关性,因此可以通过模型训练学习到目标音频与人脸关键点之间的相关性规律。然而,对于躯体区域,其与音频的相关性相较而言更弱,因为不同个性的人在说同一段话时可能采取不同风格的躯体动作,例如,个性张扬的人手势幅度较大,个性内敛的人手势幅度小甚至无手势,因此,难以通过模型训练学习到音频与躯体关键点之间的相关性规律。

基于上述原理,在本发明实施例中,对于人脸区域和躯体区域进行区分。一方面,分别采取不同方式对目标音频进行特征提取,得到包含不同信息的第一特征序列和第二特征序列,其中,第一特征序列至少包含目标音频的语义信息和韵律信息,用于解码获得人脸关键点;第二特征序列包含所述目标音频的语义信息且不包含韵律信息,用于获得躯体关键点。另一方面,对于躯体关键点的获得方法,并非通过常规模型训练与生成方式,而是通过与预设的待匹配样本库进行特征匹配的方式,其中,待匹配样本库包含的样本特征序列与躯体关键点组之间的对应关系是预先确定且固定不变的,并且各组躯体关键点通常来源于说话者的实际样本图像,具有更强的稳定性和可预期性。

由此,相较于现有技术采用经过训练的模型统一生成人脸关键点和躯体关键点可能效果不佳,本实施方案有助于获得既能准确表达音频语义、韵律的人脸关键点,又能准确表达音频语义且具备更加稳定的躯体动作的躯体关键点,最终获得准确、高质量的完整人体关键点。

附图说明

图1是本发明实施例中一种人体关键点生成方法的流程图;

图2是本发明实施例中对单组人脸关键点与单组躯体关键点进行拼接的状态示意图;

图3是本发明实施例中另一种人体关键点生成方法的部分流程图;

图4是本发明实施例中一种人体关键点生成装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细说明。

参照图1,图1是本发明实施例中一种人体关键点生成方法的流程图。所述方法可以应用于具有数据处理功能的终端,所述终端可以选自但不限于:计算机、手机、平板电脑、智能可穿戴设备(例如,智能头盔、智能眼镜、智能手表等)、车载式终端、服务器、云平台等。

所述方法可以包括步骤S11至步骤S14:

步骤S11:对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,其中,所述第一特征序列至少包含所述目标音频的语义信息和韵律信息;

步骤S12:对所述目标音频进行第二特征提取,得到第二特征序列,其中,所述第二特征序列包含所述目标音频的语义信息且不包含韵律信息;

步骤S13:采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定与所述第二特征序列相似度最高的样本特征序列,其中,所述待匹配样本库包含多个样本特征序列及每个样本特征序列对应的一组或多组躯体关键点;

步骤S14:基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。

需要指出的是,上述步骤S11与步骤S12之间,可以没有先后执行顺序之分。例如,步骤S11与步骤S12同步执行,或者步骤S11在步骤S12之前执行,或者,步骤S11在步骤S12之后执行。

本实施例中,待生成的人体关键点包含人脸关键点和躯体关键点。

其中,所述人脸关键点指人脸区域的关键点,具体可以包含构成人脸区域的多个核心部位的关键点。例如,所述人脸关键点可以选自但不限于:眼部关键点、鼻部位关键点、嘴部关键点、眉部关键点、头部轮廓关键点。

其中,所述躯体关键点指躯体区域的关键点,具体可以包含构成躯体区域的多个核心部位的关键点。例如,所述躯体关键点可以选自但不限于:手掌部位关键点(例如,手指关节部位的关键点)、上半身轮廓关键点、颈部关键点、上肢关键点(例如,左手和/或右手关节部位的关键点、左手和/或右手轮廓关键点)、下肢关键点(例如,左腿和/或右腿关节部位的关键点、左腿和/或右腿轮廓关键点)。

在步骤S11的具体实施中,所述第一特征序列中包含多帧具有时序先后性的第一特征。所述第一特征序列中的多帧第一特征与解码得到的所述多组人脸关键点在时序上一一对齐。

例如,对一段5s的目标音频进行第一特征提取,得到包含50帧第一特征的第一特征序列,然后对所述第一特征序列进行解码,得到时序对齐的50组人脸关键点。其中,每组人脸关键点至少包含多个关键点的位置信息。

其中,所述第一特征序列至少包含所述目标音频的语义信息和韵律信息。所述语义信息和韵律信息对应于所述目标音频的两种不同层面特征,具体而言,所述语义信息主要对应于所述目标音频的内容,所述韵律信息主要对应于所述目标音频的节奏、音速、音强、音调等。

进一步地,所述步骤S11可以包括:所述对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,包括:确定人脸关键点生成模型,所述人脸关键点生成模型包括:音频特征提取子模型和解码子模型;将所述目标音频输入所述音频特征提取子模型进行第一特征提取,得到所述第一特征序列;将所述第一特征序列输入所述解码子模型,得到所述多组人脸关键点。

在一种具体实施方式中,所述音频特征提取子模型和解码子模型可以采用现有的常规的能够实现音频特征提取的模型架构,以及能够对音频特征进行解码的模型架构,可以将所述目标音频输入所述音频特征提取子模型进行单轮的特征提取,直接获得所述第一特征序列。

在另一种具体实施方式中,所述音频特征提取子模型可以包括第一子模型和第二子模型;将所述目标音频输入所述音频特征提取子模型进行第一特征提取,包括:将所述目标音频输入所述第一子模型进行初步特征提取,得到初步特征序列;将所述初步特征序列输入所述第二子模型进行特征再提取,得到所述第一特征序列;其中,所述第一特征序列中的第一特征的维度小于所述初步特征序列中的初步特征的维度。

在本发明实施例中,通过采用两轮特征提取,具体地,初步特征提取可以大幅减少数据量,后续采用所述第二子模型进行特征再提取可以进一步减少数据量,有助于提高后续解码操作的效率并降低整体运算开销。

进一步地,所述确定人脸关键点生成模型,包括:构建初始化模型,所述初始化模型包括预训练的第一子模型、待优化的第二子模型以及预训练的解码子模型;采用训练音频构建训练数据集,以及采用所述训练音频对应的训练图像的人脸关键点作为标注数据,对所述初始化模型进行迭代训练,以得到所述人脸关键点生成模型;其中,迭代训练过程中,仅优化所述待优化的第二子模型的参数。

具体地,可以采用下述方式构建所述训练数据及其标注数据:对一个或多个说话者的说话视频进行音频提取和图像序列的提取,得到多段训练音频以及每段训练音频对应的训练图像序列,其中,所述训练图像序列中的每帧训练图像至少包含所属说话者的人脸区域;然后对于每段训练音频,对所述训练音频对应的至少一部分训练图像进行人脸关键点识别,得到每段训练音频对应的多组人脸关键点;采用所述多段训练音频构建得到所述训练数据集,并采用每段训练音频对应的多组人脸关键点,作为该段训练音频的标注数据。

在具体实施中,所述预训练的第一子模型可以采用现有的已训练好切能实现音频特征提取的常规模型,所述待优化的第二子模型也可以采用待通过训练优化的音频特征提取常规模型。

在本发明实施例中,在模型训练阶段,由于只需对所述第二子模型进行训练优化,第一子模型和解码子模型均采用已训练好的模型,因此可以提高训练效率。进一步,结合前述两轮特征提取方案,通过第一子模型进行初步特征提取,获得更少数据量后再采用所述待优化的第二子模型进行特征再提取,可以进一步在训练过程中提高所述待优化的第二子模型的特征提取效率,从而提高模型训练效率、降低训练开销。

在步骤S12的具体实施中,所述第二特征序列中包含多帧具有时序先后性的第二特征。具体地,可以设置所述第二特征序列中的多个第二特征与所述第一特征序列中的多个第一特征在时序上一一对齐。

其中,所述第二特征序列与所述第一特征序列的不同之处在于,前者(即,第二特征序列)包含所述目标音频的语义信息但不包含韵律信息。更具体而言,所述第二特征序列包含所述目标音频的内容,但不包含所述目标音频的节奏、音速、音强、音调等信息。在此基础上,所述第二特征序列还可以结合实际需要包含其他适当信息,例如可以包含所述目标音频对应原始文本的每个字或词所属的时间点或所占据的时长信息。

可以理解的是,由于所述第二特征序列包含的信息与所述第一特征序列包含的信息有显著区别,因此两者相应地采取不同的特征提取方式获得。例如,可以采用自动语音识别模型(Automatic Speech Recognition,ASR)或者其他具有类似语义特征提取功能的模型,对所述目标音频进行第二特征提取,得到所述第二特征序列。

在步骤S13的具体实施中,采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定与所述第二特征序列相似度最高的样本特征序列,其中,所述待匹配样本库包含多个样本特征序列及每个样本特征序列对应的一组或多组躯体关键点。

其中,所述多个样本特征序列可以是对说话者的样本音频进行特征提取得到的。每个样本特征序列对应的一组或多组躯体关键点,分别具有各自所属的时刻(或时间点)。对于每个样本特征序列对应的每组躯体关键点,可以在该样本特征序列中确定时序对齐的样本特征。

具体地,进行特征匹配的方式可以是:分别计算所述第二特征序列与每个样本特征序列之间的向量或矩阵相似度。关于相似度计算方式可以采用现有常规方式,例如,余弦相似度计算方法。

可以理解的是,为进一步提高匹配效率及准确度,可以设置所述待匹配样本库中的每个样本特征序列包含的相同数量的样本特征,且每个样本特征序列包含的多个样本特征与所述第二特征序列包含的多个第二特征在时序上一一对齐。

关于构建所述待匹配样本库的详细方案,参见图3所示各个步骤的相关描述内容执行,此处不进行赘述。

在步骤S14的具体实施中,基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。

需要指出的是,人体的躯体区域与音频的相关性,与人体的人脸区域与音频的相关性并不一致。具体而言,人脸区域的表现状态(例如,表情、口型等)与音频的语义、韵律(例如,节奏、音速、音强等)都具有较强相关性,因此可以通过模型训练学习到目标音频与人脸关键点之间的相关性规律。然而,对于躯体区域,其与音频的相关性相较而言更弱,因为不同个性的人在说同一段话时可能采取不同风格的躯体动作,例如,个性张扬的人手势幅度较大,个性内敛的人手势幅度小甚至无手势,因此,难以通过模型训练学习到音频与躯体关键点之间的相关性规律。

基于上述原理,在本发明实施例中,对于人脸区域和躯体区域进行区分。一方面,分别采取不同方式对目标音频进行特征提取,得到包含不同信息的第一特征序列和第二特征序列,其中,第一特征序列至少包含目标音频的语义信息和韵律信息,用于解码获得人脸关键点;第二特征序列包含所述目标音频的语义信息且不包含韵律信息,用于获得躯体关键点。

另一方面,对于躯体关键点的获得方法,并非通过常规模型训练与生成方式,而是通过与预设的待匹配样本库进行特征匹配的方式,由于待匹配样本库包含的样本特征序列与躯体关键点组之间的对应关系是预先确定且固定不变的,并且各组躯体关键点通常来源于说话者的实际样本图像,具有更强的稳定性和可预期性。相较于现有技术采用经过训练的模型统一生成人脸关键点和躯体关键点可能效果不佳,本实施方案有助于获得既能准确表达音频语义、韵律的人脸关键点,又能准确表达音频语义且具备更加稳定的躯体动作的躯体关键点,最终获得准确、高质量的完整人体关键点。

进一步地,在所述步骤S14的一种具体实施方式中,所述多组人脸关键点的总组数,等于所述相似度最高的样本特征序列对应的躯体关键点组的总组数,且所述多组人脸关键点与所述相似度最高的样本特征序列对应的多组躯体关键点在时序上一一对齐。此种情况下,可以分别对每组躯体关键点与其时序对齐的单组躯体关键点进行拼接,得到对应的单组完整的人体关键点。

在所述步骤S14的另一种具体实施方式中,所述多组人脸关键点的总组数,大于所述相似度最高的样本特征序列对应的躯体关键点组的总组数。此种情况下,可以基于所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行插值处理,得到与所述多组人脸关键点在时序上一一对齐的多组躯体关键点;再分别对每组躯体关键点与其时序对齐的单组躯体关键点进行拼接,得到对应的单组完整的人体关键点。

其中,关于插值处理的具体方法,可以采用现有对一组或多组数据进行插值的常规方法。例如,对于每两组躯体关键点,可以对这两组躯体关键点中属于相同人体部位的每对关键点的位置坐标求平均值,得到每对关键点对应的插值关键点;所得到的多个插值关键点构成一组插值躯体关键点,其中,该组插值躯体关键点在时序上可以位于两组躯体关键点各自所属时刻的中间时刻。

进一步地,可以采用下述方式,对每组躯体关键点与其时序对齐的单组躯体关键点进行拼接:基于预设的标准间距,对每组人脸关键点与时序对齐的单组躯体关键点进行拼接,其中,每组人脸关键点中的指定人脸关键点与时序对齐的单组躯体关键点中的指定躯体关键点之间的间距,满足所述标准间距。

参照图2,图2是本发明实施例中对单组人脸关键点与单组躯体关键点进行拼接的状态示意图。

位于图2左侧的是单组人脸关键点,具体包含眼部关键点、鼻部位关键点、嘴部关键点、眉部关键点、头部轮廓关键点;位于图2中间的是与左侧这组人脸关键点时序对齐的单组躯体关键点,具体包含手掌部位关键点、上半身轮廓关键点;位于图2右侧的是拼接后得到的单组人脸关键点。

在执行拼接操作时,使得每组人脸关键点中的指定人脸关键点与时序对齐的单组躯体关键点中的指定躯体关键点之间的间距,满足预设的标准间距。

进一步地,所述指定人脸关键点可以在该组人脸关键点中选择与躯体更近的人脸关键点,所述指定躯体关键点可以在该组躯体关键点中选择与人脸距离更近的躯体关键点。

例如,所述指定人脸关键点可以选择位于下巴底部位置的关键点(如图2所示的关键点A),所述指定躯体关键点可以选择位于锁骨中心位置的关键点(如图2所示的关键点B)。

其中,所述标准间距可以采用下述方式确定:确定多个所述样本特征序列所属样本音频对应的多张样本图像,并确定每张样本图像的指定人脸关键点和指定躯体关键点的间距;对多个间距计算平均值,将所述平均值作为所述标准间距。或者,也可以采用多张标准人脸图像中的指定人脸关键点和指定躯体关键点的间距计算平均值,将所述平均值作为所述标准间距。

在本发明实施例中,相比于基于与躯体距离较远的人脸关键点和与人脸距离较远的躯体关键点进行拼接,可能在拼接后容易出现人体变形的情况,本实施方案通过采用位于下巴底部位置的关键点以及位于锁骨中心位置的关键点进行拼接,有助于提高拼接后的人体与实际人体的相似度,减轻人体变形。进一步,通过采用标准间距执行拼接,可以在提高拼接效率的同时,使得拼接得到的每组人体关键点符合人体形态,最终获得更加准确、质量更佳的人物形象。

需要指出的是,上述拼接方法中关于指定人脸关键点、指定躯体关键点的具体选取,以及标准间距的确定方式仅作为非限制性示例。在实际应用中,还可以采取其他适当拼接方式。

参照图3,图3是本发明实施例中另一种人体关键点生成方法的部分流程图。所述另一种人体关键点生成方法可以包括图1中的步骤S11至步骤S14,还可以包括步骤S31至步骤S35,其中,所述步骤S31至步骤S35可以在所述步骤S13之前执行。以下对于图1中的不同内容进行说明。

在步骤S31中,获取说话者说话过程的样本视频,并从中提取样本音频和样本图像序列。

在步骤S32中,对所述样本音频进行特征提取,以得到多个样本特征序列。

在步骤S33中,对于至少一部分样本特征序列,从所述样本图像序列中确定与每个所述样本特征序列时序对齐的多帧样本图像。

进一步地,可以采用下述方式确定所述至少一部分样本特征序列:确定每个样本特征序列对应的原始样本文本;从所述多个样本特征序列中,选取原始样本文本列入预设文本集合的样本特征序列,作为所述至少一部分样本特征序列。

在本发明实施例中,由于待生成的躯体关键点是直接基于与预设的待匹配样本库进行特征匹配确定的,因此,可以根据实际应用需求,选取包含特定文本的音频的样本特征序列构建得到所述待匹配样本库,特定文本的音频具有对应的躯体动作。如此,一方面,有助于减少待匹配样本库中的数据量,提高特征匹配效率;另一方面,可以实现获得的人物形象呈现特定的、符合场景需求的躯体动作。

在步骤S34中,从与每个所述样本特征序列时序对齐的多帧样本图像中,选取一帧或多帧样本图像进行躯体关键点识别,得到该样本特征序列对应的一组或多组躯体关键点。

进一步地,所述步骤S34可以包括:从与每个所述样本特征序列时序对齐的多帧样本图像中,选取时序最前的一帧样本图像以及时序最后的一帧样本图像分别进行躯体关键识别,得到该样本特征序列对应的一组或多组躯体关键点。

在本发明实施例中,每个所述样本特征序列时序对齐的多帧样本图像中,时序最前的一帧样本图像的躯体动作为起始躯体动作,时序最后的一帧样本图像为结束躯体动作。通常而言,在较短时长内,根据说话者的起始躯体动作与结束躯体动作,经过插值处理往往可以获得该时长内说话者的一段较为准确的连贯的躯体动作。基于此原理,本实施方案对于每个所述样本特征序列,仅选取两帧重要样本图像进行关键点识别,有助于在大幅减少数据量,降低开销的同时,获得躯体动作准确、衔接自然且连贯的多组人体关键点。

在步骤S35中,采用所述至少一部分样本特征序列及其各自对应的一组或多组躯体关键点,构建所述待匹配样本库。

在具体实施中,有关步骤S31至步骤S35的更多详细内容请参照前文以及图1中的步骤描述进行执行,此处不再赘述。

进一步地,在得到多组人体关键点之后,基于每组人体关键点确定对应的人物图像;依照时序先后顺序,对所述多组人体关键点对应的多帧人物图像进行拼接,得到人物形象视频。

采用本实施方案的人体关键点生成方法获得的人物形象视频,既包含能准确表达目标音频的语义和韵律的人脸表情、口型等,又包含能够准确表达所述目标音频的语义的躯体动作,且呈现的躯体动作更加标准、稳定。

参照图4,图4是本发明实施例中一种人体关键点生成装置的结构示意图。所述人体关键点生成装置可以包括:

人脸关键点生成模块41,用于对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,其中,所述第一特征序列至少包含所述目标音频的语义信息和韵律信息;

特征提取模块42,用于对所述目标音频进行第二特征提取,得到第二特征序列,其中,所述第二特征序列包含所述目标音频的语义信息且不包含韵律信息;

躯体关键点生成模块43,用于采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定与所述第二特征序列相似度最高的样本特征序列,其中,所述待匹配样本库包含多个样本特征序列及每个样本特征序列对应的一组或多组躯体关键点;

关键点拼接模块44,用于基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。

关于该人体关键点生成装置的原理、具体实现和有益效果请参照前文及图1至图3示出的关于人体关键点生成方法的相关描述,此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述图1至图3示出的人体关键点生成方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器,还可以包括光盘、机械硬盘、固态硬盘等。

具体地,在本发明实施例中,所述处理器可以为中央处理单元(centralprocessing unit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,简称DSP)、专用集成电路(application specificintegrated circuit,简称ASIC)、现场可编程门阵列(field programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,简称ROM)、可编程只读存储器(programmable ROM,简称PROM)、可擦除可编程只读存储器(erasable PROM,简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM,简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,简称RAM)可用,例如静态随机存取存储器(staticRAM,简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM,简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,简称DR RAM)。

本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述图1至图3示出的人体关键点生成方法的步骤。

应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。

需要指出的是,本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

技术分类

06120116551263