导航：首页> 发电、变电或配电>虚拟对象动作生成方法、装置、计算机设备和存储介质

虚拟对象动作生成方法、装置、计算机设备和存储介质

文献发布时间：2024-01-17 01:28:27

技术领域

本申请涉及计算机技术领域，特别是涉及一种虚拟对象动作生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，出现了文本驱动虚拟对象动作生成技术，该技术可以利用一段对虚拟对象进行描述的动作描述文本来生成虚拟对象动作。

传统技术中，通常采用的虚拟对象动作生成方式为，将动作描述文本作为控制信号输入生成式模型（如生成式对抗网络、变分自编码器、扩散模型等），以通过生成式模型将动作描述文本直接映射为虚拟对象动作。

然而，传统方法由于是将动作描述文本直接映射为虚拟对象动作，通常只能生成粗粒度的虚拟对象动作，存在所生成的虚拟对象动作不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高所生成的虚拟对象动作的准确度的虚拟对象动作生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种虚拟对象动作生成方法。所述方法包括：

获取用于描述虚拟对象动作的动作描述文本；

对所述动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成所述虚拟对象动作的采样噪声信号；

对所述多个语义层级的动作描述信息进行编码，得到所述多个语义层级各自的动作描述表征；

基于首个语义层级的动作描述表征，对所述采样噪声信号进行所述首个语义层级的降噪处理，得到所述首个语义层级输出的动作特征向量；

在所述首个语义层级之后的每一语义层级，基于上一语义层级输出的动作特征向量和从所述首个语义层级到本语义层级各自的动作描述表征，对所述采样噪声信号进行降噪处理，得到级联降噪后的动作特征向量；其中，每个语义层级的降噪处理输出的动作特征向量的粒度级逐语义层级递减；

对所述级联降噪后的动作特征向量进行解码，得到所述虚拟对象动作。

第二方面，本申请还提供了一种虚拟对象动作生成装置。所述装置包括：

获取模块，用于获取用于描述虚拟对象动作的动作描述文本；

语义解析模块，用于对所述动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成所述虚拟对象动作的采样噪声信号；

编码模块，用于对所述多个语义层级的动作描述信息进行编码，得到所述多个语义层级各自的动作描述表征；

第一降噪处理模块，用于基于首个语义层级的动作描述表征，对所述采样噪声信号进行所述首个语义层级的降噪处理，得到所述首个语义层级输出的动作特征向量；

第二降噪处理模块，用于在所述首个语义层级之后的每一语义层级，基于上一语义层级输出的动作特征向量和从所述首个语义层级到本语义层级各自的动作描述表征，对所述采样噪声信号进行降噪处理，得到级联降噪后的动作特征向量；其中，每个语义层级的降噪处理输出的动作特征向量的粒度级逐语义层级递减；

解码模块，用于对所述级联降噪后的动作特征向量进行解码，得到所述虚拟对象动作。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取用于描述虚拟对象动作的动作描述文本；

对所述动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成所述虚拟对象动作的采样噪声信号；

对所述多个语义层级的动作描述信息进行编码，得到所述多个语义层级各自的动作描述表征；

基于首个语义层级的动作描述表征，对所述采样噪声信号进行所述首个语义层级的降噪处理，得到所述首个语义层级输出的动作特征向量；

对所述级联降噪后的动作特征向量进行解码，得到所述虚拟对象动作。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取用于描述虚拟对象动作的动作描述文本；

对所述动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成所述虚拟对象动作的采样噪声信号；

对所述多个语义层级的动作描述信息进行编码，得到所述多个语义层级各自的动作描述表征；

基于首个语义层级的动作描述表征，对所述采样噪声信号进行所述首个语义层级的降噪处理，得到所述首个语义层级输出的动作特征向量；

对所述级联降噪后的动作特征向量进行解码，得到所述虚拟对象动作。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取用于描述虚拟对象动作的动作描述文本；

对所述动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成所述虚拟对象动作的采样噪声信号；

对所述多个语义层级的动作描述信息进行编码，得到所述多个语义层级各自的动作描述表征；

基于首个语义层级的动作描述表征，对所述采样噪声信号进行所述首个语义层级的降噪处理，得到所述首个语义层级输出的动作特征向量；

对所述级联降噪后的动作特征向量进行解码，得到所述虚拟对象动作。

上述虚拟对象动作生成方法、装置、计算机设备、存储介质和计算机程序产品，获取用于描述虚拟对象动作的动作描述文本，对动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成虚拟对象动作的采样噪声信号，对多个语义层级的动作描述信息进行编码，能够得到多个语义层级各自的动作描述表征，基于首个语义层级的动作描述表征，对采样噪声信号进行首个语义层级的降噪处理，能够得到首个语义层级输出的动作特征向量，在首个语义层级之后的每一语义层级，以上一语义层级输出的动作特征向量和从首个语义层级到本语义层级各自的动作描述表征作为联合条件，对采样噪声信号进行降噪处理，能够利用多个语义层级各自的动作描述表征来逐渐丰富细粒度的运动细节，得到更细粒度的、准确表征虚拟对象动作的级联降噪后的动作特征向量，进而可以通过对级联降噪后的动作特征向量进行解码，得到虚拟对象动作。整个过程，能够以多个语义层级的动作描述信息作为细粒度的控制信号，通过捕捉多个语义层级的动作特征来细化生成虚拟对象动作，提高了所生成的虚拟对象动作的准确度。

附图说明

图1为一个实施例中虚拟对象动作生成方法的应用环境图；

图2为一个实施例中虚拟对象动作生成方法的流程示意图；

图3为一个实施例中首个语义层级的降噪处理的示意图；

图4为一个实施例中得到级联降噪后的动作特征向量的示意图；

图5为一个实施例中虚拟对象动作序列的示意图；

图6为一个实施例中多个语义层级的动作描述信息的示意图；

图7为一个实施例中层次语义图的示意图；

图8为另一个实施例中层次语义图的示意图；

图9为一个实施例中边权重调整生成调整后虚拟对象动作的示意图；

图10为一个实施例中得到首个语义层级输出的动作特征向量的降噪处理过程的示意图；

图11为一个实施例中对所针对的加噪步相应的添加噪声进行预测的示意图；

图12为一个实施例中预训练的动作序列生成模型的结构示意图；

图13为一个实施例中虚拟对象动作生成方法的整体框架图；

图14为一个实施例中虚拟对象动作生成装置的结构框图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

本申请涉及人工智能技术领域。人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请主要涉及的是机器学习/深度学习。机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的虚拟对象动作生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。服务器104获取用于描述虚拟对象动作的动作描述文本，对动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成虚拟对象动作的采样噪声信号，对多个语义层级的动作描述信息进行编码，得到多个语义层级各自的动作描述表征，基于首个语义层级的动作描述表征，对采样噪声信号进行首个语义层级的降噪处理，得到首个语义层级输出的动作特征向量，在首个语义层级之后的每一语义层级，基于上一语义层级输出的动作特征向量和从首个语义层级到本语义层级各自的动作描述表征，对采样噪声信号进行降噪处理，得到级联降噪后的动作特征向量；其中，每个语义层级的降噪处理输出的动作特征向量的粒度级逐语义层级递减，对级联降噪后的动作特征向量进行解码，得到虚拟对象动作，将虚拟对象动作推送给终端102显示。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种虚拟对象动作生成方法，该方法可以由终端或服务器单独执行，也可以由终端和服务器协同执行。在本申请实施例中，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤202，获取用于描述虚拟对象动作的动作描述文本。

其中，虚拟对象是指在虚拟环境中的可活动对象，该可活动对象可以是虚拟人物、虚拟动物等。比如，在虚拟环境为三维虚拟环境的情况下，虚拟对象是指在三维虚拟环境中显示的虚拟人物、虚拟动物等，虚拟对象在三维虚拟环境中具有自身的形状和体积，占据三维虚拟环境中的一部分空间。虚拟环境是客户端在终端上运行时提供的环境。该虚拟环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的环境，还可以是纯虚构的环境。比如，虚拟环境具体可以是三维虚拟环境。

其中，虚拟对象动作是指虚拟对象在虚拟环境中活动时的动作。比如，虚拟对象动作具体可以为向前走、先站起来再向前走、向右走、向前跳等。动作描述文本用于对虚拟对象动作进行描述，可以包括动作类别、运动路径、动作风格等信息。其中的动作类别是指虚拟对象动作所归属的类别，比如，动作类别具体可以是走、跑、跳等。运动路径用于指示虚拟对象的运动方向，比如，运动路径具体可以是向前、向左、向右等。动作风格用于指示虚拟对象运动时的状态，比如，动作风格具体可以为开心的、悲伤的等。举例说明，动作描述文本具体可以为一个人向前走，然后向左拐，之后向右继续走，这里的一个人是指虚拟对象。

具体的，在需要进行虚拟对象动作生成时，服务器会获取用于描述虚拟对象动作的动作描述文本，以便根据动作描述文本中的动作类别、运动路径、动作风格等信息，来生成虚拟对象动作。在具体的应用中，本申请中的虚拟对象动作生成可以广泛应用于AR(Augmented Reality，增强现实)/VR (Virtual Reality，虚拟现实技术)内容制作，游戏内容创作，3D动画设计等场景用于高效地制作逼真且多样的虚拟对象动作。

步骤204，对动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成虚拟对象动作的采样噪声信号。

其中，语义层次化解析是指通过语义分析将动作描述文本分解为多个语义层次，语义分析是指分析动作描述文本中每个词语的含义，以确定动作描述文本的结构以及动作描述文本中每个词语的词性等。比如，动作描述文本的结构具体可以为（定语）主语+（状语）谓语+（补语或定语）+宾语这种形式。又比如，动作描述文本中词语的词性具体可以为名词、动词、副词、形容词、介词等。

其中，语义层级是指用于描述虚拟对象动作的角度，多个语义层级用于从多个不同角度描述虚拟对象动作，不同语义层级所关注的角度不同，通过利用多个语义层级从多个不同角度来描述虚拟对象动作，能够实现对虚拟对象动作的全面描述。比如，多个语义层级具体可以包括整体运动层级、局部动作层级以及动作细节层级，其中的整体运动层级主要用于整体上描述虚拟对象动作，局部动作层级主要用于通过虚拟对象动作中所包括的若干局部动作描述虚拟对象动作，动作细节层级主要用于通过若干局部动作的细节描述虚拟对象动作。

其中，语义层级的动作描述信息是指在语义层级用于对虚拟对象动作进行描述的信息。比如，若语义层级为整体运动层级，语义层级的动作描述信息具体可以为从整体上对虚拟对象动作进行描述的信息。又比如，若语义层级为局部动作层级，语义层级的动作描述信息具体可以为表征虚拟对象动作中所包括的若干局部动作的动词。再比如，若语义层级为动作细节层级，语义层级的动作描述信息具体可以为修饰表征虚拟对象动作中所包括的若干局部动作的动词的修饰词。

其中，采样噪声信号是指在要生成虚拟对象动作时通过随机采样的方式所得到的噪声信号。比如，采样噪声信号具体可以是指在要生成虚拟对象动作时通过随机采样的方式所得到的高斯噪声信号。

具体的，服务器会基于语义角色解析来对动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并通过随机采样的方式获取用于生成虚拟对象动作的采样噪声信号。其中，语义角色是指在句子中描述一个动作事件时，该事件中的不同句子成分（如主语、宾语、时间、地点等）扮演的不同角色，这些角色的名称通常是一个动词短语中的名词或动词的部分。本实施例中，语义角色是指在动作描述文本中的不同句子成分（如主语、宾语、时间、地点等）扮演的不同角色。需要说明的是，一个句子成分在句子中承担什么语义角色，是取决于谓语动词的。

在具体的应用中，在对动作描述文本进行语义层次化解析时，服务器会先将动作描述文本拆分为多个不同句子成分，并从动作描述文本中识别出动词，再基于多个不同句子成分和动词的语义关联关系，确定不同句子成分所扮演的角色，得到多个语义层级的动作描述信息。

在一个具体的应用中，服务器可以通过预训练的用于语义解析的自然语言模型来对动作描述文本进行语义层次化解析，通过将动作描述文本输入预训练的用于语义解析的自然语言模型，即可得到多个语义层级的动作描述信息。其中，该预训练的用于语义解析的自然语言模型可按照实际应用场景进行训练。比如，该预训练的用于语义解析的自然语言模型具体可以为用于关系提取和语义角色标注的BERT（Bidirectional EncoderRepresentations from Transformers，来自变换器的双向编码器表示）模型。

在一个具体的应用中，服务器也可以通过语义角色解析工具来对动作描述文本进行语义层次化解析，通过将动作描述文本输入语义角色解析工具，即可得到多个语义层级的动作描述信息。其中，该语义角色解析工具可按照实际应用场景进行选择。比如，该语义角色解析工具具体可以为AllenNLP（一个基于 PyTorch（一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序）的 NLP（Natural Language Processing，自然语言处理）研究库，用于提供各语言任务中的业内最佳、最先进的深度学习模型）。

步骤206，对多个语义层级的动作描述信息进行编码，得到多个语义层级各自的动作描述表征。

其中，动作描述表征是指能够表征语义层级中的动作描述信息的特征。比如，动作描述表征是指能够表征语义层级中的动作描述信息的特征向量。

具体的，服务器会分别对多个语义层级中每个语义层级的各动作描述信息进行编码，得到各动作描述信息的第一特征向量，再基于各动作描述信息的第一特征向量，得到多个语义层级各自的动作描述表征。其中，第一特征向量是指能够表示动作描述信息中的内容的特征向量，通过第一特征向量能够将动作描述信息与其他信息区分开来。

在具体的应用中，服务器可以通过预训练的用于文本特征提取的自然语言模型，分别对多个语义层级中每个语义层级的各动作描述信息进行编码，得到各动作描述信息的第一特征向量。其中，预训练的用于文本特征提取的自然语言模型可按照实际应用场景进行训练。比如，该预训练的用于文本特征提取的自然语言模型具体以为CLIP（ContrastiveLanguage-Image Pre-Training，对比语言-图像预训练）模型，CLIP模型是一个预训练模型，可以使用无标签数据进行训练，训练好的CLIP模型能够实现输入一段文本（或者一张图像），输出文本（图像）的向量表示。本实施例中，即输入动作描述信息，输出动作描述信息的向量表示，即第一特征向量。与其他单文本模态、单图像模态的模型不同的是，CLIP是多模态的，包含图像处理以及文本处理两个方面内容。

在一个具体的应用中，CLIP模型的预训练任务是预测给定的图像和文本是否为一对，使用对比学习的损失。本实施例中，采用了对比学习的方法来预训练CLIP模型，直接将图像和对应的文本作为一个整体，来判断文本和图像是否是一对。CLIP模型的主要结构包括一个文本编码器和一个图像编码器，在训练时，CLIP模型将用于训练的图像和文本分别输入图像编码器和文本编码器，得到图像和文本的向量表示，再将图像和文本的向量表示映射到一个共同的多模空间，得到新的可直接比较的图像和文本的向量表示，最后计算图像和文本的向量表示之间的相似度。对比学习的目标函数就是让正样本对的相似度较高，负样本对的相似度较低。

在具体的应用中，在得到各动作描述信息的第一特征向量后，服务器可以对同一语义层级的动作描述信息的第一特征向量进行融合，将融合后的特征向量分别作为多个语义层级各自的动作描述表征。在一个具体的应用中，服务器可以通过对同一语义层级的动作描述信息的第一特征向量进行拼接、叠加等方式进行融合。在对同一语义层级的动作描述信息的第一特征向量进行融合之前，服务器还可以先基于至少一对不同语义层级之间的动作描述信息之间的语义关联关系，对各动作描述信息的第一特征向量进行更新，以联合上下文内容实现对各动作描述信息的准确表征。

步骤208，基于首个语义层级的动作描述表征，对采样噪声信号进行首个语义层级的降噪处理，得到首个语义层级输出的动作特征向量。

其中，降噪处理是指去除采样噪声信号中的噪声。动作特征向量是指在首个语义层级能够表示虚拟对象动作的特征的向量。

具体的，在首个语义层级的降噪处理中，服务器在首个语义层级的动作描述表征的引导下，通过对采样噪声信号进行首个语义层级的降噪处理，重构出首个语义层级输出的动作特征向量。在具体的应用中，服务器会将采样噪声信号作为经过多步加噪的噪声信号，再基于首个语义层级的动作描述表征来预测多步加噪中的每一步所添加的噪声信号，并基于每一步所添加的噪声信号，逐步对采样噪声信号进行降噪处理，进而从采样噪声信号中得到首个语义层级输出的动作特征向量。

需要说明的是，首个语义层级的动作描述表征是作为生成动作特征向量的条件存在的，用于指导动作特征向量的生成，能够使得所生成的动作特征向量更与首个语义层级的动作描述表征相关。

在一个具体的应用中，首个语义层级的降噪处理可以如图3所示，将采样噪声信号n作为经过多步加噪（图3所示为T步加噪）的噪声信号，基于首个语义层级的动作描述表征来预测多步加噪中的每一步所添加的噪声信号，并基于每一步所添加的噪声信号，逐步对采样噪声信号n进行降噪处理，进而从采样噪声信号中得到首个语义层级输出的动作特征向量。如图3所示，服务器会从多步加噪的最后一步（加噪步数T）开始，基于首个语义层级的动作描述表征，对输入的噪声信号进行逆向的降噪处理，在多步加噪的最后一步，降噪后所得到的噪声信号为

步骤210，在首个语义层级之后的每一语义层级，基于上一语义层级输出的动作特征向量和从首个语义层级到本语义层级各自的动作描述表征，对采样噪声信号进行降噪处理，得到级联降噪后的动作特征向量；其中，每个语义层级的降噪处理输出的动作特征向量的粒度级逐语义层级递减。

其中，粒度就是同一维度下，数据统计的粗细程度，计算机领域中粒度指系统内存扩展增量的最小值。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高，粒度级就越小；相反，细化程度越低，粒度级就越大。本实施例中，每个语义层级的降噪处理输出的动作特征向量的粒度级逐语义层级递减是指随着每个语义层级输出的动作特征向量是比上一语义层级输出的动作特征向量更为细粒度的动作特征向量，能够包含更丰富细粒度的运动细节。

具体的，在首个语义层级之后的每一语义层级，服务器会基于上一语义层级输出的动作特征向量和从首个语义层级到本语义层级各自的动作描述表征，对采样噪声信号进行降噪处理，以得到级联降噪后的动作特征向量。在具体的应用中，在首个语义层级之后的每一语义层级的降噪处理中，服务器会将采样噪声信号作为经过多步加噪的噪声信号，基于上一语义层级输出的动作特征向量和从首个语义层级到本语义层级各自的动作描述表征，来预测多步加噪中的每一步所添加的噪声信号，并基于每一步所添加的噪声信号，逐步对采样噪声信号进行降噪处理，得到该语义层级输出的动作特征向量。

在一个具体的应用中，在首个语义层级之后的每一语义层级的降噪处理中，服务器会从多步加噪的最后一步开始，基于上一语义层级输出的动作特征向量和从首个语义层级到本语义层级各自的动作描述表征，对每一步输入的噪声信号进行逆向的降噪处理，将对多步加噪中首步输入的噪声信号进行降噪处理所得到的降噪信号，作为该语义层级输出的动作特征向量。

在一个具体的应用中，在首个语义层级之后的每一语义层级的降噪处理中，针对于多步加噪中的每一步，服务器会对所针对的加噪步的步数进行编码，得到加噪步特征，再对加噪步特征、上一语义层级输出的动作特征向量和从首个语义层级到本语义层级各自的动作描述表征进行融合，得到降噪条件特征，再根据降噪条件特征和所针对的加噪步输入的噪声信号，对在所针对的加噪步所添加的噪声进行预测，基于预测得到的所添加的噪声，对所针对的加噪步输入的噪声信号进行降噪处理，得到降噪信号。

在一个具体的应用中，每一语义层级的降噪处理可以利用一个降噪器实现，则级联降噪具体可以是指通过多个串联的降噪器来对采样噪声信号进行降噪处理。举例说明，如图4所示，服务器可以通过串联三个降噪器

在一个具体的应用中，降噪器

步骤212，对级联降噪后的动作特征向量进行解码，得到虚拟对象动作。

具体的，服务器通过对级联降噪后的动作特征向量进行解码，就可以得到虚拟对象动作。在具体的应用中，对级联降噪后的动作特征向量进行解码，即将级联降噪后的动作特征向量通过映射的方式转换回虚拟对象的姿态空间，所得到的虚拟对象动作可以为虚拟对象动作序列，即通过本申请中所涉及的虚拟对象动作生成方式，可以实现从给定的动作描述信息中生成相应的虚拟对象动作序列。

在一个具体的应用中，所给定的动作描述信息可以为中文，也可以为其他语言的文本，以动作描述信息为中文为例，如图5所示，给出了从给定的动作描述信息中所生成的相应的虚拟对象动作序列的10个示例，从图5的示例中可以看出，通过本申请中所涉及的虚拟对象动作生成方式，可以生成高质量的虚拟对象动作序列。

上述虚拟对象动作生成方法，获取用于描述虚拟对象动作的动作描述文本，对动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成虚拟对象动作的采样噪声信号，对多个语义层级的动作描述信息进行编码，能够得到多个语义层级各自的动作描述表征，基于首个语义层级的动作描述表征，对采样噪声信号进行首个语义层级的降噪处理，能够得到首个语义层级输出的动作特征向量，在首个语义层级之后的每一语义层级，以上一语义层级输出的动作特征向量和从首个语义层级到本语义层级各自的动作描述表征作为联合条件，对采样噪声信号进行降噪处理，能够利用多个语义层级各自的动作描述表征来逐渐丰富细粒度的运动细节，得到更细粒度的、准确表征虚拟对象动作的级联降噪后的动作特征向量，进而可以通过对级联降噪后的动作特征向量进行解码，得到虚拟对象动作。整个过程，能够以多个语义层级的动作描述信息作为细粒度的控制信号，通过捕捉多个语义层级的动作特征来细化生成虚拟对象动作，提高了所生成的虚拟对象动作的准确度。

在一个实施例中，多个语义层级包括整体运动层级、局部动作层级以及动作细节层级；对动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息包括：

将动作描述文本作为整体运动层级的动作描述信息，并从动作描述文本中提取出至少一个动词和与至少一个动词各自相应的属性短语；

将至少一个动词作为局部动作层级的动作描述信息，并将与至少一个动词各自相应的属性短语，作为动作细节层级的动作描述信息。

其中，整体运动层级主要用于整体上描述虚拟对象动作，局部动作层级主要用于通过虚拟对象动作中所包括的若干局部动作描述虚拟对象动作，动作细节层级主要用于通过若干局部动作的细节描述虚拟对象动作。动词相应的属性短语是指在句子中用于修饰东西的短语。比如，动词相关的属性短语具体可以是指修饰动词的形容词、副词、介词等。

具体的，多个语义层级包括整体运动层级、局部动作层级以及动作细节层级，对动作描述文本进行语义层次化解析，即是从多个语义层级考虑，从动作描述文本中分别提取出每个语义层级的动作描述信息。在提取出多个语义层级的动作描述信息时，服务器会将动作描述文本作为整体运动层级的动作描述信息，并从动作描述文本中提取出至少一个动词和与至少一个动词各自相应的属性短语，将至少一个动词作为局部动作层级的动作描述信息，并将与至少一个动词各自相应的属性短语，作为动作细节层级的动作描述信息。

在具体的应用中，服务器可以通过对动作描述文本中的各词语进行词性分析，确定各词语的词性，以确定出至少一个动词，进而可以通过分析至少一个动词与各词语的关系，确定与至少一个动词各自相应的属性短语。

在一个具体的应用中，以动作描述文本为“一个人向前走，然后向左拐，之后向右继续走”为例，可以从中提取出的至少一个动词包括：走、拐、继续走，与“走”相应的属性短语为“一个人”、“向前”，与“拐”相应的属性短语为“一个人”、“然后”、“向左”，与“继续走”相应的属性短语为“一个人”、“之后”、“向右”，进行语义层次化解析后，所得到的多个语义层级的动作描述信息可以如图6所示，整体运动层级的动作描述信息“一个人向前走，然后向左拐，之后向右继续走”，局部动作层级的动作描述信息为“走”、“拐”以及“继续走”，动作细节层级的动作描述信息为“一个人”、“向前”、“然后”、“向左”、“之后”、“向右”。

本实施例中，通过这种方式，能够实现对整体运动层级、局部动作层级以及动作细节层级的动作描述信息的获取，进而可以以多个语义层级的动作描述信息作为细粒度的控制信号，通过捕捉多个语义层级的动作特征来细化生成虚拟对象动作，提高了所生成的虚拟对象动作的准确度。

在一个实施例中，对多个语义层级的动作描述信息进行编码，得到多个语义层级各自的动作描述表征包括：

分别对多个语义层级中每个语义层级的各动作描述信息进行编码，得到各动作描述信息的第一特征向量；

基于至少一对不同语义层级之间的动作描述信息之间的语义关联关系，对各动作描述信息的第一特征向量进行基于注意力机制的更新处理，得到各动作描述信息的第二特征向量；

对同一语义层级的动作描述信息的第二特征向量进行拼接，得到多个语义层级各自的动作描述表征。

其中，第一特征向量是指在对动作描述信息进行编码后、用于表征动作描述信息的向量。语义关联关系是指按照语义存在相互关联的关系。比如，动词和修饰动词的副词、形容词以及介词可以认为存在语义关联关系。第二特征向量是指在对第一特征向量进行更新后、用于表征动作描述信息的向量。

具体的，服务器会分别对多个语义层级中每个语义层级的各动作描述信息进行编码，得到各动作描述信息的第一特征向量，基于至少一对不同语义层级之间的动作描述信息之间的语义关联关系，对具有语义关联关系的动作描述信息的第一特征向量进行基于注意力机制的更新处理，得到更新后的各动作描述信息的第二特征向量，对同一语义层级的动作描述信息的第二特征向量进行拼接，得到多个语义层级各自的动作描述特征。

在具体的应用中，服务器可以通过预训练的用于文本特征提取的自然语言模型，分别对多个语义层级中每个语义层级的各动作描述信息进行编码，得到各动作描述信息的第一特征向量。在进行基于注意力机制的更新处理时，针对于每个动作描述信息，服务器会对所针对的动作描述信息以及与所针对的动作描述信息具有语义关联关系的动作描述信息的第一特征向量进行基于注意力机制的交互处理，确定所针对的动作描述信息以及与所针对的动作描述信息具有语义关联关系的动作描述信息的注意力权重系数，再根据注意力权重系数，对所针对的动作描述信息以及与所针对的动作描述信息具有语义关联关系的动作描述信息的第一特征向量进行加权求和，得到所针对的动作描述信息的第二特征向量。

本实施例中，通过编码的方式，能够得到各动作描述信息的第一特征向量，通过利用语义关联关系，对第一特征向量进行基于注意力机制的更新处理，能够在充分考虑有语义关联关系的动作描述信息的基础上，得到准确表述各动作描述信息的第二特征向量，进而可以通过对同一语义层级的动作描述信息的第二特征向量进行拼接，得到多个语义层级各自的动作描述表征。

在一个实施例中，基于至少一对不同语义层级之间的动作描述信息之间的语义关联关系，对各动作描述信息的第一特征向量进行基于注意力机制的更新处理，得到各动作描述信息的第二特征向量包括：

分别将各动作描述信息作为语义节点，并基于至少一对不同语义层级之间的动作描述信息之间的语义关联关系，确定连接各语义节点的连接边；

将各动作描述信息的第一特征向量，分别作为各语义节点的节点表征；

根据各语义节点、连接各语义节点的连接边以及各语义节点的节点表征，构建层次语义图；

利用图注意力机制，更新层次语义图中各语义节点的节点表征，根据更新后的各语义节点的节点表征，得到各动作描述信息的第二特征向量。

其中，图注意力机制用于引入注意力机制来实现更好的邻居聚合，通过学习邻居的权重，可以实现对邻居的加权聚合。因此，利用图注意力记住噪音邻居较为鲁棒，注意力机制也赋予了模型一定的可解释性。需要说明的是，图注意力机制通过动态关注邻域的特征，相对于单纯的图卷积而言进一步增强了基于图的推理。

具体的，服务器会分别将各动作描述信息作为语义节点，并基于至少一对不同语义层级之间的动作描述信息之间的语义关联关系，将表征具有语义关联关系的不同语义层级之间的动作描述信息的语义节点连接起来，得到连接各语义节点的连接边。在此基础上，服务器还会将各动作描述信息的第一特征向量，分别作为各语义节点的节点表征，进而可以根据各语义节点、连接各语义节点的连接边以及各语义节点的节点表征，构建层次语义图。在构建层次语义图后，服务器会利用图注意力机制，来更新层次语义图中各语义节点的节点表征，将更新后的各语义节点的节点表征，分别作为语义节点相应的动作描述信息的第二特征向量。

在具体的应用中，在利用图注意力机制，来更新层次语义图中各语义节点的节点表征时，针对层次语义图中每个语义节点，服务器会确定所针对的语义节点的至少一个相邻节点，再利用至少一个相邻节点的节点表征和所针对的语义节点的节点表征，来对所针对的语义节点的节点表征进行更新。

在一个具体的应用中，以动作描述文本为“一个人向前走，然后向左拐，之后向右继续走”，且多个语义层级包括整体运动层级、局部动作层级以及动作细节层级为例，所构建的层次语义图可以如图7所示，其中，整体运动层级的语义节点“一个人向前走，然后向左拐，之后向右继续走”与局部动作层级的语义节点“走”、“拐”以及“继续走”连接，局部动作层级的语义节点“走”与动作细节层级的语义节点“一个人”以及“向前”连接，局部动作层级的语义节点“拐”与动作细节层级的语义节点“一个人”、“然后”以及“向左”连接，局部动作层级的语义节点“继续走”与动作细节层级的语义节点“一个人”、“之后”以及“向右”连接。在一个具体的应用中，所构建的层次语义图可以简化为如图8所示，其中在整体运动层级包括一个语义节点（也可以称为整体运动节点），在局部动作层级包括三个语义节点（也可以称为局部动作节点），在动作细节层级包括六个语义节点（也可以称为动作细节节点）。

本实施例中，在确定语义节点，基于语义关联关系确定连接各语义节点的连接边，并确定各语义节点的节点表征的基础上，能够利用各语义节点、连接各语义节点的连接边以及各语义节点的节点表征，实现对表征动作描述文本的语义层次关系的层次语义图的构建，进而可以利用图注意力机制来更新层次语义图中各语义节点的节点表征，使各语义节点的节点表征充分交互，得到更新后的各语义节点的节点表征，进而可以利用更新后的各语义节点的节点表征，得到准确表述各动作描述信息的第二特征向量。

在一个实施例中，利用图注意力机制，更新层次语义图中各语义节点的节点表征包括：

针对层次语义图中每个语义节点，确定所针对的语义节点的至少一个相邻节点；

对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行基于图注意力机制的交互处理，确定至少一个相邻节点以及所针对的语义节点的注意力权重系数；

根据注意力权重系数，对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行加权求和，得到更新后的所针对的语义节点的节点表征。

其中，相邻节点是指在层次语义图中与所针对的语义节点通过连接边相连接的语义节点。比如，在如图7所示的层次语义图中，整体运动层级的语义节点“一个人向前走，然后向左拐，之后向右继续走”的至少一个相邻节点为局部动作层级的语义节点“走”、“拐”以及“继续走”。局部动作层级的语义节点“走”的至少一个相邻节点为整体运动层级的语义节点“一个人向前走，然后向左拐，之后向右继续走”和动作细节层级的语义节点“一个人”以及“向前”。局部动作层级的语义节点“拐”的至少一个相邻节点为整体运动层级的语义节点“一个人向前走，然后向左拐，之后向右继续走”和动作细节层级的语义节点“一个人”、“然后”以及“向左”。局部动作层级的语义节点“继续走”的至少一个相邻节点为整体运动层级的语义节点“一个人向前走，然后向左拐，之后向右继续走”和动作细节层级的语义节点“一个人”、“之后”以及“向右”。

具体的，针对层次语义图中每个语义节点，服务器会基于层次语义图中各语义节点之间的连接关系，确定所针对的语义节点的至少一个相邻节点，对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行基于图注意力机制的交互处理，确定至少一个相邻节点以及所针对的语义节点的注意力权重系数，对于至少一个相邻节点中每个相邻节点来说，该相邻节点的注意力权重系数表示了该相邻节点的节点表征对于所针对的语义节点的重要性。基于此，终端可以根据注意力权重系数，对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行加权求和，得到更新后的所针对的语义节点的节点表征。

在具体的应用中，在对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行基于图注意力机制的交互处理时，服务器可以通过相似度计算来确定至少一个相邻节点以及所针对的语义节点的注意力权重系数，即针对于至少一个相邻节点中每个相邻节点，服务器可以计算所针对的相邻节点的节点表征和所针对的语义节点的节点表征之间的节点表征相似度，以节点表征相似度作为所针对的相邻节点的注意力权重系数。

在具体的应用中，在对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行基于图注意力机制的交互处理时，服务器还可以通过先线性变换再映射的方式，来确定至少一个相邻节点以及所针对的语义节点的注意力权重系数，即针对于至少一个相邻节点中每个相邻节点，服务器会先利用预训练的线性变化层对所针对的相邻节点的节点表征和所针对的语义节点的节点表征进行一次线性变换，即映射到高维特征，以获得足够的表达能力，再将线性变换后的两个节点表征进行拼接，再将拼接后的两个节点表征映射到一个实数上，以该实数作为所针对的相邻节点的注意力权重系数。

在具体的应用中，本实施例的图注意力机制，只允许邻接节点参与所针对的语义节点的注意力机制中，进而引入了图的结构信息，即在进行基于图注意力机制的交互处理时，只考虑一跳相邻节点。需要说明的是，所针对的语义节点的一跳相邻节点包括所针对的语义节点本身，可以理解为自环边。

在一个具体的应用中，在确定至少一个相邻节点以及所针对的语义节点的注意力权重系数后，为了使得不同语义节点间的注意力权重系数易于比较，服务器可以对至少一个相邻节点以及所针对的语义节点的注意力权重系数进行归一化，再利用归一化后的注意力权重系数，对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行加权求和，得到更新后的所针对的语义节点的节点表征。

在一个实施例中，服务器也可以通过预训练的图注意力网络来实现利用图注意力机制，更新层次语义图中各语义节点的节点表征，通过将层次语义图中每个语义节点的节点表征输入预训练的图注意力网络，该预训练的图注意力网络即可输出更新后的各语义节点的节点表征。

需要说明的是，预训练的图注意力网络在利用图注意力机制，更新层次语义图中各语义节点的节点表征时，所采用的处理原理与上述实施例基本相同，都是针对于层次语义图中每个语义节点，先确定所针对的语义节点的至少一个相邻节点，再对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行基于图注意力机制的交互处理，确定至少一个相邻节点以及所针对的语义节点的注意力权重系数，最后再根据注意力权重系数，对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行加权求和，得到更新后的所针对的语义节点的节点表征。

本实施例中，针对层次语义图中每个语义节点，通过先确定所针对的语义节点的至少一个相邻节点，再对节点表征进行基于图注意力机制的交互处理，能够得到至少一个相邻节点以及所针对的语义节点的注意力权重系数，进而可以通过根据注意力权重系数，对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行加权求和，来实现对所针对的语义节点的节点表征的更新，使得所针对的语义节点的节点表征能够充分融合相邻节点的节点表征，更能准确表述动作描述信息。

在一个实施例中，虚拟对象动作生成方法还包括：

在得到虚拟对象动作的情况下，响应于对层次语义图中连接各语义节点的连接边的边权重调整事件，对边权重调整事件所指示的连接边的边权重进行调整，得到更新的层次语义图；

利用图注意力机制，更新更新的层次语义图中各语义节点的节点表征，根据更新后的各语义节点的节点表征，得到各动作描述信息的第三特征向量；

对同一语义层级的动作描述信息的第三特征向量进行拼接，得到多个语义层级各自的更新后动作描述表征；

基于多个语义层级各自的更新后动作描述表征，生成调整后虚拟对象动作。

其中，边权重调整事件是指对层次语义图中连接各语义节点的连接边的权重进行调整的事件。比如，层次语义图中连接各语义节点的连接边的初始权重都是相同的，可以通过边权重调整事件对其中的至少一个连接边的权重进行调整，以实现更细粒度的控制虚拟对象动作生成。

具体的，在得到虚拟对象动作的情况下，若需要实现更细粒度的控制虚拟对象动作生成，交互对象可以触发对层次语义图中连接各语义节点的连接边的边权重调整事件，服务器响应于该边权重调整事件，会对边权重调整事件所指示的连接边的边权重进行调整，得到更新的层次语义图。在得到更新的层次语义图后，服务器会利用图注意力机制，来更新更新的层次语义图中各语义节点的节点表征，将更新后的各语义节点的节点表征，分别作为相应的动作描述信息的第三特征向量，对同一语义层级的动作描述信息的第三特征向量进行拼接，得到多个语义层级各自的更新后动作描述表征，利用多个语义层级各自的更新后动作描述表征，来生成调整后虚拟对象动作，以实现对虚拟对象动作生成的更细粒度的控制。

在具体的应用中，在得到多个语义层级各自的更新后动作描述表征后，服务器会基于首个语义层级的更新后动作描述表征，对采样噪声信号进行首个语义层级的降噪处理，得到首个语义层级输出的调整后动作特征向量，在首个语义层级之后的每一语义层级，基于上一语义层级输出的调整后动作特征向量和从首个语义层级到本语义层级各自的更新后动作描述表征，对采样噪声信号进行降噪处理，得到级联降噪后的调整后动作特征向量，对级联降噪后的调整后动作特征向量进行解码，得到调整后虚拟对象动作。

在具体的应用中，交互对象可以通过语音或者文字来触发对层次语义图中连接各语义节点的连接边的边权重调整事件，服务器在接收到交互对象的语音或者文字后，会对语音或者文字进行识别，识别出其中用于对边权重进行调整的调整方式，再对调整方式所指示的边权重进行调整。比如，以动作描述文本为“一个人向前走，然后向右拐，之后向右继续走”为例，对边权重进行调整的语音或者文字可以为“向左多拐一点”，服务器在接收到该语音或者文字后，会确定调整方式为“向左多拐一点”，会对调整方式所指示的边权重（即连接“拐”和“向左”这两个语义节点的连接边的权重）进行调整，提高该边权重，以实现“向左多拐一点”。

在一个具体的应用中，如图9所示，以动作描述文本为“一个人向前走，然后向右拐，之后向右继续走”为例，其所生成的基准的虚拟对象动作如图9所示，若对连接语义节点“拐”和语义节点“向左”的边（如图9所示为连接语义节点3和语义节点8的连接边）的权重进行提高（即增强），由图9的微调结果（调整后虚拟对象动作）与基准的虚拟对象动作的对比可以看出，向左拐的幅度会变大，若对连接语义节点“拐”和语义节点“向左”的边的权重进行降低（即减弱），由图9的微调结果（调整后虚拟对象动作）与基准的虚拟对象动作的对比可以看出，向左拐的幅度会变小。

在一个具体的应用中，若对连接语义节点“一个人向前走，然后向右拐，之后向右继续走”和语义节点“继续走”的边（如图9所示为连接语义节点1和语义节点4的连接边）的权重进行提高（即增强），由图9的微调结果（调整后虚拟对象动作）与基准的虚拟对象动作的对比可以看出，“继续走”的动作会更明显。若对连接语义节点“一个人向前走，然后向右拐，之后向右继续走”和语义节点“继续走”的边的权重进行降低（即减弱），由图9的微调结果（调整后虚拟对象动作）与基准的虚拟对象动作的对比可以看出，“继续走”的动作会变得不明显。

本实施例中，能够通过对层次语义图中连接边的边权重进行调整来生成调整后虚拟对象，利用边权重调整实现了对虚拟对象生成的细粒度控制，能够使得所生成的调整后虚拟对象更符合要求。

在一个实施例中，基于首个语义层级的动作描述表征，对采样噪声信号进行首个语义层级的降噪处理，得到首个语义层级输出的动作特征向量包括：

将采样噪声信号作为经过多步加噪的噪声信号，从多步加噪的最后一步开始，基于首个语义层级的动作描述表征，对每一步输入的噪声信号进行逆向的降噪处理，将对首步输入的噪声信号进行降噪处理所得到的降噪信号，作为首个语义层级输出的动作特征向量。

具体的，在进行首个语义层级的降噪处理时，服务器会将采样噪声信号作为经过多步加噪的噪声信号，从多步加噪的最后一步开始，以首个语义层级的动作描述表征为引导，对每一步输入的噪声信号进行逆向的降噪处理，将对首步输入的噪声信号进行降噪处理所得到的降噪信号，作为首个语义层级输出的动作特征向量。

在具体的应用中，多步加噪的最后一步输入的噪声信号为采样噪声信号，从多步加噪的倒数第二步开始，每一步输入的噪声信号为在后一步进行降噪处理后输出的降噪信号。且针对于多步加噪中的每一步，都需要以首个语义层级的动作描述表征为引导，基于首个语义层级的动作描述表征和所针对的加噪步，来对所针对的加噪步所添加的噪声进行预测，再根据预测得到的添加噪声对所针对的加噪步输入的噪声信号进行降噪处理。

在一个具体的应用中，假设多步加噪为T步加噪，则在对采样噪声信号进行降噪处理时，需要进行T步的降噪处理，服务器会将采样噪声信号作为经过T步加噪的噪声信号，从降噪步数T开始，以首个语义层级的动作描述表征为引导，对每一步输入的噪声信号进行逆向的降噪处理，将对首步（降噪步数1）输入的噪声信号进行降噪处理所得到的降噪信号，作为首个语义层级输出的动作特征向量。降噪步数为T时，输入的噪声信号为采样噪声信号，从降噪步数为T-1开始，每一步输入的噪声信号为在后一步进行降噪处理后输出的降噪信号。

在一个具体的应用中，每一步所进行的降噪处理都可以基于预训练的降噪器来实现，该预训练的降噪器可按照实际应用场景进行配置和训练。则得到首个语义层级输出的动作特征向量的降噪处理过程可以如图10所示，针对于T步加噪的每一步，可以通过预训练的降噪器，基于首个语义层级的动作描述表征、输入的噪声信号和所针对的加噪步进行噪声预测，进而可以利用预训练的降噪器所预测的噪声对输入的噪声信号进行降噪处理得到降噪信号，在完成对首步（降噪步数1）输入的噪声信号进行降噪处理后，将对首步（降噪步数1）输入的噪声信号进行降噪处理所得到的降噪信号，作为首个语义层级输出的动作特征向量。在这个过程当中，预训练的降噪器会被使用T次。

其中，如图10所示，服务器会从多步加噪的最后一步（加噪步数T）开始，基于首个语义层级的动作描述表征，对输入的噪声信号进行逆向的降噪处理，在多步加噪的最后一步，降噪后所得到的噪声信号为

本实施例中，通过将采样噪声信号作为经过多步加噪的噪声信号，从多步加噪的最后一步开始，基于首个语义层级的动作描述表征，对每一步输入的噪声信号进行逆向的降噪处理，能够以首个语义层级的动作描述表征为引导实现逐步准确降噪，得到首个语义层级输出的动作特征向量。

在一个实施例中，针对于多步加噪中的每一步，对所针对的加噪步输入的噪声信号进行的降噪处理的步骤包括：

对所针对的加噪步的步数进行编码，得到加噪步特征；

对首个语义层级的动作描述表征和加噪步特征进行融合，得到降噪条件特征；

根据降噪条件特征，对所针对的加噪步输入的噪声信号进行降噪处理，得到降噪信号。

其中，加噪步特征是指用于表示所针对的加噪步的特征，能够将所针对的加噪步与其他加噪步区分开来。降噪条件特征是指作为降噪处理的引导条件的特征。针对于不同的降噪条件特征，所进行的降噪处理不完全相同。比如，针对于不同的降噪条件特征，在进行降噪处理时预测得到的所针对的加噪步相应的添加噪声不同。

具体的，针对于多步加噪中的每一步，在对所针对的加噪步输入的噪声信号进行降噪处理时，服务器会对所针对的加噪步的步数进行编码，得到加噪步特征，再对首个语义层级的动作描述表征和加噪步特征进行融合，得到降噪条件特征，最后以降噪条件特征为引导，对所针对的加噪步输入的噪声信号进行降噪处理，得到降噪信号。

在具体的应用中，服务器可以通过预训练的编码网络对所针对的加噪步的步数进行编码。其中，预训练的编码网络可按照实际应用场景进行配置。举例说明，预训练的编码网络具体可以为预训练的MLP(Multi-Layer Perceptron，多层感知器)。服务器可以通过拼接的方式对首个语义层级的动作描述表征和加噪步特征进行融合，得到降噪条件特征。

本实施例中，通过对所针对的加噪步的步数进行编码，得到加噪步特征，对首个语义层级的动作描述表征和加噪步特征进行融合，能够得到降噪条件特征，进而可以以降噪条件特征为引导，对所针对的加噪步输入的噪声信号进行降噪处理，得到降噪信号，实现降噪。

在一个实施例中，根据降噪条件特征，对所针对的加噪步输入的噪声信号进行降噪处理，得到降噪信号包括：

根据降噪条件特征和所针对的加噪步输入的噪声信号，对所针对的加噪步相应的添加噪声进行预测，得到所针对的加噪步相应的第一预测添加噪声；

根据第一预测添加噪声，对所针对的加噪步输入的噪声信号进行降噪处理，得到降噪信号。

具体的，服务器会基于注意力机制，对降噪条件特征和所针对的加噪步输入的噪声信号进行编码，得到降噪条件特征和所针对的加噪步输入的噪声信号各自相应的注意力编码向量，再对注意力编码向量进行解码，以得到所针对的加噪步相应的第一预测添加噪声，最后再从所针对的加噪步输入的噪声信号中减去第一预测添加噪声，以进行降噪处理，得到降噪信号。

其中，注意力机制是在计算能力有限的情况下，将计算资源分配给更重要的任务，同时解决信息超载问题的一种资源分配方案。在神经网络学习中，一般而言模型的参数越多则模型的表达能力越强，模型所存储的信息量也越大，但这会带来信息过载的问题。那么通过引入注意力机制，在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。本实施例中，即聚焦于降噪条件特征和所针对的加噪步输入的噪声信号中对第一预测添加噪声的预测更为关键的信息，以提高第一预测添加噪声的预测的效率和准确性。

在具体的应用中，注意力机制可以为多头注意力机制，服务器可以通过多层级的编码和解码过程，来得到所针对的加噪步相应的第一预测添加噪声。在一个具体的应用中，服务器可以通过预训练的降噪器来实现对所针对的加噪步相应的添加噪声进行预测，该预训练的降噪器以降噪条件特征和所针对的加噪步输入的噪声信号为输入，输出所针对的加噪步相应的第一预测添加噪声。该预训练的降噪器可按照实际应用场景进行配置和训练。在一个具体的应用中，该预训练的降噪器可以为基于N1层Transformer（变换网络）和N2个注意力头的网络，其中N1和N2为正整数，可按照实际应用场景进行配置。

在一个具体的应用中，对所针对的加噪步相应的添加噪声进行预测的示意图可以如图11所示，服务器会利用MLP（多层感知机）对所针对的加噪步的步数t进行编码，得到加噪步特征，对首个语义层级的动作描述表征c和加噪步特征进行拼接（图11中用⊕表示），得到降噪条件特征，将降噪条件特征和所针对的加噪步输入的噪声信号输入预训练的降噪器，以使得预训练的降噪器基于降噪条件特征和所针对的加噪步输入的噪声信号根据降噪条件特征和所针对的加噪步输入的噪声信号，对所针对的加噪步相应的添加噪声（即第t步所添加的噪声）进行预测，得到所针对的加噪步相应的第一预测添加噪声。

本实施例中，通过根据降噪条件特征和所针对的加噪步输入的噪声信号，对所针对的加噪步相应的添加噪声进行预测，能够得到所针对的加噪步相应的第一预测添加噪声，进而可以直接根据第一预测添加噪声，对所针对的加噪步输入的噪声信号进行降噪处理，得到降噪信号，通过噪声预测的方式实现降噪。

在一个实施例中，虚拟对象动作是通过预训练的动作序列生成模型确定的，动作序列生成模型包括级联降噪网络和解码器；级联降噪网络用于进行每一语义层级的降噪处理，得到级联降噪后的动作特征向量；解码器用于对级联降噪后的动作特征向量进行解码，得到虚拟对象动作。

具体的，预训练的动作序列生成模型是指用于对虚拟对象动作进行生成的模型，该动作序列生成模型包括级联降噪网络和解码器，其中的级联降噪网络用于进行每一语义层级的降噪处理，得到级联降噪后的动作特征向量，解码器用于对级联降噪后的动作特征向量进行解码，得到虚拟对象动作。

在具体的应用中，以级联降噪网络包括三个降噪器为例，预训练的动作序列生成模型的结构可以如图12所示，在级联降噪网络中，首个语义层级的降噪器的输入为采样噪声信号n和首个语义层级的动作描述表征

本实施例中，能够利用包括级联降噪网络和解码器的动作序列生成模型实现对虚拟对象动作的准确推理，提高所生成的虚拟对象动作的准确度。

在一个实施例中，级联降噪网络通过训练步骤得到，训练步骤包括：

获取多个训练样本；

针对于多个训练样本中每一个训练样本，根据所针对的训练样本中的样本描述文本和动作序列，对初始降噪网络进行训练，获得级联降噪网络。

其中，训练样本是指用于训练级联降噪网络的样本，每个训练样本中包括样本描述文本和动作序列，训练样本中的样本描述文本用于对训练样本中的动作序列进行描述，即训练样本中的样本描述文本与动作序列对应。与动作描述文本相同，样本描述文本也可以包括动作类别、运动路径、动作风格等信息。动作序列是由多个动作组成的序列，该多个动作与样本描述文本所描述的虚拟对象动作对应。比如，该多个动作具体可以为虚拟对象向前走、向右转一圈过程中的至少两个动作。需要说明的是，动作序列中的动作数量可按照实际应用场景进行配置。初始降噪网络是指未进行参数训练的降噪网络，通过对初始降噪网络进行训练，即可获得级联降噪网络。

具体的，服务器会获取多个训练样本，针对于多个训练样本中每一个训练样本，根据所针对的训练样本中的样本描述文本和动作序列，对初始降噪网络进行训练，获得级联降噪网络。在具体的应用中，初始降噪网络包括级联的多个初始降噪器，对初始降噪网络进行训练，也就是对级联的多个初始降噪器进行训练，使得多个初始降噪器在经过训练之后具备预测噪声的能力，进而可以利用预训练好的级联降噪网络来对采样噪声信号进行降噪处理，以生成级联降噪后的动作特征向量。

本实施例中，通过获取多个训练样本，能够利用每个训练样本中的样本描述文本和动作序列，对初始降噪网络进行训练，实现对级联降噪网络的获取，从而可以利用级联降噪网络进行降噪处理，以实现对虚拟对象动作的准确推理，提高所生成的虚拟对象动作的准确度。

在一个实施例中，根据所针对的训练样本中的样本描述文本和动作序列，对初始降噪网络进行训练，获得级联降噪网络包括：

对所针对的训练样本中的样本描述文本进行语义层次化解析，得到多个语义层级的样本描述信息；

对多个语义层级的样本描述信息进行编码，得到多个语义层级各自的样本描述表征；

基于多个语义层级各自的样本描述表征和所针对的训练样本中的动作序列，对初始降噪网络进行训练，得到级联降噪网络。

具体的，服务器会基于语义角色解析来对所针对的训练样本中的样本描述文本进行语义层次化解析，得到多个语义层级的样本描述信息，分别对多个语义层级中每个语义层级的各样本描述信息进行编码，得到各样本描述信息的第四特征向量，再基于各样本描述信息的第四特征向量，得到多个语义层级各自的样本描述表征，基于多个语义层级各自的样本描述表征和所针对的训练样本中的动作序列，对初始降噪网络进行训练，得到级联降噪网络。其中，为了方便进行训练和处理，所针对的训练样本中的动作序列可以序列化的数据。

在具体的应用中，服务器可以通过预训练的用于文本特征提取的自然语言模型，分别对多个语义层级中每个语义层级的各样本描述信息进行编码，得到各样本描述信息的第四特征向量，通过对同一语义层级的样本描述信息的第四特征向量进行拼接，得到多个语义层级各自的样本描述表征。其中，预训练的用于文本特征提取的自然语言模型可按照实际应用场景进行训练。

本实施例中，能够在通过进行语义层次化解析和编码得到多个语义层级各自的样本描述表征的基础上，利用样本描述表征和所针对的训练样本中的动作序列，对初始降噪网络进行训练，实现对级联降噪网络的获取，从而可以利用级联降噪网络进行降噪处理，以实现对虚拟对象动作的准确推理，提高所生成的虚拟对象动作的准确度。

在一个实施例中，基于多个语义层级各自的样本描述表征和所针对的训练样本中的动作序列，对初始降噪网络进行训练，得到级联降噪网络包括：

对所针对的训练样本中的动作序列分别进行多个编码层级的动作编码，得到与多个语义层级各自相应的隐式动作表征；

基于多个语义层级各自的样本描述表征和与多个语义层级各自相应的隐式动作表征，对初始降噪网络进行训练，得到级联降噪网络。

其中，多个编码层级中每个编码层级都用于对所针对的训练样本中的动作序列进行动作编码，不同编码层级在对动作序列进行动作编码时的编码维度不相同，通过这种方式，能够得到多个维度的隐式动作表征。隐式动作表征可以理解为表征动作序列的隐式动作编码向量。

具体的，在多个编码层级中每个编码层级，服务器会通过对所针对的训练样本中动作序列进行编码-解码的方式，来学习动作表征，获得该编码层级的隐式动作表征，在得到多个编码层级的隐式动作表征的情况下，将多个编码层级的隐式动作表征，分别作为与多个语义层级各自相应的隐式动作表征。在得到与多个语义层级各自相应的隐式动作表征后，服务器会利用多个语义层级各自的样本描述表征和与多个语义层级各自相应的隐式动作表征，对初始降噪网络进行训练，得到级联降噪网络。

本实施例中，通过对动作序列分别进行多个编码层级的动作编码，能够得到多个语义层级各自相应的隐式动作表征，进而可以利用多个语义层级各自相应的隐式动作表征和样本描述表征，从多个语义层级的角度对初始降噪网络进行训练，能够得到可以实现细粒度降噪的级联降噪网络。

在一个实施例中，多个编码层级与多个语义层级一一对应；多个编码层级中每一编码层级的编码维度逐编码层级递增；对所针对的训练样本中的动作序列分别进行多个编码层级的动作编码，得到与多个语义层级各自相应的隐式动作表征包括：

对所针对的训练样本中的动作序列分别进行多个编码层级的动作编码，得到多个编码层级各自的运动隐空间特征；

分别对多个编码层级各自的运动隐空间特征进行解码，得到与多个语义层级各自相应的隐式动作表征。

其中，运动隐空间特征是指将所针对的训练样本中的动作序列映射到隐空间后得到的特征。隐空间是压缩数据的一个表示，它的作用是为了找到模式而学习数据特征并且简化数据表示，通过将数据映射到隐空间能够降低数据的维度。

具体的，多个编码层级与多个语义层级是一一对应的，且多个编码层级中每一编码层级的编码维度逐编码层级递增，即所得到的运动隐空间特征的特征维度也是逐编码层级递增的。针对于多个编码层级中每个编码层级，服务器会以所针对的编码层级的编码维度对所针对的训练样本中的动作序列进行动作编码，得到所针对的编码层级的运动隐空间特征，再对所针对的编码层级的运动隐空间特征进行解码，得到与所针对的编码层级相应的隐式动作表征，将与所针对的编码层级相应的隐式动作表征，作为与所针对的编码层级相对应的语义层级相应的隐式动作表征。

在具体的应用中，动作序列可以为序列化数据，运动隐空间特征可以为动作序列相应的动作特征数据分布，通过对动作特征数据分布进行采样，可以得到动作序列相应的动作特征采样点，进而可以通过对动作特征采样点进行解码，来得到与所针对的编码层级相应的隐式动作表征。

在一个具体的应用中，所得到的动作特征数据分布包括均值和方差，在此基础上，服务器可以从标准正态分布中随机采样样本点，再利用重参数化技巧，基于均值和方差以及随机采样的样本点，得到动作序列相应的动作特征采样点。其中，重参数化技巧的原理为如果z是遵循均值g（x）与协方差h（x）的高斯分布的随机变量，则z可以表示为

在一个具体的应用中，可以利用预训练的变分自编码器来实现本实施例中的先编码再采样最后解码的步骤，针对于多个编码层级中每个编码层级，可以将所针对的训练样本中的动作序列输入预训练的变分自编码器，来得到与所针对的编码层级相应的隐式动作表征。

在一个具体的应用中，变分自编码器可以定义为一种自编码器，其训练经过正规化以避免过度拟合，并确保隐空间具有能够进行数据生成过程的良好属性。就像标准自编码器一样，变分自编码器是一种由编码器和解码器组成的结构，经过训练以使编码解码后的数据与初始数据之间的重构误差最小。但是，为了引入隐空间的某些正则化，在变分自编码器中对编码-解码过程进行了一些修改：不是将输入编码为隐空间中的单个点，而是将其编码为隐空间中的概率分布。变分自编码器的训练过程为：首先，将输入编码为在隐空间上的分布，第二，从该分布中采样隐空间中的一个点，第三，对采样点进行解码并计算出重建误差，最后，重建误差通过网络反向传播。

本实施例中，通过对动作序列分别进行多个编码层级的动作编码，能够得到与多个语义层级各自相应的隐式动作表征，实现对动作序列的隐式表征，进而可以利用多个语义层级各自相应的隐式动作表征和样本描述表征，从多个语义层级的角度对初始降噪网络进行训练，能够得到可以实现细粒度降噪的级联降噪网络。

在一个实施例中，初始降噪网络包括级联的多个初始降噪器；且每个初始降噪器分别与一个语义层级相对应；

基于多个语义层级各自的样本描述表征和与多个语义层级各自相应的隐式动作表征，对初始降噪网络进行训练，得到级联降噪网络包括：

针对于多个初始降噪器中每一个初始降噪器，基于从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，以及目标语义层级相应的隐式动作表征，对所针对的初始降噪器进行训练，得到已训练降噪器；

根据多个初始降噪器各自相应的已训练降噪器，得到级联降噪网络。

具体的，初始降噪网络包括级联的多个初始降噪器，且每个初始降噪器分别与一个语义层级相对应，在对初始降噪网络进行训练时，针对于多个初始降噪器中每一个初始降噪器，服务器会基于从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，以及目标语义层级相应的隐式动作表征，对所针对的初始降噪器进行训练，得到已训练降噪器，根据多个初始降噪器各自相应的已训练降噪器，得到级联降噪网络。

在具体的应用中，在对所针对的初始降噪器进行训练时，服务器会先对所针对的初始降噪器相对应的目标语义层级相应的隐式动作表征进行加噪处理，再以从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征为条件，利用所针对的初始降噪器对加噪处理过程中所添加的噪声进行预测，以通过比对加噪处理实际添加的噪声和所针对的初始降噪器所预测的加噪处理过程中所添加的噪声，来对所针对的初始降噪器进行参数调整，以使得所针对的初始降噪器能够实现准确的噪声预测，以便在推理阶段能够利用所针对的初始降噪器实现准确噪声预测，从而利用所预测出的噪声进行降噪处理。

本实施例中，针对于多个初始降噪器中每一个初始降噪器，通过基于从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，以及目标语义层级相应的隐式动作表征，对所针对的初始降噪器进行训练，能够得到已训练降噪器，进而可以根据多个初始降噪器各自相应的已训练降噪器，得到级联降噪网络。

在一个实施例中，针对于多个初始降噪器中每一个初始降噪器，基于从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，以及目标语义层级相应的隐式动作表征，对所针对的初始降噪器进行训练，得到已训练降噪器包括：

获取用于添加噪声的加噪步数，并采样随机噪声信号；

根据加噪步数，将随机噪声信号添加至目标语义层级相应的隐式动作表征，得到噪声动作表征；

将噪声动作表征、加噪步数以及从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，输入所针对的初始降噪器，通过所针对的初始降噪器对所添加的噪声进行预测，得到第二预测添加噪声；

根据第二预测添加噪声对所针对的初始降噪器进行参数调整，得到已训练降噪器。

具体的，针对于多个初始降噪器中每一个初始降噪器，在对所针对的初始降噪器进行训练时，服务器会先获取用于添加噪声的加噪步数，并采样随机噪声信号，根据加噪步数，将随机噪声信号逐步添加至目标语义层级相应的隐式动作表征，得到噪声动作表征，将噪声动作表征、加噪步数以及从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征输入所针对的初始降噪器，以通过所针对的初始降噪器对所添加的噪声进行预测，得到第二预测添加噪声，最后根据第二预测添加噪声对所针对的初始降噪器进行参数调整，得到已训练降噪器。

在具体的应用中，用于添加噪声的加噪步数可按照实际应用场景进行配置，本实施例在此处不做限定。需要说明的是，加噪步数越大，所得到的噪声动作表征就越接近高斯分布，因此可以将添加随机噪声信号之后得到的噪声动作表征看作是高斯噪声，本实施例中，相当于通过对所针对的初始降噪器相对应的目标语义层级相应的隐式动作表征按照加噪步数逐步施加采样的随机噪声信号，使该隐式动作表征被破坏变成完全的高斯噪声，再在逆向阶段利用所针对的初始降噪器学习从高斯噪声还原为所针对的初始降噪器相对应的目标语义层级相应的隐式动作表征的过程。

在一个具体的应用中，本实施例中的对所针对的初始降噪器进行训练，得到已训练降噪器是基于扩散模型实现的，扩散模型是一类生成模型，通过马尔可夫加噪过程来学习噪声预测，以最终实现将高斯噪声分布转换到目标数据分布。和其他生成网络不同的是，扩散模型是在前项阶段对样本逐步施加噪声，直至样本被破坏变成完全的高斯噪声，然后在逆向阶段学习从高斯噪声还原为原始样本的过程。

本实施例中，样本是指所针对的初始降噪器相对应的目标语义层级相应的隐式动作表征，逐步施加噪声是指根据加噪步数逐步施加采样的随机噪声信号，高斯噪声是指噪声动作表征，逆向阶段学习是指将噪声动作表征、加噪步数以及从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，输入所针对的初始降噪器，通过所针对的初始降噪器对所添加的噪声进行预测，得到第二预测添加噪声。

在具体的应用中，服务器会比对第二预测添加噪声和随机噪声信号，得到预测噪声误差，当预测噪声误差大于误差阈值，则根据预测噪声误差对所针对的初始降噪器进行参数调整，并对参数调整后的初始降噪器继续进行训练，直到计算得到的预测噪声误差小于或者等于误差阈值为止，得到已训练降噪器。其中，误差阈值可按照实际应用场景进行配置。

本实施例中，通过获取用于添加噪声的加噪步数，并采样随机噪声信号，能够利用加噪步数，将随机噪声信号添加至目标语义层级相应的隐式动作表征，实现加噪过程，得到噪声动作表征，进而可以将噪声动作表征、加噪步数以及从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，输入所针对的初始降噪器，通过所针对的初始降噪器对所添加的噪声进行预测，来学习噪声预测，得到第二预测添加噪声，从而可以根据第二预测添加噪声对所针对的初始降噪器进行参数调整，得到已训练降噪器，实现对初始降噪器的训练。

在一个实施例中，将噪声动作表征、加噪步数以及从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，输入所针对的初始降噪器，通过所针对的初始降噪器对所添加的噪声进行预测，得到第二预测添加噪声包括：

当所针对的初始降噪器存在串联的上一级降噪器，将噪声动作表征、加噪步数、从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征以及上一级降噪器输出的重构动作表征，输入所针对的初始降噪器，通过所针对的初始降噪器对所添加的噪声进行预测，得到第二预测添加噪声。

具体的，在对所针对的初始降噪器进行训练的过程中，当所针对的初始降噪器存在串联的上一级降噪器，服务器会将噪声动作表征、加噪步数、从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征以及上一级降噪器输出的重构动作表征，输入所针对的初始降噪器，通过所针对的初始降噪器对所添加的噪声进行预测，得到第二预测添加噪声。在具体的应用中，上一级降噪器输出的重构动作表征，是指上一级降噪器，在基于输入到它的数据对所添加的噪声进行预测，并基于预测得到的噪声对所输入的噪声动作表征进行降噪处理后，所重构出的与加噪之前的隐式动作表征相应的表征，即通过学习噪声预测从噪声动作表征中还原出的动作表征。

本实施例中，当所针对的初始降噪器存在串联的上一级降噪器，将噪声动作表征、加噪步数、从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征以及上一级降噪器输出的重构动作表征，输入所针对的初始降噪器，通过所针对的初始降噪器对所添加的噪声进行预测，能够结合上一级降噪器输出的重构动作表征来学习噪声预测，能够提高噪声预测的准确度，得到第二预测添加噪声。

本申请提出了一种基于层次化语义的精细化可控文本驱动虚拟对象（具体可以为虚拟人物）动作生成方法，该精细化可控文本驱动虚拟对象动作生成方法接收一段对虚拟对象动作的动作描述文本作为输入，根据动作描述文本中所指定的动作类别，运动路径，动作风格等信息，合成相应的虚拟对象动作，该虚拟对象动作具体可以为3D虚拟对象骨骼或网格序列。与传统方法相比，发明人认为，本申请提出的方案，将输入文本解析为一种新的控制信号，即多个语义层级的动作描述信息，以多个语义层级的动作描述信息作为细粒度的控制信号，通过捕捉多个语义层级的动作特征来细化生成虚拟对象动作，提高了所生成的虚拟对象动作的准确度。

具体来说，本申请中的多个语义层级包括整体运动层级、局部动作层级以及动作细节层级，相对应的，文本到运动的生成过程也分解为三个语义级别，分别对应于捕获整体运动、局部动作和动作细节。与传统方法相比，本申请的方法具有更好的可控性，能够合成高质量的虚拟对象动作，该虚拟对象动作具体可以为动作序列。

发明人认为，目前的文本驱动人体运动生成方法可以总结为两大类方法，一种是基于联合编码的方法，另一种是基于扩散模型的方法。基于联合编码的方法通常学习一个运动变分自编码器和一个文本变分自编码器。然后，这类方法使用KL散度将文本和运动编码器约束到一个共享的隐式空间。基于扩散模型的方法将条件扩散模型用于人体运动生成，以学习从文本描述符到人体运动序列的鲁棒概率映射。以上两种方法都依赖于文本的全局表征，并直接学习从具有高级语言的全局文本表征到运动序列的映射。

然而，传统方法直接使用神经网络自动和隐式地提取文本特征，可能会过度强调文本中某些细节而忽略其他重要的信息，这使得网络对输入文本的细微变化不敏感，缺乏细粒度的可控性。此外，传统方法不能很好的生成动作细节。一方面，一段动作的文本描述经常涉及多个动作和属性。然而，目前的方法所提取的全局文本表征通常无法传达充分理解文本所需的清晰度和细节，导致无法有效指导运动细节的合成。另一方面，现有方法直接从具有高级语言的全局文本表征到运动序列的直接映射进一步阻碍了动作细节的生成。

基于此，本申请提出了一种基于层次化语义的精细化可控文本驱动虚拟对象动作生成方法，利用动作描述文本具有层次结构的特点，对动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，将多个语义层级的动作描述信息作为一种细粒度的信号来进行可控运动生成。具体来说，动作描述文本这个句子描述了包含多个动作的整体运动，并且整体运动由若干局部动作组成，且每个局部动作都由充当其属性的不同动作细节组成，例如动作的移动方向和速度，这种全局到局部的结构有助于对动作描述进行可靠和全面的理解，以实现对虚拟对象动作的细粒度控制。

在一个实施例中，以基于通过多个语义层级的动作描述信息所构建的层次语义图对虚拟对象动作生成的细粒度控制，且多个语义层级包括整体运动层级、局部动作层级以及动作细节层级为例，对本申请的虚拟对象动作生成方法进行说明。

具体的，本申请的虚拟对象动作生成方法的整体框架如图13所示，主要包括两个核心组件：图推理模块以及从粗到细动作序列生成模块。对于用于描述虚拟对象动作的动作描述文本，服务器会基于语义角色解析工具提取动作描述文本中出现的至少一个动词和与至少一个动词各自相应的属性短语，并确定每个属性短语的语义角色，得到多个语义层级的动作描述信息。在得到多个语义层级的动作描述信息后，服务器会将动作描述文本作为层次语义图中整体运动层级的整体运动节点，将至少一个动词分别作为层次语义图中局部动作层级的局部动作节点，并以直接边连接到整体运动节点。同时，服务器还会将与至少一个动词各自相应的属性短语，分别作为与相应的局部动作节点连接的动作细节层级的动作细节节点。随后，服务器会利用预训练的文本编码器，将动作描述文本、至少一个动词以及与至少一个动词各自相应的属性短语分别编码为相应语义节点的节点表征。

在图推理模块中，服务器使用预训练的图注意力网络构建层次语义图中不同层次的交互，其目的是减少每个语义节点上的歧义。例如，动词“捡”可以在没有上下文的情况下表示不同的动作，而属性短语“使用双手”消除了这个动词可能的歧义，所以这个动作应该是“用双手捡起”，而不是“使用一只手捡起”。因此，使用预训练的图注意力网络对层次语义图中的交互进行推理，可以获得三个层级的文本表征，即多个语义层级各自的动作描述表征，分别负责捕捉整体运动的控制信息、局部动作的控制信息和动作细节控制信息。

在具体的应用中，通过图注意力网络可以利用图注意力机制，来更新层次语义图中各语义节点的节点表征，在得到更新后的各语义节点的节点表征后，服务器会将更新后的各语义节点的节点表征，分别作为各动作描述信息的第二特征向量，对同一语义层级的动作描述信息的第二特征向量进行拼接，得到多个语义层级各自的动作描述表征。

在从粗到细动作序列生成模块中，我们将文本到动作的生成过程从粗到细分解为三个语义级别，分别负责捕捉整体运动、局部动作和动作细节。

首先，在训练阶段，服务器会先构建三个层级的动作编码器。即服务器会在三个语义层级上分别训练一个动作自编码器，通过编码-解码的方式实现动作表征学习，得到每个语义层级上的隐式动作表征z。以整体运动上的动作表征学习为例，动作自编码器包含编码器

随后，在训练阶段还设计了层次化的运动生成模块，其以扩散模型为基础生成动作序列。相较于其他生成式框架，扩散模型是一种基于热力学随机扩散过程的生成模型。这个过程包括从数据分布中逐渐向样本中添加噪声的前向过程，和训练神经网络通过逐渐去除噪声来逆转前向过程的后向过程。在前向过程中，隐式空间中的加噪过程定义为

本实施例中在训练阶段串联了三个语义层级上的降噪器

在具体的应用中，在应用阶段，在整体运动层级，我们只使用整体运动节点的特征（即整体运动层级的动作描述表征

在一个实施例中，表1和表2分别给出了本申请在HumanML3D和KIT-ML数据集上的定量实验结果，其中最佳的结果均为本申请的方法。在表1和表2中与本申请的方法相比较的方法包括：Real motion（真实运动）、Seq2Seq（序列到序列）、Language2Pose（联合语言姿势）、Text2Gesture（文本-手势）、Hier（多层注意力模型）、MoCoGAN（用于视频生成的模型）、Dance2Music（舞蹈-音乐模型）、TM2T（一种生成人体运动的模型）、T2M（文本生成动画）、MDM（人体动作扩散模型）、MLD（运动潜伏扩散）等。

目前，跨模态生成任务中广泛采用五个评估指标：R-Precision（反映检索中的文本-运动匹配精度），FID（Frechet Inception Distance，用来计算真实图像与生成图像的特征向量间距离的一种度量），MM Dist（Multi-Modal Distance，多模态距离），Diversity（多样性，定义为生成的运动在所有文本描述中的运动特征向量的方差，反映了一组不同描述合成的运动的多样性）和MModality（Multi-modality，多模态度量在每个文本描述中生成的运动的多样性，反映了特定描述合成运动的多样性）。

在这五个量化指标中，R-Precision，FID和MM Dist主要反映了生成的3D人体动作与真实动作相比的逼真程度；Diversity和MModality主要反应了所生成的3D人体动作的多样化程度。表1和表2中的结果表明，本申请在两大主流数据集上在生成结果的逼真度和多样性方面均超越了现有的方法，达到了最佳性能。

表1 不同方法在HumanML3D数据集上的定量对比

表2 不同方法在KIT-ML数据集上的定量对比

发明人认为，与传统方法相比，本申请的方案具有两个显著优势，一是语义空间的显式分解与表征使本申请的方案能够在文本数据和运动序列之间建立细粒度的对应关系，从而避免了不同文本成分的不平衡学习和粗粒度控制信号表示。二是层次细化的动作序列生成将生成的结果从粗到细逐步增强，避免了生成的结果粒度太粗，保证模型生成质量的同时也提高了结果的多样化表现。

在一个实施例中，为了进一步微调生成的虚拟对象动作以实现更细粒度的控制，本申请的方案还可以通过修改层次语义图的边权重来不断改进生成的虚拟对象动作，以生成更符合需求的虚拟对象动作。

具体的，在得到所述虚拟对象动作的情况下，服务器会响应于对层次语义图中连接各语义节点的连接边的边权重调整事件，对边权重调整事件所指示的连接边的边权重进行调整，得到更新的层次语义图，利用图注意力机制，更新更新的层次语义图中各语义节点的节点表征，根据更新后的各语义节点的节点表征，得到各动作描述信息的第三特征向量，对同一语义层级的动作描述信息的第三特征向量进行拼接，得到多个语义层级各自的更新后动作描述表征，基于多个语义层级各自的更新后动作描述表征，生成调整后虚拟对象动作。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的虚拟对象动作生成方法的虚拟对象动作生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个虚拟对象动作生成装置实施例中的具体限定可以参见上文中对于虚拟对象动作生成方法的限定，在此不再赘述。

在一个实施例中，如图14所示，提供了一种虚拟对象动作生成装置，包括：获取模块1402、语义解析模块1404、编码模块1406、第一降噪处理模块1408、第二降噪处理模块1410和解码模块1412，其中：

获取模块1402，用于获取用于描述虚拟对象动作的动作描述文本；

语义解析模块1404，用于对所述动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成所述虚拟对象动作的采样噪声信号；

编码模块1406，用于对所述多个语义层级的动作描述信息进行编码，得到所述多个语义层级各自的动作描述表征；

第一降噪处理模块1408，用于基于首个语义层级的动作描述表征，对所述采样噪声信号进行所述首个语义层级的降噪处理，得到所述首个语义层级输出的动作特征向量；

第二降噪处理模块1410，用于在所述首个语义层级之后的每一语义层级，基于上一语义层级输出的动作特征向量和从所述首个语义层级到本语义层级各自的动作描述表征，对所述采样噪声信号进行降噪处理，得到级联降噪后的动作特征向量；其中，每个语义层级的降噪处理输出的动作特征向量的粒度级逐语义层级递减；

解码模块1412，用于对所述级联降噪后的动作特征向量进行解码，得到所述虚拟对象动作。

上述虚拟对象动作生成装置，获取用于描述虚拟对象动作的动作描述文本，对动作描述文本进行语义层次化解析，得到多个语义层级的动作描述信息，并获取用于生成虚拟对象动作的采样噪声信号，对多个语义层级的动作描述信息进行编码，能够得到多个语义层级各自的动作描述表征，基于首个语义层级的动作描述表征，对采样噪声信号进行首个语义层级的降噪处理，能够得到首个语义层级输出的动作特征向量，在首个语义层级之后的每一语义层级，以上一语义层级输出的动作特征向量和从首个语义层级到本语义层级各自的动作描述表征作为联合条件，对采样噪声信号进行降噪处理，能够利用多个语义层级各自的动作描述表征来逐渐丰富细粒度的运动细节，得到更细粒度的、准确表征虚拟对象动作的级联降噪后的动作特征向量，进而可以通过对级联降噪后的动作特征向量进行解码，得到虚拟对象动作。整个过程，能够以多个语义层级的动作描述信息作为细粒度的控制信号，通过捕捉多个语义层级的动作特征来细化生成虚拟对象动作，提高了所生成的虚拟对象动作的准确度。

在一个实施例中，多个语义层级包括整体运动层级、局部动作层级以及动作细节层级；语义解析模块还用于将动作描述文本作为整体运动层级的动作描述信息，并从动作描述文本中提取出至少一个动词和与至少一个动词各自相应的属性短语，将至少一个动词作为局部动作层级的动作描述信息，并将与至少一个动词各自相应的属性短语，作为动作细节层级的动作描述信息。

在一个实施例中，编码模块还用于分别对多个语义层级中每个语义层级的各动作描述信息进行编码，得到各动作描述信息的第一特征向量，基于至少一对不同语义层级之间的动作描述信息之间的语义关联关系，对各动作描述信息的第一特征向量进行基于注意力机制的更新处理，得到各动作描述信息的第二特征向量，对同一语义层级的动作描述信息的第二特征向量进行拼接，得到多个语义层级各自的动作描述表征。

在一个实施例中，编码模块还用于分别将各动作描述信息作为语义节点，并基于至少一对不同语义层级之间的动作描述信息之间的语义关联关系，确定连接各语义节点的连接边，将各动作描述信息的第一特征向量，分别作为各语义节点的节点表征，根据各语义节点、连接各语义节点的连接边以及各语义节点的节点表征，构建层次语义图，利用图注意力机制，更新层次语义图中各语义节点的节点表征，根据更新后的各语义节点的节点表征，得到各动作描述信息的第二特征向量。

在一个实施例中，编码模块还用于针对层次语义图中每个语义节点，确定所针对的语义节点的至少一个相邻节点，对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行基于图注意力机制的交互处理，确定至少一个相邻节点以及所针对的语义节点的注意力权重系数，根据注意力权重系数，对至少一个相邻节点的节点表征和所针对的语义节点的节点表征进行加权求和，得到更新后的所针对的语义节点的节点表征。

在一个实施例中，虚拟对象动作生成装置还包括调整模块，调整模块用于在得到虚拟对象动作的情况下，响应于对层次语义图中连接各语义节点的连接边的边权重调整事件，对边权重调整事件所指示的连接边的边权重进行调整，得到更新的层次语义图，利用图注意力机制，更新更新的层次语义图中各语义节点的节点表征，根据更新后的各语义节点的节点表征，得到各动作描述信息的第三特征向量，对同一语义层级的动作描述信息的第三特征向量进行拼接，得到多个语义层级各自的更新后动作描述表征，基于多个语义层级各自的更新后动作描述表征，生成调整后虚拟对象动作。

在一个实施例中，第一降噪处理模块还用于将采样噪声信号作为经过多步加噪的噪声信号，从多步加噪的最后一步开始，基于首个语义层级的动作描述表征，对每一步输入的噪声信号进行逆向的降噪处理，将对首步输入的噪声信号进行降噪处理所得到的降噪信号，作为首个语义层级输出的动作特征向量。

在一个实施例中，第一降噪处理模块，用于对所针对的加噪步进行编码，得到加噪步特征，对首个语义层级的动作描述表征和加噪步特征进行融合，得到降噪条件特征，根据降噪条件特征，对所针对的加噪步输入的噪声信号进行降噪处理，得到降噪信号。

在一个实施例中，第一降噪处理模块，用于根据降噪条件特征和所针对的加噪步输入的噪声信号，对所针对的加噪步相应的添加噪声进行预测，得到所针对的加噪步相应的第一预测添加噪声，根据第一预测添加噪声，对所针对的加噪步输入的噪声信号进行降噪处理，得到降噪信号。

在一个实施例中，虚拟对象动作生成装置还包括训练模块，训练模块用于获取多个训练样本，针对于多个训练样本中每一个训练样本，根据所针对的训练样本中的样本描述文本和动作序列，对初始降噪网络进行训练，获得级联降噪网络。

在一个实施例中，训练模块还用于对所针对的训练样本中的样本描述文本进行语义层次化解析，得到多个语义层级的样本描述信息，对多个语义层级的样本描述信息进行编码，得到多个语义层级各自的样本描述表征，基于多个语义层级各自的样本描述表征和所针对的训练样本中的动作序列，对初始降噪网络进行训练，得到级联降噪网络。

在一个实施例中，训练模块还用于对所针对的训练样本中的动作序列分别进行多个编码层级的动作编码，得到与多个语义层级各自相应的隐式动作表征，基于多个语义层级各自的样本描述表征和与多个语义层级各自相应的隐式动作表征，对初始降噪网络进行训练，得到级联降噪网络。

在一个实施例中，多个编码层级与多个语义层级一一对应；多个编码层级中每一编码层级的编码维度逐编码层级递增；训练模块还用于对所针对的训练样本中的动作序列分别进行多个编码层级的动作编码，得到多个编码层级各自的运动隐空间特征，分别对多个编码层级各自的运动隐空间特征进行解码，得到与多个语义层级各自相应的隐式动作表征。

在一个实施例中，初始降噪网络包括级联的多个初始降噪器；且每个初始降噪器分别与一个语义层级相对应；训练模块还用于针对于多个初始降噪器中每一个初始降噪器，基于从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，以及目标语义层级相应的隐式动作表征，对所针对的初始降噪器进行训练，得到已训练降噪器，根据多个初始降噪器各自相应的已训练降噪器，得到级联降噪网络。

在一个实施例中，训练模块还用于获取用于添加噪声的加噪步数，并采样随机噪声信号，根据加噪步数，将随机噪声信号添加至目标语义层级相应的隐式动作表征，得到噪声动作表征，将噪声动作表征、加噪步数以及从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征，输入所针对的初始降噪器，通过所针对的初始降噪器对所添加的噪声进行预测，得到第二预测添加噪声，根据第二预测添加噪声对所针对的初始降噪器进行参数调整，得到已训练降噪器。

在一个实施例中，训练模块还用于当所针对的初始降噪器存在串联的上一级降噪器，将噪声动作表征、加噪步数、从首个语义层级到所针对的初始降噪器相对应的目标语义层级的样本描述表征以及上一级降噪器输出的重构动作表征，输入所针对的初始降噪器，通过所针对的初始降噪器对所添加的噪声进行预测，得到第二预测添加噪声。

上述虚拟对象动作生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，也可以是终端，以该计算机设备是服务器为例，其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种虚拟对象动作生成方法。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：伍洋;金鹏;樊艳波;孙钟前;杨巍;
专利申请人：腾讯科技（深圳）有限公司;