掌桥专利:专业的专利平台
掌桥专利
首页

基于多模态数据的数字人驱动方法及系统

文献发布时间:2024-04-18 20:00:50


基于多模态数据的数字人驱动方法及系统

技术领域

本申请涉及数字人领域,且更为具体地,涉及一种基于多模态数据的数字人驱动方法及系统。

背景技术

数字人是一种基于计算机图形学和人工智能技术的虚拟角色,可以模拟真实人类的外貌、动作和表情,广泛用于虚拟角色、人机交互、游戏、动画制作等领域,使得用户能够与虚拟角色进行更加自然和沉浸式的交互。

数字人驱动是指根据用户的输入数据来控制数字人的表情和动作的过程。目前,数字人驱动的方法主要有两种:基于传感器的方法和基于多模态数据的方法。基于传感器的方法需要用户佩戴特殊的设备,如面部捕捉仪、骨骼追踪仪等,来捕捉用户的面部和身体的运动信息,然后将这些信息映射到数字人上。这种方法所采用的设备成本较高、佩戴不便且易受环境干扰。基于多模态数据的方法则是利用用户的语音、面部表情图像、文本等多种数据来驱动数字人,无需用户佩戴任何设备,只需要用户对着摄像头说话或者输入文本即可。这种方法虽然可以实现低成本、易用、适应性强的数字人驱动,但是也存在一些挑战,例如,由于语音和面部表情是不同的模态,它们之间存在一定的差异和复杂性,因此如何有效利用多模态的数据信息来优化面部表情的识别精准度,以便于更为精准地驱动数字人是一个重要的问题。

因此,期望一种优化的基于多模态数据的数字人驱动方案。

发明内容

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于多模态数据的数字人驱动方法及系统,其通过采集用户语音数据和面部表情图像,并在后端引入语义理解和图像处理算法来进行用于语音和面部表情的分析和识别,以此利用多模态数据来进行用户面部表情的识别判断,并实现数字人的驱动。这样,能够基于用户语音和面部表情图像来优化面部表情的识别精准度,使得数字人能够更加准确地模仿和响应用户的语音和面部表情,提高数字人驱动的精准度,从而实现更加自然和真实的交互体验。

根据本申请的一个方面,提供了一种基于多模态数据的数字人驱动方法,其包括:

获取用户语音数据和面部表情图像;

对所述用户语音数据进行语音识别以得到用户语音文本;

对所述用户语音文本进行语义识别和理解以得到用户语音文本词粒度语义特征向量的序列;

通过基于深度神经网络模型的面部表情特征提取器对所述面部表情图像进行特征提取以得到面部表情特征图;

对所述面部表情特征图进行通道特征显化处理以得到面部表情局部特征向量的序列;

对所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行跨模态逐粒度交互融合分析以得到多模态全局面部语义特征;

基于所述多模态全局面部语义特征,确定面部表情标签,并将所述面部表情标签映射至数字人。

根据本申请的另一个方面,提供了一种基于多模态数据的数字人驱动系统,其包括:

信息获取模块,用于获取用户语音数据和面部表情图像;

语音识别模块,用于对所述用户语音数据进行语音识别以得到用户语音文本;

语义理解模块,用于对所述用户语音文本进行语义识别和理解以得到用户语音文本词粒度语义特征向量的序列;

面部表情特征提取模块,用于通过基于深度神经网络模型的面部表情特征提取器对所述面部表情图像进行特征提取以得到面部表情特征图;

通道特征显化模块,用于对所述面部表情特征图进行通道特征显化处理以得到面部表情局部特征向量的序列;

跨模态逐粒度交互融合分析模块,用于对所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行跨模态逐粒度交互融合分析以得到多模态全局面部语义特征;

结果生成模块,用于基于所述多模态全局面部语义特征,确定面部表情标签,并将所述面部表情标签映射至数字人。

与现有技术相比,本申请提供的一种基于多模态数据的数字人驱动方法及系统,其通过采集用户语音数据和面部表情图像,并在后端引入语义理解和图像处理算法来进行用于语音和面部表情的分析和识别,以此利用多模态数据来进行用户面部表情的识别判断,并实现数字人的驱动。这样,能够基于用户语音和面部表情图像来优化面部表情的识别精准度,使得数字人能够更加准确地模仿和响应用户的语音和面部表情,提高数字人驱动的精准度,从而实现更加自然和真实的交互体验。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于多模态数据的数字人驱动方法的流程图;

图2为根据本申请实施例的基于多模态数据的数字人驱动方法的系统架构图;

图3为根据本申请实施例的基于多模态数据的数字人驱动方法的子步骤S5的流程图;

图4为根据本申请实施例的基于多模态数据的数字人驱动方法的子步骤S7的流程图;

图5为根据本申请实施例的基于多模态数据的数字人驱动系统的框图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

目前,数字人驱动的方法主要有两种:基于传感器的方法和基于多模态数据的方法。基于传感器的方法需要用户佩戴特殊的设备,如面部捕捉仪、骨骼追踪仪等,来捕捉用户的面部和身体的运动信息,然后将这些信息映射到数字人上。这种方法所采用的设备成本较高、佩戴不便且易受环境干扰。基于多模态数据的方法则是利用用户的语音、面部表情图像、文本等多种数据来驱动数字人,无需用户佩戴任何设备,只需要用户对着摄像头说话或者输入文本即可。这种方法虽然可以实现低成本、易用、适应性强的数字人驱动,但是也存在一些挑战,例如,由于语音和面部表情是不同的模态,它们之间存在一定的差异和复杂性,因此如何有效利用多模态的数据信息来优化面部表情的识别精准度,以便于更为精准地驱动数字人是一个重要的问题。因此,期望一种优化的基于多模态数据的数字人驱动方案。

在本申请的技术方案中,提出了一种基于多模态数据的数字人驱动方法。图1为根据本申请实施例的基于多模态数据的数字人驱动方法的流程图。图2为根据本申请实施例的基于多模态数据的数字人驱动方法的系统架构图。如图1和图2所示,根据本申请的实施例的基于多模态数据的数字人驱动方法,包括步骤:S1,获取用户语音数据和面部表情图像;S2,对所述用户语音数据进行语音识别以得到用户语音文本;S3,对所述用户语音文本进行语义识别和理解以得到用户语音文本词粒度语义特征向量的序列;S4,通过基于深度神经网络模型的面部表情特征提取器对所述面部表情图像进行特征提取以得到面部表情特征图;S5,对所述面部表情特征图进行通道特征显化处理以得到面部表情局部特征向量的序列;S6,对所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行跨模态逐粒度交互融合分析以得到多模态全局面部语义特征;S7,基于所述多模态全局面部语义特征,确定面部表情标签,并将所述面部表情标签映射至数字人。

特别地,所述S1,获取用户语音数据和面部表情图像。在一个示例中,可通过声音传感器来获取所述用户语音数据;以及,通过摄像头来获取所述用户面部表情图像。

特别地,所述S2,对所述用户语音数据进行语音识别以得到用户语音文本。应可以理解,对于用户的语音数据来说,为了能够对其进行语义理解,需要将其转化为文本数据,以便于应用文本语义编码的方式来实现用户语音数据的分析和理解。具体地,在本申请的技术方案中,对所述用户语音数据进行语音识别以得到用户语音文本。也就是说,通过对所述用户语音数据进行语音识别,可以将用户的语音转化为相应的文本表示,方便后续的处理和分析。

特别地,所述S3,对所述用户语音文本进行语义识别和理解以得到用户语音文本词粒度语义特征向量的序列。对于所述用户语音文本来说,文本中包含了大量的语义信息,并且,所述用户语音文本是由各个词语组成的,各个词之间具有着上下文的语义关联关系。因此,为了能够充分地捕捉到所述用户语音文本中基于词粒度的上下文语义关联特征,在本申请的技术方案中,进一步对所述用户语音文本进行分词处理后通过包含词嵌入层的语义编码器以得到用户语音文本词粒度语义特征向量的序列。这样,能够将所述用户语音文本中的每个词语映射为高维语义空间中的向量表示,并捕捉词语之间的语义关联关系和语义信息。具体地,对所述用户语音文本进行分词处理后通过包含词嵌入层的语义编码器以得到用户语音文本词粒度语义特征向量的序列,包括:对所述用户语音文本进行分词处理以将所述用户语音文本转化为由多个词组成的词序列;使用所述包含词嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述用户语音文本词粒度语义特征向量的序列。

特别地,所述S4,通过基于深度神经网络模型的面部表情特征提取器对所述面部表情图像进行特征提取以得到面部表情特征图。也就是,在本申请的技术方案中,使用在图像的隐含特征提取方面具有优异表现性能的基于卷积神经网络模型的面部表情特征提取器对所述面部表情图像进行特征挖掘,以提取出所述面部表情图像中关于用户人脸表情的语义特征信息,从而得到面部表情特征图。特别地,这里,所述基于卷积神经网络模型的面部表情特征提取器能够提取面部表情的形状、纹理和空间分布等特征信息,有助于区分不同的面部表情。具体地,使用所述基于卷积神经网络模型的面部表情特征提取器的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于卷积神经网络模型的面部表情特征提取器的最后一层的输出为所述面部表情特征图,所述基于卷积神经网络模型的面部表情特征提取器的第一层的输入为所述面部表情图像。

值得注意的是,卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习模型,专门用于处理具有网格结构数据(如图像、音频、文本)的任务。卷积神经网络的核心思想是通过卷积操作来提取输入数据中的局部特征,并通过层层堆叠的方式逐渐组合这些特征,最终实现对整体数据的理解和分类。 卷积层:卷积层是CNN的核心组件之一。它通过在输入数据上滑动可学习的滤波器(也称为卷积核)来提取局部特征。卷积操作可以捕捉输入数据中的空间关系,例如图像中的边缘、纹理等;激活函数:在卷积层之后,通常会应用一个非线性激活函数,如ReLU。激活函数引入非线性性质,使得网络能够学习更复杂的特征表示;池化层:池化层用于减小特征图的空间尺寸,同时保留重要的特征。最大池化是常用的池化操作,它在每个区域中选择最大值作为池化结果;全连接层:在卷积层和输出层之间,通常会添加一个或多个全连接层。全连接层将前一层的特征映射转换为一维向量,并通过权重连接到输出层。全连接层的作用是将从图像中提取的特征与任务目标关联起来;损失函数:根据任务类型选择适当的损失函数,用于衡量模型预测与真实标签之间的差异。常见的损失函数包括交叉熵损失、均方误差等;反向传播和优化:通过反向传播算法,计算损失函数对模型参数的梯度,并使用优化算法(如随机梯度下降)来更新模型参数,以最小化损失函数。

特别地,所述S5,对所述面部表情特征图进行通道特征显化处理以得到面部表情局部特征向量的序列。特别地,在本申请的一个具体示例中,如图3所示,所述S5,包括:S51,将所述面部表情特征图通过通道注意力层以得到通道显化面部表情特征图;S52,将所述通道显化面部表情特征图的沿通道维度的各个特征矩阵进行特征展平化以得到所述面部表情局部特征向量的序列。

具体地,所述S51,将所述面部表情特征图通过通道注意力层以得到通道显化面部表情特征图。应可以理解,在进行用户的人脸表情特征分析和识别的过程中,所述面部表情特征图中的每个通道对应着不同的面部表情特征。然而,并非所有的通道都对面部表情的识别和分析有同等重要的贡献。有些通道可能包含噪声或不相关的信息,而其他通道则包含着更具区分性和表达力的面部表情特征。因此,在本申请的技术方案中,进一步将所述面部表情特征图通过通道注意力层以得到通道显化面部表情特征图。通过引入所述通道注意力层,可以自动学习到每个通道的权重,使得重要的通道得到加权增强,而不重要的通道得到抑制。这样可以提高面部表情特征图的表达能力,突出对面部表情识别和分析有贡献的通道,减少不相关的信息对结果的干扰。更具体地,将所述面部表情特征图通过通道注意力层以得到通道显化面部表情特征图,包括:对所述面部表情特征图的沿通道维度的各个特征矩阵进行全局均值池化以得到通道特征向量;将所述通道特征向量输入Softmax激活函数以得到通道注意力权重向量;以所述通道注意力权重向量中各个位置的特征值作为权重对所述面部表情特征图的沿通道维度的各个特征矩阵进行加权以得到所述通道显化面部表情特征图。

值得注意的是,通道注意力层(Channel Attention Layer)是一种在深度学习模型中用于增强通道之间关联性的技术。它通过自动学习每个通道的权重,以强化重要通道的表示并抑制不重要通道的表示。通道注意力层常用于图像处理任务,如图像分类、目标检测和图像分割。

具体地,所述S52,将所述通道显化面部表情特征图的沿通道维度的各个特征矩阵进行特征展平化以得到所述面部表情局部特征向量的序列。在本申请的技术方案中,在所述面部表情特征图经过通道注意力层的处理后,每个通道对应着加权增强的用户面部表情特征,而每个通道的特征矩阵表示了该通道在不同位置的特征响应。因此,为了将面部表情特征图中的局部特征转化为一维的特征向量序列,以便后续的特征融合和数字人驱动,在本申请的技术方案中,进一步将所述通道显化面部表情特征图的沿通道维度的各个特征矩阵进行特征展平化以得到面部表情局部特征向量的序列。通过将所述通道显化面部表情特征图沿通道维度的各个特征矩阵进行特征展平化,可以得到所述面部表情局部特征向量的序列,其中,每个特征向量对应着所述通道显化面部表情特征图中的一个局部特征,它包含了该局部特征在不同位置的响应信息。

值得一提的是,在本申请的其他具体示例中,还可以通过其他方式对所述面部表情特征图进行通道特征显化处理以得到面部表情局部特征向量的序列,例如:选择通道:根据具体任务或感兴趣的面部表情特征,选择要进行特征显化的通道;从面部表情特征图中提取选定通道的特征图。这可以通过选择对应通道的特征图子集来实现;使用特定的方法或技术,对提取的通道特征图进行显化处理,以突出表达面部表情的局部特征。常见的特征显化方法包括热力图、梯度图、激活最大化等;将特征显化后的通道特征图可视化,以便观察面部表情的局部特征;将特征显化后的通道特征图划分为多个区域,可以是重叠的或非重叠的区域;对每个区域提取特征,可以使用各种特征提取方法,如统计特征、频域特征、纹理特征等;将每个区域提取的特征组合成一个特征向量;将所有区域的特征向量按顺序组合成一个特征向量序列,表示面部表情的局部特征。

特别地,所述S6,对所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行跨模态逐粒度交互融合分析以得到多模态全局面部语义特征。应可以理解,由于所述用户语音文本词粒度语义特征向量的序列表达所述用户语音文本的词粒度编码文本语义特征,而所述面部表情局部特征向量的序列表达所述面部表情图像的基于通道注意力的图像特征语义空间分布强化的图像语义特征。因此,为了将用户的语音数据语义特征和面部表情图像语义特征进行跨模态的交互和整合,在本申请的技术方案中,进一步使用跨模态逐粒度交互融合模块来对所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行处理以得到多模态全局面部语义特征向量。在逐粒度交互过程中,可以通过注意力机制将每个所述用户语音文本的词粒度语义特征向量与所述面部表情局部特征向量进行加权融合,以突出不同粒度的特征对最终结果的贡献。这样,使得最终得到的所述多模态全局面部语义特征向量综合了用户的语音和面部表情的信息,具有更丰富和全局的语义表示能力,有助于实现更准确和自然的虚拟人物生成和响应。具体地,使用跨模态逐粒度交互融合模块来对所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行处理以得到多模态全局面部语义特征向量作为所述多模态全局面部语义特征,包括:计算所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列中任意两个特征向量之间的相关度以得到用户语音-面部表情时序关联特征矩阵的序列;基于所述用户语音-面部表情时序关联特征矩阵的序列,对所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行特征交互注意力编码以得到注意力增强用户语音文本词粒度语义特征向量的序列和注意力增强面部表情局部特征向量的序列;融合所述用户语音文本词粒度语义特征向量的序列和所述注意力增强用户语音文本词粒度语义特征向量的序列中相应位置的特征向量以得到用户语音融合词粒度特征向量的序列,并融合所述面部表情局部特征向量的序列和所述注意力增强面部表情局部特征向量的序列中相应位置的特征向量以得到面部表情融合局部特征向量的序列;对所述用户语音融合词粒度特征向量的序列进行最大值池化处理以得到用户语音融合词粒度最大值池化特征向量,并对所述面部表情融合局部特征向量的序列进行最大值池化处理以得到面部表情融合局部最大值池化特征向量;以及,融合所述用户语音融合词粒度最大值池化特征向量和所述面部表情融合局部最大值池化特征向量以得到所述多模态全局面部语义特征向量。

特别地,所述S7,基于所述多模态全局面部语义特征,确定面部表情标签,并将所述面部表情标签映射至数字人。特别地,在本申请的一个具体示例中,如图4所示,所述S7,包括:S71,对所述多模态全局面部语义特征向量进行特征校正以得到校正后多模态全局面部语义特征向量;S72,将所述校正后多模态全局面部语义特征向量通过分类器以得到分类结果,所述分类结果为面部表情标签;S73,将所述面部表情标签映射至数字人。

具体地,所述S71,对所述多模态全局面部语义特征向量进行特征校正以得到校正后多模态全局面部语义特征向量。更具体地,对于所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行融合校正以得到校正特征向量;将所述校正特征向量与所述多模态全局面部语义特征向量进行融合以得到所述校正后多模态全局面部语义特征向量。特别地,在上述技术方案中,所述用户语音文本词粒度语义特征向量的序列表达所述用户语音文本的词粒度编码文本语义特征,而所述面部表情局部特征向量的序列表达所述面部表情图像的基于通道注意力的图像特征语义空间分布强化的图像语义特征,由此,在使用跨模态逐粒度交互融合模块来对所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行处理时,考虑到文本语义特征和图像语义特征的跨模态差异在逐特征粒度上对应的稀疏性,因此期望提升所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列基于其各自的模态语义特征表达显著性和关键性的特征向量融合,从而提升所述多模态全局面部语义特征向量的表达效果。基于此,本申请的申请人对于所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行融合校正,具体表示为:

具体地,所述S72,将所述校正后多模态全局面部语义特征向量通过分类器以得到分类结果,所述分类结果为面部表情标签。具体地,在本申请的技术方案中,所述分类器的标签为数字人的面部表情标签,因此,在得到所述分类结果后,可也基于所述分类结果来将所述面部表情标签映射至数字人。这样,能够利用多模态数据来进行用户面部表情的识别判断,并实现数字人的驱动,从而使得数字人能够更加准确地模仿和响应用户的语音和面部表情,提高数字人驱动的精准度。更具体地,将所述校正后多模态全局面部语义特征向量通过分类器以得到分类结果,所述分类结果为面部表情标签,包括:使用所述分类器的多个全连接层对所述校正后多模态全局面部语义特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

具体地,所述S73,将所述面部表情标签映射至数字人。也就是,在一个示例中,通过将面部表情标签映射到数字人,可以使数字人具备与用户进行情感交流的能力。数字人的面部表情可以增强用户与数字人之间的情感连接和互动体验。当数字人能够根据用户的面部表情进行相应的反应时,用户可以更加自然地与数字人进行交流。

值得一提的是,在本申请的其他具体示例中,还可以通过其他方式基于所述多模态全局面部语义特征,确定面部表情标签,并将所述面部表情标签映射至数字人,例如:从面部图像或视频中提取多模态全局面部语义特征;使用训练好的分类器对多模态全局面部语义特征进行表情分类。这可以是一个多类别分类器,用于将面部表情分为不同的类别(如喜悦、愤怒、悲伤等);根据面部表情分类的结果,确定每个面部图像或视频帧的面部表情标签。这些标签表示面部表情的类别;将面部表情标签映射到数字人。这可以通过建立一个映射表或使用预定义的映射规则来实现。例如,可以将面部表情标签映射到数字人模型中的不同面部动画或姿势,以呈现与面部表情相对应的数字人动作;使用映射后的面部表情标签,将相应的数字人动画或姿势应用到数字人模型上,以呈现与面部表情相对应的动作。

综上,根据本申请实施例的基于多模态数据的数字人驱动方法被阐明,其通过采集用户语音数据和面部表情图像,并在后端引入语义理解和图像处理算法来进行用于语音和面部表情的分析和识别,以此利用多模态数据来进行用户面部表情的识别判断,并实现数字人的驱动。这样,能够基于用户语音和面部表情图像来优化面部表情的识别精准度,使得数字人能够更加准确地模仿和响应用户的语音和面部表情,提高数字人驱动的精准度,从而实现更加自然和真实的交互体验。

进一步地,还提供一种基于多模态数据的数字人驱动系统。

图5为根据本申请实施例的基于多模态数据的数字人驱动系统的框图。如图5所示,根据本申请实施例的风光发电储能管理系统300,包括:信息获取模块310,用于获取用户语音数据和面部表情图像;语音识别模块320,用于对所述用户语音数据进行语音识别以得到用户语音文本;语义理解模块330,用于对所述用户语音文本进行语义识别和理解以得到用户语音文本词粒度语义特征向量的序列;面部表情特征提取模块340,用于通过基于深度神经网络模型的面部表情特征提取器对所述面部表情图像进行特征提取以得到面部表情特征图;通道特征显化模块350,用于对所述面部表情特征图进行通道特征显化处理以得到面部表情局部特征向量的序列;跨模态逐粒度交互融合分析模块360,用于对所述用户语音文本词粒度语义特征向量的序列和所述面部表情局部特征向量的序列进行跨模态逐粒度交互融合分析以得到多模态全局面部语义特征;结果生成模块370,用于基于所述多模态全局面部语义特征,确定面部表情标签,并将所述面部表情标签映射至数字人。

如上所述,根据本申请实施例的基于多模态数据的数字人驱动系统300可以实现在各种无线终端中,例如具有基于多模态数据的数字人驱动算法的服务器等。在一种可能的实现方式中,根据本申请实施例的基于多模态数据的数字人驱动系统300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于多模态数据的数字人驱动系统300可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于多模态数据的数字人驱动系统300同样可以是该无线终端的众多硬件模块之一。

替换地,在另一示例中,该基于多模态数据的数字人驱动系统300与该无线终端也可以是分立的设备,并且该基于多模态数据的数字人驱动系统300可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。

以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

相关技术
  • 一种基于PLC控制的水冷冷水机组测试系统及方法
  • 一种水冷系统及其水温控制方法、三通阀及其控制方法
  • 一种水冷冷水机组故障诊断方法及系统
  • 一种节能型水冷冷水机组及冷水机组水冷控制方法
技术分类

06120116541950