导航：首页> 计算；推算；计数>数据处理方法、装置、电子设备和计算机可读存储介质

数据处理方法、装置、电子设备和计算机可读存储介质

文献发布时间：2023-06-19 11:19:16

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种数据处理方法、装置、电子设备和计算机可读存储介质。

背景技术

伴随着直播行业的兴起，越来越多的用户进入直播行业，现今，主播主要以自身的真实形象进行直播，限制了直播的模式和玩法，灵活性有待提升。

发明内容

本发明的目的之一包括，例如，提供了一种数据处理方法、装置、电子设备和计算机可读存储介质，以至少部分地提高直播的灵活性。

本发明的实施例可以这样实现：

第一方面，本发明提供一种数据处理方法，包括：

获得待展示形象的脸部图像；

获得目标真实对象在直播过程中的直播图像；

基于所述直播图像进行人脸关键点提取，得到所述目标真实对象的人脸关键点信息；

将所述人脸关键点信息转换为待展示形象的驱动信号；

基于所述脸部图像和驱动信号得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据。

在可选的实施方式中，基于所述脸部图像和驱动信号得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据的步骤，包括：

将所述脸部图像和驱动信号作为深度神经网络生成模型的输入，得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据。

在可选的实施方式中，所述深度神经网络生成模型包括编码器和解码器，所述编码器包括多个下采样层，每个所述下采样层包括深度可分离卷积层；所述解码器包括多个上采样层，每个所述上采样层包括反卷积层；

所述将所述脸部图像和驱动信号作为深度神经网络生成模型的输入，得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据的步骤，包括：

将所述脸部图像和驱动信号作为所述编码器的输入，基于多个所述下采样层进行处理，得到处理结果；

将所述处理结果作为所述解码器的输入，基于多个所述上采样层进行处理，得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据。

在可选的实施方式中，所述方法还包括训练得到所述深度神经网络生成模型的步骤，该步骤包括：

将训练数据集中的脸部图像和驱动信号作为编码器的输入，基于所述编码器包括的多个下采样层进行处理，得到处理结果；其中，每个所述下采样层包括深度可分离卷积层；

将所述处理结果作为解码器的输入，基于所述解码器包括的多个上采样层进行处理，得到待展示形象以真实对象的脸部姿态进行直播的数据；其中，每个所述上采样层包括反卷积层；

基于得到的所述数据判断是否满足模型收敛条件，如果未满足所述模型收敛条件，则返回执行将训练数据集中的脸部图像和驱动信号作为编码器的输入至得到待展示形象以真实对象的脸部姿态进行直播的数据的步骤，直至最新得到的数据满足所述模型收敛条件。

在可选的实施方式中，得到的所述数据为根据所述驱动信号生成的所述待展示形象的图像；

所述基于得到的所述数据判断是否满足模型收敛条件的步骤，包括：

判断生成的所述待展示形象的图像与所述训练数据集中真实对象的图像的差距是否低于预设阈值，若高于所述预设阈值，判定未满足所述模型收敛条件；若低于所述预设阈值，判定满足所述模型收敛条件。

在可选的实施方式中，所述编码器包括的下采样层的数量与所述解码器包括的上采样层的数量相同；每个所述下采样层包括的深度可分离卷积层和每个所述上采样层包括的反卷积层的步长和卷积核相同。

在可选的实施方式中，所述获得待展示形象的脸部图像的步骤包括：

获得目标真实对象上传的卡通人物的脸部图像，将该卡通人物的脸部图像作为待展示形象的脸部图像；或者，

展示预存的至少一个卡通人物的脸部图像，获得目标真实对象从所述至少一个卡通人物的脸部图像中选择的卡通人物的脸部图像，将该卡通人物的脸部图像作为待展示形象的脸部图像。

第二方面，本发明实施例提供一种数据处理装置，包括：

图像获得模块，用于获得待展示形象的脸部图像，以及获得目标真实对象在直播过程中的直播图像；

信息处理模块，用于基于所述直播图像进行人脸关键点提取，得到所述目标真实对象的人脸关键点信息，将所述人脸关键点信息转换为待展示形象的驱动信号，以及基于所述脸部图像和驱动信号得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据。

第三方面，本发明提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施方式任一项所述的数据处理方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行前述实施方式任一项所述的数据处理方法。

本发明实施例的有益效果包括，例如：基于待展示形象的脸部图像和根据目标真实对象在直播过程中的人脸关键点信息转换得到的驱动信号，得到待展示形象以目标真实对象的脸部姿态进行直播的数据，从而能够使得待展示形象作出与目标真实对象相应的表情，可以基于待展示形象“代替”目标真实对象进行直播，从而提高了直播的灵活性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的一种应用场景示意图。

图2示出了本发明实施例提供的一种数据处理方法的流程示意图。

图3示出了本发明实施例提供的一种模型的结构示意图。

图4示出了本发明实施例提供的一种模型的训练流程示意图。

图5示出了本发明实施例提供的一种模型的应用流程示意图。

图6示出了本发明实施例提供的一种数据处理装置的示例性结构框图。

图标：100-电子设备；110-存储器；120-处理器；130-通信模块；140-数据处理装置；141-图像获得模块；142-信息处理模块。

具体实施方式

随着互联网的发展，直播行业日益兴起，越来越多的人成为主播进入直播行业，现今，主播主要以自身的真实形象进行直播。

经研究发现，以自身的真实形象进行直播的方式限制了直播的模式和玩法。例如，某些用户对自己的相貌不够自信、考虑到隐私问题等，可能不愿意在直播间展现自己的真实形象，从而极大的阻碍了这些用户开播的门槛。又例如，主播常以自己的形象进行直播，缺乏多样性导致观众产生视觉疲劳，限制了直播的模式和玩法。

为了改善上述问题，可以考虑采用虚拟直播，然而，虚拟直播需要依赖美工的3D(three dimensional)形象设计或者动作捕捉设备。例如，动漫形象受众较多，受到用户的广泛喜爱，为了满足用户需求，可以设计卡通的虚拟形象进行直播，然而，制作一个卡通虚拟形象需要花费较大的金额，较高的成本以及复杂的设备，增加了基于虚拟形象进行直播的门槛。

基于上述研究，本发明实施例提供一种数据处理方案，通过获得待展示形象的脸部图像和目标真实对象在直播过程中的直播图像，基于直播图像进行人脸关键点提取，得到目标真实对象的人脸关键点信息，进而将人脸关键点信息转换为待展示形象的驱动信号，基于待展示形象的脸部图像和驱动信号得到待展示形象以目标真实对象的脸部姿态进行直播的数据。无需依赖于复杂的3D形象设计和动作捕捉设备，基于数据处理便可使得待展示形象作出与目标真实对象相应的表情(又称脸部姿态)，基于待展示形象进行直播，实现较为便捷，成本较低，能够显著提高直播的灵活性。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案，都应该是发明人在发明过程中做出的贡献。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

请参照图1，是本实施例提供的一种电子设备100的方框示意图，本实施例中的电子设备100可以为能够进行数据交互、处理的服务器、处理设备、处理平台等。所述电子设备100包括存储器110、处理器120及通信模块130。所述存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器110用于存储程序或者数据。所述存储器110可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory，EEPROM)等。

处理器120用于读/写存储器110中存储的数据或程序，并执行相应地功能。

通信模块130用于通过所述网络建立所述电子设备100与其它通信终端之间的通信连接，并用于通过所述网络收发数据。

应当理解的是，图1所示的结构仅为电子设备100的结构示意图，所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请结合参阅图2，为本发明实施例提供的一种数据处理方法的流程示意图，可以由图1所述电子设备100执行，例如可以由电子设备100中的处理器120执行。该数据处理方法包括S110、S120、S130和S140。

S110，获得待展示形象的脸部图像。

S120，获得目标真实对象在直播过程中的直播图像。

S130，基于所述直播图像进行人脸关键点提取，得到所述目标真实对象的人脸关键点信息。

S140，将所述人脸关键点信息转换为待展示形象的驱动信号。

S150，基于所述脸部图像和驱动信号得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据。

本实施例中，待展示形象和目标真实对象可以为多种。例如，目标真实对象可以为用户，如主播。待展示形象可以为无人脸关键点的各对象，如非真实人物的其他对象，例如：动漫对象、动物对象、植物对象等。相应地，待展示形象可以为能够表征用户的虚拟动漫人物、虚拟动漫动物等。示例性地，在目标真实对象为某一女主播的情况下，该女主播对应的待展示形象可以为一虚拟动漫女性人物、虚拟动漫男性人物，也可以为一虚拟动漫动物，还可以为一具有“模拟五官”的虚拟动漫植物等。又例如，目标真实对象可以为非人生物，如动物，相应地，待展示形象可以为能够表征该动物的虚拟动漫动物。

在一种实现方式中，待展示形象可以为卡通对象，例如，虚拟人物可以为卡通人物，虚拟动物可以为卡通动物，虚拟植物可以为卡通植物等。

其中，可以通过多种方式获得待展示形象的脸部图像。例如，可以由目标真实对象主动上传。示例性地，若目标真实对象上传了卡通人物的脸部图像，那么，可以获得目标真实对象上传的卡通人物的脸部图像，将该卡通人物的脸部图像作为待展示形象的脸部图像。又例如，可以由目标真实对象主动选择。示例性地，可以展示预存的至少一个卡通人物的脸部图像，以供目标真实对象进行选择，若目标真实对象进行了选择，那么，获得目标真实对象从所述至少一个卡通人物的脸部图像中选择的卡通人物的脸部图像，将该卡通人物的脸部图像作为待展示形象的脸部图像。又例如，还可以针对各目标真实对象，随机匹配待展示形象。

目标真实对象在直播过程中的直播图像可以基于摄像头如单目摄像头对目标真实对象在直播过程中的图像进行实时采集，从而实时得到目标真实对象在直播过程中的直播图像。相应地，若对采集到的每一帧直播图像均进行人脸检测和人脸关键点提取，可以得到目标真实对象在直播过程中实时的人脸关键点信息，将实时的人脸关键点信息转换为待展示形象实时的驱动信号，从而基于待展示形象的脸部图像和实时的驱动信号便可得到待展示形象以目标真实对象的脸部姿态同步进行直播的数据。

本实施例中，S150，基于所述脸部图像和驱动信号得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据的步骤可以通过多种方式实现。例如，可以使用图像处理技术，根据驱动信号，将待展示形象的脸部图像处理为具有目标真实对象的脸部姿态的目标图像。又例如，可以进行大数据收集，基于大数据收集和处理，设计匹配每种驱动信号对应的待展示形象的目标图像，相应地，根据对应关系，即可查找出驱动信号对应的待展示形象的目标图像。又例如，可以预先进行模型训练，基于模型得到待展示形象以目标真实对象的脸部姿态进行直播的数据。

示例性地，在基于模型得到待展示形象以目标真实对象的脸部姿态进行直播的数据的情况下，模型可以为多种，例如，可以为深度神经网络生成模型，以降低模型大小，减少通道数。在一种实现方式中，可以将所述脸部图像和驱动信号作为深度神经网络生成模型的输入，得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据。

其中，深度神经网络生成模型的模型结构可以灵活设置。例如，请参阅图3，深度神经网络生成模型可以包括编码器和解码器，所述编码器包括多个下采样层，每个所述下采样层包括深度可分离卷积层。所述解码器包括多个上采样层，每个所述上采样层包括反卷积层。相应地，所述将所述脸部图像和驱动信号作为深度神经网络生成模型的输入，得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据的步骤，包括：将所述脸部图像和驱动信号作为所述编码器的输入，基于多个所述下采样层进行处理，得到处理结果。将所述处理结果作为所述解码器的输入，基于多个所述上采样层进行处理，得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据。

本实施例中，可以通过以下方式训练得到所述深度神经网络生成模型：将训练数据集中的脸部图像和驱动信号作为编码器的输入，基于所述编码器包括的多个下采样层进行处理，得到处理结果。其中，每个所述下采样层包括深度可分离卷积层。将所述处理结果作为解码器的输入，基于所述解码器包括的多个上采样层进行处理，得到待展示形象以真实对象的脸部姿态进行直播的数据。其中，每个所述上采样层包括反卷积层。基于得到的所述数据判断是否满足模型收敛条件，如果未满足所述模型收敛条件，则返回执行将训练数据集中的脸部图像和驱动信号作为编码器的输入至得到待展示形象以真实对象的脸部姿态进行直播的数据的步骤，直至最新得到的数据满足所述模型收敛条件。

在一种实现方式中，得到的所述数据为根据所述驱动信号生成的所述待展示形象的图像。相应地，所述基于得到的所述数据判断是否满足模型收敛条件的步骤可以包括：判断生成的所述待展示形象的图像与所述训练数据集中真实对象的图像的差距是否低于预设阈值，若高于所述预设阈值，判定未满足所述模型收敛条件；若低于所述预设阈值，判定满足所述模型收敛条件。

其中，所述编码器包括的下采样层的数量与所述解码器包括的上采样层的数量相同。每个所述下采样层包括的深度可分离卷积层和每个所述上采样层包括的反卷积层的步长和卷积核相同。

为了更为清楚地阐述本发明实施例的实现原理，现以下述场景为例进行举例说明。

在目标真实对象为主播，待展示形象为卡通人物的情况下，本发明实施例中的数据处理方法可以通过以下方式实现。

请参阅图4，主播上传一张含有卡通人物正脸的图片(脸部图像)作为自己想用来直播的虚拟形象。通过单目摄像头对主播的真实人脸(直播图像)进行实时的采集，将采集到的每一帧图片经过相同的人脸检测和关键点检测实现主播的人脸关键点信息提取。

将人脸关键点信息转换成卡通人物的驱动信号，将卡通人物的脸部图像、卡通人物的驱动信号作为深度神经网络生成模型的输入，深度神经网络生成模型从而输出和卡通人物外表一样但是与主播的脸部姿态对应的画面。

通过对实时性、功耗和效果的综合考虑，本发明实施例中的深度神经网络生成模型采用逐层生成的方式训练得到，先训练成小尺度图，再逐渐生成较大的图。深度神经网络生成模型由编码器和解码器组成，其中，编码器包含4层下采样层，每一层下采样层都是一个深度可分离卷积层，每一层下采样层的输入是上一层下采样层的输出，最外层的下采样层的输入是卡通人物正脸的图片和驱动信号，每一层下采样层的卷积的步长为2，卷积核大小为4。解码器也包含4层上采样层，每一层上采样层都是一个反卷积层，每一层上采样层的输入是上一层上采样层的输出，最内层的上采样层的输入是编码器最内层的下采样层的输出，最外层的上采样层的输出就是根据驱动信号生成的、和卡通人物外表一样但是与主播的脸部姿态对应的动漫图片。每一个反卷积层步长为2，卷积核大小为4。其中，解码器采用深度可分离卷积，并可以在高层的下采样层加入跳跃连接，Style loss(风格损失)、Perceptual loss(感知损失)等提升效果。

请参阅图5，在训练上述深度神经网络生成模型的过程中，根据直播图像进行人脸关键点提取，得到人脸关键点信息，将人脸关键点信息转换成驱动信号，输入驱动信号和卡通人物的正脸的图片(脸部图像)的拼接，尺寸可以为9×256×256，其中6维为驱动信号，3维为图像。深度神经网络生成模型的输出是一张由驱动信号控制生成的图，尺寸为3×256×256。深度神经网络生成模型的收敛条件可以是输出的图与真实人脸的图的差距如loss降低到某一个值。在输出的图未满足收敛条件的情况下，进行重建，直至得到满足收敛条件的图，作为直播的数据。

本发明实施例中，主要阐述了基于脸部图像和单个人脸关键点信息得到待展示形象以目标真实对象的脸部姿态进行直播的数据的单个实现过程，可以理解是，若实时获取人脸关键点信息，可以针对每个人脸关键点信息均执行上述流程，从而实时得到整个直播过程中待展示形象以目标真实对象的脸部姿态进行直播的实时数据。由于每个处理流程类似，因而在此不作重复赘述。

基于本发明实施例中的数据处理方法，用户只需要上传一张静止的正脸的二次元卡通图片，本发明实施例便可以“驱动”这张卡通图片对应的虚拟形象做出与主播相应的表情，以虚拟形象进行直播，摆脱了传统虚拟直播需要动作捕捉设备或者美工设计3D模型的束缚，降低主播虚拟开播的门槛，成本较低。同时，也可以激发新的玩法或者直播模式，如千人千面的直播，或者直播贴纸应用等，提高了直播的灵活性，可以降低主播直播门槛并且丰富直播内容。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种数据处理装置的实现方式。请参阅图6，图6为本发明实施例提供的一种数据处理装置140的功能模块图，该数据处理装置140可以应用于图1所示电子设备100。需要说明的是，本实施例所提供的数据处理装置140，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该数据处理装置140包括图像获得模块141和信息处理模块142。

其中，图像获得模块141用于，获得待展示形象的脸部图像，以及获得目标真实对象在直播过程中的直播图像。

信息处理模块142用于，基于所述直播图像进行人脸关键点提取，得到所述目标真实对象的人脸关键点信息，将所述人脸关键点信息转换为待展示形象的驱动信号，以及基于所述脸部图像和驱动信号得到所述待展示形象以所述目标真实对象的脸部姿态进行直播的数据。

在上述基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行上述的数据处理方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘虹雨;韩欣彤;林哲;
专利申请人：广州虎牙科技有限公司;

上一篇：调压设备负载状态评估方法、设备及可读存储介质
下一篇：一种公平和隐私保护的大数据交换方案