导航：首页> 船舶或其他水上船只；与船有关的设备>服务器、显示设备以及虚拟数字人交互方法

服务器、显示设备以及虚拟数字人交互方法

文献发布时间：2024-04-18 19:54:45

技术领域

本申请涉及语音交互技术领域，尤其涉及一种服务器、显示设备以及虚拟数字人交互方法。

背景技术

随着科技的进步与发展，智能语音交互(Intelligent Speech Interaction，ISN)领域得到了广泛的发展，通过语音识别、语音合成、自然语言理解等技术实现了智能设备与用户之间的语音交互；当用户对智能设备发出语音指令后，智能设备便会基于从文本到语音(Text To Speech，TTS)技术生成答复文本的语音信息，随之进行答复文本的语音播报，这样用户就可以通过听觉感知来自智能设备的语音播报以获取播报信息。

由于在现有技术中，用户只能通过听觉感知智能设备的语音播报，不能从视觉上获取丰富的交互效果，从而导致播报过程枯燥单一，用户体验感不佳。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请为了实现上述目的，本申请实施例提供的技术方案如下：

第一方面，提供一种显示设备，包括：

控制器，被配置为：获取与待播报文本对应的语音音素序列以及目标虚拟数字人面部的初始关键点坐标；

基于所述待播报文本对应的语音音素序列生成所述虚拟数字人的面部关键点坐标序列；

根据所述待播报文本、所述语音音素序列以及所述面部关键点坐标序列生成目标标签序列；所述目标标签序列中的任一标签包括：所述待播报文本的关键词对应的所述语音音素序列的序列片段，以及所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段；

向显示设备发送所述目标标签序列，以使所述显示设备根据所述目标标签序列驱动所述目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画。

第二方面，提供一种显示设备，包括：

控制器，被配置为：接收目标标签序列；所述目标标签序列中的任一标签包括：所述待播报文本的关键词对应的所述语音音素序列的序列片段，以及所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段；

基于所述目标标签序列中的各个标签的所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段驱动目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画。

第三方面，提供了一种虚拟数字人交互方法，包括：

获取与待播报文本对应的语音音素序列以及目标虚拟数字人面部的初始关键点坐标；

基于所述待播报文本对应的语音音素序列生成所述虚拟数字人的面部关键点坐标序列；

向显示设备发送所述目标标签序列，以使所述显示设备根据所述目标标签序列驱动所述目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画。

第四方面，提供了另一种虚拟数字人交互方法，包括：

接收目标标签序列；所述目标标签序列中的任一标签包括：待播报文本的关键词对应的语音音素序列的序列片段，以及所述语音音素序列的序列片段对应的面部关键点坐标序列的序列片段；

基于所述目标标签序列中的各个标签中的以及所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段驱动所述目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画。

第五方面，本申请提供了一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如第三方面和第四方面所示的虚拟数字人交互方法。

第六方面，本申请提供了一种计算机程序产品，包括：当计算机程序产品在计算机上运行时，使得计算机实现如第三方面和第四方面所示的虚拟数字人交互方法。

本申请实施例提供的服务器、显示设备以及虚拟数字人交互方法，可以在获取与待播报文本对应的语音音素序列以及目标虚拟数字人面部的初始关键点坐标后，基于所述待播报文本对应的语音音素序列生成所述虚拟数字人的面部关键点坐标序列；再根据所述待播报文本、所述语音音素序列以及所述面部关键点坐标序列生成目标标签序列；向显示设备发送所述目标标签序列，以使所述显示设备根据所述目标标签序列驱动所述目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画，因此，本申请实施例不仅可以通过听觉感知来自智能设备的语音播报，而且可以从视觉上获取待播报文本对应的虚拟数字人动画，提高用户体验感。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了一些实施例中的虚拟数字人交互方法的场景架构图；

图2示出了一些实施例中的控制设备的硬件配置框图；

图3示出了一些实施例中的服务器、显示设备的硬件配置框图；

图4示出了一些实施例中的虚拟数字人交互方法的网络架构示意图；

图5为本申请实施例提供的虚拟数字人交互方法的步骤流程图之一；

图6为本申请实施例提供的虚拟数字人交互方法的一种场景示意图；

图7为本申请实施例提供的虚拟数字人交互方法的效果示意图；

图8为本申请实施例提供的虚拟数字人交互方法的步骤流程图之二；

图9为本申请实施例提供虚拟数字人交互方法的示意图；

图10为本申请实施例提供的虚拟数字人交互方法的步骤流程图之三；

图11为本申请实施例提供的虚拟数字人交互方法的架构图；

图12为本申请实施例提供的虚拟数字人动画的效果图；

图13为本申请实施例提供的一种虚拟数字人交互方法的交互步骤流程图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面将对本申请的方案进行进一步描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但本申请还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本申请的一部分实施例，而不是全部的实施例。

目前显示设备的播放器中，会针对不同数据设置独立的缓冲队列，例如，分别为音频数据和视频数据设置独立的缓冲队列，每个缓冲队列都有一个缓冲数据的预设缓冲量，该预设缓冲量用来表示当前缓冲队列可缓冲的最大数据量。

图1为本申请实施例提供的虚拟数字人交互方法的场景架构示意图。如图1所示，本申请实施例提供的场景架构，包括：服务器100以及显示设备200。

本申请实施例提供的显示设备可以具有多种实施形式，例如，显示设备可以为电视、手机、具有显示功能的智能音箱冰箱、具有显示功能的窗帘、个人计算机(PersonalComputer，PC)、激光投影设备、显示器(monitor)、电子白板(electronic bulletinboard)、可穿戴设备、车载设备、电子桌面(electronic table)等。

在一些实施例中，显示设备200接收到用户的语音指令时，可以与服务器100进行数据通信，可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)与服务器100进行通信连接。

服务器100可以是提供各种服务的服务器，例如对显示设备200接收到的语音数据提供支持的服务器。服务器可以对接收到的语音等数据进行分析等处理，并将处理结果(例如端点信息)反馈给显示设备200。服务器100可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

显示设备200可以是硬件，也可以是软件。当显示设备200为硬件时，可以是具有语音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当显示设备200为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供语音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的虚拟数字人交互方法可以通过服务器100执行，也可以通过显示设备200执行，还可以通过服务器100和显示设备200共同执行，本申请对此不做限定。

图2示出了根据示例性实施例中显示设备200的硬件配置框图。如图2所示显示设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，音频处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220服务器100建立控制信号和数据信号的发送和接收。

用户接口280，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。显示设备200可以设置至少一个麦克风。在另一些实施例中，显示设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，显示设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在显示设备200上，或者麦克风通过有线或者无线的方式与显示设备200相连接。当然，本申请实施例对麦克风在显示设备200上的位置不作限定。或者，显示设备200可以不包括麦克风，即上述麦克风并未设置于显示设备200中。显示设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在显示设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，RAM Random Access Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些示例中，智能设备的操作系统为Android系统为例，如图3所示，显示设备200从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图3所示，硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供显示界面和服务，用于显示设备200与服务器100的连接。

内核层22作为硬件层和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

在一些示例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的，显示设备200中的语音识别应用启动，显示设备200与服务器100建立了通信连接的情况下，检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后，语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将显示设备200发送的语音数据输入至意图识别模型。

为清楚说明本申请的实施例，下面结合图4对本申请实施例提供的一种语音识别网络架构进行描述。

参见图4，图4为本申请实施例提供的一种虚拟数字人交互方法的网络架构示意图。图4中，显示设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为文本；语义理解模块部署有语义理解服务，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务，用于提供业务指令；语言生成模块部署有语言生成服务(NLG)，用于将指示显示设备执行的指令转化为文本语言；语音合成模块部署有语音合成(TTS)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中，图4所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

在一些实施例中，下面对基于图4所示架构处理输入显示设备的信息的过程进行举例描述，以输入显示设备的信息为通过语音输入的语音指令为例：

[语音识别]

显示设备可在接收到通过语音输入的语音指令后，对语音指令的音频进行降噪处理和特征提取，这里的降噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

利用声学模型和语言模型，对识别出的候选文本和相关联的上下文信息进行自然语言理解，将文本解析为结构化的、机器可读的信息，业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图，

[业务管理]

语义理解模块根据对语音指令的文本的语义解析结果，向相应的业务管理模块下发执行指令以执行语音指令对应的操作，以及完成用户请求此操作，并对语音指令对应的操作的执行结果进行反馈。

在一些实施例中，当服务器100通过控制器104获取与待播报文本对应的语音音素序列以及目标虚拟数字人面部的初始关键点坐标；基于所述待播报文本对应的语音音素序列生成所述虚拟数字人的面部关键点坐标序列；根据所述待播报文本、所述语音音素序列以及所述面部关键点坐标序列生成目标标签序列；所述目标标签序列中的任一标签包括：所述待播报文本的关键词对应的所述语音音素序列的序列片段，以及所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段；向显示设备发送所述目标标签序列，以使所述显示设备根据所述目标标签序列驱动所述目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画。

在一些实施例中，当服务器100通过所述控制器104接收用户的语音指令；

识别所述语音指令，并解析所述语音指令获取所述语音指令的关键词；根据所述语音指令的关键词获取所述语音指令对应的所述待播报文本；生成与所述待播报文本对应的语音；基于所述待播报文本对应的语音生成所述语音音素序列。

在一些实施例中，当服务器100通过控制器104确定目标虚拟数字人形象，并提取所述目标虚拟数字人面部的关键点；将所述面部关键点坐标缩放至预设值域范围内，得到预设值域范围内的所述面部关键点坐标；将预设值域范围内的至少一个所述面部关键点坐标与预设人脸的面部关键点坐标对齐，获取所述面部的初始关键点坐标。

在一些实施例中，当服务器100通过所述控制器104根据语音驱动数字人模型生成与所述语音音素序列对应的所述面部关键点坐标序列；其中，所述语音驱动数字人模型为基于样本数据集对机器学习模型进行训练获取的模型，所述样本数据集包括多组样本数据，任一组样本数据包括：样本语音音素序列以及所述样本语音音素序列对应的面部关键点坐标序列。

在一些实施例中，当服务器100通过所述控制器104获取与所述语音音素序列的各序列片段对应的所述待播报文本中的关键词；获取与所述语音音素序列的各序列片段对应的所述面部关键点坐标序列的序列片段；基于所述语音音素序列的各序列片段对应的所述待播报文本中的关键词以及所述面部关键点坐标序列的序列片段生成所述目标标签序列。

在一些实施例中，当显示设备200通过控制器250接收目标标签序列；所述目标标签序列中的任一标签包括：待播报文本的关键词对应的所述语音音素序列的序列片段，以及所述语音音素序列的序列片段对应的面部关键点坐标序列的序列片段；基于所述目标标签序列中的各个标签的所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段驱动目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画。

在一些实施例中，当显示设备200通过所述控制器250获取所述目标虚拟数字人的纹理坐标以及多个纹理三角形；根据所述目标虚拟数字人的面部纹理坐标、多个面部纹理三角形、所述面部关键点序列生成所述待播报文本对应的虚拟数字人动画。

在一些实施例中，当显示设备200通过所述控制器250获取所述目标标签序列中的各个标签中的所述待播报文本的关键词；根据所述目标标签序列中的各个标签中的所述待播报文本的关键词生成与所述目标虚拟数字人动画匹配的实时字幕；将所述实时字幕与所述虚拟数字人动画进行同步渲染，输出与所述待播报文本对应的实时字幕。

图5中示例性的示出了本申请实施例提供的一种虚拟数字人交互方法的流程示意图，如图5所示，本申请实施例提供的虚拟数字人交互方法包括如下步骤：

S501、获取与待播报文本对应的语音音素序列以及目标虚拟数字人面部的初始关键点坐标。

在一些实施例中，所述待播报文本为服务器基于用户的语音指令生成的答复文本，例如，当用户的语音指令对应的文本内容为：“今天是星期几”；服务器再根据用户的语音指令生成对应的答复文本“今天是星期三”，再经过后续处理生成“今天是星期三”对应的语音音素信息，由显示设备进行播报，这样就能从听觉上获取播报信息。

在上述S501中，所述获取与待播报文本对应的语音音素序列的实现方法可以包括如下步骤：

步骤1、接收用户的语音指令。

在一些实施例中，用户可以使用唤醒词将显示设备中的虚拟数字人唤醒，对其发出语音指令，由终端设备将用户的语音指令发送至服务器。

在接收到用户的语音指令之后，还需要对所述语音指令利用远场语音识别的文法规则和统计学原理等得到正确的汉字序列，纠正一些拼音的识别错误，对每一个音节确认中正确的字符。

步骤2、识别所述语音指令，并解析所述语音指令获取所述语音指令的关键词。

对纠正过的所述语音指令进行对语音识别结果进行分析理解，简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构，用户通过说出满足这种结构的语句，来调用意图。

步骤3、根据所述语音指令的关键词获取所述语音指令对应的所述待播报文本。

在一些实施例中，通过所述语音指令的关键词可以在关键词与意图对应表中，获取用户的意图，所述关键词与意图对应表是预先设置的，包含所述关键词对应的多种意图，关键词越多，获取的用户意图越准确。

步骤4、生成与所述待播报文本对应的语音。

在一些实施例中，所述生成与所述待播报文本对应的语音的实现方式可以为：通过语音合成(Text To Speech，TTS)技术获取所述待播报文本对应的语音。所述语音合成是将文字转化为语音的一种技术，在语音合成技术中，主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分，语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，想好该怎么读；声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，实现发声的功能。

步骤5、基于所述待播报文本对应的语音生成所述语音音素序列。

示例性的，当所述待播报文本为“今天星期三”，基于所述待播报文本为“今天星期三”的语音生成的语音音素序列可以为：“jin1-tian1-shi1-xing1-qi1-san1”。

在上述S501中，所述获取与待播报文本对应的目标虚拟数字人面部的初始关键点坐标的实现方法可以包括如下步骤：

步骤一、确定目标虚拟数字人形象，并提取所述目标虚拟数字人面部的关键点。

在一些实施例中，显示设备为用户提供了多种虚拟数字人形象，用户可以根据自己的喜好选择心仪的虚拟数字人形象，显示设备将用户选择的虚拟数字人形象传输至服务器，服务器便可确定目标虚拟数字人形象，再基于所述目标虚拟数字人形象，提取所述目标虚拟数字人面部的关键点，例如，可以提取所述目标虚拟数字人面部的64个关键点、所述目标虚拟数字人面部的98个关键点、所述目标虚拟数字人面部的106个关键点，本申请实施例中对此不做限定。

步骤二、将所述关键点坐标缩放至预设值域范围内，得到预设值域范围内的所述目标虚拟数字人面部的关键点坐标。

在一些实施例中，将上述步骤一中提取的所述面部的关键点缩放到预设值域范围内，便于与预设人脸的关键点进行对齐。

步骤三、将预设值域范围内的所述目标虚拟数字人面部的至少一个关键点坐标与预设人脸的面部关键点坐标进行对齐，获取所述面部的初始关键点坐标。

在一些实施例中，将预设值域范围内的所述目标虚拟数字人面部的至少一个关键点与预设人脸进行对齐，是将所述目标虚拟数字人面部的眼睛鼻子所在的直线相交的点记为x＝0的点，以x＝0将所述目标虚拟数字人面部的关键点通过旋转和平移与预设人脸上的眼角，鼻梁上的8组关键点最大重叠，最终获得空间对齐后的面部的初始关键点坐标。

示例性的，可以参照6所示，为将预设值域范围内的所述目标虚拟数字人面部的至少一个关键点坐标与预设人脸的面部关键点坐标进行对齐，获取所述面部的初始关键点坐标的示意图，图6中的(A)为根据用户选择的虚拟数字人形象提取的面部关键点，图6中的(B)为预设人脸的面部关键点示意图，图6中的(C)为将预设值域范围内的所述目标虚拟数字人面部的至少一个关键点坐标与预设人脸的面部关键点坐标进行对齐后得到的面部初始关键点坐标。

S502、基于所述待播报文本对应的语音音素序列生成所述面部关键点坐标序列。

在一些实施例中，所述基于所述待播报文本对应的语音音素序列生成所述面部关键点坐标序列中包括了所有面部关键点中的每一个关键点坐标序列，例如，当所述面部关键点的数量为64时，所述面部关键点序列就包括了64个点对应的64个坐标序列。

S503、根据所述待播报文本、所述语音音素序列以及所述面部关键点坐标序列生成目标标签序列。

其中，所述目标标签序列中的任一标签包括：所述待播报文本的关键词对应的所述语音音素序列的序列片段，以及所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段。

S504、向显示设备发送所述目标标签序列，以使所述显示设备根据所述目标标签序列驱动所述目标虚拟数字人，生成所述待播报文本对应的虚拟数字人动画。

通常人在说话时，可以观察到人脸面部的一些区域是不会产生任何的动作；作为参考，在驱动虚拟数字人时，可以将无需动作驱动的固定关键点坐标存放在显示设备端，服务器只需要传输需要驱动的关键点坐标，如嘴部、眼部以及鼻子周围的关键点坐标，这样可以减少数据量的传输，保证了实时性。

在一些实施例中，参照图7所示，为所述待播报文本对应的虚拟数字人动画的效果呈现图，包括：虚拟数字人动画展示区71，以及实时字幕区72。

示例性的，当用户在发出语音指令对应的文本内容为“今天天气怎么样”时，还可以在界面上显示目前的天气状况；当用户在发出语音指令对应的文本内容为“推荐某地的美食”时，还可以在界面上显示相关食物的图片；以使得用户可以从视觉上获取丰富的播报信息，因此本申请实施例可以在虚拟数字人播报所述待播报文本时，展示所述待播报文本对应的实时字幕，用户不仅可以从听觉上感知播报信息，还能获取丰富的视觉交互效果，提高用户体验。

图8中示例性的示出了本申请实施例提供的一种虚拟数字人交互方法的流程示意图，如图8所示，本申请实施例提供的虚拟数字人交互方法包括如下步骤：

S801、获取与待播报文本对应的语音音素序列以及目标虚拟数字人面部的初始关键点坐标。

S802、根据语音驱动数字人模型生成与所述语音音素序列对应的所述面部关键点坐标序列。

其中，所述语音驱动数字人模型为基于样本数据集对机器学习模型进行训练获取的模型，所述样本数据集包括多组样本数据，任一组样本数据包括：样本语音音素序列以及所述样本语音音素序列对应的面部关键点坐标序列。

本申请实施例中的所述预设机器学习模型可以为：卷积神经网络(ConvolutionalNeural Networks，CNN)模型、循环神经网络(Recurrent Neural Networks，RNN)、递归神经网络(Recursive Neural Network，RNN)等机器学习模型。

S803、获取与所述语音音素序列的各序列片段对应的所述待播报文本中的关键词。

示例性的，参照表一所示，为所述语音音素序列的各序列片段对应的所述待播报文本中的关键词的对应表，如表一中的语音音素序列片段1-13和片段14-23，对应的所述待播报文本中的关键词“今天”；语音音素序列片段24-36和片段37-49，对应的所述待播报文本中的关键词“天气”。

表一

S804、获取与所述语音音素序列的各序列片段对应的所述面部关键点坐标序列的序列片段。

示例性的，参照表二所示，为与所述语音音素序列的各序列片段对应的所述面部关键点坐标序列的序列片段的对应表，如表二中的语音音素序列片段1-13，对应的所述面部关键点坐标序列i；语音音素序列片段14-23，对应的所述面部关键点坐标序列i+1。

表二

S805、基于所述语音音素序列的各序列片段对应的所述待播报文本中的关键词以及所述面部关键点坐标序列的序列片段生成所述目标标签序列。

示例性的，参照表三所示，为所述目标标签序列的表格示意图，如表三中的所示的标签序列，例如，标签1对应的语音音素序列为语音音素序列片段1-13和语音音素序列片段14-23、待播报文本中的关键词为“今天”以及所述面部关键点坐标序列为i和面部关键点坐标序列i+1；又例如，标签2对应的语音音素序列为语音音素序列片段24-36和语音音素序列片段37-49、待播报文本中的关键词为“天气”以及所述面部关键点坐标序列为i+3和面部关键点坐标序列i+4。

表三

在一些实施例中，参照图9所示，以所述待播报文本为“北京今天天气晴”为例，图9为所述语音音素序列对应的所述待播报文本中的关键词以及所述面部关键点坐标序列生成所述目标标签序列的示意图，包括：所述语音音素序列92、所述语音音素序列92对应的所述待播报文本中的关键词91、所述语音音素序列92对应的所述面部关键点坐标序列93，以及所述目标标签序列94，所述目标标签序列94中的标号为1的标签包括：关键词“北京”对应的语音音素序列片段、待播报文本中的关键词“北京”，以及语音音素序列片段对应的面部关键点坐标序列。

S806、向显示设备发送所述目标标签序列，以使所述显示设备根据所述目标标签序列驱动所述目标虚拟数字人，生成所述待播报文本对应的虚拟数字人动画。

图10中示例性的示出了本申请实施例提供的另一种虚拟数字人交互方法的流程示意图，如图10所示，本申请实施例提供的虚拟数字人交互方法包括如下步骤：

S1001、接收目标标签序列。

其中，所述目标标签序列中的任一标签包括：待播报文本的关键词对应的所述语音音素序列的序列片段，以及所述语音音素序列的序列片段对应的面部关键点坐标序列的序列片段。

在一些实施例中，所述显示设备在接收到所述目标标签序列之后，对所述目标标签序列进行解析，就可以获取所述目标标签序列中的各个标签的待播报文本的关键词对应的所述语音音素序列的序列片段，以及所述语音音素序列的序列片段对应的面部关键点坐标序列的序列片段。

S1002、基于所述目标标签序列中的各个标签的所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段驱动目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画。

在上述S1002中的基于所述目标标签序列中的各个标签中的以及所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段驱动所述目标虚拟数字人之前，所述虚拟数字人交互方法还包括步骤A和步骤B：

步骤A、获取所述目标虚拟数字人的纹理坐标以及多个纹理三角形。

在一些实施例中，所述获取所述目标虚拟数字人的纹理坐标的方法可以为对所述目标虚拟数字人的面部关键点坐标进行归一化处理，以获取所述目标虚拟数字人的纹理坐标。纹理坐标值域为0到1，所以需要将所述面部关键点的坐标归一化处理到[0，1]的空间，缩放方式可以为将所述面部关键点坐标除以拉伸图片(方形)的像素宽度。

在一些实施例中，所述获取所述目标虚拟数字人的多个纹理三角形，是对所述目标虚拟数字人的面部关键点进行三角网格化，是将面部关键点利用Delaunay三角剖分算法，获取多个纹理三角形，其中，Delaunay三角剖分(Triangulation)就是对给定的平面点集，生成三角形集合的过程，例如，在有限元仿真，光线追踪渲染等计算当中，都需要把几何模型转化为三角网格数据，即“三角网格生成”。

步骤B、根据所述目标虚拟数字人的面部纹理坐标、多个面部纹理三角形、所述面部关键点序列生成所述虚拟数字人动画。

参照图11所示，为本申请实施例提供的生成所述虚拟数字人动画的架构图，包括：待驱动的目标虚拟数字人111，所述目标虚拟数字人的面部纹理坐标112，所述目标虚拟数字人的面部的多个纹理三角形113、所述面部关键点序列114以及生成的驱动关键点坐标序列115，在申请实施例中，通过将所述目标虚拟数字人的面部纹理坐标112，所述目标虚拟数字人的面部的多个纹理三角形113、所述面部关键点序列114传入Opengl ES渲染器，得到一帧一帧的驱动关键点坐标序列115，再并通过传入顶点坐标速度控制音画对齐，例如当帧率为60Fps，传入速度为16ms/帧，生成虚拟数字人动画。

作为对上述实施例的细化与扩展，所述虚拟数字人交互方法还包括：

步骤a、获取所述目标标签序列中的各个标签中的所述待播报文本的关键词。

步骤b、根据所述目标标签序列中的各个标签中的所述待播报文本的关键词生成与所述虚拟数字人动画的实时字幕。

步骤c、将所述实时字幕与所述虚拟数字人动画进行同步渲染，输出与所述待播报文本对应的实时字幕。

示例性的，参照图12所示，为本申请实施例提供的虚拟数字人交互方法输出的动画的示意图，当所述待播报文本为“今天北京的天气晴，最高温度为……”时，图12所示的虚拟数字人的动画界面上包括：关于北京天气的各种信息，虚拟数字人动画，实时字幕；当语音播报的字幕如1212所示，阴影部分为已经播报的文本区域，随着文本的播报，字幕也会将已播报的字符进行区别处理，区别处理的方式可以为将已播报的字符的颜色设置为黑底蓝色，未播报的字符的颜色设置为黑底白色；同时虚拟数字人的嘴部也会随着字符的播报产生变化；具体的，随着语音的播报，如图12中的字幕区域1212、1222、1232所示，逐渐将已播报的字符进行区别处理，同时，虚拟数字人的嘴型也会如图12中的1211、1221、1231所示的时而闭合，时而张开。

图13中示例性的示出了本申请实施例提供的一种虚拟数字人交互方法的交互流程示意图，如图13所示，本申请实施例提供的虚拟数字人交互方法的交互流程示意图的显示设备可以为任一具有显示功能的智能设备，本申请以智能手机为例，该虚拟数字人交互方法包括如下步骤：

S1301、服务器获取与待播报文本对应的语音音素序列以及目标虚拟数字人面部的初始关键点坐标。

S1302、服务器基于所述待播报文本对应的语音音素序列生成所述虚拟数字人的面部关键点坐标序列。

S1303、服务器根据所述待播报文本、所述语音音素序列以及所述面部关键点坐标序列生成目标标签序列。

S1304、服务器向显示设备发送所述目标标签序列，以使所述显示设备根据所述目标标签序列驱动所述目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画。

S1305、显示设备接收所述目标标签序列。

S1306、显示设备基于所述目标标签序列中的各个标签的所述语音音素序列的序列片段对应的所述面部关键点坐标序列的序列片段驱动目标虚拟数字人，输出所述待播报文本对应的虚拟数字人动画。

通过本申请实施例提供的服务器与显示设备之间的交互步骤，可以在获取与待播报文本对应的语音音素序列以及目标虚拟数字人面部的初始关键点坐标后，再基于所述待播报文本对应的语音音素序列以及所述目标虚拟数字人面部的初始关键点坐标生成所述虚拟数字人的面部关键点坐标序列，然后根据所述待播报文本、所述语音音素序列以及所述面部关键点坐标序列生成目标标签序列；以使得所述显示设备根据所述目标标签序列驱动所述虚拟数字人，生成虚拟数字人动画，因此，本申请实施例不仅可以通过听觉感知来自智能设备的语音播报，而且可以从视觉上获取待播报文本对应的虚拟数字人动画，提高用户体验感。

本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述虚拟数字人交互方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请提供一种计算机程序产品，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现上述的虚拟数字人交互方法。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：海信视像科技股份有限公司;

上一篇：一种便携式系泊区域人员保护装置
下一篇：空间音频合成方法、电子设备及计算机可读存储介质