一种基于多模态数据的虚拟人物切换方法及系统

文献发布时间：2024-01-17 01:19:37

技术领域

本申请涉及展馆讲解领域，具体为一种基于多模态数据的虚拟人物切换方法及系统。

背景技术

展馆一般称谓会展场馆，是一个活动场所，用予展示商品、会议交流、信息传播、经济贸易等的场所，目前基于虚拟现实技术可以将场馆进行虚拟化，参展者可以通过虚拟现实技术进入虚拟场馆，在虚拟场馆进行参展，了解产品，与此同时，每个场馆也配套有真人主持人，真人主持人同样通过虚拟现实技术进入虚拟场馆，以解答参展人员的疑问，目前一个真人主持人会同时对接很多参展人员，在很多情况下不能实时兼顾所有的参展人员，降低了参展人员的参展体验感。

鉴于此，克服该现有技术产品所存在的不足是本技术领域亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种基于多模态数据的虚拟人物切换方法及系统，通过虚拟人进行讲解，实时兼顾所有的参展人员，提高参展人员的参展体验感。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种基于多模态数据的虚拟人物切换方法，包括：

获取当前全场有问题导航需求的参展者，根据参展者请求意图以及参展者所在分区位置，确定参者者所对应的目标问题；

基于目标问题进行检索，判断是否存在与目标问题对应的解答演示记录；

如果存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第一问题集合；如果不存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第二问题集合；

根据参展者属性确定参展者的讲解权重，根据讲解权重对所述第一问题集合中的目标问题进行排序，触发虚拟人按照排序结果对目标问题所对应的参展者进行解答；

根据参展者属性确定参展者的讲解权重，根据讲解权重对所述第二问题集合中的目标问题进行排序，触发真人按照排序结果对目标问题所对应的参展者进行解答。

进一步地，所述根据参展者属性确定参展者的讲解权重，根据讲解权重对所述第一问题集合中的目标问题进行排序，触发虚拟人按照排序结果对目标问题所对应的参展者进行解答之后包括：

在虚拟人解答过程中，捕获参展者的表情信息、注意力信息以及肢体信息；

根据表情信息、注意力信息和肢体信息预测对问题解答的满意度；

如果满意度小于设定的阈值，则触发虚拟人向参展者征询解答反馈；

根据解答反馈调整解答的语速、简要程度以及讲解方式；

在经过一次调整后，如果满意度仍小于设定的阈值，则上报需要真人协助的切换请求；

触发由虚拟人切换真人，由真人进行解答。

进一步地，触发由虚拟人切换真人，由真人进行解答包括：

获取真人与虚拟人的表情相似度、语调相似度以及肢体动作相似度；

如果表情相似度、语调相似度以及肢体动作相似度满足设定要求，则获取真人的实时解答视频，对实时解答视频进行解析得到多个子视频帧，按照视频流的顺序将视频帧重投影至虚拟人所对应的映射实体上，进而通过真人进行解答；

如果表情相似度、语调相似度以及肢体动作相似度不满足设定要求，则触发真人模仿虚拟人的指令；

如果经过预设时间的模拟，仍旧无法满足相似度要求，则检测虚拟人解答过程中的语音停顿处，在语音停顿处将虚拟人切换为真人，由真人进行解答。

获取对目标问题感兴趣的围观参展者，并获取打断解答进程的目标参展者，并获取目标参展者的打断问题；其中，围观参展者包括最初提问的初始参展者以及后续加入的新增参展者；

并通过预先训练好的分类器根据围观参展者的参展者属性、打断问题是否符合该分区的问题需求和围观参展者对目前正在回答问题的虚拟人的满意情况，确定是否需要回答该打断问题；

如果需要回答该打断问题，则进一步判断是否能够检索到打断问题的解答演示记录；

如果能够检索到打断问题的解答演示记录，则判断虚拟人当前面向的参展者是否为目标参展者；

如果不是目标参展者，则获取虚拟人与目标参展者之前的面向角度，根据面向角度旋转虚拟人，以使虚拟人面向目标参展者，并对新问题进行解答。

进一步地，所述如果不是目标参展者，则获取虚拟人与目标参展者之前的面向角度，根据面向角度旋转虚拟人，以使虚拟人面向目标参展者，并对新问题进行解答包括：

如果不是目标参展者，获取虚拟人与围观参展者之间的位置关系，根据位置关系确定虚拟人相对于围观参展者的中心位置；

判断虚拟人是否位于中心位置；

如果虚拟人没有位于中心位置，则根据虚拟人当前位置与中心位置移动虚拟人，直至将虚拟人移动到中心位置；

获取虚拟人与目标参展者之前的面向角度，根据面向角度旋转虚拟人，以使虚拟人面向目标参展者，并对新问题进行解答。

进一步地，所述获取虚拟人与围观参展者之间的位置关系，根据位置关系确定虚拟人相对于围观参展者的中心位置包括：

获取虚拟人与每个围观参展者之间的初始距离，以及每个围观参展者的讲解权重；

根据初始距离以及相应的讲解权重计算虚拟人与每个围观参展者之间的目标距离，其中，权重越高目标距离越小；

根据目标距离计算虚拟人相对于围观参展者的中心位置。

进一步地，所述根据初始距离以及相应的讲解权重计算虚拟人与每个围观参展者之间的目标距离，其中，权重越高目标距离越小包括：

如果围观参展者的讲解权重低于设定阈值，则隐藏相应的围观参展者；且隐藏关注点不在虚拟人或者关注点不在被讲解产品的参展者；

根据剩余后的参展者的初始距离以及相应的讲解权重计算虚拟人与每个围观参展者之间的目标距离。

进一步地，所述方法还包括：

如果不能够检索到新问题的解答演示记录，则需要触发由虚拟人切换真人，由真人进行解答；

在切换之前进行如下过程：

判断虚拟人当前面向的参展者是否为目标参展者；

如果虚拟人当前面向的参展者是目标参展者，则获取真人与虚拟人的表情相似度、语调相似度以及肢体动作相似度；根据相似度情况进行真人切换；

如果虚拟人当前面向的参展者不是目标参展者，则在旋转或移动的过程中，执行虚拟人切换为真人。

进一步地，所述获取当前全场有问题导航需求的参展者，根据参展者请求意图以及参展者所在分区位置，确定参者者所对应的目标问题包括：

将展馆分割为若干讲解区，每个讲解区有预设产品，该产品有特定的讲解内容。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种基于多模态数据的虚拟人物切换系统，包括：获取模块、判断模块、分类模块、第一解答模块和第二解答模块；

获取模块用于获取当前全场有问题导航需求的参展者，根据参展者请求意图以及参展者所在分区位置，确定参者者所对应的目标问题；

判断模块用于基于目标问题进行检索，判断是否存在与目标问题对应的解答演示记录；

分类模块用于如果存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第一问题集合；如果不存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第二问题集合；

第一解答模块用于根据参展者属性确定参展者的讲解权重，根据讲解权重对所述第一问题集合中的目标问题进行排序，触发虚拟人按照排序结果对目标问题所对应的参展者进行解答；

第二解答模块用于根据参展者属性确定参展者的讲解权重，根据讲解权重对所述第二问题集合中的目标问题进行排序，触发真人按照排序结果对目标问题所对应的参展者进行解答。

本申请的有益效果是：本申请提供一种基于多模态数据的虚拟人物切换方法及系统，包括：获取当前全场有问题导航需求的参展者，根据参展者请求意图以及参展者所在分区位置，确定参者者所对应的目标问题；基于目标问题进行检索，判断是否存在与目标问题对应的解答演示记录；如果存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第一问题集合；如果不存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第二问题集合；根据参展者属性确定参展者的讲解权重，根据讲解权重对第一问题集合中的目标问题进行排序，触发虚拟人按照排序结果对目标问题所对应的参展者进行解答；根据参展者属性确定参展者的讲解权重，根据讲解权重对第二问题集合中的目标问题进行排序，触发真人按照排序结果对目标问题所对应的参展者进行解答。通过虚拟人进行讲解，实时兼顾所有的参展人员，提高参展人员的参展体验感。

进一步地，在虚拟人被打断后，执行虚拟人切换真人的操作，在此切换的过程中，尽量不让参展者感知到此切换操作，提供用户体验。

进一步地，在多人情况下，考虑旋转或切换位置，尽量兼顾全部参展者，提高用户体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于多模态数据的虚拟人物切换方法的流程示意图；

图2是本申请实施例提供的图1中步骤40的具体流程示意图；

图3是本申请实施例提供的图2中步骤406的具体流程示意图；

图4是本申请实施例提供的另一种基于多模态数据的虚拟人物切换方法的流程示意图；

图5是本申请实施例提供的图4中步骤80的具体流程示意图；

图6是本申请实施例提供的虚拟人与参展者的相对位置示意图；

图7是本申请实施例提供的图6中旋转后的虚拟人与参展者的相对位置示意图；

图8是本申请实施例提供的图6中移动位置并旋转后的虚拟人与参展者的相对位置示意图；

图9是本申请实施例提供的另一种虚拟人与参展者的相对位置示意图；

图10是本申请实施例提供的图9中移动位置后的虚拟人与参展者的相对位置示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

需要说明的是，本申请实施例方法由于是在电子设备中执行，各电子设备的处理对象均以数据或信息的形式存在，例如时间，实质为时间信息，可以理解的是，后续实施例中若提及尺寸、数量、位置等，均为对应的数据存在，以便电子设备进行处理，具体此处不作赘述。

参阅图1，本实施例提供了一种基于多模态数据的虚拟人物切换方法，包括：

步骤10：获取当前全场有问题导航需求的参展者，根据参展者请求意图以及参展者所在分区位置，确定参者者所对应的目标问题。

本实施例的展区根据展示的产品类型被划分为不同的分区，不同分区所针对的人群存在差异。将展馆分割为若干讲解区，每个讲解区有预设产品，该产品有特定的讲解内容。其中，该展馆是元宇宙的虚拟展馆，参展者以及真人主持人均通过虚拟现实技术进入该虚拟展馆。例如，所有人都是佩戴一个vr设备，然后可以在穿戴动作捕捉识别，或者有摄像头进行动作捕捉，从而进入元宇宙虚拟展会。

参展者一般分为具有具体目标的参展者；或者，主要为了参观的参展者，这一类参展者可能没有具体的目标，更多的是随意观看。

在参展者进入展馆后，确定该参展者的参展者属性，根据参展者属性启动合适的讲解策略，下文会做具体介绍。

在实际应用场景下，当有参展者进入展区后，获取当前全场现有问题导航的参展者及其参展者属性，根据参展者请求意图以及所在分区位置，确定参展者所对应的目标问题。

其中，参展者属性包括参展意图、购买需求、购买力等信息。其中，购买需求都是在参展前预设的，由参展者自己填写，或者之前存储在数据库中，购买力可以通过大数据分析得到，购买力还可以根据参展者预先填写的预算信息得到。其中，通过大数据分析购买力的可选方式为：将虚拟场馆与购物平台建立关联，通过参展者的唯一身份信息，访问购物平台，根据购物平台的消费情况，确定参展者的购买力。

其中，参展者所对应的目标问题可以是分析参展者提问的语音文本得到；或者，发起虚拟人导航的请求来获取有问题导航的参展者；或者，在检测到参展者注视某个物品的时间超过一定的时间，将与该物品相关的问题作为目标问题。

其中，在根据参展者请求意图以及参展者所在分区位置，确定参者者所对应的目标问题时，重点关注的是参展者购买需求与分区的一致性，参展者的需求是不是与分区一致，另外就是参展者发起的提问请求的内容，是不是和当前所在分区一致。

如果参展者购买需求与分区所展示的产品不一致，参展者的需求与分区不一致，参展者发起的提问请求的内容与分区不一致，则该参展者可能进错场馆了，则无需将其问题作为目标问题，直接过滤。或，提示该参展者该分区与其需求不一致，并引导其进入所对应的分区。

步骤20：基于目标问题进行检索，判断是否存在与目标问题对应的解答演示记录。

其中，在数据库中预先存储有常见问题的解答演示记录，以目标问题为关键词进行检索，以查找对应的解答演示记录。

其中，解答演示记录是基于之前真人讲解员讲解过的内容片段记录，记录在服务器得到的，真实问题-解答演示记录的结构化数据储存在服务器中。解答演示记录的获取过程为：预先录制问题所对应的真人解答记录，然后将真人解答记录进行分帧处理，从而将真人解答记录拆分为多个视频帧，分析视频帧所对应的字段、真人面部表情和真人动作信息，根据各个字段的读音确定标准嘴型信息，根据面部表情对标准嘴型信息进行调整得到目标嘴型信息，根据目标嘴型信息规划相应的预设实体的唇部运动轨迹，还根据真人面部表情优化预设实体的面部表情，再根据真人动作信息调整预设实体的真人动作，以得到该视频帧所对应的子演示记录，最后按照视频帧的顺序将子演示记录拼接成解答演示记录，并将该解答演示记录与相应的问题建立关联，得到问题-解答演示记录，并将问题-解答演示记录存储在数据库中。其中一个预设的目标实体对应数据库的一个分区。

在另一个实施例中，预先录制真人视频，然后用真人的语言、动作以及表情信息驱动虚拟人，利用语音动画合成技术和人工智能技术，根据预先输入音频，即可快速生成具备精确口型、丰富表情和动作的虚拟人讲解视频。

具体地，基于惯性动作捕捉技术或者摄像头捕获真人动作信息，通过真人动作信息驱动虚拟人的动作。

基于Face2Face技术，利用面部追踪技术和图像算法，将真人的面部表情、说话时肌肉变化映射到虚拟人脸上，实现面部重演实现真人和虚拟形象的表情同步。

采用paddlespeech，识别真人的语音，将语音变成文本，保存在数据库，需要使用时，采用文本转语音的tts技术，变成虚拟人音色的声音；或者把真人的原声保存数据库。

在实际应用场景下，在将展馆分割为若干分区，每个分区有预设目标实体，该目标实体有特定的讲解内容，根据参展者提出问题的时候所在的分区以及面对的目标实体，再通过问题意图确定参展者提问，从而检索到服务器中的解答演示记录。

步骤30：如果存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第一问题集合；如果不存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第二问题集合。

步骤40：根据参展者属性确定参展者的讲解权重，根据讲解权重对所述第一问题集合中的目标问题进行排序，触发虚拟人按照排序结果对目标问题所对应的参展者进行解答。

其中，讲解权重的制定机制为优先排序能销售转化的参展者。权重的影响因素至少包括：排不到虚拟人的参展者的等待时间、参展者购买需求与问题意图的一致性、还包括目前正在听取虚拟人讲解的附近参展者的总数量；通过预设权重并设置自定义公式，实现计算。在可选的实施例中，等待时间的权重为a，展者购买需求与问题意图的一致性的权重为b，目前正在听取虚拟人讲解的附近参展者的总数量为c，讲解权重等于a+b+c，讲解权重越大，排序越靠前。

步骤50：根据参展者属性确定参展者的讲解权重，根据讲解权重对所述第二问题集合中的目标问题进行排序，触发真人按照排序结果对目标问题所对应的参展者进行解答。

在本实施例中，如果存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第一问题集合；然后执行步骤40。

如果不存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第二问题集合，然后执行步骤50。

在实际应用场景下，在执行步骤40时，通过虚拟人进行解答过程中，可能存在参展者不满意其答复的情况或者会提出新的问题(该问题虚拟人无法答复，需要切换为真人)，此种情况下，虚拟人可能直接被参展者打断，严重影响参展者的体验感，为了提高参展者的体验感，在被参展者打断后，需要执行虚拟人切换真人的操作，但是在此切换的过程中，需要尽量不让参展者感知到此切换操作，为了实现前述目的，在优选的实施例中，在真人替换虚拟人时，真人预先站在摄像头前面，真人模仿虚拟人以完成真人到虚拟人的切换。参阅图3，触发由虚拟人切换真人，由真人进行解答包括：

步骤401：获取真人与虚拟人的表情相似度、语调相似度以及肢体动作相似度。

步骤402：如果表情相似度、语调相似度以及肢体动作相似度满足设定要求，则通过实时人脸跟踪技术获取真人表情信息，通过摄像头获取真人动作信息，通过输入的文本信息或音频获取真人文字信息，采用真人表情信息、真人动作信息以及真人文字信息驱动虚拟人。

通过实时人脸跟踪技术，实现真人和虚拟形象的表情同步，通过普通摄像头输入，即可实时驱动虚拟形象进行同步动作，通过输入文本或音频，即可实时驱动虚拟形象脸部口型。

在实际应用场景下，还存在真人与当前的虚拟人相似度达不到要求的情况，为了实现真人切换虚拟人的无缝衔接，在进一步优选的实施例中，还包括下述步骤403。

步骤403：如果表情相似度、语调相似度以及肢体动作相似度不满足设定要求，则触发真人模仿虚拟人的指令。

步骤404：如果经过预设时间的模拟，仍旧无法满足相似度要求，则检测虚拟人解答过程中的语音停顿处，在语音停顿处将虚拟人切换为真人，由真人进行解答。

其中，语音停顿处执行切换，可以尽量减小切换前后差异性，尽量不影响参展者体验。也可以在旋转或切换位置的时候进行切换，不过这个主要适用于多人场景，下文有具体分析。

前述主要讲解了虚拟人被打断之后如何切换为真人，在实际应用场景下，如果被打断说明参展者可能已经对解答内容不满意了，为了进一步提高参展者体验，对于参展者不满意其答复进行打断的情况，可以进一步优化，更优的方案应该对参展者的状态进行预判，参阅图2，具体为：

步骤401：在虚拟人解答过程中，捕获参展者的表情信息、注意力信息以及肢体信息；

如果参展者表情信息为困惑、紧缩眉头、不耐烦等，或，如果注意力不集中、东张西望等，如果肢体信息转向其他产品等，则说明参展者对问题解答的满意度并不太高。其中，可以通过分类器的控制技术来基于表情信息、注意力信息以及肢体信息来输出一个表征满意度的融合值，根据该融合值与设定的阈值确定参展者的满意情况。

步骤402：根据表情信息、注意力信息和肢体信息预测对问题解答的满意度；

步骤403：如果满意度小于设定的阈值，则触发虚拟人向参展者征询解答反馈；

步骤404：根据解答反馈调整解答的简要程度；

按照前述步骤401～步骤403进行满意度的预测时，准确率可能不太高，只用于辅助检测，为了进一步关注参展者的满意度，可以分段进行讲解，每讲解一段可以主动询问参展者对解答是否满意，是否有改进意见，以根据参展者的反馈确定其满意度情况。

如果满意度小于设定的阈值，则发起询问，确定用户不满意的地方，是否解答过快、解答的简要程度是否与参展者匹配，并根据反馈进行调整，如果经过调整自后，满意度仍小于设定的阈值，则上报需要真人协助的切换请求。此过程是主动切换为真人，避免出现前文被打断的情况。

在实际应用场景下，不同参展者对讲解的需求是存在差异的，有些参展者希望讲解的详细一些，有些参展者希望讲解的简要些，为了适配更多的参展者，对于同一个问题，关联有两个解答演示记录，其中一个解答演示记录为详细版本，另一个解答演示记录为简要版本，以根据参展者的需求自适应切换相应的解答演示记录。

步骤405：在经过一次调整后，如果满意度仍小于设定的阈值，则上报需要真人协助的切换请求；

步骤406：触发由虚拟人切换真人，由真人进行解答。由虚拟人切换真人的过程详见前文描述以及图3的描述，在此不再赘述。

在又一个场景下，参展者在听虚拟人讲解的过程中，可能会存在如下情况，某个参展者提出问题后，附近参展者进行围观，进入了多人状态，并且其中有人提出了打断或者无法回答的问题，那么虚拟人需要判断围观的各个参展者的权重，锁定提问的参展者或权重最高的参展者，进一步用分类器，判断实施启动多人情况下的真人进入虚拟人。

对于多人的情况，首先通过分类器，预测到底要不要回答这个参展者的打断问题。

其中，该分类器可以为基于循环神经网络的分类器，例如，为LSTM分类器，该分类器是预先训练好的，用于预测到底要不要回答的打断问题，该分类器的输入参数为围观参展者的参展者属性、打断问题是否符合该分区的问题需求和围观参展者对目前正在回答问题的虚拟人的满意情况，出参为要不要回答该问题。如果出参为需要回答此问题，则还需要进一步确定是直接旋转回答，还是更换位置回答，具体详见下述描述。

其中，围观参展者指的是面向虚拟人的面向角度接近阈值的参展者，参展者属性包括年龄、职业、性别、参展意图、购买需求、购买力、参展者的表情、参展者权重等信息。其中，购买需求都是在参展前预设的，由参展者自己填写，或者之前存储在数据库中，购买力可以通过大数据分析得到，购买力还可以根据参展者预先填写的预算信息得到。

打断问题是否符合该分区的问题需求指的是：每个分区均对应有相应需要展示的产品类型，如果该打断的问题与该分区对应的产品类型不相关，则说明打断问题不符合该分区的问题需求；如果该打断的问题与该分区对应的产品类型相关，则说明打断的问题符合该分区的问题需求。具体可以通过问题的意图识别技术来实现。

对目前正在回答问题的虚拟人的满意情况指的是：围观参展者对虚拟人解答的满意程度，具体可以捕获参展者的表情信息、注意力信息以及肢体信息来间接确定满意度。进一步地，可以分段进行讲解，每讲解一段可以主动询问参展者对解答是否满意以及是否有改进意见，以根据参展者的反馈确定其满意度情况。具体详见前文描述。

进一步地，为了还可以将真人与虚拟人的表情相似度、语调相似度以及肢体动作相似度作为分类器的输入参数。

进一步地，围观参展者的总数量、参展者排不到虚拟人的等待时间等信息均可以作为分类器的输入参数。

在可选的实施例中，参阅图4，多人情况下的解答模式具体如下：

步骤60：获取对目标问题感兴趣的围观参展者，并获取打断解答进程的目标参展者，进一步获取目标参展者的打断问题；其中，围观参展者包括最初提问的初始参展者以及后续加入的新增参展者；

步骤61：并通过预先训练好的分类器根据围观参展者的参展者属性、打断问题是否符合该分区的问题需求和围观参展者对目前正在回答问题的虚拟人的满意情况，确定是否需要回答该打断问题；

步骤62：如果需要回答该打断问题，则进一步判断是否能够检索到打断问题的解答演示记录；

将围观参展者的参展者属性、打断问题是否符合该分区的问题需求以及围观参展者的对目前正在回答问题的虚拟人的满意情况等信息作为输入参数输入至分类器，以确定是否需要回答此打断问题，具体过程见前文描述，在此不再赘述。如果分类器的出参结果为需要回答问题，则需要判断是否能够检索到新问题(即打断问题)的解答演示记录，如果能够检索到新问题的解答演示记录，则执行步骤63。如果不能够检索到新问题的解答演示记录，则需要触发由虚拟人切换真人，由真人进行解答；在切换之前进行如下过程：判断虚拟人当前面向的参展者是否为目标参展者；如果虚拟人当前面向的参展者是目标参展者，则获取真人与虚拟人的表情相似度、语调相似度以及肢体动作相似度；根据相似度情况进行真人切换；如果虚拟人当前面向的参展者不是目标参展者，则在旋转或移动的过程中，执行虚拟人切换为真人。

关于旋转或移动所对应的情况，请详见下文描述。

步骤63：如果能够检索到打断问题的解答演示记录，则判断虚拟人当前面向的参展者是否为目标参展者；

步骤64：如果不是目标参展者，则获取虚拟人与目标参展者之前的面向角度，根据面向角度旋转虚拟人，以使虚拟人面向目标参展者，并对新问题进行解答。如此，可以通过旋转位置，直接面向目标参展者进行解答，以提高用户体验度。

即，虚拟人最初面向的是初始参展者，如果其他参展者(即目标参展者)提出新的问题，且经过判断需要回答该新的问题时，需要旋转虚拟人，将虚拟人面向目标参展者，并对新问题进行解答。

如图6，1#参展者为初始观者，2#、3#、4#参展者为新增观者，最初虚拟人是面向(虚线代表面向)1#参展者的，4#参展者提出问题，如图7，虚拟人旋转角度面向4#参展者进行解答。

在实际应用场景下，如果直接旋转面向目标参展者，则没有兼顾其他参展者(如图7，并没有兼顾1#、2#、3#参展者)，更优的方案是需要将其他参展者考虑在内的，以避免忽略了其他参展者，进一步地，参阅图5和图8，步骤64具体包括：

步骤801：如果不是目标参展者，获取虚拟人与围观参展者之间的位置关系，根据位置关系确定虚拟人相对于围观参展者的中心位置；

步骤802：判断虚拟人是否位于中心位置；

步骤803：如果虚拟人没有位于中心位置，则根据虚拟人当前位置与中心位置移动虚拟人，直至将虚拟人移动到中心位置。

如图8所示，虚拟人移动位置，以保证其在于围观参展者的中心位置，然后再面向目标参展者(4#参展者)进行解答。

步骤804：获取虚拟人与目标参展者之前的面向角度，根据面向角度旋转虚拟人，以使虚拟人面向目标参展者，并对新问题进行解答。

进一步地，不同的参展者的讲解权重不一样，需要基于讲解权重确定中心位置，避免权重较高的参展者距离虚拟人较远，以提高转换率。

在步骤801中，具体包括如下步骤：首先，获取虚拟人与每个围观参展者之间的初始距离，以及每个围观参展者的讲解权重；然后，根据初始距离以及相应的讲解权重计算虚拟人与每个围观参展者之间的目标距离，其中，权重越高目标距离越小；如果围观参展者的讲解权重低于设定阈值(那么在讲解时，无需关注该围观参展者)，则隐藏相应的围观参展者；且隐藏关注点不在虚拟人或者关注点不在被讲解产品的参展者，说明此虚拟人并不是受众群体，需要进行隐藏。

然后，根据剩余后的参展者的初始距离以及相应的讲解权重计算虚拟人与每个围观参展者之间的目标距离。

最后，根据目标距离计算虚拟人相对于围观参展者的中心位置。

以图9和图10为例，3#、5#、6#、7#参展者为无需关注的参展者，4#参展者为权重最高的参展者，如果不考虑讲解权重，或者不隐藏无关的参展者，计算出来的中心位置可能在位置1，距离目标受众(1#、2#、4#)的距离较远，按照优化后的步骤确定的中心位置为位置2，距离目标受众(1#、2#、4#)的距离更近，通过隐藏参展者，使切换的时候虚拟人可以位移到参展者的中心点或者最佳的切换点)，提高了用户体验。

基于前述实施例，本实施例还提供了一种基于多模态数据的虚拟人物切换系统，包括：获取模块、判断模块、分类模块、第一解答模块和第二解答模块。

在实际使用中，获取模块用于获取当前全场有问题导航需求的参展者，根据参展者请求意图以及参展者所在分区位置，确定参者者所对应的目标问题。

判断模块用于基于目标问题进行检索，判断是否存在与目标问题对应的解答演示记录。

分类模块用于如果存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第一问题集合；如果不存在与目标问题对应的解答演示记录，则将相应的目标问题划分至第二问题集合。

第一解答模块用于根据参展者属性确定参展者的讲解权重，根据讲解权重对所述第一问题集合中的目标问题进行排序，触发虚拟人按照排序结果对目标问题所对应的参展者进行解答。

关于获取模块、判断模块、分类模块、第一解答模块和第二解答模块的具体实现过程请详见前述实施例，在此不再赘述。

基于前述实施例，本实施例还提供了一种基于虚拟人的展馆讲解装置，所述展馆讲解装置包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行前述实施例所述的虚拟人物切换方法。

可选的，处理器可包括一个或多个处理核心；处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，优选的，处理器可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、实体界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈思琦;
专利申请人：广州市宇境科技有限公司;

上一篇：视频生成方法及其装置
下一篇：一种鱼类稳定同位素样品预处理一体化设备