一种获取基于机器视觉的虚拟数字主讲人的方法

文献发布时间：2024-04-18 20:01:55

技术领域

本说明书涉及技术领域，尤其涉及一种获取基于机器视觉的虚拟数字主讲人的方法。

背景技术

在当今数字化时代，人工智能和虚拟现实技术的迅猛发展正在推动教育领域的革新。传统教学或会议场景中，需要主讲人与听讲人之间进行面对面的交流。而随着科技的不断进步，远程会议与教学成为了一种越来越普遍的形式。但主讲人与听讲人的互动体验相对有限，难以实现真实面对面场景交流体验。

利用基于视觉的虚拟数字主讲人还原主讲人场景，给听讲人真实交流场景的体验。

依发明人所知，现有基于语音获取嘴型特征以及通过嘴型区域图像和目标人物的非嘴型区域图像信息，生成虚拟人脸的方案。该方案只是通过语音和人脸图像信息生成虚拟的人脸，没有获取相关的人脸信息，不能够准确捕捉老师的面部表情变化，此外只关注了人脸面部变化，没有关注虚拟人的姿态动作变化等信息，使得虚拟数字主讲人不够逼真。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种获取基于机器视觉的虚拟数字主讲人的方法。基于机器视觉跟随虚拟数字主讲人面部表情以及嘴型以及同步回答问题的方案，使得虚拟数字主讲人在使用场景内的形成更为逼真，互动效果更好。

根据本说明书实施例提供了一种获取基于机器视觉的虚拟数字主讲人的方法包括：

获取包含主讲人全身信息的视频流；

基于视频流获取主讲人的人体信息和人脸信息；

基于主讲人的人脸信息识别主讲人嘴型信息；

构建虚拟数字主讲人，虚拟数字主讲人包括了获取主讲人的人脸信息以及嘴型信息。

优选的，获取提问人的音频信息；

根据音频信息生成音频答案；

虚拟数字主讲人与音频答案进行对帧融合。

优选的，基于主讲人的人脸信息识别主讲人的人脸信息包括：

通过视频流获取人形区域信息；

基于获取的人形区域信息识别人脸区域；

通过预存的主讲人的人脸信息数据库基于人脸分类模型识别主讲人的人脸区域，并按帧的顺序进行存储；

对按帧存储的人脸区域提取逐帧的人脸关键点。

优选的，基于主讲人的人脸信息识别主讲人嘴型信息包括：

通过主讲人的人脸关键点提取逐帧的嘴部关键点信息；

按帧利用嘴巴分类模型通过嘴巴关键点检测嘴巴类型。

优选的，获取包括主讲人的人脸信息以及嘴型信息的虚拟数字主讲人包括：

构建一个虚拟数字主讲人形象；

将主讲人的人脸信息以及嘴型信息与虚拟数字主讲人归一化到同一坐标比例；

将归一化后的人脸信息以及嘴型信息一一关联到归一化后的虚拟数字主讲人的人脸信息以及嘴型信息。

优选的，基于主讲人的人体信息还识别身姿关键点信息：

通过获取的主讲人的人体关键点获取逐帧的躯干关键点信息。

优选的，主讲数字虚拟人还包括身姿关键点信息；

将躯干关键点信息与虚拟数字主讲人归一化到同一坐标比例；

将归一化后的躯干关键点信息一一关联到归一化后的虚拟数字主讲人的躯干关键点。

优选的，基于主讲人的人体信息还包括识别手部关键点信息：

通过主讲人的人脸关键点信息关联对应的人形区域信息；

通过人形区域提取人体关键点；

通过人体关键点获取逐帧的手部关键点信息。

优选的，获取包括主讲人的人脸变化关键点以及嘴型信息虚拟数字主讲人包括：

按帧比对获取的主讲人逐帧人脸信息获取主讲人面部变化关键点信息；

将主讲人的面部变化关键点信息以及逐帧的嘴型信息与主讲数字虚拟人归一化到同一坐标比例；

将归一化后的主讲人的人脸变化关键点信息以及嘴型信息与归一化后的虚拟数字主讲人的人脸信息以及嘴型信息逐帧关联。

优选的，还包括获取身姿变化关键点信息的虚拟数字主讲人，包括：

按帧对比主讲人的躯干关键点信息获取身姿变化关键点信息；

将主讲人的身姿变化关键点信息与虚拟数字主讲人归一化到同一坐标比例；

将归一化后的主讲人身姿变化关键点信息与归一化后的虚拟数字主讲人的躯干关键点进行逐帧关联。

优选的，还包括获取手部变化关键点信息的虚拟数字主讲人，包括：

按帧对比主讲人的人体关键点获取手部关键点信息；

通过逐帧比对手部关键点信息获取到手部变化关键点信息；

将主讲人的手部变化关键点信息与虚拟数字主讲人归一化到同一坐标比例；

将归一化后的主讲人手部变化关键点信息与归一化后的虚拟数字主讲人的手部关键点进行逐帧关联。

优选的，根据音频信息生成音频答案至少包括：

依据提问人使用的语言对提问人的音频信息进行预处理；

将预处理后提问人音频信息转化为对应的文本数据；

通过生成式对话模型生成对应问题的答案文本；

将答案文本转化为音频答案。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例中基于机器视觉跟随虚拟数字主讲人面部表情以及嘴型以及同步回答问题的方案，使得虚拟数字主讲人在使用场景内的形成更为逼真，互动效果更好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据实施例一示出的一种方法的流程图；

图2A是本说明书根据实施例二示出的音频答案获取方法流程示意图；

图2B是本说明书图2A中步骤202的具体获取方法示意图；

图3是本说明书实施例三获取包含身姿关键点信息的虚拟数字主讲人方法示意图；

图4是本说明书根据实施例四获取主讲人的手部关键点信息方法示意图；

图5是本说明书根据实施例五包含人脸变化关键点以及嘴型信息的虚拟数字主讲人流程图；

图6是本说明书根据实施例六包含人脸变化关键点以及嘴型信息虚拟数字主讲人流程图；

图7是本说明书根据实施例七包含手部变化关键点信息虚拟数字主讲人流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示为本申请实施例一提供的一种获取基于机器视觉的虚拟数字主讲人的方法，包括：

101：获取包括主讲人全身信息的视频流；

通过一个固定的摄像头来采集主讲人的视频流，要确保摄像头视野可以捕捉到主讲人的整个身体和面部表情，以及手部动作等。

摄像头可以设置在例如云屏等用于会场的智能设备上，也可以是独立安装的设备。

102：基于视频流获取主讲人的人体信息和人脸信息；

获取摄像头的原始视频流数据，对获取的视频流每帧图像进行图像预处理，包括调整图像到同一尺寸，去除图像噪声等，以保证每次输入数据的稳定性。然后对预处理后的图像数据通过人形检测的深度学习模型获取视频图像中每个人形区域的位置信息。人形检测的深度学习模型中，例如采用SSD作为人形目标检测的模型用于人形目标检测，利用基于shufflenet作为人形特征提取网络。

对于上述检测到的每个人形区域，进行图像裁剪，归一化到同一人脸比例尺寸，获取出检测到的多个人形区域。对于待检测的多个人形区域，通过人脸检测的深度学习模型获取出每个人脸区域的位置信息。同时考虑到实际场景拍摄的人脸会有不同姿态、不同光照、遮挡等情况，我们会对人脸图像进行图像不同角度旋转、不同亮度变化、随机掩膜遮挡等方式的人脸图像数据采集，增强人脸图像数据样本，以提高算法模型的鲁棒性。人脸检测的深度学习模型中，比如采用yolov5face作为人脸目标检测的模型用于人脸目标检测，采用基于mobileone作为人脸特征提取网络。

为了识别出这些人脸区域中的主讲人，首先需要提前录入好主讲人的人脸数据库信息。对于检测的人脸区域，通过人脸分类的深度学习模型对主讲人进行识别分类，输出每个人脸区域跟主讲人相似程度的分数。根据实验经验，可以通过设置一个合适的阈值来筛选出主讲人。当该分数超过这个设定的阈值时，则认为该人脸区域属于主讲人，并将其放入主讲人的人脸信息数据库，按照视频帧顺序放入跟踪队列当中，方便后续取出和融合处理。人脸分类的深度学习模型中，比如采用轻量级的efficientnet模型作为人脸分类的骨干模型，用于人脸分类筛选主讲人。

采集到的主讲人的不同姿态动作的讲话视频，通过对讲话视频中的主讲人进行关键点数据标注。为了提高数据的多样性，通过不同的平移旋转变换、不同对比度变换、随机噪声等方式增加不同类型的人体姿态样本。然后通过pytorch的深度学习框架训练出检测人体关键点的深度学习模型。为了实现老师姿态关键点的连续跟踪和更好的稳定性，我们会对每帧获取到的人体关键点信息进行滤波处理。人体关键点的深度学习模型中，比如采用轻量级的mobilenet作为人体关键点特征提取模型，用于主讲人人体关键点提取。

对每帧人体关键点信息通过人脸关键点检测的深度学习模型，获取出人脸眼睛、眉毛、鼻子、嘴巴等多个部分的坐标信息。人脸关键点检测的深度学习模型中，比如采用轻量级的sfnet作为人脸关键点特征提取模型，用于人脸关键点特征提取。人脸关键点个数按预先设定，比较常见的例如可取64个人脸关键点。为了获取人脸面部的变化情况，需要统计多帧人脸关键点信息，然后计算多帧之间关键点的位移、旋转角度等数据来捕捉人脸面部表情的变化。

103：基于主讲人的人脸信息识别主讲人嘴型信息；

标记上述人脸关键点，获取出主讲人的嘴巴关键点信息。然后将所有嘴巴关键点坐标统一到0到1比例下，以排除异常数据的干扰判断。由于说话嘴型变化是个连续的过程，可以通过设定一个的帧数来进行嘴型的判断。对于归一化后的多帧嘴部关键点坐标，通过嘴巴分类的深度学习模型识别出主讲人的嘴型。嘴巴分类的深度学习模型中，比如采用轻量级的squeezenet模型作为嘴巴分类的骨干模型，用于主讲人的嘴巴口型的分类。

104：构建虚拟数字主讲人，虚拟数字主讲人包括了获取主讲人的人脸信息以及嘴型信息。

1041：通过渲染引擎构建出一个虚拟数字主讲人模型，比如utility模型等构建一个3D的虚拟数字主讲人。

1042：将主讲人的人脸信息以及嘴型信息与虚拟数字主讲人归一化到同一坐标比例；

1043：将归一化后的人脸信息以及嘴型信息一一关联到归一化后的虚拟数字主讲人。

为了让人物面部表情和嘴型变化更加自然和稳定，可以通过插值法来平滑虚拟数字人的运动动作，比如线性插值等。

这里的一一关联指的是逐帧和逐个关键点。因为每个关键点都有对应标记，因此很容易进行一一对应关联。

实施例一中包含嘴型信息和人脸信息的虚拟数字主讲人中的嘴型信息和人脸信息的获取不分先后顺序。

如图2A所示，在实施例一通过机器视觉的基础上，还可融合音频实现在问答场景下，虚拟数字主讲人针对提问人的提问做出个性化的回答的实施例二。

实施二。具体方法除了实施例一中的步骤外还包括：

201：获取提问人的音频信息；

通过麦克风采集提问人的语音信号，在使用麦克风进行语音信号采集时要尽量避免麦克风距离提问人太远或过近，避免捕捉到太多的环境噪声或失去语音的细节。

202：根据音频信息生成音频答案；

如图2B所示，该方法至少包括：

2021：依据提问人使用的语言对提问人的音频信息进行预处理；

在分析提问人音频信息之前先要进行预处理。因为实际采集到的提问人的语音信号数据，会存在各种环境干扰噪声、麦克风自身噪声等背景噪声的干扰，因此需要通过频域滤波、时域滤波等滤波方法对采集到的音频信号数据进行处理，以提高采集到的音频信号的质量。然后对于降噪处理后的音频信号。根据提问人使用的不同语言(包括语种和口音)，将采集到的各种不同的样本进行数据标注，以提高音频识别模型的准确率和适应性。

2022：将预处理后的提问人音频信息转化为对应的文本数据；

通过语音识别的深度学习模型，将提问人说话的内容转成文字数据。由于采集到的音频信息会存在一些信号数据比较模糊、听不清楚等情况，文字识别的结果可能存在错误，通过文本纠错算法对语音识别后的文字数据进行矫正，提高文本数据的准确性。

2023：通过生成式对话模型生成对应问题的答案文本；

可以通过例如开源的轻量级生成式对话模型生成问题的答案，比如chatglm、书生等模型。

2024：将答案文本转化为音频答案。

对于上面生成的问题答案，经过文本分词、文本清洗、注音标记等数据预处理方式。然后对于处理后的答案文本通过文字转语音算法将生成的文字答案转换成音频数据。利用调整音频采样率、声音的音调、语速等参数对算法模型进行优化调整，以输出自然流畅的音频数据。考虑到实际生成的语音数据可能还是会存在一些噪音，可以通过滤波去噪、音频平滑处理等后处理方式来处理。

生成的音频答案可以考虑与提问者使用相同的语言(包括语种和口音)，使提问者能快速理解问题答案。

203：虚拟数字主讲人与音频答案进行对帧融合。

在回答提问时，因根据视频时间和音频时间进行问答的关联。例如提问人提问时间为15:30’30，那么虚拟数字主讲人回答提问在得到音频答案以后，或得到音频答案后延迟N秒。例如得到音频答案需要3秒+延迟1秒，则虚拟数字主讲人回答答案在15:30’34。

在实施例二中，音频数据部分可以与视频数据部分同时进行，当然也可以按顺序处理，以处理器的实际处理能力和操作人的指示为准，在此不做限制。

在实施一或实施例二的基础上，如图3所示，本申请提供了实施例三的虚拟数字主讲人，包括身姿关键点信息。身姿关键点信息通过获取主讲人的人体关键点，然后通过逐帧比对主讲人的人体关键点获取躯干关键点信息。

包含身姿关键点信息的虚拟数字主讲人通过以下方法获取：

301：将躯干关键点信息与虚拟数字主讲人归一化到同一坐标比例；

302：将归一化后的躯干关键点信息一一关联到归一化后的虚拟数字主讲人的躯干关键点。

实施例三中虚拟数字主讲人赋予身姿关键点信息和嘴型信息、人脸信息不分先后顺序。

这里的一一关联指的是逐帧和逐个关键点。因为每个关键点都有对应标记，因此很容易进行一一对应关联。

在实施例一或实施例二或实施例三的基础上，本申请还提供了实施例四，包含手部关键点信息的虚拟数字主讲人。

如图4所示，在本实施例中，主讲人的手部关键点信息通过下述方法得到：

4011：通过主讲人的人脸关键点信息关联对应的人形区域信息；

在通过人脸区域筛选出主讲人时，可对其关联的人形区域信息、人脸关键点等按队列进行存储。例如将同一帧内的主讲人的人形区域的位置信息—人体关键点—人脸关键点—躯干关键点—手部关键点存入同一队列中。按帧顺序依次队列存储。如此通过主讲人的人脸关键点信息就可容易地找到对应的人形区域信息。

4012：通过人形区域提取人体关键点；

如果已获取人体关键点，则直接读取使用。

4013：通过人体关键点获取逐帧的手部关键点信息。

包含手部关键点的虚拟数字主讲人：

401：将人体关键点信息与虚拟数字主讲人归一化到同一坐标比例；

402：将归一化后的躯干关键点信息一一关联到归一化后的虚拟数字主讲人的躯干关键点。

这里主要通过逐帧逐个关键点比对，然后将归一化后的躯干关键点信息赋予给虚拟数字主讲人的躯干关键点。

如图5所示，在实施例一的基础上，本申请还提供了实施例五，虚拟数字主讲人包括主讲人的人脸变化关键点以及嘴型信息：

501：按帧比对获取的主讲人逐帧人脸信息获取主讲人的人脸变化关键点信息；

502：将主讲人的人脸变化关键点信息以及逐帧的嘴型信息与主讲数字虚拟人归一化到同一坐标比例；

503：将归一化后的主讲人的人脸变化关键点信息以及嘴型信息与归一化后的虚拟数字主讲人的人脸信息以及嘴型信息逐帧关联。

在本实施例中人脸变化关键点信息可以和嘴型信息共同获取，也可按指定顺序获取，在此不受限制。主讲数字虚拟人采用人脸变化关键点信息相对直接采用每帧的人脸关键点信息来说，所需信息存储的容量要少。

如图6所示，在实施例五的基础上，本申请还提供了实施例六，在实施例六中虚拟数字主讲人包括身姿变化关键点，包括：

601：按帧对比主讲人的躯干关键点信息获取身姿变化关键点信息；

602：将主讲人的身姿变化关键点信息与虚拟数字主讲人归一化到同一坐标比例；

603：将归一化后的主讲人身姿变化关键点信息与归一化后的虚拟数字主讲人的躯干关键点进行逐帧关联。

虚拟数字主讲人的身姿变化关键点的获取与其他入嘴型等可同时获取，当然也可以按指示顺序获取。身姿变化关键点，需要现获取人形区域的位置信息，然后获取人体关键点信息，然后根据人体关键点信息获取躯干关键点信息，最后通过逐帧比较获得身姿变化关键点信息。

如图7所示，在实施例六的基础上，本申请还提供实施例七，在实施例七中虚拟数字主讲人包括手部变化关键点信息，获取方法包括：

701：按帧对比主讲人的人体关键点获取手部关键点信息；

702：通过逐帧比对获取到手部变化关键点信息；

703：将主讲人的手部变化关键点信息与虚拟数字主讲人归一化到同一坐标比例；

704：将归一化后的主讲人手部变化关键点信息与归一化后的虚拟数字主讲人的手部关键点进行逐帧关联。

手部变化关键点信息在是在获取到人体关键点信息后获取到的，因此虚拟数字主讲人在包含手部关键点信息后，通过逐帧比对获取手部变化关键点信息。

在上述所有实施例中，获取的虚拟数字主讲人主要通过参数关键点的同步帧关联或参数变化关键点的同步帧关联。利用参数变化关键点进行逐帧关联因为只需要存储关键点变化部分的信息，因此相对通过参数关键点的方式消耗性能相对较少。计算方式可参考如下，以逐帧对应的同一参数参考点A为例，第一帧中参数关键点A(x,y)，第二帧中参数关键点A’(x’，y’)，则参数变化关键点((x’-x),(y’-y))。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：新华三智能终端有限公司;

上一篇：梯度孔隙率厚电极的制备方法、干法电极、干法电芯及其制备方法、电池
下一篇：一种低硅无水氧化硼的无气泡成型装置