掌桥专利:专业的专利平台
掌桥专利
首页

基于AIGC的虚拟人物动态解说生成方法、系统及介质

文献发布时间:2024-04-18 20:00:50


基于AIGC的虚拟人物动态解说生成方法、系统及介质

技术领域

本发明涉及人工智能技术领域,尤其是涉及一种基于AIGC的虚拟人物动态解说生成方法、系统及介质。

背景技术

在传统的解说方式中,通常需要依赖真实的人物进行现场解说或事先录制解说。然而,这种方式存在一些限制和挑战。首先,依赖真实人物的解说受限于人力、时间和空间等因素,无法实现大规模和实时的解说需求。其次,解说的质量和个性化程度有限,无法满足用户对不同风格和表达方式的需求。随着人工智能技术的快速发展,虚拟人物技术逐渐成为一种新的解说方式,能够提供更加个性化、自定义的解说体验。

在过去几年中,人工智能领域取得了巨大的进展,特别是在自然语言处理、计算机视觉和生成模型等方面。这些技术的发展使得虚拟人物的创建和表现能力得到了极大的提升。虚拟人物能够模拟真实人物的外貌、声音和动作,甚至能够实现情感表达和个性化交互。因此,利用虚拟人物进行解说成为一种具有潜力的解决方案。

然而,传统的虚拟人物解说往往缺乏个性化和动态性,无法满足用户对多样化、实时化解说内容的需求。

发明内容

本发明的目的就是为了提供一种满足个性化需求的基于AIGC的虚拟人物动态解说生成方法、系统及介质。

本发明的目的可以通过以下技术方案来实现:

一种基于AIGC的虚拟人物动态解说生成方法,包括以下步骤:

获取待解说的相关数据并进行预处理;

将预处理后的相关数据输入预先构建好的虚拟人物中,提取关键信息和情感倾向以生成相应的解说文本,其中,采用虚拟人物技术构建具有外貌和动作表现能力的虚拟人物雏形,并采用深度学习技术训练虚拟人物雏形的语音合成和自然语言理解模型形成最终的虚拟人物;

基于虚拟人物的外貌和动作表现能力,采用所述解说文本驱动虚拟人物的动作和表情,并将解说文本转化为语音或字幕,实现文本解说和虚拟人物的动作和表情同步动态展示。

进一步地,所述相关数据包括文字、图像、音频和视频,所述文字包括用户自定义的解说内容和场景文字数据。

进一步地,所述预处理包括文本分词、图像识别和音频转文本。

进一步地,所述虚拟人物雏形参照采集的真实人物数据集进行构建。

进一步地,所述外貌和动作表现能力包括面部肌肉的形变、眼睛的运动和嘴唇的变化。

进一步地,所述生成相应的解说文本的具体步骤包括:

基于提取的关键信息和情感倾向,采用自然语言处理技术,生成符合语义和语法规则的解说文本。

进一步地,采用三阶贝塞尔曲线公式控制虚拟人物在动态解说过程中的动作和表情的变化速度和形状,所述三阶贝塞尔曲线公式的表达式为:

P(t)=(1-t)

式中,P(t)表示插值后的位置或旋转角度,P

进一步地,还包括虚拟人物在动态解说过程中采用姿态转换、关键帧插值和运动轨迹优方法以实现情感匹配、解说流畅和人物动态优化。

本发明还提供一种基于上述所述的基于AIGC的虚拟人物动态解说生成方法的生成系统,包括:

数据获取模块:用于获取待解说的相关数据并进行预处理;

解说文本生成模块:用于将预处理后的相关数据输入预先构建好的虚拟人物中,提取关键信息和情感倾向以生成相应的解说文本,其中,采用虚拟人物技术构建具有外貌和动作表现能力的虚拟人物雏形,并采用深度学习技术训练虚拟人物雏形的语音合成和自然语言理解模型;

动态解说模块:用于所述解说文本结合虚拟人物的外貌和动作表现能力,驱动虚拟人物的动作和表情,进行同步动态解说。

本发明还提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于AIGC的虚拟人物动态解说生成方法的指令。

与现有技术相比,本发明具有以下有益效果:

(1)本发明通过真实人物构建具有逼真外貌和行为动作能力的虚拟人物,根据生成的解说文本驱动虚拟人物在解说的同时进行肢体动作和表情的同步展示,为用户提供个性化、交互性强的解说体验,使得用户更加投入和参与其中。

(2)本发明的虚拟人物根据采集的真实人物数据集进行制作,学习到更多真实人物的外貌特点和行为动作,生成的虚拟人物更加逼真且多样化,满足对不同虚拟人物形象和风格的需求,适用用户偏好。

(3)本发明虚拟人物的解说可根据用户自定义的解说内容,也可根据其他需要解说的内容进行动态解说,提供更吸引人的呈现方式,满足用户的个性化需求,并提供更好的辅助功能和用户体验。这种创新方式将带来更高效的学习和传播效果,拓展用户的知识和娱乐体验,为现实内容的解说带来全新的可能性。

(4)本发明还引入了姿态转换、关键帧插值和运动轨迹优化方法,姿态转换将生成的解说文本与相应的场景和情感相匹配,从而转化为相应的姿态动作;关键帧插值能够保证解说的流畅度和连贯性;运动轨迹优化对虚拟人物运动轨迹进行优化和调整,以确保动作自然、精准和符合实际,更加真实地模拟出实际场景中的动作和动态效果。

附图说明

图1为本发明方法流程示意图;

图2为本发明系统结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

实施例1

AIGC(Artificial Intelligence Generated Content,人工智能生成内容)技术是指利用人工智能算法和生成模型生成内容的技术。通过训练大规模的数据集,AIGC技术可以生成高度逼真、富有创造力的内容,如文字、图像、音频和视频等。将AIGC技术应用于虚拟人物解说创作中,可以实现虚拟人物对场景、事件或产品的实时解说,为用户提供更加生动、丰富的解说体验。

由此,本实施例提供一种基于AIGC的虚拟人物动态解说生成方法,如图1所示,该方法包括以下步骤:

S1、获取待解说的相关数据并进行预处理。

虚拟人物待解说的相关数据包括文字、图像、音频和视频等,其中文字包括用户自定义输入的解说内容、场景等文字数据以及其他方式获得的文字数据。预处理操作包括文本分词、图像识别和音频转文本等。

S2、将预处理后的相关数据输入预先构建好的虚拟人物中,提取关键信息和情感倾向以生成相应的解说文本,其中,采用虚拟人物技术构建具有外貌和动作表现能力的虚拟人物雏形,并采用深度学习技术训练虚拟人物雏形的语音合成和自然语言理解模型形成最终的虚拟人物。

本实施例中构建的虚拟人物雏形以真实人物参照采集制作,外貌和动作表现力均与真实人物十分贴近,包括面部肌肉的形变、眼睛的运动和嘴唇的变化等。通过制作多种虚拟人物雏形,用户可以根据需求更换不同风格和变现力的虚拟任务进行解说,带来更丰富多样的观看体验,并且满足不同受众的需求。创作者可以利用虚拟人物的个性特征和表现力,为内容赋予独特的风格和情感,提升解说的吸引力和影响力。这种方法为创作者提供了创意的空间和灵活性,使得动态解说创作更具创新性和个性化。

收集相关领域的语料库和训练数据,包括文字、图像、音频和视频等,并采用如步骤S1所述的预处理操作,以便后续的处理和分析。利用深度学习中的生成模型等技术,训练虚拟人物的语音合成和自然语言理解模型,以实现对解说内容的理解和表达。

构建好虚拟人物后,利用自然语言处理技术,虚拟人物能够对输入的语义分析和情感分析,从中提取关键信息和情感倾向,其中语义分析和情感分析为一种或多种语音数据的采集分析提取。再与虚拟人物的解说模型进行关联,以生成相应的解说文本。

S3、基于虚拟人物的外貌和动作表现能力,采用所述解说文本驱动虚拟人物的动作和表情,并将解说文本转化为语音或字幕,实现文本解说和虚拟人物的动作和表情同步动态展示。

本实施例中采用三阶贝塞尔曲线公式控制虚拟人物在动态解说过程中的动作和表情的变化速度和形状,贝塞尔曲线的插值特性可以确保虚拟人物的动作和表情变化过程平滑而自然。三阶贝塞尔曲线公式的表达式为:

P(t)=(1-t)

其中,P(t)表示插值后的位置或旋转角度,P

虚拟人物在根据解说文本动态解说时,将解说文本转化的语音或字幕,并配置有同步的相应动作和表情。根据文本的不同部分,我们可以指定虚拟人物在解说过程中的表情变化,例如喜悦、惊讶、悲伤或愤怒等。通过动态解说的方式,虚拟人物能够根据文本内容的情感色彩,以适当的表情和声音传达信息,从而增强观众的情感连接和参与感。

通过人工调节虚拟人物的语速、音量和语调等参数,实现个性化的解说风格和效果,其中个性化的解说风格通过骨骼的层次结构、关节的自由度和约束等信息实现。调整生成的虚拟人物动态解说的语速,可以提供更加个性化和符合需求的解说体验,它赋予了创作者和用户对虚拟人物解说的语速进行控制的能力。有时,一段解说可能需要较快的语速以增加紧凑感和节奏感,而在其他情况下,较慢的语速可能更适合准确传递信息或创造沉思的氛围。通过调整虚拟人物的解说语速,我们可以满足不同场景、不同内容和不同受众的需求。

针对用户输入自定义的解说内容、场景和语调等要求。根据用户的定制需求,生成相应的虚拟人物解说内容,并进行实时展示或导出保存,其中解说内容、场景和语调等要求通过对应的姿态转换、关键帧插值和运动轨迹优化等方式实现。姿态转换:将预处理后的相关数据输入预先构建好的虚拟人物中,提取关键信息和情感倾向,根据这些适配对应的人物姿态进行匹配转换,使人物姿态和关键信息和情感匹配,从而转化为相应的姿态动作,如语调和情绪表达等;关键帧插值:对于姿态切换或者其他方式的动态切换,计算切换位置的两侧关键帧,进行模糊过度计算,生成过渡帧,插入两侧关键帧进行过渡,能够保证解说的流畅度和连贯性;运动轨迹优化:当虚拟人物进行运动时,会存在运动和姿态不匹配的问题,通过进行运动判断,去掉不匹配的姿态帧数,达到运动匹配的效果,通过对虚拟人物运动轨迹进行优化和调整,以确保动作自然、精准和符合实际,更加真实地模拟出实际场景中的动作和动态效果。

利用AIGC技术的生成虚拟人物动态解说方法具有许多潜在的应用领域。在教育领域,可以利用该技术开发交互式的教学解说系统,提供个性化的学习辅助和知识传授。在旅游领域,可以为游客提供沉浸式的解说体验,使其更好地了解景点的历史和文化背景。在展览和演艺领域,可以创造虚拟人物解说员,为观众提供个性化、趣味性的解说服务。此外,该技术还可以应用于广告、娱乐和智能助理等领域,为用户提供更加个性化、定制化的解说服务。

实施例2

本实施例提供一种基于AIGC的虚拟人物动态解说生成系统,如图2所示,该系统包括:

数据获取模块:用于获取待解说的相关数据并进行预处理;

解说文本生成模块:用于将预处理后的相关数据输入预先构建好的虚拟人物中,提取关键信息和情感倾向以生成相应的解说文本,其中,采用虚拟人物技术构建具有外貌和动作表现能力的虚拟人物雏形,并采用深度学习技术训练虚拟人物雏形的语音合成和自然语言理解模型。

动态解说模块:用于所述解说文本结合虚拟人物的外貌和动作表现能力,驱动虚拟人物的动作和表情,进行同步动态解说。

其余如实施例1。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

技术分类

06120116541524