掌桥专利:专业的专利平台
掌桥专利
首页

主播视频模型的训练方法、主播视频生成方法及相关装置

文献发布时间:2024-04-29 00:47:01


主播视频模型的训练方法、主播视频生成方法及相关装置

技术领域

本发明涉及网络直播技术领域,具体而言,涉及一种主播视频模型的训练方法、主播视频生成方法及相关装置。

背景技术

在直播技术中,根据真人主播的动作、表情等信息,在虚拟主播视频中展示与真人主播具有相同或相近动作的虚拟形象,可以极大的丰富直播视频的内容。

目前,通常使用AnimateDiff模型和Stable Diffusion模型实现通过文本描述生成视频,然而视频中主播动作协调性较差。因此,如何更准确、更自然的生成虚拟主播视频成为亟需解决的问题。

发明内容

有鉴于此,本发明的目的在于提供一种主播视频模型的训练方法、主播视频生成方法及相关装置,通过增加人体肢体的骨骼点检测提高虚拟主播的动作协调性。

为了实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明提供一种主播视频模型的训练方法,应用于主播视频模型,所述方法包括:

按照预设间隔对主播原始视频进行抽帧,得到对应的原始图像序列;

将所述原始图像序列输入至待训练AnimateDiff模型,获得视频图像序列;

将所述原始图像序列和所述视频图像序列输入至预设OpenPose模型,获得第一骨骼点序列和第二骨骼点序列;所述第一骨骼点序列表征在所述原始图像序列中提取的多个骨骼点坐标;所述第二骨骼点序列表征在所述视频图像序列中提取的多个骨骼点坐标;

根据所述原始图像序列、所述视频图像序列、所述第一骨骼点序列和所述第二骨骼点序列确定总损失信息;所述总损失信息表征当前训练周期视频图像序列与原始图像序列的差异;

根据每个训练周期对应的总损失信息对所述待训练AnimateDiff模型的参数进行更新,直到第M个训练周期对应的总损失信息满足第一收敛条件,则将所述第M个训练周期对应的待训练AnimateDiff模型作为成熟的主播视频模型。

在可选的实施方式中,所述将所述原始图像序列和所述视频图像序列输入至预设OpenPose模型,获得第一骨骼点序列和第二骨骼点序列的步骤,包括:

将所述原始图像序列输入至预设OpenPose模型,获得第一骨骼点序列;

将所述视频图像序列输入至预设OpenPose模型,获得第二骨骼点序列。

在可选的实施方式中,所述根据所述原始图像序列、所述视频图像序列、所述第一骨骼点序列和所述第二骨骼点序列确定总损失信息的步骤,包括:

根据所述原始图像序列和所述视频图像序列,确定像素损失信息;

根据所述第一骨骼点序列和所述第二骨骼点序列,确定骨骼损失信息;

根据所述像素损失信息和所述骨骼损失信息,确定所述总损失信息。

第二方面,本发明提供一种主播视频生成方法,应用于主播视频模型,所述方法包括:

根据主播描述文本获得目标骨骼点序列和目标主播图像模型;所述目标主播图像模型通过训练图像的图像损失信息迭代训练获得的;所述目标主播图像模型包括Lora模型、Stable Diffusion模型和Control Net模型;主播与所述Lora模型一一对应;

将所述主播描述文本和所述目标骨骼点序列输入至所述目标主播图像模型,获得主播图像序列;

将所述主播图像序列输入至所述主播视频模型,获得虚拟主播视频。

在可选的实施方式中,在所述根据主播描述文本获得目标骨骼点序列和目标主播图像模型的步骤之前,还包括:

根据目标主播视频得到训练图像序列和每张训练图像对应的文本描述;

依次将每个所述文本描述输入至待训练主播图像模型,获得对应的虚拟图像;

根据所述训练图像和所述虚拟图像,确定当前预训练周期的图像损失信息;所述图像损失信息表征当前预训练周期的训练图像和对应虚拟图像的差异;

根据每个预训练周期对应的图像损失信息更新所述待训练主播图像模型中Lora模型的参数,直到第N个预训练周期的图像损失信息满足第二收敛条件,则将第N个预训练周期对应的待训练主播图像模型作为成熟的目标主播图像模型。

在可选的实施方式中,所述根据目标主播视频得到训练图像序列和每张训练图像对应的文本描述的步骤,包括:

按照预设间隔对所述目标主播视频进行抽帧,得到目标主播的训练图像序列;

将所述训练图像序列输入至预设Clip模型,获得每张训练图像对应的文本标签;所述文本标签用来表征训练图像中所包含的主播信息;

根据各所述文本标签和预设直播特色描述,获得对应的文本描述;所述预设直播特色描述用于表征直播平台的特色。

第三方面,本发明提供一种主播视频模型的训练装置,应用于主播视频模型,所述装置包括:

处理模块,用于按照预设间隔对主播原始视频进行抽帧,得到对应的原始图像序列;

训练模块,用于将所述原始图像序列输入至待训练AnimateDiff模型,获得视频图像序列;将所述原始图像序列和所述视频图像序列输入至预设OpenPose模型,获得第一骨骼点序列和第二骨骼点序列;所述第一骨骼点序列表征在所述原始图像序列中提取的多个骨骼点坐标;所述第二骨骼点序列表征在所述视频图像序列中提取的多个骨骼点坐标;根据所述原始图像序列、所述视频图像序列、所述第一骨骼点序列和所述第二骨骼点序列确定总损失信息;所述总损失信息表征当前训练周期视频图像序列与原始图像序列的差异;

迭代模块,用于根据每个训练周期对应的总损失信息对所述待训练AnimateDiff模型的参数进行更新,直到第M个训练周期对应的总损失信息满足第一收敛条件,则将所述第M个训练周期对应的待训练AnimateDiff模型作为成熟的主播视频模型。

第四方面,本发明提供一种主播视频生成装置,应用于主播视频模型,所述装置包括:

预处理模块,用于根据主播描述文本获得目标骨骼点序列和目标主播图像模型;所述目标主播图像模型通过训练图像的图像损失信息迭代训练获得的;所述目标主播图像模型包括Lora模型、Stable Diffusion模型和Control Net模型;主播与所述Lora模型一一对应;

生成模块,用于将所述主播描述文本和所述目标骨骼点序列输入至所述目标主播图像模型,获得主播图像序列;将所述主播图像序列输入至所述主播视频模型,获得虚拟主播视频。

第五方面,本发明提供一种服务器,所述服务器包括处理器和存储器,所述存储器用于存储程序,所述处理器用于在执行所述程序时,实现前述实施方式中任一项所述的主播视频模型的训练方法和/或前述实施方式中任一项所述的主播视频生成方法。

第六方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现前述实施方式中任一项所述的主播视频模型的训练方法和/或前述实施方式中任一项所述的主播视频生成方法。

相比于现有技术,本发明实施例提供的主播视频模型的训练方法、主播视频生成方法及相关装置,该方法通过对主播原始视频进行抽帧处理加大运动幅度,并利用骨骼点坐标的骨骼损失信息迭代更新AnimateDiff模型的参数,将满足第一收敛条件的AnimateDiff模型作为成熟的主播视频模型,使得主播视频模型在同等硬件资源的情况下能够生成更精细的虚拟主播视频,提高资源利用效率,降低直播平台的运营成本。同时利用主播视频模型自动生成直播视频,有效提升直播视频生成效率和质量,进一步提升观众的观看体验。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的主播视频模型的训练方法的一种流程示意图。

图2示出了本发明实施例提供的主播视频生成方法的一种流程示意图。

图3示出了本发明实施例提供的主播视频生成方法的另一种流程示意图。

图4示出了本发明实施例提供的主播视频模型的训练装置的一种方框示意图。

图5示出了本发明实施例提供的主播视频生成装置的一种方框示意图。

图6示出了本发明实施例提供的服务器的一种方框示意图。

图标:100-服务器;110-存储器;120-处理器;130-通信模块;300-主播视频模型的训练装置;301-处理模块;302-训练模块;303-迭代模块;400-主播视频生成装置;401-预处理模块;402-生成模块。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在人工智能领域,生成式人工智能(Artificial Intelligence GeneratedContent,简称:AIGC)技术已经像翻涌的海浪一样,不可或缺且影响深远。最近,以StableDiffusion为代表的文生图模型的迅猛发展,已经让更多的非专业用户能够通过简单的文字提示生成高质量的图片内容。然而,尽管Stable Diffusion模型具有强大的能力,但其训练成本仍然极高。为了降低微调模型的成本,如DreamBooth,Lora等定制化模型方法应运而生,使得用户可以在少量的数据和消费级显卡的基础上,很容易地实现模型定制化和特定风格的图像生成。

这种趋势极大地推动开源模型社区(如HuggingFace、CivitAI)的发展,众多艺术家和爱好者贡献了许多高质量的微调模型。然而,与动画相比,静态图像的表达能力是有限的,为了能够根据文本生成动画,AnimateDiff在文生图模型中插入动作建模模块,并在视频数据上学习合理的动作先验信息。

在训练过程中,先对AnimateDiff模型结构进行扩展,以便可以接收视频格式的数据,同时在确保参数更新时,原有的文生图模型权重保持不变,这样训练后的网络权重可以直接用于驱动定制化的微调模型。由于AnimateDiff模型从大量视频中学习到合理的动作先验信息,所生成的动画在连续性上比现有的其他视频生成框架要更优秀,同时由于锁定了文生图模型的权重,使得AnimateDiff模型生成的画面质量并不会低于原始文生图模型。

尽管AnimateDiff模型和Stable Diffusion模型在动画生成领域已经取得了很大的进展,但是开源AnimateDiff模型的生成的视频存在肢体动作连续性欠缺的问题。

经发明人研究发现,开源的AnimateDiff模型视频生成的变化幅度小,为了解决上述问题,本发明核心改进在于通过对主播原始视频进行抽帧处理加大运动幅度,并利用骨骼点坐标的骨骼损失信息迭代更新AnimateDiff模型的参数,将满足第一收敛条件的AnimateDiff模型作为成熟的主播视频模型,使得主播视频模型在同等硬件资源的情况下能够生成更精细的虚拟主播视频,提高资源利用效率,降低直播平台的运营成本。同时利用主播视频模型自动生成直播视频,有效提升直播视频生成效率和质量,进一步提升观众的观看体验。

下面结合附图对本发明的各实施例进行详细说明。

请参照图1,图1示出了本发明实施例提供的主播视频模型的训练方法的一种流程示意图,该方法应用于主播视频模型,该方法包括以下步骤:

步骤S101,按照预设间隔对主播原始视频进行抽帧,得到对应的原始图像序列。

虽然AnimateDiff模型能够成功地从低分辨率训练推广到高分辨率,但是当视频的动态变化范围较大时,使用单一的分辨率可能无法捕获所有重要的动态信息。为了解决图像交换格式(Graphics Interchange Format,简称:GIF)动图运动幅度不够大的问题。

本发明实施例,在获取全部主播的主播原始视频后,按照预设间隔对每个主播原始视频进行抽帧处理,使得待训练AnimateDiff模型在训练过程中能够接收到更多的运动幅度信息,能够优化生成的视频的质量和动态性。假设预设间隔为3,即在主播原始视频中按照隔3帧抽取一帧图像的规律进行抽帧,由得到的多张原始图像组成原始图像序列。

进一步地,为了进一步缩短待训练AnimateDiff模型的训练周期,可以根据预设大小和预设中心裁剪抽帧得到的图像,得到满足预设解析度的原始图像序列。例如将预设解析度设置为256*256。

步骤S102,将原始图像序列输入至待训练AnimateDiff模型,获得视频图像序列。

在本发明实施例中,按照预设训练数量将原始图像序列划分为至少一个子原始图像序列,依次将每个子原始图像序列输入至待训练AnimateDiff模型,待训练AnimateDiff模型对子原始图像序列进行高斯噪声处理,最终得到原始图像序列对应的视频图像序列。

步骤S103,将原始图像序列和视频图像序列输入至预设OpenPose模型,获得第一骨骼点序列和第二骨骼点序列。

其中,第一骨骼点序列表征在原始图像序列中提取的多个骨骼点坐标,第二骨骼点序列表征在视频图像序列中提取的多个骨骼点坐标。

在本发明实施例中,按照原始图像序列的顺序,通过预设OpenPose模型依次提取每张原始图像中主播做动作时多个关键骨骼点,最终得到第一骨骼点序列。按照视频图像序列的顺序,通过预设OpenPose模型依次提取每张视频图像中主播做动作时对应的关键骨骼点,最终得到第二骨骼点序列。

需要说明的是,由于视频图像序列是根据原始图像序列生成的,因此,原始图像序列与视频图像序列的顺序是相同的。另外,获取第一骨骼点序列可以在获取视频图像序列的步骤之前,也可以在获取视频图像序列的步骤之后,对此,本发明不予限定。

步骤S104,根据原始图像序列、视频图像序列、第一骨骼点序列和第二骨骼点序列确定总损失信息。

其中,总损失信息表征当前训练周期视频图像序列与原始图像序列的差异。

步骤S105,根据每个训练周期对应的总损失信息对待训练AnimateDiff模型的参数进行更新,直到第M个训练周期对应的总损失信息满足第一收敛条件,则将第M个训练周期对应的待训练AnimateDiff模型作为成熟的主播视频模型。

可选地,M为大于等于1的自然数。

在本发明实施例中,根据原始图像和对应的视频图像的差异,以及第一骨骼点和对应的第二骨骼点的差异确定总损失信息,并根据总损失信息反向更新待训练AnimateDiff模型的参数,直到总损失信息满足第一收敛条件时,则将当前训练周期对应的待训练AnimateDiff模型作为成熟的主播视频模型。

需要说明的是,可以根据实际应用场景设置第一收敛条件,例如,第一收敛条件为低于预设的第一损失阈值,也就是说当总损失信息低于第一损失阈值则认为总损失信息满足第一收敛条件。对于第一收敛条件的设置,本发明不予限定。

综上所述,本发明实施例提供的主播视频模型的训练方法,通过对主播原始视频进行抽帧处理加大运动幅度,并利用骨骼点坐标的骨骼损失信息迭代更新AnimateDiff模型的参数,将满足第一收敛条件的AnimateDiff模型作为成熟的主播视频模型,使得主播视频模型在同等硬件资源的情况下能够生成更精细的虚拟主播视频,提高资源利用效率,降低直播平台的运营成本。同时利用主播视频模型自动生成直播视频,有效提升直播视频生成效率和质量,进一步提升观众的观看体验。

可选地,在实际应用中,基于OpenPose模型快速精准获取骨骼点坐标,从而缩短主播视频模型训练周期,有效提升主播视频模型训练效率和准确率。图1中步骤S103的子步骤,可以包括:

将原始图像序列输入至预设OpenPose模型,获得第一骨骼点序列,将视频图像序列输入至预设OpenPose模型,获得第二骨骼点序列。

在本发明实施例中,预设OpenPose模型是一个能够提取人体骨骼点坐标的模型。通过预设OpenPose模型提取每张原始图像中真实主播做动作时关键部位的骨骼点坐标,得到第一骨骼点序列。再通过预设OpenPose模型提取自动生成的每张视频图像中虚拟主播做动作时关键部位的骨骼点坐标,得到第二骨骼点序列。

可选地,在实际应用中,通过增加对比现实主播和虚拟主播骨骼点之间的差异,改善待训练AnimateDiff模型生成视频在肢体动作上的连续性和准确性。图1中步骤S104的子步骤,可以包括:

根据原始图像序列和视频图像序列,确定像素损失信息。根据第一骨骼点序列和第二骨骼点序列,确定骨骼损失信息。根据像素损失信息和骨骼损失信息,确定总损失信息。

在本发明实施例中,依次遍历原始图像序列,计算每张原始图像和对应的视频图像中像素点之间的欧式距离,得到对应的像素损失值。将原始图像序列中全部像素损失值的平均值确定为像素损失信息。

依次遍历原始图像序列对应的第一骨骼点,计算每个第一骨骼点和对应的第二骨骼点之间的欧式距离,得到对应的骨骼损失值。将原始图像序列中全部骨骼损失值的平均值确定为骨骼损失信息。最后根据像素损失信息权重、骨骼损失信息权重、像素损失信息和骨骼损失信息确定总损失信息。

需要说明的是,像素损失信息和骨骼损失信息还可以分别根据像素损失值的中位数和骨骼损失值的中位数确定,对此本发明不予限定。

在完成上述训练阶段之后,即得到一个成熟的主播视频模型。下面基于成熟的主播视频模型对主播视频生成的各个实施例进行说明。

请参照图2,图2示出了本发明实施例提供的主播视频生成方法的一种流程示意图。该方法应用于主播视频模型,该方法包括以下步骤:

步骤S205,根据主播描述文本获得目标骨骼点序列和目标主播图像模型。

其中,目标主播图像模型通过训练图像的图像损失信息迭代训练获得的。目标主播图像模型包括Lora模型、Stable Diffusion模型和Control Net模型。主播与Lora模型一一对应。

在本发明实施例中,获取用户输入的主播描述文本,主播描述文本包括用户期望看到的目标主播名称、视频内容和主播动作,例如目标主播的肢体动作、表情变化等。

需要说明的是,服务器在根据用户输入的主播描述文本生成主播视频之前,需要搜集每个主播在不同视频内容做各种动作的视频,并根据搜集的视频进行骨骼点检测,得到每种动作对应的骨骼点序列,最后将动作和骨骼点序列的一一对应关系记录到骨骼点映射表中。

在骨骼点记录表中,根据视频内容和主播动作确定匹配的目标骨骼点序列。例如,用户期望看到目标主播在海边跳芭蕾舞的视频,则服务器根据在海边度假的动作和跳芭蕾舞的动作确定目标骨骼点序列。

进一步地,若服务器中已缓存目标主播图像模型则直接根据目标主播名称获取目标主播图像模型。若服务器中未缓存目标主播对应的目标主播图像模型时,则需要根据目标主播的历史真实视频迭代训练得到目标主播图像模型。

每个主播对应一个主播图像模型,主播图像模型包括Lora模型、StableDiffusion模型和Control Net模型。其中,Lora模型是每个主播独有的,每个主播对应一个Lora模型。Stable Diffusion模型和Control Net模型是全部主播共享的,Control Net模型用于根据目标骨骼点序列精细处理主播图像序列,Stable Diffusion模型为现有的文生图模型。

步骤S206,将主播描述文本和目标骨骼点序列输入至目标主播图像模型,获得主播图像序列。

在本发明实施例中,目标主播图像模型根据主播描述文本确定主播图像的主播展示内容,并依次根据每张主播图像对应的目标骨骼点序列确定主播图像中的主播动作,最终生成与主播描述文本匹配的动作连续的静态主播图像序列。

步骤S207,将主播图像序列输入至主播视频模型,获得虚拟主播视频。

在本发明实施例中,通过训练成熟的主播视频模型将静态的主播图像序列转化为动态的虚拟主播视频。也就是说,根据主播描述文本目标骨骼点序列通过目标主播图像模型生成包含主播Lora形象的静态主播图像,再通过主播视频模型输出虚拟主播视频。

综上所述,本发明实施例提供的主播视频生成方法,采用完成“预训练阶段”后成熟的目标主播图像模型根据主播描述文本生成对应的主播图像序列,再采用完成“训练阶段”后成熟的主播视频模型将主播图像序列生成对应的虚拟主播视频。由于利用主播图像模型生成的虚拟图像与主播原始图像之间差异迭代更新主播图像模型的参数,使得预训练后的目标主播图像模型生成的虚拟图像更加准确,同时利用原始图像中第一骨骼点序列和虚拟图像中第二骨骼点序列之间的差异迭代更新主播视频模型的参数,使得训练后的主播视频模型生成的虚拟主播视频动作更协调。

当服务器中未缓存目标主播对应的主播图像模型时,则需要根据目标主播的历史真实视频训练对应的目标主播图像模型,即“预训练阶段”。下面对“预训练阶段”进行说明。请参照图3,图3示出了本发明实施例提供的主播视频生成方法的另一种流程示意图,在步骤S205之前,还包括以下步骤:

步骤S201,根据目标主播视频得到训练图像序列和每张训练图像对应的文本描述。

步骤S202,依次将每个文本描述输入至待训练主播图像模型,获得对应的虚拟图像。

在本发明实施例中,获取目标主播的历史离线视频,即目标主播视频。根据目标主播视频获取离散的静态训练图像序列,并根据每张训练图像的内容打标签得到对应的文本描述。通过待训练主播图像模型中的Lora模型生成符合文本描述的主播Lora形象,主播Lora形象既能满足用户天马行空的描述,又能满足主播自身的特点。最后通过待训练主播图像模型中的Stable Diffusion模型根据主播Lora形象和文本描述生成对应的虚拟图像。

步骤S203,根据训练图像和虚拟图像,确定当前预训练周期的图像损失信息。

其中,图像损失信息表征当前预训练周期的训练图像和对应虚拟图像的差异。

在本发明实施例中,将训练图像和虚拟图像输入到预设判别器模型,得到对应的图像损失信息。也就是说,图像损失信息越小,说明虚拟图像与训练图像越接近。

步骤S204,根据每个预训练周期对应的图像损失信息更新待训练主播图像模型中Lora模型的参数,直到第N个预训练周期的图像损失信息满足第二收敛条件,则将第N个预训练周期对应的待训练主播图像模型作为成熟的目标主播图像模型。

可选地,N为大于等于1的自然数。

在本发明实施例中,对于每个预训练周期,可以根据对应的图像损失信息反向更新待训练主播图像模型中Lora模型的参数,更新Lora模型的参数会直接影响待训练主播图像模型的参数,通过不断对比每个预训练周期的训练图像和对应的虚拟图像之间的差异来调整Lora模型的参数,以使通过迭代更新的待训练主播图像模型得到的虚拟图像越来越精准,直到图像损失信息满足第二收敛条件为止。从而使得在保证Stable Diffusion模型通用能力的同时降低训练难度,有助于缩短目标主播图像模型的训练周期和提升文生图的准确性。

可选地,在实际应用中,可以利用预设Clip模型获取训练图像的文本标签。图3中步骤S201的子步骤,可以包括:

按照预设间隔对目标主播视频进行抽帧,得到目标主播的训练图像序列。将训练图像序列输入至预设Clip模型,获得每张训练图像对应的文本标签。其中,文本标签用来表征训练图像中所包含的主播信息。根据各文本标签和预设直播特色描述,获得对应的文本描述;预设直播特色描述用于表征直播平台的特色。

在本发明实施例中,获取目标主播的离线主播视频,按照预设间隔对目标主播视频进行抽帧处理,获得对应训练图像序列。基于预设Clip模型对训练图像打标签,得到对应的文本标签。同时获取直播平台的预设直播特色描述,例如微笑、舞姿等描述。根据文本标签和预设直播特色描述确定训练图像对应的文本描述。

可见,在训练目标主播图像模型时充分考虑了目标主播的特定的行为、动作、形体等个人信息,同时考虑直播平台特色,能够更精细地解读和生成主播行为,使得生成的虚拟视频更加贴近直播平台主播的真实表演,更具娱乐性和吸引力。更丰富、更具直播平台特色的描述不仅能够提高主播图像模型训练效果,还可以增加主播图像模型在特定场景下的功能,使得生成的虚拟主播视频内容更加丰富,更能得到新老观众的喜爱。

基于同一发明构思,本发明实施例还提供了一种主播视频模型的训练装置和主播视频生成装置。其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。

请参照图4,图4示出了本发明实施例提供的主播视频模型的训练装置300的一种方框示意图。主播视频模型的训练装置300包括处理模块301、训练模块302和迭代模块303。

处理模块301,用于按照预设间隔对主播原始视频进行抽帧,得到对应的原始图像序列;

训练模块302,用于将原始图像序列输入至待训练AnimateDiff模型,获得视频图像序列;将原始图像序列和视频图像序列输入至预设OpenPose模型,获得第一骨骼点序列和第二骨骼点序列;第一骨骼点序列表征在原始图像序列中提取的多个骨骼点坐标;第二骨骼点序列表征在视频图像序列中提取的多个骨骼点坐标;根据原始图像序列、视频图像序列、第一骨骼点序列和第二骨骼点序列确定总损失信息;总损失信息表征当前训练周期视频图像序列与原始图像序列的差异;

迭代模块303,用于根据每个训练周期对应的总损失信息对待训练AnimateDiff模型的参数进行更新,直到第M个训练周期对应的总损失信息满足第一收敛条件,则将第M个训练周期对应的待训练AnimateDiff模型作为成熟的主播视频模型。

综上所述,本发明实施例提供的主播视频模型的训练装置,通过对主播原始视频进行抽帧处理加大运动幅度,并利用骨骼点坐标的骨骼损失信息迭代更新AnimateDiff模型的参数,将满足第一收敛条件的AnimateDiff模型作为成熟的主播视频模型,使得主播视频模型在同等硬件资源的情况下能够生成更精细的虚拟主播视频,提高资源利用效率,降低直播平台的运营成本。同时利用主播视频模型自动生成直播视频,有效提升直播视频生成效率和质量,进一步提升观众的观看体验。

可选地,训练模块302,具体用于将原始图像序列输入至预设OpenPose模型,获得第一骨骼点序列。将视频图像序列输入至预设OpenPose模型,获得第二骨骼点序列。

可选地,训练模块302,具体用于根据原始图像序列和视频图像序列,确定像素损失信息。根据第一骨骼点序列和第二骨骼点序列,确定骨骼损失信息。根据像素损失信息和骨骼损失信息,确定总损失信息。

请参照图5,图5示出了本发明实施例提供的主播视频生成装置400的一种方框示意图。主播视频生成装置400包括预处理模块401和生成模块402。

预处理模块401,用于根据主播描述文本获得目标骨骼点序列和目标主播图像模型;目标主播图像模型通过训练图像的图像损失信息迭代训练获得的;目标主播图像模型包括Lora模型、Stable Diffusion模型和Control Net模型;主播与Lora模型一一对应。

生成模块402,用于将主播描述文本和目标骨骼点序列输入至目标主播图像模型,获得主播图像序列;将主播图像序列输入至主播视频模型,获得虚拟主播视频。

综上所述,本发明实施例提供的主播视频生成装置,采用完成“预训练阶段”后成熟的目标主播图像模型根据主播描述文本生成对应的主播图像序列,再采用完成“训练阶段”后成熟的主播视频模型将主播图像序列生成对应的虚拟主播视频。由于利用主播图像模型生成的虚拟图像与主播原始图像之间差异迭代更新主播图像模型的参数,使得预训练后的目标主播图像模型生成的虚拟图像更加准确,同时利用原始图像中第一骨骼点序列和虚拟图像中第二骨骼点序列之间的差异迭代更新主播视频模型的参数,使得训练后的主播视频模型生成的虚拟主播视频动作更协调。

可选地,预处理模块401,具体用于根据目标主播视频得到训练图像序列和每张训练图像对应的文本描述。依次将每个文本描述输入至待训练主播图像模型,获得对应的虚拟图像。根据训练图像和虚拟图像,确定当前预训练周期的图像损失信息。图像损失信息表征当前预训练周期的训练图像和对应虚拟图像的差异。根据每个预训练周期对应的图像损失信息更新待训练主播图像模型中Lora模型的参数,直到第N个预训练周期的图像损失信息满足第二收敛条件,则将第N个预训练周期对应的待训练主播图像模型作为成熟的目标主播图像模型。

可选地,预处理模块401,具体用于按照预设间隔对目标主播视频进行抽帧,得到目标主播的训练图像序列。将训练图像序列输入至预设Clip模型,获得每张训练图像对应的文本标签。文本标签用来表征训练图像中所包含的主播信息。根据各文本标签和预设直播特色描述,获得对应的文本描述;预设直播特色描述用于表征直播平台的特色。

请参照图6,图6为本发明实施例提供的服务器100的一种方框示意图。服务器100包括存储器110、处理器120及通信模块130。存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中,存储器110用于存储程序或者数据。存储器110可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-Only Memory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。

处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。例如,当存储器110中存储的计算机程序被处理器120执行时,可以实现上述各实施例所揭示的主播视频模型的训练方法和/或主播视频生成方法。

通信模块130用于通过网络建立服务器100与其它通信终端之间的通信连接,并用于通过网络收发数据。

应当理解的是,图6所示的结构仅为服务器100的结构示意图,服务器100还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器120执行时实现上述各实施例所揭示的主播视频模型的训练方法和/或主播视频生成方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
技术分类

06120116594399