掌桥专利:专业的专利平台
掌桥专利
首页

生成互动视频的方法、装置、设备和存储介质

文献发布时间:2023-06-19 19:30:30


生成互动视频的方法、装置、设备和存储介质

技术领域

本公开的示例实施例总体涉及计算机领域,特别地涉及用于生成互动视频的方法、装置、电子设备和计算机可读存储介质。

背景技术

随着多媒体技术的发展,各色的视频内容已经成为人们日常获取信息的重要途径,也是人们生活中休闲娱乐的重要途径。与单线播放的普通视频相比,互动视频能够在关键节点根据用户的交互来确定剧情走向。这样的互动视频能够更加吸引用户的注意力,提高了视频的趣味性和参与感。

发明内容

在本公开的第一方面,提供了一种用于生成互动视频的方法。该方法包括:获取待处理的目标视频;基于对目标视频的分镜处理,生成多个视频片段;从多个视频片段中确定用于交互的一组交互视频片段和一组非交互视频片段,一组交互视频片段包括互动热区;以及确定一组交互视频片段中的互动热区与一组非交互视频片段中的目标非交互视频片段之间的关联性,以用于生成互动视频。

在本公开的第二方面,提供了一种用于生成互动视频的装置。该装置包括:获取模块,被配置为获取待处理的目标视频;生成模块,被配置为基于对目标视频的分镜处理,生成多个视频片段;第一确定模块,被配置为从多个视频片段中确定用于交互的一组交互视频片段和一组非交互视频片段,一组交互视频片段包括互动热区;以及第二确定模块,被配置为确定一组交互视频片段中的互动热区与一组非交互视频片段中的目标非交互视频片段之间的关联性,以用于生成互动视频。

在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

在本公开的第四方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,程序被处理器执行时实现第一方面的方法。

应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:

图1示出了本公开的实施例能够在其中实现的示例环境的示意图;

图2示出了根据本公开的一些实施例的生成互动视频的示例过程的流程图;

图3示出了根据本公开的一些实施例的用于生成互动视频的装置的框图;以及

图4示出了能够实施本公开的多个实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

如上文所讨论的,互动视频能够极大地提高用户对视频的参与感,从而提升视频的趣味性,并吸引用户对视频的注意力。然而,互动视频的创作通常依赖于人工对普通视频的剪辑,这样的方式费事费力,周期长效率低,难以满足规模化创作互动视频的需求。

本公开的实施例提出了一种用于生成互动视频的方案。根据该方案,获取待处理的目标视频(例如,普通视频)。进一步地,基于对目标视频的分镜处理生成多个视频片段,并从多个视频片段中确定用于交互的一组交互视频片段和一组非交互视频片段,其中一组交互视频片段包括互动热区。相应地,可以确定一组交互视频片段中的互动热区与一组非交互视频片段中的目标非交互视频片段之间的关联性,以用于生成互动视频。

基于以上方式,本公开的实施例能够通过分镜来实现视频的自动剪辑,并通过互动热区的检测来构建不同视频片段之间的关联性,从而能够提高互动视频的创作效率。本公开的实施例还能够有助于规模化将普通视频转换为互动视频。

以下进一步结合附图来详细描述该方案的各种示例实现。

示例环境

首先参见图1,其示意性示出了其中可以实施根据本公开的示例性实现方式的示例环境100的示意图。如图1所示,示例环境100可以包括电子设备120。

如图1所示,电子设备120可以获取待处理的目标视频110。在一些实施例中,这样的目标视频110可以是根据剧情单线播放的普通视频。在一些实施例中,这样的目标视频110可以是从公众发布的视频集合中自动筛选的。

进一步地,在获取目标视频110后,电子设备120可以将目标视频110切割为多个视频片段。具体地,电子设备120可以基于分镜处理,来将目标视频110切分为对应于不同镜头的多个视频片段。

此外,如图1所示,电子设备110可以从多个视频片段中确定一组交互视频片段130和一组非交互视频片段170。这样的交互视频片段130可以包括用于交互的互动热区150-1和150-2(单独或统一称为互动热区150)。关于互动热区150的检测将在下文详细介绍。相反,这样的非交互视频片段170则表示独立的剧情片段,其没有与用户的交互。

进一步地,电子设备120还可以确定互动热区150与对应的非交互视频片段170之间的关联160。这样的关联性例如可以表示对互动热区150-1的选择可以触发对应的非交互视频片段170作为后续剧情,并自动进行播放。

通过获得这样的交互视频片段130、非交互视频片段170以及互动热区150到非交互视频片段170之间的关联性160,本公开的实施例还能够支持互动视频180的自动生成。这样的互动视频180例如可以包括能够用于交互的交互控件190-1和190-2(单独或统一称为交互控件190)。这样的交互控件190可以是基于所确定的互动热区150而被生成。

由此,本公开的实施例能够支持从普通视频(例如,目标视频110)到互动视频180的批量转换。

示例过程

图2示出了根据本公开的一些实施例的生成互动视频的示例过程200的流程图。示例性地,过程200可以由图1的电子设备120独立实现,或者由电子设备120与其他计算设备的组合来实现。为了方便讨论,将结合图1来描述过程200。

如图2所示,在框210,电子设备120获取待处理的目标视频110。在一些实施例中,这样的目标视频110可以包括按照剧情播放的普通视频。

在一些实施例中,电子设备120还可以从一组候选视频中确定适于生成互动视频的目标视频。这样的一组候选视频可以为普通视频,也称为非互动视频。示例性地,这样的一组候选视频可以包括用户发布的游戏录制视频。

在一些实施例中,电子设备120可以利用视频分类模型来自动地从该组视频中筛选目标视频110。示例性地,这样的视频分类模型可以包括适当的机器学习模型,其示例可以包括但不限于神经网络、决策树等。具体的视频分类模型的示例例如可以包括:SlowFast分类模型、MVIT模型和X-Clip模型等。

这样的视频分类模型例如可以提取该组候选视频的视频信息以作为输入,并输出是否可以适于生成互动视频的预测结果。这样的视频信息例如可以包括视频的标签(例如,游戏类),以及基于视频的画面信息所生成的特征。

基于这样的方式,本公开的实施例能够实现从视频集中自动地提取适于生成互动视频的素材,即目标视频110。

继续参考图2,在框220,电子设备120基于对目标视频110的分镜处理,生成多个视频片段。

考虑到目标视频110中通常含有多个镜头,由此,电子设备120可以根据分镜处理来将目标视频110切分为与不同镜头(也称为分镜)所对应的视频片段。

示例性地,电子设备120可以利用诸如transnetv2等分镜模型来处理目标视频110,从而将目标视频110切分为多个视频片段。

继续参考图2,在框230,电子设备120从多个视频片段中确定用于交互的一组交互视频片段130和一组非交互视频片段170,其中一组交互视频片段130包括互动热区150。

对于多个视频片段而言,部分视频片段可能是普通的剧情片段,即不涉及与用户的交互;部分视频片段可能包含用户点击选择的互动热区,也即互动视频片段。

由此,电子设备120可以首先从多个视频片段中检测具有互动热区的交互视频片段130。

在一些实施例中,电子设备120可以利用诸如yolox等适当的目标检测模型来自动从视频片段中确定互动热区。

示例性地,电子设备120可以基于目标检测模型来确定一组候选互动热区,并利用视频跟踪算法来筛选在不同帧间匹配程度大于阈值的候选互动热区,以作为互动热区。

具体地,电子设备120可以确定在不同帧之间候选互动热区的区域重叠程度,以及候选互动热区内文本的匹配程度,从而将不同帧之间的候选互动热区进行匹配,并选择匹配程度更高的候选互动热区以作为互动热区。

此外,对于互动热区的交互通常会触发交互动效,例如,互动热区可能会高亮显示,或者呈现如按钮被按压等动效等。由此,电子设备120还可以检测多个视频中的交互动效,并将交互动效所在的候选交互区域确定为互动热区。

以图1作为示例,电子设备120例如可以在某个视频片段检测到“控件A”从某一时刻由第一颜色改变为第二颜色。由此,电子设备120可以将“控件A”所对应的区域确定为互动热区150-1。

在一些实施例中,考虑到交互动效不应当在互动视频中被直接播放,电子设备120还可以从一组交互视频片段130删除与交互动效所对应的视频部分,从而避免所生成的互动视频180中在用户未交互的情况下就呈现交互动效。

继续参考图2,在框240,电子设备120确定一组交互视频片段130中的互动热区150与一组非交互视频片段170中的目标非交互视频片段之间的关联性160,以用于生成互动视频180。

在一些实施例中,电子设备120可以基于目标视频110的时间连续性,将与交互动效时间相邻的非交互视频片段170确定作为与互动热区150-1对应的目标非交互视频片段,并相应地建立互动热区150-1与目标非交互视频片段170之间的关联性160。

示例性地,在目标视频110中,互动热区150-1的交互动效被呈现后,目标视频110后续播放非交互视频片段170。由此,电子设备120可以确定互动热区150-1与非交互视频片段170之间的关联性160。也即,互动热区150-1的点击是用于触发非交互视频片段170的播放。

基于这样的方式,本公开的实施例能够自动地从普通视频中提取多个视频片段,并区分非交互视频片段及交互视频片段。进一步地,本公开的实施例还自动地识别了交互视频片段中的互动热区,并建立其与对应的非交互视频片段上的逻辑关联,从而能够支持互动视频的自动创作或生成。

在一些实施例中,电子设备120还可以基于多个视频片段以及关联性160,生成互动视频180,使得互动视频180包括用于交互的目标交互视频片段,其中目标交互视频片段中包括被配置为引导至目标非交互视频片段的交互控件(例如,交互控件190-1和交互控件190-2,单独或统一称为交互控件190),其中交互控件190对应于互动热区150。

在一些实施例中,如图1所示,电子设备120能够基于所切分的多个视频片段来自动地构建互动视频180。进一步地,对于交互视频片段130,其在互动视频180中可以对应于待用户交互的交互片段。例如,这样的交互片段可以包括基于所确定的互动热区150而被自动生成的交互控件190,这样的交互控件190的交互逻辑可以是基于关联性160所自动确定的。

在一些实施例中,考虑到目标视频110中可能仅选择了互动热区150-1,而没有与互动热区150-2所对应的分支,在这种情况下,互动视频180中的交互控件190-2例如可以被相应地移除,或者置于不可选择状态。

在一些实施例中,为了丰富剧情分支,电子设备120还可以基于另一个普通视频的分镜来生成另外一组视频片段,并类似地区分该组视频片段中的交互视频片段和非交互视频片段,并建立交互视频片段中的互动热区与非交互视频片段的关联性。

例如,另一个普通视频可能选择的互动热区150-2而非互动热区150-1,并相应地进展了到了另一个非交互视频片段。

进一步地,电子设备120可以组合基于这两个普通视频所生成的视频片段,并进而生成互动视频180。例如,互动视频180中的交互控件190-2的交互逻辑可以是基于该另一个普通视频中所确定关联性而被自动地确定。

类似地,电子设备120还可以获取与同一内容源相关的更多普通视频,并综合多个普通视频的分镜和关联性确定结果,从而生成最终的互动视频180。

以此方式,本公开的实施例能够提高互动视频的剧情完整性,从而提高互动视频的质量。

示例装置和设备

本公开的实施例还提供了用于实现上述方法或过程的相应装置。图3示出了根据本公开的一些实施例的生成互动视频的装置300的示意性结构框图。

如图3所示,装置300包括获取模块310,被配置为获取待处理的目标视频。

装置300还包括生成模块320,被配置为基于对目标视频的分镜处理,生成多个视频片段。

装置300还包括第一确定模块330,被配置为从多个视频片段中确定用于交互的一组交互视频片段和一组非交互视频片段,一组交互视频片段包括互动热区。

此外,装置300还包括第二确定模块340,被配置为确定一组交互视频片段中的互动热区与一组非交互视频片段中的目标非交互视频片段之间的关联性,以用于生成互动视频。

在一些实施例中,获取模块310还被配置为:利用视频分类模型,从一组候选视频中确定适于生成互动视频的目标视频,一组候选视频为非互动视频。

在一些实施例中,生成模块330还被配置为:利用分镜模型处理目标视频,以生成多个视频片段。

在一些实施例中,第一确定模块330还被配置为:从多个视频片段中检测具有互动热区的至少一个视频片段,以作为一组交互视频片段。

在一些实施例中,第一确定模块330还被配置为:检测多个视频片段中针对候选交互区域的交互动效;以及将具有交互动效的候选交互区域确定作为互动热区。

在一些实施例中,第一确定模块330还被配置为:从一组交互视频片段中删除与交互动效对应的部分,以用于生成互动视频。

在一些实施例中,第二确定模块340还被配置为:基于目标视频的时间连续性,将与交互动效时间相邻的非交互视频片段确定作为与互动热区对应的目标非交互视频片段;以及建立互动热区与目标非交互视频片段之间的关联性。

在一些实施例中,装置300还被配置为:基于多个视频片段以及关联性,生成互动视频,使得互动视频包括用于交互的目标交互视频片段,目标交互视频片段中包括被配置为引导至目标非交互视频片段的交互控件,交互控件对应于互动热区。

在一些实施例中,待处理的目标视频为第一视频,多个视频片段为第一组视频片段,装置300还被配置为:基于对第二视频的分镜处理,生成第二组视频片段;以及基于第一组视频片段和第二组视频片段,生成互动视频。

装置300中所包括的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一些实施例中,一个或多个单元可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置300中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),等等。

图4示出了其中可以实施本公开的一个或多个实施例的计算设备/服务器400的框图。应当理解,图4所示出的计算设备/服务器400仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。

如图4所示,计算设备/服务器400是通用计算设备的形式。计算设备/服务器400的组件可以包括但不限于一个或多个处理器或处理单元410、存储器420、存储设备430、一个或多个通信单元440、一个或多个输入设备460以及一个或多个输出设备460。处理单元410可以是实际或虚拟处理器并且能够根据存储器420中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备/服务器400的并行处理能力。

计算设备/服务器400通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器400可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器420可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备430可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器400内被访问。

计算设备/服务器400可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图4中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器420可以包括计算机程序产品424,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元440实现通过通信介质与其他计算设备进行通信。附加地,计算设备/服务器400的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备/服务器400可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备440可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备460可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备/服务器400还可以根据需要通过通信单元440与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备/服务器400交互的设备进行通信,或者与使得计算设备/服务器400与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

相关技术
  • 视频生成、视频播放方法、装置、电子设备及存储介质
  • 视频摘要生成方法、装置、存储介质和电子设备
  • 视频内容生成方法、装置、计算机设备和存储介质
  • 视频配音生成方法、装置、设备及存储介质
  • 一种视频集锦的生成方法、装置、电子设备及存储介质
  • 互动视频文件生成方法、装置、计算机设备及存储介质
  • 互动视频的生成方法、系统、电子设备和存储介质
技术分类

06120115933814