掌桥专利:专业的专利平台
掌桥专利
首页

将视频内容有损压缩成图表示

文献发布时间:2023-06-19 19:28:50


将视频内容有损压缩成图表示

技术领域

本发明涉及用于视频内容的数据压缩,其尤其可以用作使用图神经网络处理视频内容的预处理步骤。

背景技术

许多视频处理任务是使用深度神经网络来执行的。这样的任务需要大量的计算资源,并且特别是内存。对于此的一个原因是视频帧序列是固有的高维类型的输入。例如,为视频处理而设计的典型神经网络以16帧的视频剪辑作为输入被馈送。这暗示着用于视频处理的典型神经网络比其基于图像的对应物具有更多的参数。

发明内容

本发明提供了一种用于无损压缩视频帧序列的方法。每个这样的视频帧包括携带颜色值的像素。通过有损压缩,意味着视频帧的原始序列的内容不被直接和明确地从压缩表示中可导出。

在该方法的过程中,每个视频帧被分割成超像素。这些超像素是共享至少一个预定公共特性(诸如相似的颜色或强度值)的像素组。对于每个超像素,从属于相应超像素的像素中导出的至少一个属性被分配。

例如,分配给每个超像素的属性可以包括最小颜色值、最大颜色值、平均颜色值、中间颜色值或从属于该超像素的像素的颜色值中导出的另一个聚合值。

在下文中,然后从超像素和分配给它们的一个或多个属性中创建所寻找的表示。仅这一点就已经大大降低了视频帧序列的维数。典型地,在分割步骤之后,每个视频帧中存在的原始像素是存在的超像素的大约1000倍那么多。

超像素被组合成图表示中的节点。也就是说,图中的每个节点对应于一个超像素。节点(超像素)由两种类型的边——即空间边和时间边——连接。

具体地,同一视频帧中的超像素通过与至少一个量相关联的空间边连接,该至少一个量是这些超像素之间的距离的度量。也就是说,典型地,视频帧中的每个超像素连接到同一视频帧中的每个其他超像素,但是给定超像素到其他超像素的连接将携带对应于不同距离的不同量。正在测量的距离例如可以是视频帧的坐标系中的空间距离。但是该距离例如也可以与相应超像素的内容之间的差异相关。

响应于序列中相邻视频帧中的超像素满足至少一个预定相关性标准,这些超像素通过时间边连接。也就是说,一个视频帧中的超像素通常不与相邻视频帧中的每个超像素连接。相反,在相邻的视频帧中,给定的超像素可能仅连接到几个超像素,或者甚至仅连接到一个超像素。甚至可能存在不与相邻帧中的任何其他超像素连接的超像素。

应当注意,从纯图论的角度来看,空间边和时间边之间不存在差异。一方面空间边集和另一方面时间边集的并集构成了总的边集,并且该总的边集与节点集一起唯一地定义了图表示。然而,空间边和时间边之间的区别将在下文中继续,因为它们是以不同方式创建的,并且还涉及视频帧的原始序列的不同方面。

这样,与表征原始输入的参数数量相比,表征该表示的独立参数数量大大减少。设T、C、H和W分别是序列中的帧数、每帧中的颜色通道数、每帧的高度和每帧的宽度。则视频序列由

现在设S是每帧中超像素的数量。则在每帧中的超像素之间存在

另一个优点是,由于上面提出的空间和时间边的构造方案,图表示包括光流和过分割的概念。因此,重复使用了先前研究中发现的关于光流和过分割的强先验知识。例如,考虑光流导致了视频中动作识别的显著改进。此外,通过使用超像素的过分割来处理神经网络的输入是特别有用的,因为输入元素的数量以及因此在神经网络中处理的时间和内存消耗被大大减少,而仅很少的细节丢失。

在特别有利的实施例中,超像素之间的距离的度量包括超像素的空间坐标之间的欧几里德距离。例如,帧t中的超像素i和j之间的距离

在本文中,

因此,连接对应于视频帧t中的超像素的节点的空间边的集

其中[S]标示从原始视频帧t导出的超像素的S个索引的集。每个边

特别地,超像素的空间坐标可以包括属于该超像素的像素的质心的空间坐标。质心可以例如被确定为属于超像素的像素的重心。

在另一个有利的实施例中,超像素之间的距离的度量包括在属于相应超像素的个体像素的特性直方图之间计算的差。例如,可以为每个直方图计算统计矩或统计量,或者这样的统计矩或统计量的聚合,并且从两个直方图获得的结果中,可以评估差异。这样,距离度量突出显示了视频帧的语义含义的另一个方面,即视频帧中哪些超像素属于哪些对象。不同的对象很可能具有不同的颜色和/或纹理,这在某种程度上依赖于颜色和/或纹理的直方图的统计中应当是可见的。

在特别有利的实施例中,用于确定时间边的相关性标准包括相对于超像素的空间坐标的接近度,和/或分配给这些超像素的属性的相似度。因此,视频帧t

例如,相关性标准可以包括该距离度量

在特别有利的实施例中,给定视频帧中的第一超像素,从序列中相邻视频帧中预选择满足关于接近度的第一相关性标准的超像素。然后,从这些预选择的超像素中,选择其分配的属性与第一超像素的属性最相似的超像素作为通过时间边连接到第一超像素的超像素。这样,接近度标准成为主导标准。例如,给定视频帧t中的超像素i,相邻视频帧t+1中的超像素j的邻域

其中d

在本文中,

应当注意,关于接近度的相关性标准不限于上限阈值。相反,例如,取决于应用,可以设置较低的阈值。即在“邻域”中,相邻视频帧中的超像素需要与起始超像素至少相距一定距离。例如,这可以将焦点移位到分析视频帧序列中不同对象的移动之间的关系。

此外,并不严格要求接近度是主导标准。例如,还可能计算属性的接近度和相似度之间的加权和。

在另外有利的实施例中,响应于确定超像素属于视频帧的背景或与手边的应用不相关的其他区域,从图表示中排除和/或移除该超像素。这样,图表示的独立参数的数量可以甚至进一步减少。

在另外特别有利的实施例中,图表示被提供给图神经网络GNN。来自GNN,视频帧序列的处理结果。例如,GNN可以是图卷积网络GCN。GCN的基本形式是使用简单的聚合函数来获得给定其邻居的节点表示,诸如平均值和总和,并且迅速扩展到涉及更复杂聚合函数的更复杂架构。除了由于输入中独立参数数量的减少而节省的内存和计算时间之外,GNN以及特别是GCN比通常用于处理图像和视频帧序列作为输入的卷积网络更内存高效。原因是GCN与能够处理类似规模任务的卷积网络相比不太复杂。

在另外有利的实施例中,根据从GNN获得的处理结果来计算致动信号。利用致动信号来致动车辆、质量检查系统、分类系统和/或监督系统。这些系统特别受益于GNN较小的内存需求。此外,参数数量的减少降低了过度拟合训练数据的趋势。这意味着网络更好地概括了看不见的输入数据,使得相应的致动系统以适当的方式对看不见的情形作出反应。

在另外有利的实施例中,从数据库中检索与图表示相关联地存储在数据库中的媒体内容或其他信息。也就是说,图表示可以用作检索该信息的关键字。图表示很小,这意味着它在数据库中不需要太多空间,并且可以更快地被查找。此外,图表示是视频帧序列内容的良好概要,这使得从数据库中检索的视频至少与从中创建图表示的视频相似。

该方法可以全部或部分由计算机实现。因此,本发明还涉及具有机器可读指令的一个或多个计算机程序,该一个或多个计算机程序当在一个或多个计算机上执行时,使得一个或多个计算机执行该方法。在该情境下,能够执行机器可读指令的车辆和其他嵌入式系统的控制单元也被视为计算机。

因此,本发明还涉及具有一个或多个计算机程序的非暂时性存储介质和/或下载产品。下载产品是可以在在线商店中销售的产品,用于通过下载立即履行。本发明还向一个或多个计算机和/或计算实例提供一个或多个计算机程序,和/或提供一个或多个非暂时性机器可读存储介质和/或下载产品。

附图说明

在没有限制本发明范围的任何意图的情况下在下文中使用各图详述并且图示了另外有利的实施例。各图示出了:

图1:用于将视频帧1a-1f的序列1压缩成表示4的方法100的示例性实施例;

图2:来自视频帧1a-1f的序列1的图表示4的示例性组成的图示。

具体实施方式

图1是用于将视频帧1a-1f的序列1有损压缩成表示4的方法100的示例性实施例的示意性流程图。

在步骤110中,每个视频帧1a-1f被分割成超像素2。这些超像素2是共享至少一个预定公共特性的像素组。

在步骤120中,向每个视频帧1a-1f中的每个超像素2分配从属于相应超像素2的像素中导出的至少一个属性3。

在步骤130中,超像素2被组合为图表示4中的节点。

特别地,根据框131,同一视频帧1a-1f中的超像素2通过与至少一个量相关联的空间边5连接,该至少一个量是这些超像素2之间的距离的度量。根据框131a,距离的该度量可以包括超像素2的空间坐标之间的欧几里德距离。替代地或与此相组合,根据框131b,距离的该度量可以包括在属于相应超像素2的个体像素的特性直方图之间计算的差。

根据框132,检查序列1中的相邻视频帧1a-1f中的超像素2是否满足至少一个预定的相关性标准。如果满足该标准(真值1),则超像素2通过时间边6连接。

根据框132a,相关性标准可以包括关于超像素2的空间坐标的接近度,和/或分配给这些超像素2的属性3的相似度。

替代地或与此相组合,根据框132b,给定视频帧1a-1f中的第一超像素2,可以从序列1中的相邻视频帧1a-1f中预选择满足关于接近度的第一相关性标准的超像素2。根据框133a,从这些预选择的超像素2中,可以选择其分配的属性与第一超像素2的属性最相似的超像素作为超像素2,以通过时间边6连接到第一超像素2。

根据框134,可以检查超像素2是否属于视频帧1a-1f的背景或与手边的应用不相关的其他区域,如通过任何合适的预定标准所测量的。如果是这种情况(真值1),则根据框135,超像素2可以从图表示4中排除和/或移除。

在步骤140,图表示4被提供给图神经网络GNN 7。在步骤150中,从GNN 7获得视频帧1a-1f的序列1的处理结果8。也就是说,图表示4取代了视频帧1a-1f的原始序列1,否则该原始序列1将是去往神经网络的输入。此外,GNN 7取代了否则将被使用的不同的神经网络,诸如卷积神经网络。

特别地,根据框151,GNN 7可以被配置为将图表示4映射到关于给定的可用类集的一个或多个分类评分。

在步骤160中,根据从GNN 7获得的处理结果8,计算致动信号9。在步骤170中,车辆50、质量检查系统60、分类系统70和/或监督系统80可以用致动信号9致动。

此外,在步骤180中,可以使用图表示4作为关键字,从至少一个数据库10中检索与图表示4相关联地存储在至少一个数据库10中的媒体内容或其他信息11。

图2图示了视频帧1的序列1a-1f如何被变换成图表示4的一个示例。首先,每个视频帧1a-1f被分割成超像素2。这是针对在帧堆1a-1f顶部的视频帧1f示例性示出的。分割成超像素2可以被看作在相应视频帧1a-1f中描绘的场景的粗略草图或概要。

在图表示4中,每个超像素2成为一个节点。在每个视频帧1a-1f内,每个超像素2借助于空间边5连接到该视频帧1a-1f中的所有其他超像素2。因为这些空间边5与作为超像素2之间距离的度量的至少一个量相关联,所以一些空间边5可能比其他空间边更重要。但是空间边5都存在。因此,在图表示4中,每个视频帧1a-1f作为由空间边5连接的节点的子图保持可辨别。

时间边6连接相邻视频帧1a-1f中的超像素2。在一个视频帧1a-1f中的第一超像素2和相邻视频帧1a-1f中的第二超像素2之间,仅在这些超像素2之间满足预定的相关性标准时,才建立时间边6。在图2中所示的示例中,每个超像素2仅借助于时间边6连接到后续帧1a-1f中的一个其他超像素2。

图表示4被输入到GNN 7中。从GNN 7获得的处理结果8——其例如可以包括关于一个或多个类的分类评分——然后可以在下游任务中使用。

相关技术
  • 视频投影设备及由规定了大小的像点构成的视频图象的表示方法
  • 用于表示虚拟现实视频内容的截顶正方形金字塔几何结构和帧打包结构
技术分类

06120115926150