掌桥专利:专业的专利平台
掌桥专利
首页

用于使用双图像模型进行图像编码的系统和方法

文献发布时间:2024-04-18 19:44:28


用于使用双图像模型进行图像编码的系统和方法

技术领域

本公开涉及包括视频编码的图像编码领域。它提出了编码方法,通过该方法,不同的图像区域使用取决于图像中所识别的对象或事件的不同图像模型被编码。

背景技术

基于人工智能(AI)的图像编解码器(其中经训练的神经网络执行重要的编码和解码步骤)正在多种应用领域取得进展,其中它们有望以惊人的低比特率提供高质量的视频。使用这种技术,在广义上,原始图像的明文表示被提供到输出特征向量(二进制文件,其可以被想象成图像的最重要的视觉特征的列表)的编码器网络。为了在接收方恢复图像,特征向量被馈送到解码器网络,该解码器网络被训练以生成恢复后的图像,该恢复后的图像应当尽可能地与原始图像相似。常见的做法是协同地训练编码器和解码器网络并且基于训练数据,该训练数据表示在预期用例中预期会遇到的图像的。已经反复证明,如果这两个神经网络已经被系统地训练并基于合适的数据,则基于AI的图像编解码器可以实现与原始图像的良好相似性。

偶尔有人指出,经AI编码的图像的证据价值较低,也就是说因为特征向量无法像传统图像编码那样透明地被追溯到原始图像的像素。即使面对大量证据表明特定的基于AI的编解码器已经成功地恢复了图像,而人类观看者看不到任何缺陷,但是怀疑论者仍然认为,恢复后的图像的高质量是欺骗性的,因为它可能被训练数据的元素或被从概率分布中采样的随机信息污染。这种性质的担忧很少针对被认为更可靠的有损的传统图像编解码器。这里,虽然编码方有意丢弃信息(这是压缩图像所必需的)将导致重建图像的视觉质量下降或引入伪像,但这些缺陷可以被准确地识别为缺陷,因此不太可能误导观看者。如果对基于AI的图像编解码器的怀疑在社会中被广泛接受,这可能会限制这些编解码器在出于执法目的收集图像方面(如在监控和监视视频系统中)的用途。

希望获得基于AI的图像编解码器的优点,特别是它们的高压缩比,同时保护具有无可争议的证据价值的图像数据。

发明内容

本公开的一个目的是提供图像编码方法,该方法鉴别不同的图像区域,并使用不同的图像模型对它们进行编码,根据该方法,一个图像模型能够实现可验证的编码和解码链。具体而言,这一个图像模型可以使得能够在不依赖源自除编码后图像之外的图像的信息的情况下进行解码(或者,在图像是视频序列中的帧的情况下,这一个图像模型可以使得能够在不依赖来自视频序列外部的信息的情况下进行解码)。可替代地,所述一个图像模型应当使得能够在不插入源自除编码后图像之外的图像(或在它自己的视频序列之外)的信息的情况下进行解码。可替换地,所述一个图像模型应当使得能够在不通过取决于于源自除编码后图像之外的图像(或在它自己的视频序列之外)的信息的函数来处理编码后图像数据的情况下进行解码。可替代地,所述一个模型可以使得能够非随机解码。另一个目的是将所述一个图像模型用于图像区域的编码,其中,具有增加的取证相关性的对象可能是可见的。另一个目的是提供与所寻求的图像编码方法一起使用的图像解码方法,以及合适的硬件。

这些目的中的至少一些通过由独立权利要求限定的本发明来实现。从属权利要求涉及本发明的有利实施例。

在本发明的第一方面,提供了对图像进行编码的方法。方法包括以下步骤:证实在图像中构成一个或多个预定义对象类型的或者执行一个或多个预定义事件类型的对象是否可见;如果证实这种对象可见,则使用非生成式图像模型对图像的至少一个感兴趣区域(ROI)进行编码,并且获得表示ROI的第一图像数据。然后,使用生成式图像模型对图像的任何剩余部分(即ROI的补集)进行编码,并且获得表示剩余部分的第二图像数据。非生成式图像模型的使用使得能够在不依赖源自除编码后图像之外的图像的信息的情况下对第一图像数据进行解码。可替换地,如果图像是视频序列中的帧,则非生成式图像模型的使用使得能够在不依赖源自视频序列之外的图像的信息的情况下对第一图像数据进行解码。

在本公开中,“图像模型”包括编码器的功能定义(例如,功能规范、伪代码、公式)和解码器的功能定义,它们被布置为将图像转换为通用图像数据格式或将通用图像数据格式转换为图像。图像数据可以是数字的;它可以涉及像素值、变换系数、特征向量或类似的信息类型。包括至少一个生成部件(例如,生成解码器)的图像模型将被称为生成式图像模型,否则被分类为非生成式图像模型。编码器可以在不配置完整的图像模型的情况下使用特定的图像模型;例如,实施者可以选择仅为编码装置配备符合特定图像模型的编码器,因为无论如何都无需解码器。

生成式图像模型的示例包括以下中的一个或多个:基于机器学习(或基于AI)的编码器、人工神经网络编码器、自动编码器、可变自动编码器、生成式对抗网络(GAN)编码器、卷积神经网络(CNN)编码器、递归神经网络(RNN)编码器、自回归模型、流模型。非生成式图像模型的示例是那些包括根据以下中的一个或多个进行编码的模型:变换编码、预测编码(例如,帧间时间预测编码)和变换编码(所谓混合编码)的组合、ITU H.26x(特别是H.264、H.265和H.266)、AOMedia Video1(AV1)、JPEG版本(诸如JPEG2000)。至少H.26x和AV1可以被描述为混合编码的图像模型。

提供了神经网络作为函数逼近器(或预测器,或回归器)的广泛使用,甚至在根据非生成式图像模型的编解码器的实施方式中。例如,在CN110493596和US20060251330中公开了这种函数逼近器的使用,以实现传统的熵编码和帧内预测编码。然而,在这种实施方式中,函数逼近器执行计算任务,这些计算任务可以等效地委托给传统的处理电路(尽管计算成本较高)和/或构成非生成编码或解码算法中的孤立步骤。函数逼近器通常不被配置用于特征向量或其他潜在空间表示形式的输入或输出。此外,用作函数逼近器的神经网络通常不在根据从图像得到的信息上进行训练,而是在函数值上进行训练。因此,为了本公开的目的,非生成式图像模型借助于或可以借助于一个或多个作为函数逼近器的神经网络来实现的这一事实并不会改变将图像模型分类为非生成式图像模型。

此外,应当理解的是,构成预定义对象类型或执行预定义事件类型的“对象”可以指物质对象、人、动物、非物质对象(例如,光学现象)或实现预定义事件的对象(例如,独立于运动对象类型的预定义运动模式)。

因为根据第一方面的方法使用非生成式图像模型对ROI(其中对象被检测到)进行编码,所以得到的第一图像数据将是可解码的,而没有任何被外来图像数据污染的风险。外来图像数据是指除编码后图像之外的图像,或者如果图像是视频序列中的帧,则外来图像数据是指视频序列之外的图像。不希望的污染可能是训练的间接影响。例如,如果解码器网络已经从训练数据吸收图形信息,并且用户相信它允许该信息不加节制地迁移到所恢复的图像中,则解码器网络可能被认为不适合为执法目的提供证据。相比之下,根据第一方面的编码方法在可验证的编码和解码链的情况中处理ROI。因为图像的剩余部分是使用生成式图像模型进行编码的(如果没有可见的对象,则剩余部分就是整个图像),所以可以以有利的整体压缩比对图像进行编码,从而节省存储和传输容量。

在一些实施例中,非生成式图像模型的使用使得能够在不插入源自外来图像数据的信息的情况下对第一图像数据进行解码。相比之下,当使用生成式图像模型时,解码进程可以使用从历史图形数据构建的码本,其中,在概念上,编码后图像数据的角色是将码本的元素组合成恢复图像的指令。

在一些实施例中,非生成式图像模型的使用使得能够在不通过取决于源自除编码后图像之外的图像的信息的函数来处理第一图像数据的情况下对第一图像数据进行解码。相比之下,当使用生成式图像模型时,解码进程可以利用解码神经网络(其可以抽象地理解为构成函数),该解码神经网络已经使用历史图像数据(例如原始图像或为了训练神经网络而预处理的图像)进行训练。除这种类型的依赖性(其可以被称为离线依赖性)之外,其他生成式图像模型可以利用解码网络,该解码网络即使在解码网络的商业操作已经开始之后也会经历基于较新图像数据的持续更新或改进(再训练)。

在一些实施例中,非生成式图像模型允许非随机解码。与此相反,在一些可用的生成式图像模型中,解码器通过从概率分布中随机采样来生成重建图像。例如,Glow模型(https://openai.com/blog/glow/)可以被用于定义具有该特征的图像模型。甚至概率分布本身可能已经基于除待编码图像之外的信息被定义,并且这种信息的间接影响可以被认为在解码进程中引入了进一步的不确定性。在这些实施例中,因为使用了图像模型(该图像模型由于它的非随机解码器,所以是非生成性的),所以降低或消除了恢复图像被随机性和/或训练数据所污染的风险。

在一些实施例中,其中,生成式图像模型包括具有可训练权重的人工神经网络,当证实在图像中构成一个或多个预定义对象类型的或者执行一个或多个预定义事件类型的对象可见时,存储可训练权重的快照。通过对神经网络权重的快照的访问,可以根据需要经常重复编码操作,以达到验证目的。在这些实施例中,使用非生成式图像模型对ROI进行编码,并且通过可重复的编码进程对剩余部分进行编码,因此实现了对编码后图像的完整验证。如果图像是较大素材的一部分(例如,它是视频序列中的帧),对于所述对象可见的每个新图像,快照的存储不是强制性的;相反,如果已经存储了一个快照,并且可以证实神经网络权重此后没有被更新,则可以省去存储。在编码由商业软件产品执行的情况下,这些条件可以被满足,对于该商业软件产品,供应商在周期性或事件触发的基础上分发升级。在方法的进一步开发中,通过为包括可训练权重的快照、第一图像数据和第二图像数据的数据集增加生成数字签名的进一步步骤来确保额外的数据完整性。

在一些实施例中,ROI是图像的真子集,并且剩余部分是非空的。在其他实施例中,ROI是完整的图像,并且剩余部分是空的;换句话说,一旦在图像中构成预定义对象类型中的一个或多个对象类型的或者执行预定义事件类型中的一个或多个事件类型的对象的某些位置可见,则决定使用非生成式图像模型对整个图像进行编码,否则始终使用生成式图像模型。

在不同的实施例中,存在不同的方式来证实构成预定义对象类型中的一个或多个对象类型的至少一个对象或者执行预定义事件类型中的一个或多个事件类型的至少一个对象是否可见。为此,可以执行视觉对象识别进程或事件识别进程,并且尤其可以使用自动化的进程或计算机实施的进程。从基于待编码图像的意义上,识别进程是可视的。可替代地或附加地,构成预定义对象类型中的一个或多个对象类型的或者执行预定义事件类型中的一个或多个事件类型的对象的存在可以基于来自检测器的数据来建立,该检测器被配置为监控图像的场景,其中该场景可以与记录图像的相机的视域或该场景的邻域相对应。检测器可以被配置为捕获声音、振动、化学、机械或电磁激励,包括捕获场景的替代表示(例如,在红外光中),这实现了相关对象的检测。操作者输入构成证实相关对象在图像中是否可见的进一步方式;该输入可以是布尔信号,表示操作者已经注意到对象可见,或是操作者已经注意到所指示的图像区域(操作者在其中看到对象)。

在刚讨论的实施例中,设想当对象可见性证实步骤产生所识别的对象的位置时(例如,当使用对象检测或事件检测进程时),基于该位置定义ROI。应当理解的是,对象的位置利用图像坐标表达,或可以转换为图像坐标。可以用非零余量δ来定义ROI,表示ROI应当在所识别的对象之外延伸至少δ个单位。余量δ可以各向同性地应用,或仅在某些方向上应用,例如在瞬时运动方向上。所识别的对象的界限可以是边界框或近似轮廓(掩模)。余量δ的大小可以通过考虑编码器要使用的最大运动向量大小或所识别的对象的位置和/或边界框的精度来确定。如果要使用非生成式图像模型进行编码的ROI被扩展了非零余量δ,则ROI的内容可以被预测性地编码(也参见下文)的可能性增加到更大的程度。这实现了控制编码比特率。具体而言,依赖运动视频编码技术变得可能。相反,在ROI仅覆盖所识别的对象的实施例中,当要使用非生成式图像模型时,视觉对象可能会移入或移出ROI,使得I块/P块比率(或I帧/P帧比率)可能会稍高。

在一些实施例中,对象识别进程或事件识别进程可以被限制到预定义图像区,由此该区之外的对象对生成式图像模型与非生成式图像模型之间的选择没有影响。在一些实施例中,对象识别进程或事件识别进程被配置为识别具有增加的取证相关性的对象。

在一些实施例中,第一图像数据和/或第二图像数据指示ROI的位置。在解码侧,并且更准确地,在对使用生成式图像模型恢复的那些图像区域和使用非生成式图像模型恢复的那些图像区域进行组合的步骤中,可以依赖该指示。可以隐式或显式地指示位置。

在一些实施例中,不仅剩余部分(即ROI的补集)使用生成式图像模型进行编码,而且ROI的一部分也使用生成式图像模型进行编码。从该部分的编码得到的数据可以被称为第三图像数据。该部分可以是ROI的边界区域,通过该边界区域可以验证ROI和剩余部分之间的连续性。具体而言,使用生成式图像模型对整个图像的编码可以与使用非生成式图像模型对ROI的编码并行地继续。以这种方式,ROI的两个编码副本是可用的,这可以用作生成编码模型的可靠性的确认。此外,尤其是在视频序列的编码中,如果使用生成式图像模型的编码被一致地馈送恒定大小和位置的图像区,则该编码可以更好或更经济地工作。例如,可能有更频繁和更直接的机会将连续视频帧的图像特征预测性地表达为增量或块移动。

在一些实施例中,图像是视频序列中的帧,并且ROI的编码或剩余部分的编码或两者都应用帧间预测方法。例如因为帧描绘了相同的场景,随意帧间预测可以包括基于连续帧之间的假定时间相关性来预测和/或插值帧的外观。例如在ITU H.264编码(非生成模型)中就是这种情况,并且可以作为预处理或后处理步骤类似地应用于根据生成式图像模型的编码中。此外,在这些实施例中,可以通过基于连续帧之间的假定时间相关性应用关于对象的存在和/或它们的位置的预测和/或插值来证实对象是否可见。例如,可以对每个第n帧(其中n≥2是整数)执行对象识别进程或事件识别进程,以获得对象位置,然后通过插值操作对其进行处理,以提供每n-1个帧的插入子序列中的对象位置。在这种情况下,如果特定的所识别的对象在n帧之后重新出现,则应用插值可能是相关的。在这些实施例中,可以进一步选择使用视觉运动跟踪和/或(记录或已经记录了视频序列的相机的)相机方位参数和/或相机视域参数来跟踪通过同一视频序列的后续帧、特定的所识别的对象。

在本发明第一方面的一些实施例中,在图像与音频相关联的情况下,也使用非生成式音频模型选择性地编码音频。例如,如果考虑视频序列,则对于证实了所述对象在其中可见的任何帧,使用非生成式音频模型对与该帧相关联的音频(例如,与该帧同时记录的音频片段)进行编码;并且在没有证实所述对象可见的这种其他帧中,使用任意音频模型对相关联的音频进行编码。非生成式音频模型的使用使得能够在不依赖源自除所述相关联的音频之外的音频数据的信息的情况下对音频进行解码。任意音频模型可以是可以提供有利的数据压缩的生成式音频模型。

在一个实施例中,提供了对作为视频序列中的帧的图像进行编码的方法。方法包括以下步骤:证实在图像中构成一个或多个预定义对象类型的或者执行一个或多个预定义事件类型的对象是否可见;如果证实该对象可见,则使用非生成式图像模型对图像的至少一个感兴趣区域(ROI)进行编码,并且获得表示ROI的第一图像数据。然后,使用生成式图像模型对图像的任何剩余部分(即ROI的补集)进行编码,并且获得表示剩余部分的第二图像数据。非生成式图像模型的使用使得能够在不依赖源自不是视频序列中的帧的图像的信息的情况下对第一图像数据进行解码。

在本发明的第二方面,提供了对表示图像的图像数据进行解码的方法,其中,图像数据包括通过使用非生成式图像模型进行编码而获得的第一图像数据和通过使用生成式图像模型进行编码而获得的第二图像数据,方法包括:使用非生成式图像模型在不依赖源自除编码后图像之外的图像的信息的情况下对第一图像数据进行解码,或者如果图像是视频序列中的帧,则使用非生成式图像模型在不依赖源自视频序列之外的图像的信息的情况下对第一图像数据进行解码,从而获得图像的第一区域;使用生成式图像模型对第二图像数据进行解码,从而获得图像的第二区域;以及组合图像的第一区域和第二区域。

这里,因为第一图像数据是通过使用非生成式图像模型进行编码而获得的,所以它被解码而没有任何被外来图像数据污染的风险。这证实了恢复的第一图像区域的证据价值。解码方法是可验证的编码和解码链的一部分。因为第二图像数据通过使用生成式图像模型进行编码而获得,所以可以有利地限制第一图像数据和第二图像数据的总大小。

在第二方面的一些实施例中,如以上所提到的,该组合可以通过图像的第一区域的位置的指示(例如,相对于第二区域)来辅助,该指示可以从第一图像数据或第二图像数据中获得。

在本发明的其他方面,提供了编码装置和解码装置,它们分别被配置为执行第一方面和第二方面的方法。编码装置包括处理电路,该处理电路根据非生成式图像模型和生成式图像模型选择性地可操作,其中,非生成式图像模型的使用使得表示编码后图像的图像数据能够在不依赖源自除编码后图像之外的图像的信息的情况下被解码,或者如果编码后图像是视频序列中的帧,则使得图像数据能够在不依赖源自视频序列之外的图像的信息的情况下被解码。解码装置也配备有具有这种双重功能的处理电路。处理电路可以是交替执行与生成式图像模型和非生成式图像模型相对应的软件代码的单个处理器(或单个处理器网络),或处理电路可以被分为具有这些相应功能的多个硬件部分。

本发明还涉及包含指令的计算机程序,该指令用于使计算机或特别是编码装置或解码装置执行上述方法。计算机程序可以被存储或分布在数据载体上。如在本文所使用的,“数据载体”可以是诸如调制的电磁波或光波的暂时性的数据载体,或是非暂时性的数据载体。非暂时性是数据载体包括易失性和非易失性存储器,诸如磁性、光学或固态类型的永久和非永久存储介质。仍然在“数据载体”的范围内,这种存储器可以是固定安装的或便携式的。

通常,权利要求中所使用的所有术语将根据它们在技术领域中的普通含义来解释,除非本文中另有明确定义。所有对“一个/该元件、设备、部件、手段、步骤等”的引用应当被公开解释为指元件、设备、部件、手段、步骤等的至少一个实例,除非另有明确说明。本文公开的任何方法的步骤不必按照所描述的确切顺序来执行,除非明确说明。

附图说明

现在参照附图,通过示例的方式描述各方面和实施例,在附图中:

图1示出了根据本文中的实施例的编码装置和解码装置;

图2是根据本文中的实施例的编码方法的流程图;

图3图示了基于在图像中所识别和定位的对象来定义ROI的步骤;以及

图4图示了导致使用非生成式图像模型进行编码的空间受限的、基于事件的触发条件;以及

图5图示了使用生成式图像模型和非生成式图像模型进行编码的图像区域重叠的情况。

具体实施方式

现在将在下文中参照附图更全面地描述本公开的各方面,在附图上示出了本发明的特定实施例。然而,这些方面可以采用多种不同的形式来实施,并且不应被解释为限制性的;相反,这些实施例通过示例的方式提供,使得本公开将是彻底和完整的,并且将本发明的所有方面的范围完全传达给本领域技术人员。相同的标记在整个描述中指代相同的元件。

图1的上部图示了视频序列130,其包括构成视频帧的多个图像110。在当前的一个视频帧中,对象119在ROI 111内是可见的。根据本发明的一些实施例,ROI 111将使用非生成式图像模型进行编码,而视频帧的剩余部分112将使用生成式图像模型进行编码。

紧接在图1中的视频序列130的下方,示出了编码装置150,其接收采用明文表示的图像110,诸如采用明文的或由无损编码(例如,霍夫曼编码)表示的一组像素强度值。在编码装置150中,鉴别器151将图像110分为ROI 111和剩余部分112,并将它们分别馈送给被配置为使用非生成式图像模型的编码器160和被配置为使用生成式图像模型的编码器170。用于生成式图像模型的编码器170可以利用具有权重的神经网络(编码器网络)171,该权重已经根据除待编码图像110之外的图像进行了训练。(具体而言,编码器170可以利用具有权重的神经网络171,该权重已经根据视频序列130之外的图像进行了训练)。鉴别器151可以包括自动的或操作者辅助的对象识别或事件识别进程,和/或用于接收和分析传感器信号(例如,来自检测器的信号,该检测器监控图像110的场景或场景的邻域)的接口,该传感器信号补充图像110中的视觉数据,其共同目的是证实对象的存在及其位置。用于非生成式图像模型的编码器160输出第一图像数据121,并且用于生成式图像模型的编码器170输出第二图像数据122(以及,在一些实施例中,编码ROI 111与剩余部分112之间的重叠的第三图像数据)。可选的签名函数152(其中已经存放了密钥对的私钥)可以生成数字签名123,接收者可以通过数字签名123来验证第一图像数据121和第二图像数据122的真实性。更准确地,根据本身已知的方法,签名函数152可以计算第一图像数据121和第二图像数据122的散列,并基于该散列生成数字签名123。

图1的下部示出了解码装置180。由于图像编码的目的之一是实现图像的传输和存储,因此编码装置150和解码装置180无需位于同一位置或由同一实体控制。类似地,图像数据可以从存储器获得并在很久以后用于恢复原始图像。在解码装置180中,实现了使用以上所提到的非生成式图像模型的解码器160’和使用以上所提到的生成式图像模型的解码器170’。解码器170’可以包括神经网络(解码器网络)171’,神经网络171’具有通过在外来图像数据上进行训练而获得的权重并且优选地与编码器网络171结合使用。此外,解码器170’可以被配置为根据概率分布执行随机采样。两个解码器160’、170’分别负责恢复图像110的ROI和剩余部分,然后将它们组合并输出。解码装置180包括可选的签名验证函数182(其中已经存放了上述密钥对的公钥),签名验证函数182被配置为使用数字签名123来评估第一图像数据121和第二图像数据122是否可信。

应当理解的是,图1是编码装置150和解码装置180的内部工作的纯功能性图示,其不必反映实现它的处理硬件的结构。实际上,一个功能块(框)可以与在处理器或处理器网络、专用部件(例如,ASIC、FPGA)或它们的组合上运行的计算机可执行代码的一部分相对应。其中编码装置150和解码装置180的功能由联网的处理资源来实现的云实施方式也是可以预见的,并且完全包含在本公开的范围内。

对于编码器网络和解码器网络(合成网络)的训练的一般描述,请参照US20210049468的公开,在该公开中,根据GAN目标函数训练这种网络,以便生成图像的特征向量(外观向量)并重建图像。第0199、0201、0202和0206段以及相对应的图7A和图7B具有主要的相关性。

参照图2中的编码方法200,现在将呈现根据一些实施例的编码装置150的功能的更详细描述。然而,因为编码方法200本身并不链接到编码装置150的所图示的结构,所以它也可以被实现在通用可编程计算机上。

在方法200的第一步骤210中,证实在图像中构成一个或多个预定义对象类型的对象类型的或者执行一个或多个预定义事件类型的事件类型的对象是否可见。如以上所提到的,术语“对象”也应扩展到实现预定义事件类型的(任意类型的)对象。步骤210可以包括执行视觉对象识别进程、执行视觉事件识别进程、从被配置为监控图像的场景的检测器获得数据、或获得操作者输入。可替换地或附加地,步骤210可以包括接收和分析补充图像110中的视觉数据的传感器信号(诸如来自指向图像110的场景或其邻域的相机或运动检测器的信号),或者可以从中推断出对象将要出现在图像110中的可能性增加的另一检测器信号。例如,来自检测器的、指示通向图像110中可见的空间的门或大门打开的传感器信号可以暗示人或物体将要进入该空间,并且将在图像110中变得可见。这种传感器信号可以被用作证实210符合预定义对象类型或预定义事件类型的对象在图像110中可见的基础。

在利用视觉识别进程的实施例中,操作者可能已经预先用期望的对象类型和/或事件类型配置该进程。换句话说,即使操作者可能被授权在运行时重新配置或调整这种设置,但是从执行方法200的实体的角度,对象类型和事件类型是“预定义”的。操作者可能已经配置了对象类型和/或事件类型,使得具有增加的取证相关性的对象将被识别。相应地,对象类型可以包括车辆和人,更具体地,可以包括盗窃工具、锁匠工具、喷漆罐、刀、火器、爆炸物、隐藏的衣服、制服、具有纹身的身体部位、急救车辆、商品、包装和相机;并且事件类型可以包括诸如切割或锯割运动、喷洒运动、火焰、爆炸、非法侵入、攀爬、异常长时间的停留、身体虐待和特定车辆操纵模式。

与对象类型和事件类型一起,操作者可以选择对条件(触发条件)进行配置,使得所讨论的对象在预定义图像区中可见。这在图4中图示,其中只有在建筑物入口周围的预定义区113内可见的对象可以导致步骤210的肯定结果。相比之下,预定义区113之外的对象(人)119的存在不足以产生步骤210的肯定结果。

在一些实施例中,在图像110是视频序列130中的帧的情况下,步骤210可以对对象的存在和位置或两者应用预测和/或插值。这种预测和插值反映了连续帧在时间上相关的假设(例如,由于它们是由指向同一场景的相机捕获的)。同样,可以基于视觉运动跟踪和/或相机方位参数和/或相机视域参数在连续帧之间跟踪所识别的对象。具体而言,为了维持相对于场景静止的所识别的对象的最新图像坐标,检测和近似反转相机的平移-倾斜-缩放(PTZ)设置的任何变化是有意义的。

在第一步骤210的否定结果的情况下,执行流程继续到步骤220。在肯定结果的情况下,符合预定义对象或预定义事件类型的对象是可见的,接下来是流程图的右侧条件分支。

右侧分支从定义ROI 111的可选步骤212开始。ROI 111(或多个ROI)可以基于在第一步骤210中识别的对象119的位置来定义。ROI可以进一步基于所识别的对象119的检测范围来定义,并且可选地具有周围的余量。在图3中图示了这种余量的添加,其中ROI 111在所识别的对象119的边界框之外延伸了δ个单位。余量δ的大小可以通过考虑编码器要使用的最大运动向量大小或所识别的对象119的位置和/或边界框的精度来确定。在这些教导的进一步改进中,余量δ的大小可以基于最近N帧中已经使用的最大运动向量大小来确定,其中N是可配置的整数。可替代地或附加地,余量δ的大小可以基于帧间预测编码进程中所使用的图像块(宏块、I块、P块)的大小来确定。

如以上所提到的,步骤212是可选的。例如,它可以在方法200的其中在第一步骤210中评估了空间受限条件的这种实施例中被省略。在这种情况下,ROI 111被设置为等于预定义区113(参见图4)。在其他实施例中,ROI 111的范围可以根据操作者的输入来定义。在另外的实施例中,ROI 111的范围可以是预定义的,并且在图像坐标方面是恒定的。

在下一步骤214中,使用非生成式图像模型160对ROI 111进行编码。编码的输出是ROI 111可以从其进行恢复的第一图像数据。如以上所提到的,非生成式图像模型160可以包括根据变换编码、混合编码(预测编码和变换编码的组合)、ITU H.26x、AV1或JPEG的编码,仅举几例。如果ROI 111通过变换编码进行编码,则第一图像数据表示描述ROI 111的变换系数。ROI 111可以通过将变换系数应用于基础函数(例如,在离散余弦变换的情况下的余弦)来恢复。与非生成式图像模型的以上所提到的特性一致,如在本公开的先前部分中开发的,基础函数的使用实现了在不依赖源自除编码后图像之外的图像的信息的情况下将第一图像数据解码到ROI 111中。在一些实施例中,其中图像110是视频序列130中的帧,步骤214包括应用具有帧间预测的编码方法。在这种情况下,解码使用视频序列130中的先前解码的帧,但是不依赖源自视频序列130之外的图像的信息。

图2中的流程图的条件分支包含另外两个可选步骤,仅当已经证实210在图像110中构成任何预定义对象类型或执行任何预定义事件类型的对象可见时,才执行该条件分支。

第一可选步骤216a以与图像110相关联的任何音频内容为目标。作为视频序列130中的帧的图像110经常携带相关联的音频内容,尽管静止图像也可以具有音频内容。在可选步骤216a形成流程图的条件分支的一部分的实施例中,编码器150包括音频编码器部分(未示出),其具有由其支配的非生成式音频模型和另外的音频模型。非生成式音频模型的使用使得能够在不依赖源自除所述相关联的音频之外的音频数据的信息的情况下对音频内容进行解码,并且另外的音频模型可以是生成式音频模型,其具有有利的数据压缩性能,但是可能具有较低的感知证据价值。在这种实施例中,使用非生成式音频模型(步骤216a)或使用另外的音频模型(流程图的强制性分支中的步骤216b)对音频进行编码。值得注意的是,与图像110不同,音频内容在每个帧内被均匀地处理,即没有被划分为与图像110的ROI 111和剩余部分112类似的部分。

在第二可选步骤218中,存储神经网络的权重的快照,该神经网络将用于使用生成式图像模型对图像110的剩余部分112进行编码。这种存储可以增强剩余部分112(第二图像数据)的编码后版本的证据价值,因为对神经网络权重的快照的访问使得用于验证目的的重复编码操作是可能的(如果需要的话)。

在已经执行了条件分支中的所有步骤(在不同的实施例中,一个、两个、三个或四个步骤)之后,执行流程继续到步骤220,在此处接合了方法200的强制性分支。

在步骤220中,使用生成式图像模型170对图像110的剩余部分112进行编码。生成式图像模型170可以包括以下一个或多个:基于机器学习的编码器、人工神经网络编码器、自动编码器、可变自动编码器、生成对抗网络(GAN)编码器、卷积神经网络(CNN)编码器、递归神经网络(RNN)编码器、自回归模型、流模型。在图像110是视频序列130中的帧的一些实施例中,步骤220包括具有帧间预测的编码方法。

在一些实施例中,可选步骤222的存在表示使用生成式图像模型进行编码的不仅仅是剩余部分112的可能性。这里,如在图5中可以看到的,ROI 111的一部分111.1(“重叠”)也使用生成式图像模型进行编码。这生成了重叠111.1可以使用生成式图像模型从其进行恢复的第三图像数据。重叠111.1例如可以是ROI111的边界区域(边缘、边沿)。ROI 111中的重叠111.1的补集111.2仅使用非生成式图像模型进行编码。注意,步骤220和步骤222可以联合,也就是说,剩余部分112和重叠部分111.1可以在共同的进程中进行编码。类似地,第一图像数据和第三图像数据不必是可分离的,例如在不恢复重叠111.1的情况下ROI 111可以被恢复,或反之亦然。

仍然参照步骤222,在一个特定实施例中,使用生成式图像模型对整个图像110进行编码与使用非生成式图像模型对ROI 111进行条件编码并行继续(步骤214)。该特定实施例与图5中所示出的配置不同,其中补集111.2是非空的。

已经描述了音频相关的步骤216b。仅当条件分支中的步骤216a没有被执行时,才执行该步骤。

在一些实施例中,方法200以生成数字签名123的最终步骤结束,通过该步骤可以验证第一图像数据和/或第二图像数据的真实性。可选地,为更大的数据集生成数字签名123,该数据集也包括在步骤218中所存储的神经网络权重。

解码装置180可以被配置为执行解码方法,具有作为输入的图像数据,该图像数据包括通过使用非生成式图像模型进行编码而获得的第一图像数据和通过使用生成式图像模型进行编码而获得的第二图像数据。方法包括以下步骤:使用非生成式图像模型在不依赖源自除编码后图像之外的图像的信息的情况下对第一图像数据进行解码,或者如果图像是视频序列中的帧,则使用非生成式图像模型在不依赖源自视频序列之外的图像的信息的情况下对第一图像数据进行解码,从而获得图像的第一区域111;使用生成式图像模型对第二图像数据进行解码,从而获得图像的第二区域112;以及组合图像的第一区域和第二区域。该组合可以由图像的第一区域的位置指示(例如,相对于第二区域)来辅助,该位置指示可以从第一图像或第二图像数据中获得。

以上已经参照几个实施例主要描述了本公开的各方面。然而,如本领域技术人员容易理解的,在由所附专利权利要求限定的本发明的范围内,除以上所公开的实施例之外的其他实施例同样是可能的。

相关技术
  • 应用于码头贝位号识别的图像编码方法
  • 测量系统、生成在进行包含预定结构的半导体的图像测量时使用的学习模型的方法、以及存储用于使计算机执行生成在进行包含预定结构的半导体的图像测量时使用的学习模型的处理的程序的存储介质
  • 动画图像编码传送系统、动画图像编码传送方法、该系统和方法使用的适合的编码装置、译码装置、编码方法、译码方法以及程序
技术分类

06120116304422