导航：首页> 电通信技术>编解码器速率失真补偿降采样器

编解码器速率失真补偿降采样器

文献发布时间：2023-06-19 19:28:50

背景技术

降采样是内容流系统中的操作，以产生不同类型的客户端设备可用的比特率和分辨率方面的不同表示。在现代流系统中，流服务器在分辨率和比特率方面提供不同的编码表示，使得客户端设备可以动态地下载与其回放上下文(例如，显示大小和网络条件)最佳匹配的表示。为了提供这样的表示，流服务器需要在编码之前将源视频降采样到不同的分辨率。降采样可以用在感知上不是最佳的滤波器来执行。

附图说明

图1示出了根据一个实施方式的示例性视频处理系统的图，该示例性视频处理系统包括基于训练的机器学习(Machine Learning，ML)模型的编解码器速率失真(ratedistortion)补偿降采样器；

图2示出根据一个实施方式的用于训练图1所示的基于ML模型的编解码器速率失真补偿降采样器的训练流水线系统的图；

图3描绘根据各种实施方案的图1中所示的基于ML模型的编解码器速率失真补偿降采样器的替代示范性架构；

图4示出了一个流程图，其概述了根据一个实施方式的用于训练基于ML模型的编解码器速率失真补偿降采样器的示例性方法；

图5A示出了根据本发明构思的一个方面的、描述了由图1的视频处理系统实现的示例性条件降采样网络的图；以及

图5B示出了根据本发明构思的另一方面的、描述了由图1的视频处理系统实现的示例性条件降采样网络的图。

具体实施方式

以下描述包含与本公开中的实施方式有关的具体信息。本领域技术人员将认识到，本公开可以以与本文具体讨论的方式不同的方式来实现。本申请中的附图及其详细描述仅针对示例性实施方式。除非另外指出，否则附图中的相同或相应的元件可以由相同或相应的附图标记表示。此外，本申请中的附图和图示通常不是按比例描绘的，并且不旨在对应于实际的相对尺寸。

本申请公开了用于训练和利用基于机器学习(ML)模型的编解码器速率失真补偿降采样器的系统和方法，其克服了现有技术中的缺点和不足。诸如双线性、三次或Lanczos滤波器的滤波器在感知上不是最佳的，并且没有考虑源内容将在降采样之后被编码。为此，本申请公开了一种感知上优化的降采样方法，包括1)学习的降采样器，2)模拟标准兼容图像或视频编解码器的代理视频编解码器，3)时间感知损失函数，4)允许不同损失函数之间的推理时间内插的调节机制，以及5)用于任意缩放的机制。本申请中公开的降采样解决方案仅应用于源内容。因此，这些解决方案与现有的图像或视频编码流水线兼容，并且不需要在客户端侧进行任何改变，同时在感知质量度量方面提供改进的速率失真性能。此外，在一些实施方式中，本发明的编解码器速率失真补偿降采样解决方案可以被实现为自动化过程。

值得注意的是，如本申请中所定义的，术语“自动化”(“automation”)、“自动化的”(“automated”)和“使自动化”(“automating”)是指不需要人类用户参与的系统和过程，诸如人类编辑者或系统管理员。例如，尽管在一些实施方式中，人类系统管理员可以审查本文公开的系统和方法的性能，或者在以下讨论的条件降采样的情况下，可以提供用户定义的感知损失函数权重，但是人类参与是可选的。因此，在一些实施方式中，本申请中描述的过程可以在所公开的系统的硬件处理组件的控制下执行。

还应注意，如本申请中所定义的，表述“机器学习模型”或“ML模型”可以指用于基于从数据样本或“训练数据”学习的模式进行未来预测的数学模型。各种学习算法可以用于映射输入数据和输出数据之间的相关性。这些相关性形成了可用于对新输入数据进行未来预测的数学模型。这种预测模型可以包括一个或多个逻辑回归模型、贝叶斯模型或神经网络(Neural Network,NN)。此外，在深度学习的背景中，“深度神经网络”可以指利用输入层和输出层之间的多个隐藏层的NN，其可以允许基于未在原始数据中明确定义的特征的学习。在各种实施方式中，NN可被训练为分类器，并可被用来执行图像处理或自然语言处理。

还应注意，如本申请中所限定，特征“代理视频编解码器”是指基于NN或其它基于ML模型的软件模块，该软件模块已被预先训练以复制标准编解码器(例如，H.264或AV1)的速率失真特性。相反，现有的基于深度学习的编解码器没有被训练成复制标准编解码器的失真特性。结果是，由现有的基于深度学习的编解码器引入的降采样伪像(artifact)与由标准编解码器产生并由本文公开的代理视频编解码器复制的降采样伪像非常不同。也就是说，通过引入旨在再现传统图像/视频编解码器的输出的基于知识蒸馏的代理视频编解码器，本申请中公开的方法有利地促进了针对标准编解码器产生的实际失真的降采样器性能的优化。

图1示出了根据一个实施方式的包括经训练的基于ML模型的编解码器速率失真补偿视频降采样器112(以下称为“基于ML模型的视频降采样器112”)的示例性视频处理系统100的图。如图1所示，视频处理系统100包括计算平台102，其具有处理硬件104和被实现为计算机可读非暂态存储介质的系统存储器106。根据本示例性实施方式，系统存储器106存储经训练的基于ML模型的视频降采样器112、视频编解码器114和仿真模块120。

如图1进一步所示，视频处理系统100在使用环境中实现，该使用环境包括提供视频序列138(以下称为“输入视频序列138”)的视频源134、通信网络130、以及利用包括显示器148的客户端设备140的媒体内容消费者108。另外，图1示出了经由通信网络130将视频源134及客户端设备140与视频处理系统100通信地耦合的网络通信链路132。图1中还示出了较低分辨率视频序列152以及与输入视频序列138相对应的经解码的比特流146。

需要注意的是，尽管视频处理系统100可以经由通信网络130和网络通信链路132从视频源134接收输入视频序列138，但是在一些实施方式中，视频源134可以采取与计算平台102集成的内容源的形式，或者可以与视频处理系统100直接通信，如虚线通信链路136所示。还应注意的是，在一些实施方式中，视频处理系统100可以省略仿真模块120。因此，在一些实施方式中，系统存储器106可以存储经训练的基于ML模型的视频降采样器112和视频编解码器114，而不是仿真模块120。

输入视频序列138可以包括例如视频游戏、电影或包括流传输的情节内容或广播的情节内容的情节节目内容形式的音频-视频(Audio-Video,AV)内容。输入视频序列138可以包括具有嵌入的音频、字幕、时间码和其他辅助元数据(例如，评级和家长指导)的高清晰度(HD)或超高清(UHD)基带视频信号。在一些实施方法中，输入视频序列138可以由视频源134如TV广播网络或其他媒体分发实体(例如，电影工作室、流平台等)利用例如辅助音频节目(SAP)或描述性视频服务(DVS)来提供。

关于图1中所示的视频处理系统100的表示，需要注意的是，尽管为了令概念清楚，将经训练的基于ML模型的视频降采样器112、视频编解码器114和仿真模块120描绘为存储在系统存储器106中，但是更一般地，系统存储器106可以采取任何计算机可读非瞬态存储介质的形式。如本申请中所使用的表述“计算机可读非暂态存储介质”是指除了载波或其他暂态信号(诸如计算平台102的处理硬件104)等向计算平台的处理硬件提供指令之外的介质的任何介质。因此，计算机可读非暂时性存储介质可以对应于各种类型的介质，例如易失性介质和非易失性介质。易失性介质可以包括动态存储器，例如动态随机存取存储器(动态RAM)，而非易失性存储器可以包括光学、磁性或静电存储设备。计算机可读非暂时性存储介质的常见形式包括例如光盘、RAM、可编程只读存储器(PROM)、可擦除PROM(EPROM)和FLASH存储器。

还应当注意的是，尽管图1将经训练的基于ML模型的视频降采样器112、视频编解码器114和仿真模块120描绘为在系统存储器106中相互协同定位，但是该表示也仅仅是为了概念清楚而提供的。更一般地，视频处理系统100可以包括一个或多个计算平台，例如计算机服务器，其可以位于同一位置，或者可以形成交互链接但分布式分布的系统，例如基于云的系统。结果是，处理硬件104和系统存储器106可以对应于视频处理系统100内的分布式处理器和存储器资源。因此，应当理解，经训练的基于ML模型的视频降采样器112、视频编解码器114和仿真模块120可以彼此远程地存储在视频处理系统100的分布式存储器资源内。此外，并且如上所描述，在一些实施方式中，可以从系统存储器106中省略仿真模块120。

处理硬件104可以包括多个硬件处理单元，例如一个或多个中央处理单元、一个或多个图形处理单元、以及一个或多个张量处理单元、一个或多个现场可编程门阵列(FPGA)、用于机器学习训练或推理的定制硬件、以及应用编程接口(API)服务器。作为定义，如本申请中所使用的，术语“中央处理单元”(CPU)、“图形处理单元”(GPU)和“张量处理单元”(TPU)具有它们在本领域中的习惯含义。也就是说，CPU包括用于执行计算平台102的算术和逻辑运算的算术逻辑单元(ALU)以及用于从系统存储器106检索程序的控制单元(CU)，同时GPU可被实现为通过执行计算密集型图形或其他处理任务来减少CPU的处理开销。TPU是专门为人工智能(AI)应用(例如机器学习建模)配置的专用集成电路(ASIC)。

在一些实施方式中，计算平台102可以对应于例如通过诸如因特网的分组交换网络可访问的一个或多个web服务器。或者，计算平台102可对应于支持专用广域网(WAN)、局域网(LAN)或包括在另一类型的有限分发或专用网络中的一个或多个计算机服务器。作为又一替代，在一些实施方式中，视频处理系统100可以虚拟地实现，诸如在数据中心中实现。例如，在一些实施方式中，视频处理系统100可以以软件或作为虚拟机来实现。

尽管客户端设备140在图1中被示为智能TV，但是该表示仅作为示例来提供。更一般地，客户端设备140可以是实现足以提供用户接口、支持到通信网络130的连接、以及实现归于本文的客户端设备140的功能的数据处理能力的任何合适的移动或固定计算设备或系统。例如，在一些实施方式中，客户端设备140可以采取台式计算机、手提计算机、平板计算机、智能电话、数字媒体播放器、游戏平台或智能可穿戴设备例如智能手表的形式。

关于客户端设备140的显示器148，显示器148可以与客户端设备140物理地集成，或者可以通信地耦合到客户端设备140但与其物理地分离。例如，在客户端设备140被实现为智能TV、智能电话、手提计算机、平板计算机或智能手表的情况下，显示器148可以与客户端设备140集成。相反，在客户端设备140被实现为台式计算机或游戏平台的情况下，显示器148可以采取与客户端设备140分离的监视器的形式，分别采取计算机塔或游戏控制台的形式。此外，显示器148可以被实现为液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、量子点(QD)显示器或执行信号到光的物理变换的任何其它适当的显示屏。

作为视频处理系统100的运行时间或推断时间性能的概述，值得注意的是，计算平台102的处理硬件104可以接收具有第一显示分辨率的输入视频序列138，并且可以使用经训练的基于ML模型的视频降采样器112将输入视频序列138映射到具有比第一显示分辨率低的第二显示分辨率的较低分辨率视频序列152。使用基于NN的代理视频编解码器(图1中未示出)来训练经训练的基于ML模型的视频降采样器112，该代理视频编解码器已被预训练以便以标准视频编解码器的形式复制视频编解码器114的速率失真特性。

由于经训练的基于ML模型的视频降采样器112的训练，由基于ML模型的视频降采样器112执行的输入视频序列138的降采样使得较低分辨率视频序列152基本上被优化以供视频编解码器114处理。处理硬件140然后可以使用视频编解码器114将较低分辨率视频序列152变换成经解码的比特流146，并且可以输出经解码的比特流146。例如，如图1所示，在一些实施方式中，视频处理系统100可以经由通信网络130和网络通信链路132将解码的比特流146输出到客户端设备140，以在显示器148上显示给媒体内容消费者108作为与输入视频序列138相对应的输出视频序列。

图2示出根据一个实施方式的用于训练图1中的基于经训练的ML模型的视频降采样器112的训练流水线系统210的图。如图2所示，训练流水线系统210包括基于ML模型的视频降采样器211、包括基于NN的代理视频编解码器222的仿真模块220、升采样器226和优化块260。图2中还示出了训练输入视频序列227、从训练输入视频序列227降采样的较低分辨率视频序列250、由基于NN的代理视频编解码器222输出的经解码的代理比特流224、以及对应于训练输入视频序列227的训练输出视频序列228。

在使用训练流水线系统210训练经训练的基于ML模型的视频降采样器112之前，基于ML模型的视频降采样器211一般对应于图1中的基于经训练的ML模型的视频降采样器112。因此，基于ML模型的视频降采样器211可以共享通过本公开归因于基于经训练的ML模型的视频降采样器112的任何架构特性，反之亦然。此外，图2中的仿真模块220一般对应于图1中的仿真模块120，因此，仿真模块120可共享本公开归因于仿真模块220的任何特性，反之亦然。也就是说，仿真模块120可包括分别对应于基于NN的代理视频编解码器222、升采样器226和优化块260中的一个或多个的特征。

因此，训练流水线系统210包括基于ML模型的视频降采样器211，其配置为接收具有第一显示分辨率的训练输入视频序列227，并且将训练输入视频序列227映射到具有低于第一显示分辨率的第二显示分辨率的较低分辨率视频序列252。另外，训练流水线系统210还包括配置为将较低分辨率视频序列250变换成经解码的代理比特流224的基于NN的代理编解码器222，以及配置为接收经解码的代理比特流224并产生与输入训练视频序列227相对应且具有高于第二显示分辨率的输出训练视频序列228的升采样器226。

参考训练流水线系统210，给定具有L帧的高分辨率输入视频序列：

以及目标降采样比例0＜s<1，本文由符号“D”表示的基于经训练的ML模型的视频降采样器112执行产生降采样版本的操作：

因此：

可以使用不同的学习策略来实现经训练的基于ML模型的视频降采样器D。例如，D的可能的示例可以包括特征提取模块，随后是降采样模块，以及最后的另一个滤波或细化模块，该最后的另一个滤波或细化模块预测降采样结果、固定降采样的残差、或允许对期望的较低分辨率结果进行采样的内核。为此，图3示出了基于ML模型的视频降采样器架构的四个可选实施方式，该架构适于由基于ML模型的视频降采样器211或基于经训练的ML模型的视频降采样器112采用，它们使用卷积神经网络(CNN)来以不同方式实现从卷积层提取的特征的降采样。

例如，参考图3，基于ML模型的视频降采样器架构312a使用步幅卷积(“StridedConvolution”)，而基于ML模型的视频降采样器架构312b的特征在于利用诸如线性、双三次或Lanczos滤波器的传统滤波器进行重采样，例如，基于ML模型的视频降采样器架构312c类似于基于ML模型的视频降采样器架构312b，但是另外使用精确的子像素偏移和比例信息作为到卷积层中的额外输入。基于ML模型的视频降采样器架构312d被设计为预测子像素感知内核，该子像素感知内核然后可以被应用于原始的

对于基于视频的降采样，还考虑帧之间的时间相关性，并且采用感知上正确的损失函数，如下面更详细描述的。然而，容易理解，当L＝1时经训练的基于ML模型的视频降采样器112简化为对单帧输入进行操作的仅图像降采样器的情况。当L>1，利用该降采样器输入是视频帧序列，并且图2中的示例性训练流水线系统210可以利用二维(2D)或三维(3D)卷积，由此考虑降采样期间的时间帧序列信息。

基于NN的代理视频编解码器222：

基于端到端训练ML模型的视频降采样器211时的一个挑战是当前的压缩标准基于复杂的试探法决策，因此是不可微分的(“Non-Differentiable”)。为了解决和克服这个限制，本申请公开了一种新颖的和具备创造性的知识蒸馏(distillation)方法，该方法基于NN的代理视频编解码器222，本文由符号

在预训练期间，基于NN的代理视频编解码器222的学习目标是学习预测标准视频编解码器将产生的伪像。

损失函数的选择是非常重要的，尤其是在约束设置中，其中仅降采样操作被优化而升采样是固定的。特别地，考虑以下示例可能是具有深刻意义的：假定图1中的客户端装置140上的固定比例放大是使用用于内插的最近相邻者/箱式滤波器技术来执行。在这种情况下，独立于所使用的降采样技术，在显示器148上生成的输出将表现为像素化的，并且通过平均/箱式滤波来给出关于L

然而，因为不同的损失可能最佳地表示人类视觉系统的不同特征，所以本文公开的解决方案采用组合多个不同感知损失函数同时还考虑如下速率的目标函数：

这里，权重是单位分解(∑ω

因此，训练流水线系统210的优化块260可以使用训练输入视频序列227、训练输出视频序列228和基于较低分辨率视频序列250的估计速率和多个感知损失函数的目标函数来训练基于ML模型的视频降采样器211。此外，在一些实施方式中，如上文方程4具体示出的，用于训练基于ML模型的视频降采样器211以提供经训练的基于ML模型的视频降采样器212的目标函数包括较低分辨率视频序列250的估计速率与多个感知损失函数的加权和的组合。

值得注意的是，

时间相干性：

如上所描述，当L>1时，经训练的基于ML模型的视频降采样器112的输入/输出是帧序列，其可以在方程4的目标函数中被联合考虑。这种方法有利地使得能够在作为基于ML模型的视频降采样器112的输出而提供的较低分辨率视频序列152上实施时间稳定性。作为一个例子，可以一起考虑帧序列以优化时间轮廓，这有利于时间上连贯的向下缩放结果。

训练流水线系统210的功能将参考图4进一步描述，图4示出了表示根据一个实施方式的由视频处理系统100使用以训练基于ML模型的视频降采样器211的示例性方法的流程图470。关于图4中概述的方法，值得注意的是，流程图470中省略了某些细节和特征，以免混淆本申请中对发明性特征的讨论。

现在结合图2参考图4，流程图470可以开始于向基于ML模型的视频降采样器211提供(动作471)具有第一显示分辨率的输入视频序列(即训练输入视频序列227)。进一步参考图1，在动作471中，训练输入视频序列227可以由计算平台102的处理硬件104提供给基于ML模型的视频降采样器211。

流程图470还包括使用基于ML模型的视频降采样器211将训练输入视频序列227映射到具有低于训练输入视频序列227的第一显示分辨率的第二显示分辨率的较低分辨率视频序列250(动作472)。动作472有效地将高分辨率视频序列映射到低分辨率视频序列，并且由基于ML模型的视频降采样器211在计算平台102的处理硬件104的控制下执行。

流程图470还包括使用基于NN的代理视频编解码器222将较低分辨率视频序列250变换成经解码的代理比特流224(动作473)。如上所描述，基于NN的代理视频编解码器224被预先训练以复制视频编解码器114的速率失真特性。动作473可以由计算平台102的处理硬件104使用仿真模块220的基于NN的代理视频编解码器222来执行。

流程图470还包括使用接收经解码的代理比特流224的升采样器226来生成输出视频序列(即，训练输出视频序列228)，该输出视频序列对应于训练输入视频序列227并且具有高于第二显示分辨率的显示分辨率，即，高于较低分辨率视频序列250的显示分辨率(动作474)。在一些实施方式中，训练输出视频序列228的显示分辨率可以是与训练输入视频序列227的第一显示分辨率基本上相同的显示分辨率。然而，在其他实施方式中，训练输出视频序列228的显示分辨率虽然大于较低分辨率视频序列240的第二显示分辨率，但可以低于训练输入视频序列227的第一显示分辨率。动作474可以由计算平台102的处理硬件104使用仿真模块220的升采样器226来执行。

流程图470还包括使用训练输入视频序列227、训练输出视频序列228和基于较低分辨率视频序列的估计速率以及多个感知损失函数的目标函数来训练基于ML模型的视频降采样器211(动作475)。可以在计算平台102的处理硬件104的控制下，以上面参考方程4描述的方式，使用仿真模块220的优化块260来执行动作475。

如上所描述，以方程4表出的目标函数包括较低分辨率视频序列250的估计速率与多个感知损失函数的加权和的组合。在一些实施方式中，基于ML模型的视频降采样器211的训练可以进一步基于应用于每个感知损失函数的相应加权因子(ω

关于由流程图470概述且在上文描述的方法，注意，在一些实施方式中，动作471、472、473、474和475可在可省略人类参与的自动化过程中执行。

图5A示出了根据本发明构思的一个方面的由图1的视频处理系统100实现的示例性条件降采样网络的图。如图5A所示，条件降采样网络500A包括经训练的基于ML模型的视频降采样器512、视频编解码器514和包括升采样器526和优化块560的仿真模块520A。图5A中还示出了到视频处理系统100的输入视频序列138的样本540、从样本540降采样的较低分辨率样本552、由视频编解码器514输出的经解码的比特流554A、对应于输入样本540的输出样本556A、以及加权因子558。

经训练的基于ML模型的视频降采样器512、视频编解码器514和仿真模块520A一般分别对应于图1中的经训练的基于ML模型的视频降采样器112、视频编解码器114和仿真模块120。因此，经训练的基于ML模型的视频降采样器512、视频编解码器514和仿真模块520A可以共享归因于根据本公开的相应的经训练的基于ML模型的视频降采样器112、视频编解码器114和仿真模块120的任何特性，反之亦然。另外，升采样器526通常对应于图2中的升采样器226，并且可以共享归因于上述相应特征的任何特性。也就是说，升采样器526可以被实现为固定的升采样器，或者被实现为基于ML模型的经学习的升采样器。此外，加权因子558对应于应用于包括在方程4中的每个感知损失函数的加权因子，其可以基于方程4的目标函数的初始优化来计算，可以由视频处理系统100的管理员来选择，或者可以包括计算的加权因子和管理员选择的加权因子两者。

参考图5B，图5B示出了根据本发明构思的另一方面的描述由图1的视频处理系统100实现的示例性条件降采样网络的图。如图5B所示，条件降采样网络500B包括经训练的基于ML模型的视频降采样器512，以及包括基于NN的代理视频编解码器522、升采样器526和优化块560的仿真模块520B。图5B中还示出了到视频处理系统100的输入视频序列138的样本540、从样本540降采样的较低分辨率样本552、由代理视频编解码器522输出的经解码的比特流554B、对应于输入样本540的输出样本556B、以及加权因子558。

值得注意的是，在图5B中由与图5A中使用的附图标记相同的附图标记标识的任何特征分别对应于那些先前标识的特征，并且可以共享以上归因于它们的任何特性。因此，经训练的基于ML模型的视频降采样器512、视频编解码器514和仿真模块520A通常分别对应于图1中的经训练的基于ML模型的视频降采样器112、视频编解码器114和仿真模块120，而加权因子558对应于应用于包括在方程4中的每个感知损失函数的加权因子，此外，基于NN的代理视频编解码器522通常对应于图2中的基于NN的代理视频编解码器222，并且可以共享归因于上述相应特征的任何特性。也就是说，基于NN的代理视频编解码器522可配置为复制视频编解码器114/514的速率失真特性。

如图5A和图5B所示，在各种实施方式中，仿真模块120/520A或仿真模块120/520B可包括升采样器526或基于NN的代理视频编解码器522和升采样器526两者。

关于条件降采样网络500A和500B，值得注意的是，这些网络被训练成在损失函数之间进行内插，并且使得视频处理系统100的管理员能够控制包括在降采样视频中的细节程度。在这种情况下，如图5A和图5B所示，经训练的基于ML模型的视频降采样器512也可以接收加权因子558。也就是说，在本实施方式中，基于ML模型的视频降采样器512所采用的降采样算法是加权因子558以及

为了在这种条件实现中正确地工作，在训练期间，经训练的基于ML模型的视频降采样器512应当具有宽范围的不同损失加权因子，例如随机采样的损失加权因子。用随机损失加权因子训练的条件降采样网络能够在通过管理员控制的参数进行推断期间成功地在感知损失函数之间进行插值。如将通过参考下面描述的一些专门限定而讨论的，相同的参数方法也可以用于具有针对不同的升采样器、不同的视频编解码器、不同的量化参数等而训练的单个网络。

在一些实施方式中，视频处理系统100的基于经训练的ML模型的视频降采样器112/512自适应地响应于包括在输入视频序列138中的内容的类型可能是有利的或值得期望的。因此，在一些实施方式中，在输入视频序列138被基于经训练的ML模型的视频降采样器112/512映射到较低分辨率视频序列152之前，处理硬件104可以提取输入视频序列138的样本540，并且可以使用基于经训练的ML模型的视频降采样器112/512将样本540映射到较低分辨率样本552。处理硬件104还可以使用如图5A所示的视频编解码器114/514或使用如图5B所示的代理视频编解码器522将较低分辨率样本552变换成解码比特流554A或554B，并且使用升采样器526和经解码的样本比特流554A或554B预测与提取的样本540对应的输出样本556A或556B。处理硬件104然后可以基于预测输出样本556A或556B修改经训练的基于ML模型的视频降采样器112/512的一个或多个参数，由此有利地自适应渲染经训练的基于ML模型的视频降采样器112/512内容。

除了上面讨论的感知优化的降采样框架之外，还存在众多具有新颖性和创造性方法支持的许多特殊化和扩展，包括：

仅图像降采样：如上所描述，作为特定的使用情况，当使用仅图像代理编解码器和时L＝1，本解决方案还实现了用于图像编解码器的感知优化的降采样。

单图像/视频降采样：作为特定的使用情况，通过为不同类型的内容中的每一个训练不同的网络，可以在每个内容的基础上进一步优化经训练的基于ML模型的视频降采样器112/512。

身份代理编解码器：通过使用身份代理，可以支持感知上优化的降采样，而不需要训练流水线系统210中的编解码器。

多输出分辨率：本解决方案可以容易地适于支持多个输出分辨率，例如，其可以匹配流服务所需的分辨率。

用于学习的超分辨率的最优降采样：如上所描述，参考图2，在一些实现中，升采样器226可以是学习的超分辨率升采样器。在这种情况下，超分辨率升采样器还可以利用基于ML模型的视频降采样器211来进行端到端训练。

多个质量等级和升采样器：本解决方案的框架是灵活的。一方面，可以针对特定编解码器设置和升采样器优化降采样。或者，也可以针对多个不同的编解码器设置和升采样算法进行训练，以实现与多种不同种类的升采样器和编解码器设置兼容的单个降采样。

参数升采样：类似于上面讨论的条件降采样，还可以扩展本申请中公开的方法以支持多个升采样内核。

参数编解码器：也可以训练单个降采样器和以不同标准编解码器为条件的单个代理编解码器网络。

色度子采样：为了避免不必要的转换和开销，本文所公开的视频处理解决方案还可以直接对yuv420p或具有色度子采样的其他内容进行操作。

预处理：除了降采样之外，可能存在优化将会变得有益的其它预处理任务。注意，如果降采样因子＝1，则本解决方案针对减轻压缩伪像进行优化。

因此，本申请公开了用于训练和利用基于机器学习模型的编解码器速率失真补偿降采样器的系统和方法，其克服了现有技术中的缺点和不足。本解决方案以几种方式改进了现有技术。例如，与非学习技术相比，本解决方案利用数据驱动方法来基于多个感知损失函数识别最优降采样。与现有的学习方法(没有一个在训练期间考虑编解码器)相比，本解决方案使用预先训练的代理视频编解码器来复制标准视频编解码器的速率失真特性。与现有的学习方法相比，本文公开的感知优化降采样器有利地1)支持更多的感知损失函数(例如，LPIPS、DISTS和时间损失)，2)可以提供子像素位置感知卷积，3)在训练循环中集成编解码器，以及4)支持系统管理员可控制的参数，该参数能够基于内容类型进行细粒度控制。

此外，在本解决方案中使用的预先训练的代理编解码器与现有的基于深度学习的编解码器显著不同，现有的基于深度学习的编解码器生成与标准编解码器所产生的伪像非常不同的伪像。因此，因为本解决方案利用预先训练的代理编解码器来再现传统编解码器的输出，所以本文公开的方法有利地能够更好地补偿由这样的标准编解码器产生的失真。

从以上描述中，显然可以使用各种技术来实现本申请中描述的构思而不脱离这些构思的范围。此外，虽然已经具体参考某些实施方式描述了构思，但是本领域普通技术人员将认识到，在不脱离这些构思的范围的情况下，可以在形式和细节上进行改变。因此，所描述的实施方式在所有方面都被认为是说明性的而非限制性的。还应当理解，本申请不限于本文所描述的特定实施方式，而是在不背离本公开的范围的情况下，许多重新布置、修改和替换是可能的。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：C·R·施罗尔斯;R·G·D·A·阿泽维多;N·D·格雷戈里;Y·薛;S·拉布罗齐;A·贾卢瓦;
专利申请人：迪士尼企业公司;苏黎世联邦理工学院;

上一篇：多差速驱动单元AGV路径跟踪方法及设备、存储介质
下一篇：一种高温超临界生产气凝胶复合玻纤毡中乙醇的回收系统