图像处理方法及装置、设备、介质

文献发布时间：2024-01-17 01:27:33

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像处理方法及装置、设备、介质。

背景技术

图像超分辨率是一类视觉生成任务（简称为图像超分任务），能够将低分辨率图像重建为高分辨率图像，通常应用于手机、数码相机以及地理信息的图像增强，或是直播视频的压缩与重建。

相关技术中，可以通过插值算法实现图像超分任务。其中，插值算法可以为三次样条插值，或者利用拉普拉斯金字塔和稀疏编码等算法。目前，还可以通过深度学习实现图像超分任务。2014年，国际计算机视觉与模式识别会议上出现了超分辨卷积神经网络（Super-Resolution Convolutional Network，SRCNN）、增强深度超分（Enhanced Deep Super-Resolution，EDSR）网络以及增强超分生成对抗网络（Enhanced Super-ResolutionGenerative Adversarial Network，ESRGAN）等一系列神经网络能将单张图像放大2~4倍；2022年，VRT利用Tansfomer的注意力机制，设计出效果更好的深度学习模型，通过在大数据训练中学习到的先验知识，填补图像缺失的像素，获得清晰的纹理和图像细节，但这种深度学习模型需要耗费更大的计算量。

目前相关技术中的方法仍存在一定问题。比如，传统的超分技术无法实现更大的缩放倍率和更好的视觉效果。再者，深度学习速度慢、运行效率低，难以兼顾效果和性能。另外，目前基于深度学习重建的图像细节可能与时空信息不符，无法在连续帧中获得很好的结果，这会使得超分重建后的内容不连续，容易出现闪烁、模糊及伪影问题。

发明内容

有鉴于此，本公开提出了一种图像处理方法及装置、设备、介质，能够在高效且实时处理图像超分任务的同时保证超分结果具有时空连续性，实现画面流畅及帧率稳定。

根据本公开的一方面，提供了一种图像处理方法，所述方法应用于超分模型，所述超分模型包括至少一个处理单元，每个处理单元包括稀疏卷积网络和上采样网络，其中，所述稀疏卷积网络用于采用稀疏卷积核进行特征提取，所述上采样网络用于进行上采样，所述方法包括：

将第一采集图像输入所述稀疏卷积网络，提取所述第一采集图像的空域特征，以及，基于采集图像序列确定所述第一采集图像的时域特征，其中，所述第一采集图像表示所述采集图像序列中待超分处理的采集图像；

基于所述空域特征和所述时域特征确定所述第一采集图像的时空特征；

将所述第一采集图像的时空特征输入所述上采样网络，得到所述第一采集图像对应的第一超分图像，其中，所述第一超分图像的分辨率高于所述第一采集图像的分辨率。

通过超分模型的稀疏卷积网络提取待超分图像的空域特征，并根据图像采集序列确定待超分图像的时域特征，进而通过空域特征和时域特征确定待超分图像的时空特征，并基于超分模型的上采样网络对时空特征进行上采样得到相应的超分图像，这样基于反映待超分图像在空间和时间两个维度上的特征信息进行超分处理，能够使得最终生成的超分图像保持时空连续性，避免出现闪烁、模糊及伪影问题，保持帧率稳定及画面流畅，同时超分模型具有较高的运行效率，以实现实时的图像处理。

在一种可能的实现方式中，所述超分模型中所述处理单元的数量由所述超分处理所需的放大倍率确定；在所述超分模型包括至少两个所述处理单元的情况下，所述方法还包括：以前一个所述处理单元输出的超分图像作为下一个所述处理单元的稀疏卷积网络的输入；根据前一个所述处理单元所用的时域特征和当前所述处理单元的稀疏卷积网络输出的空域特征确定输入该当前所述处理单元的上采样网络的时空特征。

通过自行设置处理单元的数量，能够方便修改缩放尺度，即有助于灵活调整图像的放大倍率，并且在处理单元不止一个的情况下，通过利用待超分图像的时域特征反复调整空域特征，在进行高倍率放大的同时能够更好地保持图像清晰度，避免出现模糊、锯齿及伪影问题。

在一种可能的实现方式中，不同应用场景下的时域特征不同。

通过在不同应用场景下确定不同的时域特征，使得在不同应用场景下输入至后续上采样网络的时空特征也有所不同，这样有利于实现具有针对性的超分任务。

在一种可能的实现方式中，在所述超分模型用于视频增强场景的情况下，所述基于采集图像序列确定所述第一采集图像的时域特征，包括：根据所述采集图像序列，确定所述第一采集图像相对于第二采集图像和第三采集图像的光流信息，所述第二采集图像表示所述采集图像序列中位于所述第一采集图像之前的采集图像，所述第三采集图像表示所述采集图像序列中位于所述第一采集图像之后的采集图像；根据所述光流信息确定所述第一采集图像的时域特征。

通过待超分图像的光流信息确定其时域特征，并利用该时域特征进行后续特征图的调整优化，有利于生成更贴合视频增强场景的超分图像，使得超分任务具有针对性。

在一种可能的实现方式中，在所述超分模型用于游戏渲染场景的情况下，所述基于采集图像序列确定所述第一采集图像的时域特征，包括：根据所述采集图像序列，确定所述第一采集图像相对于第二采集图像和第三采集图像的抖动偏移信息和运动矢量，所述第二采集图像表示所述采集图像序列中位于所述第一采集图像之前的采集图像，所述第三采集图像表示所述采集图像序列中位于所述第一采集图像之后的采集图像；根据所述抖动偏移信息和所述运动矢量确定所述第一采集图像的时域特征。

通过待超分图像的抖动偏移信息和运动矢量确定其时域特征，并利用该时域特征进行后续特征图的调整优化，有利于生成更贴合游戏渲染场景的超分图像，使得超分任务具有针对性。

在一种可能的实现方式中，所述基于所述空域特征和所述时域特征确定所述第一采集图像的时空特征，包括：利用所述时域特征调整所述空域特征得到所述第一采集图像的时空特征。

通过利用时域特征调整优化空域特征，这样能够保证时空特征同时反映待超分图像在空间和时间两个维度上的特征信息，有助于保证后续生成的超分图像保持时空连续性。

在一种可能的实现方式中，所述稀疏卷积网络至少包括第一稀疏卷积层、1

通过在两层稀疏卷积层中设置并使用1

在一种可能的实现方式中，所述上采样网络包括亚像素卷积层。

通过亚像素卷积实现上采样，能够在低分辨率空间保留更多的纹理区域，并且能够获得更好的重建效果，同时能够实现高效、快速、无参的像素重排列。

在一种可能的实现方式中，所述超分模型的训练过程至少包括：初始化所述稀疏卷积网络的网络参数；基于所述稀疏卷积网络的当前网络层的输入图像序列、当前网络层的权重矩阵以及优化参数确定目标函数的梯度，其中，所述输入图像序列来源于训练样本集，所述训练样本集根据所述超分模型的应用场景设置，所述目标函数表示关于所述输入图像序列和所述优化参数的编码长度函数；沿着所述梯度方向，以所述目标函数最大化为目标，前向更新所述稀疏卷积网络的各个网络层，直至获得满足预设条件的稀疏卷积网络。

通过前向更新方式训练得到白盒模型，不仅减少了模型的训练及修改时间，还得到了具有较强解释性的模型，有助于知晓各个网络层权重更新的原因，方便用户手动修改。

在一种可能的实现方式中，所述预设条件为所述梯度更新的次数达到第一阈值，或者，所述预设条件为所述目标函数的值等于或大于第二阈值。

通过设置不同的预设条件，有利于根据实际需求灵活选择合适的预设条件以得到训练完成的超分模型。

根据本公开的另一方面，提供了一种图像处理装置，所述装置应用于超分模型，所述超分模型包括至少一个处理单元，每个处理单元包括稀疏卷积网络和上采样网络，其中，所述稀疏卷积网络用于采用稀疏卷积核进行特征提取，所述上采样网络用于进行上采样，所述装置包括：

特征提取模块，所述特征提取模块被配置为将第一采集图像输入所述稀疏卷积网络，提取所述第一采集图像的空域特征，以及，基于采集图像序列确定所述第一采集图像的时域特征，其中，所述第一采集图像表示所述采集图像序列中待超分处理的采集图像；

特征确定模块，所述特征确定模块被配置为基于所述空域特征和所述时域特征确定所述第一采集图像的时空特征；

上采样模块，所述上采样模块被配置为将所述第一采集图像的时空特征输入所述上采样网络，得到所述第一采集图像对应的第一超分图像，其中，所述第一超分图像的分辨率高于所述第一采集图像的分辨率。

在一种可能的实现方式中，所述超分模型中所述处理单元的数量由所述超分处理所需的放大倍率确定；在所述超分模型包括至少两个所述处理单元的情况下，所述装置还包括：处理模块，所述处理模块被配置为以前一个所述处理单元输出的超分图像作为下一个所述处理单元的稀疏卷积网络的输入；确定模块，所述确定模块被配置为根据前一个所述处理单元所用的时域特征和当前所述处理单元的稀疏卷积网络输出的空域特征确定输入该当前所述处理单元的上采样网络的时空特征。

在一种可能的实现方式中，不同应用场景下的时域特征不同。

在一种可能的实现方式中，所述稀疏卷积网络至少包括第一稀疏卷积层、1

在一种可能的实现方式中，所述上采样网络包括亚像素卷积层。

在一种可能的实现方式中，所述预设条件为所述梯度更新的次数达到第一阈值，或者，所述预设条件为所述目标函数的值等于或大于第二阈值。

根据本公开的另一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述图像处理方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述图像处理方法。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开实施例提供的图像处理方法的示意图。

图2示出根据本公开实施例提供的图像处理方法的流程图。

图3示出根据本公开实施例提供的图像处理方法的示意图。

图4示出根据本公开实施例提供的超分模型的获取过程的示意图。

图5示出根据本公开实施例提供的图像处理方法的示意图。

图6示出根据本公开实施例提供的超分任务执行过程的示意图。

图7示出根据本公开实施例提供的运行平台的示意图。

图8示出根据本公开实施例提供的视频增强任务执行过程的示意图。

图9示出根据本公开实施例提供的游戏渲染任务执行过程的示意图。

图10示出根据本公开实施例提供的图像处理装置的框图。

图11示出根据本公开实施例提供的用于执行图像处理方法的装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

为了方便本领域技术人员理解本公开实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

图像超分辨率是一类视觉生成任务，即将低分辨率图像重建为高分辨率图像，可简称为图像超分任务。图像超分任务通常应用于手机、数码相机以及地理信息的图像增强，或者还可以应用于直播视频的压缩与重建。

以下针对图像超分任务中的单帧图像超分、多帧图像超分以及超采样分别进行说明。

单帧图像超分，即对一张图像进行超分处理。传统做法为对图像进行插值处理，比如三次样条插值，或者利用拉普拉斯金字塔和稀疏编码等算法以实现图像超分。使用传统做法处理图像的速度较快，但是放大倍率和超分效果却不够理想。随着深度学习的快速发展，利用深度学习算法重建图像能够获得远胜于传统做法的放大倍率和超分效果。可深度学习超分虽然能够获取更清晰的图像，却仍存在一些问题。比如，重建后的超分图像细节是由人工智能（Artificial Intelligence，AI）模型脑补而成的，因此可能会与真实的图像有所出入。再者，重建后的超分图像的细节可能与时空信息不符，这将无法在处理连续图像帧（例如视频和游戏场景）的情况下获得很好的超分结果，反而使得重建后的内容不连续，例如针对某物体处于自由落体这一动态场景下的图像超分任务，基于单帧图像重建后的超分图像会变得很清晰，这看似实现了将低分辨率图像重建为高分辨率图像的目标，却不符合物体自由落体时处于模糊状态的真实情形，从而导致物体自由落体过程变得很清晰，使得动态事物超分后像静态事物（同理也有静态事物超分后变得像动态事物）。另外，深度学习算法重建图像的速度很慢，难以实现实时的图像超分。

多帧图像超分，即对多帧图像进行超分处理。多帧图像超分可用于处理视频，一般将低分辨率的视频中的连续帧作为输入，并可结合图像融合技术，对多帧图像进行超分重建，输出一个高分辨率的超分视频。类似地，多帧图像超分也用于处理摄影作品，一般将摄影得到的多重曝光结果作为输入，并可结合图像融合技术，输出一个更加精细的图像。相关技术中使用较多的模型一般利用可变形卷积（Deformable Convolution，DC）网络、循环神经网络（Resolution Neural Network，RNN）或者三维卷积神经网络等，虽然能够获得远胜于传统做法的放大倍率和超分效果，但在处理速度、运行效率方便仍不够理想，无法用于实时视频流，难以兼顾效果和性能。

超采样是针对游戏渲染领域提出的一种技术。由于游戏渲染一般通过采样手段实现，采样率越高，渲染结果也越精细，故一般使用低采样率渲染一个低分辨率视频，再通过超分辨率技术对低分辨率视频处理，从而得到高分辨率图像，这样可以提高渲染效率。比如目前应用的图像缩放（Nvidia Image Scaling，NIS）技术和超级分辨率锐化技术，而这些技术使用的是传统方法，例如边缘自适应空间升频（Edge Adaptive Spatial Upsampling，EASU）和鲁棒的对比度自适应锐化（Robust Contrast Adaptive Sharpening，RCAS）方法。关于深度神经网络方法的超采样技术，比如目前的深度学习超级采样（Deep LearningSuper Sampling，DLSS）。但目前的技术仍具有一定局限性，比如深度学习模型其可解释性有限，依赖于庞大的训练数据集，泛化能力差，尽管表面上简单易用，但无法针对任务的特性进行修改，而现有的深度学习技术，大部分模型的权重只能对应一个缩放尺度，若想要调整缩放率就得更换权重，使得训练过程中的权重更新较为繁琐，需要耗费大量的时间训练模型。再者，由于深度学习模型对设备的算力有一定要求，为了使得深度模型能够运用到实际产业中，往往需要通过一系列模型压缩方法，例如量化、剪枝或者对模型中的算子进行针对性压缩以满足视频和游戏渲染的需求，而量化和压缩会损失精度，使得最终画面效果大打折扣。另外，相关技术提供的技术方案仍然会在特定情况下使视频中运动的物体周围产生鬼影或者使静态的物体表面出现闪烁和摩尔纹，同时还会使得帧率不稳定，造成画面流畅但反应延迟、手感卡顿、凝滞等现象。而且游戏画面是实时的，对运算的要求也更高，现有方案难以实现实时渲染。

本公开实施例提供的图像处理方法通过超分模型的稀疏卷积网络提取待超分图像的空域特征，并根据图像采集序列确定待超分图像的时域特征，进而通过空域特征和时域特征确定待超分图像的时空特征，并基于超分模型的上采样网络对时空特征进行上采样得到相应的超分图像，这样基于反映待超分图像在空间和时间两个维度上的特征信息进行超分处理，能够使得最终生成的超分图像保持时空连续性，避免出现闪烁、模糊及伪影问题，保持帧率稳定及画面流畅，同时超分模型具有较高的运行效率，以实现实时响应的图像生成任务。

并且，本公开实施例提供的超分模型可以灵活设置处理单元的数量，在保证放大倍率的同时保持图像清晰度，避免出现模糊、锯齿及伪影问题。再者，本公开实施例提供通过前向更新方式训练白盒模型得到超分模型，在显著减少模型训练时间及简化模型权重修改过程的同时令超分模型具有较强的解释性和泛化性。另外，本公开实施例在视频增强场景和游戏渲染场景分别设置不同的输入，能够对应生成满足对应场景需求的超分结果，具有较强针对性。

本公开实施例提供了一种图像处理方法。该图像处理方法可应用于超分模型，通过将待超分处理的原图像输入超分模型，经过超分模型的处理后，可以输出原图像对应的超分图像。图1示出根据本公开实施例提供的图像处理方法的示意图。如图1所示，超分模型可包括稀疏卷积网络和上采样网络，其中，稀疏卷积网络可用于采用稀疏卷积核对待超分处理的原图像进行特征提取，上采样网络可用于进行上采样。

图2示出根据本公开实施例提供的图像处理方法的流程图。如图2所示，所述图像处理方法可以包括：

步骤S201、将第一采集图像输入稀疏卷积网络，提取第一采集图像的空域特征，以及，基于采集图像序列确定第一采集图像的时域特征。

步骤S202、基于空域特征和时域特征确定第一采集图像的时空特征。

步骤S203、将第一采集图像的时空特征输入上采样网络，得到第一采集图像对应的第一超分图像。

第一采集图像可表示采集图像序列中待进行超分处理的采集图像。通过执行步骤S201至步骤S203，可以实现针对第一采集图像的超分处理，得到与第一采集图像相对应的第一超分图像。第一超分图像可表示第一采集图像经过超分处理后得到的超分图像。第一超分图像的分辨率高于第一采集图像的分辨率。

在本公开实施例中，采集图像序列可至少包括待超分处理的采集图像（即第一采集图像）、位于待超分处理的采集图像之前的采集图像（即第二采集图像）以及位于待超分处理的采集图像之后的采集图像（即第三采集图像）。采集图像序列中的采集图像可以通过间隔采样的方式得到，例如采集图像序列可包括T-2帧采集图像、T帧采集图像以及T+2帧采集图像。或者，采集图像序列中的采集图像也可以通过连续采样的方式得到，例如采集图像序列可包括T-1帧采集图像、T帧采集图像以及T+1帧采集图像，本公开实施例对此不做限定。

这样，通过执行步骤S201至步骤S203，即通过超分模型的稀疏卷积网络提取待超分图像的空域特征，并根据图像采集序列确定待超分图像的时域特征，进而通过空域特征和时域特征确定待超分图像的时空特征，并基于超分模型的上采样网络对时空特征进行上采样得到相应的超分图像，这样基于反映待超分图像在空间和时间两个维度上的特征信息进行超分处理，能够使得最终生成的超分图像保持时空连续性，避免出现闪烁、模糊及伪影问题，保持帧率稳定及画面流畅，同时超分模型具有较高的运行效率，以实现实时的图像处理。

通过执行步骤S201可以提取第一采集图像的空域特征和时域特征。

在步骤S201中，可以通过超分模型的稀疏卷积网络提取第一采集图像的特征，得到第一采集图像对应的空域特征。在一种可能的实现方式中，稀疏卷积网络至少可以包括第一稀疏卷积层、1

在步骤S201中，还可以通过对采集图像序列进行处理，得到第一采集图像的时域特征。时域特征可用于调整空域特征以得到时空特征（详见下文）。

在一种可能的实现方式中，不同应用场景下的时域特征不同。这样，通过在不同应用场景下确定不同的时域特征，使得在不同应用场景下输入至后续上采样网络的时空特征也有所不同，这样有利于实现具有针对性的超分任务。也就是说，当超分模型用于不同的应用场景时，所用的时域特征可有所不同。下面以视频增强场景和游戏渲染场景为例进行说明。

当超分模型用于视频增强场景时，所用的时域特征可至少包括光流信息，其中，光流信息可指空间运动物体在观察成像平面上的像素运动的瞬时速度。在一种可能的实现方式中，在超分模型用于视频增强场景的情况下，步骤S201中的基于采集图像序列确定第一采集图像的时域特征可以包括：根据采集图像序列，确定第一采集图像相对于第二采集图像和第三采集图像的光流信息，其中，光流信息可以是第一采集图像相对于第二采集图像和第三采集图像的瞬时速度；根据光流信息确定第一采集图像的时域特征。这样，通过待超分图像的光流信息确定其时域特征，并利用该时域特征进行后续特征图的调整优化，有利于生成更贴合视频增强场景的超分图像，使得超分任务具有针对性。

当超分模型用于游戏渲染场景时，所用的时域特征可至少包括抖动偏移信息和运动矢量，其中，抖动偏移信息可指由图像抖动产生的像素的偏移量，运动矢量可指当前编码块与其参考图像中的最佳匹配块之间的相对位移。在一种可能的实现方式中，在超分模型用于游戏渲染场景的情况下，步骤S201中的基于采集图像序列确定第一采集图像的时域特征可以包括：根据采集图像序列，确定第一采集图像相对于第二采集图像和第三采集图像的抖动偏移信息和运动矢量，其中，抖动偏移信息可以是第一采集图像相对于第二采集图像和第三采集图像的偏移量，运动矢量可以是第一采集图像相对于第二采集图像和第三采集图像的位移信息；根据抖动偏移信息和运动矢量确定第一采集图像的时域特征。这样，通过待超分图像的抖动偏移信息和运动矢量确定其时域特征，并利用该时域特征进行后续特征图的调整优化，有利于生成更贴合游戏渲染场景的超分图像，使得超分任务具有针对性。

当然，超分模型还可以应用于其他应用场景，本公开实施例对此不做限制。

通过执行步骤S202可以得到第一采集图像的时空特征。

在步骤S202中，可以通过空域特征和时域特征得到第一采集图像对应的时空特征。在一种可能的实现方式中，步骤S202可以包括：利用时域特征调整空域特征得到第一采集图像的时空特征。调整方式可以是将表示时域特征的第一特征图与表示空域特征的第二特征图直接相加，得到表示时空特征的目标特征图。或者，调整方式也可以是采取加权相加，即将表示时域特征的第一特征图乘以第一系数以得到第三特征图，将表示空域特征的第二特征图乘以第二系数以得到第四特征图，将第三特征图与第四特征图进行相加，得到表示时空特征的目标特征图。这样，通过利用时域特征调整优化空域特征，这样能够保证时空特征同时反映待超分图像在空间和时间两个维度上的特征信息，有助于保证后续生成的超分图像保持时空连续性。

通过执行步骤S203可以得到第一采集图像对应的第一超分图像。

在步骤S203中，可以通过超分模型的上采样网络处理第一采集图像的时空特征，得到第一采集图像对应的第一超分图像。在一种可能的实现方式中，上采样网络可以包括亚像素卷积层。如图1所示，第一采集图像的时空特征作为上采样网络的输入，经过上采样网络的亚像素卷积层，输出第一采集图像对应的第一超分图像。上采样网络实现的功能为通过亚像素卷积的PixelShuffle结构对输入的低分辨率（Low Resolution，LR）图像的像素进行重新排列，从而输出高分辨率（High Resolution，HR）图像。这样，通过亚像素卷积实现上采样，能够在低分辨率空间保留更多的纹理区域，并且能够获得更好的重建效果，同时能够实现高效、快速、无参的像素重排列。

步骤S201至步骤S203中所用的超分模型的结构可采用堆叠处理单元的方式，也就是说，超分模型可包括至少一个处理单元，如图1所示，每个处理单元可包括稀疏卷积网络和上采样网络。超分模型中处理单元的数量可由超分处理所需的放大倍率（即图像超分任务所需完成的目标倍率）确定。处理单元的每一次堆叠可对待进行超分处理的采集图像的长和宽各放大两倍，从而最后得到的超分图像的实际像素值放大四倍。因此，可以在需要将待超分处理的采集图像放大四倍的时候使用一个处理单元，在需要将待超分处理的采集图像放大十六倍的时候可以堆叠两个处理单元。这样，通过自行设置处理单元的数量，能够方便修改缩放尺度，即有助于灵活调整图像的放大倍率。

在超分模型包括一个处理单元的情况下，如图1所示，可以通过处理单元的稀疏卷积网络对第一采集图像进行特征提取得到第一采集图像的空域特征，并利用基于采集图像序列确定的第一采集图像的时域特征调整空域特征得到第一采集图像的时空特征，进而可以通过处理单元的上采样网络对第一采集图像的时空特征进行上采样得到第一采集图像对应的第一超分图像。

在超分模型包括至少两个处理单元的情况下，所述图像处理方法还可以包括：以前一个处理单元输出的超分图像作为下一个处理单元的稀疏卷积网络的输入。也就是说，第一个处理单元的稀疏卷积网络的处理对象为第一采集图像，非第一个处理单元的稀疏卷积网络的处理对象为上一个处理单元输出的超分图像。

另外，所述图像处理方法还可以包括：根据前一个处理单元所用的时域特征和当前处理单元的稀疏卷积网络输出的空域特征确定输入该当前处理单元的上采样网络的时空特征。也就是说，基于采集图像序列确定的第一采集图像的时域特征可用于调整每个处理单元中的稀疏卷积网络输出的空域特征，从而得到相应的时空特征。

图3示出根据本公开实施例提供的图像处理方法的示意图。如图3所示，可以基于采集图像序列确定第一采集图像的时域特征，并可利用该时域特征调整第一处理单元的稀疏卷积网络输出的空域特征以得到输入至第一处理单元的上采样网络的时空特征；将第一处理单元的上采样网络输出的超分图像作为第二处理单元的稀疏卷积网络的输入，并可利用该时域特征调整第二处理单元的稀疏卷积网络输出的空域特征以得到输入至第二处理单元的上采样网络的时空特征；以此类推，直至得到第一采集图像对应的第一超分图像。这样，在处理单元不止一个的情况下，通过利用待超分图像的时域特征反复调整空域特征，在进行高倍率放大的同时能够更好地保持图像清晰度，避免出现模糊、锯齿及伪影问题。

步骤S201至步骤S203中所用的超分模型可使用预先训练好的超分模型。超分模型可包括稀疏卷积网络和上采样网络，从而超分模型的训练过程可包括稀疏卷积网络的训练过程以及上采样网络的训练过程。

在一种可能的实现方式中，超分模型的稀疏卷积网络的训练过程至少可以包括：初始化稀疏卷积网络的网络参数；基于稀疏卷积网络的当前网络层的输入图像序列、当前网络层的权重矩阵以及优化参数确定目标函数的梯度，其中，输入图像序列来源于训练样本集，训练样本集根据超分模型的应用场景设置，目标函数表示关于输入图像序列和优化参数的编码长度函数；沿着梯度方向，以目标函数最大化为目标，前向更新稀疏卷积网络的各个网络层，直至获得满足预设条件的稀疏卷积网络，其中，预设条件为梯度更新的次数达到第一阈值或者为目标函数的值等于或大于第二阈值。这样，通过前向更新方式训练得到白盒模型，不仅减少了模型的训练及修改时间，还得到了具有较强解释性的模型，有助于知晓各个网络层权重更新的原因，方便用户手动修改，同时通过设置不同的预设条件，有利于根据实际需求灵活选择合适的预设条件以得到训练完成的超分模型。

在一示例中，可以通过最大编码率压缩方式对稀疏卷积网络的每层网络层进行前向压缩和优化。换句话说，对稀疏卷积网络的更新方式可以采取以下方式实现：使训练样本集的样本一边向前压缩，一边优化更新当前网络层的权重，其中，训练样本集中的每个样本均会更新一次稀疏卷积网络中的各个网络层并且均为前向更新方式。这样，通过前向更新方式训练得到的白盒模型能够具有较强的解释性，用户能够知晓当前更新到哪一层，并可得知该层是浅层特征还是高维特征，从而可以手动修改模型超参数，以最大化地调整模型，相比于相关技术中通过反向传播训练得到的黑盒模型，本公开实施例提供的超分模型的训练时间显著减少且方便用户修改缩放尺度及针对性地优化。

首先，可以初始化稀疏卷积网络的网络参数。其次，以基于稀疏卷积网络的当前网络层的输入图像序列

式中，

接着，沿着梯度

在一种可能的实现方式中，超分模型的上采样网络的训练过程可以根据亚像素卷积层自行设置，本公开实施例对此不做限定。

图4示出根据本公开实施例提供的超分模型的获取过程的示意图。在一示例中，如图4所示，超分模型的获取过程可包括：

首先，确定应用场景。不同的应用场景，超分模型具有不同的输入。当超分模型用于游戏渲染场景时，模型的输入可以包括第一采集图像及与第一采集图像相关的抖动偏移信息和运动矢量。当超分模型用于视频增强场景时，模型的输入可以包括第一采集图像及与第一采集图像相关的光流信息。图5示出根据本公开实施例提供的图像处理方法的示意图。如图5所示，本示例的输入可以是第T-1帧采集图像（即第二采集图像）、第T帧采集图像（即第一采集图像）以及第T+1帧采集图像（即第三采集图像）。

然后，设计特征提取层，以及，设计上采样层。特征提取层可用于提取第一采集图像的空域特征和时域特征。上采样层可用于得到第一采集图像对应的第一超分图像。

其次，设计超分模型结构。可以根据不同的分辨率需求，设计超分模型的结构（例如确定处理单元的数量和/或确定特征提取、上采样使用的方式）。在本示例中，可以设计超分模型包括一个处理单元，其中，处理单元的特征提取部分可通过稀疏卷积网络实现，处理单元的上采样部分可通过亚像素卷积网络实现。

接着，推导、训练超分模型。判断训练得到的超分模型是否满足预设条件，若训练得到的超分模型满足预设条件，则输出训练完成的超分模型，该超分模型可以用于实现对应应用场景中的图像超分任务；若训练得到的超分模型不满足预设条件，则对超分模型进行微调、优化直至满足预设条件。其中，预设条件可以根据不同的分辨率需求合理设置。在本示例中，可以设置预设条件为更新次数与训练样本集的样本数量保持一致，即用所有的样本分别训练一次模型。

图6示出根据本公开实施例提供的超分任务执行过程的示意图。如图6所示，在本示例中，输入通道数、图像宽度、图像高度至超分模型中；然后，执行特征提取并结合其他输入得到特征图，特征图的尺寸为通道数

图7示出根据本公开实施例提供的运行平台的示意图。在超分模型的训练完成后，可以将获取到完成训练的超分模型封装部署至图7所示的运行平台，即可以将模型文件加载到超分（Super Resolution，SR）SDK这一软件中运行，并依赖于底层的AI引擎、驱动器和图形处理器（Graphics processing unit，GPU）以方便用户在操作系统（Linux/Windows/iOS）中执行超分任务，其中，SR SDK可包括超分核心管理进程（SR Manager）和视频超分模型（Video Super Resolution Models，VSR Models）/游戏超分模型（Game SuperResolution Models，GSR Models），AI引擎可包括加速推理引擎（NCNN/TensorRT）。运行平台提供调用接口可实现视频增强任务或游戏渲染任务。运行平台采用高效的多级流水线架构为视频增强任务或游戏渲染任务的高效执行提供了基础。

图8示出根据本公开实施例提供的视频增强任务执行过程的示意图。在一示例中，如图8所示，利用运行平台执行视频增强任务的过程可包括：从渲染缓冲区Render Buffer获取待渲染视频的光流信息和LR图像，输入光流信息和LR图像至超分模型，生成HR图像，再将HR图像传入视频解码器以输出到流缓冲区Stream Buffer，从而进行后续的数据读写。

图9示出根据本公开实施例提供的游戏渲染任务执行过程的示意图。在又一示例中，如图9所示，利用运行平台执行游戏渲染任务的过程可包括：从渲染缓冲区RenderBuffer获取待渲染游戏的抖动偏移信息、运行矢量及LR，输入抖动偏移信息、运动矢量与LR图像至超分模型，生成HR图像，再经过高动态范围成像等处理后输出到流缓冲区StreamBuffer，从而进行后续的数据读写。

本公开实施例还提供了一种图像处理装置。图像处理装置可应用于超分模型。超分模型可包括至少一个处理单元，每个处理单元可至少包括稀疏卷积网络和上采样网络，其中，稀疏卷积网络可用于采用稀疏卷积核进行特征提取，上采样网络可用于进行上采样。

图10示出根据本公开实施例提供的图像处理装置的框图。如图10所示，装置500可以包括特征提取模块501、特征确定模块502以及上采样模块503。特征提取模块501可被配置为将第一采集图像输入稀疏卷积网络，提取第一采集图像的空域特征，以及，基于采集图像序列确定第一采集图像的时域特征，其中，第一采集图像表示采集图像序列中待超分处理的采集图像。特征确定模块502可被配置为基于空域特征和时域特征确定第一采集图像的时空特征。上采样模块503可被配置为将第一采集图像的时空特征输入上采样网络，得到第一采集图像对应的第一超分图像，其中，第一超分图像的分辨率高于第一采集图像的分辨率。

这样，通过超分模型的稀疏卷积网络提取待超分图像的空域特征，并根据图像采集序列确定待超分图像的时域特征，进而通过空域特征和时域特征确定待超分图像的时空特征，并基于超分模型的上采样网络对时空特征进行上采样得到相应的超分图像，这样基于反映待超分图像在空间和时间两个维度上的特征信息进行超分处理，能够使得最终生成的超分图像保持时空连续性，避免出现闪烁、模糊及伪影问题，保持帧率稳定及画面流畅，同时超分模型具有较高的运行效率，以实现实时的图像处理。

这样，通过自行设置处理单元的数量，能够方便修改缩放尺度，即有助于灵活调整图像的放大倍率，并且在处理单元不止一个的情况下，通过利用待超分图像的时域特征反复调整空域特征，在进行高倍率放大的同时能够更好地保持图像清晰度，避免出现模糊、锯齿及伪影问题。

在一种可能的实现方式中，不同应用场景下的时域特征不同。

这样，通过在不同应用场景下确定不同的时域特征，使得在不同应用场景下输入至后续上采样网络的时空特征也有所不同，这样有利于实现具有针对性的超分任务。

这样，通过待超分图像的光流信息确定其时域特征，并利用该时域特征进行后续特征图的调整优化，有利于生成更贴合视频增强场景的超分图像，使得超分任务具有针对性。

这样，通过待超分图像的抖动偏移信息和运动矢量确定其时域特征，并利用该时域特征进行后续特征图的调整优化，有利于生成更贴合游戏渲染场景的超分图像，使得超分任务具有针对性。

这样，通过利用时域特征调整优化空域特征，这样能够保证时空特征同时反映待超分图像在空间和时间两个维度上的特征信息，有助于保证后续生成的超分图像保持时空连续性。

在一种可能的实现方式中，所述稀疏卷积网络至少包括第一稀疏卷积层、1

这样，通过在两层稀疏卷积层中设置并使用1

在一种可能的实现方式中，所述上采样网络包括亚像素卷积层。

这样，通过亚像素卷积实现上采样，能够在低分辨率空间保留更多的纹理区域，并且能够获得更好的重建效果，同时能够实现高效、快速、无参的像素重排列。

这样，通过前向更新方式训练得到白盒模型，不仅减少了模型的训练及修改时间，还得到了具有较强解释性的模型，有助于知晓各个网络层权重更新的原因，方便用户手动修改。

在一种可能的实现方式中，所述预设条件为所述梯度更新的次数达到第一阈值，或者，所述预设条件为所述目标函数的值等于或大于第二阈值。

这样，通过设置不同的预设条件，有利于根据实际需求灵活选择合适的预设条件以得到训练完成的超分模型。

在一些实施例中，本公开实施例提供的图像处理装置具有的功能或包含的模块可以用于执行上文图像处理方法实施例描述的方法，其具体实现可以参照上文图像处理方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述图像处理方法。

在一些实施例中，本公开实施例提供的电子设备具有的功能或包含的模块可以用于执行上文图像处理方法实施例描述的方法，其具体实现可以参照上文图像处理方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述图像处理方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

在一些实施例中，本公开实施例提供的计算机可读存储介质具有的功能或包含的模块可以用于执行上文图像处理方法实施例描述的方法，其具体实现可以参照上文图像处理方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述图像处理方法。

在一些实施例中，本公开实施例提供的计算机程序产品具有的功能或包含的模块可以用于执行上文图像处理方法实施例描述的方法，其具体实现可以参照上文图像处理方法实施例的描述，为了简洁，这里不再赘述。

图11示出根据本公开实施例提供的用于执行图像处理方法的装置的框图。例如，装置1900可以被提供为一服务器或终端设备。参照图11，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述图像处理方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出接口1958（I/O接口）。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows Server

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：请求不公布姓名;
专利申请人：摩尔线程智能科技（北京）有限责任公司;

上一篇：媒体内容处理方法、装置、设备、可读存储介质及产品
下一篇：基于绝对角度停止准则的最小角回归稀疏辨识方法及应用