图像增强系统和方法

文献发布时间：2023-06-19 11:35:49

技术领域

本发明涉及生成经修改的数字图像并且还可生成融合图像的图像增强方法和系统。在某些情况下，本发明还可扩展到数字视频增强。

背景技术

图像可以数字方式表示为亮度强度I(x,y)的标量函数(x和y是具有由数字计数I(x,y)＝亮度强度编码的亮度的笛卡尔坐标)。图像还可以数字方式表示为矢量函数I(x,y)(其中在空间位置处存在具有红色、绿色和蓝色值(R、G和B)的相应强度的矢量

图像增强以多种方式进行，通常通过操纵(经由计算处理)图像的像素，其目的在于以某种方式改善图像。在一些情况下，这导致图像的像素强度被操纵——例如均衡各个颜色通道的亮度强度水平或强度。在其他情况下，可操纵图像本身的内容，例如以改变背景、移除不需要的元素或添加元素。实际改善/增强根据具体应用而变化。在一些情况下，仅产生美学上令人愉悦的图像是主要目标，而其他应用可强调再现尽可能多的图像细节、最大化图像对比度、或改变图像的部分。

下面的讨论集中于两个不同的区域：

强度操纵；和，

内容操纵。

就强度操纵而言，其目的在于在操纵像素的强度水平以实现所需效果的同时基本上保留图像的内容。应当理解，强度可指灰度或一个或多个颜色通道的强度。

在内容操纵中，通常通过替换或操纵图像中与某些内容区域对应的所选择的像素或像素分组来以取决于内容(并且可能导致内容的改变)的方式改变图像。应当指出的是，强度和内容操纵不是相互排斥的，并且可存在交叉——例如，内容操纵可包括强度操纵的元素，使得所添加的内容与图像的其余部分在上下文中拟合并且不会看起来不合适。

强度和内容操控两者中的初始阶段是选择要操控的图像分量或区域。在强度操纵中，这通常利用固定参数在算法上完成。一种类型的方法是图像分割，其中数字图像被划分为多个片段(像素组)。图像分割可以是经由强度、聚类、边缘检测、语义内容或其他方法(或方法的组合)进行的。一旦被分割，图像就可被操纵——例如，在简化示例中，像素可根据阈值强度被分割，并且低于阈值的那些像素随后可被亮化。有时，随着分割性能提高，操纵的准确性和有效性也提高。然而，资源利用通常也随着分割性能的提高而增加。

就内容操纵而言，分割通常与实际操纵分开。图像分割技术通常用于限定引导待操纵的像素的选择的掩模。例如，在背景移除/替换的情况下，创建描绘要保留的前景的边缘的掩模，然后剩余部分、背景的像素可被移除、替换等。

掩模创建通常包括用户输入以引导选择什么是前景并且什么不是。通常在前景和背景之间将不存在清晰的颜色/强度描绘。诸如毛发和阴影的细节被认为对于在掩模内准确地捕获是特别具有挑战性的。摄影师在生成掩模时不得不细化计算机生成的掩模并拾取计算机漏掉的细节是很平常的——下面列出的内容操纵实施方案自动执行类似的作用。

在强度操纵中，图像分割对于某些方法中的准确性也可能是重要的(尽管并非所有强度操纵方法都使用分割)。

通常为直方图均衡执行的图像增强的基础工作流程在图1中示出。在图的顶行中，示出了输入图像图1a，之后是图1b中的被分割成图块的相同图像，并然后在图1c中示出了应用于每个图块的对比度增强算法的输出。每个图块的计算是简单的色调曲线：从输入亮度到输出亮度的映射。9个图像区域的色调曲线在图1d中示出。应当理解，输出1c是不可接受的，因为在输出图像中可以看到分成9个图块。

已建议避免在输出图像中出现图块划分的一种方式是进行每个每图块计算(在这种情况下封装为色调曲线)并将其应用于整个图像，在这种情况下产生9个全尺寸图像输出。然后可根据固定的插值方案对9个输入进行插值。一种这样的固定插值方案是“径向基”函数类型插值。在图1e中，示出了9个高斯函数(1a中所示的原始图像尺寸的)。在给定的x和y空间位置处，可以查找9个高斯的值，然后这可以用作内插图1d所示的9个色调映射图的输出的指导。具体地讲，在x-y位置处，9个高斯产生9个概率。将该矢量缩放为总和为一，我们可使用所得的矢量来对每个色调映射图像的贡献进行加权。使用该内插方案在图1d的色调曲线上计算然后应用于图1a的输入的所得图像在图1f中示出。

尽管与1c)相比，最终输出1f)示出图像中的每个地方的细节更好的可见性，但可见的细节级别要低得多。实际上，这是该方法的限制。通过应用固定空间插值(此处为高斯径向基函数)，对计算可能的局部程度是有限制的。虽然可使用更多的径向基函数来解决这个问题，但这种方法导致更高的计算复杂性。此外，计算越“局部”，所得图像将看起来越像1c(即，“块状的”)，这将是不可接受的。实际上，在现有系统中，除非使用相当平滑的插值，否则最终输出图像将具有空间伪影。

上述两种方法被称为“全局”和“局部”处理。

局部处理的问题之一是其不保留输入图像的空间相干性。在模糊示例中，明确定义的高对比度边缘在局部平均之后将变得不太强：图像将看起来更软并且一些细纹理细节可能完全丢失。

在图2的左面板中，示出了输入图像。中间面板示出全局处理的输出，其中亮度增加50％。右面板示出了图像的模糊(局部空间处理)。

存在尝试保留全局方法的一些简单性但允许计算的一些局部性(根据图1中的工作流程)的中间方法。例如，直方图均衡是全局方法，其中输入图像亮度被映射(以一对一的方式)，使得所生成的输出直方图变得均匀(或尽可能均匀)。一般来讲，直方图均衡产生输出图像，其中存在更多细节。暗图像将变得更亮——阴影中的细节可弹出——并且亮图像将变得更暗(云可看起来更好地限定)。

在图3的左边两个面板中，示出了图像及其直方图。在第3和第4面板中，分别示出了直方图均衡后的图像及其新直方图。注意，在直方图均衡后，直方图几乎是均匀的。其由于量化而不是完全平坦的(为了使其平坦，将需要使具有相同亮度的一些输入像素映射到不同的输出亮度)。使用面板5中所示的色调曲线将面板1映射到面板3。

直方图均衡处理在第5面板中可视化为色调曲线操作。该简单图简单地(并且完全地)说明了输入亮度如何映射到输出亮度。

显然，直方图均衡可改变图像的“外观”。输出图像(图2的第3面板)比输入图像更亮并且具有更高的对比度。然而，注意现在天空中存在“边缘”。这种“假轮廓”的原因能够通过查看色调曲线(第五面板)来解释。此处，许多输入亮度被映射到类似的输出亮度(在0.4至0.8范围内的输入全部被映射到约0.8的输出)。这包括天空的较暗部分，就亮度而言，该较暗部分相对于较亮部分被下推，因此形成边缘。假轮廓和“太多细节”是在使用直方图均衡时遇到的两个常见问题。

在图4中，示出了来自“对比度受限”直方图均衡方法的输出(

图4的左图像示出了应用于输入(图2的左图像)的对比度受限直方图均衡的输出。图像直方图在图的中间示出。注意，直方图比输入更均匀(第2面板，图3)。对比度受限直方图均衡为色调曲线的可视化示于图4的右图像中(此处斜率被限定为大于0.5且小于2)。

可以说，与图3所示的完全直方图均衡相比，图4中的图像现在是“未经足够处理的”。虽然天空中没有伪影，但与图3(面板3)相比，输出似乎缺乏对比度。

在CLAHE(对比度受限自适应直方图平衡)中，在不同的图像图块(图像被划分成(比方说)16x16非重叠矩形区域或图块)中计算不同的色调曲线(同样具有有界斜率)。在给定像素处应用的曲线是在当前图块和周围图块中计算的色调曲线的插值。如果图5，则示出CLAHE的结果。左面板示出CLAHE输出，中间示出所得亮度直方图，并且右面板示出输入亮度(针对左，图1)与输出亮度(左面板)的关系。

输出图像当然是显著的。然而，可以说，明显进行了过多的处理。在整个图像中存在非常高的对比度。天空中的假轮廓也已返回。注意，因为CLAHE是——在这种情况下——16×16网格中256条色调曲线的插值)，所以当相对于输出亮度绘制输入时，看到点的散布图而不是线。根据定义，CLAHE是局部和空间变化的图像增强算法。

许多现有的图像处理方法可视为局部/空间(取决于x和y位置)与全局(取决于输入亮度或矢量)之间的折衷。例如，在双边滤波(

在WO 2011/101662中，任何图像增强算法的输出(其可具有显著的空间伪影，诸如“光晕”、假轮廓或太大的对比度)通过空间变化的查找表操作来近似，其中查找表是根据优化(并且类似于其他现有技术方法，根据固定的空间变化的插值)来计算的。在图6中，示出了这种近似的输出(左，输入图像。中间，CLAHE的输出。右，使用空间变化的LUT的近似)。

更一般地讲，常见的是根据已知的空间分解来分解图像，对各个分量应用处理，然后反转分解。例如，在JPEG图像压缩标准中，根据离散余弦变换对图像中的每个16像素×16像素块进行编码。即，该块由作为2D余弦展开的一部分的“基”函数的总和表示。第一“基”函数；在该展开中为C

图6所示的WO 2011/101662的应用假设计算的空间变化方面(将左图像映射到中间)由离散余弦基展开中的前3项定义：每像素处理是3个计算的输出图像的线性组合，其中每像素组合由该像素位置处的DCT值定义，从而得到右所示的图像。无论输入图像如何，都使用相同的方法和参数。关于二维离散余弦变换中的前3个基图像的可视化，参见图7。注意，因为第2阶和更高阶的DCT图像在[-1,0]中具有值，所以在图7中将-1编码为“0”，将“1”编码为黑色。

发明内容

根据本发明的一个方面，提供了图像增强方法，该方法包括：

接收输入图像和目标图像对，所述输入图像和所述目标图像中的每一者包括表示像素强度的数据；

处理所述数据以确定多个基函数，每个基函数根据所述输入图像的内容来确定；

确定所述基函数的组合以修改所述输入图像的像素的所述强度以近似所述目标图像；并且，

将所述多个基函数应用于所述输入图像以产生所述目标图像的近似。

处理数据以确定多个基函数的步骤可包括处理数据的导数以确定多个基函数。

每个基函数可根据一个或多个内容类型来确定，该一个或多个内容类型包括：输入图像中的颜色、输入图像中的像素强度或输入图像中的所识别或指定的形状或元素。

当应用于输入图像时，多个基函数中的每一个基函数通过根据基函数对输入图像的每个像素进行编码来优选地将输入图像分解成对应的图像层。

图像增强函数可为预定图像处理算法的近似，目标图像包括预定图像处理算法的输出，并且确定步骤包括求解用于组合基函数的优化以近似预定图像处理算法的输出。

可根据二进制分解来确定基函数以产生k个基函数，其中在输入图像中的每个像素处，基函数中的一个基函数应用于像素，并且其他k-1个基函数不应用。

可根据非二进制分解来确定基函数，其中预定分布函数应用，并且针对输入图像中的给定像素，基函数对像素的内容与相应基函数相关联的相对概率进行编码。

可根据连续分布来确定基函数，其中每个基函数是模糊的，并且使用输入图像作为引导来对每个基函数的输出进行交叉双边滤波。

确定组合的步骤可包括求解输入图像的每通道多项式变换的优化以近似目标图像，其中多项式对应于基函数。

确定组合的步骤可包括针对每个基函数求解输入图像的完全多项式变换的优化以近似目标图像。

基函数的组合可包括基函数的加权组合。

该方法还可包括接收另外的输入图像，确定另外的输入图像的多个另外的基函数，包括确定基函数和另外的基函数的组合的确定的步骤，根据所述组合将所述基函数和另外的基函数应用于所述输入图像和另外的输入图像以融合所述输入图像和另外的输入图像的步骤。

每个基函数可从输入图像的缩略图确定和/或应用于输入图像的缩略图。

该方法还可包括针对视频的图像应用确定基函数以及将基函数应用于视频中的后续图像。

根据本发明的另一方面，提供了一种图像增强系统，其包括：

输入接口，所述输入接口被配置为接收输入图像和目标图像对，所述输入图像和所述目标图像中的每一者包括表示像素强度的数据；

处理器，所述处理器被配置为执行用于处理所述数据以确定多个基函数的计算机程序代码，每个基函数根据所述输入图像的内容来确定；

所述处理器被进一步配置为执行计算机程序代码以确定所述基函数的组合从而修改所述输入图像的像素的所述强度以近似所述目标图像，并且将所述多个基函数应用于所述输入图像并在输出界面处输出包括从所述输入图像生成的所述目标图像的近似的图像。

根据本发明的另一个方面，提供了一种图像增强方法，该方法包括：

接收第一输入图像和第二输入图像，每个输入图像包括表示所述图像的像素强度的数据并且所述第二输入图像的像素的至少子集与所述第一输入图像的像素对应；

处理所述数据以确定多个基函数，每个基函数根据所述第一输入图像的内容并且从取决于所述内容的掩模确定，所述基函数被配置为应用于所述第一输入图像以生成分割图像；

将所述多个基函数应用于所述第一输入图像以生成对应的多个所述分割图像；并且，

组合所述多个分割图像和所述第二输入图像以生成输出图像。

该方法可包括以缩略图分辨率计算掩模。

该方法还可包括将语义分割神经网络应用于所述输入图像，使用从所述输入图像获得的深度估计信息或者应用另一种算法或基于传感器的方法来计算掩模。

掩模可为二进制图像分割掩模、非二进制图像分割掩模或连续分布图像分割掩模。

基函数优选地包括模糊型式的掩模、通过侵蚀掩模然后使其模糊而计算的一个或多个基函数、以及通过扩张该掩模然后使其模糊而计算的一个或多个基函数。

模糊和扩张优选地基于多个不同尺寸的内核。

该方法还可包括根据掩模精确度的估计或分析来修改内核尺寸。

优选地，基函数还包括一组反转的基函数。

组合步骤可包括求解多项式展开以确定基函数的组合。

组合步骤可包括求解基函数的每颜色通道优化以确定输出图像。

根据本发明的另一方面，提供了一种图像增强系统，其包括：

输入接口，所述输入接口被配置为接收第一输入图像和第二输入图像，每个输入图像包括表示所述图像的像素强度的数据并且所述第二输入图像的像素的至少子集与所述第一输入图像的像素对应；

处理器，所述处理器被配置为执行计算机程序代码以处理所述数据来确定多个基函数，每个基函数根据所述第一输入图像的内容并且从取决于所述内容的掩模确定，所述基函数被配置为应用于所述第一输入图像以生成分割图像；

所述处理器被进一步配置为执行计算机程序代码以将所述多个基函数应用于所述第一输入图像以生成对应的多个所述分割图像；并且，

所述处理器被进一步配置为执行计算机程序代码以组合所述多个分割图像和所述第二输入图像以生成输出图像。

根据本发明的一个方面，提供了一种图像增强方法，该方法包括：

接收输入图像和目标图像对，所述输入图像和所述目标图像中的每一者包括表示像素强度的数据；

处理所述数据以确定多个基函数，每个基函数根据所述输入图像的内容来确定；

确定所述基函数的组合以修改所述输入图像的像素的所述强度以近似所述目标图像；并且，

将所述多个基函数应用于所述输入图像以产生所述目标图像的近似。

处理数据以确定多个基函数的步骤可包括处理数据的导数以确定多个基函数。

根据本发明的另一个方面，提供了一种图像增强方法，该方法包括：

处理所述数据以确定多个基函数，每个基函数根据所述第一输入图像的内容并且从取决于所述内容的掩模确定，所述掩模被配置为应用于所述第一输入图像以生成分割图像；

将所述多个基函数应用于所述第一输入图像以生成对应的多个所述分割图像；并且，

组合所述多个分割图像和所述第二输入图像以生成输出图像。

在本发明的实施方案中，内容的各个方面可以用于确定多个基函数。这可包括像素的强度值、像素的RGB颜色、图像内的指定、识别或辨别的元素或区域(这些元素或区域可在视觉上被辨别、通过强度差异或以某种其他方式被识别)。可对输入图像进行预处理，并且将导出的图像用作确定基函数的基础。有时也可使用显现在第二图像(或更一般地讲(N个图像中的)第i个图像)中的图像的内容来确定所述多个基函数(以允许元素从相关图像换入)。

本发明的实施方案试图解决图像增强中的计算成本问题，同时试图在没有空间伪影的情况下递送非常详细的输出。实施方案还试图解决在图像增强应用(诸如均衡)中使用非常平滑的固定插值方案的需要。另外，实施方案试图提供与现有技术方法相比使用更少基函数的方法和系统同时试图与原始图像匹配或改善精确度和一致性。本发明的实施方案基于图像本身中的内容来选择、确定或以其他方式选择每个图像的基函数。

本发明的所选择的实施方案使用图像分割信息来执行各种图像操纵任务，而没有边界或过渡伪影。

本发明的实施方案还试图针对任何特定级别的分割性能改善输出图像质量。

使用下文所述的方法，实施方案使得能够在输出图像中保留更高级别的精细细节，而无需手动干预。

本发明的所选择的实施方案试图将输出图像计算为图像的每通道多项式变换，其中所采用的多项式随图像的内容而变化。在另一个实施方案中，针对每个内容变化的基函数求解输入图像的完全(包括交叉项)多项式变换。

在一个实施方案中，基(插值)函数与图像中的亮度成比例。在另一个实施方案中，它们取决于存在于图像中的颜色。同样，基函数可以取决于内容的其它定义，如下所述。

与使用固定基函数的现有技术相比，在本发明的实施方案中，每个图像选择、计算、导出或以其他方式确定多个基函数，每个基函数的选择、计算、导出或其他确定基于图像本身中的内容。例如，在本发明的一个实施方案中，可选择/计算/确定用于强度均衡一个图像的一组基函数，所述一组基函数基本上不同于选择/计算/确定用于强度均衡另一个图像的另一组基函数，所述基函数根据相应图像的内容选择/计算/确定。

总体而言，实施方案根据基函数如何取决于其涉及强度还是内容操纵来根据图像的内容进行选择/计算/确定而不同，并因此在下文单独描述这些。

附图说明

现在将参考附图仅以举例的方式描述本发明的实施方案。

图1至图7示出了图像增强方法；

图8为根据一个实施方案的图像增强方法的流程图；

图9为根据一个实施方案的用于从输入图像生成强度增强的输出图像的系统的示意图；

图10至图17为示出本发明实施方案的图像增强方面的图像；

图18为示出实施方案的各方面的示意图；

图19为根据一个实施方案的用于从输入图像生成增强的输出图像的系统的示意图；

图20示出了来自一个实施方案的示例性图像；

图21和图22示出了根据一个实施方案的产生散景效果的方法；

图23示出了来自一个实施方案的示例性图像；并且，

图24示出了根据一个实施方案的产生区域缩放效果的方法。

具体实施方式

图8为根据一个实施方案的图像增强方法的流程图。

在步骤10中，接收表示输入图像和目标图像的像素强度的数据。

在步骤20中，处理数据以确定多个基函数。基于图像本身中的内容来选择、计算、导出或以其他方式确定每个图像的多个基函数。每个基函数被配置为修改输入图像的像素的强度以近似目标图像。

在步骤30中，将多个基函数应用于输入图像以产生目标图像的近似(此处称为增强图像)。

增强图像可根据预期应用写入存储装置、输出到显示器、传送或以其他方式输出。

图9为用于从输入图像101生成强度增强的输出图像的系统100的示意图。

输入图像101可以经由数据通信链路或在存储介质上接收，其可以是来自相机的图像馈送等。输入图像可以是灰度、彩色或多光谱的，并且也可以在逻辑上由相同场景的多个图像(单独编码/存储)、单个或相关图像馈送的分量、单个或相关图像文件的分量等组成。也可经由数据通信链路接收目标图像102。另选地，目标图像可由另一个系统生成，该另一个系统被提供输入图像并对其应用一些预定过程或算法。在这种情况下，目标图像被“接收”的意义是其接收自从输入图像生成其的另一个系统——输入图像可以是此类布置中唯一的用户输入。

该系统包括处理器110，该处理器获得表示输入图像101和目标图像102的像素强度的数据。可根据编码和应用来处理不同的强度。例如，其可为亮度或其可为特定颜色(或其他光谱)通道的强度或一些其他可确定的强度。其也可为或包括导数。

处理器110处理数据以确定多个基函数。基函数针对每个图像确定，并且根据输入图像和任选地目标图像的内容来确定。

当应用于图像时，多个基函数中的每一个基函数通过根据其强度对每个像素进行编码来将图像分解成对应的图像层。在整个输入图像上应用每个基函数。

一旦获得了基函数，就将它们应用于输入图像，并且将所得的图像层组合以生成强度修改的输出图像103，该输出图像是目标图像102的近似。其示例在下文中更详细地列出。

系统100还包括处理器110以及系统100操作和执行用于执行图像增强的计算机程序代码(其执行上述操作)所需的任何必要的存储器或其他部件。

输出图像可例如经由I/O设备或系统输出到存储器、数据存储装置，经由网络输出到用户界面或输出到图像再现设备诸如打印机或用于产生硬拷贝的其它设备。输出图像也可用作其他系统的输入。

在下文所述的本发明的实施方案中，发现“看起来”具有空间范围的N(其中N>1)个取决于图像内容的基函数，参见图10(其中基函数的数量为3)。事实上，它们实际上是强度变化的并且完全取决于图像。虽然在下面的实施方案中讨论了三个基函数，但可使用两个或更多个基函数。应当理解，可使用其他数量的基函数，但计算复杂性将随着基函数数量的增加而增大。从下面的实验结果可以看出，三个基函数可产生高度可接受的结果，并且具有比现有技术系统显著更低的计算负担。

虽然基函数看起来具有空间范围，但事实上，“分解”的空间方面与原始图像中的亮度而不是基函数相关。实际上，查看图2(左面板)，最亮区域是天空，最暗区域是树木，并且中间亮度界定前景区域。这种直观分解反映在图10所示的基图像中。

确定这种分解的各种方式是可能的并且在下文讨论。

最简单的方式是通过在图像中找到一组k个聚焦亮度来近似图像增强函数。这些可为均匀间隔的分位点，例如，如果k＝3，则可将所选择的亮度设定为最暗像素、50％亮度像素和100％最亮像素的亮度。对于这k个聚焦像素中的每一个聚焦像素，进行特定于强度的基函数。在下面的讨论中，将k个聚焦亮度表示为b_i(i＝1..k)。

最简单的分解将为具有k个基函数，其中在每个像素处，一个基函数为1，则其他k-1个基函数为0。这些基函数可根据以下方程定义：

图11中示出了3个二进制基函数。如果对应的第i个聚焦亮度最靠近输入图像(输入图像在图2的左侧示出)中的给定像素，则第i个基函数为1。

查看图11，显而易见的是，不同的亮度趋于在图像中进行空间聚类。二进制分解(粗略地)找到输入图像的3个空间“区域”。然而，存在这不真实的地方(树木出现在第一基函数和第二基函数两者中)。此外，基函数似乎受噪声的影响。这仅仅是基函数中“高频”变化的证据。

优选的实施方案使用非二进制分解。下面在图12中示出的基函数以两个步骤计算。首先，对于每个聚焦亮度，计算表示为N(b

给定“查询”亮度I(x,y)，其“概率”根据正态分布计算，该“概率”表示为P

当然，可以使用任何合理的概率函数。对于输入图像中的给定像素，基函数对像素亮度与第i个聚焦亮度相关联的相对概率进行编码。

与图10所示的二进制分布相比，图12所示的非二进制分解更平滑并且看起来空间相干性更高。然而，映射图不是连续的，并且语义区域之间的边缘清晰度也不是明确定义的。为了实施连续性，每个基函数在所选择的实施方案中是模糊的。边缘清晰度可通过后处理非二进制分解来施加。例如，通过模糊图11所示的基函数，然后对输出进行交叉双边滤波(使用输入图像作为引导)，可产生图10所示的连续分解。图13中示出了将非二进制分解(图12中所示的图像)转换成最终强度变化的基函数的过程。

已经发现，平滑变化但在被分析的输入图像中的“语义”边缘处具有良好边缘清晰度的基函数通常提供最佳图像增强结果。然而，所讨论的所有三种强度变化的分解(二进制、非二进制和连续的)可直接使用而具有良好的效果。

在图14中，示出了来自图8的基函数的近似。此处的每个基函数根据输入亮度图像被选择为简单的全局函数。示出了三个基函数。这些图像是输入图像(左，图1)的全局函数。它们严格且仅强度变化。

在图15中，示出了图14和图10之间的绝对差。保存左上(树枝中的精细细节)，仅强度变化的函数(图15)令人惊讶地类似于图10中导出和示出的那些。

在一个实施方案中，强度变化函数用于近似图像处理函数。

假设I’(x,y)＝f(I(x,y))，其中f()是在空间上处理图像的算法。算法f()可被配置为例如：增加对比度(例如，对比度受限直方图自适应直方图均衡，如前所述)；压缩动态范围(

此处的意图是以根据强度变化分解为全局变换图像的组合的方式近似图像I’(x,y)。假设第i个基函数(和第i个聚焦亮度)由函数f

在一个实施方案中，使用标准线性优化技术求解方程3。例如，如果f

对I’(x,y)的近似J(x,y)被写为

图16中示出了强度变化近似(使用3个强度变化的基函数)CLAHE输出。左侧面板示出输入图像，中间面板示出来自CLAHE的输出并且右侧面板示出强度变化近似。CLAHE的强度变化近似呈现在(明显的)空间变化的对比度增强之间的良好组成，其中尚未引入伪影。

图17将左侧来自空间变化图像近似的输出(用固定离散余弦基函数)与这里讨论的强度变化的对应物(在图像的右侧)进行比较。从本发明的实施方案返回的额外细节是显而易见的。这确认了与现有方法相比，随图像内容而变化的基函数产生了有利的图像增强结果。

本发明的实施方案可有利地应用于视频序列。然而，虽然可以将方程3和方程4应用于视频的每个帧，但也可以求解给定帧(时间t)的函数f

本发明的实施方案还可应用于依赖于内容的图像融合。

假设有N个输入图像要融合以形成M维输出(其中M

在EP 2467823中，其内容以引用方式并入本文，公开了一种用于找到输入N通道图像的多项式函数的方法，该多项式函数最近似目标导数，诸如在上面讨论的论文中找到的那些。

该方法可被一般化，使得每个像素找到k(对应于我们的k个强度变化的基函数)个多项式映射的加权组合。待求解的优化可被写为：

在上述方程中，P

对

其中j∈[1,2,…,M]。应当注意，在方程5中，我们求解导数域中的优化，但将发现的参数应用于主图像(即，不是导数)。

可使用标准线性优化技术求解方程5。作为示例，如果

可求解方程以得到单个通道图像的导数(参见下面的方程7和8)。这里，多项式函数生成标量图像的展开，例如，P

然后方程5和6分别变为方程7和8：

与先前的实施方案一样，该实施方案可应用于视频序列，但现在也可应用于视频图像融合问题(例如，其中RGB+NIR融合到RGB的监视应用)。

如前所述，方程5和6可由每帧的两个方程应用。然而，还可以求解给定帧(时间T)的系数j

上述方法可以各种方式进一步扩展。

例如，在一个实施方案中，可根据聚类亮度来确定非二进制基函数。

非二进制强度变化的基函数可被认为是最接近聚焦亮度的一组亮度(参见二进制分解)。换句话讲，可基于亮度来定义3个像素聚类，其中“聚类中心”是先验已知的。找到聚类中心作为优化的一部分也是可能的。Bezdec,J.C.的Pattern Recognition with FuzzyObjective Function Algorithms,Plenum Press,New York,1981(美国普莱纽姆出版社，纽约，1981年)(其内容据此全文以引用方式并入本文)中所述的示例性“模糊c均值”方法优化聚类中心并且还将级分返回至每个聚类(给定图像亮度所属的聚类)。

在另一个实施方案中，可通过聚类RGB来确定非二进制基函数。

模糊c均值方法也可应用于RGB图像——可找到作为RGB矢量的k个聚类中心。获得每个图像RGB属于每个聚类的概率/程度。第i个非二进制基图像编码给定像素属于第i个聚类的概率。

应当理解，还可使用其他聚类算法。

实施方案还可以将内容与空间局部性组合。

如果RGB表示图像像素，则通过将xy位置添加到像素来获得5元组：[R G B cxcy]，其中此处c为修改x y坐标的量值的标量。通过在该5元组上模糊的c均值聚类，可发现也由空间位置加权的聚类。

在上述扩展中，聚类方法的输出是一组基函数，其中每个像素的所有正矢量(总和为1)指示该像素处的颜色(或其他特征)对应于基函数的量。至于空间变化的基函数，有利的是每个基函数是连续的并且具有良好的边缘清晰度。

实施方案还可使用对应于通过图像分析发现的语义区域的基函数。

有许多方式可对特定于图像的区域进行编码。例如，可使用深度学习，诸如在Vijay Badrinarayanan、Alex Kendall和Roberto Cipolla的“SegNet:A DeepConvolutional Encoder-Decoder Architecture for Image Segmentation.”(PAMI，2017)中所述的SegNet，其内容据此全文以引用方式并入。该技术将图像点映射到k个预定义类别中的一个预定义类别。SegNet的输出可以容易地转换成二进制基(其中第i个基函数被设置为1iff，该像素被归类为属于第i个类别)。

在优选的实施方案中，通过聚类或语义分析发现的基函数以3个步骤进行后处理。首先，每个函数都是模糊的(已经发现相当小的模糊内核(比如说标准偏差为1.5像素的9×9高斯)可工作良好)。第二，再次用交叉双边滤波器执行模糊，其中“交叉”意指从引导图像(在这种情况下为原始图像)获取边缘强度。引导可为灰度或彩色的。第三，按像素缩放经处理的图像，使得该点处的基函数的总和为1。有效地应用图13中所示的工作流程(用于使用颜色或语义内容而非亮度找到的图像基函数)。

在另一个实施方案中，缩略图可用于减小计算负载。应当理解，求解用于图像融合的函数(方程3)或多项式(方程5)可以是昂贵的操作。在处理时间或利用很重要的情况下，在一个实施方案中，可基于输入和输出图像缩略图求解函数和系数。然后可将所发现的函数和多项式应用于全分辨率图像。

应当理解，方程4(方程3中发现的函数的应用)和方程6(方程5中发现的多项式的应用)需要全分辨率基函数(而在方程3和5中仅需要缩略图)。

优选地确定具有良好边缘清晰度并且平滑的基函数(例如，参见图10)。因此，在一个实施方案中，用于求解方程3和方程5的缩略图基函数可以简单地上采样(例如，使用双线性图像调整尺寸)以应用于方程4和方程6中。具有少至4K、10K或20K像素的缩略图可以良好的处理性能使用。缩略图处理汇总于图18中。

在步骤(1)中，将输入图像转换为缩略图。在步骤(2)处，处理缩略图。在步骤(3)中，使用缩略图图像，我们计算内容变化的图像分解(此处为3个基函数)。在基于(1)、(2)和(3)的步骤(4)中，我们计算一组(3)色调映射。在步骤(5)中，基于所计算的音调曲线和简单上采样型式的内容变化基(在缩略图域中计算)，我们生成输出图像。

类似策略可用于图像融合应用。

图19是用于基于内容(例如，前景/背景、人、面部、对象、动物等)从第一输入图像和第二输入图像生成增强或改变的输出图像的系统200的示意图。

第一输入图像201可经由数据通信链路或在存储介质上被接收，其可为来自相机等的图像馈送。第一输入图像可以是灰度、彩色或多光谱的，并且也可以在逻辑上由相同场景的多个图像(单独编码/存储)、单个或相关图像馈送的分量、单个或相关图像文件的分量等组成。

还接收或生成第二输入图像202。第二输入图像202包括要应用于第一输入图像201的修改。例如，其可以是缩放和裁剪(以匹配输入图像的尺寸)的第一输入图像的型式，以便提供要在第一输入图像201中替换的对象的缩放型式。在另一个替代方案中，它可以是已经用模糊内核处理以模拟光学散景效果或任何其他图案等的第一输入图像的图像。在另一个替代方案中，第二输入图像可以不直接来源于第一输入图像——其可以是例如具有相同图像尺寸和许多共同特征但人的眼睛未闭合的序列中的稍后图像，或者是替换输入图像的背景的另选背景。

需注意，哪个输入图像被掩蔽取决于应用。例如，就散景而言，可以掩蔽非散景输入图像以保持要保持对焦的区域，然后应用那些区域来替换输入图像的散景型式中的对应像素。在缩放的情况下，经缩放图像中的感兴趣的对象可被保留在掩模中，然后被应用于替换未经缩放输入图像中的对应像素。因此，应当理解，下面的术语“第一”和“第二”输入图像可以关于哪个图像被指代而变化。

该系统包括处理器210，该处理器根据第一输入图像的内容获得图像分割掩模。可以全图像分辨率计算图像分割掩模或以较低的缩略图分辨率计算图像分割掩模以降低计算复杂度。掩模可使用语义分割神经网络、根据深度估计信息或根据任何其他算法和/或基于传感器的方法产生。

在下文所述的两个实施方案中，使用二进制图像分割掩模，因为其提供清晰且特定的区域轮廓。二进制表示由黑色和白色分割区域示出，其中黑色区域为一个分割区域，并且白色区域为另一个分割区域。然而，应当理解，可以使用其他类型的图像分割掩模，诸如平滑变化的灰度分割掩模——这可以表示诸如连续概率函数的属性。

选择图像分割掩模以便将第一输入图像划分成各自具有期望目标状态的区域：选择它们以掩蔽输入图像中的一个输入图像的部分，使得当与另一个输入图像组合时，修改替换原始内容，但剩余的原始内容保留。没有关于哪个掩模识别哪个区域的具体要求(因此在上述二进制掩模的情况下，黑色可以指定要不变或替换的区域)。

然后，处理器220根据分割掩模计算多个基函数——每个函数由每个像素位置X、Y的权重组成，该权重在0和1之间。如下所述，这可以在全分辨率或缩略图尺寸下完成(如果以缩略图尺寸计算，则在应用于输入图像之前放大基函数)。

第一基函数B

然后产生该组基函数的反转(1-基)(即1-B

如下所述基于α混合来计算目标图像——这可以全分辨率或缩略图尺寸来完成。分割掩模在每个像素处乘以相关图像，然后其反转(1-掩模)在每个像素处乘以另一个图像，并且最后将两者加在一起。这是输出图像应看起来是的近似，然而，其具有清晰边界并且将可能包含伪影。将两个输入图像中的哪一个输入图像施加到掩模，并且其反转取决于掩模本身。

在下述区域缩放的情况下，如果二进制分割掩模的白色像素用于表示感兴趣的前景/对象(在经缩放的二次图像中)，并且黑色像素用于表示要保留在输入图像中的背景(非对象区域)，则掩模将与经修改(经缩放)的内容的输入图像按像素相乘，并且其反转与未经修改的内容的输入图像按像素相乘，并且将两者加在一起以产生目标图像。

在模拟散景的情况下，再次如下所述，如果二进制分割掩模的白色像素用于表示应该在输出图像中保持对焦的图像区域(例如前景)，并且黑色像素用于表示应该在其上应用光学模糊模拟的区域(例如背景)，则此处的掩模将按像素乘以未修改的输入图像，并且其反转按像素乘以具有散景效果的输入图像，并且将两者加在一起以产生目标图像。

然后针对RGB通道中的每个RGB通道计算该目标图像的X和Y梯度(应当理解，这也可应用于灰度或通道的其他表示)。这些梯度以及第一输入图像和第二输入图像融合在一起，由基函数和目标图像引导。上文结合方程5和6描述了一种融合方式。目标图像梯度对应于方程5中的

在图20a中，示出了示例性高分辨率第一输入图像，并且在图20b中示出了模糊的第二输入图像(其可作为输入或通过计算从第一输入图像生成的某物提供)。在该实施方案中，其目的在于保留人的第一输入图像区域而将输出图像中的其他地方混合在第二输入图像的模糊背景中作为模拟散景效果(在摄影中，散景通常通过使用浅景深以使得不是图像的主要对象的区域不对焦而光学地实现，以被认为在视觉上令人愉快的方式实现，因为它们之后不会分散对图像的主要对象的注意力)。

假设存在粗略的分割，并且应当理解，存在获得该分割的许多方式。这是图20c所示的二进制掩模，并且可再次提供或通过计算生成)。

如上所述，可以制作目标α混合图像，其中当掩模为1时保留第一输入图像，并且当掩模为0时使用第二输入图像。这在图20d中示出(并表示为I'(x,y))。因为掩模不是(并且不能是)精确的，所以混合输出图像看起来不自然并且掩模位置被清楚地感知。注意，毛发150和152在掩模边缘周围太过锐化，并且也存在一些光晕151。

在本发明的实施方案中，根据该分割掩模形成多个基函数。在方程5中，基于强度分解来计算多个基函数。在本发明的该实施方案中，这些可被替换为模糊、侵蚀和扩张型式的分割掩模及其反转。

如上所述，通过模糊然后交叉双边滤波(其中原始图像用作引导)使这些掩模更平滑，并且这些基函数在图20中示出(原始掩模在左手侧和右手侧上从顶部到底部示出，存在模糊的交叉双边滤波型式(B

返回到方程5，可以看出，使用多项式展开来生成一组图像。在一个实施方案中，不需要这种展开。而是按颜色通道使用新图像

最终融合图像示于图20e中。

在图21和图22中可以看到将模糊背景施加到图像以产生散景效果的本发明的实施方案的总体工作流程的各方面。

以第一(非模糊)输入图像(a)和第二(模糊)输入图像(b)的形式接收全尺寸输入。

这里，基函数基于分割掩模(d)和α混合(目标)(c)。创建三个函数：输入掩模的缩略图，以及侵蚀和扩张型式。然后使这些穿过交叉双边滤波器，在该实施方案中，原始输入图像亮度通道用作引导图像，如图21中所示。将该组与它们的反转的组进行组合以产生最终的基函数。

如上所述，然后使用等式9和10，由基函数和目标融合引导第一输入图像和第二输入图像，以产生输出图像，如图22中所示。基函数可为缩略图的形式。

应当理解，除模糊之外的图案可用于模拟其他形式的散景或图像效果。在这种情况下，背景的模糊内核是高斯和双边滤波的组合。可使用其他模糊内核，诸如被设计成更接近光学模糊的那些内核。

在图23a中，示出了示例性高分辨率第一输入图像，并且在图23b中示出了经缩放和裁剪的变体(第二输入图像，其可作为输入或通过计算从第一输入图像生成的某物提供)。在该实施方案中，目的在于针对背景保留第一输入图像，但是混合在来自第二输入图像的人的缩放型式中。

再次假设存在粗略的分割。这是图23c所示的二进制掩模，并且可再次提供或通过计算生成。

在本发明的实施方案中，根据该分割掩模形成多个基函数。起点同样为分割掩模及其反转。

如上所述，通过模糊然后交叉双边滤波(其中原始图像用作引导)使这些掩模更平滑，并且这些基函数在图24中示出。这些掩模被称为B

在图24中可看到应用区域缩放以产生经修改图像的本发明的实施方案的工作流程的各方面。这是与图22中的过程类似的过程。接收或以其他方式获得全尺寸第一输入图像(a)和第二(缩放+裁剪)输入图像(b)。

这里，分割掩模指定输入图像中的被缩放的对象/区域。掩模可使用语义分割神经网络、根据深度估计信息或根据任何其他算法和/或基于传感器或其他方法来产生。

如上所述处理掩模以产生各种基函数，然后用来产生目标图像。如上所述，然后在基函数和目标图像的引导下融合第一输入图像和第二输入图像以产生输出图像。

分割掩模通常可能有错误，这将影响内容操纵的性能。为了帮助克服这一点，实施方案可以预处理分割掩模。

在一个实施方案中，使用边缘敏感滤波器(例如，交叉双边滤波器)使掩模模糊，其中原始输入RGB图像亮度通道用作边缘/引导图像。

如果期望二进制分割掩模(如在散景和区域缩放的情况下)，则将阈值应用于模糊掩模，高于该阈值的值被设定为1，并且等于或低于该阈值的值被设定为0。通常，这被设定为0.5，但可根据应用使用其他值。

区域缩放中使用的经缩放图像和掩模可通过基于用户偏好放大和裁剪输入图像和分割掩模来手动构造，但自动方法也是可能的。

首先，计算感兴趣的对象的最大尺寸(高度或宽度)，以及这表示的图像尺寸的比率。然后计算基于优选图像特性(例如，“三分定律”，

基于该缩放参数来放大输入图像，并且对象的中心移位回到原始位置。

当叠加时，原始对象应被放大对象完全覆盖，例如原始图像中的所有对象像素应位于放大图像中对象的边界内部。如果情况并非如此，则实施方案可搜索使这种现象最小化的图像移位参数。最后，裁剪放大图像以匹配输入图像尺寸。

将相同的缩放、移位和裁剪参数应用于输入分割掩模，然后将其用于进一步计算。

如果在重叠的原始对象和经缩放对象中存在残余误差，则可将那些像素处的分割掩模设置为1(白色)，以防止原始对象的不需要的元素被传输到输出图像。

本发明的实施方案可以应用内容修改，包括：

·组合来自类似照片的面部——在许多情况下，将存在一组人的若干照片，但没有针对该组的所有成员的具有理想面部外观的单独照片。可使用所提出的算法来合并两张照片，其中掩模指定要替换的期望的面部区域。这可针对多张照片重复。图像必须正确配准(在几个像素的容差内)。

·背景替换——前景(例如，人)可与不同背景(例如，埃菲尔铁塔)组合。此处，分割掩模与散景的分割掩模类似地使用，指定前景区域。

应当理解，上述处理器对于用户而言可以是本地的、远程的或分布式的。实施方案可采取多种形式并且可以多种方式实现，包括通过固件、软件或硬件结合在智能电话、数字相机等内，由远程服务器提供为基于web的服务，提供为图像编辑软件的软件或插件等。还应当理解，本文所讨论的处理器可表示单个处理器或以同步、半同步或异步方式起作用的处理器集合。

应当理解，如上所述的本发明的某些实施方案可作为驻留在固件中和/或具有控制逻辑的计算机可用介质上的代码(例如，软件算法或程序)而并入，所述控制逻辑用于实现在具有计算机处理器的计算机系统上的执行。此类计算机系统通常包括存储器存储装置，该存储器存储装置被配置为提供来自执行代码的输出，该代码根据该执行配置处理器。代码可被布置为固件或软件，并且可被组织为一组模块，诸如面向对象的编程环境中的离散代码模块、函数调用、过程调用或对象。如果使用模块来实现，则代码可包括单个模块或彼此协作地操作的多个模块。

本发明的任选实施方案可理解为包括本文提及或指示的部件、元件和特征，这些部件、元件和特征单独地或共同地以两个或更多个部件、元件或特征的任何或所有组合的形式存在，并且其中本文提及了本发明所涉及领域中具有已知等同物的特定整数，认为此类已知等同物如同单独阐述一样并入本文。

尽管已描述了本发明的例示实施方案，但应当理解，在不背离本发明的情况下，本领域的普通技术人员可作出许多改变、替代和更改，本发明由权利要求书及其等同物中的详述来限定。

完整全部详细技术资料下载