掌桥专利:专业的专利平台
掌桥专利
首页

使用神经网络的亮点去除

文献发布时间:2023-06-19 11:55:48


使用神经网络的亮点去除

相关申请

本申请要求2018年11月7日提交的美国临时申请序列号62/756,917的权益,该专利申请特此通过引用出于所有目的以其整体并入本文。

技术领域

本公开涉及用于使用卷积神经网络从图像中去除亮点的系统。特别地,描述了一种用于减少扩展或点源亮点、反射、透镜光晕和眩光的方法。

背景

由于来自图像视野内或附近的阳光或其他明亮光源的反射,图像细节可能会减少、对比度可能会降低、图像可能会模糊、可能会产生大面积重影,并且图片质量可能会受到影响。白天的眩光通常是由于镜子或玻璃表面的反射,这减少了反射对象附近的细节。夜间摄影特别容易受到路灯或其他点光源周围眩光的影响,甚至人像摄影也会受到眼镜或衣服反光的影响。由自主或半自主交通工具拍摄的连续图像或视频图像也会受到影响,迎面而来的交通工具的前照灯或标志的反射会导致细节“消失在眩光中”。

已经应用了各种计算机处理技术来减少图像中的眩光。例如,与标准数字成像或摄像技术相比,高动态范围(HDR)成像可用于再现更大的动态亮度范围。该技术通常合并多个低动态范围图像,每个图像具有不同的曝光时间,这具有减少由长曝光时间引起的光饱和亮点的效果。

还进行了其他尝试,以使用后处理来改善含有眩光的图像。例如,转让给惠普公司的美国专利公开20050129324描述了对图像的一部分进行修复,该图像部分地或全部地被数码相机捕获的图像中的眩光或另一光学伪影遮挡或以其他方式变得不理想。根据所描述的实施例,包含伪影的场景的有缺陷部分被去除,并且被场景的相应的无缺陷部分(即,没有伪影的部分)替换,以创建没有眩光的期望图像。

可替代地,可以使用专用传感器掩模和硬件来减少眩光。例如,转让给三菱电机研究公司(Mitsubishi Electric Research)的美国专利7,780,364描述了一种具有透镜和传感器的相机,其中针孔掩模被放置在传感器附近。掩模将眩光定位在易于识别的像素处,然后可以对这些像素进行滤波以产生眩光减少的输出图像。

在一些实施例中,卷积神经网络可以是成像系统的一部分,以减少眩光。例如,转让给Seeing Machines有限公司的美国专利公开20180039846描述了一种视觉处理器,该视觉处理器能够“学习”忽略眩光信息,而是聚焦于图像中无眩光的部分。一种卷积神经网络,其可能不需要识别所使用的标志点,其信息(诸如眼睛睁开的程度)直接来自图像和离线训练数据。

概述

一种用于图像捕获的方法包括识别图像中的亮点。神经网络被用于通过训练的去噪处理来恢复亮点区域中的细节。亮点可以是由于图像中的亮源眩光(bright sourceglare)、亮源反射(bright source reflections)和光学伪影(optical artifacts)中的至少一种而产生的。对图像进行后处理,以将亮点区域中恢复的细节的图像参数与图像的另一区域相匹配。可以使用具有接受任何尺寸的输入图像的能力的全卷积神经网络。

在一个实施例中,一种用于图像捕获的方法包括接收传感器特定的配置文件数据(sensor specific profiling data)。在图像中识别由于亮源眩光、亮源反射和光学伪影中的至少一种而产生的亮点。使用基于神经网络的去噪和传感器特定的配置文件数据来恢复亮点区域中的细节。

在一些实施例中,图像分割(image segmentation)可用于减小需要基于神经网络的去噪图像的图像尺寸。在其他实施例中,恢复的细节的参数与亮点区域的局部区域匹配或者与整个图像匹配。

应用包括静态图像、产品摄影、人像摄影或交通工具相关成像。图像可以是HDR图像或视频图像。

附图简述

参考以下附图描述了本公开的非限制性和非穷尽的实施例,其中,除非以其它方式说明,在所有各个附图中相似的参考数字指代相似的部分。

图1示出了用于减少图像中的眩光的方法;

图2示出了神经网络处理;和

图3示出了全卷积神经网络的实施例;

图4示出了校正了合成眩光的代表性图像;

图5示出了相机传感器处理过程的实施例;

图6示出了具有控制、成像和显示子系统的系统;以及

图7示出了神经网络训练过程的一个实施例。

详细描述

恢复因亮点、眩光和噪声而丢失的图像细节可以显著提高图像质量。亮点可以被认为是图像中来自一个光源的入射光子对来自另一个光源的光子的正确曝光产生不利影响的区域。由于光子散粒噪声(photon shot noise)与光子源强度的平方根成比例,因此亮点会产生光子散粒噪声的局部区域,从而能够“掩埋”周围特征的信号。除了噪声影响之外,亮点还会显著增加像素光子数,或者使传感器的某个区域完全过饱和。

由于各种原因,不可能也不希望获得没有亮点的图像。以下描述的实施例提供了一种系统和方法,其能够在存在这些亮点的情况下从期望的源恢复或再生成基础信号。有利的是,传感器的操作包络(operating envelope)增加,并且图像质量提高。

除了与亮点相关的噪声之外,所有的图像感测系统和传感器都有一些在典型操作过程中产生的相关联噪声。在噪声环境中,诸如在弱光环境(例如,低环境照度、快速快门或小光圈)或强光环境(高环境照度、慢速快门、大光圈)中常见的环境中,这种噪声会成为数字化信号的主要部分。不幸的是,许多传统和现代计算机视觉算法(即,对象或面部识别、视觉测程、视觉SLAM或图像稳定)在高噪声环境中可能会失灵。需要降低图像噪声并恢复图像细节的算法和系统,以使这些算法能够在它们通常会失败的环境中工作。

降低噪声也有利于基于机器智能的图像处理。现代的基于学习的算法对于那些它们已经训练过的数据分布集合来说工作得非常好。当机器学习算法的数据在这个分布之外时,或者当使用对抗性示例(adversarial examples)时,这些算法的准确性、速度和其他性能度量会受到影响。如果图像或数据集中的图像传感器噪声可以大大降低,那么处理图像或数据集的学习算法将会受到较小的性能降级。

噪声的另一个问题是噪声是几乎不可压缩的高熵信息的结果。这意味着对于给定系统或传感器存储介质的压缩比将大大降低,以适应捕捉噪声环境或条件的图像。压缩文件的大小通常比正常操作条件下捕获的等效信号大得多。

为了降低噪声、提高图像准确度并且提供由于亮点、高光条件引起的细节恢复以及提高压缩比,可以使用神经网络来恢复基础信号。实际上,利用诸如本文所公开的系统和神经网络预处理的媒体可以在图像质量上得到改善,并被压缩到更大的程度,从而导致更小的文件大小以及减少的存储或带宽使用。有利的是,即使正确曝光的图像也受益于这个预处理步骤。

如在图1中所看到的,用于提高相机图像捕获能力的系统和方法100依赖于首先识别图像中的一个或更多个亮点(步骤110)。在第二可选步骤中,图像可以被分割,其中亮点周围的区域准备被进一步处理。在第三步骤中,使用神经网络或其他机器智能系统来处理该图像(或亮点和周围区域),以提供去噪和随之发生的亮点减少。最后,可以进行图像后处理来平衡像素强度、颜色或其他图像属性,以确保与图像的其余部分最佳匹配。

亮点识别可以基于亮度、尺寸或各种径向或线性特征的组合。可以在图像中识别多个亮点,并对其进行顺序处理,以减轻或去除亮点。在一些实施例中,具有亮点的多个图像可以用作输入。在其他实施例中,具有不同曝光时间、不同偏振滤波器和不同波长的不同图像可以用作输入。在一些实施例中,可以联合训练神经网络来同时识别和减少亮点。这可以通过构建网络架构来实现,该网络架构具有网络输出(“网络头”),该网络输出具有适当构建的目标函数来识别亮点。以这种方式联合训练可以对亮点去除任务产生协同增效(synergetic effects),并且通过在多个任务上分摊网络参数来减少整体计算。

图像分割是一项可选的特征,其可以减少所需的图像处理时间。例如,代替处理整个图像,可以只处理两倍于亮点半径的周围区域。可替代地,可以使用以亮点为中心的各种大小的矩形边界框。

神经网络去噪可以通过用包括合成亮点图像模拟的地面真实图像进行训练来实现。合成亮点可以通过用各种模拟或自然的镜头光晕、眩光、星暴或其他合适特征来照亮像素叠层来创建。在一些实施例中,可以使用神经网络来创建合成亮点。这种亮点模拟可以具有多种配置,包括具有镜头光晕、眩光、阳光、迎面而来的前照灯的图像,以及包括闪光灯特征的图像。在用模拟亮点对图像进行训练之后,神经网络去噪处理能够产生对照地面真实图像可测试的图像。作为合成亮点模拟的替代或补充,可以通过提供两个对比数据集来去除亮点:一个没有亮点,一个有许多亮点。然后,网络必须学习构成亮点的通用属性以及什么构成“无亮点”图像,然后学习去除亮点,使得它们更接近地模仿来自“无亮点”数据集的示例。

图像后处理可以包括允许用相似特征替换图像中亮点区域的特征匹配。在其他实施例中,可以通过像素随机化或叠层来识别和最小化某些亮点特征,诸如径向尖峰。

使用系统和方法100可以使各种各样的静态或视频相机受益。相机类型可以包括但不限于具有静止或视频功能的传统DSLR、智能手机、平板电脑相机或笔记本电脑相机、专用摄像机、网络摄像头或安全相机。在一些实施例中,可以使用专用相机,诸如红外相机、热成像器、毫米波成像系统、x射线或其他放射成像器。实施例还可以包括具有能够检测红外、紫外或其他波长的传感器的相机,以允许高光谱图像处理。

相机可以是独立的、便携式的或固定的系统。典型地,相机包括处理器、存储器、图像传感器、通信接口、相机光学和致动器系统以及存储器存储装置。处理器控制相机的整体操作(诸如操作相机光学和传感器系统)以及可用的通信接口。相机光学和传感器系统控制相机的操作,诸如在图像传感器处捕获的图像的曝光控制。相机光学和传感器系统可以包括固定镜头系统或可调节镜头系统(例如,变焦和自动聚焦能力)。相机可以支持存储器系统,诸如可移除存储卡、有线USB或无线数据传输系统。

在一些实施例中,神经网络处理可以在将图像数据传输到远程计算资源之后发生,该远程计算资源包括专用神经网络处理系统、膝上型电脑、PC、服务器或云。在其他实施例中,神经网络处理可以使用优化软件、神经处理芯片或专用FPGA系统在相机内部进行。

在一些实施例中,神经网络处理的结果可以用作对其他机器学习或神经网络系统的输入,包括针对对象识别、模式识别、面部识别、图像稳定、机器人或交通工具测程和定位或跟踪或瞄准应用开发的那些。有利的是,这种神经网络处理的图像归一化可以例如减少高噪声环境中的计算机视觉算法失败,使得这些算法能够在由于特征置信中与噪声相关的降低而通常会失败的环境中工作。典型地,这可以包括但不限于弱光环境、多雾、多尘或朦胧的环境或者受到闪光或眩光的环境。实际上,图像传感器噪声通过神经网络处理被去除,使得以后的学习算法具有降低的性能退化。

在某些实施例中,多个图像传感器可以共同与所描述的神经网络处理结合工作,以实现更宽的操作和检测包络,例如,具有不同光灵敏度的传感器一起工作以提供高动态范围图像。在其他实施例中,具有单独的神经网络处理节点的光学或算法成像系统链可以耦合在一起。在其他实施例中,神经网络系统的训练可以从成像系统整体上解耦,作为与特定成像器相关联的嵌入式部件来操作。

可以使用各种类型的神经网络,包括全卷积、递归、生成对抗或深度卷积网络。卷积神经网络对于如本文描述的图像处理应用特别有用。如参照图2所见,卷积神经网络200可以接收单个曝光不足的RGB图像210作为输入。优选RAW格式,但使用压缩的JPG图像会有一定的质量损失。图像可以用传统的像素操作进行预处理,或者可以优选地将最小修改馈送到经训练的卷积神经网络200。

处理可以继续行进通过一个或更多个卷积层212、池化层214、完全连接层216,并以改进图像的RGB输出216结束。在操作中,一个或更多个卷积层对RGB输入应用卷积运算,将结果传递给下一层。在卷积后,本地或全局池化层可以将输出合并到下一层中的单个节点或少量节点中。重复的卷积或卷积/池化对是可能的。

一个特别有用的神经网络实施例是全卷积神经网络。全卷积神经网络由卷积层组成,没有通常在网络末端发现的任何完全连接层。有利的是,全卷积神经网络与图像尺寸无关,其中任何尺寸的图像都可接受成为训练或亮点图像修改的输入。参考图3示出了全卷积网络300的示例。数据可以在收缩路径上进行处理,该路径包括重复应用两个3×3卷积(非填充卷积),每个卷积之后是一个校正线性单元(ReLU)和一个最大2×2池化操作,步长为2,用于下采样。在每个下采样步骤处,特征通道的数量加倍。扩展路径中的每一步骤都由特征图的上采样和之后的2×2卷积(上卷积)组成,该2×2卷积将特征通道的数量减半,提供与收缩路径中相应裁剪的特征图的串接,并包括两个3×3卷积,每个卷积后都有一个ReLU。特征图裁剪补偿了每次卷积中边界像素的损失。在最后一层处,使用1×1卷积将每个64分量特征向量映射到所需数量的类别。虽然所描述的网络具有23个卷积层,但是在其他实施例中可以使用更多或更少的卷积层。训练可以包括使用随机梯度下降技术处理具有相应分割图的输入图像。

在又一个实施例中,可以使用多个神经网络。例如,可以使用生成对抗神经网络,其中一个网络被训练以添加合成亮点,而对抗网络被训练以去除亮点。

所描述的方法和系统可以为许多应用提供各种益处,包括:

静态图像改善-可以改善传统照片,或者可以选择具有亮点的某些区域进行改善,其中出于美学目的保留其他亮点特征。

HDR图像改善-亮点处理和神经网络去噪可以在短曝光和长曝光图像的组合之前或之后进行。

视频图像改善-选定图像的校正可用于指导视频流中后续图像的神经网络去噪。

交通工具图像处理-图像分割可用于减少处理时间,并允许近乎实时地恢复因交通工具前照灯而在眩光中丢失的信息(诸如标识文本)。作为另一示例,亮点去除可以改善交通工具的成像系统场景分类和对象检测。

移动设备处理-在明亮或高眩光条件下,可以改善面部识别和设备解锁。

医学成像-体腔内主动照明的外科成像和/或外科远程操作可通过亮点去除来改善。

图4示出了校正了合成眩光的代表性图像400。图像402是原始图像。图像404具有所添加的一个或更多个合成亮点。明显地,显示了各种类型的亮点尺寸和径向特征。图像406通过神经网络去噪处理来校正。

校正亮点或眩光特征可以作为通用的成像流程(imaging pipeline)的一部分来完成,该管道使用神经网络来改善图像数据的模拟或数字方面。例如,图5示出了用于改善图像数据的成像流程500的一个实施例。影响图像的模拟处理的因素包括场景照明502、光路和光圈504以及图像传感器506的特征。这些因素中的许多可以被自动调整或调整为有利于提高后续神经网络处理效率的因素。例如,闪光灯或其他场景照明可以增加强度、持续时间或重定向。滤光片可以从光路中移除,光圈可以开得更大,或者快门速度可以降低。图像传感器效率或放大倍数可以通过ISO选择进行调整。

在一个实施例中,在模数转换之前,可以通过增加这些模拟因子中的一个或更多个来捕获弱光图像。亮点、眩光、噪声或其他不想要的伪影可以在模数转换508和转换成合适的数据结构510(诸如拜耳派生(Bayer derived)、RGB、RAW、TIFF、JPG等)之后由后面的神经网络处理512去除。例如,拜耳派生的数据结构可以被定义为按深度堆叠颜色通道,使得所得维度在空间上减半,在深度上变成四倍。

使用图像信号处理器514的图像信号处理可以包括附加的数字缩放、色调映射、像素校正、去马赛克、去雾等。在一些实施例中,神经网络处理可以在图像信号处理器514上运行,而在其他实施例中,可以使用单独的处理部件。经处理的图像可以被存储、传送、显示、分类、编码或提供给任何其他合适的中间或最终用途518。

图6示出了用于训练神经网络的系统600,该神经网络适用于亮点或眩光去除以及一般的模拟和数字图像处理。提供了能够向成像系统604和显示系统606发送相应控制信号的控制和存储模块602。成像系统604可以向控制和存储模块602提供经处理的图像数据,同时还从显示系统606接收配置文件数据。

以监督或半监督方式训练神经网络需要高质量的训练数据。为了获得这样的数据,系统600提供自动成像系统配置文件。控制和存储模块602包含要传输到显示系统606的校准和原始配置文件数据。校准数据可以包含但不限于用于评估分辨率、焦距或动态范围的目标。原始配置文件数据可以包含但不限于从高质量成像系统(参考系统)捕获的自然和人工场景,以及程序上生成的场景(数学推导的)。

显示系统606的示例是高质量电子显示器。显示器可以调节其亮度,或者可以用物理滤光元件(诸如中性密度滤光片)来增强。一种可替代显示系统可以包括高质量参考印刷品或滤光元件,或者与前照明光源或后照明光源一起使用。在任何情况下,显示系统的目的是产生各种图像或图像序列,以传输到成像系统。

被配置(profiled)的成像系统被集成到配置系统中,使得它可以由控制和存储计算机编程控制,并且可以对显示系统的输出进行成像。相机参数(诸如,光圈、曝光时间和模拟增益)是可变的,并且可以对单个显示图像进行多次曝光。所产生的曝光被传输到控制和存储计算机,并保留用于训练目的。

整个系统被放置在受控照明环境中,使得光子“本底噪声(noise floor)”在配置过程中是已知的。

整个系统被设置成使得限制分辨率因素是成像系统。这是通过考虑参数的数学模型来实现的,这些参数包括但不限于:成像系统传感器像素间距、显示系统像素尺寸、成像系统焦距、成像系统工作f值、传感器像素的数量(水平和垂直)、显示系统像素的数量(垂直和水平)。实际上,可以对特定的传感器、传感器品牌或类型或传感器类别进行配置,以产生针对单个传感器或传感器模型精确定制的高质量训练数据。

图7示出了神经网络系统700的一个实施例,其参数可以被操纵,使得它们针对一组输入产生期望的输出,并且能够改善如前所述的噪声或亮点图像数据的成像质量。操纵网络参数的一种方法是“受监督训练”。在受监督训练中,操作者向网络提供源/目标对710和702,并且当与目标函数结合时可以根据某种方案(例如,反向传播)来修改网络系统700中的一些或所有参数。

在所描述的图7的实施例中,准备来自诸如配置文件系统、数学模型和公开可用数据集的各种源的高质量训练数据(源710和目标702对)以用于输入到网络系统700。该方法包括数据封装目标704和源712,以及预处理λ目标706和源714。

数据封装采用一个或许多个训练数据样本,根据确定方案对其进行规范化,并以张量形式排列输入到网络的数据。训练数据样本可以包括序列或时间数据。

预处理λ允许操作者在输入到神经网络或目标函数之前修改源输入或目标数据。这可用于增强数据,根据某种方案拒绝张量,向张量添加合成噪声或亮点,为对齐目的而对数据执行扭曲和变形或者从图像数据转换为数据标签。

被训练的网络716具有至少一个输入和输出718,尽管在实践中发现多个输出可以具有协同增效,每个输出具有其自己的目标函数。例如,虽然系统的总体目标是减少亮点的存在,但是亮点去除性能可以通过“分类器头”输出来改善,该输出的目标是对张量形式的对象进行分类。目标输出数据708、源输出数据718和目标函数720共同定义了待最小化的网络损耗,其值可以通过额外训练或数据集处理来提高。可替代地或另外地,在一些实施例中,可以联合训练神经网络来同时识别和减少亮点。这可以通过构建网络架构来实现,该网络架构具有网络输出(“网络头”),该网络输出具有适当构建的目标函数来识别亮点。

如将被理解的,本文描述的相机系统和方法可以在本地操作或者经由有线或无线连接子系统进行连接,用于与诸如服务器、台式计算机、膝上型计算机、平板电脑或智能电话的设备交互。数据和控制信号可以在各种外部数据源之间接收、生成或传输,包括无线网络、个人区域网络、蜂窝网络、因特网或云介导的数据源。另外,本地数据源(例如,硬盘驱动器、固态驱动器、闪存或任何其他合适的存储器,包括动态存储器,诸如SRAM或DRAM)可以允许用户指定的偏好或协议的本地数据存储。在一个特定实施例中,可以提供多个通信系统。例如,可以使用直接Wi-Fi连接(802.11b/g/n)以及单独的4G蜂窝连接。

与远程服务器实施例的连接也可以在云计算环境中实现。云计算可以被定义为模型,其用于实现对可配置计算资源(例如,网络、服务器、存储、应用和服务)的共享池进行普遍、方便、按需网络访问,其中可配置计算资源可经由虚拟化迅速地配置并以最小的管理工作量或服务提供商交互而被释放,并然后被相应地扩缩。云模块可由各种特征(例如,按需自助、宽带网络访问、资源池、快速弹性、可计量的服务等等)、服务模型(例如,软件即服务(SaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)),和部署模型(例如,私有云、社区云、公共云、混合云等等)组成。

受益于前述描述和相关联附图中呈现的教导的本领域技术人员将会想到本发明的许多修改和其他实施例。因此,应当理解,本发明不限于所公开的特定实施例,以及修改和实施例被认为被包括在所附权利要求的范围内。还应当理解,本发明的其他实施例可以在没有本文未具体公开的元件/步骤的情况下实施。

相关技术
  • 使用神经网络的亮点去除
  • 使用深层神经网络在感测雷达的波束形成阶段去除假警报
技术分类

06120113106309