掌桥专利:专业的专利平台
掌桥专利
首页

多光源预测方法

文献发布时间:2023-06-19 11:02:01


多光源预测方法

技术领域

本发明涉及计算摄影学,特别是涉及一种多光源预测方法。

背景技术

色彩恒常(Color Constancy,CC)是相机成像时所面对的一个经典问题,在受到不同颜色的光源影响时,人眼能够准确的还原物体本身的色彩,这得益于人脑对于特定环境的先验知识,然而对于相机来说,在面对环境光源的干扰时,其并不能准确的还原出物体本身的颜色。

常见的色彩恒常手段可分为两类,一类是传统的基于统计学的算法,另一类是基于数据驱动的方法。其中,前者以Grey World以及Max-RGB为主要算法,这些算法的主要思想是通过寻找不同通道中的特定白点响应,来获得对应的入射光源,这样方法的优点是速度快,计算量小,缺点是在面对缺少白点的情况(如大面积纯色场景等)这样的方法极易受大面积纯色区域的影响,从而导致较差的适应性。随着深度学习在计算机视觉领域的兴起,基于数据驱动的算法也应用到色彩恒常上,数据驱动的算法主要有学习以频域谱为主的快速傅立叶色彩恒常(Fast Fourier Color Constancy,FFCC)以及基于图片语义信息的全连接卷积网路色彩恒常(Fully Connect Convolutional Color Constancy,FC

然而,目前的色彩恒常方法大多数都集中在对于单一光源的恢复上,而忽略了常见的场景的光源往往是多光源的,虽然通过聚类或切块的方法,传统方法以及数据驱动的方法均能实现对于多光源的预测,然而这样的预测手段往往忽略了图片自身的语义信息也就无法真实地还原多光源场景的信息。

有学者提出利用生成对抗网络实现图到图的多光源修复,但是该方法有可能对于图片的结构信息造成影响,在对抗生成中可能引入不属于真实图片的场景,进而导致还原结果无法真正的应用于移动拍照端。

需要说明的是,在上述背景技术部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术存在的缺陷,提供一种多光源预测方法。

为实现上述目的,本发明采用以下技术方案:

一种多光源预测方法,包括如下步骤:

由特征提取网络进行图像的色彩与语义特征的解耦,得到高维特征矩阵;

由主成光源预测网络,通过所述特征提取网络得到的高维特征矩阵进行主成光源的光源值的预测;

由光源分布权重图预测网络,通过所述特征提取网络中得到的高维特征矩阵,实现像素级的光源分布权重图预测。

进一步地:

所述特征提取网络包含浅层语义提取分支、深层语义提取分支以及色彩偏好提取分支,所述浅层语义提取分支通过较小的感受野对图像中的浅层语义信息进行提取,所述深层语义提取分支通过较大的感受野对图像中的深层语义信息进行提取,以便提取图像中不同组成结构的关联关系,所述色彩偏好提取分支进行图像中的色彩偏好提取,以便实现色彩与语义特征的解耦。

采用如下设置一种或多种:

所述浅层语义提取分支包含5个卷积层,4个池化层,该分支所有的卷积层均为卷积核为3×3,步长为2;

所述深层语义提取分支采用AlexNet的前5层网络,该网络包含5个卷积层以及3个池化层,其中前两层卷积层的卷积核分别为11×11以及5×5,后三层卷积层卷积核均为3×3;

所述色彩偏好提取分支采用5个卷积层以及4个池化层,所有的卷积层卷积核均为1×1。

所述主成光源预测网络包括光源位置选择模块以及光源回归模块,所述光源位置选择模块由与待预测光源数量相同的卷积网络构成,采用卷积核大小为1×1的卷积层,结合2倍的池化下采样实现对于光源位置的确定;所述光源回归模块采用全卷积网络,在所述光源位置选择模块确定光源位置后,通过提取各通道的特征,实现光源的回归。

所述主成光源预测网络还包括通道注意力模块,所述通道注意力模块将原始高维特征矩阵F中的通道进行重新加权,从而获得具有不同通道权重值的特征矩阵G。

所述特征矩阵G通过公式(1)计算:

其中,ω为通道加权的权重,k是对应矩阵通道的维数,i为对应特征图的像素点,

所述光源分布权重图预测网络包括四个上采样层,所述四个上采样层与所述特征提取网络中对应特征图大小位置进行短连接。

采用预测光源值

其中,预测值

以最小化预测值与真实值之间的角误差L

进一步地,还使用均方误差MSE作为光源分布权重图网络的损失函数如下:

其中,N为样本数量,i为当前样本编号,x

将预测光源值与光源权重图相乘得到像素级的光源分布,该光源分布同样也使用角误差进行监督,监督全图所有像素点角误差的平均值:

其中,

其中,k代表k个候选主成光源k∈{2,...,N}。

一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现所述的方法。

与现有技术相比,本发明具有如下有益效果:

本发明提出了一种基于深度学习的多光源预测方法,针对相机的多光源局部白平衡问题所需要的多光源估计问题,本发明的多光源预测方法可以实现从多光源场景图片中有效分离主要组成光源及其分布,是一种很好的应用前景的多光源估计方案。

本发明基于光源分布权重图的多光源预测方法克服数码相机成像时的多光源色彩恒常问题,能够有效的完成基于场景语义信息的多光源预测,同时,该方法对于不同的光照模式都有较好的适应性,能够实现从现实各类情况的多光源图片中获得准确的光源分布以及光源色彩信息。

附图说明

图1为本发明实施例的多光源预测方法的深度神经网络结构图。

图2为本发明实施例的光源分布权重图与不同光源恢复图。

具体实施方式

以下对本发明的实施方式作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。

本发明提出一种基于光源分布概率图的多光源预测方法,用于实现相机成像领域的多光源色彩恒常。本发明的核心思想是建立一个端到端的神经网络,实现光源概率分布图的预测,以及对应的光源的预测,并通过将这二者结合,实现像素级的多光源色彩恒常。

参阅图1和图2,本发明实施例的基于光源概率分布的多光源预测方法,主要包括:

由特征提取网络进行图像的色彩与语义特征的解耦,得到高维特征矩阵;

由主成光源预测网络,通过所述特征提取网络得到的高维特征矩阵进行主成光源的光源值的预测;

由光源分布权重图预测网络,通过所述特征提取网络中得到的高维特征矩阵,实现像素级的光源分布权重图预测。

本发明实施例中采用的深度神经网络结构图由图1所示。

特征提取对于多光源的预测至关重要,因此本发明实施例设计了一个全新的特征提取网络。该网络包含三个分支;浅层语义提取分支,深层语义提取分支以及色彩偏好提取分支。

浅层语义提取分支包含5个卷积层,4个池化层,该分支所有的卷积层均为卷积核为3×3,步长为2。该层的目的是通过较为小的感受野对于图片内容的轮廓等浅层语义信息进行提取。

深层语义提取分支选取的是AlexNet的前5层网络(Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90),该网络包含5个卷积层以及3个池化层,其中前两层卷积层的卷积核分别为11×11以及5×5,后三层卷积层卷积核均为3×3,引入AlexNet的前五层网络作为深层语义提取分支正是依靠了其能够提供的较为大尺寸的感受野,从而帮助神经网络更好的提取图片中不同组成结构的关联关系。

色彩偏好提取分支同样采用了5个卷积层以及4个池化层,但该分支所有的卷积层卷积核均为1×1,这样是为了避免图像内容对于特征提取的干扰,从而隐式的实现色彩与语义特征的解耦合。

主成光源预测网络的目的是为了预测图片中的主要光源的值,该网络通过特征提取网络得到的高维特征矩阵进行光源值的预测。该预测网络由两部分组成:光源位置选择模块以及光源回归模块。光源位置选择模块由与待预测光源数量相同的卷积网络构成,该部分采用的是卷积核大小为1×1的卷积层,结合2倍的池化下采样实现对于光源位置的确定;光源回归模块使用的是全卷积网络,在选择模块确定光源位置后,进行通过提取各通道的特征,实现光源的回归。特别的,为了使网络预测效果更加准确,本发明优选实施例在该预测网络中,加入了通道注意力模块,通道注意力模块可将原始特征矩阵F中的通道进行重新加权,从而获得具有不同通道权重值的特征矩阵G,该模块可以通过公式(1)计算。

其中,ω为通道加权的权重,k是对应矩阵通道的维数,i为对应特征图的像素点,

为了获得更加准确的光源分布情况,本发明实施例设计了一种像素级的光源权重预测网络,该网络可通过特征提取网络中得到的高维特征矩阵,实现像素级的权重图预测,这样的预测过程也可以被认为是一个图到图的变化,本发明优选实施例参考U-Net的结构(Ronneberger O,Fischer P.U-Net:Convolutional Networks for Biomedical ImageSegmentation[C]//2015Medical Image Computing and Computer-AssistedIntervention(MICCAI).Springer,2015)设计了一个由多光源图片到光源分布权重图的网络。该网络主要有四个上采样层与特征提取网络部分共同构成,其中,为了尽可能多的保留图片的结构信息,减少因为网络层数增加带来的损失,在四个上采样层与特征提取网络中对应特征图大小位置,进行了短连接。

本发明优选实施例采用预测光源值

其中,预测值

为了获得最优的预测效果,优选实施例的多光源预测方案的优化目标就是最小化预测值与真实值之间的角误差L

其中,N为样本数量,i为当前样本编号,x

进一步的,将预测光源值与光源权重图相乘可以得到像素级的光源分布,该光源分布同样也使用角误差进行监督,实际监督的应是全图所有像素点角误差的平均值为:

其中,

其中,k代表k个候选主成光源k∈{2,...,N}。

性能分析

使用角误差进行分析,在实际评估中采用所有测试数据角误差的平均值(Mean),中位数(Median)以及三分位数(Trimean)进行计算比较,如表1所示。相较于传统算法Gray-World,本发明实施例的方法在上述三个指标中均有提升,相较于同是深度学习方法的3du-awb、sde-awb,本发明方法在各指标上也取得较大领先。同时,本发明实施例的方法相对现有色彩恒常算法,实现了多个主成光源的预测以及像素级的光源分布图的预测,是一个应用前景好的多光源估计方案。

表1

本发明的背景部分可以包含关于本发明的问题或环境的背景信息,而不一定是描述现有技术。因此,在背景技术部分中包含的内容并不是申请人对现有技术的承认。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离专利申请的保护范围的情况下,可以在本文中进行各种改变、替换和变更。

相关技术
  • 多光源预测方法
  • 一种针对无线光通信的光源轨迹预测方法及系统
技术分类

06120112772510