掌桥专利:专业的专利平台
掌桥专利
首页

一种图像深度信息生成方法、设备及存储介质

文献发布时间:2023-06-19 11:19:16


一种图像深度信息生成方法、设备及存储介质

技术领域

本发明涉及图像处理技术领域,尤其涉及一种图像深度信息生成方法、装置及存储介质。

背景技术

利用双目图像对训练深度估计模型时,由于立体空间中物体遮挡的影响,即环境中的某些点只在双目图像对中的一幅图像中可见,因此,在对图像被遮挡区域的重投影损失的计算不准确。

基于上述原因,采用上述训练得到的模型趋向于把前景物体边缘处的背景区域的深度估计偏小,这在模型输出的深度图上表现为前景物体的边界模糊,物体表观尺寸变大。

发明内容

本发明的目的在于提供一种图像深度信息生成方法,用于解决现有技术中在训练单目深度估计模型时,对图像被遮挡区域的重投影损失计算不准确,把前景物体边缘处的背景区域的深度估计得偏小的技术问题。

为了实现上述目的,本发明提供一种图像深度信息生成方法,包括:

获取待测图像;根据单目深度估计模型对所述待测图像进行处理,确定深度信息;其中,所述单目深度估计模型为基于双目图像对训练的模型,所述单目深度估计模型的目标函数至少由表征所述双目图像对的校正重投影误差确定,所述校正重投影误差为滤除不准确像素的重投影误差。

与现有技术相比,本发明提供的图像深度信息生成方法中,使用双目图像对训练单目深度估计模型,避免了引入单目视频训练造成的动态物体问题;在模型训练时结合重投影过程,以校正重投影误差快速去除图像遮挡区域的重投影误差对计算结果的影响,解决了现有技术中在训练单目深度估计模型时,对图像被遮挡区域的重投影损失计算不准确,导致前景物体边缘处的背景区域深度估计偏小的问题。基于此,本发明提供的图像深度信息生成方法利用单目深度估计模型对待测图像进行处理时,单目深度估计模型可以更好地估计物体边界的深度,提升了单目深度估计模型的准确率,可以保证所确定的深度信息呈现的物体边界相对现有技术更加清晰,从而提高单目深度估计模型的整体性能的技术效果。

本发明还提供一种图像处理设备,包括:

图形处理器以及与图形处理器耦合的通信接口;所述图形处理器用于运行计算机程序或指令,实现上述技术方案所述的图像深度信息生成方法。

与现有技术相比,本发明提供的一种图像处理设备的有益效果与上述技术方案所述的一种图像深度信息生成方法的有益效果相同,此处不做赘述。

本发明还提供一种计算机存储介质,所述计算机存储介质中存储有指令,当所述指令被运行时,实现上述技术方案所述的图像深度信息生成方法。

与现有技术相比,本发明提供的一种计算机存储介质的有益效果与上述技术方案所述的一种图像深度信息生成方法的有益效果相同,此处不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明实施例中图像处理设备的结构框图之一;

图2为本发明实施例中双目相机根据前景物体生成深度图的原理图;

图3为本发明实施例中图像深度信息生成方法的流程框图之一;

图4为本发明实施例中图像深度信息生成方法的流程框图之二;

图5为本发明实施例中图像深度信息生成方法中检测遮挡区域的原理图;

图6为本发明实施例中图像深度信息生成方法的流程框图之三;

图7为本发明实施例中图像深度信息生成方法生成的深度图与其他算法生成的深度图的比较;

图8为本发明实施例中图像处理设备的结构框图之二;

图9为本发明实施例中图像处理设备的硬件结构框图;

图10为本发明实施例中芯片的结构示意图。

具体实施方式

为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一阈值和第二阈值仅仅是为了区分不同的阈值,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是,本发明中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本发明中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,a和b的结合,a和c的结合,b和c的结合,或a、b和c的结合,其中a,b,c可以是单个,也可以是多个。

在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义:

结构相似性(Structural SIMilarity,缩写为SSIM),是一种衡量两幅图像相似度的指标。SSIM使用的两张图像中,一张为未经压缩的无失真图像,另一张为失真后的图像。其中,

Adam算法(它的名称来源于adaptive moment estimation,适应性矩估计),是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。

Encoder-Decoder(编码-解码)是深度学习中非常常见的一个模型框架,比如auto-encoding无监督算法的就是用编码-解码的结构设计并训练的;例如近年比较热的image caption的应用,就是CNN-RNN(CNN,Convolutional Neural Networks,卷积神经网络;RNN,Recurrent Neural Network循环神经网络)的编码-解码框架;再例如神经网络机器翻译NMT模型,往往就是LSTM-LSTM(LSTM,Long Short-Term Memory,长短期记忆网络)的编码-解码框架。因此,准确的说,Encoder-Decoder并不是一个具体的模型,而是一类框架。Encoder和Decoder部分可以是任意的文字,语音,图像,视频数据,模型可以采用CNN,RNN,BiRNN(Bidirectional RNN,双向循环神经网络)、LSTM、GRU(gated recurrent unit,门控循环单元)等等。所以基于Encoder-Decoder,可以设计出各种各样的应用算法。

在人工智能与图像处理领域,深度信息作为场景结构表示的一种基本信息,是三维重建、避障以及导航等诸多应用的基础。根据是否能够直接利用传感器获得深度信息,可将获取深度信息的方法分为主动型和被动型两种方法。

主动型方法一般采用RGB-D相机或激光雷达,其中RGB-D相机由于其测量范围有限,一般只适用于室内场景。而激光雷达虽然测量范围较大,能够基本满足室外场景的需要,但由于其测量得到的深度信息相对于相机分辨率来说是特别稀疏的,再加上激光雷达较高的生产成本,这些都限制了激光雷达的应用。

被动型方法一般采用相机得到的图像进行一系列处理后得到深度图,根据相机的数量可将被动型方法进一步分为单目、双目以及多目的深度估计方法。其中,双目和多目的方法利用传统的多视图立体几何的方法就可以得到有效解决,要想利用这些方法获得高精度的稠密深度图,需要付出较大的计算代价。而利用单个相机进行深度估计的方法可分为利用单目图像序列的方法和利用单张图像的方法,利用单目图像序列的方法往往依赖于帧间运动的准确估计,受运动物体和遮挡的影响,这种估计不一定准确。而基于单张图像推理得到对应深度图的方法,即单目深度估计方法,则不需要依赖其他相机或图像即可直接推理得到深度图。

由于单目深度估计存在不适定性,利用手工设计的特征或线索一直难以很好地解决该问题。近些年来,随着深度学习的兴起,研究人员开始尝试利用卷积神经网络解决该问题。早期的基于深度学习的单目深度估计方法主要采用监督训练的方式获得模型,但由于难以大规模地获得监督训练所需的真实深度图,因此,基于重投影误差的自监督方法逐渐成为单目深度估计研究的主流。自监督的单目深度估计主要采用单目图像序列或双目图像对进行训练,在利用单目图像序列进行训练时,由于运动物体对静态场景假设的破坏仍未得到有效的解决,因此计算得到的重投影损失会偏大,进而影响模型的性能。而利用双目图像对进行训练可以避免运动物体的影响,从而获得更加准确的深度估计。

与单目图像序列一样,利用双目图像对训练单目深度估计模型时,会存在遮挡问题使得重投影误差估计偏大。Clement Godard在其提出的Monodepth2模型中,通过引入单目视频来解决利用双目图形训练时的遮挡问题,但是引入单目视频的同时也带来运动物体的影响,而作者提出的Auto-Masking(自动遮罩)技术也不能充分解决运动物体的影响。因此,本发明试图在不引入单目视频的条件下,利用双目图像对训练解决单目深度估计模型中的遮挡问题。

为了克服上述技术问题,本发明实施例提供一种图像深度信息生成方法,可以在对单张图像对应的深度图进行估计时,可以获得更加清晰的物体边界,提高单目深度估计模型的整体性能。该图像深度信息生成方法可以应用于图像深度信息生成系统。

图1所示为本发明实施例提供的深度图生成系统示意图,如图1所示,该图像深度信息生成系统包括:图像采集装置和图像处理设备。

上述图像采集装置用于采集双目图像对。图像采集装置200可以用于采集单目图像、双目图像对等图像,图像采集装置200可以是标定好的双目相机或单目相机。

上述图像采集装置200可以与图像处理设备100通信,用于将采集到的双目图像对或单目图像发送至图像处理设备100。图像处理设备100根据获取到的图片进行处理。

如图2所示,利用双目相机采集双目图像对时,C0和C1分别是左右相机的焦点,lr和lg分别表示红色前景物体和绿色背景物体,G点是lg上某一点,G点在左相机的成像点是G0点,由于lr的遮挡,G点在右相机中不可见。若模型在像素G0的深度估计正确(为L),则由右图像和深度图合成的图像在G0点的像素值为R1的像素值,此时在G0点处的重投影误差为两点的像素值的差|I

本发明实施例提供的一种深度图的生成方法,该方法可以由图像处理设备执行或应用于图像处理设备的芯片执行。下面结合附图举例说明本发明实施例提供的深度图的生成方法。

图3示例出本申请实施例提供的深度图的生成方法的示意图。如图3所示,本发明实施例提供的深度图的生成方法包括:

步骤S101:图像处理设备获取待测图像。在实际应用中,上述图像采集器可以为单目相机,单目相机将所采集的图像发送至图像处理设备,供图像处理设备进行图像处理。

步骤102:图像处理设备根据单目深度估计模型对待测图像进行处理,确定深度图。

在实际应用中,可以采用将遮挡检测与重投影过程紧密结合,解决遮挡导致的前景物体周围深度估计不准确的问题,进而提高单目深度估计的性能。基于此,单目深度估计模型为基于双目图像对训练的模型。也就是说,单目深度估计模型的训练对象为双目图像对。同时,单目深度估计模型的目标函数用于至少表征所述双目图像对的校正重投影误差。该校正重投影误差为滤除不准确像素的重投影误差。由于在进行传统的双目图像对训练时在图像被遮挡区域的重投影损失的计算是不准确的,因此,本发明实施例中的校正重投影误差为滤除不准确像素的重投影误差。基于此,当图像处理设备根据单目深度估计模型对待测图像进行处理,从而滤除深度估计较差的点,提升单目深度估计模型的准确率。基于此,本发明实施例提供的方法所采用的单目深度估计模型整体性能的技术效果比较好,可以保证所确定的深度图呈现的物体边界相对现有技术更加清晰。单目深度估计模型的训练过程可以参考下文。

本发明实施例采用的模型以双目图像对为训练对象,在训练时可以利用双目相机采集场景图像,获得大量双目图像对,对双目图像对进行一些变换(旋转、扰动等)来扩充原始训练集合,用一个损失函数来对网络模型进行学习,最终评测自监督学习的能力实现训练过程的自监督。

其中,机器学习分为监督学习和无监督学习两种基本的学习范式。监督学习利用大量的标注数据来训练模型,模型的预测和数据的真实标签产生损失后进行反向传播,最终使得网络模型获得识别新样本的能力。无监督学习不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。有监督和无监督最主要的区别在于网络模型在训练时是否需要人工标注的标签信息。自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络模型进行训练,从而可以学习到对下游任务有价值的表征。

在对单目深度估计模型训练时,如图4和图5所示,先利用双目相机同步采集双目图像对数据,采集时将左右相机设置在同一水平高度,且朝向角度相同。且相机内参数矩阵为K已知,左右相机的相对位姿分别为T

可以指定上述双目相机中的左相机为目标相机,右相机为源相机。当然,也可以指定左相机为源相机,右相机为目标相机。基于此,双目图像对包括目标图像和源图像,下面以左相机为目标相机,右相机为源相机进行说明。

上述双目相机的设置参数包括相机内参数矩阵K和左右相机的相对位姿T

当左相机为源相机,右相机为目标相机时,左相机采集的图像为源图像,右相机为目标图像。在进行双目图像对训练时,根据系统性能和实时性,对输入图片分辨率、优化目标函数等参数等不同的单目深度估计模型进行选择。

图4示例出一种单目深度估计模型使用双目图像对进行训练的流程图。如图4所示,使用encoder-decoder结构作为网络结构进行双目图像对训练。该网络结构是基于U-Net(全卷积神经网络的一种)的,为实现一个轻量级的网络结构,选择ResNet18(ResNet,residual network,残差神经网络,由微软研究院的何恺明、张祥雨等人提出,ResNet18指带有权重的18层,包括17个卷积层和1个全连接层)作为encoder,该网络的输入图像的分辨率为640×192。也可以采用更深的网络(比如采用ResNet50作为encoder)和更大的分辨率。

当双目图像对的尺寸W

基于上述图像预处理,利用预处理后的图像进行图像训练,并至少可以由双目图像对的重投影误差确定单目深度估计模型的目标函数。该双目图像对的重投影误差由合成图像与目标图像之间的L1误差和结构相似性确定。合成图像由目标图像的深度图和源图像确定。具体来说,该双目图像对的重投影误差可以采用如下方式获得:

第一步,选择合适的单目深度估计模型,将双目图像对中的目标图像输入网络模型中,输出n个不同分辨率的深度图D

其中,根据三维坐标和源相机坐标系的映射关系,对目标图像中的像素点进行齐次坐标和非齐次坐标之间的转换,将目标图像中的像素点转换源相机坐标系下的坐标。接着利用双线性插值计算源图像中坐标所在点的像素值,并用该像素值作为目标图像中像素的近似估计。

例如,对于目标图像每一个像素坐标(u,v),0≤u≤W-1,0≤v≤H-1,该像素点对应深度图D

在得到合成目标图像后,计算合成图像与目标图像之间的重投影误差。并对该重投影误差进行不清定像素点滤除。滤除方式可以是使用图像掩膜滤除不准确像素。该图像掩膜可以是一个二进制掩膜。

双目图像对的重投影误差用于表征合成图像与目标图像之间的L1误差和结构相似性,重投影误差满足

其中,

作为一种可能的实现方式,根据单目深度估计模型对待测图像进行处理,确定深度图后,还包括:对深度图进行缩放,使得缩放后的深度图的分辨率与相机的分辨率。

当训练次数达到设定阈值后,将单目图像输入单目深度估计模型进行验证,输出模型的最后一层输出的深度图,再对当前输出的深度图进行双线性插值放大至与相机分辨率相同,放大后的深度图即包含所需的稠密的深度信息。

作为一种可能的实现方式,单目深度估计模型的目标函数为最小化的目标函数,目标函数的最小化方式为梯度下降方式。

使用双目图像对训练单目深度估计模型时,对单目深度估计模型的优化目标为最小化目标函数,将对单目深度估计模型的优化目标转换为求解目标函数参数的最小值。最小化方式采用梯度下降方式。其中,本申请用到的Adam算法为梯度下降算法的一种,也可以选用其他更优的梯度下降算法。

二进制掩模包括H行元素,图像掩膜的第v(0≤v≤H-1)行元素满足

其中,

举例说明,计算二进制掩模M时,该掩模的大小为W×H,与单目深度估计模型的输入图片分辨率相同。掩模中的每个元素表示对应坐标的目标图像的像素是否在源图像中可见,“1”表示目标图像对应像素在源图像中可见,而“0”表示目标图像对应像素在源图像中不可见。由于左右相机已设置在同一水平高度,且朝向角度相同,故环境中同一点在左右相机中成像的像素坐标的纵坐标是相同,只有横坐标不同。因此,计算二进制掩模主要基于横坐标的差异。目标图像的第v行(0≤v≤H-1)像素的横坐标可以用向量表示为

其中,本发明提出的遮挡检测原理如图5所示,假设左右相机分别为目标相机和源相机,对应相机焦点分别为C

举例说明,利用Adam梯度下降算法迭代优化模型时,根据双目图像对的对数设置批次和每一批次的数量,同时为不同批次的训练图像设置不同的学习率,当训练次数达到设定阈值,则停止训练。训练完成后,使用单目图像对训练结果进行验证,达到较优的结果即保存单目深度估计模型。采用梯度下降方式对单目深度估计模型的目标函数进行优化,通过改善训练方式,最小化目标函数来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到单目深度估计模型网络参数的最优值,使得优化过程更加简便,模型预测精准。

作为一种可能的实现方式,单目深度估计模型的目标函数还用于表征双目图像对的平滑性损失,平滑性损失满足:

其中,D

举例说明,在得到图像掩膜矩阵M和重投影误差

n为单目深度估计模型根据双目图像对输出的不同分辨率的深度图的张数,单目深度估计模型的输入图片分辨率为W×H,M为图像掩膜矩阵,0≤u≤W-1,0≤v≤H-1,

通过图像掩膜滤除重投影误差计算不准确的像素,使得训练好的模型对单张图像对应的深度图进行估计时,可以获得更加清晰的物体边界;通过将平滑性损失与滤除后的重投影误差的加权和作为目标函数,可改善重投影过程中双线性插值导致的局部梯度的影响,有效提高了单目深度估计模型的整体性能而不会导致测试时处理时间的增加。

在一种示例中,如图6所示的实施步骤,包括,

步骤1:双目相机同步采集数据。为了便于与其他自监督单目深度估计方法比较,我们选择KITTI Raw Dataset的一个子集Eigen Split作为训练和测试数据集。EigenSplit中包含45200张训练图片和697张测试图片。每张图片都对应一个双目图像对,图像包含1242×375、1242×375、1241×376等多种相近的分辨率。当相机图像分辨率缩放成1×1时对应相机内参矩阵为:

左右相机相对位姿分别为:

步骤2:数据预处理。选择encoder-decoder结构作为网络结构,该结构是基于U-Net的,为实现一个轻量级的网络结构,选择ResNet18作为encoder,该网络的输入图像的分辨率为640×192。网络的decoder输出4种不同分辨率的深度图,最后一层输出的深度图的分辨率为640×192。在硬件资源充足或者对实时性没有很强的要求是,如果想要提高网络模型的准确率,也可以采用更深的网络(比如采用ResNet50作为encoder)和更大的分辨率。以50%的概率随机对双目图像对进行左右翻转,进行翻转后的左图像会被标记为右图像,右图像会被标记为左图像;以50%的概率对双目图像对的亮度、对比度和饱和度添加随机扰动,最大相对扰动为±20%。之后,就可以采用ANTIALIAS插值将所有图像缩放成640×192。缩放之后,对应内参矩阵变化为

步骤3:计算重投影误差。训练时,每输入一张640×192的目标图像,decoder会生成4张不同分辨率的深度图。接下来,将输出的所有深度图采用双线性插值上采样至640×192。然后,在计算在目标图像坐标点(u,v)在源图像上的重投影坐标(u

此外,合成图像时,可将目标图像的坐标看成一个2×122880的矩阵(u,v)

步骤4:计算目标函数并进行迭代优化。首先计算二进制掩模,在计算得到遮挡掩模M后,为了滤除深度估计较差的点,可令

之后,就可以用M对重投影误差进行过滤,再与平滑项进行加权求和即可得到损失函数。然后,根据损失函数就可以对网络参数进行迭代更新。在整个训练过程中,每步迭代的batch size为12,总共需要迭代20epochs,前15epochs的学习率为0.0001,后5epochs的学习率为0.00001.

步骤5:测试模型性能。将待测试的单张图片缩放至640×192后输入网络,然后将网络的最后一层输出的深度图上采样成原始图片尺寸即可得到所需深度图。图5是本发明方法与无掩模的方法、Clement Godard等人提出的基于双目图像对训练的Monodepth2的方法对比,由图7可以看出,本发明方法得到的深度图具有更加清晰的物体边界,且物体轮廓与RGB图像中的物体轮廓更为接近。

另外,本文的方法还和无掩模的方法,以及采用双目数据训练的Monodepth2的方法在KITTI数据集的697图片构成的测试集上进行评估比较,Monodepth2是目前为止所有自监督单目深度估计模型中性能表现相当靠前的模型。为保证评估的公平性,这三种方法均采用相同的网络结构,且采用的训练集和测试集也相同,网络输入的图片尺寸也保持一致。另外,评估时还和Sudeep Pillai等人提出的SuperDepth模型进行了对比,需要注意的是,SuperDepth的网络输入图像的分辨率是1024×382,这四种方法均只采用双目图像对进行训练。评估时采用自监督单目深度估计通用的评估基准,该评估基准由David Eigen提出,评价指标包括Abs Rel,Sq Rel,RMSE,RMSE log等7项指标,测量结果如表1所示。其中加粗数据表示该方法在该指标上表现最佳,下划线表示该项指标数据排名第二。根据测量结果可以看出,添加掩模可以有效提高性能,且本发明方法大部分性能指标均超过SuperDepth和Monodepth2,整体性能表现最佳。

表1

上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。

在采用对应集成单元的情况下,图8示出本发明实施例提供的图像处理设备500的结构框图。该图像处理设备500可以为图2所示图像处理设备100,也可以为应用于图2所示图像处理设备100的芯片。

如图8所示,该图像处理设备500包括:通信单元501和处理单元502。可选的,该图像处理设备500还可以包括存储单元503,用于存储图像处理设备500的程序代码和数据。

在一种示例中,如图8所示,上述处理单元502用于支持图像处理设备500执行上述实施例中由图3所示图像处理设备100执行的步骤301~步骤302。

其中,处理单元502可以是图形处理器或控制器,例如可以是中央图形处理器(Central Processing Unit,GPU),通用图形处理器,数字信号图形处理器(DigitalSignal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。图形处理器也可以是实现计算功能的组合,例如包含一个或多个微图形处理器组合,DSP和微图形处理器的组合等等。通信单元501可以是收发器、收发电路或通信接口等。存储单元503可以是存储器。

当处理单元502为图形处理器,通信单元501为收发器,存储单元503为存储器时,本发明实施例所涉及的图像处理设备500可以为图4所示图像处理设备100的硬件结构示意图。

图9示出了本发明实施例提供的装置100的硬件结构示意图。如图9所示,该装置100包括图形处理器110和通信接口130。

如图9所示,上述图形处理器110可以是一个通用中央图形处理器(centralprocessing unit,GPU),微图形处理器,专用集成电路(application-specificintegrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。上述通信接口可以为一个或多个。通信接口130可使用任何收发器一类的装置,用于与其他设备或通信网络通信。

如图9所示,上述装置100还可以包括通信线路140。通信线路140可包括一通路,在上述组件之间传送信息。

可选的,如图9所示,该装置100还可以包括存储器120。存储器120用于存储执行本发明方案的计算机执行指令,并由图形处理器110来控制执行。图形处理器110用于执行存储器120中存储的计算机执行指令,从而实现本发明实施例提供的方法。

如图9所示,存储器120可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器120可以是独立存在,通过通信线路140与图形处理器110相连接。存储器120也可以和图形处理器集成在一起。

可选的,本发明实施例中的计算机执行指令也可以称之为应用程序代码,本发明实施例对此不作具体限定。

在具体实现中,作为一种实施例,如图9所示,图形处理器110可以包括一个或多个GPU,如图9中的GPU0和GPU1。

在具体实现中,作为一种实施例,如图9所示,图像处理设备100可以包括多个图形处理器,如图9中的图形处理器110和图形处理器150。这些图形处理器中的每一个可以是一个单核图形处理器,也可以是一个多核图形处理器。

图10是本发明实施例提供的芯片600的结构示意图。如图10所示,该芯片600包括一个或两个以上(包括两个)图形处理器610和通信接口620。

可选的,如图10所示,该芯片600还包括存储器630,存储器630可以包括只读存储器630和随机存取存储器630,并向图形处理器610提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,NVRAM)。

在一些实施方式中,如图10所示,存储器630存储了如下的元素,执行模块或者数据结构,或者他们的子集,或者他们的扩展集。

在本发明实施例中,如图10所示,通过调用存储器630存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。

如图10所示,图形处理器610控制图像处理设备100中任一个的处理操作,图形处理器610还可以称为中央处理单元(central processing unit,GPU)。

如图10所示,存储器630可以包括只读存储器和随机存取存储器,并向图形处理器610提供指令和数据。存储器630的一部分还可以包括NVRAM。例如应用中存储器630、通信接口620以及存储器630通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图10中将各种总线都标为总线系统640。

如图10所示,上述本发明实施例揭示的方法可以应用于图形处理器610中,或者由图形处理器610实现。图形处理器610可能是一种集成电路芯片600,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过图形处理器610中的硬件的集成逻辑电路或者软件形式的指令完成。上述的图形处理器610可以是通用图形处理器、数字信号图形处理器(digital signal processing,DSP)、ASIC、现成可编程门阵列(field-programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用图形处理器可以是微图形处理器或者该图形处理器也可以是任何常规的图形处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码图形处理器执行完成,或者用译码图形处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器630,图形处理器610读取存储器630中的信息,结合其硬件完成上述方法的步骤。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令被运行时,实现上述实施例中由图像处理设备100执行的功能。

一方面,提供一种芯片600,该芯片600应用于材料性能的测试设备100中,芯片600包括至少一个图形处理器610和通信接口620,通信接口620和至少一个图形处理器610耦合,图形处理器610用于运行指令,以实现上述实施例中由图像处理设备100执行的功能。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行计算机程序或指令时,全部或部分地执行本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。

尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个图形处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

相关技术
  • 一种图像深度信息生成方法、设备及存储介质
  • 图像深度信息单目估计方法、设备及可读存储介质
技术分类

06120112879391