掌桥专利:专业的专利平台
掌桥专利
首页

一种为用于图像分类的神经网络提供训练数据集的方法及分类器

文献发布时间:2023-06-19 19:07:35


一种为用于图像分类的神经网络提供训练数据集的方法及分类器

技术领域

本申请涉及一种为用于图像分类的神经网络提供训练数据集的方法。此外,本申请还涉及一种采用该方法训练的分类器、一种计算机装置/设备/系统、一种计算机可读存储介质以及一种计算机程序产品。

背景技术

在人工智能领域,为了识别对象,可以使用不同的分类方法,这些分类方法也称为分类器。通常通过大量的训练数据来训练这种分类器,以便因此逐步地研发出针对待识别对象的识别性能。现有技术中,为了使得分类器的识别准确度更高,有时会对原始图片进行各种处理和变换,例如,在一定程度内对图片进行旋转、平移、填充、增加噪声干扰、改变颜色等,以扩充训练样本数据量的方式来提高分类器的准确度。

然而,这样训练的分类器的识别性能通常仅限于之前的训练数据的图像信息,例如被检测图像的视角或光照条件改变时,仍会导致识别准确度显著受限。

发明内容

本申请的基本思想在于提出对用于图像分类的神经网络提供训练数据集的方法,该方法通过结合计算机视觉技术和机器学习,使得经该训练数据集训练的神经网络的分类性能得到较大提升。

根据本申请的一个方面,公开了一种为用于图像分类的神经网络提供训练数据集的方法,包括如下步骤:

获取物品在指定光照条件下拍摄的原始图片,所述原始图片能以M个通道描述;

利用空间变化双向反射分布函数SVBRDF模型逐像素评估所述原始图片的SVBRDF参数;

利用所述原始图片的每个像素的SVBRDF参数将所述原始图片表征为N种SVBRDF参数特性图;

将所述原始图片和N种所述SVBRDF参数特性图叠加作为原始图片的映射,所述原始图片的映射能以M+N个通道描述;以及

以通过上述方式获取的若干所述原始图片的映射生成训练数据集。

在可行的实施方式中,N种所述SVBRDF参数包括:漫反射参数(diffuse)、法向量(normal)、粗糙度(roughness)和高光(specular)参数中的一种或多种。

在可行的实施方式中,所述指定光照条件包括开启闪光灯的移动终端拍摄时的光照条件。

在可行的实施方式中,所述神经网络为CNN,所述原始图片为RGB图片时M=3,所述原始图片为RGB-D图片时M=4,所述原始图片为灰度图片时,M=1。

根据本申请的第二个方面,公开了一种基于神经网络的分类器,该分类器经由前述方法生成的训练数据集进行过训练。

根据本申请的另一个方面,公开了一种基于神经网络的分类装置,其包括:

图像获取单元,获取物品在指定光照条件下拍摄的原始图片,所述原始图片能以M个通道描述;

评估单元,利用空间变化双向反射分布函数SVBRDF模型逐像素评估所述原始图片的SVBRDF参数;

特性图生成单元,利用所述原始图片的每个像素的SVBRDF参数将所述原始图片表征为N种SVBRDF参数特性图;

叠加单元,将所述原始图片和N种所述SVBRDF参数特性图叠加作为原始图片的映射,所述原始图片的映射能以M+N个通道描述;

分类单元,将所述叠加单元中产生的原始图片的映射输入已训练的神经网络进行分类,其中,所述已训练的神经网络至少在部分步骤中采用如前所述的训练方法进行了训练。

在又一方面,本申请的目的通过一种计算机装置/设备/系统来实现,该计算机装置/设备/系统包括处理器和与处理器可通信地连接的计算机可读存储介质,计算机可读存储介质中存储有计算机指令,当所述计算机指令被所述处理器执行时,实现根据本申请的为用于图像分类的神经网络提供训练数据集的方法的步骤。

在另一方面,本申请的目的通过一种计算机可读存储介质来实现,该计算机可读存储介质上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现根据本申请的为用于图像分类的神经网络提供训练数据集的方法的步骤。

在又一方面,本申请的目的通过一种计算机程序产品来实现,该计算机程序产品包括计算机指令,其特征在于,该计算机指令被处理器执行时实现根据本申请的为用于图像分类的神经网络提供训练数据集的方法的步骤。

从说明书、附图和权利要求书中,本申请主题的优点和有利实施例是显而易见的。

附图说明

本申请的更多特征及优点可以通过下述参考附图的具体实施例的详细说明来进一步阐述。所述附图为:

图1示出了根据本申请的一示例性实施例的为用于图像分类的神经网络提供训练数据集的方法的流程图;

图2示出了根据本申请的一示例性实施例中利用SVBRDF模型将所述原始图片表征为N种SVBRDF参数特性图的示意图;

图3示出了根据本申请的一示例性实施例的分类装置的示意性结构框图。

具体实施方式

为了使本申请所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白,以下将结合附图以及多个示例性实施例对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本申请,而不是用于限定本申请的保护范围。在附图中,相同或类似的附图标记指代相同或等价的部件。

根据本申请对分类器的训练方法大致分以下阶段:其中,第一阶段包含计算机视觉技术,或者说计算机视觉模型。其利用原始图片的空间变化双向反射分布函数(SVBRDF,Spatially-varying Bidirectional Reflectance Distribution Function)评估模型得到原始图片的各种SVBRDF参数特性图。在第二阶段中,利用SVBRDF参数特性图得到原始图片的映射,使得该映射具有比原始图片更多的通道(channel)描述。在第三阶段,以若干这样生成的映射作为神经网络的训练数据集,以提升分类器的识别准确度。当然,也可以用这种方式对训练好的卷积神经网络进行测试。

具体而言,如图1所示,一种对用于图像分类的神经网络提供训练数据集的方法,该神经网络例如是分类器或分类器的一部分。该方法包含如下步骤:

在步骤S101中,获取物品在指定光照条件下拍摄的原始图片,所述原始图片能以M个通道描述;

通常而言,指定光照条件拍摄原始图片为点光源近距离拍摄的原始图片,例如开启闪光灯的移动终端拍摄的照片可以作为原始图片。

为了分析图像数据,通常采用分类器,分类器针对图像的每个像素都查明该像素属于哪个对象或属于哪个种类的对象。对象识别因此可以实施为在像素基础上的分类。

原始图片能以M个通道描述的意思是指对计算机而言,原始图片中的每个像素点都可以用M个值表示。例如,所述原始图片为彩色RGB图片时通道个数M=3,3个通道分别为R,G,B。类似地,所述原始图片为彩色RGB-D图片时M=4,4个通道分别为R,G,B,Depth。其中Depth图像类似于灰度图像,只是它的每个像素值是传感器距离物体的实际距离。同样地,如果原始图片为灰度图片时,M=1,此时对于像素的描述为单通道。

接下来,在步骤S102中,利用空间变化双向反射分布函数SVBRDF模型20逐像素评估所述原始图片1000的SVBRDF参数;

以及,在步骤S103中,利用所述原始图片1000的每个像素的SVBRDF参数将所述原始图片表征为N种SVBRDF参数特性图1000a,1000b,1000c和1000d(参见图2所示)。

其中,常用的所述SVBRDF参数包括:漫反射参数(diffuse)、法向量(normal)、粗糙度(roughness)和高光(specular)参数中的一种或多种。在本具体实施方式中,N=4,即这四种常见的参数特性图均被采用。

计算机视觉领域的技术人员已知,利用SVBRDF来描述物体表面的反射特性建模是一个重要的研究课题。例如一些文献中提到通过训练深度神经网络来自动提取和理解纹理、高光和阴影等视觉线索,从而可以从单幅图像中感知材质的外观属性。目前已经公开一些SVBRDF模型可以完成步骤S102和S103的工作,例如Deschaintre等人于2018年在论文“Single-image svbrdf capture with a rendering-aware deep network”中提及的方案,此处不再赘述。

在步骤S104中,将所述原始图片与N种所述SVBRDF参数特性图叠加作为原始图片的映射,该原始图片的映射能以M+N个通道描述;在此步骤中,原始图片与参数特性图的叠加,使得原始图片的映射的通道数由原始图片的M个增加为M+N个,意味着对于同一位置像素点的描述维度经过前面的步骤被极大地扩充了。

接下来,在步骤S105中,将若干以上述方式取得的原始图片的映射(即被扩充了描述维度的图片信息)集合起来生成训练数据集。

在随后的训练中,以这些具有更多通道的调整后的原始图片的映射作为训练数据集对神经网络进行训练。可以理解,由于调整后的图片的通道数增加了,以此训练出的分类器较仅有M个通道的图片集训练出的分类器更加强壮和高效。

参见图3所示,根据本申请的另一个方面,公开了一种基于神经网络的分类装置,其包括:

图像获取单元100,获取物品在指定光照条件下拍摄的原始图片,所述原始图片能以M个通道描述;

评估单元200,利用空间变化双向反射分布函数SVBRDF模型逐像素评估所述原始图片的SVBRDF参数;

特性图生成单元300,利用所述原始图片的每个像素的SVBRDF参数将所述原始图片表征为N种SVBRDF参数特性图;

叠加单元400,将所述原始图片和N种所述SVBRDF参数特性图叠加作为原始图片的映射,所述原始图片的映射能以M+N个通道描述;

分类单元500,将所述叠加单元中产生的原始图片的映射输入已训练的神经网络进行分类,其中,所述已训练的神经网络至少在部分步骤中采用如前所述S101~S105的方式生成的训练数据集进行了训练。

可以理解,本申请的目的也可以通过一种计算机装置/设备/系统来实现,该计算机装置/设备/系统包括处理器和与处理器可通信地连接的计算机可读存储介质,计算机可读存储介质中存储有计算机指令,当所述计算机指令被所述处理器执行时,实现根据本申请的为用于图像分类的神经网络提供训练数据集的方法的步骤。

本申请的目的还能够通过一种计算机可读存储介质来实现,该计算机可读存储介质上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现根据本申请的为用于图像分类的神经网络提供训练数据集的方法的步骤。

本申请的目的同样可以通过一种计算机程序产品来实现,该计算机程序产品包括计算机指令,其特征在于,该计算机指令被处理器执行时实现根据本申请的为用于图像分类的神经网络提供训练数据集的方法的步骤。

根据本申请得到的训练数据集可以应用于环境感知系统(例如自动驾驶车辆或路侧设施的环境感知系统)、物体检测/识别系统、语义/实例分割系统的训练,从而提高这些系统在分类过程中的准确性和鲁棒性。

尽管一些实施例已经被说明,但是这些实施例仅仅是以示例的方式予以呈现,而没有旨在限定本申请的范围。所附的权利要求和它们的等价形式旨在覆盖落在本申请范围和精神内的所有改型、替代和改变。

相关技术
  • 基于稀疏编码预训练的卷积神经网络图像分类方法
  • 一种用于分类的神经网络的训练、图像分类方法以及装置
  • 一种自动生成训练数据集的图像分类模型训练方法及系统
技术分类

06120115801912