掌桥专利:专业的专利平台
掌桥专利
首页

图像识别处理方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 16:06:26



技术领域

本发明实施例涉及图像识别技术领域,尤其涉及一种图像识别处理方法、装置、电子设备及存储介质。

背景技术

在对动物的保护工作中,将相机部署到保护动物容易出没的地方,如果相机的画面出现变动,则会记录相关的影像数据;在相机捕捉到的动物图像中,目标动物图像的比例可能并不高,这导致标记100个目标动物图像,可能需要浏览上万张图像,才能使其达到比较好的效果。

因此,如何减少图像标记并准确、自动以及高校的识别目标动物图像是本领域技术人员亟待解决的技术问题。

发明内容

本发明实施例提供一种图像识别处理方法、装置、电子设备及存储介质,减少识别系统对训练样本标注的依赖,提高图像识别效率。

第一方面,本发明实施例提供了一种图像识别处理方法,包括:

获取待识别图像并将所述待识别图像进行预处理;

将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类;

依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。

第二方面,本发明实施例还提供了一种图像识别处理装置,包括:

图像获取模块,用于获取待识别图像并将所述待识别图像进行预处理;

图像分类模块,用于将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类;

图像识别模块,用于依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。

第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的图像识别处理方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的图像识别处理方法。

本发明实施例提供了一种图像识别处理方法、装置、电子设备和存储介质,通过获取待识别图像并将所述待识别图像进行预处理;将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类;依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。采用本发明实施例的技术方案,引入无监督预训练流程,使用对比学习的技术减少对标注的依赖,增强对样本的表示能力,使其在更少样本的前提下可以对图像进行有效识别。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1A是本发明实施例一提供的一种图像识别处理方法的流程图;

图1B是本发明实施例提供的一种无监督预训练图像分类示意图;

图2A为本发明实施例二提供的一种图像识别处理方法的流程图;

图2B是本发明实施例提供的一种无监督预训练去噪过程抽象示意图;

图3是本发明实施例三提供的一种图像识别处理装置的结构示意图;

图4是本申请实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作(或步骤)可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

川金丝猴是一种珍稀濒危且中国特有的灵长类物种,生存在陕西秦岭、四川西部、甘肃南部和湖北神农架等山系之中。目前,它被列为国家一级保护动物,川金丝猴和大熊猫并称“双宝”是四川野生动植物保护的代表性物种和旗舰种、伞护种,开展川金丝猴保护文化研究工作意义重大。在川金丝猴的保护工作中,川金丝猴组群的密度分析以及生活习性等都提供了重要的基础信息。如何自动化的通过业务摄像机等设备准确、自动以及高校的识别川金丝猴成为了关键问题。

现有技术中通过监督学习的方式,通过计算机视觉的技术,通过人为标注的方式,从海量的相机样本中标注川金丝猴的样本。比较经典的算法,例如ResNet以及DenseNet,他们都需要大量的数据才能使得算法达到比较好的效果。一般过程为:将相机部署到川金丝猴容易出没的地方,如果相机的画面出现变动,则会记录相关的影像数据;通过采集到的人为数据,使用人工标注的方式,标注其中川金丝猴出现的图片;使用标记好的图像数据训练一个ResNet(或者同类型的网络),使用该网络对川金丝猴进行自动化的识别。通过监督学习的方式进行标注,人工标记成本非常高,主要原因为:相机捕捉到的动物中,川金丝猴的比例可能并不高,这导致标记100个川金丝猴的影像,可以需要浏览上万张图片;监督学习的机制决定了,必须提供海量的样本,才能使其达到比较好的效果。通过监督学习的方式对图像进行识别,使用的图像较多且需要人工标注大量的图像。因此本发明实施例提供了一种图像识别处理方法。

实施例一

图1A是本发明实施例一提供的一种图像识别处理方法的流程图,本实施例可适用于对图像进行识别处理的情况,本实施例的方法可以由图像识别处理装置来执行,该装置可以采用硬件和/或软件的方式来实现。该装置可以配置于图像识别处理的服务器中。该方法具体包括如下步骤:

S110、获取待识别图像并将所述待识别图像进行预处理。

其中,所述待识别图像可以是指由终端设备实时拍摄或者从终端设备的相册中选取的待识别图像;所述待识别图像包括但不限于目标图像,例如在本发明实施例的一种可选方案中,所述待识别图像包括但不限于川金丝猴图像以及其他动物图像。

可选的,所述获取待识别图像并将所述待识别图像进行预处理,包括:

获取通过终端设备实时拍摄或者从终端设备的相册中选取的待识别图像;

对所述待识别图像进行预处理;所述预处理包括图像尺寸与格式调整、去噪、消光以及消除背景影响。

可选的,通过多种渠道获取待识别图像,包括但不限于使用手机、平板电脑或相机等移动智能终端设备实时拍摄、网络下载以及公开征集等,保证了图片来源的丰富性。

可选的,将所述待识别图像进行预处理,所述预处理包括大不限于图像尺寸与格式调整、去噪、消光以及消除背景影响。将所述待识别图像进行预处理,将所述待识别图像的尺寸与格式进行调整为符合进行无监督预训练的训练图像;经过去噪处理,去除图像噪声使图像所包含的特征信息更加准确。

S120、将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类。

其中,所述无监督预训练可以是指通过图像增强的形式,自动创建了一个分类任务,该分类任务的目标是使得图像与其副本分为一类,与其他图像分为另一类。图1B是本发明实施例提供的一种无监督预训练图像分类示意图,参见图1B,左侧的图片代表原图的副本,上方代表图像的原图。1、0分别代表训练目标,1为预测为同类,0为非同类。例如,图1B中上方图像的“熊猫”与其“熊猫”副本为同类,则预测值为1;图1B中上方图像的“熊猫”与“犀牛”副本为非同类,则预测值为0。其中,所述图像副本可以是指与待识别图像像素值不同但与待识别图像语义相同的待识别图像副本;所述语义相同是指与所述待识别图像除像素值以外的其他图像内容完全相同。

特征表示可以是指待识别图像的特征,例如待识别图像的像素点、图像内容以及图像类别。将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类。

S130、依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。

其中,所述监督训练可以是指从给定的训练数据集中学习出一个函数(例如,模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。例如,通过已经过无监督预训练获取的待识别图像的特征表示对所述待识别图像进行监督训练得到监督训练模型,利用此监督训练模型将输入的待识别图像进行识别处理,将所述待识别图像进行分类识别,确定目标图像。

本发明实施例提供了一种图像识别处理方法,通过获取待识别图像并将所述待识别图像进行预处理;将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类;依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。采用本发明实施例的技术方案,引入无监督预训练流程,使用对比学习的技术减少对标注的依赖,增强对样本的表示能力;采用监督训练将所述待识别图像进行识别处理,使其在更少的标注样本的前提下可以对图像进行有效识别。

实施例二

图2A为本发明实施例二提供的一种图像识别处理方法的流程图。本发明实施例在上述实施例的基础上对前述实施例进行进一步优化,本发明实施例可以与上述一个或者多个实施例中各个可选方案结合。如图2A所示,本发明实施例中提供的图像识别处理方法,可包括以下步骤:

S210、获取待识别图像并将所述待识别图像进行预处理。

S220、将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类。

可选的,所述将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类,包括:

将所述待识别图像进行无监督预训练,获取与第一待识别图像像素不同但图像内容相同的第一待识别图像副本;

获取所述第一待识别图像、第一待识别图像副本以及第二待识别图像的特征表示;其中,所述待识别图像包括第一待识别图像、第一待识别图像副本以及第二待识别图像;

依据待识别图像特征表示将所述第一待识别图像、第一待识别图像副本以及第二待识别图像进行分类。

其中,在本发明实施例的一种可选方案中,存在一个终端设备获取的数据集X={x

z

z

其中,Augment代表图像增强方法,将所述待识别图像通过包括但不限于裁剪以及翻转等方式产生了一个像素不同但是语义相同的待识别图像副本。z

可选的,所述将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类,还包括:

依据损失函数确定所述无监督预训练模型的鲁棒性;其中,损失函数如下:

其中,z

参见图1B,以图1B表示相关的优化目标,待识别图像之间两两的相似度要满足图1B中对角线为1的矩阵。这种无监督预训练方式可以理解为通过图像增强的形式,自动创建了一个分类任务,该分类任务的目标是使得图像与其副本分为一类,与其他图像分为另一类。参见图1B,左侧的图片代表原图的副本,上方代表图像的原图。1、0分别代表他们的训练目标,1为预测为同类,0为非同类。

在本发明实施例的一种可选方案中,可选的,所述将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类,还包括:

将分类后的待识别图像进行无监督预训练,并重新确定所述待识别图像的特征表示;其中,所述分类后的待识别图像包括以第一待识别图像与第一待识别图像副本为一类的待识别图像以及以第二待识别图像为另一类的待识别图像;

通过聚类算法以及所述待识别图像的特征表示重新确定所述待识别图像的类别。

其中,无监督预训练通常需要面临比较强的噪声,因为本质上该算法将图像与其对应的增强副本算为一类,将任意其他的图像视为非同类,显然这种方法并不总是正确的(例如,同一个训练批次(batch)中出现两个同类的图像)。因此,本发明实施例提出了一种去噪算法,挖掘出样本之间的关系,从而增强训练效果。

该去噪算法的核心点是,在每个训练批次开始之前,计算训练集中每个样本的特征表示,并通过一个离线的聚类算法,将训练数据集划分为若干的部分,在无监督预训练的过程中,相同类别的两个样本被认为是相同的类别。

图2B是本发明实施例提供的一种无监督预训练去噪过程抽象示意图,参见图2B,将无监督预训练去噪过程可以被抽象为图2B,相同圈中的样本被划分为同类。参见图2B将待识别图像的特征表示抽象为二维。从图中可以看出待识别图像的特征表示比较进的一些待识别图像会被划分为相同的表示。结合该过程,无监督训练的伪代码包括A1-A3:

A1:通过已经划分好类别的数据集,训练无监督模型。其中,所述已经划分好类别的数据集包括第一待识别图像、第一待识别图像副本以及第二待识别图像;其中,第一待识别图像与第一待识别图像副本为一类,第二待识别图像为另一类;

A2:当该epoch结束之后,重新计算训练中每个待识别图像的特征表示。其中,一个epoch就是使用训练集中的全部样本训练一次。Epoch的值就是整个训练数据集被反复使用几次;

A3:通过Kmeans算法和待识别图像的特征表示,得到每个待识别图像的类别。

同时,将对比学习的损失修改为:

其中,M代表在当前训练批次中与z

S230、依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。

可选的,所述依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像,包括:

依据所述待识别图像的特征表示对所述待识别图像进行监督训练,确定所述待识别图像的类别得分;

依据所述待识别图像的类别得分以及所述待识别图像的标注值对所述待识别图像进行识别,确定目标图像;其中,所述待识别图像包括目标图像。

其中,通过上述无监督预训练任务,得到了一个深度残差网络(Deep residualnetwork,ResNet)。这个网络通过无监督预训练的方式已经学习了比较多的语义信息,因此只需要标注少数的样本即可以获得更好的效果。

监督训练的过程可以表示为:

z

logits

Loss

其中MLP是用于分类的全链接层,建立了Resnet输出的特征表示和最终类别的链接;CE代表交叉熵,是最后的训练Loss;y

本发明实施例提供了一种图像识别处理方法,通过获取待识别图像并将所述待识别图像进行预处理;获取待识别图像并将所述待识别图像进行预处理;依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。采用本发明实施例的技术方案,通过无监督预训练去噪过程扩展了图像对应的正例,通过无监督预训练的方式学习了较多的语义信息,只需要标注少数的样本即可以获得更好的效果;采用监督训练将所述待识别图像进行识别处理,确定目标图像。引入无监督预训练流程,使用对比学习的技术减少对标注的依赖,增强对样本的表示能力,使其在更少样本的前提下可以对图像进行有效识别,提高了图像识别效率。

实施例三

图3是本发明实施例三提供的一种图像识别处理装置的结构示意图,该装置包括:图像获取模块310、图像分类模块320和图像识别模块330。其中:

图像获取模块310,用于获取待识别图像并将所述待识别图像进行预处理;

图像分类模块320,用于将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类;

图像识别模块330,用于依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。

在上述实施例的基础上,可选的,所述图像获取模块,包括:

获取通过终端设备实时拍摄或者从终端设备的相册中选取的待识别图像;

对所述待识别图像进行预处理;所述预处理包括图像尺寸与格式调整、去噪、消光以及消除背景影响。

在上述实施例的基础上,可选的,所述图像分类模块,包括:

将所述待识别图像进行无监督预训练,获取与第一待识别图像像素不同但图像内容相同的第一待识别图像副本;

获取所述第一待识别图像、第一待识别图像副本以及第二待识别图像的特征表示;其中,所述待识别图像包括第一待识别图像、第一待识别图像副本以及第二待识别图像;

依据待识别图像特征表示将所述第一待识别图像、第一待识别图像副本以及第二待识别图像进行分类。

在上述实施例的基础上,可选的,所述图像分类模块,还包括:

依据损失函数确定所述无监督预训练模型的鲁棒性;其中,损失函数如下:

其中,Z

在上述实施例的基础上,可选的,所述图像分类模块,还包括:

将分类后的待识别图像进行无监督预训练,并重新确定所述待识别图像的特征表示;其中,所述分类后的待识别图像包括以第一待识别图像与第一待识别图像副本为一类的待识别图像以及以第二待识别图像为另一类的待识别图像;

通过聚类算法以及所述待识别图像的特征表示重新确定所述待识别图像的类别。

在上述实施例的基础上,可选的,所述图像识别模块,包括:

依据所述待识别图像的特征表示对所述待识别图像进行监督训练,确定所述待识别图像的类别得分;

依据所述待识别图像的类别得分以及所述待识别图像的标注值对所述待识别图像进行识别,确定目标图像;其中,所述待识别图像包括目标图像。

上述装置可执行本发明任意实施例所提供的图像识别处理方法,具备执行该图像识别处理方法相应的功能模块和有益效果。

实施例四

图4是本申请实施例四提供的一种电子设备的结构示意图。本申请实施例提供了一种电子设备,该电子设备中可集成本申请实施例提供的图像识别处理的互动装置。如图4所示,本实施例提供了一种电子设备400,其包括:一个或多个处理器420;存储装置410,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器420执行,使得所述一个或多个处理器420实现本申请实施例所提供的图像识别处理方法,该方法包括:

获取待识别图像并将所述待识别图像进行预处理;

将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类;

依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。

当然,本领域技术人员可以理解,处理器420还实现本申请任意实施例所提供的图像识别处理方法的技术方案。

图4显示的电子设备400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示,该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440;电子设备中处理器420的数量可以是一个或多个,图4中以一个处理器420为例;电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线450连接为例。

存储装置410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的图像识别处理方法对应的程序指令。

存储装置410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等电子设备。

本申请实施例提供的电子设备,可以达到有效解决图像识别处理难题,减少识别系统对训练样本标注的依赖,提高图像识别效率的技术效果。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种图像识别处理方法,该方法包括:

获取待识别图像并将所述待识别图像进行预处理;

将所述待识别图像进行无监督预训练确定所述待识别图像的特征表示,并将所述待识别图像进行分类;

依据所述待识别图像的特征表示对所述待识别图像进行监督训练,识别确定目标图像。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

技术分类

06120114705841