掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及图像处理技术领域,尤其涉及一种图像分类方法和装置、设备及存储介质。

背景技术

随着深度学习技术的发展,深度学习已经成为图像处理的主流。在相关技术中,对图像进行处理时,通常会采用监督学习方法。在采用监督学习方法进行图像处理时,一种为:采用CNN卷积神经网络提取图像特征进行分类,原始图像输入网络,标签数据作为监督,学习过程是卷积神经网络浅层网络提取图像低级特征,如:边缘、线条、纹理等,并逐层传递,获得图像深层特征,通过有标签结果反向传播更新网络权重,不断学习到最佳分类网络,最终利用有效的特征进行图像分类。还有一种为:采用RNN循环神经网络,适用于序列数据,挖掘序列数据之间的时序关系,从而达到分类的目的。RNN把所处理的数据序列视作时间序列,在每一个时刻t,每个RNN的神经元接受两个输入:当前时刻的输入样本xt,上一时刻自身的输出ht-1。虽然采用监督学习方式对神经网络进行训练后能够实现对图像分类,但是上述方式对样本数据的依赖性较强,需要收集大量的训练样本数据,从而使得图像分类处理过程较为繁琐,耗时较长。

发明内容

有鉴于此,本申请提出了一种图像分类方法,可以有效简化图像分类过程中对样本数据的收集,从而提高图像分类的处理效率。

根据本申请的一方面,提供了一种图像分类方法,包括:

对待处理的原始图像进行预处理,得到相应的输入图像;

采用预训练模型对所述输入图像进行特征提取,得到多个特征数据;

其中,各所述特征数据对应所述输入图像的不同图层;

对提取到的各所述特征数据进行降维处理,得到降维后的特征集;

将所述特征集中不同维度的特征数据串联构成特征变化曲线;

根据所述特征变化曲线,利用训练好的分类网络模型对所述原始图像进行分类处理。

在一种可能的实现方式中,对待处理的所述原始图像进行预处理,包括:将所述原始图像重采样至预设尺寸。

在一种可能的实现方式中,所述预训练模型包括VGG网络模型、resnet网络模型、Inception网络模型和AlexNet网络模型中的任意一种。

在一种可能的实现方式中,对提取到的各所述特征数据进行降维处理时,利用主成分分析法进行降维处理。

在一种可能的实现方式中,利用训练好的网络模型对所述原始图像进行分类处理时,所述分类网络模型基于长短期记忆网络搭建。

在一种可能的实现方式中,还包括对所述分类网络模型进行训练的步骤;

其中,对所述分类网络模型进行训练,包括:

获取带有标签的数据集,并采用数据增强方式对所述数据集进行扩充;

对所述数据集中的各样本数据进行特征提取,获取各所述样本数据不同图层的多个特征;

对各所述特征进行降维处理后,将降维处理的不同维度的特征串联成特征变化曲线;

基于各所述特征变化曲线对所述分类网络模型进行训练。

根据本申请的一方面,还提供了一种图像分类装置,包括图像预处理模块、特征提取模块、特征降维模块、特征合并模块和图像分类模块;

所述图像预处理模块,被配置为对待处理的原始图像进行预处理;

所述特征提取模块,被配置为采用预训练模型对预处理后的原始图像进行特征提取,得到多个特征数据;

其中,各所述特征数据对应所述原始图像的不同图层;

所述特征降维模块,被配置为对提取到的各所述特征数据进行降维处理,得到降维后的特征集;

所述特征合并模块,被配置为将所述特征集中同一维度的特征数据串联构成特征变化曲线;

所述图像分类模块,被配置为根据所述特征变化曲线,利用训练好的分类网络模型对所述原始图像进行分类处理。

在一种可能的实现方式中,还包括被配置为对所述分类网络模型进行训练的图像训练模块。

根据本申请的另一方面,还提供了一种图像分类设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。

根据本申请的一方面,还提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前面任一所述的方法。

本申请实施例的图像分类方法,通过采用预训练模型对输入图像进行特征提取,提取出输入图像的不同图层的多个特征数据,然后再基于提取出来的特征数据进行降维处理后,再将不同维度的特征数据串联形成特征变化曲线,从而在进行图像分类处理时,能够利用降维的方式串联不同层次的特征数据,进而根据不同层次间特征数据的变化关系实现对图像的分类处理,这也就有效提高了图像分类的准确性。同时,在进行特征提取时直接采用预训练模型进行提取,不需要再制作大量样本对进行特征提取的网络模型进行训练,这也就有效降低了对训练样本的依赖,从而简化了图像分类的过程,提高了图像分类的整体效率。

根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。

图1示出本申请一实施例的图像分类方法的流程图;

图2示出本申请一实施例的图像分类方法中进行特征提取和特征降维的过程示意图;

图3示出本申请一实施例的图像分类方法中对降维处理后的特征串联形成的特征变化曲线示意图;

图4示出本申请一实施例的图像分类方法中采用LSTM模型进行图像分类识别时,LSTM模型中具有记忆功能的cell过程示意图;

图5示出本申请一实施例的图像分类方法的另一流程图;

图6示出本申请一实施例的图像分类装置的结构框图;

图7示出本申请一实施例的图像分类设备的结构框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。

图1示出根据本申请一实施例的图像分类方法的流程图。图2示出本申请一实施例的图像分类方法中对特征数据进行降维处理和串联过程的示意图。如图1和图2所示,该方法包括:步骤S100,对待处理的原始图像进行预处理,得到相应的输入图像。此处,需要指出的是,对待处理的原始图像所进行的预处理操作包括裁剪、缩放、重采样等处理中的至少一种。同时,还需要指出的是,对原始图像所进行的预处理的目的是为了使得输入至神经网络的数据(即,输入图像)符合所设定的标准,从而使得神经网络能够顺利读取输入的图像。

步骤S200,采用预训练模型对输入图像进行特征提取,得到多个特征数据。此处,需要说明的是,所提取出来的多个特征数据对应输入图像的不同图层。即,通过预训练模型提取出输入图像中不同图层的多个特征数据。

然后,通过步骤S300,对提取到的各特征数据进行降维处理,得到降维后的特征集。进而再执行步骤S400,将特征集中不同维度的特征数据串联构成特征变化曲线。最后,再通过步骤S500,根据构成的特征变化曲线,利用训练好的分类网络模型对原始图像进行分类处理。

由此,本申请实施例的图像分类方法,通过采用预训练模型对输入图像进行特征提取,提取出输入图像的不同图层的多个特征数据,然后再基于提取出来的特征数据进行降维处理后,再将不同维度的特征数据串联形成特征变化曲线,从而在进行图像分类处理时,能够利用降维的方式串联不同层次的特征数据,进而根据不同层次间特征数据的变化关系实现对图像的分类处理,这也就有效提高了图像分类的准确性。同时,在进行特征提取时直接采用预训练模型进行提取,不需要再制作大量样本对进行特征提取的网络模型进行训练,这也就有效降低了对训练样本的依赖,从而简化了图像分类的过程,提高了图像分类的整体效率。

其中,还需要解释的是,在本申请实施例的图像分类方法中,对输入图像进行特征提取的预训练模型指的是,已经收敛至最优的网络模型,不需要再制作大量样本重新进行训练,直接可以使用的网络模型。

在一种可能的实现方式中,预训练模型可以采用VGG模型,也可以采用resnet网络模型、Inception网络模型和AlexNet网络模型中的任意一种。举例来说,在本申请一实施例的图像分类方法中,预训练模型采用VGG模型对输入图像进行特征提取。采用VGG预训练模型进行输入图像的特征提取,得到每一层的特征数据。其中,VGG网络模型的输入为固定尺寸的图像,经过一系列卷积池化处理,网络越来越深,提取的特征也从浅层的纹理特征到深层的全局信息,不同层的特征记录了图像不同维度的信息。

进一步的,在本申请实施例的图像分类方法中,对原始图像进行预处理时,包括将原始图像重采样至预设尺寸。此处,本领域技术人员可以理解的是,将原始图像重采样为预设尺寸的大小根据实际使用的预训练模型的具体网络模型来进行。

此外,在通过预训练模型将输入图像的不同层的特征数据提取出来之后,即可执行步骤S300,对提取到的各特征数据进行降维处理,得到降维后的特征集。其中,对特征数据进行降维处理,指的是对提取出来的所有特征数据中,每一层次的特征数据进行降维。

在一种可能的实现方式中,对每一层次的特征数据进行降维可以采用主成分分析法(即,PCA)来实现。具体的,PCA降维过程包括:先对每一层次的特征数据进行归一化处理,然后再进行协方差矩阵的计算。在计算得到每一层次的特征数据所对应的协方差矩阵后,再对所得到的协方差矩阵进行奇异值分解,得到相应的分解结果U。然后,再由所得到的分解结果U中提取出k列(Ur),最终得到降维后的特征集Z=X*Ur。此处,本领域技术人员可以理解的是,Ur为所得到的分解结果U中的一个特征元素。

在对每一层次的特征数据降维之后,即可执行步骤S400,将降维处理得到的特征集中不同维度的特征数据串联构成特征变化曲线。此处,需要解释说明的是,不同维度的特征数据对应一条特征变化曲线,每个维度都记录了该特征从浅层到深层的变化。举例来说,参阅图3,为三个不同维度的特征数据串联后形成的三条特征变化曲线。

进而再通过步骤S500,根据得到的特征变化曲线,利用训练好的分类网络模型对原始图像进行分类处理。即,在利用训练好的分类网络模型进行图像的分类处理时,将通过步骤S400得到的特征变化曲线作为输入数据,输入至分类网络模型中。

在一种可能的实现方式中,分类网络模型可以采用长短期记忆网络进行搭建。即,采用长短期记忆网络LSTM构建分类网络模型,该模型同时传入输入图像提取后的多维度特征(如:n维特征),每个维度特征经过多次的LSTM处理后,再将每个维度的结果进行合并,最后再根据合并后的结果进行分类。

其中,在本申请实施例的方法中,LSTM模型由每个具有记忆功能的cell组成,cell中的门限制使得它可以维持较长时间的存储信息,避免梯度消失。每个cell中放置了输入门、遗忘门和输出门,并利用sigmoid激活函数来控制网络中的信息传递,分配当前时刻的信息,再分配给下一刻网络需要的信息。参阅图4,记忆功能的cell过程如图4所示。

首先,由遗忘门来决定信息是否通过单元。根据上一时刻的输出和当前输入利用sigmoid激活函数产生一个0到1的值,来决定是否通过。接下来分两个部分,输入门通过sigmoid激活函数决定输入信息,同时输入门通过激活函数tanh生成候选数值。随后更新前一时刻神经元状态到当前时刻状态。最后输出门决定输出信息,通过sigmoid激活函数得到门限输出,在经过tanh函数得到单元输出。

由此,本申请实施例的图像分类方法,通过采用预训练模型提取图像由浅层至深层的特征数据,同时根据浅层至深层的特征变化进行输入图像的分类,不仅有效提高了图像分类结果的准确度,同时还有效降低了对训练样本的依赖性,不需要制作大量训练样本即可实现图像分类处理。

更进一步的,由于在本申请实施例的图像分类方法中,在得到各维度的特征变化曲线后,是利用训练好的分类网络模型进行图像分类的。因此,在本申请中,参阅图5,还包括有对分类网络模型的训练步骤。

具体的,根据前面所述,在本申请实施例中,分类网络模型可以采用长短期记忆网络(即,LSTM网络)搭建的网络结构。因此,在采用长短期记忆网络搭建好分类网络模型之后,即可对搭建好的分类网络模型进行训练。

在训练过程中,首先通过步骤S001,获取带有标签的数据集,并采用数据增强方式对数据集进行扩充。此处,本领域技术人员可以理解的是,带标签的数据集可以通过从网络公开数据中收集的方式来实现,也可以通过实时采集的方式来获得。然后对获得的样本数据进行标注后,再通过图像旋转、镜像、颜色抖动等方式进行数据扩充。同时,还对各样本数据进行重采样为同一尺寸。即,通过步骤S100’,对样本数据进行预处理。

然后,再执行步骤S200’,对扩充后的数据集中的各样本数据进行特征提取。此处,在进行特征提取时,同样是采用预训练模型进行。通过预训练模型提取出各样本数据不同层次的特征(包括由浅层至深层的每一层次的特征)。

进而再通过步骤S300’,对每一层次的特征进行降维处理后,通过步骤S400’,将降维处理后的同一维度的特征串联成特征变化曲线。其中,对每一层次的特征进行的降维处理可以采用前面所述的PCA方法进行,此处不再进行赘述。

最后,再执行步骤S500’,基于得到的各特征变化曲线对分类网络模型进行训练,使得所搭建的分类网络模型逐渐收敛至最优结构。进而再通过步骤S600,输出最终的分类结果。

相应的,基于前面任一所述的图像分类方法,本申请还提供了一种图像分类装置。由于本申请实施例的图像分类装置的工作原理与本申请实施例提供的图像分类方法相同或相似,因此重复之处不再赘述。

参阅图6,本申请实施例的图像分类装置100,包括图像预处理模块110、特征提取模块120、特征降维模块130、特征合并模块140和图像分类模块150。其中,图像预处理模块110,被配置为对待处理的原始图像进行预处理。特征提取模块120,被配置为采用预训练模型对预处理后的原始图像进行特征提取,得到多个特征数据。其中,各特征数据对应原始图像的不同图层。特征降维模块130,被配置为对提取到的各特征数据进行降维处理,得到降维后的特征集。特征合并模块140,被配置为将特征集中同一维度的特征数据串联构成特征变化曲线。图像分类模块150,被配置为根据特征变化曲线,利用训练好的分类网络模型对原始图像进行分类处理。

在一种可能的实现方式中,还包括被配置为对分类网络模型进行训练的图像训练模块(图中未示出)。

更进一步地,根据本申请的另一方面,还提供了一种图像分类设备200。参阅图7,本申请实施例的图像分类设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中,处理器210被配置为执行可执行指令时实现前面任一所述的图像分类方法。

此处,应当指出的是,处理器210的个数可以为一个或多个。同时,在本申请实施例的图像分类设备200中,还可以包括输入装置230和输出装置240。其中,处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。

存储器220作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本申请实施例的图像分类方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块,从而执行图像分类设备200的各种功能应用及数据处理。

输入装置230可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。

根据本申请的另一方面,还提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器210执行时实现前面任一所述的图像分类方法。

以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

相关技术
  • 图像分类预处理、图像分类方法、装置、设备及存储介质
  • 医学图像分类方法、装置、设备、计算机设备和存储介质
技术分类

06120112178904