掌桥专利:专业的专利平台
掌桥专利
首页

图像处理方法、模型、计算机设备及存储介质

文献发布时间:2023-06-19 18:58:26


图像处理方法、模型、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域,特别是涉及一种图像处理方法、图像处理模型、计算机设备及计算机可读存储介质。

背景技术

随着计算机技术的发展和计算机视觉原理的广泛应用,图像处理技术也随着发展,图像处理技术例如在目标检测、目标识别、图像分类、图像编辑等在智能安防领域等方面有着重要的应用价值。

以图像分类为例,图像分类的准确度能直接影响到后续其他视觉处理的下游任务的性能。现有技术中图像处理模型是通过提取图像的特征进行分类,由于图像的拍摄场景的复杂性、图像的质量等影响,图像处理模型对图像的特征提取能力不高,导致分类不准确。

发明内容

本申请主要解决的技术问题是提供一种图像处理方法、模型、计算机设备及存储介质,能够提取到图像更加丰富的特征信息,从而提高预测结果的准确度。

为了解决上述问题,本申请第一方面提供了一种图像处理方法,该方法包括:获取目标图像的第一图像特征;利用图像处理模型的多感受野卷积模块对第一图像特征进行处理,得到第二图像特征,其中,多感受野卷积模块包括不同空洞率的多个空洞卷积核,空洞卷积核用于对输入特征进行空洞卷积以得到感受野与空洞率对应的空洞卷积特征,第二图像特征是对多个空洞卷积核输出的空洞卷积特征进行融合得到的;利用图像处理模型的预测模块对第二图像特征进行预测,得到目标图像的预测结果。

为了解决上述问题,本申请第二方面提供了一种图像处理模型,该图像处理模块包括特征提取模块、多感受野卷积模块和预测模块,其中,特征提取模块用于获取目标图像的第一图像特征;多感受野卷积模块用于对第一图像特征进行处理,得到第二图像特征,其中,多感受野卷积模块包括不同空洞率的多个空洞卷积核,空洞卷积核用于对输入特征进行空洞卷积以得到感受野与空洞率对应的空洞卷积特征,第二图像特征是对多个空洞卷积核输出的空洞卷积特征进行融合得到的;预测模块用于对第二图像特征进行预测,得到目标图像的预测结果。

为了解决上述问题,本申请第三方面提供了一种计算机设备,该计算机设备包括相互耦接的存储器和处理器,存储器中存储有程序数据,处理器用于执行程序数据以实现上述图像处理方法的任一步骤。

为了解决上述问题,本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有能够被处理器运行的程序数据,程序数据用于实现上述图像处理方法的任一步骤。

上述方案,通过获取目标图像的第一图像特征;利用图像处理模型的多感受野卷积模块对第一图像特征进行处理,得到第二图像特征,由于多感受野卷积模块包括不同空洞率的多个空洞卷积核,空洞卷积核用于对输入特征进行空洞卷积以得到感受野与空洞率对应的空洞卷积特征,可以提取到不同尺度感受野的特征信息,且第二图像特征是对多个空洞卷积核输出的空洞卷积特征进行融合得到的,可以融合目标图像的多尺度感受野的特性信息,能够提取到图像更加丰富的特征信息,从而利用图像处理模型的预测模块对第二图像特征进行预测,得到目标图像的预测结果,可以提高预测结果的准确度。

附图说明

为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要的附图作简单的介绍,显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:

图1是本申请图像处理模型一实施例的结构示意图;

图2是本申请图像处理方法一实施例的流程示意图;

图3是本申请特征提取模块一实施例的结构示意图;

图4是本申请图1中步骤S12一实施例的流程示意图;

图5是本申请图4中步骤S21一实施例的流程示意图;

图6是本申请感受野卷积网络一实施例的结构示意图;

图7是本申请图1中步骤S12另一实施例的流程示意图;

图8是本申请多感受野卷积模块一实施例的结构示意图;

图9是本申请图1中步骤S12再一实施例的流程示意图;

图10是本申请多感受野卷积模块另一实施例的结构示意图;

图11是本申请图像处理模型一实施例的网络结构示意图;

图12是本申请计算机设备一实施例的结构示意图;

图13是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本申请提供以下实施例,下面对各实施例进行具体说明。

请参阅图1,图1是本申请图像处理模型一实施例的结构示意图。

图像处理模型100可以包括特征提取模块101、多感受野卷积模块102和预测模块103,其中,特征提取模块101、多感受野卷积模块102和预测模块103依序连接。

特征提取模块101用于获取目标图像的第一图像特征。

可以将第一图像特征输入多感受野卷积模块102,多感受野卷积模块102用于对第一图像特征进行处理,得到第二图像特征,其中,多感受野卷积模块包括不同空洞率的多个空洞卷积核,空洞卷积核用于对输入特征进行空洞卷积以得到感受野与空洞率对应的空洞卷积特征,第二图像特征是对多个空洞卷积核输出的空洞卷积特征进行融合得到的。

可以将第二图像特征输入预测模块103,预测模块103用于对第二图像特征进行预测,得到目标图像的预测结果。

本申请该图像处理模型对目标图像的具体处理过程可以参考下述实施例的实施过程。

请参阅图2,图2是本申请图像处理方法一实施例的流程示意图。该方法可以包括以下步骤:

S11:获取目标图像的第一图像特征。

在一些实施方式中,可以利用图像处理模型执行本实施例的图像处理方法,图像处理模型可以为图像分类模型,以对图像进行分类。

在一些实施方式中,可以利用图像处理模型的特征提取模块对目标图像进行特征提取,得到第一图像特征。例如特征提取模块可以利用卷积核对目标图像进行卷积处理,得到第一图像特征。例如特征提取模型可以利用特征提取算法对目标图像进行特征提取,得到第一图像特征。例如LBP算法(Local Binary Patterns,局部二值模式)、SIFT算子(Scale-invariant feature transform,尺度不变特征变换)、HOG特征提取算法(Histogram of Oriented Gradient,方向梯度直方图)等。

在一些实施方式中,特征提取模块包括依序连接的多个卷积层,其中,多个卷积层中至少一个卷积层的卷积核的步长为大于1的整数,利用多个卷积层对目标图像依次进行卷积处理,可以提取到目标图像较为完整的第一图像特征。

在一些实施方式中,多个卷积层中存在一个卷积层的卷积核的步长为大于1的整数,例如首个卷积层的卷积核的步长为大于1的整数,如步长为2,可以实现对目标图像进行下采样处理。

请参阅图3,以特征提取模块包括依序连接的三个卷积层为例,可以分别记为第一个卷积层、第二个卷积层和第三个卷积层。每一个卷积层都包含有卷积核。其中,在第一个卷积层(Conv 3×3,s=2)中,卷积核的尺寸大小可以设置为3×3,其卷积核的步长s的大小可以为2,通过该第一卷积层,可以实现对目标图像的下采样任务。第二个卷积层(Conv 3×3,s=1)和第三个卷积层(Conv 3×3,s=1)包含的卷积核的尺寸大小可以均设置为3×3,卷积核步长可以设置为1。可以将目标图像输入第一个卷积层,将第一个卷积层的输出作为第二个卷积层的输入,并将第二个卷积层的输出作为第三个卷积层的输入,将第三个卷积层的输出作为第一图像特征。

S12:利用图像处理模型的多感受野卷积模块对第一图像特征进行处理,得到第二图像特征,其中,多感受野卷积模块包括不同空洞率的多个空洞卷积核,空洞卷积核用于对输入特征进行空洞卷积以得到感受野与空洞率对应的空洞卷积特征,第二图像特征是对多个空洞卷积核输出的空洞卷积特征进行融合得到的。

图像处理模型的多感受野卷积模块包括不同空洞率的多个空洞卷积核,空洞卷积核用于对输入特征进行空洞卷积以得到感受野与空洞率对应的空洞卷积特征,其中,空洞卷积的作用是可以使输出变得更稠密,并且在不增加计算量的情况下,扩大了卷积核视野(卷积核尺寸变大)。

其中,输入特征可以为第一图像特征,利用多感受野卷积模块包括的不同空洞率的多个空洞卷积核,对输入特征进行空洞卷积以得到感受野与空洞率对应的空洞卷积特征之后,可以基于多个空洞卷积核输出的空洞卷积特征进行融合得到第二图像特征。

在一些实施方式中,图像处理模型的可以包括多个多感受野卷积模块,利用多个多感受野卷积模块依次对第一图像特征进行处理,得到第二图像特征。

S13:利用图像处理模型的预测模块对第二图像特征进行预测,得到目标图像的预测结果。

利用图像处理模型的预测模块对第二图像特征进行预测,其中,预测模块包括全局平均池化层和全连接层,其中,全局平均池化层和全连接层按序连接,全局平均池化层的输入特征为第二图像特征,将全局平均池化层的输出特征作为全连接层的输入特征,全连接层的输出特征作为目标图像的预测结果。

在一些实施方式中,图像处理模型为图像分类模型,目标图像的预测结果为分类结果,例如可以在目标检测、目标识别、目标追踪、图像去重等过程中,对图像进行分类。

本实施例中,通过获取目标图像的第一图像特征;利用图像处理模型的多感受野卷积模块对第一图像特征进行处理,得到第二图像特征,由于多感受野卷积模块包括不同空洞率的多个空洞卷积核,空洞卷积核用于对输入特征进行空洞卷积以得到感受野与空洞率对应的空洞卷积特征,可以提取到不同尺度感受野的特征信息,且第二图像特征是对多个空洞卷积核输出的空洞卷积特征进行融合得到的,可以融合目标图像的多尺度感受野的特性信息,能够提取到图像更加丰富的特征信息,从而利用图像处理模型的预测模块对第二图像特征进行预测,得到目标图像的预测结果,可以提高预测结果的准确度。

在一些实施例中,请参阅图4,可以对上述实施例的步骤S12进一步扩展。利用图像处理模型的多感受野卷积模块对第一图像特征进行处理,得到第二图像特征,本实施例可以包括以下步骤:

S21:对于每个感受野卷积网络,利用感受野卷积网络对网络输入特征进行空洞卷积,得到感受野卷积网络中各空洞卷积核对应的空洞卷积特征,并将各空洞卷积核对应的空洞卷积特征进行融合得到第一融合特征,基于第一融合特征得到网络输出特征;其中,首个感受野卷积网络的网络输入特征为第一图像特征,最后一个感受野卷积网络的网络输出特征直接或经处理后作为第二图像特征。

在一些实施方式中,多感受野卷积模块包括依序连接的至少一个感受野卷积网络,每个感受野卷积网络包括并行连接的多个空洞卷积核。对于每个感受野卷积网络,利用感受野卷积网络对网络输入特征进行空洞卷积,得到感受野卷积网络中各空洞卷积核对应的空洞卷积特征,并将各空洞卷积核对应的空洞卷积特征进行融合得到第一融合特征,基于第一融合特征得到网络输出特征。

其中,首个感受野卷积网络的网络输入特征为第一图像特征,将首个感受野卷积网络的网络输出特征作为第二个感受野卷积网络的网络输入特征,可以将最后一个感受野卷积网络的网络输出特征直接或经处理后作为第二图像特征。

在一些实施方式中,感受野卷积网络为多个,各感受野卷积网络中包含的空洞卷积核的个数不同,可以提取目标图像的多个不同尺度的特征信息。

在一些实施方式中,各感受野卷积网络中包含的空洞卷积核的个数的高低顺序,与各感受野卷积网络的连接顺序相同。也即可以按照连接顺序,感受野卷积网络包含的空洞卷积核的数量依次减少,其中,且空洞卷积核的空洞率依次减少,通过该方式,随着网络的加深,提取到的网络输出特征包含了足够大的感受野,且提取到了目标图像丰富的特信息,通过减少空洞卷积核的数量,可以尽量减少网络增加的参数量。

在一些实施方式中,多个感受野卷积网络可以包括为结构相同的网络,例如多个感受野卷积网络为第一感受野卷积网络,可以将最后一个第一感受野卷积网络的网络输出特征直接或经处理后作为第二图像特征。例如多个感受野卷积网络为第二感受野卷积网络,可以将最后一个第二感受野卷积网络的网络输出特征经处理后作为第二图像特征。

在一些实施方式中,其中一个感受野卷积网络为第一感受野卷积网络,除第一感受野卷积网络的至少一个感受野卷积网络为第二感受野卷积网络。例如多感受野卷积模块包括一个第一感受野卷积模块和多个第二感受野卷积模块,其中,第一感受野卷积模块的网络输出特征作为首个第二感受野卷积模块的网络输入特征,最后一个第二感受野卷积网络的网络输出特征直接或经处理后作为第二图像特征。

在一些实施例中,请参阅图5,可以对上述实施例的步骤S21进一步扩展。利用感受野卷积网络对网络输入特征进行空洞卷积,得到感受野卷积网络中各空洞卷积核对应的空洞卷积特征,并将各空洞卷积核对应的空洞卷积特征进行融合得到第一融合特征,基于第一融合特征得到网络输出特征,本实施例可以包括以下步骤:

S211:利用降维卷积层对网络输入特征进行降维处理,得到降维输入特征。

其中,请参阅图6,感受野卷积网络包括依序连接的降维卷积层(Conv 1×1,s=1)、空洞卷积层(ConvHD,s=2或s=1)和第一升维卷积层(Conv 1×1,s=1),感受野卷积网络的空洞卷积层由感受野卷积网络中的并行连接的多个空洞卷积核组成。

在一些实施方式中,感受野卷积网络为第一感受野卷积网络时,空洞卷积层(ConvHD,s=2)的步长为2,感受野卷积网络为第二感受野卷积网络时,空洞卷积层(ConvHD,s=1)的步长为1。

在一些实施方式中,感受野卷积网络的降维卷积层(Conv 1×1,s=1)包含尺寸为1×1的卷积核,其步长为1,用于对网络输入特征进行降维处理,得到降维输入特征。

在一些实施方式中,首个感受野卷积网络的网络输入特征为第一图像特征。

S212:利用空洞卷积层中的各空洞卷积核分别对降维输入特征进行空洞卷积,得到各空洞卷积核对应的空洞卷积特征,并将各空洞卷积核对应的空洞卷积特征进行融合得到第一融合特征。

其中,感受野卷积网络的空洞卷积层由感受野卷积网络中的并行连接的多个空洞卷积核组成,多个空洞卷积核的空洞率不同。例如空洞卷积层(ConvHD,s=1)由4个尺寸为3×3的空洞卷积核{(Conv 3×3,s=1,d=1)、(Conv 3×3,s=1,d=2)、(Conv 3×3,s=1,d=3)、(Conv 3×3,s=1,d=4)}组成,空洞率分别为1、2、3、4。

利用空洞卷积层中的各空洞卷积核分别对降维输入特征进行空洞卷积,得到各空洞卷积核对应的空洞卷积特征,由于各空洞卷积核的空洞率不同,通过并列的多个空洞卷积核对降维输入特征进行空洞卷积,可以提取到不同尺度的感受野,其中,空洞率越大的空洞卷积核提取到的空洞卷积特征的感受野越大。

之后,将各空洞卷积核对应的空洞卷积特征进行融合得到第一融合特征。具体地,将各空洞卷积核对应的空洞卷积特征进行加权处理,得到第一融合特征。例如可以对不同空洞率空洞卷积核对应的空洞卷积特征设置不同的权重,或者,各空洞卷积核对应的空洞卷积特征的权重相同,通过权重累加的方式组合在一起,得到第一融合特征。

本步骤中,为了降低模型的参数量和浮点计算量,在该四个并行的空洞卷积核中,均分别采用不同组数大小的组卷积。在感受野卷积网络中,各空洞卷积核的输入均为降维输入特征,当此4个并行的3×3空洞卷积核执行空洞卷积操作时,均能够获得完成的特征信息,不会导致信息的流失。并且4个并行的3×3空洞卷积核输出的特征信息(空洞卷积特征)通过权重累加的方式组合在一起,并作为第一升维卷积层的输入。这样的组合方式,能够保证了原细粒度特征信息不会流失,同时,使得输出的第一融合特征同时包含有不同感受野大小的信息,最终实现了模型的多尺度特征提取能力。

S213:利用第一升维卷积层对第一融合特征进行升维处理,得到网络输出特征。

感受野卷积网络的第一升维卷积层(Conv 1×1,s=1)包含尺寸为1×1的卷积核,其步长为1,用于对第一融合特征进行升维处理,得到网络输出特征。

基于上述的网络输出特征,可以得到第二图像特征。

本实施例中,空洞卷积层(ConvHD,s=2)使用了步长为2的空洞卷积核进行空洞卷积操作,兼顾了网络模型的下采样功能,同时,避免了使用降维卷积层(Conv 1×1,s=1)进行下采样过程(降维处理)中还需要降维操作导致特征信息流失较为严重的问题。

在一些实施例中,请参阅图7,可以对上述实施例的步骤S12进一步扩展。多感受野卷积模块的其中一个感受野卷积网络为第一感受野卷积网络。利用图像处理模型的多感受野卷积模块对第一图像特征进行处理,得到第二图像特征,本实施例可以包括以下步骤:

S31:利用降维卷积层对网络输入特征进行降维处理,得到降维输入特征。

在一些实施方式中,其中一个感受野卷积网络为第一感受野卷积网络,除第一感受野卷积网络的至少一个感受野卷积网络为第二感受野卷积网络。第一感受野卷积网络的网络输入特征为第一图像特征。

S32:利用空洞卷积层中的各空洞卷积核分别对降维输入特征进行空洞卷积,得到各空洞卷积核对应的空洞卷积特征,并将各空洞卷积核对应的空洞卷积特征进行融合得到第一融合特征。

S33:利用第一升维卷积层对第一融合特征进行升维处理,得到网络输出特征。

第一感受野卷积网络包括依序连接的降维卷积层(Conv 1×1,s=1)、空洞卷积层(ConvHD,s=2或s=1)和第一升维卷积层(Conv 1×1,s=1),感受野卷积网络的空洞卷积层由感受野卷积网络中的并行连接的多个空洞卷积核{例如(Conv 3×3,s=1,d=1)、(Conv 3×3,s=1,d=2)、(Conv 3×3,s=1,d=3)、(Conv 3×3,s=1,d=4)}组成,空洞率分别为1、2、3、4。

在一些实施方式中,第一感受野卷积网络为首个感受野卷积网络;

第一感受野网络可以用于执行上述步骤S31至步骤S33,步骤S31至步骤S33的具体实施过程可以参考上述步骤S211至步骤S213的具体实施过程,本申请在此不做赘述。

此外,本实施例还可以包括以下步骤:

S34:利用下采样模块对第一感受野卷积网络的网络输入特征进行下采样处理,得到目标下采样特征。

在一些实施方式中,其中一个感受野卷积网络为第一感受野卷积网络,第一感受野卷积网络为首个感受野卷积网络。除第一感受野卷积网络的至少一个感受野卷积网络为第二感受野卷积网络。第一感受野卷积网络的网络输入特征为第一图像特征。

请参阅图8,多感受野卷积模块还包括下采样模块,下采样模块与第一感受野卷积网络并行连接,第一感受野卷积网络中包含的空洞卷积核的步长与下采样模块的下采样倍数相同。

在一些实施方式中,下采样模块包括依序连接的平均池化层(AvgPooling 3×3,s=2)和第二升维卷积层(Conv 1×1,s=1)。

其中,平均池化层使用的卷积核尺寸大小为3×3,并设置其步长为2,步长为2可以表征下采样模块的下采样的倍数为2。通过这种设计,可以完成对第一图像特征的下采样任务。

第一感受野卷积网络中包含的空洞卷积核(ConvHD,s=2)的步长与平均池化层(AvgPooling 3×3,s=2)的步长相同。平均池化层的步长可以根据所需的下采样倍数进行设置,本申请对此不做限制。

利用下采样模块对第一图像特征进行下采样处理,得到目标下采样特征。具体地,该下采样模块的连接顺序为:平均池化层的输入为特征提取模块的输出,也即第一图像特征,平均池化层的输出为第二升维卷积层的输入。可以利用平均池化层(AvgPooling 3×3,s=2)对第一感受野卷积网络的网络输入特征(第一图像特征)进行平均池化操作,得到初始下采样特征,初始下采样特征的维度小于第一感受野卷积网络的网络输入特征的维度。第二升维卷积层(Conv 1×1,s=1)为步长为1,且尺寸为1×1卷积核,利用第二升维卷积层(Conv 1×1,s=1)对初始下采样特征进行升维处理,得到目标下采样特征。

S35:将目标采样特征与第一感受野卷积网络的网络输出特征进行融合,得到第二融合特征,第二融合特征作为第一感受野卷积网络的下一个感受野卷积网络的网络输入特征。

将下采样模块输出的目标采样特征与第一感受野卷积网络的网络输出特征进行融合,融合方式可以为加权求和,或者融合方式为向量相加方式等,融合得到第二融合特征。

本实施例中,在第一感受野卷积网络中,使用了步长为2的多个的空洞卷积核进行空洞卷积操作,可以兼顾了模型的下采样功能,同时,避免了升维卷积层进行下采样过程中还需要降维操作导致特征信息流失较为严重的问题。

此外,由于下采样模块与第一感受野卷积网络并行连接,且分别将第一图像特征输入下采样模块与第一感受野卷积网络进行处理,并将目标采样特征与第一感受野卷积网络的网络输出特征进行融合,得到第二融合特征,可以在避免特征信息流失的情况下,完成了下采样任务,并且也没有增加太多模块的计算量。

在一些实施方式中,第二融合特征作为第一感受野卷积网络的下一个感受野卷积网络的网络输入特征。其中,下一个感受野卷积网络可以为第二感受野卷积网络。基于后续的感受野卷积网络对第二融合特征进行处理,可以得到第二图像特征。例如最后一个感受野卷积网络的网络输出特征直接或经处理后作为第二图像特征。

在一些实施例中,请参阅图9,可以对上述实施例的步骤S12进一步扩展。多感受野卷积模块的其中一个感受野卷积网络为第一感受野卷积网络,除第一感受野卷积网络的至少一个感受野卷积网络为第二感受野卷积网络。利用图像处理模型的多感受野卷积模块对第一图像特征进行处理,得到第二图像特征,本实施例可以包括以下步骤:

S41:对于每个第二感受野卷积网络,利用第二感受野卷积网络对应的注意力模块对第二感受野卷积网络的网络输出特征进行注意力处理,得到第二输出特征,其中,第二输出特征作为第二感受野卷积网络的下一个第二感受野卷积网络的网络输入特征。最后一个第二感受野卷积网络的第二输出特征作为第二图像特征。

在一些实施方式中,多感受野卷积模块的其中一个感受野卷积网络为第一感受野卷积网络,除第一感受野卷积网络的至少一个感受野卷积网络为第二感受野卷积网络,且第二感受野卷积网络包括除第一感受野卷积网络的所有感受野卷积网络。

请参阅图10,多感受野模块还包括分别与各第二感受野卷积网络一一对应的至少一个注意力模块(ECANetBlock)。第二感受野卷积网络与第一感受野卷积网络有相同的结构,例如第二感受野卷积网络包括依序连接的降维卷积层(Conv 1×1,s=1)、空洞卷积层(ConvHD,s=2或s=1)和第一升维卷积层(Conv 1×1,s=1),感受野卷积网络的空洞卷积层由感受野卷积网络中的并行连接的多个空洞卷积核{例如(Conv 3×3,s=1,d=1)、(Conv 3×3,s=1,d=2)、(Conv 3×3,s=1,d=3)、(Conv 3×3,s=1,d=4)}组成,其中,空洞率分别为1、2、3、4。

第二感受野卷积网络为多个,各第二感受野卷积网络中包含的空洞卷积核的个数不同,且按照各第二感受野卷积网络的连接顺序,第二感受野卷积网络中包含的空洞卷积核的个数依次递减。

对于首个第二感受野卷积网络,将第二感受野卷积网络的网络输出特征输入注意力模块,从而利用第二感受野卷积网络对应的注意力模块对第二感受野卷积网络的网络输出特征进行注意力处理,得到第二输出特征,其中,第二输出特征作为第二感受野卷积网络的下一个第二感受野卷积网络的网络输入特征,直到最后一个第二感受野卷积网络的第二输出特征作为第二图像特征。

本实施例中,将注意力模块的输入设置为感受野卷积网络的输出,可以使得网络几乎在没有增加参数量的条件下,对于特征信息更加重要的部分赋予更高的权重值,使得模型更加关注于图像中主要信息部分。

对于上述实施例,本申请下述提供一种图像处理方法,作为一种示例对上述实施例进行说明。

请参阅图11,图像处理模型可以包括特征提取模块、多感受野卷积模块和预测模块。其中,图像处理模型为图像分类模型,预测结果为分类结果。

具体地,特征提取模块包含依序连接的三个卷积层,三个卷积层依次为(Conv 3×3,s=2)、(Conv 3×3,s=1)、(Conv 3×3,s=1)。可以获取目标图像的第一图像特征,且可以实现对目标图像进行下采样任务处理。

多感受野卷积模块包括多个感受野卷积网络、下采样模块和注意力模块,首个感受野卷积网络为第一感受野卷积网络,剩余的其他感受野卷积网络为第二感受野卷积网络。下采样模块与第一感受野卷积网络并行连接,第一感受野卷积网络中包含的空洞卷积核的步长与下采样模块的下采样倍数相同。各第二感受野卷积网络与至少一个注意力模块可以是一一对应的。

第一感受野卷积网络和/或首个第二感受野卷积网络包括依序连接的降维卷积层(Conv 1×1,s=1)、空洞卷积层(ConvHD,s=2或s=1)和第一升维卷积层(Conv 1×1,s=1),感受野卷积网络的空洞卷积层由感受野卷积网络中的并行连接的多个空洞卷积核{例如(Conv 3×3,s=1,d=1)、(Conv 3×3,s=1,d=2)、(Conv 3×3,s=1,d=3)、(Conv 3×3,s=1,d=4)}组成。

其中,第一感受野卷积网络对第一图像特征进行处理,得到第一融合特征。

下采样模块包括平均池化层(AvgPooling 3×3,s=2)和第二升维卷积层(Conv 1×1,s=1),对第一图像特征进行下采样处理,得到目标下采样特征。

将目标采样特征与第一感受野卷积网络的输出的第一融合特征进行融合,得到第二融合特征。

第二感受野卷积网络对第二融合特征进行处理,得到第二输出特征,直至最后一个第二感受野卷积网络的第二输出特征直接作为或经过处理作为第二图像特征。

图像处理模型可以包括并行连接的第一感受野卷积网络与下采样模块,以及依序连接的N个第二感受野卷积网络和注意力模块。上述的并行连接的第一感受野卷积网络与下采样模块,以及依序连接的N个第二感受野卷积网络和注意力模块可以有M个,N、M为大于1的整数。根据具体应用场景,每个阶段可以设置N、M的数值,每个阶段包含的N、M数量可以不同。

例如包含4个阶段的感受野卷积网络,第一阶段中,第一感受野卷积网络与下采样模块并行连接,N个第二感受野卷积网络与注意力模块依序连接,第一感受野卷积网络和/或第二感受野卷积网络包含并行连接的4个空洞卷积核{例如(Conv 3×3,s=1,d=1)、(Conv 3×3,s=1,d=2)、(Conv 3×3,s=1,d=3)、(Conv 3×3,s=1,d=4)}。

第二阶段,第一感受野卷积网络和/或第二感受野卷积网络包含并行连接的3个空洞卷积核{例如(Conv 3×3,s=1,d=1)、(Conv 3×3,s=1,d=2)、(Conv 3×3,s=1,d=3)}。

第三阶段和第四阶段中,第一感受野卷积网络和/或第二感受野卷积网络包含并行连接的空洞卷积核的数量依次递减,例如第三阶段包含并行连接的2个空洞卷积核{例如(Conv 3×3,s=1,d=1)、(Conv 3×3,s=1,d=2)}。第四阶段包含1个空洞卷积核(Conv 3×3,s=1,d=1)。

在一些实施方式中,只在每个阶段开始之前使用第二步中下采样操作,其余阶段中的网络不进行降采样操作。上述四个阶段可以分别记为分别重复多次。随着网络深度的加深,在第一阶段中使用4种空洞率的卷积操作,在第二阶段中使用3种空洞率的卷积操作,在第三阶段中使用2种空洞率的卷积操作,在第四阶段中使用1种空洞率的卷积操作,并且依次减少使用的是最大空洞率的卷积,由于随着网络深度的加深,提取到的特征信息非常丰富且感受野已经足够大,再使用多尺度卷积只会增加网络的参数量,对于网络性能的提升不是很大。通过上述方式,使得网络模型参数量和浮点计算量得到大幅度降低,并提升了图像处理模型的性能指标。

作为一种示例,本申请的图像处理模型为图像分类模型,预测结果为分类结果。利用上述的图像分类模型与现有技术中的其他图像分类模型分别对同一目标图像进行分类处理,得到各模型的分类结果。对上述的图像分类模块与现有技术中的图像分类模型((ResNet、pre-act.ResNet、iResNet、NL-ResNet、SE-ResNet、ECA-ResNet、ResNeXt、PyConvResNet)进行对比分析,其对比分析结果如下表1所示:

表1本申请的图像分类模型与现有技术中的图像分类模型的对比表

其中,Top 1表示Top 1的准确率,Top 5表示Top 5的准确率,浮点计算量(FLOPs,Floating Point Operations)表示浮点运算次数,可以用来衡量上述图像分类模型的复杂度。

由上可知,本申请的图像分类模型的参数量和浮点计算量分别为14.81M、3.27G,与现有技术中的图像分类模型相比,大幅度降低了参数量和浮点计算量,并且还可以在一定程度上提高图像分类的准确率。

对于上述实施例,本申请提供一种计算机设备,请参阅图12,图12是本申请计算机设备一实施例的结构示意图。该计算机设备50包括存储器51和处理器52,其中,存储器51和处理器52相互耦接,存储器51中存储有程序数据,处理器52用于执行程序数据以实现上述图像处理方法任一实施例中的步骤。

在本实施例中,处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器52也可以是任何常规的处理器等。

该实施例的具体实施方式可参考上述实施例的实施过程,在此不再赘述。

对于上述实施例的方法,其可以采用计算机程序的形式实现,因而本申请提出一种计算机可读存储介质,请参阅图13,图13是本申请计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质60中存储有能够被处理器运行的程序数据61,程序数据61可被处理器执行以实现上述图像处理方法任一实施例的步骤。

该实施例的具体实施方式可参考上述实施例的实施过程,在此不再赘述。

本实施例计算机可读存储介质60可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序数据61的介质,或者也可以为存储有该程序数据61的服务器,该服务器可将存储的程序数据61发送给其他设备运行,或者也可以自运行该存储的程序数据61。

在本申请所提供的几个实施例中,应该理解的,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中,该计算机可读存储介质是一种计算机可读取存储介质。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机可读存储介质中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 图像处理方法、装置、计算机设备及存储介质
  • 图像处理方法和装置、电子设备、计算机可读存储介质
  • 图像处理方法、装置、电子设备及计算机可读存储介质
  • 药丸包衣图像处理方法、装置、计算机设备和存储介质
  • 红外图像处理方法、装置、计算机设备和可读存储介质
  • 图像评价模型生成方法、图像数据处理方法、装置、计算机设备和存储介质
  • 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
技术分类

06120115758254