掌桥专利:专业的专利平台
掌桥专利
首页

训练神经网络的方法、图像识别方法及图像识别装置

文献发布时间:2023-06-19 10:27:30


训练神经网络的方法、图像识别方法及图像识别装置

技术领域

本公开涉及人工智能技术领域,更具体地,涉及一种训练神经网络的方法、图像识别方法及图像识别装置。

背景技术

随着科技的快速发展,人工智能技术在图像方面得到很快的发展。计算机可以根据图像表现出的不同语义信息将对其进行图像识别。在早期阶段需要人工对图像进行特征的提取,再将提取到的特征输入到分类器中进行图像的分类,该方法主要以浅层次结构模型为主,图像识别的准确率不高。深度学习的出现不再需要人工提取特征,采用特征学习的方法采集特征从而进行图像识别。

在实现本公开构思的过程中,申请人发现相关技术中至少存在如下问题,现有的深度学习模型仅使用单一特征网络对图像进行识别,并没有充分考虑不同层特征对于图像识别的影响,从而影响图像识别的准确性。

发明内容

有鉴于此,本公开提供了一种训练神经网络的方法、图像识别方法及图像识别装置,以至少部分解决现有技术没有充分考虑不同层特征对于图像识别的影响,影响图像识别的准确性的问题。

本公开的一个方面提供了训练神经网络的方法,包括:多尺度特征提取网络,用于提取训练图像的多层图像特征;多尺度特征融合网络,用于基于多层图像特征各自的层级权重对多层图像特征进行加权融合,得到融合图像特征,并且基于融合图像特征确定图像识别特征,多层图像特征各自的层级权重与多层图像特征各自对识别结果的影响程度正相关,融合图像特征的维度大于多层图像特征各自维度之和;以及分类器,用于基于图像识别特征确定训练图像的识别结果;其中,上述方法包括:通过调整神经网络的参数使得针对输入的训练图像的识别结果趋近于训练图像的标注结果。

本公开的一个方面提供了一种图像识别方法,包括:获取输入图像;以及利用经训练的神经网络处理输入图像,得到针对输入图像的识别结果;其中,神经网络包括:多尺度特征提取网络,用于提取训练图像的多层图像特征;多尺度特征融合网络,用于基于多层图像特征各自的层级权重对多层图像特征进行加权融合,得到融合图像特征,并且基于融合图像特征确定图像识别特征,多层图像特征各自的层级权重与多层图像特征各自对识别结果的影响程度正相关,融合图像特征的维度大于多层图像特征各自维度之和;以及分类器,用于基于图像识别特征确定训练图像的识别结果;其中,神经网络通过如下方式进行训练:通过调整神经网络的参数使得针对输入的训练图像的识别结果趋近于训练图像的标注结果。

本公开的一个方面提供了一种图像识别装置,包括:图像获取模块、图像识别模块。其中,图像获取模块用于获取输入图像;以及图像识别模块用于利用经训练的神经网络处理输入图像,得到针对输入图像的识别结果;其中,神经网络包括:多尺度特征提取网络,用于提取训练图像的多层图像特征;多尺度特征融合网络,用于基于多层图像特征各自的层级权重对多层图像特征进行加权融合,得到融合图像特征,并且基于融合图像特征确定图像识别特征,多层图像特征各自的层级权重与多层图像特征各自对识别结果的影响程度正相关,融合图像特征的维度大于多层图像特征各自维度之和;以及分类器,用于基于图像识别特征确定训练图像的识别结果;其中,神经网络通过如下方式进行训练:通过调整神经网络的参数使得针对输入的训练图像的识别结果趋近于训练图像的标注结果。

本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及存储装置,其中,存储装置用于存储可执行指令,可执行指令在被处理器执行时,实现如上的神经网络训练方法和/或图像识别方法。

本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上的神经网络训练方法和/或图像识别方法。

本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上的神经网络训练方法和/或图像识别方法。

本公开实施例提供的训练神经网络的方法、图像识别方法及图像识别装置,通过多尺度特征融合网络将多层图像特征,如浅层细节特征与深层语义信息特征进行加权融合,挖掘出更多的图像信息,以便提取到更丰富的纹理信息,同时针对图像的各种变化,可以得到具有较好的鲁棒性的特征,实现特征的优势互补,以提高分类的准确率。

本公开实施例提供的训练神经网络的方法、图像识别方法及图像识别装置,采取权重注意力机制的方式对特征进行选择,通过使用不同卷积核来提取特征,学习不同卷积核之间的信息,从而对通道间不同核(kernel)进行权重分配进而进行表征,有助于提升提取的多层图像特征的质量,进而提升训练的神经网络的图像识别效果。

本公开实施例提供的训练神经网络的方法、图像识别方法及图像识别装置,在进行模型训练或图像识别之前,先对图像进行预处理操作,以至少部分解决存在曝光不足、焦点模糊等噪声信息导致图像识别率无法满足需求的问题。一方面,可以通过高斯滤波和将高斯滤波后的图像与原图进行加权融合,使滤波后的图像以负权值融合从而消除原图中的高斯噪声。一方面,可以对图像的色调通过非线性的方式进行编辑,使得图像从曝光强度的线性响应编辑成更加接近人的感受响应,以提升由于高曝光或曝光不足图像的图像识别准确率。

附图说明

通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:

图1示意性示出了根据本公开实施例的训练神经网络的方法、图像识别方法及图像识别装置的应用场景;

图2示意性示出了根据本公开实施例的可以应用训练神经网络的方法、图像识别方法及图像识别装置的示例性系统架构;

图3示意性示出了根据本公开实施例的训练神经网络的方法的流程图;

图4示意性示出了根据本公开实施例的ResNext网络分组卷积的结构示意图;

图5示意性示出了根据本公开实施例的自注意力机制网络的结构示意图;

图6示意性示出了根据本公开实施例的多尺度特征融合过程示意图;

图7示意性示出了根据本公开另一实施例的多尺度特征融合过程示意图;

图8示意性示出了根据本公开实施例的神经网络的结构示意图;

图9示意性示出了根据本公开另一实施例的训练神经网络的方法的流程图;

图10示意性示出了根据本公开实施例的图像识别方法的流程图;

图11示意性示出了根据本公开实施例的图像识别装置的方框图;以及

图12示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多特征。

随着科学技术的发展,机构(如银行、事业、企业等)中越来越多的业务办理需要通过人脸识别进行身份验证,比如办理银行卡时,需要进行人脸采集后将人脸信息录入数据库中为以后验证身份使用。此外,移动支付、店面人脸识别支付、应用或网站人脸识别登录等也越来越多的应用到用户的日常生活和工作中。现有人脸识别技术仅仅使用单一特征网络进行识别,识别错误率较高,使用效果无法满足用户需求。

本公开实施例提供的训练神经网络的方法、图像识别方法及图像识别装置,该训练神经网络的方法包括输入训练数据过程和调整模型参数过程,其中,输入训练数据过程包括将训练图像输入神经网络,在完成输入训练数据过程后进入调整模型参数过程,通过调整神经网络的参数使得针对输入的训练图像的识别结果趋近于训练图像的标注结果。其中,该神经网络包括:多尺度特征提取网络,用于提取训练图像的多层图像特征;多尺度特征融合网络,用于基于多层图像特征各自的层级权重对多层图像特征进行加权融合,得到融合图像特征,并且基于融合图像特征确定图像识别特征,多层图像特征各自的层级权重与多层图像特征各自对识别结果的影响程度正相关,融合图像特征的维度大于多层图像特征各自维度之和;以及分类器,用于基于图像识别特征确定训练图像的识别结果。

本公开实施例基于融合注意力机制的多尺度卷积网络对图像进行识别,改善现有单一特征的进行图像识别的缺馅。使用融合注意力机制的多特征网络有以下优势:首先,由于图像采集过程中受到环境(光照、采集角度)影响,对图像进行预处理消除外界环境对图像识别的影响。其次,在卷积层加入注意力机制的思想,通过对不同特征赋予不同的权重信息进而筛选出对识别有用的特征信息。然后,将浅层细节特征与深层的语义特征进行拼接(concat)融合,使网络可以充分学习同一图像的多特征信息,以得到更高的图像识准确率。

图1示意性示出了根据本公开实施例的训练神经网络的方法、图像识别方法及图像识别装置的应用场景。

如图1的左图所示,用户在笔记本电脑上通过人脸识别的方式登录系统、应用或计算机软件等,由于笔记本摄像头的分辨率可能较低或用户处于较昏暗场景中,则人脸识别结果准确率有待提升。又例如,店面刷脸支付、安防等场景中需要提升人脸识别结果的准确率。如图1的右图所示,用户使用手机进行移动支付或屏幕解锁,则可能受限于曝光不足等原因导致人脸识别认证失败。

需要说明的是,上述所示出的场景仅为示例,在此不做限定。

图2示意性示出了根据本公开实施例的可以应用训练神经网络的方法、图像识别方法及图像识别装置的示例性系统架构。需要注意的是,图2所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。需要说明的是,本公开实施例提供的训练神经网络的方法、图像识别方法及图像识别装置可用于人工智能领域在图像识别相关方面,也可用于除人工智能领域之外的多种领域,如金融领域,本公开实施例提供的训练神经网络的方法、图像识别方法及图像识别装置的应用领域不做限定。

如图2所示,根据该实施例的系统架构200可以包括终端设备201、202、203,网络204和服务器205。网络204可以包括多个网关、路由器、集线器、网线等,用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备201、202、203通过网络204与其他终端设备和服务器205进行交互,以接收或发送信息等,如发送模型训练指令、图像识别指令、图像数据、图像识别结果等。终端设备201、202、203可以安装有各种通讯客户端应用,例如,图像识别类应用、银行类应用、电商类应用、网页浏览器应用、搜索类应用、办公类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。

终端设备201、202、203包括但不限于智能手机、台式电脑、增强现实设备、平板电脑、远程视频监控终端、膝上型便携计算机等等可以支持图像识别、图像处理的电子设备。终端设备上可以存储有神经网络,以便进行图像识别。

服务器205可以接收模型训练请求、图像识别请求、模型下载请求等,并对请求进行处理。例如,服务器205可以为后台管理服务器、服务器集群等。后台管理服务器可以对接收到的服务请求、信息请求等进行分析处理,并将处理结果(如图像识别结果、训练模型得到的模型参数等)反馈给终端设备。

需要说明的是,本公开实施例所提供的训练神经网络、图像识别方法可以由终端设备201、202、203或服务器205执行。相应地,本公开实施例所提供的图像识别装置可以设置于终端设备201、202、203或服务器205中。应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

为了便于理解本公开实施例的技术方案,首先对残差网络(ResNet)进行示例性说明。

残差网络是由来自微软研究(Microsoft Research)的4位学者提出的卷积神经网络,在2015年的ImageNet大规模视觉识别竞赛(ImageNet Large Scale VisualRecognition Challenge,简称ILSVRC)中获得了图像分类和物体识别的优胜。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。

ResNet的识别效果好并且能降低网络训练难度,其至少部分原因在于如果深层网络的后面那些层是恒等映射,那么模型就退化为一个浅层网络。当前要解决的就是学习恒等映射函数了。但是直接让一些层去拟合一个潜在的恒等映射函数比较困难,这可能就是深层网络难以训练的原因。但是,如果可以转换为学习一个残差函数,就构成了一个恒等映射。而且,拟合残差肯定更加容易。例如,比如输出从5.1变到5.2,映射的输出增加了2%,而对于残差结构输出从5.1到5.2,映射是从0.1到0.2,增加了100%。明显后者输出变化对权重的调整作用更大,所以效果更好。残差的思想都是去掉相同的主体部分,从而突出微小的变化。

本公开实施例至少部分基于残存网络来提升模型训练效果和图像识别结果的准确率。

图3示意性示出了根据本公开实施例的训练神经网络的方法的流程图。

如图3所示,上述方法包括操作S302~操作S304。

在操作S302,将训练图像输入神经网络。

在本实施例中,神经网络可以包括:多尺度特征提取网络、多尺度特征融合网络和分类器。

其中,多尺度特征提取网络用于提取训练图像的多层图像特征。

多尺度特征融合网络用于基于多层图像特征各自的层级权重对多层图像特征进行加权融合,得到融合图像特征,并且基于融合图像特征确定图像识别特征,多层图像特征各自的层级权重与多层图像特征各自对识别结果的影响程度正相关,融合图像特征的维度大于多层图像特征各自维度之和。

分类器用于基于图像识别特征确定训练图像的识别结果。

在一个实施例中,可以选择残差网络(ResNet)的变形网络—ResNeXt网络,该ResNeXt网络的优点为通过在残差网络中加入独立路径即“基数”(Cardinality)的超参数,来增加网络的维度。网络结构中基数采用分组卷积的想法,将多特征图分成不同组分别进行卷积操作,最后将不同组的卷积结果进行合并,在保证避免随着网络深度增加出现梯度消失,并可以卷积出多样化图像特征。

图4示意性示出了根据本公开实施例的ResNext网络分组卷积的结构示意图。

如图4所示,ResNeXt是一种介于普通卷积核深度可分离卷积的策略:分组卷积,通过控制分组的数量(基数)来达到两种策略的平衡。ResNeXt的每个分支的拓扑结构是相同的。如图4中,通过使用1×1尺寸的卷积核和3×3尺寸的卷积核(Conv_3),使得各特征图带有不同感受野的信息,同时,便于不同卷积核输出尺寸(如128)与通道数(如Group=32)相同下对每一个元素进行融合

此外,选取ResNeXt还为了提升图像识别效率,因为ResNeXt的相同拓扑结构的分支的设计是更符合GPU的硬件设计原则。

在操作S304,通过调整神经网络的参数使得针对输入的训练图像的识别结果趋近于训练图像的标注结果。

在本实施例中,可以通过反向传播算法来进行模型训练。神经网络的参数包括但不限于:卷积核参数、神经网络各层的权重、偏置等,此外,当神经网络还包括其它网络时,如自注意力机制网络,神经网络的参数还可以进一步包括诸如自注意力机制网络的相关参数,在此不做限定。

本公开实施例通过增加网络的维度。网络结构中基数采用分组卷积的想法,将多特征图分成不同组分别进行卷积操作,最后将不同组的卷积结果进行拼接,在保证避免随着网络深度增加出现梯度消失,并可以卷积出多样化特征,有助于基于多样化特征提升训练的神经网络的图像识别准确度。

以下对神经网络的结构进行示例性说明。

在一个实施例中,多尺度特征提取网络包括多个层级的特征提取网络,各层级的特征提取网络用于提取不同深度的图像特征。

例如,多个层级的特征提取网络中每一个包括:至少两个分支网络、自注意力机制网络和特征融合网络。

至少两个分支网络,各分支网络用于基于不同尺寸的卷积核(如基于尺寸为3×3的卷积核(Conv_3)和基于尺寸为5×5的卷积核)得到至少两组特征图,其中,不同尺寸的卷积核中大尺寸的卷积核的第一尺寸是基于小尺寸的卷积核的第二尺寸和预设膨胀率来确定的。

自注意力机制网络用于确定至少两组特征图各自的特征图权重。

特征融合网络用于基于至少两组特征图各自的特征图权重对至少两组特征图进行加权融合,得到融合后的图像特征。

图5示意性示出了根据本公开实施例的自注意力机制网络的结构示意图。

如图5所示,自注意力机制网络包括:全局平局池化层(Global polling)、第一全连接层(FC)、归一化层(BN)和第二全连接层(FC)。图5中SKNet是自适应调整感受野网络,是一种轻量级网络。

其中,全局平局池化层用于得到各组特征图的全局信息。

第一全连接层用于基于全局信息和激活函数(如ReLU函数)确定至少两组特征图各自的特征图权重。

归一化层用于对至少两组特征图各自的特征图权重进行归一化。

第二全连接层用于基于损失函数(Softmax)确定至少两组特征图各自的归一化特征图权重。

特征融合网络具体用于基于至少两组特征图(如基于尺寸为3×3的卷积核(Conv_3)和基于尺寸为5×5的卷积核(Conv_5)得到的两组特征图)各自的归一化特征图权重对至少两组特征图进行加权融合(Add),得到融合后的图像特征。

在一个具体实施例中,采取权重注意力机制的方式对特征进行选择,通过使用不同卷积核来提取特征,学习不同卷积核之间的信息,从而对通道间不同核(kernel)进行权重分配进而进行表征。具体操作如下。

首先,特征进行分列操作,使用不同大小卷积核(3×3和5×5)得到两组特征图。其中5×5选择采用膨胀系数为2的3×3空洞卷积,以指数形式提高网络感受野。空洞卷积的卷积核尺寸k',k'=k+(k-1)(r-1)其中k为原卷积核大小,r为膨胀率。

接着,对分列操作处理后的结果进行融合形成U,使得每一特征图带有不同感受野的信息。在保证不同卷积核输出尺寸与通道数相同下对每一个元素进行相加。对所有的特征图使用全局平均池化使其变为1×1的特征图,以获得每一通道的全局信息。得到全局信息S

然后,再将输出S

d=max(C/r,L) 式(3)

接着,将融合(Fuse)得到的带有权重的降维后的特征图,通过全连接层后扩大到原一维的大小代表每个通道的权重,使用softmax函数回归出每一个特征图的权重.其中不同卷积核形成同一通道的特征图权重和为1,如式(4)所示。最后将权重分别与原特征图相乘再融合,在进行逐像素叠加后形成最后的特征图V。

本公开实施例采取权重注意力机制的方式对特征进行选择,通过使用不同卷积核来提取特征,学习不同卷积核之间的信息,从而对通道间不同核(kernel)进行权重分配进而进行表征,提升了提取的图像特征的质量。

在一个实施例中,图6示意性示出了根据本公开实施例的多尺度特征融合过程示意图。

如图6所示,多尺度特征融合网络可以包括:多个上采样网络(Up×2)、子融合图像特征获取网络(C

其中,多个上采样网络用于对最后层级的图像特征或除最后层级和首个层级之外的各中间层级的子融合图像特征分别进行上采样,得到至少一个中间层级和最后层级各自的上采样图像特征,其中,当前中间层级的上采样图像特征的维度与上一中间层级的图像特征的维度相同。

子融合图像特征获取网络用于基于多层图像特征各自的层级权重将最后层级的上采样图像特征与上一层级的图像特征进行加权融合,或者,基于多层图像特征各自的层级权重将至少一个中间层级各自的上采样图像特征分别与各自的上一层级的图像特征进行加权融合,得到当前层级的上一层级的子融合图像特征。其中,可以通过1×1卷积核(conv_1)对各图像特征进行处理以便于进行特征融合。

拼接模块用于将针对训练图像的最后层级的图像特征、除最后层级的图像特征之外的各层级的子融合图像特征进行拼接,得到融合图像特征。

全连接网络用于对融合图像特征进行特征学习,以确定图像识别特征。

在一个实施例中,多尺度特征融合网络还可以对上采样图像特征进行消除混淆操作,例如,多尺度特征融合网络还可以包括:多个卷积网络和池化网络。

图7示意性示出了根据本公开另一实施例的多尺度特征融合过程示意图。

如图7所示,多个卷积网络(Conv 3×3)用于对当前层级的上一层级的子融合图像特征执行卷积操作,得到消除混淆的子融合图像特征,以便多个上采样网络分别对多个除混淆的子融合图像特征进行上采样。

池化网络用于对融合图像特征进行特征选择,得到池化后融合图像特征。如SPP池化(SPP-PooLing)进行特征选择。

相应地,全连接网络具体用于对池化后融合图像特征进行特征学习,以确定图像识别特征。

在一个具体实施例中,将卷积层的浅层细节特征与深层语义信息特征进行加权融合,进一步挖掘出图像信息,从而提取到更丰富的纹理信息,同时针对图像的各种变化,可以得到具有较好的鲁棒性的特征,实现特征的优势互补,以提高分类的准确率。通常情况下认为,准确率越高说明该层特征有较高的类别信息,该层的融合权重越大。其中每个卷积层提取出的特征图为C

首先,根据分类准确率得到第五层与第四层的权重分别为w

然后,根据权重将两层特征进行加权融合,为了消除因上采样而产生的特征混叠效应,再使用3×3卷积提取特征得到P

p

接着,其余层采用类似的方式进融合分别得到P3与P2。将融合后的特征图采用concat融合方式进行合并,最后使用spp池化进行特征选择得到特征F,如式(7)所示。

F=spp(concat(p

然后,将提取出的特征输入全连接层,进行特征学习,最后输入到分类器中进行图像识别。

图8示意性示出了根据本公开实施例的神经网络的结构示意图。

如图8所示,每个多尺度特征提取网络可以包括多个块(Block),如图8中包括Block_1~Block_n。其中,每个块可以包括32个通道(Group)。通过在卷积层加入注意力机制,通过对不同特征赋予不同的权重信息进而筛选出对识别有用的特征信息。然后,将浅层细节特征与深层的语义特征进行拼接融合,使网络可以充分学习同一图像的多特征信息,以使得蔬菜的图像识准确率更高。

图9示意性示出了根据本公开另一实施例的训练神经网络的方法的流程图。

如图9所示,在执行操作S302之前,该方法还可以包括操作S901。

在操作S901,对训练图像进行预处理,以降低训练图像中噪声信息,其中,噪声信息包括由于曝光不足和焦点模糊中至少一种造成的噪声信息。

具体地,对训练图像进行预处理包括以下至少一种。

例如,通过图像加权融合消除训练图像中高斯噪声。

例如,对训练图像进行色调非线性编辑。

在一个实施例中,通过图像加权融合消除训练图像中高斯噪声可以包括如下操作。

首先,利用卷积核扫描训练图像中各像素点,得到滤波后训练图像,其中,滤波后训练图像中当前像素点的取值是当前像素点和相邻像素点的加权平均值灰度值。

然后,加权融合滤波后训练图像和训练图像,以消除训练图像中高斯噪声。

例如,使用图像加权融合和伽马矫正方法首先对采集到的图像进行预处理操作,以解决图像在采集曝光不足、焦点模糊等噪声信息。对于噪声信息,首先将图像进行高斯滤波处理,对整幅图像的像素值加权求平均过程,使用卷积去扫描每一个像素点,用该点旁边的像素进行加权得到的平均的灰度值作为该点高斯滤波后的值。随后将高斯滤波后的图像与原图进行加权融合,使滤波后的图像以负权值融合从而消除原图中的高斯噪声。其次对图像的色调通过非线性的方式进行编辑,使得图像从曝光强度的线性响应编辑成更加接近人的感受响应,以解决由于高曝光或曝光不足的图像。这样可以有效提升曝光不足环境下采集图像的图像识别准确率。

接着就可以将进行预处理后的训练图像输入神经网络。需要说明的是,在进行图像识别的过程中,同样可以对输入图像进行预处理,在此不再详述。

本公开的另一方面还提供了一种图像识别方法。

图10示意性示出了根据本公开实施例的图像识别方法的流程图。

如图10所示,该图像识别方法包括操作S1002~操作S1004。

在操作S1002,获取输入图像。该输入图像可以是基于诸如图1所示的各种终端设备采集的图像,也可以是从网络获取的图像。

在操作S1004,利用经训练的神经网络处理输入图像,得到针对输入图像的识别结果。

其中,神经网络包括:多尺度特征提取网络、多尺度特征融合网络和分类器。

其中,多尺度特征提取网络用于提取训练图像的多层图像特征。

多尺度特征融合网络用于基于多层图像特征各自的层级权重对多层图像特征进行加权融合,得到融合图像特征,并且基于融合图像特征确定图像识别特征,多层图像特征各自的层级权重与多层图像特征各自对识别结果的影响程度正相关,融合图像特征的维度大于多层图像特征各自维度之和。

分类器用于基于图像识别特征确定训练图像的识别结果。

例如,神经网络通过如下方式进行训练:通过调整神经网络的参数使得针对输入的训练图像的识别结果趋近于训练图像的标注结果。

需要说明的是,图像识别的过程可以参考如上神经网络训练过程中涉及的图像识别的过程相关内容,在此不再赘述。

图11示意性示出了根据本公开实施例的图像识别装置的方框图。

如图11所示,该图像识别装置1100可以包括:图像获取模块1110和图像识别模块1120。

图像获取模块1110用于获取输入图像。

图像识别模块1120用于利用经训练的神经网络处理输入图像,得到针对输入图像的识别结果。

其中,神经网络包括:多尺度特征提取网络、多尺度特征融合网络和分类器。

其中,多尺度特征提取网络用于提取训练图像的多层图像特征。

多尺度特征融合网络用于基于多层图像特征各自的层级权重对多层图像特征进行加权融合,得到融合图像特征,并且基于融合图像特征确定图像识别特征,多层图像特征各自的层级权重与多层图像特征各自对识别结果的影响程度正相关,融合图像特征的维度大于多层图像特征各自维度之和。

分类器用于基于图像识别特征确定训练图像的识别结果。

例如,神经网络通过如下方式进行训练:通过调整神经网络的参数使得针对输入的训练图像的识别结果趋近于训练图像的标注结果。

本公开实施例在对客户图像采集后,与身份信息进行比对时可以提供更高的准确性。具体地,对采集的图像进行预处理操作有助于减少图像采集时噪声等环境因素对识别准确率的影响。此外,在卷积操作中加入加权注意力与多层特征融合方法,选择出多样化的正向特征,有助于图像识别的准确率。

需要说明的是,装置部分实施例中各模块/单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再一一赘述。

根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

例如,图像获取模块1110和图像识别模块1120中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,图像获取模块1110和图像识别模块1120中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,图像获取模块1110和图像识别模块1120中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

图12示意性示出了根据本公开实施例的电子设备的方框图。图12示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示,根据本公开实施例的电子设备1200包括处理器1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1201还可以包括用于缓存用途的板载存储器。处理器1201可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1203中,存储有电子设备1200操作所需的各种程序和数据。处理器1201、ROM 1202以及RAM 1203通过总线1204彼此通讯连接。处理器1201通过执行ROM 1202和/或RAM 1203中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM 1202和RAM 1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例,电子设备1200还可以包括输入/输出(I/O)接口1205,输入/输出(I/O)接口1205也连接至总线1204。电子设备1200还可以包括连接至I/O接口1205的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。

根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1202和/或RAM 1203和/或ROM 1202和RAM1203以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的图像模型训练方法或图像识别方法。

在该计算机程序被处理器1201执行时,执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1209被下载和安装,和/或从可拆卸介质1211被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

相关技术
  • 图像识别神经网络的训练方法和装置、图像识别方法
  • 图像识别方法和装置、图像生成方法和装置、神经网络的训练方法和装置
技术分类

06120112553038