掌桥专利:专业的专利平台
掌桥专利
首页

一种带有注意力机制的低质量人脸图像识别方法及设备

文献发布时间:2023-06-19 19:30:30


一种带有注意力机制的低质量人脸图像识别方法及设备

技术领域

本发明属于人工神经网络和人脸识别技术领域,具体地说,涉及一种带有注意力机制的低质量人脸图像识别方法及设备。

背景技术

一直以来,人脸识别都是图像技术领域的一个重要研究方向,随着深度学习技术的发展,许多基于神经网络的模型已经能够在高质量人脸图像数据集上取得超过99%的识别正确率。但是,低质量的人脸图像识别仍然是一个具有较大难度的课题,尤其是对于低分辨率人脸图像,现有的算法还不够成熟,其识别准确率有待于进一步提升。

发明内容

针对现有技术中上述的不足,本发明提供了一种带有注意力机制的低质量人脸图像识别方法及设备,以提升对低质量人脸图像的识别准确率。

为了达到上述目的,本发明采用的解决方案是:一种带有注意力机制的低质量人脸图像识别方法,包括以下步骤:

S10、采集获取未知人脸图像,获取训练完成的人脸图像识别网络模型;

所述人脸图像识别网络模型包括主干和全局池化处理层,所述全局池化处理层连接在所述主干的尾部,所述主干包括顺次连接的多个特征信息提取层,所述特征信息提取层的数学模型为:

,其中,/>

S20、将所述未知人脸图像输入所述人脸图像识别网络模型,随着图像信息沿着所述主干传递,各个所述特征信息提取层依次对图像信息进行特征提取操作,直到最后一个所述特征信息提取层输出抽象特征图;

S30、将所述抽象特征图输入所述全局池化处理层,利用所述全局池化处理层对所述抽象特征图的各个图层进行全局池化操作,然后输出得到人脸特征向量;

S40、计算所述人脸特征向量与检索库中所有目标特征向量之间的距离,与所述人脸特征向量距离最近、且满足阈值条件的目标特征向量所对应的身份,即为所述未知人脸图像的身份。

进一步地,所述全局池化处理层为全局平均池化层。

进一步地,所述复合注意力校准单元的数学模型为:

,其中,所述复合注意力校准单元以特征图/>

进一步地,所述前置残差模块的数学模型为:

,其中,/>

本发明还提供了一种带有注意力机制的低质量人脸图像识别设备,包括处理器和存储器,所述存储器储存有计算机程序,所述处理器通过加载所述计算机程序,用于执行如上所述的带有注意力机制的低质量人脸图像识别方法。

本发明的有益效果是:

(1)现有技术表明,对于清晰的高分辨率人脸图像而言,通过简单叠加的多个卷积层就能充分地从图像中提取获得需要的特征信息,而对于低质量(如低分辨率)的人脸图像而言,其中的有用人脸图像信息十分有限,而且这些信息往往夹杂在大量的干扰信号中,现有的人工神经网络难以很好地应对这种低质量的图像输入,数据拟合效果不佳;本发明为了提高对原始输入图像的利用率,在每个特征信息提取层内部不仅设置卷积核大小不同的卷积层(

(2)常规的人脸识别神经网络中,都是特征提取单元和池化层交替设置,由于整个网络为串联结构,两个特征提取单元之间只存在一个池化层,导致信息池化方式单一,限制了整个网络对低质量图像的特征提取效果;本发明同时设置多个跨步卷积(

(3)多个分支生成的特征图(

附图说明

图1为一实施例的人脸图像识别网络模型结构示意图;

图2为图1所示人脸图像识别网络模型中特征信息提取层的结构示意图;

图3为图2所示特征信息提取层中复合注意力校准单元的结构示意图;

图4为对比例中特征信息提取层的结构示意图;

附图中:1-未知人脸图像,2-特征信息提取层,21-前置残差模块,3-全局池化处理层,4-复合注意力校准单元,5-人脸特征向量。

具体实施方式

实施例:

如说明书附图所示,图1、图2和图3分别为本实施例的人脸图像识别网络模型结构示意图、特征信息提取层2的结构示意图和复合注意力校准单元4的结构示意图。其中,全局池化处理层3采用全局平均池化层实现,网络的主干中设置了四个特征信息提取层2,特征信息提取层2可以表示为如下数学模型:

,其中,/>

对于第一个特征信息提取层2,其输入为未知人脸图像1(通道数量为3),经过前置残差模块21中第一个卷积操作(

在所有的特征信息提取层2中,

对于复合注意力校准单元4,

图像信息在网络主干传递完成后,最后一个特征信息提取层2输出的抽象特征图通道数量为768,对抽象特征图各个图层进行全局平均池化处理后,生成长度为768的人脸特征向量5。检索库中的所有目标特征向量的长度同样为768,通过把高清人脸图像输入训练完成的人脸图像识别网络模型,从而获得相应的目标特征向量。本实施例中,计算的是人脸特征向量5与检索库中所有目标特征向量之间的欧氏距离,与人脸特征向量5距离最近、且欧氏距离小于阈值的目标特征向量所对应的身份,即为未知人脸图像1的身份。若人脸特征向量5与检索库中所有目标特征向量之间的欧氏距离均大于或等于阈值,则判定未知人脸图像1未在检索库中。

本实施例采用SCface数据集对网络模型进行训练和测试,在SCface数据集中,包括了130名人员的高清人脸图像和低分辨率人脸图像。每个人的高清人脸图像只有1张,低分辨率人脸图像则有15张,这15张图像是分别在三个不同的距离上(1米、2.6米和4.2米)设置5个相机拍摄得到的。具体实施时,从每个距离上拍摄得到的5张图像中随机抽取3张,共同构成包含1170张图像的训练集,剩下的780张低分辨率人脸图像作为测试集。训练过程中,采用三元损失函数对网络模型进行优化。训练完成后,将130名人员的高清图像输入网络模型,输出的特征向量构成检索库中的目标特征向量,然后将测试集中图像输入训练好的网络模型进行测试。作为对比,本实施例还采用相同的训练集训练了目前先进的低分辨率人脸识别模型MIND-Net,并在相同的测试集上进行测试,对比结果如表1所示。

表1 实施例和MIND-Net模型在测试集上测试对比结果

通过对比最终的识别准确率可以看出,本发明对不同分辨率的人脸图像识别精度均高于MIND-Net,尤其是对于分辨率较低的(4.2米距离拍摄)图像,本发明取得了较大幅度的提升。

对比例:

本对比例是为了更加充分地说明本发明提出的复合注意力校准单元4在整个模型中的作用。在本对比例中,将实施例中的复合注意力校准单元4去掉,取而代之以CBAM模块去校准特征图,新的特征提取层2结构如图4所示。网络模型的其他部分保持不变,训练和测试过程也与实施例完全一致,修改后的网络模型测试结果如表2所示。

表2 对比例在测试集上测试结果

对比上面两个表格的数据可以看出,在分辨率相对较高的情况下,原始输入图像中的特征信息比较丰富,复合注意力校准单元4对性能提升比较有限。但是在分辨率相对较低的情况下,充分利用原本不多的高价值信息变得尤为重要,此时复合注意力校准单元4提升网络性能的效果十分明显。

以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

技术分类

06120115930088