导航：首页> 一般车辆>人脸识别方法和装置、神经网络

人脸识别方法和装置、神经网络

文献发布时间：2023-06-19 12:13:22

技术领域

本公开涉及人脸识别技术领域，尤其涉及人脸识别方法和装置、神经网络。

背景技术

人脸识别是目前应用最广泛的生物识别技术之一，也是安防领域最普遍的算法，在人证比对、门禁通行和罪犯搜索等许多场景都有成熟应用。在进行人脸识别时，一般会设置一个像素点阈值，将两张人脸图像的相似度与该相似度阈值进行比较，如果两张人脸图像的相似度高于相似度阈值，则认为两张人脸图像是同一对象的人脸图像，否则认为是不同对象的人脸图像。随着全球化的不断深入发展，不同地区的对象存在很高程度的多元化。不同类别的对象对应的相似度阈值往往相差较大，导致对多类别对象图像进行人脸识别的准确度较低。

发明内容

本公开提供一种人脸识别方法和装置、神经网络。

根据本公开实施例的第一方面，提供一种人脸识别方法，所述方法包括：获取第一人脸图像所属的类别的偏置量；所述偏置量用于表征所述第一人脸图像所属的类别在预设的误识率下对应的第一相似度阈值与参考类别在所述误识率下对应的第二相似度阈值之间的差异，所述第一相似度阈值为将所述第一人脸图像与第二人脸图像识别为同一对象的人脸图像的相似度下限，所述第二相似度阈值为将所述参考类别的人脸图像与第三人脸图像识别为同一对象的人脸图像的相似度下限；基于所述偏置量对所述第一人脸图像与所述第二人脸图像之间的相似度进行修正；基于修正后的相似度与所述第二相似度阈值对所述第一人脸图像进行人脸识别。

在一些实施例中，所述方法还包括：获取N张第一样本人脸图像以及M张第二样本人脸图像；所述第一样本人脸图像所属的类别和所述第二样本人脸图像所属的类别均与所述第一人脸图像所属的类别相同；M和N为正整数；针对所述N张第一样本人脸图像中的每一者，分别确定所述第一样本人脸图像与各个第二样本人脸图像之间的相似度；基于所述第一样本人脸图像与所述第二样本人脸图像之间的相似度，确定所述第一人脸图像所属的类别在所述误识率下对应的第一相似度阈值。

在一些实施例中，所述基于修正后的相似度与所述第二相似度阈值对所述第一人脸图像进行人脸识别，包括：在修正后的相似度大于所述第二相似度阈值的情况下，确定所述第一人脸图像与所述第二人脸图像为同一对象的人脸图像；和/或在修正后的相似度不大于所述第二相似度阈值的情况下，确定所述第一人脸图像与所述第二图像为不同对象的人脸图像。

在一些实施例中，所述方法通过神经网络实现，所述神经网络包括：特征提取网络，用于对所述第一人脸图像进行特征提取，得到所述第一人脸图像的特征；偏置输出网络，用于基于所述第一人脸图像的特征确定所述第一相似度阈值，并基于所述第一相似度阈值和所述第二相似度阈值确定所述偏置量。

在一些实施例中，所述方法还包括：基于第三样本人脸图像对初始特征提取网络和初始分类网络进行第一训练，得到中间特征提取网络和分类网络，所述分类网络用于基于所述第三样本人脸图像的特征，对所述第三样本人脸图像进行分类，以确定所述第三样本人脸图像所属的类别；以包括所述第三样本人脸图像的特征的向量为输入信息，以所述第三样本人脸图像所属的类别在所述误识率下对应的第三相似度阈值与所述第二相似度阈值之间的偏置量为监督信息，对初始偏置输出网络进行第二训练，得到中间偏置输出网络；基于第四样本人脸图像对所述中间特征提取网络和所述中间偏置输出网络进行第三训练，得到所述特征提取网络和所述偏置输出网络。

在一些实施例中，所述方法还包括：获取所述第三样本人脸图像的特征的模长；基于所述第三样本人脸图像的特征与所述第三样本人脸图像的特征的模长，生成所述向量，并以所述向量作为所述输入信息。

在一些实施例中，所述偏置输出网络包括：依次相连的第一全连接层、归一化层、第一激活层、第二全连接层和第二激活层；所述第一全连接层用于对所述特征提取网络输出的特征进行分类；所述归一化层用于对分类后的特征进行归一化处理；所述第一激活层用于对归一化的特征进行非线性处理；所述第二全连接层用于对非线性处理后的特征进行再次分类，得到所述偏置量；所述第二激活层用于将偏置量的取值范围映射到预设范围内。

在一些实施例中，所述方法还包括：分别获取多个类别中每个类别对应的相似度阈值；将取值最小的相似度阈值确定为所述第二相似度阈值，并将取值最小的相似度阈值对应的类别确定为所述参考类别。

在一些实施例中，所述方法还包括：获取目标区域的地理位置信息；基于所述目标区域的地理位置信息确定所述目标区域中的参考类别，其中，所述目标区域中所述参考类别的对象的数量大于所述目标区域中除所述参考类别以外的其他对象的数量；将所述参考类别对应的相似度阈值确定为所述目标区域中的第二相似度阈值。

根据本公开实施例的第二方面，提供一种人脸识别装置，所述装置包括：获取模块，用于获取第一人脸图像所属的类别的偏置量；所述偏置量用于表征所述第一人脸图像所属的类别在预设的误识率下对应的第一相似度阈值与参考类别在所述误识率下对应的第二相似度阈值之间的差异，所述第一相似度阈值为将所述第一人脸图像与第二人脸图像识别为同一对象的人脸图像的相似度下限，所述第二相似度阈值为将所述参考类别的人脸图像与第三人脸图像识别为同一对象的人脸图像的相似度下限；修正模块，用于基于所述偏置量对所述第一人脸图像与所述第二人脸图像之间的相似度进行修正；识别模块，用于基于修正后的相似度与所述第二相似度阈值对所述第一人脸图像进行人脸识别。

在一些实施例中，所述装置还包括：样本图像获取模块，用于获取N张第一样本人脸图像以及M张第二样本人脸图像；所述第一样本人脸图像所属的类别和所述第二样本人脸图像所属的类别均与所述第一人脸图像所属的类别相同；M和N为正整数；相似度确定模块，用于针对所述N张第一样本人脸图像中的每一者，分别确定所述第一样本人脸图像与各个第二样本人脸图像之间的相似度；阈值确定模块，用于基于所述第一样本人脸图像与所述第二样本人脸图像之间的相似度，确定所述第一人脸图像所属的类别在所述误识率下对应的第一相似度阈值。

在一些实施例中，所述识别模块用于：在修正后的相似度大于所述第二相似度阈值的情况下，确定所述第一人脸图像与所述第二人脸图像为同一对象的人脸图像；和/或在修正后的相似度不大于所述第二相似度阈值的情况下，确定所述第一人脸图像与所述第二图像为不同对象的人脸图像。

在一些实施例中，所述装置还包括：第一训练模块，用于基于第三样本人脸图像对初始特征提取网络和初始分类网络进行第一训练，得到中间特征提取网络和分类网络，所述分类网络用于基于所述第三样本人脸图像的特征，对所述第三样本人脸图像进行分类，以确定所述第三样本人脸图像所属的类别；第二训练模块，用于以包括所述第三样本人脸图像的特征的向量为输入信息，以所述第三样本人脸图像所属的类别在所述误识率下对应的第三相似度阈值与所述第二相似度阈值之间的偏置量为监督信息，对初始偏置输出网络进行第二训练，得到中间偏置输出网络；第三训练模块，用于基于第四样本人脸图像对所述中间特征提取网络和所述中间偏置输出网络进行第三训练，得到所述特征提取网络和所述偏置输出网络。

在一些实施例中，所述装置还包括：模长获取模块，用于获取所述第三样本人脸图像的特征的模长；生成模块，用于基于所述第三样本人脸图像的特征与所述第三样本人脸图像的特征的模长，生成所述向量，并以所述向量作为所述输入信息。

在一些实施例中，所述装置还包括：阈值获取模块，用于分别获取多个类别中每个类别对应的相似度阈值；第一选取模块，用于将取值最小的相似度阈值确定为所述第二相似度阈值，并将取值最小的相似度阈值对应的类别确定为所述参考类别。

在一些实施例中，所述装置还包括：位置获取模块，用于获取目标区域的地理位置信息；参考类别确定模块，用于基于所述目标区域的地理位置信息确定所述目标区域中的参考类别，其中，所述目标区域中所述参考类别的对象的数量大于所述目标区域中除所述参考类别以外的其他对象的数量；第二选取模块，用于将所述参考类别对应的相似度阈值确定为所述目标区域中的第二相似度阈值。

根据本公开实施例的第三方面，提供一种神经网络，所述神经网络包括：特征提取网络，用于对第一人脸图像进行特征提取，得到所述第一人脸图像的特征；偏置输出网络，用于基于所述第一人脸图像的特征确定偏置量；所述偏置量用于表征所述第一人脸图像所属的类别在预设的误识率下对应的第一相似度阈值与参考类别在所述误识率下对应的第二相似度阈值之间的差异，所述第一相似度阈值为将所述第一人脸图像与第二人脸图像识别为同一对象的人脸图像的相似度下限，所述第二相似度阈值为将所述参考类别的人脸图像与第三人脸图像识别为同一对象的人脸图像的相似度下限；所述偏置量用于对所述第一人脸图像与所述第二人脸图像之间的相似度进行修正，修正后的相似度与所述第二相似度阈值用于对所述第一人脸图像进行人脸识别。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本公开实施例的第五方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

本公开实施例通过偏置量来修正第一人脸图像与第二人脸图像之间的相似度，由于偏置量能够表征述第一人脸图像所属的类别在预设的误识率下对应的第一相似度阈值与参考类别在同一误识率下对应的第二相似度阈值之间的差异，因此，通过偏置量来修正相似度，能够将不同类别对应的相似度映射到统一的评价标准下，使得不同的类别可以使用相同的相似度阈值进行人脸识别，提高了人脸识别的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例的人脸识别方法的流程图。

图2是本公开实施例的神经网络的原理示意图。

图3是本公开实施例的神经网络训练过程的示意图。

图4是本公开实施例的人脸识别装置的框图。

图5是本公开实施例的神经网络的框图。

图6是本公开实施例的神经网络的具体结构的示意图。

图7是本公开实施例的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。通常采用人脸识别模型对人脸图像进行人脸识别，人脸识别模型的表征能力即是特征提取能力，人脸识别模型对于不同类别的对象的表征能力不同，会导致在不同类别的对象上的识别成功率有较大差距，例如，在所述类别为肤色的情况下，普遍来看肤色偏黑的对象的面部轮廓信息较弱，肤色偏白的对象和肤色偏黄的对象的面部轮廓信息较强，这会导致对不同肤色的对象的识别准确度不同。

人脸识别模型在部署之前通常会在测试集上得到不同误识率下对应的人脸识别阈值，并根据应用场景所需的误识率来设置相应的相似度阈值。例如，用户要求在人脸数据库中包括10万张人脸图像(称为底图)的应用场景中误识率低于万分之一，则通过测试集获取到误识率为万分之一相应的相似度阈值，如果人脸识别模型识别出的图像与某张底图之间的相似度高于设置的相似度阈值，则判定这这张人脸图像与底图为同一对象的人脸图像，否则认为这两张图像为不同对象的人脸图像。然而，这种部署方法在包括多个类别的对象的场景会带来阈值平衡的问题，即，不同类别的对象的测试集通常会得到相差明显的相似度阈值。例如，肤色偏黄的对象的测试集得到了阈值a，肤色偏黑的对象的测试集得到了阈值b，通常b会比a高，如果使用a作为人脸识别模型的部署阈值，对肤色偏黑的对象进行人脸识别的误识率将会大大增加。如果使用b作为人脸识别模型的部署阈值，对肤色偏黄的对象进行人脸识别的通过率又会大打折扣，十分影响用户体验。其中，误识率是指识别错误的概率，通过率是指将用户A的人脸图像与用户A的底图识别为同一用户的人脸图像的概率。

相关技术中针对包括多个类别的对象的场景往往采用混合测试集对人脸识别模型进行测试，然而，当采用混合测试集计算相似度阈值时，误识率和通过率都难以达到预期。

基于此，本公开实施例提供一种人脸识别方法，如图1所示，所述人脸识别方法包括：

步骤101：获取第一人脸图像所属的类别的偏置量；

步骤102：基于所述偏置量对所述第一人脸图像与所述第二人脸图像之间的相似度进行修正；

步骤103：基于修正后的相似度与所述第二相似度阈值对所述第一人脸图像进行人脸识别。

在步骤101中，所述第一人脸图像可以是任意类别的人脸图像，人脸图像的类别与人脸图像中人脸的属性相关，所述属性可以包括但不限于肤色、年龄、性别等。例如，肤色较黑的人脸对应的人脸图像为一个类别，肤色较白的人脸对应的人脸图像为另一个类别。又例如，男性的人脸图像为一个类别，女性的人脸图像为另一个类别。不同类别的人脸图像可以对应不同的标签。所述人脸图像中包括至少一张人脸。在第一人脸图像中包括多张人脸的情况下，可以分别对各人脸进行处理，各人脸的处理方式相同，此处以第一人脸图像中包括一张人脸为例，对本公开的技术方案进行说明。

所述偏置量用于表征所述第一人脸图像所属的类别在预设的误识率下对应的第一相似度阈值与参考类别在所述误识率下对应的第二相似度阈值之间的差异。误识率是指识别错误的概率，即将一个对象的人脸图像识别为另一对象的人脸图像的概率。例如，人脸数据库中包括对象A的人脸图像，待识别的目标图像也是对象A的人脸图像，但错误地将目标图像识别为不是对象A的人脸图像。又例如，人脸数据库中包括对象A的人脸图像，待识别的目标图像是对象B的人脸图像，但错误地将目标图像识别为对象A的人脸图像。上述两种情况即为识别错误。可以通过识别错误的目标图像的数量与目标图像的总数的比值来确定误识率。

其中，所述第一相似度阈值为将所述第一人脸图像与第二人脸图像识别为同一对象的人脸图像的相似度下限，即，在第一人脸图像与第二人脸图像之间的相似度大于第一相似度阈值的情况下，将第一人脸图像与第二人脸图像识别为同一对象的人脸图像，否则识别为不同对象的人脸图像。同理，所述第二相似度阈值为将所述参考类别的人脸图像与第三人脸图像识别为同一对象的人脸图像的相似度下限。其中，第二人脸图像与第三人脸图像都可以是人脸数据库中的人脸图像，所述人脸数据库可以预先建立，人脸数据库中可以包括从各种渠道采集的人脸图像，所述第二人脸图像与第三人脸图像可以是人脸数据库中相同对象或者不同对象的人脸图像。

然而，不同类别对应的相似度阈值往往相差较大，例如，肤色偏黄的对象对应的阈值为0.4，肤色偏黑的对象对应的阈值为0.6。也就是说，对于肤色偏黄的对象而言，不同人的人脸图像之间的相似度一般不超过0.4，因此，将肤色偏黄的对象对应的阈值设置为0.4就足以将不同的对象区分开来，而肤色偏黑的对象由于脸部轮廓不够清晰，不同的对象之间的相似度较高，因此，需要设置较高的相似度阈值才能区分肤色偏黑的对象。

在一些实施例中，可以通过撞库实验来确定阈值与误识率之间的关系。具体来说，可以获取N张第一样本人脸图像以及M张第二样本人脸图像；所述第一样本人脸图像所属的类别和所述第二样本人脸图像所属的类别均与所述第一人脸图像所属的类别相同；M和N为正整数。其中，所述N张第一样本人脸图像中的任意两张第一样本人脸图像可以是不同对象的人脸图像，或者，所述N张第一样本人脸图像中也可以包括至少两张第一样本人脸图像为同一对象的人脸图像，对此本公开不做限制。所述M张第二样本人脸图像中的任意两张第二样本人脸图像可以是不同对象的人脸图像，或者，所述N张第二样本人脸图像中也可以包括至少两张第二样本人脸图像为同一对象的人脸图像，对此本公开不做限制。任意一张第一样本人脸图像与任意一张第二样本人脸图像可以是不同对象的人脸图像，或者，至少存在一张第一样本人脸图像与第二样本人脸图像为同一对象的人脸图像，对此本公开不做限制。

针对所述N张第一样本人脸图像中的每一者，可以分别确定所述第一样本人脸图像与各个第二样本人脸图像之间的相似度。然后，可以基于所述第一样本人脸图像与所述第二样本人脸图像之间的相似度，确定所述第一人脸图像所属的类别在所述误识率下对应的第一相似度阈值。

例如，假设M的取值为3，N的取值为2，用S

通过上表可以看出，在相似阈值大于或等于0.6的情况下，将判定为任意一张第一样本人脸图像与任意一张第二样本人脸图像均为不同对象的人脸图像，从而误识率为0。在相似阈值小于0.6，且大于或等于0.5的情况下，将判定为第3张第二样本人脸图像与第1张第一样本人脸图像为相同对象的人脸图像，从而误识率为1/6。在相似阈值小于0.5，且大于或等于0.4的情况下，将判定为第3张第二样本人脸图像与第1张第一样本人脸图像为相同对象的人脸图像，且第2张第二样本人脸图像与第2张第一样本人脸图像为相同对象的人脸图像，从而误识率为2/6。因此，通过上表可以确定误识率与相似度阈值之间的关系。在M和N的取值较大时，通过上述方式确定出的误识率与相似度阈值之间的关系能够逼近真实场景。

可以分别采用每个类别对应的第一样本人脸图像与第二样本人脸图像确定该类别的相似度阈值与误识率之间的关系，从而在给定误识率的情况下，能够分别确定各个类别对应的第一相似度阈值。从各个类别中选取一个类别作为参考类别，可以分别确定各个类别在所述误识率下的第一相似度阈值与参考类别在所述误识率下的第一相似度阈值的差值，该差值即为所述偏置量。

在一些实施例中，可以分别获取多个类别对应的相似度阈值；将取值最小的相似度阈值确定为所述第二相似度阈值，并将取值最小的相似度阈值对应的类别确定为所述参考类别。假设m个类别在预设的误识率下的相似度阈值分别为th

基础阈值对应的类别即为参考类别。各类别对应的偏置量分别为gap

gap

除了上述方式之外，也可以将其他类别选为参考类别，例如，将预设的误识率下的最大相似度阈值确定为基础阈值，将预设的误识率下的最大相似度阈值对应的类别确定为参考类别，本公开对此不做限制。

在另一些实施例中，可以将包括对象数量最多的类别确定为参考类别，例如，第1类别的对象数量为20，第2类别的对象数量为30，第3类别的对象数量为40，则将第3类别确定为参考类别。由于不同的区域内对象类别的数量分布往往不同，因此，可以基于目标区域的地理位置信息确定所述目标区域中的参考类别，其中，所述目标区域中所述参考类别的对象的数量大于所述目标区域中除所述参考类别以外的其他对象的数量，并将所述参考类别对应的相似度阈值确定为所述目标区域中的第二相似度阈值。例如，在东南亚地区，肤色偏黄的对象的数量大于肤色偏黑的对象的数量以及肤色偏白的对象的数量，因此，可以将，肤色偏黄的对象确定为东南亚地区的参考类别，将肤色偏黄的对象对应的相似度阈值确定为东南亚地区的第二相似度阈值。

进一步地，还可以基于所述目标区域的地理位置信息确定所述目标区域的类别，例如，住宅区、外企、国际会展的展区等。然后，基于所述目标区域的类别确定所述目标区域中的参考类别。例如，在某个国家的住宅区，往往本地居民的数量多于外地居民的数量，则在住宅区可以将该国家的居民对应的类别确定为该住宅区的参考类别；而在该国家的外企，可能来自其他国家的员工数量多于本国员工的数量，则可以基于员工的国籍来确定不同肤色的员工的数量分布，从而确定参考类别。

在步骤102中，可以基于所述偏置量对所述第一人脸图像与所述第二人脸图像之间的相似度进行修正。假设第一人脸图像为类别k的人脸图像，第一人脸图像与第二人脸图像之间的相似度为Distmp，则第一人脸图像与第二人脸图像修正后的相似度Dis记为：

Dis＝Distmp+gap

其中，Distmp可以基于第一人脸图像的特征向量f与第二人脸图像的特征向量F的距离(例如，余弦距离、切比雪夫距离等)计算得到。以余弦距离为例，Distmp可记为：

Distmp＝cos(f，F)。

通过上述修正过程，在步骤103中，可以直接采用参考类别对应的第二相似度阈值来对所述第一人脸图像进行人脸识别，即，确定第一人脸图像与第二人脸图像是否为同一对象的人脸图像，达到不同类别不同阈值的均衡效果。具体地，在修正后的相似度大于所述第二相似度阈值的情况下，可以确定所述第一人脸图像与所述第二人脸图像为同一对象的人脸图像。在修正后的相似度不大于所述第二相似度阈值的情况下，可以确定所述第一人脸图像与所述第二图像为不同对象的人脸图像。由于无需基于不同的第一类别来适应性地设置不同的相似度阈值，而是各个类别都可以采用同样的第二相似度阈值进行人脸识别，因此，降低了人脸识别的复杂度；同时，由于对第一人脸图像与第二人脸图像之间的相似度进行了修正，因此，即便采用同样的相似度阈值，也不会降低不同类别的人脸识别准确度。

在一些实施例中，本公开实施例的人脸识别方法可通过神经网络实现。所述神经网络包括特征提取网络和偏置输出网络这两个子网络，其中，特征提取网络用于对所述第一人脸图像进行特征提取，得到所述第一人脸图像的特征；偏置输出网络用于基于所述第一人脸图像的特征确定所述第一相似度阈值，并基于所述第一相似度阈值和所述第二相似度阈值确定所述偏置量。神经网络进行人脸识别的原理如图2所示。可以将第一人脸图像输入神经网络中的特征提取网络，以便从第一人脸图像中提取出dim维的特征f，特征f一方面与从第二人脸图像中提取的特征F计算相似度Distmp，另一方面通过偏置输出网络预测出第一人脸图像对应的偏置量gap。其中，F可以通过所述特征提取网络或者其他具有特征提取能力的机器学习模型预先提取并保存。然后，基于偏置量gap对相似度Distmp进行修正，得到修正后的相似度Dis。通过将修正后的相似度Dis与预先设置的基础阈值th

如图3所示，所述特征提取网络和偏置输出网络可以联合训练得到。在第一训练阶段，固定偏置输出网络的参数，对特征提取网络进行训练，再获取各类别的相似度阈值以及偏置量；在第二训练阶段，固定特征提取网络的参数，对偏置输出网络进行训练。进一步地，还可以在第三训练阶段，同时对特征提取网络和偏置输出网络进行训练。每个类别对应的训练集都会根据其所属类别(可通过标定得到)获得对应的偏置，进而生成训练集中的样本人脸图像-偏置对。可以通过特征提取网络对样本人脸图像进行特征提取，获取dim维特征f。特征f一方面用于输入到分类网络，以便对特征提取网络和分类网络进行联合训练，其中，分类网络用于预测样本图像所属的类别。另一方面特征f用于输入偏置输出网络，偏置输出网络可以对特征f进行回归，从而预测偏置量gap。训练完成之后，可以去掉分类网络，仅采用特征提取网络和偏置输出网络进行人脸识别。

可以采用多阶段训练方式。在第一阶段，基于第三样本人脸图像对初始特征提取网络和初始分类网络进行第一训练，得到中间特征提取网络和分类网络，所述分类网络用于基于所述第三样本人脸图像的特征，对所述第三样本人脸图像进行分类，以确定所述第三样本人脸图像所属的类别。本训练阶段可以固定初始偏置输出网络的参数，通过分类网络预测的类别与标定得到的真实的类别建立损失函数(例如，arcface损失函数)，基于该损失函数可以对初始特征提取网络和初始分类网络进行联合训练。

在第二阶段，以包括所述第三样本人脸图像的特征的向量为输入信息，以所述第三样本人脸图像所属的类别在所述误识率下对应的第三相似度阈值与所述第二相似度阈值之间的偏置量为监督信息，对初始偏置输出网络进行第二训练，得到中间偏置输出网络。本训练阶段可以固定中间特征提取网络的参数，通过预测所得的偏置量与样本人脸图像-偏置对中的偏置量建立损失函数(例如，L2损失函数)，基于该损失函数可以对初始偏置输出网络进行训练。

在第三阶段，基于第四样本人脸图像对所述中间特征提取网络和所述中间偏置输出网络进行第三训练，得到所述特征提取网络和所述偏置输出网络。本训练阶段可以同时优化中间特征提取网络和中间偏置输出网络的参数，以中间偏置输出网络预测所得的偏置量与样本人脸图像-偏置对中的偏置量建立损失函数(例如，L2损失函数)，基于该损失函数可以对中间特征提取网络和中间偏置输出网络进行联合训练。

进一步地，所述输入信息还包括所述第三样本人脸图像的特征的模长。假设第三样本人脸图像的特征向量为{q

可以基于所述第三样本人脸图像的特征与所述第三样本人脸图像的特征的模长，生成所述向量，并将生成的向量作为输入信息。例如，可以直接对dim维的特征向量{q

在一些实施例中，所述偏置输出网络包括依次相连的第一全连接层、归一化层、第一激活层、第二全连接层和第二激活层。第一全连接层用于对特征提取网络输出的特征进行分类，归一化层用于对分类后的特征进行归一化处理，第一激活层用于对归一化的特征进行非线性处理，第二全连接层用于对非线性处理后的特征进行再次分类，得到偏置量，第二激活层用于将偏置量的取值范围映射到预设范围内(例如0到1之间)。具有上述结构的偏置输出网络具有足够的特征表达能力，且训练过程容易收敛。

本公开设计了一种多类别对象的人脸识别方法，能够均衡各类别的识别精度，在神经网络训练时嵌入类别偏置参数，使得神经网络可以自动感知类别并且调整相似度，从而能够将多类别不同的阈值统一为同一个阈值，即，无需根据类别的不同来相应地调整所采用的相似度阈值，从而降低了人脸识别的复杂度，提高了人脸识别效率，在人脸识别门禁通行、安防监控等领域能够达到最佳的通行效率与用户体验。经过实验验证，本公开的人脸识别方法能够在不影响通过率的情况下保证各类别的识别精度。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

如图4所示，本公开还提供一种人脸识别装置，所述装置包括：

获取模块401，用于获取第一人脸图像所属的类别的偏置量；所述偏置量用于表征所述第一人脸图像所属的类别在预设的误识率下对应的第一相似度阈值与参考类别在所述误识率下对应的第二相似度阈值之间的差异，所述第一相似度阈值为将所述第一人脸图像与第二人脸图像识别为同一对象的人脸图像的相似度下限，所述第二相似度阈值为将所述参考类别的人脸图像与第三人脸图像识别为同一对象的人脸图像的相似度下限；

修正模块402，用于基于所述偏置量对所述第一人脸图像与所述第二人脸图像之间的相似度进行修正；

识别模块403，用于基于修正后的相似度与所述第二相似度阈值对所述第一人脸图像进行人脸识别。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

如图5所示，本公开还提供一种神经网络，所述神经网络包括：

特征提取网络501，用于对第一人脸图像进行特征提取，得到所述第一人脸图像的特征；

偏置输出网络502，用于基于所述第一人脸图像的特征确定偏置量；

所述偏置量用于表征所述第一人脸图像所属的类别在预设的误识率下对应的第一相似度阈值与参考类别在所述误识率下对应的第二相似度阈值之间的差异，所述第一相似度阈值为将所述第一人脸图像与第二人脸图像识别为同一对象的人脸图像的相似度下限，所述第二相似度阈值为将所述参考类别的人脸图像与第三人脸图像识别为同一对象的人脸图像的相似度下限；

所述偏置量用于对所述第一人脸图像与所述第二人脸图像之间的相似度进行修正，修正后的相似度与所述第二相似度阈值用于对所述第一人脸图像进行人脸识别。

如图6所示，是所述神经网络的具体结构的示意图。其中，特征提取网络501可采用卷积神经网络(Convolutional Neural Networks，CNN)。偏置输出网络502包括依次相连的第一全连接(Fully Connected，FC)层、归一化层(Batch Normalization，BN)、第一激活层、第二全连接层和第二激活层。第一全连接层用于对特征提取网络输出的特征进行分类，归一化层用于对分类后的特征进行归一化处理，第一激活层用于对归一化的特征进行非线性处理，第二全连接层用于对非线性处理后的特征进行再次分类，得到偏置量，第二激活层用于将偏置量的取值范围限制在0到1之间。具有上述结构的偏置输出网络具有足够的特征表达能力，且训练过程容易收敛。其中，所述第一激活层和第二激活层分别为ReLU层和Sigmoid层。所述神经网络还可以连接一个分类器503，所述分类器503可包括全连接层，用于在神经网络训练过程中基于特征提取网络输出的样本图像的特征对样本图像所属的类别进行分类。在神经网络推理过程中，可以去掉分类器503。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例所述的方法。

图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器701、存储器702、输入/输出接口703、通信接口704和总线705。其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。

处理器701可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。处理器701还可以包括显卡，所述显卡可以是Nvidia titan X显卡或者1080Ti显卡等。

存储器702可以采用只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、静态存储设备，动态存储设备等形式实现。存储器702可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器702中，并由处理器701来调用执行。

输入/输出接口703用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口704用于连接通信模块(图中未示出)，以向其他设备的通信模块发送本设备的信息，或者接收其他设备的通信模块发送的信息。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线705包括一通路，在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器701、存储器702、输入/输出接口703、通信接口704以及总线705，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：胡琨;于志鹏;苗慕星;吴一超;梁鼎;
专利申请人：深圳市商汤科技有限公司;

上一篇：一种车辆座舱的控制方法和装置
下一篇：接触网腕臂动态特征在线监测系统及其安装方法