人脸图像分类方法、人脸图像分类装置和存储介质

文献发布时间：2023-06-19 10:57:17

技术领域

本公开涉及人脸图像分类方法、人脸图像分类装置和存储介质。

背景技术

已知存在许多大规模人脸图像数据集，比如MS-Celeb-1M、MegaFace2等。在这些人脸图像数据集中，存在数百万人的人脸图像，并且对于每个人都有着足够数量的人脸图像。这些人脸图像数据集可以用于训练基于深度学习的人脸识别系统。然而，这些人脸图像数据集包含许多噪音图像，即被错误标记为属于某个人的人脸图像或者非人脸图像，因此需要自动且有效的数据清洗方法。

进一步地，已知存在两种主流的数据清洗方法。第一种方法是基于中心的清洗方法，根据该方法，对于被标记为与某个人对应的人脸图像集，计算该图像集的中心，并且将接近中心的图像确定为与这个人对应的人脸图像。第二种方法是基于图的连通预测方法，根据该方法，对于被标记为与某个人对应的人脸图像集，构建图并且预测节点连通性，并且将最大连通子图确定为与这个人对应的人脸图像集。在中国发明专利申请公开CN107368812A中提供了基于最大连通子图的人脸识别数据清洗方法。在图17的(a)中示出一个示例图像集，该图像集被标记为与爱因斯坦对应。可以看到，在该图像集中包含若干其他人的人脸图像。在图17的(b)中示意性示出基于中心的清洗方法，根据该方法，将在判别边界内的节点确定为表示爱因斯坦的人脸图像。在图17的(c)中示意性示出基于图的连通预测方法，根据该方法，将最大连通子图的节点确定为表示爱因斯坦的人脸图像。

发明内容

本公开的一个目的是提供一种改进的人脸图像分类方法和装置。

本公开提出了人脸图像分类方法。人脸图像分类方法包括以下步骤：接收图像集，该图像集中的图像被标记为与同一目标人对应；提取图像集中的每个图像的特征；基于所提取的特征，计算图像集中的每个图像对之间的相似度；基于所计算的相似度，构建图，在该图中，图像集中的每个图像由一个节点表示，连接节点的边表示节点之间的相似度关系；基于所提取的特征以及所构建的图，通过使用第一图卷积网络来确定每个节点的概率值，该概率值指示出节点表示目标人的人脸图像的概率；以及基于所确定的概率值，将节点分类为表示目标人的人脸图像的节点和表示噪音图像的节点，从而得到图的节点分类结果。

从参考附图的以下描述中，本公开其他特点特征和优点将变得清楚。

附图说明

并入说明书中并构成说明书的一部分的附图图示了本公开的实施例，并且与说明书一起用于解释本公开的原理而没有限制。在各图中，类似的标号用于表示类似的项目。不一定按比例绘制的各图描述了所选择的说明性实施例，并且不旨在限制本公开的范围。

图1是根据本公开的一些实施例的示例性人脸图像分类装置的框图。

图2是图示根据本公开的一些实施例的示例性人脸图像分类方法的流程图。

图3是根据本公开第一实施例的示例性人脸图像分类装置的框图。

图4是图示根据本公开第一实施例的示例性人脸图像分类方法的流程图。

图5示出根据本公开第一实施例的全局图卷积网络的架构图。

图6示出根据本公开第一实施例的全局图卷积网络的从隐藏层l到隐藏层(l+1)的前向传播示意图。

图7是根据本公开第二实施例的示例性人脸图像二次分类装置的框图。

图8是图示根据本公开第二实施例的示例性人脸图像二次分类方法的流程图。

图9示出根据本公开第二实施例的局部图卷积网络的架构图。

图10示出根据本公开第二实施例的使用全局图卷积网络和局部图卷积网络来进行节点分类和图分类的示意图。

图11示出根据本公开第二实施例的对全局图卷积网络和局部图卷积网络的交互训练。

图12是根据本公开第三实施例的示例性人脸图像分类后处理装置的框图。

图13是图示根据本公开第三实施例的示例性人脸图像分类后处理方法的流程图。

图14是根据本公开第四实施例的示例性相册图像更新装置的框图。

图15是图示根据本公开第四实施例的示例性相册图像更新方法的流程图。

图16示出根据本公开的一些实施例的其中可应用本公开的一般硬件环境。

图17示意性示出两种主流的数据清洗方法以及本公开的方法。

具体实施方式

在以下详细描述中，阐述了许多具体细节以提供对所描述的示例性实施例的透彻理解。但是，对于本领域技术人员清楚的是，所描述的实施例可以在没有这些具体细节中的一些或全部的情况下进行实践。在所描述的示例性实施例中，为了避免不必要地模糊本公开的概念，没有详细描述众所周知的结构或处理步骤。

下文所示的每个框图内的方框可以通过硬件、软件、固件或其任意组合来实现以实现本公开的原理。本领域技术人员应该理解的是，每个框图中描述的方框可以被组合或分成子框来实现本公开的原理。

本公开中呈现的方法的步骤旨在是说明性的。在一些实施例中，该方法可以用未描述的一个或多个附加步骤来完成和/或在没有所讨论的一个或多个步骤的情况下完成。此外，方法的步骤被图示和描述的顺序并不旨在是限制性的。

在如前所述的基于最大连通子图的人脸识别数据清洗方法中，存在以下问题。对于场景照明相似并且人脸清晰度相似的一组人脸图像(比如足球赛中的多个球员的人脸图像)，通常在这一组人脸图像之间具有较高的相似度。在考虑这样一组人脸图像的情况下，噪音节点(即不是表示目标人的人脸图像的节点)很可能被错误地连接到最大连通子图中。也就是说，清洗后的人脸图像集仍将包含噪音图像。

根据本公开的人脸分类方法和装置能够提高对人脸图像的分类精度，从而能够实现更有效的数据清洗。

图1是根据本公开的一些实施例的示例性人脸图像分类装置100的框图。

如图1所示，装置100可以包括图像集接收部件110，被配置成接收图像集，该图像集中的图像被标记为与同一目标人对应；特征提取部件120，被配置成提取图像集中的每个图像的特征；相似度计算部件130，被配置成基于所提取的特征，计算图像集中的每个图像对之间的相似度；图构建部件140，被配置成基于所计算的相似度，构建图，在该图中，图像集中的每个图像由一个节点表示，连接节点的边表示节点之间的相似度关系；概率值确定部件150，被配置成基于所提取的特征以及所构建的图，通过使用第一图卷积网络来确定每个节点的概率值，该概率值指示出节点表示目标人的人脸图像的概率；节点分类部件160，被配置成基于所确定的概率值，将节点分类为表示目标人的人脸图像的节点和表示噪音图像的节点，从而得到图的节点分类结果。

图2是图示根据本公开的一些实施例的示例性人脸图像分类方法200的流程图。方法200可以包括：在步骤S210处，接收图像集，该图像集中的图像被标记为与同一目标人对应；在步骤S220处，提取图像集中的每个图像的特征；在步骤S230处，基于所提取的特征，计算图像集中的每个图像对之间的相似度；在步骤S240处，基于所计算的相似度，构建图，在该图中，图像集中的每个图像由一个节点表示，连接节点的边表示节点之间的相似度关系；在步骤S250处，基于所提取的特征以及所构建的图，通过使用第一图卷积网络来确定每个节点的概率值，该概率值指示出节点表示目标人的人脸图像的概率；以及在步骤S260处，基于所确定的概率值，将节点分类为表示目标人的人脸图像的节点和表示噪音图像的节点，从而得到图的节点分类结果。

如已知的，图卷积网络(Graph Convolutional Network)是在图上进行机器学习的神经网络架构。

在图17的(d)中示意性示出根据本公开的分类方法。概言之，根据本公开的分类方法通过使用图卷积网络来对图中的每个节点进行分类。以下参考实施例来详细描述根据本公开的分类方法。

第一实施例

接下来，将参考图3至图6描述本公开的第一实施例。

图3是根据本公开第一实施例的示例性人脸图像分类装置300的框图。

如图3所示，装置300可以包括：图像集接收部件310，被配置成接收图像集，该图像集中的图像被标记为与同一目标人对应；特征提取部件320，被配置成提取图像集中的每个图像的特征；相似度计算部件330，被配置成基于所提取的特征，计算图像集中的每个图像对之间的相似度；图构建部件340，被配置成基于所计算的相似度，构建图，在该图中，图像集中的每个图像由一个节点表示，连接节点的边表示节点之间的相似度关系；概率值确定部件350，被配置成基于所提取的特征以及所构建的图，通过使用全局图卷积网络(对应于第一图卷积网络)来确定每个节点的概率值，该概率值指示出节点表示目标人的人脸图像的概率；节点更新特征输出部件360，被配置成输出得自于全局图卷积网络的图的每个节点的更新特征；节点分类部件370，被配置成基于所确定的概率值，将节点分类为表示目标人的人脸图像的节点和表示噪音图像的节点，从而得到图的节点分类结果。

下文将进一步详细描述如图3所示的各部件的操作。

图4是图示根据本公开第一实施例的示例性人脸图像分类方法400的流程图。

方法400从步骤S410开始，在步骤S410处，图像集接收部件310接收图像集，该图像集中的图像被标记为与同一目标人对应。可以用人的名字、预先设定的人的编号等来标记图像集中的图像。例如，可以使用MS Celeb 1M、MegaFace2等中包含的数据集。这个数据集中除了包含目标人的人脸图像外，还可能包含其他人的人脸图像或者非人脸图像。

在步骤S420处，特征提取部件320提取图像集中的每个图像的特征。可以使用已知的人脸识别方法来提取人脸图像的特征。例如，可以通过使用卷积神经网络(CNN)来生成人脸图像的深度学习特征。通常，一张人脸图像的特征通过一个具有预定维度的向量来表示，比如通过一个512维的向量来表示。特征向量的维度取决于所使用的人脸识别方法而变化。

在步骤S430处，相似度计算部件330基于所提取的特征，计算图像集中的每个图像对之间的相似度。

首先，将每张图像的特征向量进行L2正则化，得到图像数据集的图像特征的集合X＝[x

然后，根据以下等式(1)计算图像数据集中的每个图像对的成对余弦相似度矩阵(pairwise cosine similarity matrix)：

S＝X·X

其中，图像数据集中第i张图像和第j张图像的余弦相似度为：S(i，j)＝x

应注意，可以采用其他已知的方法来计算图像对之间的相似度。

在步骤S440处，图构建部件340基于所计算的相似度，构建图，在该图中，图像集中的每个图像由一个节点表示，连接节点的边表示节点之间的相似度关系。具体而言，构建图可以包括：将图像集中的每个图像表示为一个节点；对于每个节点，对该节点与每个其他节点之间的相似度进行排序；选出相似度排序前K位的其他节点，并且在该节点和这些其他节点中的每个节点之间设立一条边。K是大于等于1的整数。

在步骤S450处，概率值确定部件350将在步骤S420处提取的特征、在步骤S430处计算的相似度、以及在步骤S440处构建的图输入到全局图卷积网络中，其中，在步骤S440处构建的图中的每个节点的值被设置为该节点所表示的图像的所提取特征，并且概率值确定部件350输出得自于第一图卷积网络的每个节点的概率值。每个节点的概率值指示出该节点表示目标人的人脸图像的概率。

以下参考图5描述全局图卷积网络的架构。首先描述全局图卷积网络的前向传播(forward propagation)过程。

如图5所示，全局图卷积网络有一个输入层、L个隐藏层(L是大于等于1的整数，比如L＝4)、以及一个输出层。

如前所述，输入层接收所提取的特征、所计算的相似度、以及所构建的图。所构建的图中的各节点的值被设置为节点所表示的图像的所提取特征x

下面参考图6描述全局图卷积网络从隐藏层(l)到(l+1)的前向传播过程。该前向传播过程包括以下步骤(a)-(c)。

(a)计算隐藏层(l)中节点i的邻居的聚合特征，这里i代表节点的编号，i取从1到N的值。该步骤(a)由图6中的“聚合”块表示。

聚合函数如下式(2)所示：

其中，N

(b)对节点i的聚合特征进行变换。该步骤(b)由图6中的

特征变换公式如下式(3)所示：

其中，

将节点i的邻居的聚合特征和节点i的特征进行连接，从而形成节点i的变换后的特征。该变换后的特征维数为2d维。

(c)计算隐藏层(l+1)中的节点i的特征

计算公式如下式(4)所示：

其中，W

从输入层到隐藏层1以及从隐藏层L到输出层的前向传播过程与从隐藏层(l)到(l+1)的前向传播过程相同，在此不再赘述。需要注意的是，在从隐藏层L到输出层的前向传播过程中，所采用的激活函数是如下式(5)所示的Sigmoid函数。

通过使用Sigmoid函数作为激活函数，能够确保输出层中的各节点的特征是在0到1之间的值，即概率值，该概率值指示出节点表示目标人的人脸图像的概率。如前所述，概率值确定部件350输出作为输出层的输出的、各节点的概率值。

返回参考图4，在步骤S460处，节点更新特征输出部件360输出得自于全局图卷积网络的图的每个节点的更新特征。具体而言，图的每个节点的更新特征指的是全局图卷积网络的最后一个隐藏层(隐藏层L)的输出，即如在图5中示出的

在步骤S470处，节点分类部件370基于在步骤S450处确定的概率值，将节点分类为表示目标人的人脸图像的节点(也称作“正常节点”)和表示噪音图像的节点(也称作“噪音节点”)，从而得到图的节点分类结果。这里，噪音图像指除目标人外的其他人的人脸图像或者非人脸图像。更具体而言，部件370通过将所确定的概率值与第一阈值进行比较，将节点分类为正常节点和噪音节点。例如，可以将第一阈值设定为0.5。那么，如果某个节点的概率值大于等于0.5，则部件370将该节点分类为正常节点，否则部件370将该节点分类为噪音节点。应理解，对节点的分类结果即是对图像集中的图像的分类结果。进一步地，可以使用“1”来标记正常节点，并且使用“0”来标记噪音节点。这个分类步骤在图5和图6中被示出为“节点分类”块。

接下来，参考图5描述全局图卷积网络的反向传播(back propagation)过程。

在反向传播的过程中，利用随机梯度下降法(stochastic gradient descent)训练网络模型。对于每个节点，利用二元交叉熵损失(binary cross entropy loss)函数来表示损失。对于包含N个节点的全局图卷积网络，损失如下式(6)所示：

其中，y

应理解，全局图卷积网络的反向传播过程即是全局图卷积网络的训练过程。经过训练的全局图卷积网络在上述步骤S450和S460中被用于确定节点的概率值和节点的更新特征。

在第一实施例中，通过将图卷积网络用于对节点进行分类，能够实现准确的节点分类(即图像分类)。并且，相比于如之前提及的基于最大连通子图的人脸识别数据清洗方法，根据第一实施例的分类方法能够更准确地分类相似度高的人脸图像。

第二实施例

如前所述，在第一实施例中，实现了对图像集中的图像的分类。在第二实施例中，对第一实施例中的分类结果可能存疑的节点进行二次分类，以实现对于节点(即图像)的更准确分类。换言之，在第二实施例中描述的分类方法是在第一实施例中描述分类方法之后执行的。在这种情况下，在第一实施例中描述分类可以被称作一次分类或者粗糙分类，而在第二实施例中描述分类可以被称作二次分类或者精细分类。

接下来，将参考图7至图11描述本公开的第二实施例。

图7是根据本公开第二实施例的示例性人脸图像二次分类装置700的框图。

如图7所示，装置700可以包括：可疑节点确定部件710，被配置成基于在步骤S450处输出的概率值，确定概率值处在第二阈值和第三阈值之间的可疑节点；子图构建部件720，被配置成对于每个可疑节点，构建子图，该子图至少包括该可疑节点、该可疑节点的邻居节点以及在可疑节点和其邻居节点之间设立的边；子图概率值确定部件730，被配置成基于在步骤S460处输出的图的每个节点的更新特征以及所构建的子图，通过使用局部图卷积网络(对应于第二图卷积网络)来确定子图中的每个节点的概率值并且确定子图的概率值，该子图的概率值指示出子图是正常子图的概率；子图节点分类部件740，被配置成基于所确定的子图的节点概率值，对所构建的子图中的每个节点进行分类；子图分类部件750，被配置成基于所确定的子图的概率值，将所构建的子图分类为正常子图和噪音子图；分类结果融合部件760，被配置成融合(fuse)多个子图的节点分类结果从而得到融合的节点分类结果，并且融合多个子图的子图分类结果从而得到针对图的图分类结果，其中图分类结果包括正常图和噪音图；分类结果融合部件770，被配置成通过使用融合的节点分类结果和针对图的图分类结果来更新图的节点分类结果，得到更新的节点分类结果，从而将节点再次分类为正常节点和噪音节点。

这里，噪音子图表示所包含的节点均为噪音节点的子图。正常子图表示包含至少一个正常节点的子图。噪音图表示所包含的节点均为噪音节点的图。正常图表示包含至少一个正常节点的图。这里，在所构建的每个子图中，可疑节点是子图中心。

下文将进一步详细描述如图7所示的各部件的操作。

图8是图示根据本公开第二实施例的示例性人脸图像二次分类方法800的流程图。

方法800从步骤S810开始，在步骤S810处，可疑节点确定部件710基于在步骤S450处输出的概率值，确定概率值处在第二阈值和第三阈值之间的可疑节点。如之前提及的，在步骤S470处，例如，如果某个节点的概率值大于等于0.5，则部件370将该节点分类为正常节点，否则部件370将该节点分类为噪音节点。在该步骤S810处，例如，如果某个节点的概率值大于0.2并且小于0.8，那么部件710将该节点分类为可疑节点。这里，可疑节点指的是对其的一次分类结果可能存疑的节点，或者是通过一次分类难以对其进行准确分类的节点。

在步骤S820处，子图构建部件720对于每个可疑节点，构建子图，该子图至少包括该可疑节点、该可疑节点的邻居节点以及在可疑节点和其邻居节点之间设立的边。具体而言，构建子图可以包括：通过使用各节点之间的边，确定该可疑节点的邻居节点，以及生成包括在图的节点分类结果中被分类为正常节点中的至少一部分节点、该可疑节点、该可疑节点的邻居节点以及在所述至少一分部节点、可疑节点、其邻居节点之间设立的边的子图。在步骤S820处构建的子图是在步骤S440处构建的图的子集。可疑节点的邻居节点可以包括它的单跳(one-hop)节点和双跳(two-hop)节点。单跳节点指的是通过边与可疑节点直接连接的节点。双跳节点指的是没有边与可疑节点直接连接但是通过边与可疑节点的单跳节点连接的节点。在一个例子中，子图可以包括可疑节点、其邻居节点以及边。在另一个例子中，子图可以包括被一次分类为正常的正常节点的至少一部分节点、可疑节点、其邻居节点以及边。在又一个例子中，子图可以包括被一次分类为正常的正常节点的全部节点、可疑节点、其邻居节点以及边。

在一个例子中，如果所构建的子图不包含任何在一次分类中被分类为正常的节点，那么意味着该子图远离正常区域，因此可以丢弃该子图。

在步骤S830处，子图概率值确定部件730基于在步骤S460处输出的图的每个节点的更新特征以及所构建的子图，通过使用局部图卷积网络来确定子图中的每个节点的概率值并且确定子图的概率值。具体而言，部件730将在步骤S460处输出的图的每个节点的更新特征、在步骤S430处计算的相似度以及在步骤S820处构建的子图输入到局部图卷积网络中，其中，子图的每个节点的值被设置为得自于全局图卷积网络的该节点的更新特征，并且，部件730输出得自于局部图卷积网络的子图中的每个节点的概率值。此外，部件730还输出得自于局部图卷积网络的子图的概率值。

以下参考图9描述局部图卷积网络的架构。

如图9所示，局部图卷积网络有一个输入层、L个隐藏层、以及两个输出层。局部图卷积网络的隐藏层数目与全局图卷积网络的隐藏层数目相同。并且，局部图卷积网络的从隐藏层(l)到隐藏层(l+7)的前向传播过程与全局图卷积网络相同。以下描述局部图卷积网络与全局图卷积网络的不同之处。

如前所述，局部图卷积网络的输入层接收从全局图卷积网络输出的各节点的更新特征

局部图卷积网络的一个输出层输出子图中的每个节点的概率值P

应注意，局部图卷积网络的隐藏层数目及隐藏层之间的前向传播过程可以与全局图卷积网络不同。

在步骤S840处，子图节点分类部件740基于在步骤S830处确定的子图的节点概率值，对所构建的子图中的每个节点进行分类。更具体而言，部件740通过将所确定的概率值与第四阈值进行比较，将节点分类为正常节点和噪音节点。第四阈值例如可以是0.5。

在步骤S850处，子图分类部件750基于在步骤S830处确定的子图的概率值，将所构建的子图分类为正常子图或噪音子图。更具体而言，部件750通过将所确定的概率值与第五阈值进行比较，将子图分类为正常子图或噪音子图。第五阈值例如可以是0.5。

对于每个可疑节点，执行如前所述的步骤S820-S850。对于多个可疑节点，可以逐个可疑节点地串行地执行前述步骤S820-S850。可替代地，对于多个可疑节点，可以并行地执行前述步骤S820-S850。如此能够缩短二次分类的时间。

在步骤S860处，分类结果融合部件760融合多个子图的节点分类结果从而得到融合的节点分类结果，并且融合多个子图的子图分类结果从而得到针对图的图分类结果。

融合多个子图的节点分类结果可以包括：对于多个子图中包含的全部节点中的至少一部分节点，将与同一个节点对应的多个子图的节点分类结果进行融合。例如，可以对于多个子图中包含的全部节点中的每个节点，将与同一个节点对应的多个子图的节点分类结果进行融合。如果对于一个节点，只有来自一个子图的节点分类结果，那么使用这个节点分类结果作为该节点的分类结果；而如果对于一个节点，存在来自多个子图的节点分类结果，那么使用这多个节点分类结果的融合结果作为该节点的分类结果。这里，融合可以包括使用这多个节点分类结果进行投票，使用票数多的分类结果作为该节点的分类结果。可替代地，融合可以包括使用与同一个节点对应的多个节点概率值来计算融合的概率值，进而基于融合的概率值来得到融合的节点分类结果。更具体而言，可以计算与同一个节点对应的多个节点概率值的加权和，从而得到融合的概率值。

可替代地，融合多个子图的节点分类结果包括：选出每个子图的节点分类结果中的对于可疑节点的分类结果，作为融合的节点分类结果。

融合多个子图的子图分类结果可以包括使用这多个子图分类结果进行投票，使用票数多的分类结果作为图分类结果。可替代地，融合多个子图的子图分类结果可以包括使用多个子图的概率值来计算融合的概率值，进而基于融合的概率值来得到图分类结果。更具体而言，可以计算多个子图的概率值的加权和，从而得到融合的概率值。

在步骤S870处，分类结果更新部件770通过使用融合的节点分类结果和针对图的图分类结果来更新图的节点分类结果，得到更新的节点分类结果，从而将节点再次分类为正常节点和噪音节点。更具体而言，可以用融合的节点分类结果来替换对应的图的节点分类结果。在一个例子中，可以使用在步骤S860处确定的针对各可疑节点的分类结果来替换对应的图的节点分类结果。应注意，本公开不限于此，可以使用在步骤S860处确定的融合的节点分类结果来替换更多的图的节点分类结果。此外，在图被分类为噪音图的情况下，这个图中的所有节点均被分类为噪音节点，并且用“0”来标记这个图中的所有节点。

在图10中示出使用全局图卷积网络和局部图卷积网络来进行节点分类和图分类的示意图。在图10中示出如前所述的子图构建步骤S820、子图节点分类步骤S840、节点分类结果融合步骤S860、以及更新步骤S870的输出结果。图10示出并行执行局部图卷积操作的情况。在这种情况下，在并行执行的局部图卷积操作之间可以共享参数。特别地，在图10的右下角的方框中，示出针对一个可疑节点的投票过程。此外，应注意，图10示出子图均为正常子图的情况。还应注意，在图10中示出的图和子图仅仅是示意性的，而非意在限制本公开的范围。比如，在图10中示出的图和子图并没有完整地示出从每个节点连出的K条边。

如上所述，通过使用如第二实施例中所描述的两级(two-stage)分类方法(即包括一次分类和二次分类的方法)，能够更准确地分类至少可疑节点，从而提高对节点进行分类的精度。再一次地，相比于如之前提及的基于最大连通子图的人脸识别数据清洗方法，根据第二实施例的分类方法能够出色地分类相似度高的人脸图像。

接下来，参考图9描述局部图卷积网络的反向传播过程。

在反向传播的过程中，如下式(7)所示，损失L

其中，损失L

以下，参考图11描述对全局图卷积网络和局部图卷积网络的交互训练。

如图11中的用①指代的虚线所示，通过使用全局图卷积网络的损失L

交互训练策略优于对两个图卷积网络分别进行训练。这是因为，局部图卷积网络并不是一开始就去学习难例，而是根据全局图卷积网络的输出从易到难地进行学习。另一方面，全局图卷积网络也去适应局部图卷积网络，根据局部图卷积网络的学习方向更新自己。

第三实施例

第三实施例致力于在第一和第二实施例中描述的人脸图像分类方法的后处理。在第一和第二实施例中，描述了针对一个数据集的处理，而在第三实施例中，描述的是针对已经对其完成了分类的多个数据集的处理。

接下来，将参考图12至图13描述本公开的第三实施例。

图12是根据本公开第三实施例的示例性人脸图像分类后处理装置1200的框图。

如图12所示，装置1200可以包括：噪音图像删除部件1210，被配置成从图像集中删除噪音图像，从而更新图像集；图像集合并部件1220，被配置成对多个更新后的图像集进行比较和合并，从而得到合并的图像集，该合并的图像集与同一目标人对应；图像恢复部件330，被配置成恢复从每个图像集中错误删除的图像从而扩大合并的图像集；以及重复图像删除部件1240，被配置成从合并的图像集中删除重复图像。

下文将进一步详细描述如图12所示的各部件的操作。

图13是图示根据本公开第三实施例的示例性人脸图像分类后处理方法1300的流程图。

在步骤S1310处，噪音图像删除部件1210从图像集中删除噪音图像，从而更新图像集。也就是说，噪音图像删除部件1210从与图像集对应的图中删除噪音节点，从而更新图。结果，得到清洗后的图，也即清洗后的图像集。

在步骤S1320处，图像集合并部件1220对多个更新后的图像集进行比较和合并，从而得到合并的图像集，该合并的图像集与同一目标人对应。在一个例子中，图像集合并部件1220计算每个更新后的图的中心，找出中心重合或者接近的图，并且合并找出的图。结果，能够得到与同一目标人对应的合并的图。这里，中心接近指的是中心之间的距离小于等于预设的距离。例如，图像集合并部件1220可以计算每个更新后的图的各节点的值的平均值，作为每个更新后的图的中心。

在步骤S1330处，图像恢复部件330恢复从每个图像集中错误删除的图像从而扩大合并的图像集。在一个例子中，对于从被合并的多个图像集中的每个图像集中删除的图像，图像恢复部件330将该图像的特征与前述合并的图的中心进行比较，并且在该图像与前述合并的图的中心之间的相似度大于第六阈值的情况下，将该图像恢复到在步骤S1320处得到的图像集中。

在步骤S1340处，重复图像删除部件1240从在步骤S1330处得到的图像集中删除重复图像。在一个例子中，重复图像删除部件1240使用局部聚合描述符向量(Vector ofLocally Aggregated Descriptors，VLAD)聚类方法来删除图像集中的重复图像。

通过采用根据第三实施例的人脸图像分类后处理，能够得到高质量的清洗后的人脸图像集，该人脸图像集与同一目标人对应。

第四实施例

在第四实施例中，描述对相册中的新图像进行分类的装置和方法。接下来，将参考图14至图15描述本公开的第四实施例。

图14是根据本公开第四实施例的示例性相册图像更新装置1400的框图。

如图14所示，装置1400可以包括：图和图像接收部件1410，被配置成接收与相册中的图像集对应的图，在该图中，图像集中的每个图像由一个节点表示，连接节点的边表示节点之间的相似度关系，每个节点的值表示对应图像的已提取的特征，并且在该图中，每个节点已经被分类为正常节点或者噪音节点，并且接收输入到图像集中的新图像；新节点创建部件1420，被配置成提取新图像的特征，计算在新图像与图像集中的每个其他图像之间的相似度，并且创建与新图像对应的新节点以及与新节点连接的边；子图构建部件1430，被配置成构建子图，该子图至少包括新节点、该新节点的邻居节点以及在新节点和其邻居节点之间设立的边；新图像分类部件1440，被配置成基于新图像的特征以及所构建的子图，通过使用图卷积网络来确定新节点的概率值，并且，基于所确定的概率值，将新节点分类为正常节点或者噪音节点。

下文将进一步详细描述如图14所示的各部件的操作。

图15是图示根据本公开第四实施例的示例性相册图像更新方法1500的流程图。

在步骤S1510处，图和图像接收部件1410接收与相册中的图像集对应的如上所述的图，并且接收输入到图像集中的新图像。相册中的图像集例如可以包括主人(即目标人)的人脸图像、其他人的人脸图像以及非人脸的人脸图像(比如风景照等)。

在步骤S1520处，新节点创建部件1420提取新图像的特征，计算在新图像与图像集中的每个其他图像之间的相似度，并且创建与新图像对应的新节点以及与新节点连接的边。这里，提取特征及计算相似度的操作与参考图4描述的对应操作相同。这里，创建与新节点连接的边的步骤与参考图4描述的设立边的操作相同。

在步骤S1530处，子图构建部件1430构建子图，该子图至少包括新节点、该新节点的邻居节点以及在新节点和其邻居节点之间设立的边。新节点的邻居节点可以包括新节点的单跳节点和双跳节点。在一个例子中，所构建的子图包括：在步骤S1510处接收的图中的正常节点中的至少一部分节点、新节点、该新节点的邻居节点以及在所有这些节点之间设立的边。

在步骤S1540处，新图像分类部件1440基于新图像的特征以及所构建的子图，通过使用图卷积网络来确定新节点的概率值，并且，基于所确定的概率值，将新节点分类为正常节点或者噪音节点。更具体而言，新图像分类部件1440将所构建的子图、新图像的特征、图中的节点的值(表示对应图像的已提取的特征)以及特征之间的相似度输入到图卷积网络中，并且输出得自于图卷积网络的新节点的概率值。进一步地，新图像分类部件1440通过将新节点的概率值与第七阈值进行比较，将新节点分类为表示主人的人脸图像的正常节点或者表示噪音图像的噪音节点。这里，噪音图像指除主人外的其他人的人脸图像或者非人脸图像。可选地，可以用数字“1”来标记正常节点，并且用数字“0”来标记噪音节点。这里，第七阈值例如可以是0.5。

根据第四实施例的相册更新方法，通过使用图卷积网络来分类新图像，可以准确地分类新图像。更具体而言，可以将新图像准确地分类为主人的图像或者噪音图像。

应注意，以上描述了将新图像分类为主人的图像或非主人的图像的情形。然而清楚的是，如上所述的装置和方法同样可以用于将新图像分类为某个目标人(比如主人的亲属、朋友等)的图像或者非目标人的图像。

硬件实现

图16示出根据本公开的示例性实施例的其中可应用本公开的一般硬件环境1600。

参考图16，现在将描述作为可应用于本公开的各方面的硬件设备的示例的计算设备1600。计算设备1600可以是被配置成执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、智能电话、便携式相机或其任意组合。上述装置100、300、700、1200、1400中的每一个可以整体或至少部分地由计算设备1600或类似的设备或系统来实现。

计算设备1600可以包括能够经由一个或多个接口与总线1602连接或者与总线1602通信的元件。例如，计算设备1600可以包括总线1602、一个或多个处理器1604、一个或多个输入设备1606以及一个或多个输出设备1608。一个或多个处理器1604可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(诸如专用处理芯片)。输入设备1606可以是能够向计算设备输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备1608可以是能够呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端和/或打印机。计算设备1600还可以包括非瞬态存储设备1610或与非瞬态存储设备1610连接，非瞬态存储设备1610可以是非瞬态的并且可以实现数据存储库的任何存储设备，并且可以包括但不限于盘驱动器、光学存储设备、固态存储装置、软盘、柔性盘、硬盘、磁带或任何其它磁性介质、紧凑型盘或任何其它光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓存存储器和/或任何其它存储器芯片或盒带、和/或计算机可以从其读取数据、指令和/或代码的任何其它介质。非瞬态存储设备1610可以是可从接口拆卸的。非暂态存储设备1610可以具有用于实现上述方法和步骤的数据/指令/代码。计算设备1600还可以包括通信设备1612。通信设备1612可以是能够与外部装置和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网络卡、红外通信设备、无线通信装备和/或诸如蓝牙

总线1602可以包括但不限于工业标准体系架构(ISA)总线、微通道体系架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线。

计算设备1600还可以包括工作存储器1614，工作存储器1614可以是可以存储对处理器1604的工作有用的指令和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素可以位于工作存储器1614中，包括但不限于操作系统1616、一个或多个应用程序1618、驱动程序和/或其它数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序1618中，并且上述装置100、300、700、1200、1400中的每一个的部件可以通过处理器1604读取并执行一个或多个应用程序1618的指令来实现。更具体地，图构建部件140可以例如由处理器1604在执行具有执行步骤S240的指令的应用程序1618时实现。概率值确定部件150可以例如由处理器1604在执行具有执行步骤S250的指令的应用程序1618时实现。节点分类部件160可以例如由处理器1604在执行具有执行步骤S260的指令的应用程序1618时实现。并且，类似地，图像集接收部件110、特征提取部件120、相似度计算部件130可以例如由处理器1604在执行具有分别执行步骤S210、S220、S230的指令的应用程序1618时实现。此外，同样地，上述装置300、700、1200、1400中的每一个的部件可以通过处理器1604读取并执行具有相应程序指令的应用程序1618来实现。软件要素的指令的可执行代码或源代码可以存储在非瞬态计算机可读存储介质(诸如上述(一个或多个)存储设备1610)中，并且可以在可能编译和/或安装的情况下被读入到工作存储器1614中。软件要素的指令的可执行代码或源代码也可以从远程位置下载。

从上述实施例中，本领域技术人员可以清楚地知晓，可以通过软件及必要的硬件来实现本公开，或者可以通过硬件、固件等来实现本公开。基于这种理解，可以部分地以软件形式来实现本公开的实施例。计算机软件可以存储在计算机的可读存储介质中，比如软盘、硬盘、光盘或闪存中。计算机软件包括使得计算机(例如个人计算机、服务站或网络终端)运行根据本公开的各个实施例的方法或其一部分的一系列指令。

已经这样描述了本公开，清楚的是，本公开可以以许多种方式变化。这些变化不被视为背离了本公开的精神和范围，而是对于本领域技术人员而言显而易见的所有这种修改意欲被包括在以下权利要求的范围中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李献;温东超;赵东悦;邓伟洪;胡佳妮;
专利申请人：佳能株式会社;北京邮电大学;