掌桥专利:专业的专利平台
掌桥专利
首页

档案合并方法、装置、电子设备以及存储介质

文献发布时间:2024-04-18 20:01:23


档案合并方法、装置、电子设备以及存储介质

技术领域

本发明涉及数据处理领域,尤其涉及一种档案合并方法、装置、电子设备及存储介质。

背景技术

随着数字化的推广,对于人员档案的存储逐渐由纸质化转为数字化存储。而通过道路摄像头等装置进行采集的人脸图像通常都不具有标签,在此类情形下,由于数据规模较大,通常采用数据分片聚类的方式进行图片聚类,得到每个分片内的人员档案,再采用随机抽样的方法,从每个分片内的人员档案中抽取样本图片,根据样本图片重新聚类,进行档案合并。然而,通过随机采样得到的样本图片往往并不能够完整的代表一个人的全部人脸信息,从而导致档案合并时准确性较低,可能出现一个人员具有多个档案的情形。

发明内容

本发明实施例提供一种档案合并方法,旨在解决现有档案合并准确性较低的问题。根据每个人脸图片之间的相似度连接边关系,确定每个人脸图片在初始档案中的紧密度,根据紧密度提取出的待聚类人脸图片,根据待聚类人脸图片重新聚类,进行档案合并,得到目标档案,根据紧密度提取出的待聚类人脸图片能够很好的代表一个人的全部人脸信息,进而在进行聚类后,根据目标聚类簇进行档案合并,提升档案合并的准确性。

第一方面,本发明实施例提供一种档案合并方法,其特征在于,所述方法包括以下步骤:

获取多个初始档案,每个所述初始档案中包括多个人脸图片;

对每个所述初始档案,确定所述多个人脸图片中每个所述人脸图片与其他人脸图片之间的相似度,得到每个所述人脸图片对应的相似度连接边,所述其他人脸图片为所述多个人脸图片中除每个所述人脸图片之外的人脸图片;

根据每个所述人脸图片对应的相似度连接边,确定每个所述人脸图片与每个所述初始档案的紧密度;

在每个所述初始档案中提取出所述紧密度满足预设条件的人脸图片作为待聚类人脸图片;

对所述多个初始档案的所述待聚类人脸图片进行聚类处理,得到多个目标聚类簇,每个所述目标聚类簇中包括至少一个待聚类人脸图片;

将多个所述初始档案中每个所述目标聚类簇对应的初始档案作为待合并初始档案,所述待合并的初始档案中每个所述初始档案的至少一个待聚类人脸图片属于同一个所述目标聚类簇;

基于所述待合并的初始档案进行档案合并处理,得到目标档案。

可选地,所述根据每个所述人脸图片对应的相似度连接边,确定每个所述人脸图片与每个所述初始档案的紧密度,包括:

根据预设的相似度过滤阈值组以及时空关系,对所述相似度连接边进行过滤处理,得到每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的目标相似度连接边数量,所述预设的相似度过滤阈值组中包括每个预设的相似度过滤阈值;

基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的目标相似度连接边数量,确定每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值;

基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值以及所述预设的相似度过滤阈值组,确定每个所述人脸图片与每个所述初始档案的紧密度。

可选地,所述基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的目标相似度连接边数量,确定每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值,包括:

基于初始档案中所有所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的所有目标相似度连接边,构建目标相似度连接边集合,所述目标相似度连接边集合包括每个所述初始档案中每个所述人脸图像对应的目标相似度连接边;

对所述目标相似度连接边集合中重复的目标相似度连接边进行去重处理,得到去重后的整体相似度连接边数量;

基于每个所述人脸图片的目标相似度连接边数量与所述去重后的整体相似度连接边数量的比值,确定每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值。

可选地,所述基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值以及所述预设的相似度过滤阈值组,确定每个所述人脸图片与每个所述初始档案的紧密度,包括:

基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值,构建紧密值矩阵;

基于所述预设的相似度过滤阈值组,构建系数矩阵;

基于所述紧密值矩阵以及所述系数矩阵,确定每个所述人脸图片与每个所述初始档案的紧密度。

可选地,所述基于所述预设的相似度过滤阈值组,构建系数矩阵,包括:

基于每个所述预设的相似度过滤阈值,划分紧密度系数;

基于所述紧密度系数,构建所述系数矩阵。

可选地,所述在每个所述初始档案中提取出所述紧密度满足预设条件的人脸图片作为待聚类人脸图片,包括:

基于人脸图片的紧密度,对每个所述初始档案中的人脸图片进行排序,得到每个所述初始档案的人脸图片排序集;

按照所述预设条件在每个所述人脸图片排序集提取待聚类的人脸图片。

可选地,所述基于所述待合并的初始档案进行档案合并处理,得到目标档案,包括:

基于所述待合并的初始档案之间的相似度关系以及时空关系,确定所述待合并的初始档案之间是否需要进行合并;

当需要合并时,将所述待合并的初始档案进行档案合并,得到所述目标档案。

第二方面,本发明实施例还提供了一种档案合并装置,所述档案合并装置包括:

第一获取模块,用于获取多个初始档案,每个所述初始档案中包括多个人脸图片;

第一确定模块,用于对每个所述初始档案,确定所述多个人脸图片中每个所述人脸图片与其他人脸图片之间的相似度,得到每个所述人脸图片对应的相似度连接边,所述其他人脸图片为所述多个人脸图片中除每个所述人脸图片之外的人脸图片;

第二确定模块,用于根据每个所述人脸图片对应的相似度连接边,确定每个所述人脸图片与每个所述初始档案的紧密度;

第一提取模块,用于在每个所述初始档案中提取出所述紧密度满足预设条件的人脸图片作为待聚类人脸图片;

第一聚类模块,用于对所述多个初始档案的所述待聚类人脸图片进行聚类处理,得到多个目标聚类簇,每个所述目标聚类簇中包括至少一个待聚类人脸图片;

待合并模块,用于将多个所述初始档案中每个所述目标聚类簇对应的初始档案作为待合并初始档案,所述待合并的初始档案中每个所述初始档案的至少一个待聚类人脸图片属于同一个所述目标聚类簇;

档案合并模块,用于基于所述待合并的初始档案进行档案合并处理,得到目标档案。

第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例提供的档案合并方法中的步骤。

第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现发明实施例提供的档案合并方法中的步骤。

本发明实施例中,获取多个初始档案,每个所述初始档案中包括多个人脸图片;对每个所述初始档案,确定所述多个人脸图片中每个所述人脸图片与其他人脸图片之间的相似度,得到每个所述人脸图片对应的相似度连接边,所述其他人脸图片为所述多个人脸图片中除每个所述人脸图片之外的人脸图片;根据每个所述人脸图片对应的相似度连接边,确定每个所述人脸图片与每个所述初始档案的紧密度;在每个所述初始档案中提取出所述紧密度满足预设条件的人脸图片作为待聚类人脸图片;对所述多个初始档案的所述待聚类人脸图片进行聚类处理,得到多个目标聚类簇,每个所述目标聚类簇中包括至少一个待聚类人脸图片;将多个所述初始档案中每个所述目标聚类簇对应的初始档案作为待合并的初始档案,所述待合并的初始档案中每个所述初始档案的至少一个待聚类人脸图片属于同一个所述目标聚类簇;基于所述待合并的初始档案进行档案合并处理,得到目标档案。根据每个人脸图片之间的相似度连接边关系,确定每个人脸图片在初始档案中的紧密度,根据紧密度提取出的待聚类人脸图片,根据待聚类人脸图片重新聚类,进行档案合并,得到目标档案,根据紧密度提取出的待聚类人脸图片能够很好的代表一个人的全部人脸信息,进而在进行聚类后,根据目标聚类簇进行档案合并,提升档案合并的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种档案合并方法的流程图;

图2是本发明实施例提供的一种紧密值矩阵的结构示意图;

图3是本发明实施例提供的一种系数矩阵的结构示意图;

图4是本发明实施例中提供的一种档案合并装置的结构示意图;

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,图1是本发明实施例提供的一种档案合并方法的流程图,包括:

101、获取多个初始档案。

在本方面实施例中,上述档案合并方法可以应用于档案管理平台,上述档案管理平台可以由服务器或服务器构建而成,上述服务器或服务器集群可以是具有图像处理、图像识别、数据存储、数据处理、数据传输等功能的任意电子设备。上述档案管理平台可以根据获取到的人脸图片进行聚类处理,得到多个初始档案。

具体的,可以根据获取到的人脸图片,进行局部分片聚类,得到每个初始档案,上述初始档案中包括多个人脸图片,每个人脸图片之间具有人脸图片相似度确定出的相似度连接边。每个上述初始档案可以对应一个类别,上述类别可以是个体类别或家庭类别。每个上述初始档案对应一个档案标识,每个上述人脸图片对应一个图片标识,每个上述人脸图片还可以对应有抓拍时间、抓拍设备号以及人脸特征值。上述图片标识可以是人脸图片唯一标识tid,上述档案标识可以是档案标识aid,上述人脸特征值可以用于计算每个人脸图片之间的人脸图片相似度,上述抓拍时间可以用于确定每个人脸图片的采集时间,上述抓拍设备号可以用于确定每个人脸图片的采集地点,根据上述采集地点以及采集时间确定每个人脸图片之间的时空关系。

上述局部分片聚类可以理解为将人脸库中的所有人脸图片通过分片策略,将所有人脸图片通过随机采样等方式随机抽取人脸图片,分到不同的集合内,每个集合可以理解为一片,每个集合内包括多张人脸图片,每个集合单独进行聚类处理(即可以理解为局部分片聚类或片内聚档)。

例如,当上述人脸库中包含有一千万张人脸图片时,可以通过上述分片策略,将上述一千万张人脸图片随机分成十份,每一份为一百万张人脸图片,每一百万张人脸图片构建一个集合,对每个集合内的一百万张人脸图片单独进行聚类处理,得到每个集合对应的初始聚类簇,根据上述初始聚类簇构建得到上述初始档案,每个集合对应多个初始档案,由于是单独聚类处理,因此不同集合的初始档案可能是同一个人或同一个家庭的档案,需要将不同集合的初始档案进行档案合并。

可以理解的是,当人脸图片数量的数据规模过大时,将所有人脸图片一起聚类会导致消费资源非常大,且可能由于硬件性能问题导致无法计算出结果。因此,可以通过局部分片聚类,得到每个分片的分片档案,将每个分片的分片档案作为上述初始档案,其中每个分片档案对应一个初始档案。

在一种可能的实施例中,当上述档案管理平台获取到符合数据规模的多个人脸图片后,将多个人脸图片分为多份,每份为一片,在片内进行聚类处理,得到得到每个分片的分片档案,从每个分片的分片档案通过随机采样的方式,从每个分片的分片档案中提取每个分片档案的代表图片,根据每个分片档案的代表图片进行聚类处理,得到代表图片的聚类结果,根据代表图片的聚类结果,将分片档案进行合并,得到上述初始档案。

102、对每个初始档案,确定多个人脸图片中每个人脸图片与其他人脸图片之间的相似度,得到每个人脸图片对应的相似度连接边。

在本发明实施例中,上述其他人脸图片可以理解为上述多个人脸图片中除每个人脸图片之外的人脸图片,例如若上述多个人脸图片中包括1号人脸图片、2号人脸图片以及3号人脸图片,当每个人脸图片为1号人脸图片时,则其他人脸图片为2号人脸图片以及3号人脸图片,当每个人脸图片为2号人脸图片时,则其他人脸图片为1号人脸图片以及3号人脸图片,当每个人脸图片为3号人脸图片时,则其他人脸图片为1号人脸图片以及2号人脸图片。

具体的,上述相似度可以通过欧氏距离、余弦相似度等方法计算得到,每两个人脸图片之间若相似度大于零,则上述两个人脸图片之间具有上述相似度连接边,反之则不具有相似度连接边。

在一种可能的实施例中,当上述档案管理平台获取到多个上述初始档案后,可以通过上述欧式距离或余弦相似度计算每个人脸图片与其它人脸图片之间的相似度,将相似度大于0的两个人脸图片之间进行连线,得到对应的相似度连接边。

103、根据每个人脸图片对应的相似度连接边,确定每个人脸图片与每个初始档案的紧密度。

在本发明实施例中,当每两个人脸图片之间具有人脸图片相似度(即相似度大于0)时,则可以将上述两个人脸图片进行连线,得到对应的相似度连接边,可以根据预设的相似度过滤阈值组以及时空关系,或者可以仅根据上述预设的相似度阈值组,对每个人脸图片之间的相似度连接边进行过滤处理,得到目标相似度连接边。根据目标相似度连接边的数量,确定每个人脸图片在初始档案中的紧密度。

上述预设的相似度过滤阈值组可以通过下述式子进行说明:

Q∈[q1,,qx]

其中上述Q表示为上述预设的相似度过滤阈值组,上q1至qx表示为上述相似度过滤阈值组中的相似度过滤阈值,需要说明的是,q1至qx之间的间隔为固定间隔,上述相似度过滤阈值组的设定可以根据历史聚档经验或上述档案管理平台的硬件性能设定,上述档案管理平台的硬件性能可以与上述相似度过滤阈值组成正比,当上述档案管理平台的硬件性能越好,则可以设置越大的相似度过滤阈值组(即相似度过滤阈值越多,固定间隔越小),当上述档案管理平台的硬件性能越差,则可以设置越小的相似度过滤阈值组(即相似度过滤阈值越少,固定间隔越大)。当上述相似度过滤阈值组越大时,最终得到的紧密度越准确,当上述相似度过滤阈值组越小时,最终得到的紧密度与实际偏差越大。例如上述固定间隔可以是0.05,当上述q1为0.955,上述qx为0.960时,则上述Q中仅有两个相似度过滤阈值,当上述q1为0.900,上述qx为0.960是,则上述Q中有12个相似度过滤阈值,其中包括q1(0.900)、q2(0.905)、q3(0.910)…qx(0.960)。

需要说明的是,当上述初始档案对应的类别为个体类别时,则可以根据上述预设的相似度过滤阈值组以及时空关系,对每个人脸图片之间的相似度连接边进行过滤处理,得到目标相似度连接边。当上述初始档案对应的类别为家庭类别时,则可以仅根据上述预设的相似度阈值组,对每个人脸图片之间的相似度连接边进行过滤处理,得到不同相似度阈值下的目标相似度连接边。

具体的,当上述初始档案对应的类别为个体类别时,则可以根据上述时空关系对上述相似度连接边进行过滤,例如,根据上述预设的相似度阈值组,过滤相似度小于上述预设的相似度阈值组中的阈值后,得到不同相似度阈值下第一次过滤的相似度连接边,当上述不同相似度阈值下第一次过滤的相似度连接边对应的两个人脸图片的采集时间一致,但采集地点不一致,则说明上述两个人脸图片在时空维度上是具有冲突的,则上述不同相似度阈值下第一次过滤的相似度连接边会被过二次滤掉,无法作为上述目标相似度连接边。

当上述初始档案对应的类别为家庭类别时,则无法通过时空关系作为过滤依据,因此无法根据上述时空关系进行过滤,可以仅根据上述预设的相似度阈值组,过滤相似度小于上述预设的相似度阈值组中的阈值的相似度连接边。

在得到每个初始档案中在不同相似度阈值下的目标相似度连接边后,可以根据每个人脸图片在不同相似度阈值下的目标相似度连接边数量以及上述预设的相似度过滤阈值组,确定每张人脸图片的紧密度。

在一种可能的实施例中,当上述档案管理平台获取到多个初始档案后,基于上述预设的相似度过滤阈值组对每个上述初始档案中的相似度连接边进行相似度过滤,得到不同相似度阈值下的第一次过滤的相似度连接边,基于不同相似度阈值下的第一次过滤的相似度连接边对应的人脸图片之间的时空关系,对不同相似度阈值下的第一次过滤的相似度连接边进行时空过滤,得到上述在不同相似度阈值下的目标相似度连接边,根据上述目标相似度连接边数量以及上述预设的相似度过滤阈值组,确定每张人脸图片的紧密度。

104、在每个初始档案中提取出紧密度符合预设条件的人脸图片作为待聚类人脸图片。

在本发明实施例中,上述预设条件可以是提取每个初始档案中,紧密度靠前的人脸图片。例如,可以是紧密度前3的人脸图片,或者前5的人脸图片。需要说明的是,紧密度越靠前的人脸图片,越能够代表上述初始档案对应的个体类别或家庭类别,但若仅选取一张紧密度最高的人脸图片,则可能无法包含上述初始档案对应的类别的全部信息。

在一种可能的实施例中,当上述档案管理平台根据相似度连接边关系,确定每个人脸图片在初始档案中的紧密度后,按照紧密度的大小,从每个初始档案中,由大至小提取至少三张人脸图片,作为上述待聚类人脸图片。

105、对多个初始档案的待聚类人脸图片进行聚类处理,得到目标聚类簇。

在本发明实施例中,可以将每个初始档案中提取出的待聚类人脸图片添加至预设的空集中,在上述空集中进行聚类处理,得到目标聚类簇。上述目标聚类簇包括至少一个待聚类人脸图片。上述聚类处理可以是通过任一聚类算法实现的,上述聚类算法可以是K-Means算法、层次聚类算法、DBSCAN算法、OPTICS算法、谱聚类算法、BIRCH算法、Mean-Shift算法等。可以理解的是,上述目标聚类簇可以是一个,也可以是多个,具体数量取决于上述待聚类人脸图片的数量以及对应的类别(即上述个体类别或家庭类别),上述目标聚类簇中可以包括一个或多个初始档案对应的人脸图片。

举例来说,若初始档案包括一号初始档案、二号初始档案以及三号初始档案、四号初始档案以及五号初始档案,一号初始档案对应有1号待聚类人脸图片,二号初始档案对应有2号待聚类人脸图片,三号初始档案对应有3号待聚类人脸图片,四号初始档案对应有4号待聚类人脸图片,五号初始档案对应有5号待聚类人脸图片,将上述1号待聚类人脸图片至5号待聚类人脸图片添加至预设的空集中,得到每个上述初始档案对应的集合,通过上述聚类算法对上述集合中的待聚类人脸图片进行聚类处理,得到上述目标聚类簇。

在一种可能的实施例中,当上述档案管理平台在每个初始档案中提取出紧密度符合预设条件的人脸图片作为待聚类人脸图片后,将每个初始档案中提取出的待聚类人脸图片添加至预设的空集中,通过上述任一聚类算法,在上述空集中进行聚类处理,得到目标聚类簇。

106、将多个初始档案中每个目标聚类簇对应的初始档案作为待合并的初始档案。

在本发明实施例中,上述待合并的初始档案中每个上述初始档案的至少一个待聚类人脸图片属于同一个所述目标聚类簇,具体的,假设聚类处理后,得到1号目标聚类簇、2号目标聚类簇以及3号目标聚类簇,其中1号目标聚类簇中包括上述1号待聚类人脸图片以及4号待聚类人脸图片,上述2号目标聚类簇中包括上述2号待聚类人脸图片以及3号待聚类人脸图片,上述3号目标聚类簇中包括上述5号待聚类人脸图片,则1号目标聚类簇中1号人脸图片对应的一号初始档案与4号人脸图片对应的四号初始档案为待合并的初始档案,2号目标聚类簇中2号人脸图片对应的二号初始档案与3号人脸图片对应的三号初始档案为待合并的初始档案,3号目标聚类簇中5号人脸图片对应的五号初始档案为待合并的初始档案。

可以理解的是,档案合并为将两个初始档案进行合并,因此,最少需要两个初始档案,而上述3号目标聚类簇仅对应一个五号初始档案,无其余初始档案与五号初始档案合并,因此,上述五号初始档案无需进行档案合并。

举例来说,上述待聚类人脸图片可以对应有图片标识,可以根据上述图片标识,确定上述待聚类人脸图片对应的初始档案,当同一个目标聚类簇中的待聚类人脸图片对应的初始档案仅为一个初始档案时,则说明上述目标聚类簇中没有待合并的初始档案,当同一个目标聚类簇中的待聚类人脸图片的图片标识为1号人脸图片以及2号人脸图片,其中1号人脸图片对应的初始档案为一号初始档案,2号人脸图片对应的初始档案为2二号初始档案,则上述一号初始档案以及上述二号初始档案为待合并的初始档案。

可以理解的是,每一个目标聚类簇可以对应有多个待合并的初始档案,当目标聚类簇中仅对应一个初始档案时,则上述一个初始档案无法作为待合并的初始档案,目标聚类簇对应至少两个初始档案时,上述至少两个初始档案才能够作为上述待合并的初始档案。

在一种可能的实施例中,当上述档案管理平台通过上述聚类算法在上述空集中进行聚类处理,得到目标聚类簇后,可以根据上述目标聚类簇中待聚类人脸图片的图片标识,确定目标聚类簇对应的至少两个的初始档案,将上述目标聚类簇对应的至少两个的初始档案作为待合并的初始档案。

107、基于待合并的初始档案进行档案合并处理,得到目标档案。

在本发明实施例中,可以根据目标聚类簇中,待聚类人脸图片的图片标识,确定待聚类人脸图片对应的初始档案,根据待聚类人脸图片对应的初始档案的档案标识,确定待合并的初始档案,对上述待合并的初始档案进行档案合并,得到上述目标档案。

具体的,若上述目标聚类簇中包括一号初始档案中的1号人脸图片、2号人脸图片以及五号初始档案中的2号人脸图片、3号人脸图片,则上述一号初始档案与上述五号初始档案可能为同一个类别(即上述个体类别或家庭类别)的档案,上述一号初始档案以及五号初始档案为上述目标聚类簇对应的待合并的初始档案,此时,可以根据上述一号初始档案的档案标识,提取上述一号初始档案中所有人脸图片,根据上述五号初始档案的档案标识,提取上述五号初始档案中所有人脸图片,根据上述一号初始档案中所有人脸图片以及上述五号初始档案中所有人脸图片的人脸图片相似度以及时空关系或者人工审核,再次判定上述一号初始档案与上述五号初始档案是否能够合并,当能够合并时,将上述一号初始档案与上述五号初始档案进行合并,得到合并后的初始档案。

在一种可能的实施例中,当上述档案管理平台对待聚类人脸图片进行聚类处理,得到目标聚类簇后,根据目标聚类簇中,待聚类人脸图片的图片标识,确定待聚类人脸图片对应的初始档案。根据待聚类人脸图片对应的初始档案的档案标识,进行档案合并,得到上述目标档案。

本发明实施例中,获取多个初始档案,每个所述初始档案中包括多个人脸图片;对每个所述初始档案,确定所述多个人脸图片中每个所述人脸图片与其他人脸图片之间的相似度,得到每个所述人脸图片对应的相似度连接边,所述其他人脸图片为所述多个人脸图片中除每个所述人脸图片之外的人脸图片;根据每个所述人脸图片对应的相似度连接边,确定每个所述人脸图片与每个所述初始档案的紧密度;在每个所述初始档案中提取出所述紧密度满足预设条件的人脸图片作为待聚类人脸图片;对所述多个初始档案的所述待聚类人脸图片进行聚类处理,得到多个目标聚类簇,每个所述目标聚类簇中包括至少一个待聚类人脸图片;将多个所述初始档案中每个所述目标聚类簇对应的初始档案作为待合并的初始档案,所述待合并的初始档案中每个所述初始档案的至少一个待聚类人脸图片属于同一个所述目标聚类簇;基于所述待合并的初始档案进行档案合并处理,得到目标档案。根据每个人脸图片之间的相似度连接边关系,确定每个人脸图片在初始档案中的紧密度,根据紧密度提取出的待聚类人脸图片,根据待聚类人脸图片重新聚类,进行档案合并,得到目标档案,根据紧密度提取出的待聚类人脸图片能够很好的代表一个人的全部人脸信息,进而在进行聚类后,根据目标聚类簇进行档案合并,提升档案合并的准确性。

可以理解的是,在本申请的具体实施方式中,涉及到人脸图片等相关的数据,当本申请中实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

可选地,在根据每个人脸图片对应的相似度连接边,确定每个人脸图片与每个初始档案的紧密度的步骤中,还可以根据预设的相似度过滤阈值组以及时空关系,对相似度连接边进行过滤处理,得到每个人脸图片在不同相似度过滤阈值下与其它人脸图片的目标相似度连接边数量,预设的相似度过滤阈值组中包括每个预设的相似度过滤阈值;基于每个人脸图片在不同相似度过滤阈值下与其它人脸图片的目标相似度连接边数量,确定每个人脸图片在不同相似度过滤阈值下与其它人脸图片的紧密值;基于每个人脸图片在不同相似度过滤阈值下与其它人脸图片的紧密值以及预设的相似度过滤阈值组,确定每个人脸图片与每个初始档案的紧密度。

在本发明实施例中,上述紧密值可以理解为上述人脸图片在一个相似度阈值下与其它人脸图片的紧密关系,上述紧密度,可以理解为上述人脸图片与上述初始档案的紧密关系,具体的,上述紧密值可以理解为上述人脸图片在一个相似度阈值下的紧密值,由于相似度阈值可以是多个,则上述紧密值也可以是多个,而上述紧密度可以理解为将上述人脸图片在多个相似度阈值下的紧密值通过紧密度系数进行拟合,得到的紧密度。可以根据上述预设的相似度过滤阈值组,对每个上述人脸图片的相似度连接边进行相似度过滤处理,得到在不同相似度阈值下的第一次过滤的相似度连接边,基于上述在不同相似度阈值下的第一次过滤的相似度连接边之间的时空关系,对上述在不同相似度阈值下的第一次过滤的相似度连接边进行时空过滤,得到上述不同相似度阈值下的目标相似度连接边。

可以理解的是,在上述相似度阈值组中的不同相似度阈值下,上述目标相似度连接边的数量也会相应增加或减少,例如,上述相似度阈值组中,包括第一相似度阈值以及第二相似度阈值,其中第一相似度阈值小于上述第二相似度阈值,则第一相似度阈值对应的目标相似度连接边数量,大于上述第二相似度阈值对应的目标相似度连接边数量(即上述目标相似度连接边数量与上述相似度阈值的大小成反比)。

需要说明的是,上述目标相似度连接边对应上述相似度过滤阈值,上述目标相似度连接边对应的两个人脸图片之间的人脸图片相似度大于上述预设的相似度过滤阈值组中的相似度过滤阈值,且上述两个人脸图片的时空关系没有出现时空冲突。

举例来说,若相似度连接边为1号连接边,相似度过滤阈值组中包括1号阈值“q1”以及2号阈值“q2”,上述相似度连接边的相似度大于上述“q1”小于上述“q2”,则对于“q1”来说,上述1号连接边为目标相似度连接边,对于“q2”来说,上述1号连接边不为目标相似度连接边。

可以基于每个人脸图片的目标相似度连接边数量,确定每个人脸图片在不同相似度阈值下的紧密值,需要说明的是,当人脸图片的目标相似度连接边数量越多,则对应的紧密值越高,越能够代表上述初始档案的类别(即个体类别或家庭类别),反之则越低,越不能够代表上述初始档案的类别。基于预设的相似度过滤阈值组,划分紧密度系数,根据上述紧密度系数,将每个人脸图片在不同相似度阈值下的紧密值进行拟合,得到每个上述人脸图片与其对应的初始档案的紧密度。

可选地,在基于每个人脸图片在不同相似度过滤阈值下与其它人脸图片的目标相似度连接边数量,确定每个人脸图片在不同相似度过滤阈值下与其它人脸图片的紧密值的步骤中,还可以基于初始档案中所有人脸图片在不同相似度过滤阈值下与其它人脸图片的所有目标相似度连接边,构建目标相似度连接边集合;对目标相似度连接边集合中重复的目标相似度连接边进行去重处理,得到去重后的整体相似度连接边数量;基于每个人脸图片的目标相似度连接边数量与去重后的整体相似度连接边数量的比值,确定每个人脸图片在不同相似度过滤阈值下与其它人脸图片的紧密值。

在本发明实施例中,上述目标相似度连接边集合可以包括每个上述初始档案中每个上述人脸图像对应的目标相似度连接边,可以基于初始档案中所有人脸图片在不同相似度过滤阈值下与其它人脸图片的所有目标相似度连接边,构建目标相似度连接边集合,对目标相似度连接边集合中重复的目标相似度连接边进行去重处理,得到去重后的整体相似度连接边数量。可以理解的是,每个目标相似度连接边集合对应一个初始档案。

例如,在目标相似度连接边集合中,包括1号人脸图片、2号人脸图片以及3号人脸图片,1号人脸图片的目标相似度连接边包括1号连接边以及2号连接边,2号人脸图片的目标相似度连接边包括1号连接边以及3号连接边,3号人脸图片的目标相似度连接边包括2号连接边以及3号连接边,可以将重复的连接边进行去重处理,仅保留一条,即集合中两个1号连接边去除一个,两个2号连接边去除一个,两个3号连接边去除一个,最终仅保留一个1号连接边一个2号连接边以及一个3号连接边,此时,上述目标相似度连接边集合对应的初始档案的去重的目标相似度连接边数量为3。

根据每个人脸图片的目标相似度连接边数量与去重后的整体相似度连接边数量的比值,确定每个人脸图片在不同相似度过滤阈值下与其它人脸图片的紧密值。

可选地,在基于每个人脸图片在不同相似度过滤阈值下与其它人脸图片的紧密值以及预设的相似度过滤阈值组,确定每个人脸图片与每个初始档案的紧密度的步骤中,还可以基于每个人脸图片在不同相似度过滤阈值下与其它人脸图片的紧密值,构建紧密值矩阵;基于预设的相似度过滤阈值组,构建系数矩阵;基于紧密值矩阵以及系数矩阵,确定每个人脸图片与每个初始档案的紧密度。

在本发明实施例中,在上述预设的相似度过滤阈值组中,包括多个相似度过滤阈值,每个相似度过滤阈值对应一个紧密值,即每张人脸图片包括不同相似度过滤阈值对应的多个紧密值,可以将每张人脸图片的紧密值,按照相似度过滤阈值的大小,从左到右排列成行,得到每张人脸图片的紧密值排列行,按照每张人脸图片的图片标识的大小,将每张人脸图片的排列行从上之下进行排列,得到上述紧密值矩阵,上述紧密值矩阵可以通过如图2所示的一种紧密值矩阵的结构示意图进行说明,图2中,Q1、Q2、Q3、Qx为上述预设的相似度阈值组中的相似度阈值,上述预设的相似度阈值组中阈值的数量可以至少为10组,T1表示为1号人脸图片、T2表示为2号人脸图片、T3表示为3号人脸图片,TN表示为N号人脸图片,T

上述系数矩阵可以通过如图3所示的一种系数矩阵的结构示意图进行说明,图2中,P1、P2、P3、Px表示为紧密度系数,需要说明的是,其中P1与上述相似度阈值Q1对应,P2与上述相似度阈值Q2对应,P3与上述相似度阈值Q3对应,Px与上述相似度阈值Qx对应。

将上述紧密值矩阵与上述系数矩阵相乘,得到每个相似度阈值下的子紧密度,将上述子紧密度相加,得到上述紧密度。

可选地,在基于预设的相似度过滤阈值组,构建系数矩阵的步骤中,还可以基于每个预设的相似度过滤阈值,划分紧密度系数;基于紧密度系数,构建系数矩阵。

在本发明实施例中,可以基于每个预设的相似度过滤阈值的大小,划分紧密度系数,例如,每个预设的相似度过滤阈值中最小的相似度阈值Q1可以划分0.05的紧密度系数,最大的相似度阈值Qx可以划分0.2的紧密度系数,需要说明的是,上述紧密度系数的划分需要遵循正态分布的规则。

具体的,可以通过下述式子进行说明:

其中,上述x表示相似度阈值的个数,P表示为上述紧密度系数。

具体的,每个相似度阈值对应一个紧密度系数,每个紧密度系数对应一个紧密值,可以根据相似度阈值的大小,从左至右排列成行,得到紧密度系数排列行,将上述紧密度系数排列行作为上述系数矩阵。

可选地,在在每个初始档案中提取出紧密度满足预设条件的人脸图片作为待聚类人脸图片的步骤中,还可以基于人脸图片的紧密度,对每个初始档案中的人脸图片进行排序,得到每个初始档案的人脸图片排序集;按照预设条件在每个人脸图片排序集提取待聚类的人脸图片。

在本法发明实施例中,上述预设条件可以是按照紧密度的大小,从每个初始档案中,由大至小提取至少三张人脸图片。可以根据初始档案建立对应的排序空集,按照紧密度的大小,由大至小,逐一将每个人脸图片添加至对应的排序空集中,得到每个初始档案的人脸图片排序集。基于上述人脸图片排序集,按照上述预设条件,提取上述人脸图片排序集排序靠前的人脸图片,得到初始档案对应的待聚类人脸图片。

可选地,在基于待合并的初始档案进行档案合并处理,得到目标档案的步骤中,还可以基于待合并的初始档案之间的相似度关系以及时空关系,确定待合并的初始档案之间是否需要进行合并;当需要合并时,将待合并的初始档案进行档案合并,得到目标档案。

在本发明实施例中,可以根据目标聚类簇中,待聚类人脸图片的图片标识,确定待聚类人脸图片对应的初始档案,将同一个目标聚类簇对应的初始档案确定为待合并的初始档案,根据待合并的初始档案的档案标识,提取出待合并的初始档案中的人脸图片,根据待合并的初始档案中的人脸图片的人脸特征值,计算待合并的初始档案中的人脸图片之间的人脸特征相似度,与预设的人脸特征相似度阈值进行比对,若待合并的初始档案中的人脸图片之间的人脸特征相似度大于预设的人脸相似度阈值,且待合并的初始档案中的人脸图片的时空关系并未发生冲突,则可以将待合并的初始档案进行合并,得到上述目标档案。

举例来说,若上述待合并的初始档案包括一号初始档案以及二号初始档案,一号初始档案中的1号人脸图片的紧密度在上述一号初始档案中排序靠前(例如,排序为前3),1号人脸图片的采集时间为2023年10月1日23点50分,采集地点为具体的某一个经纬度,二号初始档案中的2号人脸图片的紧密度在上述二号初始档案中排序靠前(例如,排序为前3),2号人脸图片的采集时间为2023年10月1日23点51分,2号人脸图片的采集地点距离上述1号人脸图片的采集地点对应的经纬度相距500公里,则此时上述一号初始档案与上述二号初始档案的时空关系发生冲突。

或者,在不将上述紧密度作为时空关系冲突的判定条件的情况下,可以根据待合并的初始档案之间的人脸图片冲突数量作为判定条件,例如,一号初始档案包括1号人脸图片、2号人脸图片,二号初始档案包括4号人脸图片、5号人脸图片、6号人脸图片,一号初始档案中1号人脸图片的采集时间为2023年10月1日23点50分,采集地点为具体的某一个经纬度,2号人脸图片的采集时间为2023年10月15日08点00分,采集地点为具体的某一个经纬度,二号初始档案中,4号人脸图片的采集时间为2023年10月2日00点00分,采集地点距离上述1号人脸图片的采集地点对应的经纬度相距20公里,6号人脸图片的采集时间为2023年10月15日08点20分,采集地点距离上述2号人脸图片的采集地点对应的经纬度相距100公里。此时,仅根据上述1号人脸图片以及4号人脸图片无法判断上述一号初始档案与上述二号初始档案是否具有时空冲突,仅为疑似具有时空冲突,而根据上述1号人脸图片、4号人脸图片以及2号人脸图片与6号人脸图片之间的采集时间以及采集地点进行判定,二号初始档案中两张人脸图片与一号初始档案中所有人脸图片发生时空冲突,因此,上述一号初始档案与上述二号初始档案的时空关系发生冲突。

如图4所示,本发明实施例还提供一种档案合并装置,包括:

第一获取模块401,用于获取多个初始档案,每个所述初始档案中包括多个人脸图片;

第一确定模块402,用于对每个所述初始档案,确定所述多个人脸图片中每个所述人脸图片与其他人脸图片之间的相似度,得到每个所述人脸图片对应的相似度连接边,所述其他人脸图片为所述多个人脸图片中除每个所述人脸图片之外的人脸图片;

第二确定模块403,用于根据每个所述人脸图片对应的相似度连接边,确定每个所述人脸图片与每个所述初始档案的紧密度;

第一提取模块404,用于在每个所述初始档案中提取出所述紧密度满足预设条件的人脸图片作为待聚类人脸图片;

第一聚类模块405,用于对所述多个初始档案的所述待聚类人脸图片进行聚类处理,得到多个目标聚类簇,每个所述目标聚类簇中包括至少一个待聚类人脸图片;

待合并模块406,用于将多个所述初始档案中每个所述目标聚类簇对应的初始档案作为待合并初始档案,所述待合并的初始档案中每个所述初始档案的至少一个待聚类人脸图片属于同一个所述目标聚类簇;

档案合并模块407,用于基于所述待合并的初始档案进行档案合并处理,得到目标档案。

可选地,所述第二确定模块403,包括:

第一过滤子模块,用于根据预设的相似度过滤阈值组以及时空关系,对所述相似度连接边进行过滤处理,得到每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的目标相似度连接边数量,所述预设的相似度过滤阈值组中包括每个预设的相似度过滤阈值;

第一确定子模块,用于基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的目标相似度连接边数量,确定每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值;

第二确定子模块,用于基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值以及所述预设的相似度过滤阈值组,确定每个所述人脸图片与每个所述初始档案的紧密度。

可选地,所述第一确定子模块,包括:

第一构建单元,用于基于初始档案中所有所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的所有目标相似度连接边,构建目标相似度连接边集合,所述目标相似度连接边集合包括每个所述初始档案中每个所述人脸图像对应的目标相似度连接边;

第一去重单元,用于对所述目标相似度连接边集合中重复的目标相似度连接边进行去重处理,得到去重后的整体相似度连接边数量;

第一确定单元,用于基于每个所述人脸图片的目标相似度连接边数量与所述去重后的整体相似度连接边数量的比值,确定每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值。

可选地,所述第二确定子模块,包括:

第二构建单元,用于基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值,构建紧密值矩阵;

第三构建单元,用于基于所述预设的相似度过滤阈值组,构建系数矩阵;

第二确定单元,用于基于所述紧密值矩阵以及所述系数矩阵,确定每个所述人脸图片与每个所述初始档案的紧密度。

可选地,所述第三构建单元,包括:

第一划分子单元,用于基于每个所述预设的相似度过滤阈值,划分紧密度系数;

第一构建子单元,用于基于所述紧密度系数,构建所述系数矩阵。

可选地,所述第一提取模块404,包括:

第一排序子模块,用于基于人脸图片的紧密度,对每个所述初始档案中的人脸图片进行排序,得到每个所述初始档案的人脸图片排序集;

第一提取子模块,用于按照所述预设条件在每个所述人脸图片排序集提取待聚类的人脸图片。

可选地,所述档案合并模块407,包括:

第三确定子模块,用于基于所述待合并的初始档案之间的相似度关系以及时空关系,确定所述待合并的初始档案之间是否需要进行合并;

档案合并子模块,用于当需要合并时,将所述待合并的初始档案进行档案合并,得到所述目标档案。

如图5所示,本发明实施例还提供一种电子设备,其特征在于,包括处理器,上述处理器可以执行上述任意一项档案合并方法。

具体的,包括处理器501和存储器502以及存储在存储器502上并能在处理器501上运行的执行档案合并方法的计算机程序,其中:

处理器501运行存储器502中所储存的档案合并方法的计算器程序,执行如下步骤:

获取多个初始档案,每个所述初始档案中包括多个人脸图片;

对每个所述初始档案,确定所述多个人脸图片中每个所述人脸图片与其他人脸图片之间的相似度,得到每个所述人脸图片对应的相似度连接边,所述其他人脸图片为所述多个人脸图片中除每个所述人脸图片之外的人脸图片;

根据每个所述人脸图片对应的相似度连接边,确定每个所述人脸图片与每个所述初始档案的紧密度;

在每个所述初始档案中提取出所述紧密度满足预设条件的人脸图片作为待聚类人脸图片;

对所述多个初始档案的所述待聚类人脸图片进行聚类处理,得到多个目标聚类簇,每个所述目标聚类簇中包括至少一个待聚类人脸图片;

将多个所述初始档案中每个所述目标聚类簇对应的初始档案作为待合并初始档案,所述待合并的初始档案中每个所述初始档案的至少一个待聚类人脸图片属于同一个所述目标聚类簇;

基于所述待合并的初始档案进行档案合并处理,得到目标档案。

可选地,处理器501执行的所述根据每个所述人脸图片对应的相似度连接边,确定每个所述人脸图片与每个所述初始档案的紧密度,包括:

根据预设的相似度过滤阈值组以及时空关系,对所述相似度连接边进行过滤处理,得到每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的目标相似度连接边数量,所述预设的相似度过滤阈值组中包括每个预设的相似度过滤阈值;

基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的目标相似度连接边数量,确定每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值;

基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值以及所述预设的相似度过滤阈值组,确定每个所述人脸图片与每个所述初始档案的紧密度。

可选地,处理器501执行的所述基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的目标相似度连接边数量,确定每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值,包括:

基于初始档案中所有所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的所有目标相似度连接边,构建目标相似度连接边集合,所述目标相似度连接边集合包括每个所述初始档案中每个所述人脸图像对应的目标相似度连接边;

对所述目标相似度连接边集合中重复的目标相似度连接边进行去重处理,得到去重后的整体相似度连接边数量;

基于每个所述人脸图片的目标相似度连接边数量与所述去重后的整体相似度连接边数量的比值,确定每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值。

可选地,处理器501执行的所述基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值以及所述预设的相似度过滤阈值组,确定每个所述人脸图片与每个所述初始档案的紧密度,包括:

基于每个所述人脸图片在不同相似度过滤阈值下与所述其它人脸图片的紧密值,构建紧密值矩阵;

基于所述预设的相似度过滤阈值组,构建系数矩阵;

基于所述紧密值矩阵以及所述系数矩阵,确定每个所述人脸图片与每个所述初始档案的紧密度。

可选地,处理器501执行的所述基于所述预设的相似度过滤阈值组,构建系数矩阵,包括:

基于每个所述预设的相似度过滤阈值,划分紧密度系数;

基于所述紧密度系数,构建所述系数矩阵。

可选地,处理器501执行的所述在每个所述初始档案中提取出所述紧密度满足预设条件的人脸图片作为待聚类人脸图片,包括:

基于人脸图片的紧密度,对每个所述初始档案中的人脸图片进行排序,得到每个所述初始档案的人脸图片排序集;

按照所述预设条件在每个所述人脸图片排序集提取待聚类的人脸图片。

可选地,处理器501执行的所述基于所述待合并的初始档案进行档案合并处理,得到目标档案,包括:

基于所述待合并的初始档案之间的相似度关系以及时空关系,确定所述待合并的初始档案之间是否需要进行合并;

当需要合并时,将所述待合并的初始档案进行档案合并,得到所述目标档案。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的档案合并方法或应用端档案合并方法的每个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(RandomAccess Memory,简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

相关技术
  • 一种无锭纺纱装置、无锭纺纱方法及纺纱机
  • 在无锭纺纱机中生头的方法及用于执行该方法的装置
技术分类

06120116550194