掌桥专利:专业的专利平台
掌桥专利
首页

数据标注方法及相关产品

文献发布时间:2023-06-19 11:52:33


数据标注方法及相关产品

技术领域

本申请涉及电子设备技术领域,具体涉及一种数据标注方法及相关产品。

背景技术

人脸识别需要大量有标注数据进行算法训练,为了完成人脸识别任务,可采用搜索引擎或者网络爬虫从网络中收集人脸图像数据,通常很多搜集到的人脸图片都不包含身份信息,通常将收集到的人脸图像数据划分为多组相同标注图像,其中每组标注图像对应于唯一主体的人,需要人工将同一个人的图片合并为一个集合,不同人的图片分为不同集合。然而,部分照片质量较差或拍摄角度差异较大,人工清理预标注照片时可能会很难判断是否归属于当前集合,可能不能准确的将误分照片清理掉;在进行人工合并时,每个集合都要按相似度搜索出多个相似集合,逐一判断是否是同一人进行合并,该过程工作量较大并容易产生遗漏。

发明内容

本申请实施例提供了一种数据标注方法及相关产品,以期提高数据标注的高效性和便捷性。

第一方面,本申请实施例提供一种数据标注方法,应用于电子设备,所述电子设备与人工标注客户端通信连接;所述方法包括:

获取待处理照片,确定所述待处理照片组成初始照片集合;

提取所述初始照片集合中的每张所述待处理照片的特征信息;

根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合;

根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联;

根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注。

第二方面,本申请实施例提供一种数据标注装置,应用于电子设备,所述电子设备与人工标注客户端通信连接;所述数据标注装置包括处理单元、通信单元和存储单元,其中,

所述处理单元,用于获取待处理照片,确定所述待处理照片组成初始照片集合;以及用于提取所述初始照片集合中的每张所述待处理照片的特征信息;以及用于根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合;以及用于根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联;以及用于根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注。

第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第二方面任一方法中所描述的部分或全部步骤。

第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第二方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出,本申请实施例中,提供了一种数据标注方法及相关产品,应用于电子设备,所述电子设备与人工标注客户端通信连接;所述方法包括:电子设备获取待处理照片,确定所述待处理照片组成初始照片集合,再提取所述初始照片集合中的每张所述待处理照片的特征信息,接着根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合,再然后根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联,最后根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注;通过电子设备预标注处理和人工分类处理相结合,从而以较小的人力成本完成大量人脸识别图片的标注工作,同时减少标注过程中产生的标注错误,提高了数据标注的质量,有利于提高数据标注的高效性和准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据标注方法的流程示意图;

图2是本申请实施例提供的另一种数据标注方法的流程示意图;

图3是本申请实施例提供的另一种数据标注方法的流程示意图;

图4是本申请实施例提供的一种电子设备的结构示意图;

图5是本申请实施例提供的一种数据标注装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminaldevice)等等。

下面对本申请实施例进行详细介绍。

请参阅图1,图1是本申请实施例提供了一种数据标注方法的流程示意图,应用于电子设备,所述电子设备与人工标注客户端通信连接;所述方法包括:

S101,电子设备获取待处理照片,确定所述待处理照片组成初始照片集合;

S102,所述电子设备提取所述初始照片集合中的每张所述待处理照片的特征信息;

其中,所述特征信息包括所述待处理照片的特征数据。

其中,每张所述待处理照片包括一个特征信息。

S103,所述电子设备根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合;

其中,所述人工标注客户端包括人工操作平台或智能设备,所述人工操作平台或智能设备可以接收所述电子设备发送的数据信息,处理所述数据信息,确定数据特征集合和相似集合,将所述数据特征集合和所述相似集合发送至所述电子设备。

其中,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合。

其中,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合。

S104,所述电子设备根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合;

其中,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联。

S105,所述电子设备根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注。

可以看出,本申请实施例中,提供了一种数据标注方法及相关产品,应用于电子设备,所述电子设备与人工标注客户端通信连接;所述方法包括:电子设备获取待处理照片,确定所述待处理照片组成初始照片集合,再提取所述初始照片集合中的每张所述待处理照片的特征信息,接着根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合,再然后根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联,最后根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注;通过电子设备预标注处理和人工分类处理相结合,从而以较小的人力成本完成大量人脸识别图片的标注工作,同时减少标注过程中产生的标注错误,提高了数据标注的质量,有利于提高数据标注的高效性和准确性。

在一个可能的示例中,所述电子设备根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,包括:电子设备将每张所述待处理照片以所述特征信息为标识进行分类,确定多个第一特征集合;所述电子设备向所述人工标注客户端发送所述第一特征集合和所述特征信息,确定相似照片集合;所述电子设备根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合。

其中,每个所述第一特征集合由多个所述特征信息的差异值小于第一阈值的多张所述待处理照片组成。

其中,所述差异值为多个所述特征信息之间的差异值,可以通过深度学习算法来计算不同特征信息之间的差异值。

其中,所述相似照片集合由与所述第一特征集合的每张所述待处理照片的所述特征信息的差异值小于第一阈值,且未存在于所述第一特征集合中的所述待处理图片组成。

具体地,第一特征集合F1和F2,F1的特征信息为Q1,F2的特征信息为Q2,现有一张待处理照片E的特征信息为Q1,但E未在F1中,则将E分入相似集合H1中。

其中,所述相似照片集合与所述第一特征集合一一对应。

具体实现中,电子设备将每张所述待处理照片以所述特征信息G为标识进行分类,确定第一特征集合L1、L2和L3;所述电子设备向所述人工标注客户端发送所述第一特征集合L1、L2和L3和所述特征信息G,确定相似照片集合K1、K2和K3,所述电子设备根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合。

可见,本示例中,电子设备将每张所述待处理照片以所述特征信息为标识进行分类,确定多个第一特征集合,接着所述电子设备向所述人工标注客户端发送所述第一特征集合和所述特征信息,确定相似照片集合,接着所述电子设备根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合;电子设备初步预标注所述待处理照片,有利于降低后续人工标注的工作量,有利于提高数据标注的高效性和便捷性。

在一个可能的示例中,所述电子设备根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合,包括:电子设备获取每个所述第一特征集合进行数据清理后的数据特征集合;所述电子设备获取每个所述相似图片集合进行数据清理后的相似集合。

其中,所述数据特征集合由所述人工标注客户端对每个所述第一特征集合中的非同类对象进行数据清理得到。

其中,所述相似集合由所述人工标注客户端对每个所述相似图片集合中的非同类对象进行数据清理得到。

其中,所述非同类对象包括两张所述待处理照片中的对象不是同一个人。

其中,所述相似集合与所述数据特征集合一一对应。

具体实现中,已知所述第一特征集合R1,对R1进行数据清理,R1中包括待处理照片T1、T2和T3,人工标注客户端发现T3与T1、T2不是同一个人的照片,将T3从R1中删除,电子设备获取数据清理后的数据特征集合R2;已知所述相似集合W1是所述第一特征集合R1的相似集合,对W1进行数据清理,W1中包括待处理照片T4、T5和T6,人工标注客户端发现T4、T6与清理后的R1是同一个人的照片,将T4,T6移入R1,T5与R1不是同一个人的照片,将T5从W1中删除,完成清理后W1为空。

可见,本示例中,电子设备获取每个所述第一特征集合进行数据清理后的数据特征集合;所述电子设备获取每个所述相似图片集合进行数据清理后的相似集合;通过所述人工标注客户端进行数据清理,有利于减少数据标注的工作量,降低数据标注误差,有利于提高数据标注的准确性。

在一个可能的示例中,所述电子设备根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,包括:电子设备获取到所述数据特征集合和所述相似集合后,确定所述相似集合中的所述待处理照片与所述数据特征集合中的所述待处理照片为同类对象,将所述相似集合中的所述待处理照片移入所述数据特征集合;所述电子设备查询任意两个所述数据特征集合是否存在重复照片;所述电子设备若确定存在重复照片,则确定重复图片信息;所述电子设备根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合,确定目标标注集合。

其中,所述重复图片信息包括所述重复照片的照片编号、特征信息和所在的数据特征集合编号。

其中,所述同类对象包括两张所述待处理照片中的对象是同一个人。

具体实现中,现有数据特征集合U1、数据特征集合U2、相似集合V1和相似集合V2,U1中包含待处理照片S1、S2和S3,U2中包含待处理照片S4、S5和S6,V1中包含待处理图片S7,V2中包含待处理图片S3和S8;电子设备获取到所述数据特征集合U1、U2和所述相似集合V1、V2后,确定到所述相似集合V1中的所述待处理照片S7与所述数据特征集合U1中的所述待处理照片S1、S2和S3为同类对象,将S7移入所述数据特征集合U1,同时所述相似集合V2中的所述待处理照片S3、S8与所述数据特征集合U2中的所述待处理照片S4、S5和S6为同类对象,将S3移入所述数据特征集合U2(该操作为人工判断失误。因不同人照片较相似,且有些照片质量不佳,会导致部分人工出错);接着查询到U1和U2存在重复照片S3,则确定重复图片信息,根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合U1和U2进行综合判断,确定U2中S3为错误合入,将U2中的S3删除,确定目标标注集合P1和P2。P1中包含待处理图片S1、S2、S3和S7,P2中包含图片S4、S5、S6和S8。

可见,本示例中,电子设备获取到所述数据特征集合和所述相似集合后,确定所述相似集合中的所述待处理照片与所述数据特征集合中的所述待处理照片为同类对象,将所述相似集合中的所述待处理照片移入所述数据特征集合,接着所述电子设备查询任意两个所述数据特征集合是否存在重复照片,若确定存在重复照片,则确定重复图片信息,最后所述电子设备根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合,确定目标标注集合;有利于提高数据标注的高效性和准确性。

在一个可能的示例中,所述电子设备根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合,确定目标标注集合,包括:电子设备向所述人工标注客户端发送所述重复图片信息;所述电子设备通过所述人工标注客户端判断所述第一数据特征集合与所述第二数据特征集合是否为同类对象的照片集合;所述电子设备根据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合。

其中,所述重复图片信息用于所述人工标注客户端确定第一数据特征集合和第二数据特征集合。

其中,所述重复图片同时存在于所述第一数据特征集合和所述第二数据特征集合中

具体实现中,电子设备向所述人工标注客户端发送所述重复图片信息;所述电子设备通过所述人工标注客户端判断所述第一数据特征集合U1与所述第二数据特征集合U2中的任意两张所述待处理照片是否为同类对象的照片集合;电子设备根据判断结果确定U1和U2为同类对象的照片集合,对所述数据特征集合执行预设的重复消除策略,消除U2集合,确定执行所述重复消除策略后的数据特征集合U1为目标标注集合。

可见,本示例中,电子设备向所述人工标注客户端发送所述重复图片信息;所述电子设备通过所述人工标注客户端判断所述第一数据特征集合与所述第二数据特征集合是否为同类对象的照片集合,所述电子设备根据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合;有利于减少重复数据标注情况的出现,有利于减少数据冗余,有利于提高数据标注的高效性。

在一个可能的示例中,所述电子设备据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合,包括:所述人工标注客户端判断出所述第一数据集合中的所述重复照片与所述第二数据集合中的多张所述待处理照片为同类对象的照片,则将所述重复图片重新分类到所述第二数据特征集合中;所述人工标注客户端删除所述第一数据集合中的所述重复照片,确定目标标注集合。

其中,所述目标标注集合包括经过所述重新分类后的所述第二数据特征集合。

具体实现中,所述人工标注客户端判断出所述第一数据集合U3中的所述重复照片S10与所述第二数据集合U4中的多张所述待处理照片S14、S15和S16为同类对象的照片,将所述重复照片S10重新分类到所述第二数据特征集合U4中;删除所述第一数据集合U3中的所述重复照片S10,确定目标标注集合。

可见,本示例中,所述人工标注客户端判断出所述第一数据集合中的所述重复照片与所述第二数据集合中的多张所述待处理照片为同类对象的照片,则将所述重复图片重新分类到所述第二数据特征集合中;所述人工标注客户端删除所述第一数据集合中的所述重复照片,确定目标标注集合;有利于弥补所述电子设备预标注处理产生的错误,有利于提高数据标注的准确性。

在一个可能的示例中,所述电子设备根据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合,包括:所述人工标注客户端判断出所述第一数据集合中的多张所述待处理照片与所述第二数据集合中的多张所述待处理照片为同类对象的照片,则确定所述第一数据集合与所述第二数据集合重复;所述人工标注客户端合并所述第一数据集合和所述第二数据集合,确定目标标注集合。

其中,所述目标标注集合包括经过合并处理后的所述第二数据特征集合。

具体实现中,所述人工标注客户端判断出所述第一数据集合U5中的多张所述待处理照片S17、S18和S19与所述第二数据集合U6中的多张所述待处理照片S24、S25和S26为同类对象的照片,确定所述第一数据集合与所述第二数据集合重复,合并所述第一数据集合U5和所述第二数据集合U6,确定目标标注集合。

可见,本示例中,所述人工标注客户端判断出所述第一数据集合中的多张所述待处理照片与所述第二数据集合中的多张所述待处理照片为同类对象的照片,则确定所述第一数据集合与所述第二数据集合重复,所述人工标注客户端合并所述第一数据集合和所述第二数据集合,确定目标标注集合;有利于弥补所述电子设备预标注处理产生的错误,有利于提高数据标注的准确性。

与上述图1所示的实施例一致的,请参阅图2,图1是本申请实施例提供的另一种数据标注方法的流程示意图,应用于电子设备,所述电子设备与人工标注客户端通信连接;如图所示,本数据标注方法包括:

S201,电子设备获取待处理照片,确定所述待处理照片组成初始照片集合;

S202,所述电子设备提取所述初始照片集合中的每张所述待处理照片的特征信息;

S203,所述电子设备将每张所述待处理照片以所述特征信息为标识进行分类,确定多个第一特征集合;

S204,所述电子设备向所述人工标注客户端发送所述第一特征集合和所述特征信息,确定相似照片集合;

S205,所述电子设备根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合;

S206,所述电子设备根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合;

S207,所述电子设备根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注。

可以看出,本申请实施例中,提供了一种数据标注方法及相关产品,应用于电子设备,所述电子设备与人工标注客户端通信连接;所述方法包括:电子设备获取待处理照片,确定所述待处理照片组成初始照片集合,再提取所述初始照片集合中的每张所述待处理照片的特征信息,接着根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合,再然后根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联,最后根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注;通过电子设备预标注处理和人工分类处理相结合,从而以较小的人力成本完成大量人脸识别图片的标注工作,同时减少标注过程中产生的标注错误,提高了数据标注的质量,有利于提高数据标注的高效性和准确性。

此外,电子设备将每张所述待处理照片以所述特征信息为标识进行分类,确定多个第一特征集合,接着所述电子设备向所述人工标注客户端发送所述第一特征集合和所述特征信息,确定相似照片集合,接着所述电子设备根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合;电子设备初步预标注所述待处理照片,有利于降低后续人工标注的工作量,有利于提高数据标注的高效性和便捷性。

与上述图1所示的实施例一致的,请参阅图3,图3是本申请实施例提供的另一种数据标注方法的流程示意图,应用于电子设备,所述电子设备与人工标注客户端通信连接;如图所示,本数据标注方法包括:

S301,电子设备获取待处理照片,确定所述待处理照片组成初始照片集合;

S302,所述电子设备提取所述初始照片集合中的每张所述待处理照片的特征信息;

S303,所述电子设备将每张所述待处理照片以所述特征信息为标识进行分类,确定多个第一特征集合;

S304,所述电子设备向所述人工标注客户端发送所述第一特征集合和所述特征信息,确定相似照片集合;

S305,所述电子设备根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合;

S306,所述电子设备获取到所述数据特征集合和所述相似集合后,确定所述相似集合中的所述待处理照片与所述数据特征集合中的所述待处理照片为同类对象,将所述相似集合中的所述待处理照片移入所述数据特征集合;

S307,所述电子设备查询任意两个所述数据特征集合是否存在重复照片;

S308,所述电子设备若确定存在重复照片,则确定重复图片信息;

S309,所述电子设备根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合,确定目标标注集合;

S310,所述电子设备根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注。

可以看出,本申请实施例中,提供了一种数据标注方法及相关产品,应用于电子设备,所述电子设备与人工标注客户端通信连接;所述方法包括:电子设备获取待处理照片,确定所述待处理照片组成初始照片集合,再提取所述初始照片集合中的每张所述待处理照片的特征信息,接着根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合,再然后根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联,最后根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注;通过电子设备预标注处理和人工分类处理相结合,从而以较小的人力成本完成大量人脸识别图片的标注工作,同时减少标注过程中产生的标注错误,提高了数据标注的质量,有利于提高数据标注的高效性和准确性。

此外,电子设备获取到所述数据特征集合和所述相似集合后,确定所述相似集合中的所述待处理照片与所述数据特征集合中的所述待处理照片为同类对象,将所述相似集合中的所述待处理照片移入所述数据特征集合,接着所述电子设备查询任意两个所述数据特征集合是否存在重复照片,若确定存在重复照片,则确定重复图片信息,最后所述电子设备根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合,确定目标标注集合;有利于提高数据标注的高效性和准确性。

与上述图1、图2、图3所示的实施例一致的,请参阅图4,图4是本申请实施例提供的一种电子设备400的结构示意图,如图所示,所述电子设备400包括应用处理器410、存储器420、通信接口430以及一个或多个程序421,其中,所述一个或多个程序421被存储在上述存储器420中,并且被配置由上述应用处理器410执行,所述一个或多个程序421包括用于执行以下步骤的指令;

获取待处理照片,确定所述待处理照片组成初始照片集合;

提取所述初始照片集合中的每张所述待处理照片的特征信息;

根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合;

根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联;

根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注。

可以看出,本申请实施例中,提供了一种数据标注方法及相关产品,应用于电子设备,所述电子设备与人工标注客户端通信连接;所述方法包括:电子设备获取待处理照片,确定所述待处理照片组成初始照片集合,再提取所述初始照片集合中的每张所述待处理照片的特征信息,接着根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合,再然后根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联,最后根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注;通过电子设备预标注处理和人工分类处理相结合,从而以较小的人力成本完成大量人脸识别图片的标注工作,同时减少标注过程中产生的标注错误,提高了数据标注的质量,有利于提高数据标注的高效性和准确性。

在一个可能的示例中,所述根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述程序中的指令具体用于执行以下操作:将每张所述待处理照片以所述特征信息为标识进行分类,确定多个第一特征集合,其中,每个所述第一特征集合由多个所述特征信息的差异值小于第一阈值的多张所述待处理照片组成;向所述人工标注客户端发送所述第一特征集合和所述特征信息,确定相似照片集合,其中,所述相似照片集合由与所述第一特征集合的每张所述待处理照片的所述特征信息的差异值小于第一阈值,且未存在于所述第一特征集合中的所述待处理图片组成,所述相似照片集合与所述第一特征集合一一对应;根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合。

在一个可能的示例中,所述根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合,所述程序中的指令具体用于执行以下操作:获取每个所述第一特征集合进行数据清理后的数据特征集合,其中,所述数据特征集合由所述人工标注客户端对每个所述第一特征集合中的非同类对象进行数据清理得到;获取每个所述相似图片集合进行数据清理后的相似集合,其中,所述相似集合由所述人工标注客户端对每个所述相似图片集合中的非同类对象进行数据清理得到,所述相似集合与所述数据特征集合一一对应。

在一个可能的示例中,所述根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述程序中的指令具体用于执行以下操作:获取到所述数据特征集合和所述相似集合后,确定所述相似集合中的所述待处理照片与所述数据特征集合中的所述待处理照片为同类对象,将所述相似集合中的所述待处理照片移入所述数据特征集合;查询任意两个所述数据特征集合是否存在重复照片;若确定存在重复照片,则确定重复图片信息;根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合,确定目标标注集合。

在一个可能的示例中,所述根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合,确定目标标注集合,所述程序中的指令具体用于执行以下操作:向所述人工标注客户端发送所述重复图片信息,其中,所述重复图片信息用于所述人工标注客户端确定第一数据特征集合和第二数据特征集合,所述重复图片同时存在于所述第一数据特征集合和所述第二数据特征集合中;通过所述人工标注客户端判断所述第一数据特征集合与所述第二数据特征集合是否为同类对象的照片集合;根据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合。

在一个可能的示例中,所述根据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合,所述程序中的指令具体用于执行以下操作:所述人工标注客户端判断出所述第一数据集合中的所述重复照片与所述第二数据集合中的多张所述待处理照片为同类对象的照片,则将所述重复图片重新分类到所述第二数据特征集合中;所述人工标注客户端删除所述第一数据集合中的所述重复照片,确定目标标注集合,其中,所述目标标注集合包括经过所述重新分类后的所述第二数据特征集合。

在一个可能的示例中,所述根据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合,所述程序中的指令具体用于执行以下操作:所述人工标注客户端判断出所述第一数据集合中的多张所述待处理照片与所述第二数据集合中的多张所述待处理照片为同类对象的照片,则确定所述第一数据集合与所述第二数据集合重复;所述人工标注客户端合并所述第一数据集合和所述第二数据集合,确定目标标注集合,其中,所述目标标注集合包括经过合并处理后的所述第二数据特征集合。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

图5是本申请实施例中所涉及的数据标注装置500的功能单元组成框图。该数据标注装置500应用于电子设备,所述电子设备与人工标注客户端通信连接;所述数据标注装置500包括处理单元501、通信单元502和存储单元503,其中,

所述处理单元501,获取待处理照片,确定所述待处理照片组成初始照片集合;以及用于提取所述初始照片集合中的每张所述待处理照片的特征信息;以及用于根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合;以及用于根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联;以及用于根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注。

可以看出,本申请实施例中,提供了一种数据标注方法及相关产品,应用于电子设备,所述电子设备与人工标注客户端通信连接;所述方法包括:电子设备获取待处理照片,确定所述待处理照片组成初始照片集合,再提取所述初始照片集合中的每张所述待处理照片的特征信息,接着根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述数据特征集合用于表示所述特征信息的差异值小于第一阈值的多张所述待处理照片组成的集合,所述相似集合用于表示与所述第一特征集合中的所述待处理照片的所述特征信息相似且未存在于所述第一特征集合中的所述待处理图片组成的集合,再然后根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述目标标注集合用于表示每个所述待处理照片进行数据标注时所在的集合,每个所述待处理照片进行数据标注时标注的数据与所述待处理照片所在的集合相关联,最后根据所述特征信息,将所述目标标注集合中的每张所述待处理照片进行数据标注;通过电子设备预标注处理和人工分类处理相结合,从而以较小的人力成本完成大量人脸识别图片的标注工作,同时减少标注过程中产生的标注错误,提高了数据标注的质量,有利于提高数据标注的高效性和准确性。

可以理解的是,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请中方法实施例部分的内容应同步适配于装置实施例部分,此处不再赘述。

在一个可能的示例中,所述根据所述特征信息,通过所述人工标注客户端确定数据特征集合和相似集合,所述处理单元501具体用于:将每张所述待处理照片以所述特征信息为标识进行分类,确定多个第一特征集合,其中,每个所述第一特征集合由多个所述特征信息的差异值小于第一阈值的多张所述待处理照片组成;向所述人工标注客户端发送所述第一特征集合和所述特征信息,确定相似照片集合,其中,所述相似照片集合由与所述第一特征集合的每张所述待处理照片的所述特征信息的差异值小于第一阈值,且未存在于所述第一特征集合中的所述待处理图片组成,所述相似照片集合与所述第一特征集合一一对应;根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合。

在一个可能的示例中,所述根据所述相似照片集合,通过所述人工标注客户端确定所述数据特征集合和所述相似集合,所述处理单元501具体用于:获取每个所述第一特征集合进行数据清理后的数据特征集合,其中,所述数据特征集合由所述人工标注客户端对每个所述第一特征集合中的非同类对象进行数据清理得到;获取每个所述相似图片集合进行数据清理后的相似集合,其中,所述相似集合由所述人工标注客户端对每个所述相似图片集合中的非同类对象进行数据清理得到,所述相似集合与所述数据特征集合一一对应。

在一个可能的示例中,所述根据所述数据特征集合和所述相似集合,通过所述人工标注客户端确定目标标注集合,所述处理单元501具体用于:获取到所述数据特征集合和所述相似集合后,确定所述相似集合中的所述待处理照片与所述数据特征集合中的所述待处理照片为同类对象,将所述相似集合中的所述待处理照片移入所述数据特征集合;查询任意两个所述数据特征集合是否存在重复照片;若确定存在重复照片,则确定重复图片信息;根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合,确定目标标注集合。

在一个可能的示例中,所述根据所述重复图片信息,通过所述人工标注客户端处理所述数据特征集合,确定目标标注集合,所述处理单元501具体用于:向所述人工标注客户端发送所述重复图片信息,其中,所述重复图片信息用于所述人工标注客户端确定第一数据特征集合和第二数据特征集合,所述重复图片同时存在于所述第一数据特征集合和所述第二数据特征集合中;通过所述人工标注客户端判断所述第一数据特征集合与所述第二数据特征集合是否为同类对象的照片集合;根据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合。

在一个可能的示例中,所述根据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合,所述处理单元501具体用于:所述人工标注客户端判断出所述第一数据集合中的所述重复照片与所述第二数据集合中的多张所述待处理照片为同类对象的照片,则将所述重复图片重新分类到所述第二数据特征集合中;所述人工标注客户端删除所述第一数据集合中的所述重复照片,确定目标标注集合,其中,所述目标标注集合包括经过所述重新分类后的所述第二数据特征集合。

在一个可能的示例中,所述根据判断结果,对所述数据特征集合执行预设的重复消除策略,确定执行所述重复消除策略后的数据特征集合为目标标注集合,所述处理单元501具体用于:所述人工标注客户端判断出所述第一数据集合中的多张所述待处理照片与所述第二数据集合中的多张所述待处理照片为同类对象的照片,则确定所述第一数据集合与所述第二数据集合重复;所述人工标注客户端合并所述第一数据集合和所述第二数据集合,确定目标标注集合,其中,所述目标标注集合包括经过合并处理后的所述第二数据特征集合。

本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、电子设备或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 数据标注方法及相关产品
  • 数据标注方法、装置以及数据标注模型训练方法、装置
技术分类

06120113083833