数据标注方法、装置、电子设备及存储介质

文献发布时间：2024-04-18 20:01:23

技术领域

本发明涉及数据处理技术领域，特别是涉及一种数据标注方法、装置、电子设备及存储介质。

背景技术

随着人工智能的快速发展，数据的质量和数量会直接影响到人工智能的学习效果，有价值的数据的重要性逐渐凸显出来，面对海量、真实、多样的数据，数据标签是可以将数据及其含有的信息转化成带有明确的可决策行为的指导，是人工智能算法完成监督训练以提升算法准确性和适用性的基础。因此，数据标签的标注成为提高人工智能模型准确性和训练效率的重中之重。

目前，数据标签的标注通常采用人工标注的方式，然而，对于人工智能模型的训练数据，则需要将几十万、甚至百万量级的原始数据进行加工标注，需耗费大量的标注人力和时间，这种人工标注的方式操作繁琐，且标注结果受标注人员的主观因素影响，导致标注的数据标签不准确，进一步影响数据标签的处理效率。

发明内容

有鉴于此，本发明旨在提出一种数据标注方法、装置、电子设备及存储介质，解决现有人工标注影响数据标签标注效率的问题，实现准确、高效的数据标注。

依据本发明的第一方面，提供了一种数据标注方法，所述方法包括：

获取待标注数据及含标签数据集，生成所述待标注数据与所述含标签数据集的距离集合；

根据所述距离集合筛选预设数量的含标签数据存储为近邻集合，并根据所述待标注数据的特征对应的最左和最右近邻样本生成所述待标注数据的特征近邻样本集合；

将所述近邻集合和所述特征近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对所述待选标签进行投票，确定目标标签；

采用所述目标标签对所述待标注数据进行标注，得到标注所述目标标签的数据。

可选地，所述获取待标注数据及含标签数据集，生成所述待标注数据与所述含标签数据集的距离集合，包括：

获取待标注数据并加载预先生成的含标签数据集，其中，所述含标签数据集包括预设数量的含标签数据；

将所述待标注数据和所述含标签数据进行距离计算，得到所述待标注数据和所述含标签数据对应距离；

将所述距离存储为所述待标注数据与所述含标签数据集间的距离集合。

可选地，所述根据所述距离集合筛选预设数量的含标签数据存储为近邻集合，并根据所述待标注数据的特征对应的最左和最右近邻样本生成所述待标注数据的特征近邻样本集合，包括：

预先获取所述待标注数据的预设临近数；

根据所述距离集合中所述待标注数据和所述含标签数据对应的距离，按照从小到大的顺序进行排序；

按照距离所述待标注数据从小到大的顺序筛选出临近数个含标签数据，将筛选出的含标签数据存储为所述待标注数据对应近邻集合。

获取所述含标签数据和所述待标注数据的特征向量；

对所述含标签数据和所述待标注数据的特征向量进行计算，确定出所述待标注数据在当前特征下对应最左近邻样本和最右近邻样本；

将所述待标注数据的多个特征对应最左近邻样本和最右近邻样本存储为所述待标注数据的特征近邻样本集合。

可选地，所述将所述近邻集合和所述特征近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对所述待选标签进行投票，确定目标标签，包括：

对所述近邻集合和所述特征近邻样本集合进行交集处理，得到目标集合；

将所述目标集合中含标签数据的标签确定为待选标签，，其中，所述待选标签的数量至少为一个；

采用预设投票规则对至少一个所述待选标签进行投票，，确定票数最高的待选标签为待标注数据的目标标签。

可选地，所述采用所述目标标签对所述待标注数据进行标注，得到标注所述目标标签的数据之后，还包括：

对标注所述目标标签的数据和所述含标签数据进行标签一致性校验；

若所述标注目标标签的数据和所述含标签数据的标签一致，则校验通过，将所述标注所述目标标签的数据存储至所述含标签数据集。

依据本发明的第二方面，提供了一种数据标注装置，所述装置包括：

获取数据模块，用于获取待标注数据及含标签数据集，生成所述待标注数据与所述含标签数据集的距离集合；

生成样本模块，用于根据所述距离集合筛选预设数量的含标签数据存储为近邻集合，并根据所述待标注数据的特征对应的最左和最右近邻样本生成所述待标注数据的特征近邻样本集合；

确定标签模块，用于将所述近邻集合和所述特征近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对所述待选标签进行投票，确定目标标签；

数据标注模块，用于采用所述目标标签对所述待标注数据进行标注，得到标注所述目标标签的数据。

可选地，所述获取数据模块包括：

第一获取子模块，用于获取待标注数据并加载预先生成的含标签数据集，其中，所述含标签数据集包括预设数量的含标签数据；

距离计算子模块，用于将所述待标注数据和所述含标签数据进行距离计算，得到所述待标注数据和所述含标签数据对应距离；

存储子模块，用于将所述距离存储为所述待标注数据与所述含标签数据集间的距离集合。

可选地，所述生成样本模块包括：

预先获取子模块，用于预先获取所述待标注数据的预设临近数；

排序子模块，用于根据所述距离集合中所述待标注数据和所述含标签数据对应的距离，按照从小到大的顺序进行排序；

筛选子模块，用于按照距离所述待标注数据从小到大的顺序筛选出临近数个含标签数据，将筛选出的含标签数据存储为所述待标注数据对应近邻集合。

可选地，所述生成样本模块还包括：

第二获取子模块，用于获取所述含标签数据和所述待标注数据的特征向量；

确定样本子模块，用于对所述含标签数据和所述待标注数据的特征向量进行计算，确定出所述待标注数据在当前特征下对应最左近邻样本和最右近邻样本；

存储样本子模块，用于将所述待标注数据的多个特征对应最左近邻样本和最右近邻样本存储为所述待标注数据的特征近邻样本集合。

可选地，所述确定标签模块包括：

数据处理子模块，用于对所述近邻集合和所述特征近邻样本集合进行交集处理，得到目标集合；

第一确定子模块，用于将所述目标集合中含标签数据的标签确定为待选标签，其中，所述待选标签的数量至少为一个；

第二确定子模块，用于采用预设投票规则对至少一个所述待选标签进行投票，确定票数最高的待选标签为待标注数据的目标标签。

可选地，所述装置还包括：

校验模块，用于对标注所述目标标签的数据和所述含标签数据进行标签一致性校验；

存储模块，用于若所述标注目标标签的数据和所述含标签数据的标签一致，则校验通过，将所述标注所述目标标签的数据存储至所述含标签数据集。

依据本发明的又一方面，还提供一种电子设备，包括：：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上所述的数据标注方法。

依据本发明的又一方面，还提供一种可读存储介质，所述可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的数据标注方法的步骤。

本发明实施例提供的数据标注方法，通过获取待标注数据及含标签数据集，生成待标注数据与含标签数据集的距离集合，根据距离集合筛选预设数量的含标签数据存储为近邻集合，并根据待标注数据的特征对应的最左和最右近邻样本生成待标注数据的特征近邻样本集合，将近邻集合和特征近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对待选标签进行投票，确定目标标签，采用目标标签对待标注数据进行标注，得到标注目标标签的数据。本发明利用少量含标签数据实现无标签数据的标注，以少量含标签数据为基础，通过计算分析数据空间分布和数据特征分布特点并结合数据筛选过滤策略，实现无标签数据的自动标注，从而能够大大缩短数据标签的标注周期，降低了人工进行数据标注的成本，提高了数据标注效率，进一步缩短了人工智能模型开发周期。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种数据标注方法的步骤流程图；

图2是图1中本发明实施例提供的数据标注方法中步骤101的流程图；

图3是图1中本发明实施例提供的数据标注方法中步骤102的流程图；

图4是图1中本发明实施例提供的数据标注方法中步骤103的流程图；

图5是本发明实施例提供的另一种数据标注方法的步骤流程图；

图6是本发明实施例提供的一种数据标注方法的流程图；

图7是本发明实施例提供的一种数据标注装置的结构示意图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本发明而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本发明所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

参照图1，示出了本发明实施例提供的数据标注方法的步骤流程图，所述方法可以包括：

步骤101，获取待标注数据及含标签数据集，生成待标注数据与含标签数据集的距离集合。

本发明实施例中，为解决现有的人工智能模型训练所需的有效数据通过人工进行数据标签标注，操作繁琐且效率低，影响数据标签标注效率的问题，本发明实施例利用少量含标签数据的标签数据集对待标注的无标签数据进行标签标注，实现自动、高效的数据标注。

具体的，由于在训练人工智能模型前，需要对训练数据进行处理，而当前存在大量无标签的数据无法直接作为训练数据，因此，本发明实施例通过数据处理器获取待标注数据及含标签数据集，在数据处理器中对数据进行采集、筛选、过滤、标注等操作，输出标注标签的数据集。

具体的，数据处理器首先获取待标注数据和预先加载的含标签数据集，生成待标注数据与含标签数据集间的距离集合，其中，待标注数据是指待标注的无标签数据，含标签数据集是指少量含标签数据的集合，本实施例对数据类型和形式不作具体限定，可以将含标签数据集记作D＝{d

本实施例中，可以采用SNN(Shelly Nearest Neighbor，壳近邻)算法进行数据标签扩散，具体用于根据目标样本特征在训练集中寻找其最左最右近邻样本，与k个近邻样本取交集，以获得与目标样本更相关的近邻样本集，从而剔除异类样本。具体的，本实施例中在获取待标注数据及含标签数据集之后，采用SNN算法中的距离生成方式，生成待标注数据与含标签数据集中各个含标签数据间的距离，存储为距离集合。需要说明的是，可以采用SNN常用的距离算法计算待标注数据与含标签数据集间的欧式距离，生成距离集合。

步骤102，根据距离集合筛选预设数量的含标签数据存储为近邻集合，并根据待标注数据的特征对应的最左和最右近邻样本生成待标注数据的特征近邻样本集合。

本发明实施例中，数据处理器根据待标注数据和生成的待标注数据与含标签数据集间的距离集合，得到待标注数据的近邻集合，并且基于SNN算法中的特征近邻样本确定方式，根据含标签数据集和待标注数据的样本特征，确定出待标注数据在当前特征下的最左近邻样本和最右近邻样本，从而根据待标注数据的特征对应的最左和最右近邻样本，生成待标注数据的特征近邻样本集合，目的是获得待标注数据与含标签数据更相关的近邻样本集，便于为待标注数据预测匹配标签。

具体的，近邻集合可以是待标注数据与含标签数据之间距离满足筛选条件的近邻样本，可以根据待标注数据预先确定的预设临近数K，从含标签数据集中筛选出距离待标注数据最近的K个含标签数据，确定近邻集合的目的是在含标签数据集中找到与该待标注数据最邻近的K个含标签数据，示例的，若K个含标签数据的标签大多数属于某个类，则可以预测待标注数据匹配哪个标签，在此不再一一赘述。

本实施例中，在得到待标注数据的近邻集合的同时，利用SNN算法中的近邻样本确定方式，根据含标签数据集和待标注数据的样本特征，在待标注数据中寻找其最左近邻样本和最右近邻样本，以生成待标注数据与含标签数据相关的特征近邻样本集合，示例的，待标注数据包含多个特征，在当前特征下确定出待标注数据的最左近邻样本和最右近邻样本，，则遍历待标注数据的特征，每个特征对应确定出最左近邻样本和最右近邻样本，则将确定出的各个最左近邻样本和最右近邻样本存储为待标注数据的特征近邻样本集合，本实施例中生成近邻样本还可以剔除异类样本，解决在标签预测过程中的偏好问题，提高了算法的鲁棒性。

步骤103，将近邻集合和特征近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对待选标签进行投票，确定目标标签。

具体的，数据处理器结合距离集合和最左最右近邻样本，将近邻集合和特征近邻样本集合的交集对应标签确定为待选标签，待选标签包括至少一个满足待标注数据标注需求的标签，用于从中筛选出待标注数据的目标标签。数据处理器在确定出待选标签后，由于待选标签中存在多个满足待标注数据的标注需求的标签，为提高待标注数据的标签标注的准确性，本实施例采用预设投票规则对待选标签进行投票，其中，预设投票规则可以是少数服从多数的投票机制，用于对待标注数据的所有待选标签进行自由投票，确定出票数最高的待选标签为待标注数据对应目标标签，投票过程在此不再赘述。

需要说明的是，预设投票规则还可以是其他任意一种能够确定出目标标签的筛选方式，本发明实施例以少数服从多数的投票方式为例进行说明，还可以预先设定投票权重，对待标注数据的所有待选标签进行投票，在此不作具体限定。数据处理器利用投票方式得到目标标签，以便于将目标标签在待标注数据进行标注，得到标注目标标签后的待标注数据，提高数据标注的准确度。

步骤104，采用目标标签对待标注数据进行标注，得到标注目标标签的数据。

本发明实施例提供的数据标注方法，通过获取待标注数据及含标签数据集，生成待标注数据与含标签数据集的距离集合，根据距离集合筛选出预设数量的含标签数据，并生成待标注数据的近邻样本集合，将含标签数据和近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对待选标签进行投票，确定目标标签，采用目标标签对待标注数据进行标注，得到标注目标标签的数据。本发明利用少量含标签数据实现无标签数据的标注，以少量含标签数据为基础，通过计算分析数据空间分布和数据特征分布特点并结合数据筛选过滤策略，实现无标签数据的自动标注，从而能够大大缩短数据标签的标注周期，降低了人工进行数据标注的成本，提高了数据标注效率，进一步缩短了人工智能模型开发周期。

进一步的，参照图2，示出了图1提供的一种数据标注方法中步骤101的流程图，该方法与本发明的第一实施例提供的数据标注方法基本相同，步骤101可以包括：

步骤201，获取待标注数据并加载预先生成的含标签数据集，其中，含标签数据集包括预设数量的含标签数据。

本发明实施例中，数据处理器获取待标注数据并加载预先生成的含标签数据集，其中，待标注数据是指待标注的无标签数据，含标签数据集包括预设数量的含标签数据，还可以包括含标签数据对应特征向量，本实施例对数据类型和形式不作具体限定，可以将含标签数据集记作D＝{d

需要说明的是，含标签数据集中的含标签数据的数量可以是预先设定的，为减少数据处理资源负担，采用少量含标签数据即可，预设数量依据实际标注需求设定，含标签数据对应特征向量用于计算数据距离，可以在含标签数据集中携带，具体形式在此不作具体限定。

步骤202，将待标注数据和含标签数据进行距离计算，得到待标注数据和含标签数据对应距离。

需要说明的是，SNN算法中有多种常见的距离计算方法，例如欧几里得距离、曼哈顿距离、闵科夫斯基距离、切比雪夫距离等，本实施例将待标注数据和含标签数据进行距离计算以欧几里得距离为例进行说明。

具体的，定义与欧几里得空间中，两点之间或多点之间的距离表示又称欧几里得度量，将待标注数据和含标签数据进行距离计算，得到待标注数据和含标签数据对应距离，即计算待标注数据q与含标签数据集中每个含标签数据dn的欧氏距离，具体公式如下：

其中，q为待标注数据，dn为含标签数据集中的第n个含标签数据。

步骤203，将距离存储为待标注数据与含标签数据集间的距离集合。

需要说明的是，循环计算待标注数据和含标签数据对应距离，若当前距离计算完成，则采用n＝n+1进行循环计算，直至所有数据均完成距离计算，将得到的多个距离存储为待标注数据与含标签数据集间的距离集合。

进一步的，参照图3，示出了图1提供的一种数据标注方法中步骤102的流程图，该方法与本发明的第一实施例提供的数据标注方法基本相同，步骤102可以包括：

步骤301，预先获取待标注数据的预设临近数。

本发明实施例中，采用SNN算法，通过给定一个新样本点时，只需要在训练集中找到距离最近的k个样本点，按照一定的投票规则得到新样本点的预测结果，即可确定出待标注数据的标签，从而完成待标注数据的标注。

具体的，预先获取待标注数据的预设临近数k，用于选取待标注数据中与含标签数据距离最近的k个样本，统计k个样本所对应标签出现的频率，返回前k个样本出现频率最高的类别作为待标注数据的预测标签，结合得到的待标注数据的最左和最右近邻样本确定出满足标注需求的标签。

需要说明的是，一个样本与数据集中的k个样本最相似，如果k个样本中的大多数属于某一个类别，则认为该样本也属于此类别，在实际应用中，k值一般选取一个较小的数值，通常采用交叉验证来选取最优的k值，本发明实施例对此不作具体限定。

步骤302，根据所述距离集合中待标注数据和含标签数据对应的距离，按照从小到大的顺序进行排序。

具体的，近邻样本需要先通过距离的大小来决定远近，距离的定义中常见的有欧式距离，本实施例的算法默认使用欧式距离来作为远近的判断，根据距离集合中待标注数据和含标签数据对应的距离，按照从小到大的顺序进行排序，以便于筛选出距离待标注数据最近的K个含标签数据。

步骤303，按照距离待标注数据从小到大的顺序筛选出临近数个含标签数据，将筛选出的含标签数据存储为待标注数据对应近邻集合。

本发明实施例中，基于临近数和距离顺序，按照距离所述待标注数据从小到大的顺序筛选出临近数个含标签数据，根据距离集合中待标注数据和含标签数据对应的距离，按照从小到大的顺序进行排序，筛选出距离待标注数据最近的K个含标签数据，将筛选出的含标签数据存储为待标注数据对应近邻集合。

本发明实施例中，具体的，步骤102还可以包括以下具体步骤：

首先，获取含标签数据和待标注数据的特征向量；

其次，对含标签数据和待标注数据的特征向量进行计算，确定出待标注数据在当前特征下对应最左近邻样本和最右近邻样本；

其次，将待标注数据的多个特征对应最左近邻样本和最右近邻样本存储为待标注数据的特征近邻样本集合。

需要说明的是，上述步骤中利用SNN算法，根据含标签数据和待标注数据的样本特征，在待标注数据中依据特征寻找其最左近邻样本和最右近邻样本，以获得待标注数据与含标签数据更相关的特征近邻样本集合，从而剔除异类样本，解决在标签预测过程中的偏好问题，提高了算法的鲁棒性。

具体的，在确定出距离待标注数据最近的K个含标签数据的同时，本实施例还可以采用含标签数据集中的特征向量与待标注数据的特征向量进行近邻样本计算，确定出待标注数据当前特征下对应的最左近邻样本和最右近邻样本，将待标注数据包含的多个特征的对应最左近邻样本和最右近邻样本存储为待标注数据的特征近邻样本集合。

进一步的，参照图4，示出了图1提供的一种数据标注方法中步骤103的流程图，该方法与本发明的第一实施例提供的数据标注方法基本相同，步骤103可以包括：

步骤401，对近邻集合和特征近邻样本集合进行交集处理，得到目标集合。

本发明实施例中，为提高标签推荐的准确性，结合筛选出的K个含标签数据存储而成的近邻集合和待标注数据的特征近邻样本集合，对近邻集合和特征近邻样本集合进行交集处理，得到目标集合，以便于综合考虑含标签数据与待标注数据的标签相关度，提高标签选择的准确性。

需要说明的是，本实施例还可以计算目标集合中所有标签相对于待标注数据的相关度，根据相关度对标签推荐进行投票确定出更为准确的标签为待标注数据进行标签标注，具体的，数据处理器基于目标集合，采用相关度算法，计算目标集合中所有标签和待标注数据的相关度，本实施例对相关度的计算过程不作具体限定，可以是任意一种能够确定相关度的算法。

步骤402，将目标集合中含标签数据的标签确定为待选标签，其中，待选标签的数量至少为一个。

步骤403，采用预设投票规则对至少一个待选标签进行投票，确定票数最高的待选标签为待标注数据的目标标签。

本发明实施例中，为提高数据处理的准确度，在目标集合的待选标签中，采用预设投票规则确定出待标注数据对应数据标签，分配给待标注数据的标签是从特征近邻样本中结合K个含标签数据的近邻集合的交集对应标签中确定出来的。

需要说明的是，上述步骤中，通过对满足标注条件的至少一个待选标签进行投票，确定待标注数据对应目标标签，其中，预设投票规则可以是少数服从多数，一点算一票的原则，投票数量最多的标签就是待标注数据的目标标签。

参照图5，示出了本发明实施例提供的另一种数据标注方法的步骤流程图，该方法与本发明的第一实施例提供的数据标注方法基本相同，区别在于，所述方法包括：

步骤101，获取待标注数据及含标签数据集，生成待标注数据与含标签数据集的距离集合。

步骤103，将近邻集合和特征近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对待选标签进行投票，确定目标标签。

步骤104，采用目标标签对待标注数据进行标注，得到标注目标标签的数据。

上述步骤101至步骤104参照前序所述，在此不再赘述。

步骤105，对标注目标标签的数据和含标签数据进行标签一致性校验。

本发明实施例中，为进一步提高无标签数据确定出的目标标签的标注准确度，需要在确定目标标签后，对标注目标标签后的待标注数据进行标签验证，即对标注目标标签的数据和含标签数据进行标签一致性校验。

具体的，对标注目标标签的数据和含标签数据进行标签一致性校验，即验证新生成的带标签的数据的标签与含标签数据集中的标签是否一致，若不一致，则重新确定待标注数据的目标标签，直至标注目标标签的数据和含标签数据的标签一致。

步骤106，若标注目标标签的数据和含标签数据的标签一致，则校验通过，将标注目标标签的数据存储至含标签数据集。

本发明实施例中，利用少量含标签数据实现无标签数据的标注，对得到目标标签的待标注数据进行标签一致性验证，在标签一致性校验通过后，将将标注目标标签的数据存储至含标签数据集，用于训练人工智能模型，进一步提高训练数据的有效性。

为了便于本领域技术人员充分理解上述数据标注方法，，参照图6，图6是本发明实施例提供的数据标注方法的流程图，示出了本发明实施例提供的数据标注的整体流程，具体包括：

S501，获取含标签数据集；

S502，生成含标签数据集和待标注数据的欧式距离对应距离集合；

S503，判断待标注数据是否完成距离计算；

需要说明的是，若当前含标签数据和待标注数据的欧式距离计算完成，判断待标注数据是否完成距离计算，若未完成所有数据的距离计算，则返回步骤502，采用n＝n+1进行循环计算，将得到的多个距离存储为待标注数据与含标签数据集的距离集合，直至所有数据均完成距离计算，若完成所有数据的距离计算，则进入步骤504。

S504，生成待标注数据的最左近邻样本和最右近邻样本的特征近邻样本集合；

S505，判断待标注数据是否完成近邻样本计算；

具体的，在确定出距离待标注数据最近的K个含标签数据后，存储为近邻集合，并且采用含标签数据集中的特征向量与待标注数据的特征向量进行近邻样本计算，确定出待标注数据对应的最左近邻样本和最右近邻样本，判断含标签数据集中的含标签数据是否与待标注数据完成近邻样本计算，若没有，则返回步骤504，否则，进入步骤506。

S506，获取近邻集合和特征近邻样本集合的交集；

S507，采用预设投票规则确定目标标签，并对待标注数据进行标注；

S508，输出标注目标标签的待标注数据。

本发明利用少量含标签数据实现无标签数据的标注，以少量含标签数据为基础，通过计算分析数据空间分布和数据特征分布特点并结合数据筛选过滤策略，实现无标签数据的自动标注，从而能够大大缩短数据标签的标注周期，降低了人工进行数据标注的成本，提高了数据标注效率，进一步缩短了人工智能模型开发周期。

参照图7，示出了本发明实施例提供的一种数据标注装置的结构示意图，所述装置包括：

获取数据模块601，用于获取待标注数据及含标签数据集，生成所述待标注数据与所述含标签数据集的距离集合；

生成样本模块602，用于根据所述距离集合筛选预设数量的含标签数据存储为近邻集合，并根据所述待标注数据的特征对应的最左和最右近邻样本生成所述待标注数据的特征近邻样本集合；

确定标签模块603，用于将所述近邻集合和所述特征近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对所述待选标签进行投票，确定目标标签；

数据标注模块604，用于采用所述目标标签对所述待标注数据进行标注，得到标注所述目标标签的数据。

进一步的，所述获取数据模块601包括：

第一获取子模块，用于获取待标注数据并加载预先生成的含标签数据集，其中，所述含标签数据集包括预设数量的含标签数据；

距离计算子模块，用于将所述待标注数据和所述含标签数据进行距离计算，得到所述待标注数据和所述含标签数据对应距离；

存储子模块，用于将所述距离存储为所述待标注数据与所述含标签数据集间的距离集合。

进一步的，所述生成样本模块602包括：

预先获取子模块，用于预先获取所述待标注数据的预设临近数；

排序子模块，用于根据所述距离集合中所述待标注数据和所述含标签数据对应的距离，按照从小到大的顺序进行排序；

筛选子模块，用于按照距离所述待标注数据从小到大的顺序筛选出临近数个含标签数据，将筛选出的含标签数据存储为所述待标注数据对应近邻集合。

进一步的，所述生成样本模块602还包括：

第二获取子模块，用于获取所述含标签数据和所述待标注数据的特征向量；

存储样本子模块，用于将所述待标注数据的多个特征对应最左近邻样本和最右近邻样本存储为所述待标注数据的特征近邻样本集合。

进一步的，所述确定标签模块603包括：

数据处理子模块，用于对所述近邻集合和所述特征近邻样本集合进行交集处理，得到目标集合；

第一确定子模块，用于将所述目标集合中含标签数据的标签确定为待选标签，其中，所述待选标签的数量至少为一个；

第二确定子模块，用于采用预设投票规则对至少一个所述待选标签进行投票，确定票数最高的待选标签为待标注数据的目标标签。

进一步的，所述装置还包括：

校验模块，用于对标注所述目标标签的数据和所述含标签数据进行标签一致性校验；

存储模块，用于若所述标注目标标签的数据和所述含标签数据的标签一致，则校验通过，将所述标注所述目标标签的数据存储至所述含标签数据集。

本发明实施例提供的数据标注装置，通过获取待标注数据及含标签数据集，生成待标注数据与含标签数据集的距离集合，根据距离集合筛选预设数量的含标签数据存储为近邻集合，并根据待标注数据的特征对应的最左和最右近邻样本生成待标注数据的特征近邻样本集合，将近邻集合和特征近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对待选标签进行投票，确定目标标签，采用目标标签对待标注数据进行标注，得到标注目标标签的数据。本发明利用少量含标签数据实现无标签数据的标注，以少量含标签数据为基础，通过计算分析数据空间分布和数据特征分布特点并结合数据筛选过滤策略，实现无标签数据的自动标注，从而能够大大缩短数据标签的标注周期，降低了人工进行数据标注的成本，提高了数据标注效率，进一步缩短了人工智能模型开发周期。

参照图8，本发明实施例还提供了一种电子设备，如图8所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

获取待标注数据及含标签数据集，生成所述待标注数据与所述含标签数据集的距离集合；

将所述近邻集合和所述特征近邻样本集合交集对应标签确定为待选标签，采用预设投票规则对所述待选标签进行投票，确定目标标签；

采用所述目标标签对所述待标注数据进行标注，得到标注所述目标标签的数据。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数据标注方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京明朝万达科技股份有限公司;

上一篇：太阳能电池及其制备方法、光伏组件
下一篇：海上风电场风机规则排布方法、装置、存储介质和终端