数据清洗方法、装置、电子设备及存储介质

文献发布时间：2024-04-18 20:02:40

技术领域

本发明涉及图像数据处理技术领域，尤其涉及一种数据清洗方法、装置、电子设备及存储介质。

背景技术

视觉语言模型是指一种运用多模态技术结合视觉和文本作为输入或者输出的模型。随着基于自注意力机制的深度学习Transformer架构的大型语言模型的能力涌现，视觉语言模型也得到了快速的发展，并在大量视觉任务展现出了优异的性能。目前主流的视觉语言模型普遍采用卷积神经网络或视觉变压器Vision-Transformer对输入图像进行编码来完成对图像的感知；若该模型具备相应的生成能力，则一并采用相应的解码网络来实现预设的任务。

基于图像分类的目标识别是计算机视觉领域的基础任务之一，也是人工智能领域的基础课题之一。为了提高模型进行图像分类的性能，训练模型时往往需要更多高质量的数据集，而现有的部分公开数据集(尤其是早期数据集)往往存在大量的类别标注错误、多类别标注不齐、无明显类别主体等问题，并且，现有的数据标注任务往往由人工完成，成本相对高昂。

发明内容

本发明实施例提供了一种数据清洗方法、装置、电子设备及存储介质，以解决现阶段公开的数据集中存在类别标注错误、标注不齐、无明显类别主体的问题。

第一方面，本发明实施例提供了一种数据清洗方法，包括：

获取目标数据集；其中，目标数据集包括图像以及图像对应的标签；

根据目标数据集中所包括的类别确定类别约束条件；并将目标数据集划分为多个子数据集；针对任意一个子数据集执行以下步骤：

将该子数据集作为待清洗子数据集，其他子数据集作为训练集；基于训练集训练前置视觉语言模型；

将待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中，得到待清洗子数据集中图像的伪标签；

将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型，输出待清洗子数据集中图像的判定结果；根据判定结果，对待清洗子数据集进行清洗操作；其中，判定结果用于表征待清洗子数据集中的图像与其对应的标签和伪标签是否匹配。

在一种可能的实现方式中，将待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中，得到待清洗子数据集中图像的伪标签，包括：

将待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中，通过前置视觉语言模型提取待清洗子数据集中所包括的图像的表征信息，并将表征信息作为第一图像特征编码；根据第一图像特征编码和类别约束条件，得到待清洗子数据集中图像的伪标签。

在一种可能的实现方式中，前置视觉语言模型中包括Vision-Transformer编码器；

Vision-Transformer编码器用于接收待清洗子数据集中的图像，将待清洗子数据集中包括的图像映射至预设的特征空间中，得到待清洗子数据集中所包括的图像的表征信息，并将图像的表征信息作为第一图像特征编码。

在一种可能的实现方式中，前置视觉语言模型中包括第一双向Transformer编码器、第二双向Transformer编码器、第三双向Transformer编码器和双向Transformer解码器；其中，第一双向Transformer编码器、第二双向Transformer编码器、第三双向Transformer编码器和双向Transformer解码器之间权重共享；

根据第一图像特征编码和类别约束条件，得到待清洗子数据集中图像的伪标签，包括：

将第一图像特征编码和图像查询编码输入到第一双向Transformer编码器中，通过第一双向Transformer编码器得到第一原始特征编码；

将类别约束条件输入到第二双向Transformer编码器中，通过第二双向Transformer编码器生成类别文本特征编码；

将第一原始特征编码和类别文本查询编码输入到第三双向Transformer编码器中，通过第三双向Transformer编码器和类别文本特征编码得到蒸馏后的第一特征编码；

将蒸馏后的第一特征编码输入到双向Transformer解码器中，通过双向Transformer解码器，得到蒸馏后的第一特征编码对应的文本特征；

将文本特征作为待清洗子数据集中图像的伪标签。

在一种可能的实现方式中，将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型，输出待清洗子数据集中图像的判定结果；根据判定结果，对待清洗子数据集进行清洗操作，包括：

将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型；使后置视觉语言模型基于类别约束条件识别输入的图像中所包含的对象所属的类别，根据预设的文本提示判断待清洗子数据集中的图像与标签和伪标签之间的匹配关系，并输出待清洗子数据集中图像的判定结果；

若待清洗子数据集中的图像与标签匹配，与伪标签不匹配，则确定该图像的标签正确；

若待清洗子数据集中的图像与标签匹配，与伪标签匹配，则确定该图像存在多个正确标签，并根据该图像对应的标签和伪标签，对该图像重新标注；其中该标签与该伪标签不同；

若待清洗子数据集中的图像与标签不匹配，与伪标签匹配，则确定该图像的标签错误，并根据该图像对应的伪标签，对该图像重新标注。

在一种可能的实现方式中，基于训练集训练前置视觉语言模型，包括：

将训练集中的图像输入到前置视觉语言模型中，得到第二图像特征编码，并将类别约束条件输入到前置视觉语言模型中，得到类别标签文本编码；

根据第二图像特征编码得到第二原始特征编码；

根据第二原始特征编码和类别标签文本编码得到蒸馏后的第二特征编码；

分别对类别标签文本编码和蒸馏后的第二特征编码进行维度压缩，得到类别标签文本编码特征和蒸馏后的第二特征编码特征；

根据类别标签文本编码特征和蒸馏后的第二特征编码特征计算对比损失和文本图像匹配损失；

根据蒸馏后的第二特征编码得到蒸馏后的第二特征编码对应的伪标签文本；

基于伪标签文本计算语言模型损失；

根据对比损失和语言模型损失确定第一损失函数；当第一损失函数收敛时，得到训练完成的前置视觉语言模型；

或者，根据对比损失、文本图像匹配损失和语言模型损失确定第二损失函数；当第二损失函数收敛时，得到训练完成的前置视觉语言模型。

在一种可能的实现方式中，在将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型，输出待清洗子数据集中图像的判定结果；根据判定结果，对待清洗子数据集进行清洗操作之后，还包括：

判断是否存在未进行清洗的子数据集，若是则将该子数据集作为待清洗子数据集，并返回将其他子数据集作为训练集；基于训练集训练前置视觉语言模型的步骤，直到不存在未进行清洗的子数据集。

第二方面，本发明实施例提供了一种数据清洗装置，包括：

获取模块，应用于获取目标数据集；其中，目标数据集包括图像以及图像对应的标签；

确定模块，用于根据目标数据集中所包括的类别确定类别约束条件；并将目标数据集划分为多个子数据集；针对任意一个子数据集执行以下步骤：

训练模块，用于将该子数据集作为待清洗子数据集，其他子数据集作为训练集；基于训练集训练前置视觉语言模型；

伪标签生成模块，用于将待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中，得到待清洗子数据集中图像的伪标签；

分析模块，用于将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型，输出待清洗子数据集中图像的判定结果；根据判定结果，对待清洗子数据集进行清洗操作；其中，判定结果用于表征待清洗子数据集中的图像与其对应的标签和伪标签是否匹配。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

本发明实施例提供一种数据清洗方法、装置、电子设备及存储介质，通过将待清洗数据集划分为多个子数据集，针对每个子数据集训练相应的前置视觉语言模型，能够避免统一的模型会产生记忆，影响最终的数据清洗结果。针对每个待清洗的子数据集，根据该子数据集中的图像、标签以及伪标签进行匹配，能够有效识别标注错误，多类别标注不齐，无明显类别主体等问题，并且，无需人工识别，能够减少人工成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的数据清洗方法的实现流程图；

图2是本发明实施例提供的数据清洗方法的系统架构图；

图3是本发明实施例提供的数据清洗方法的前置视觉语言模型框架图；

图4是本发明另一实施例提供的数据清洗方法的实现流程图；

图5是本发明实施例提供的数据清洗装置的结构示意图；

图6是本发明实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

图1是本发明实施例提供的数据清洗方法的实现流程图；如图1所示：

步骤110：获取目标数据集；其中，目标数据集包括图像以及图像对应的标签。

在本实施例中，目标数据集可以是是一个广泛用于计算机视觉和机器学习领域的经典数据集、一个用于图像分类任务的常用数据集、一个用于图像分类任务的数据集、一个大规模的图像数据库、一个用于对象识别和分割的常用数据集、一个用于图像分类任务的小型数据集、一个用于城市场景理解的大规模数据集或者是一个包括人脸部图像的数据集等等，在此不做限定。该目标数据集中可以包括多张图像，以及每张图像对应的标签。

步骤120：根据目标数据集中所包括的类别确定类别约束条件；并将目标数据集划分为多个子数据集；针对任意一个子数据集执行步骤130中涉及到的各步骤。其中，步骤130包括步骤131、步骤132以及步骤133。

在本实施例中，类别约束条件可以看作是目标数据集中标注的类别合集，是用来限制数据清洗时，模型的识别范围。例如：目标数据集中的类别合集包括人、猫、狗、车这四种，但是目标数据集中的一些图像中还包括其他要素，例如船、树等，这些不是目标数据集所要标注的标签，因此，在进行数据清洗时，可以通过类别约束条件限制数据清洗时，模型识别到的图像中包括的对象类别。

传统数据清洗方法是将数据集中的所有图像信息同时进行分析并清洗，但是由于随着使用，模型会产生记忆性，进而影响数据清洗效果，因此，本实施例将目标数据集分成多个子数据集，每个子数据集分别进行分析，针对每个子数据集训练相应的前置视觉语言模型，能够避免统一的模型会产生记忆，影响最终的数据清洗结果，具体的，分析方法如步骤131至步骤133：

步骤131：将该子数据集作为待清洗子数据集，其他子数据集作为训练集；基于训练集训练前置视觉语言模型。

示例性地，目标数据集可以为VLCS数据集，该数据集是一个常用于域泛化的数据集，可以将该目标数据集分为4个域，也即分成A、B、C、D四个子数据集。A可以为待清洗子数据集，B、C、D为训练集，用于训练前置视觉语言模型。在训练时，B、C、D中的任意两个子数据集可以作为训练集，剩下的一个可以作为测试集。当前置视觉语言模型中的预设的损失函数收敛后，前置视觉语言模型训练完成，得到训练完成的前置视觉语言模型。

步骤132：将待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中，得到待清洗子数据集中图像的伪标签。

图2是本发明实施例提供的数据清洗方法的系统架构图；下面结合图2对本实施例进行说明。示例性地，前置视觉语言模型中可以包括前置特征提取模块、特征蒸馏模块以及前置文本生成模块。每个子数据集中包括多张待检测图像；以一张图像为例，当待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中后，通过前置视觉语言模型中的各模块，在类别约束条件的约束下，能够得到待清洗子数据集中该图像对应的伪标签。

具体地，在一些实施例中，步骤132可以包括：

在本实施例中，将待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中后，前置视觉语言模型执行以下操作：

前置特征提取模块会在预设的类别约束条件下，提取待清洗子数据集中的每张图像的表征信息，并将提取到的每张图像的表征信息作为该图像的第一图像特征编码，然后输入到特征蒸馏模块中。特征蒸馏模块在类别约束条件下，与前置文本生成模块配合，将输入的该图像的第一图像特征编码处理成该图像的伪标签。

图3是本发明实施例提供的数据清洗方法的前置视觉语言模型框架图，参照图3，在一些实施例中，前置视觉语言模型中包括Vision-Transformer编码器。

下面结合图3对本实施例进行说明。在本实施例中，前置视觉语言模型可以是基于BLIP2改进的模型，其中可以包括Vision-Transformer编码器。当待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中后前置视觉语言模型对输入的图像进行预处理，之后Vision-Transformer编码器基于接收到的图像提取该图像的表征信息，然后将该表征信息作为该图像的第一图像编码特征输出。

具体地，在一些实施例中，前置视觉语言模型中包括第一双向Transformer编码器、第二双向Transformer编码器、第三双向Transformer编码器和双向Transformer解码器。其中，第一双向Transformer编码器、第二双向Transformer编码器、第三双向Transformer编码器和双向Transformer解码器之间权重共享。

上述的根据第一图像特征编码和类别约束条件，得到待清洗子数据集中图像的伪标签，可以包括：

将第一图像特征编码和图像查询编码输入到第一双向Transformer编码器中，通过第一双向Transformer编码器得到第一原始特征编码。

将类别约束条件输入到第二双向Transformer编码器中，通过第二双向Transformer编码器生成类别文本特征编码。

将第一原始特征编码和类别文本查询编码输入到第三双向Transformer编码器中，通过第三双向Transformer编码器和类别文本特征编码得到蒸馏后的第一特征编码。

将蒸馏后的第一特征编码输入到双向Transformer解码器中，通过双向Transformer解码器，得到蒸馏后的第一特征编码对应的文本特征。

将文本特征作为待清洗子数据集中图像的伪标签。

如图3所示，图3中的实线箭头表示数据的传输方向，虚线箭头表示双向Transformer编码器之间的权重共享。在本实施例中，前置视觉语言模型中包括三个双向Transformer编码器和一个双向Transformer解码器。伪标签可以通过各个双向Transformer编码器之间配合得到，具体的：

首先，当Vision-Transformer编码器将第一图像特征编码输出给第一双向Transformer编码器时，前置视觉语言模型控制图像查询编码一同输入到第一双向Transformer编码器中。第一双向Transformer编码器基于第一图像特征编码、图像查询编码和图像注意力层计算并输出该图像的第一原始特征编码。其中，图像查询编码是前置视觉语言模型内置的参数，为冻结参数，不参与训练。图像注意力层为前置视觉语言模型内置的预设参数，代表是否允许相互查询，若允许则为1。

相应的，第一原始特征编码的表达式可以为：

其中，I

其次，为了避免数据清洗过程中，模型识别错误，本实施例需要将类别约束条件输入到第二双向Transformer编码器中。第二双向Transformer编码器中对类别约束条件进行编码，输出类别文本特征编码。

为了满足BERT网络(也即双向Transformer编码器)的输入要求，需要对第一原始特征编码进行一次维度重映射，举例来说，根据前述选择的Vision-Transformer编码器的网络规模，重映射维度输入可以设为768，输出维度设为1408，该映射可由线性网络或多层网络实现。

然后，第二双向Transformer编码器将第一原始特征编码输出并传输至第三双向Transformer编码器中，第三双向Transformer编码器中根据输入的第一原始特征编码和类别文本查询编码输出处理后的第一原始特征编码。处理后的第一原始特征编码和类别文本特征编码进行蒸馏处理后得到蒸馏后的第一特征编码；其中，类别文本查询编码为前置视觉语言模型内置的可训练参数，通过训练过程得到。

相应的，蒸馏后的第一特征编码的表达式可以为：

其中，Q

最后，第三双向Transformer编码器将蒸馏后的第一特征编码输入到双向Transformer解码器中，通过双向Transformer解码器解码，得到并输出蒸馏后的第一特征编码对应的文本特征。也就是该图像对应的伪标签。

步骤133：将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型，输出待清洗子数据集中图像的判定结果；根据判定结果，对待清洗子数据集进行清洗操作；其中，判定结果用于表征待清洗子数据集中的图像与其对应的标签和伪标签是否匹配。

在本实施例中，参照图2，在得到待检测图像(待清洗子数据集中的任意一张图像)对应的伪标签后，将该图像、该图像对应的标签以及该图像对应的伪标签作为三元组输入到后置视觉语言模型。后置视觉语言模型能够在类别约束条件的约束下，根据其预设的文本提示输出该待检测图像的判定结果，以此确定该待检测图像是否存在标注错误或者标注不全等情况，以便于根据判定结果对该待检测图像进行相应清洗操作。

在一些实施例中，步骤133可以包括：

将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型；使后置视觉语言模型基于类别约束条件识别输入的图像中所包含的对象所属的类别，根据预设的文本提示判断待清洗子数据集中的图像与标签和伪标签之间的匹配关系，并输出待清洗子数据集中图像的判定结果。

若待清洗子数据集中的图像与标签匹配，与伪标签不匹配，则确定该图像的标签正确。

若待清洗子数据集中的图像与标签匹配，与伪标签匹配，则确定该图像存在多个正确标签，并根据该图像对应的标签和伪标签，对该图像重新标注；其中该标签与该伪标签不同。

若待清洗子数据集中的图像与标签不匹配，与伪标签匹配，则确定该图像的标签错误，并根据该图像对应的伪标签，对该图像重新标注。

在本实施例中，后置视觉语言模型为开源模型的任意一种，其中包括多个预设的文本提示，其中的文本提示选择模块能够根据输入的图像，选择相应的文本提示，并基于该文本提示作出相应选择，进而能够识别输入的图像中所包括的对象所属的类别，并判断图像中所包括的对象所属的类别与其对应的标签或者伪标签是否匹配。

当该图像输入到后置视觉语言模型后，文本提示选择模块选择相应的文本提示，该模型对该文本提示进行回答，文本提示选择模块基于该回答选择新的文本提示，如此循环，直到输出最终判定结果。

若待清洗子数据集中的图像与标签匹配，与伪标签不匹配，则确定该图像的标签正确，无需对该图像进行处理。

若待清洗子数据集中的图像与标签匹配，与伪标签匹配，并且该标签与伪标签不同，则确定该图像存在多个正确标签，那么需要将该图像对应的伪标签添加到该图像的标签中，得到该图像的新标签，使该图像的新标签包括该图像的标签和伪标签。

若待清洗子数据集中的图像与标签不匹配，与伪标签匹配，则确定该图像的标签错误，那么需要将该图像对应的标签删除，将该图像对应的伪标签作为该图像的新标签重新对该图像重新标注。

例如，如果图像中只出现了人物，标签为人，伪标签为车，则表明该图像的标签正确，无需对该图像进行处理。

如果图像中同时出现了人物和车辆，标签为人，伪标签为车，则表明该图像存在多个正确标签，那么需要将伪标签的内容添加到标签内容中。

如果图像中只出现了人物，标签为车，伪标签为人，那么确定该图像的标签错误，需要将该图像的标签删除，然后将伪标签作为新的标签对该图像重新标注。

如果图像中只出现了树，但是标签为车，伪标签为人，那么确定该图像存在错误，需要将该图像从目标数据集中删除。

在一些实施例中，后置视觉语言模型在输出判定结果时，还可以输出判定过程。

示例性的，如图2所示，假设该图像对应的标签为“人”，伪标签为“车”。用“Q”表示文本提示选择模块选择的文本提示内容；“A”表示对该文本提示的回答。判定过程可以为：

Q：“在这张图片中，你能看到哪些内容？”

A：“在这张图片中看到两辆汽车，以及一些人的身影，其中包括两个女孩，一个女孩抱着另一个女孩的肩膀。”

Q：“这张图片的标签为person，你觉得合理吗？”

A：“这张图片的标签为person，描述了图中的人物，合理表达了这个内容。”

Q：“某个不太聪明的模型认为这张图片的类别应该是car你觉得合理吗？”

A：“这张图片的类别应该是车辆，描述了图中的车辆，合理表达了这个内容。”

Q：“你认为，对于这张图片，person和car哪个更合理，或者二者都合理？”

A：“对于这张图片来说，person和car都是合理的，因为图片中既出现了车辆也出现了人物。”

在一些实施例中，步骤133中在将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型，输出待清洗子数据集中图像的判定结果；根据判定结果，对待清洗子数据集进行清洗操作之后，还可以包括：

在本实施例中，当前待清洗子数据集完成数据清洗后，可以判断是否该存在没有进行清洗的子数据集，如果有，这将该没有进行清洗的子数据集作为新的待清洗子数据集，并跳转到步骤130，再次执行步骤130中的步骤131至步骤133，直到所有的子数据集清洗完成。

在一些实施例中，基于训练集训练前置视觉语言模型，可以包括：

将训练集中的图像输入到前置视觉语言模型中，得到第二图像特征编码，并将类别约束条件输入到前置视觉语言模型中，得到类别标签文本编码；

根据第二图像特征编码得到第二原始特征编码；

根据第二原始特征编码和类别标签文本编码得到蒸馏后的第二特征编码；

分别对类别标签文本编码和蒸馏后的第二特征编码进行维度压缩，得到类别标签文本编码特征和蒸馏后的第二特征编码特征；

根据类别标签文本编码特征和蒸馏后的第二特征编码特征计算对比损失和文本图像匹配损失；

根据蒸馏后的第二特征编码得到蒸馏后的第二特征编码对应的伪标签文本；

基于伪标签文本计算语言模型损失；

根据对比损失和语言模型损失确定第一损失函数；当第一损失函数收敛时，得到训练完成的前置视觉语言模型；

或者，根据对比损失、文本图像匹配损失和语言模型损失确定第二损失函数；当第二损失函数收敛时，得到训练完成的前置视觉语言模型。

在本实施例中，第二原始特征编码、蒸馏后的第二特征编码等数据的计算过程可以参考上述相关实施例，再次不做赘述。

在本实施例中，当损失函数收敛时，说明前置视觉语言模型训练完成，得到的模型可以用于后续的数据清洗。其中，损失函数可以有两种，这基于两种损失函数得到的前置视觉语言模型在使用时没有区别。

其中，第一损失函数可以为：Loss1＝Loss

式中，Loss

Loss

第二损失函数可以为：Loss2＝Loss

式中，Loss

图4是本发明另一实施例提供的数据清洗方法的实现流程图，如图4所示：

在本实施例中，首先获取选定数据集，根据该数据集确定相应的类别文本约束条件，并将该数据集划分为N个子数据集。选择其中一个未进行清洗的子数据集作为待清洗子数据集，在剩余的子数据集中选择一个作为测试集，其他作为训练集，训练前置模型，直到预设的损失函数收敛后，得到训练完成的前置模型。

然后将待清洗子数据集中的图像输入到前置模型中，进行视觉特征提取(表征信息提取)。将提取到的视觉特征进行对齐与蒸馏后，得到待清洗子数据集中的图像的伪标签(此时的伪标签为文本形式)。

之后，将待清洗子数据集中的图像按照图像、与图像对应的标签以及与图像对应的伪标签一起输入到后置模型中，生成待清洗子数据集中的图像的最终判断结果，并依据该结果对待清洗子数据集中的图像进行数据清洗。

最后，判断该数据集中是否还存在未清洗的子数据集，若是则重新训练模型，并进行清洗，若否则结束。

综上，本发明实施例通过将待清洗数据集划分为多个子数据集，针对每个子数据集训练相应的前置视觉语言模型，能够避免统一的模型会产生记忆，影响最终的数据清洗结果。针对每个待清洗的子数据集，根据该子数据集中的图像、标签以及伪标签进行匹配，能够有效识别标注错误，多类别标注不齐，无明显类别主体等问题，并且，无需人工识别，能够减少人工成本。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以下为本发明的装置实施例，对于其中未详尽描述的细节，可以参考上述对应的方法实施例。

图5示出了本发明实施例提供的数据清洗装置的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

如图5所示，数据清洗装置5包括：获取模块，应用于获取目标数据集；其中，目标数据集包括图像以及图像对应的标签；

确定模块51，用于根据目标数据集中所包括的类别确定类别约束条件；并将目标数据集划分为多个子数据集；针对任意一个子数据集执行以下步骤：

训练模块52，用于将该子数据集作为待清洗子数据集，其他子数据集作为训练集；基于训练集训练前置视觉语言模型；

伪标签生成模块53，用于将待清洗子数据集中的图像和类别约束条件输入到前置视觉语言模型中，得到待清洗子数据集中图像的伪标签；

分析模块54，用于将待清洗子数据集中的图像、标签和伪标签作为三元组输入到后置视觉语言模型，输出待清洗子数据集中图像的判定结果；根据判定结果，对待清洗子数据集进行清洗操作；其中，判定结果用于表征待清洗子数据集中的图像与其对应的标签和伪标签是否匹配。

在一种可能的实现方式中，伪标签生成模块53具体用于：

在一种可能的实现方式中，前置视觉语言模型中包括Vision-Transformer编码器；

在一种可能的实现方式中，前置视觉语言模型中包括第一双向Transformer编码器、第二双向Transformer编码器、第三双向Transformer编码器和双向Transformer解码器；

伪标签生成模块53具体用于：

将第一图像特征编码和图像查询编码输入到第一双向Transformer编码器中，通过第一双向Transformer编码器得到第一原始特征编码；

将类别约束条件输入到第二双向Transformer编码器中，通过第二双向Transformer编码器生成类别文本特征编码；

将蒸馏后的第一特征编码输入到双向Transformer解码器中，通过双向Transformer解码器，得到蒸馏后的第一特征编码对应的文本特征；

将文本特征作为待清洗子数据集中图像的伪标签。

在一种可能的实现方式中，分析模块54具体用于：

若待清洗子数据集中的图像与标签匹配，与伪标签不匹配，则确定该图像的标签正确；

若待清洗子数据集中的图像与标签不匹配，与伪标签匹配，则确定该图像的标签错误，并根据该图像对应的伪标签，对该图像重新标注。

在一种可能的实现方式中，训练模块具体用于：

将训练集中的图像输入到前置视觉语言模型中，得到第二图像特征编码，并将类别约束条件输入到前置视觉语言模型中，得到类别标签文本编码；

根据第二图像特征编码得到第二原始特征编码；

根据第二原始特征编码和类别标签文本编码得到蒸馏后的第二特征编码；

分别对类别标签文本编码和蒸馏后的第二特征编码进行维度压缩，得到类别标签文本编码特征和蒸馏后的第二特征编码特征；

根据类别标签文本编码特征和蒸馏后的第二特征编码特征计算对比损失和文本图像匹配损失；

根据蒸馏后的第二特征编码得到蒸馏后的第二特征编码对应的伪标签文本；

基于伪标签文本计算语言模型损失；

根据对比损失和语言模型损失确定第一损失函数；当第一损失函数收敛时，得到训练完成的前置视觉语言模型；

或者，根据对比损失、文本图像匹配损失和语言模型损失确定第二损失函数；当第二损失函数收敛时，得到训练完成的前置视觉语言模型。

在一种可能的实现方式中，该装置还包括判断模块55，判断模块55具体用于：

图6是本发明实施例提供的电子设备的示意图。如图6所示，该实施例的电子设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述各个数据清洗方法实施例中的步骤，例如图1所示的步骤110至步骤133。或者，所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图5所示各模块的功能。

示例性的，所述计算机程序62可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器61中，并由所述处理器60执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述电子设备6中的执行过程。例如，所述计算机程序62可以被分割成图5所示的各模块。

所述电子设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备6可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述电子设备6的内部存储单元，例如电子设备6的硬盘或内存。所述存储器61也可以是所述电子设备6的外部存储设备，例如所述电子设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述电子设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个数据清洗方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);

上一篇：UI测试脚本的自动生成方法、电子设备及存储介质
下一篇：报文汇聚转发方法、装置、电子设备和可读存储介质