数据清洗方法及相关装置、设备和介质

文献发布时间：2024-04-18 19:58:26

技术领域

本申请涉及图像处理技术领域，特别是涉及一种数据清洗方法及相关装置、设备和介质。

背景技术

诸如车辆等对象的图档数据对于研究对象行动轨迹等应用具有极其重要意义。

但是，对象的图档数据通常存在噪声，如某一对象的图档数据中还包含其他对象的拍摄图像，从而对后续基于图档数据的下游任务造成干扰。目前，对图档数据进行数据清洗的现有技术，通常存在误删除的问题。有鉴于此，如何尽可能地减少对图档数据进行数据清洗的误删除，以提升数据清洗的准确性，成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种数据清洗方法及相关装置、设备和介质，能够尽可能地减少对图档数据进行数据清洗的误删除，以提升数据清洗的准确性。

为了解决上述问题，本申请第一方面提供了一种数据清洗方法，包括：分别识别同一对象图档内各个拍摄图像的属性数据；其中，属性数据包括拍摄图像中目标对象关于若干种对象属性的属性值；对于各种对象属性，统计拍摄图像关于对应对象属性的属性值在对象图档中的数量占比；响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件，选择拍摄图像作为待定图像；基于待定图像的图像特征与对象图档的图档特征之间的第一相似度，确定是否将待定图像从对象图档中滤除；其中，图档特征由对象图档内拍摄图像的图像特征融合得到。

为了解决上述问题，本申请第二方面提供了一种数据清洗装置，包括：属性识别模块、占比统计模块、图像选择模块和图像滤除模块，属性识别模块，用于分别识别同一对象图档内各个拍摄图像的属性数据；其中，属性数据包括拍摄图像中目标对象关于若干种对象属性的属性值；占比统计模块，用于对于各种对象属性，统计拍摄图像关于对应对象属性的属性值在对象图档中的数量占比；图像选择模块，用于响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件，选择拍摄图像作为待定图像；图像滤除模块，用于基于待定图像的图像特征与对象图档的图档特征之间的第一相似度，确定是否将待定图像从对象图档中滤除；其中，图档特征由对象图档内拍摄图像的图像特征融合得到。

为了解决上述问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的数据清洗方法。

为了解决上述问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的数据清洗方法。

上述方案，分别识别同一对象图档内各个拍摄图像的属性数据，且属性数据包括拍摄图像中目标对象关于若干种对象属性的属性值，从而对于各种对象属性，统计拍摄图像关于对应对象属性的属性值在对象图档中的数量占比，再响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件，选择拍摄图像作为待定图像，进而基于待定图像的图像特征与对象图档的图档特征之间的第一相似度，确定是否将待定图像从对象图档中滤除，且图档特征由对象图档内拍摄图像的图像特征融合得到，由于在数据清洗过程中，考虑拍摄图像中目标对象关于各种对象属性的属性值，并对各种对象属性分别统计每个拍摄图像其属性值在对象图档中的数量占比，故对于每个拍摄图像而言能够挖掘出其关于各种对象属性是否存在明显异于对象图档中多数图像的情况，从而据此确定是否选择其作为待定图像，并进一步根据特征相似度来确定是否滤除待定图像，进而能够在数据清洗过程中充分考虑各种对象属性并尽可能地确保对象图像内部属性一致性，有助于尽可能地减少对图档数据进行数据清洗的误删除，以提升数据清洗的准确性。

附图说明

图1是本申请数据清洗方法一实施例的流程示意图；

图2是本申请数据清洗方法另一实施例的流程示意图；

图3是第一无向图以及由第一无向图遍历得到的第一连通子图一实施例的示意图；

图4是本申请数据清洗装置一实施例的框架示意图；

图5是本申请电子设备一实施例的框架示意图；

图6是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请数据清洗方法一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S11：分别识别同一对象图档内各个拍摄图像的属性数据。

需要说明的是，同一对象图档中拍摄图像为疑似属于同一对象，即有可能同一对象图档中拍摄图像属于同一对象，也有可能同一对象图档中存在部分拍摄图像实际属于其他对象，在此不做限定。示例性地，以对象是车辆为例，车辆行驶过程中，安装于路口、收费站等摄像头可以对车辆进行摄像，并根据目标检测算法、目标跟踪算法等算法模型将疑似属于同一车辆的拍摄图像聚为该车辆的对象图档，以此即可形成不同车辆各自的对象图档。当然，对象也可以是车辆之外的其他，如行人等，在此不做限定。当然，在对象是行人的情况下，可以设置明显的提示标识，以提示行人即将进入信息采集区，进入即视为同意对其进行摄像。此外，需要明确的是，本申请公开实施例本身并不采集图像，而是仅对已经采集的图档数据进行清洗。进一步地，为了便于区分不同对象的对象图档，可以为各个对象图档分别赋予不同标识符。示例性地，仍以对象是车辆为例，标识符可以是车牌号等，在此不做限定。

本公开实施例中，属性数据可以包括拍摄图像中目标对象关于若干种对象属性的属性值。若干种对象属性具体可以根据对象类型进行设置。示例性地，仍以对象是车辆为例，若干种对象属性可以包括但不限于：车型(如，小轿车、越野车、挂车等)、车身颜色(如，黑色、白色、红色等)等。具体可以根据实际应用进行设置，在此不做限定。如在图像分辨率较高的情况下，对象属性还可以包括车牌号。在对象为车辆之外的其他时，对象属性可以以此类推进行设置，在此不再一一举例。

在一个实施场景中，为了提高属性识别的效率和精度，可以预先训练属性识别模型，属性识别模型可以包括但不限于卷积神经网络等，在此对属性识别模型的网络结构不做限定。具体地，可以预先获取若干样本图像，且样本图像标注有样本图像中样本对象分别关于若干种对象属性的样本属性值。在此基础上，可以基于属性识别模型对样本图像进行属性识别，得到样本图像中样本对象分别关于若干种对象属性的预测属性值，从而可以基于同种对象属性的样本属性值与预测属性值之间的差异，调整属性识别模型的网络参数，以实现对属性识别模型的训练。在属性识别模型训练收敛之后，即可基于属性识别模型对对象图档中拍摄图像进行属性识别，得到拍摄图像中目标对象关于若干种对象属性的属性值。

在一个实施场景中，为了提升数据清洗的准确性，若干种对象属性具体可以包括连续取值的第一属性、离散取值的第二属性中至少一者。需要说明的是，对于连续取值的第一属性而言，其属性值可以是数值范围内任意数值，而对于离散取值的第二属性而言，其属性值可以是有限集合中任一取值。以对象是行人为例，连续取值的第一属性可以包括但不限于年龄等，离散取值的第二属性可以包括但不限于性别等。

在一个实施场景中，为了进一步提升数据清洗的准确性，在进行属性识别之前，还可以先获取对象图档中各个拍摄图像的图像质量，并基于拍摄图像的图像质量，选择在对象图档中保留或删除拍摄图像。示例性地，图像质量可以质量分值来表征，质量分值越大，可以表示图像质量越高，反之质量分值越小，可以表示图像质量越低。在此情况下，可以预先设置一质量阈值，在拍摄图像的质量分值低于质量阈值的情况下，可以选择在对象图档中删除拍摄图像，反之，在拍摄图像的质量分值不低于质量阈值的情况下，可以选择在对象图档中保留拍摄图像。上述方式，在属性识别之前，先获取对象图档中各个拍摄图像的图像质量，并基于拍摄图像的图像质量，选择在对象图档中保留或删除拍摄图像，故能够在属性识别之前尽可能地确保后续进行数据清洗的拍摄图像具有一定质量，有助于提升后续数据清洗的准确性。

在一个具体的实施场景中，为了提升质量检测的效率和精度，可以预先训练质量检测模型，质量检测模型可以包括但不限于卷积神经网络等，在此对质量检测模型的网络结构不做限定。具体地，可以预先获取若干样本图像，且样本图像标注有样本图像的样本质量分值。在此基础上，可以基于质量检测模型对样本图像进行质量检测，得到样本图像的预测质量分值，从而可以基于样本质量分值与预测质量分值之间的差异，调整质量检测模型的网络参数，以实现对质量检测模型的训练。在质量检测模型训练收敛之后，即可基于质量检测模型对对象图档中拍摄图像进行质量检测，得到拍摄图像的质量分值。

在另一个具体的实施场景中，区别于前述通过质量检测模型来获取拍摄图像的图像质量，还可以采用全参考方法、半参考方法、盲图像质量等传统图像质量检测方式来检测拍摄图像的图像质量。

步骤S12：对于各种对象属性，统计拍摄图像关于对应对象属性的属性值在对象图档中的数量占比。

在一个实施场景中，如前所述，若干种对象属性可以包括连续取值的第一属性。在此情况下，可以识别拍摄图像关于至少一种第一属性的属性值，再对于各种第一属性，可以确定拍摄图像关于对应第一属性的属性值所在的预设区间，并统计拍摄图像关于对应第一属性对应预设区间在对象图档中的数量占比。仍以对象是行人且第一属性包括年龄为例，则可以预先划分如下表征不同年龄段的预设区间：0岁至8岁，8岁至16岁，16岁至24岁，24岁至32岁，32岁至40岁，40岁至50岁，50岁至60岁，60岁至70岁，70岁以上。在此基础上，可以根据对拍摄图像识别得到关于其中目标对象在第一属性“年龄”上的属性值，确定其所在预设区间，以对象图档包含100张拍摄图像为例，假设存在95张拍摄图像其属性值位于16岁至24岁的预设区间，5张拍摄图像其属性值位于24岁至32岁的预设区间，则前者95张拍摄图像其关于第一属性“年龄”的属性值在对象图档中的数量占比即为95％，后者5张拍摄图像其关于第一属性“年龄”的属性值在对象图档中的数量占比即为5％。其他情况可以以此类推，在此不再一一举例。上述方式，识别拍摄图像关于至少一种第一属性的属性值，且第一属性为连续取值，则对于各种第一属性而言，可以确定拍摄图像关于对应第一属性的属性值所在的预设区间，并统计拍摄图像关于对应第一属性对应预设区间在对象图档中的数量占比，故能够通过区间转换将连续取值的第一属性进行数量占比的统计操作，有助于提升数据清洗的准确性。

在另一个实施场景中，如前所述，若干种对象属性还可以包括离散取值的第二属性。区别于前述实施方式，在此情况下，可以识别拍摄图像关于至少一种第二属性的属性值，则对于各种第二属性，可以直接统计拍摄图像关于对应第二属性的属性值在对象图档中的数量占比。仍以对象是行人且第二属性包括性别为例，前述包含100张拍摄图像的对象图档，经属性识别，存在98张拍摄图像其关于第二属性“性别”的属性值为“男”，且存在2张拍摄图像其关于第二属性“性别”的属性值为“女”，则前者98张拍摄图像其关于第二属性“性别”的属性值在对象图档中的数量占比即为98％，后者2张拍摄图像其关于第二属性“性别”的属性值在对象图档中的数量占比即为2％。其他情况可以以此类推，在此不再一一举例。

步骤S13：响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件，选择拍摄图像作为待定图像。

具体地，第一条件可以包括数量占比不低于预设阈值，为了区别于前述预设阈值，可以称之为占比阈值。需要说明的是，预设阈值可以根据实际应用需要进行设置。例如，在对数据清洗的精度要求较高的情况下，预设阈值可以设置地适当大一些，或者，在对数据清洗的精度要求相对宽松的情况下，预设阈值可以设置地适当小一些。仍以对象是行人为例，在预设阈值设置为10％的情况下，对于前述5张第一属性“年龄”在对象图档中数量占比为5％的拍摄图像而言，由于其数量占比不满足第一条件，可以选择作为待定图像，此外，对于前述2张第二属性“性别”在对象图档中数量占比为2％的拍摄图像而言，由于其数量占比不满足第一条件，可以选择作为待定图像。需要说明的是，前者5张拍摄图像和后者2张拍摄图像可能存在重复，即部分拍摄图像其关于某种第一属性的数量占比可能不满足第一条件，其关于某种第二属性的数量占比也可能不满足第一条件。当然，前者5张拍摄图像和后者2张拍摄图像也可能不存在重复，在此不做限定。也就是说，对于任意拍摄图像而言，只要其在一种对象属性上对应数量占比不满足第一条件，即可将其选择作为待定图像。

步骤S14：基于待定图像的图像特征与对象图档的图档特征之间的第一相似度，确定是否将待定图像从对象图档中滤除。

本公开实施例中，图档特征由对象图档内拍摄图像的图像特征融合得到。例如，可以将对象图档内各个拍摄图像的图像特征进行平均、加权、相加等融合操作，得到对象图档的图档特征。本公开实施例中对融合操作的具体方式不做限定。

在一个实施场景中，为了提升特征提取的效率和精度，可以预先训练特征提取模型，特征提取模型可以包括但不限于卷积神经网络，在此对特征提取模型的网络结构不做限定。具体地，可以预先获取属于不同样本对象的样本图像，并基于特征提取模型分别对各个样本图像进行特征提取，得到样本图像的样本图像特征。在此基础上，对于每张样本图像而言，可以基于其样本图像特征与其正例图像的样本图像特征之间的相似度、其样本图像特征与其负例图像的样本图像特征之间的相似度，得到特征提取模型的损失值，并基于损失值，调整特征提取模型的网络参数。需要说明的是，样本图像的正例图像，是与该样本图像属于相同样本对象的其他样本图像，而样本图像的负例图像，是与该样本图像属于不同样本对象的其他样本图像。在特征提取模型训练收敛之后，即可基于特征提取模型对各个拍摄图像分别进行特征提取，得到拍摄图像的图像特征。

在一个实施场景中，对于同一对象图档内各个拍摄图像而言，在提取得到拍摄图像的图像特征之后，还可以对这些图像特征进行归一化。为了便于描述，以第i个对象图档为例，其中第j个拍摄图像归一化后的图像特征可以表示为：

上述公式(1)中，f

在一个实施场景中，在得到拍摄图像的图像特征以及对象图档的图档特征之后，可以通过诸如余弦相似度、欧氏距离等相似度量方式对图像特征和图档特征进行相似度量，得到第一相似度。

在一个实施场景中，在得到第一相似度之后，可以基于第一相似度与第一阈值的比较结果，确定是否将待定图像从对象图档中滤除。示例性地，若比较结果显示第一相似度不低于第一阈值，则可以在对象图档中保留待定图像，反之，若比较结果显示第一相似度低于第一阈值，则可以在对象图档中滤除待定图像。进一步地，未免遗漏，还可以获取对象图档中待定图像之外任一拍摄图像的图像特征与图档特征之间的第二相似度，并基于第二相似度与第二阈值的比较结果，确定是否将对应拍摄图像从对象图档中滤除。示例性地，若比较结果显示第二相似度不低于第二阈值，则可以在对象图档中保留对应拍摄图像，反之，若比较结果显示第二相似度低于第二阈值，则可以在对象图档中滤除对应拍摄图像。此外，为了进一步提升数据清洗的准确性，第一阈值可以大于第二阈值。也就是说，对待定图像的滤除标准高于对象图档中待定图像以外任一拍摄图像的滤除标准。上述方式，基于第一相似度与第一阈值的比较结果，确定是否将待定图像从对象图档中滤除，并获取对象图档中待定图像之外任一拍摄图像的图像特征与图档特征之间的第二相似度，以及基于第二相似度与第二阈值的比较结果，确定是否将对应拍摄图像从对象图档中滤除，且第一阈值大于第二阈值，故能够在数据清洗过程中对待定图像和待定图像之外任一拍摄图像执行阶梯式的阈值判定标准，有助于降低误删除的可能性，提升数据清洗的准确性。

请参阅图2，图2是本申请数据清洗方法另一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S21：分别识别同一对象图档内各个拍摄图像的属性数据。

本公开实施例中，属性数据包括拍摄图像中目标对象关于若干种对象属性的属性值。具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S22：对于各种对象属性，统计拍摄图像关于对应对象属性的属性值在对象图档中的数量占比。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S23：响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件，选择拍摄图像作为待定图像。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S24：基于待定图像的图像特征与对象图档的图档特征之间的第一相似度，确定是否将待定图像从对象图档中滤除。

本公开实施例中，图档特征由对象图档内拍摄图像的图像特征融合得到。具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S25：基于同一对象图档中拍摄图像的图像特征之间的第三相似度，得到对象图档经筛选后的第一图档。

具体地，可以基于第三相似度，构建第一无向图，且第一无向图中第一节点对应于对象图档中拍摄图像，相连第一节点分别对应拍摄图像的图像特征之间的第三相似度满足第二条件。在此基础上，可以基于第一无向图进行遍历，得到若干第一连通子图，并响应于第一连通子图中第一节点的总数量不满足第三条件，可以在对象图档中删除第一连通子图中第一节点对应的拍摄图像。需要说明的是，第二条件可以设置为第三相似度高于预设阈值，为了便于其他阈值区别，可以称之为相似度阈值。相似度阈值具体可以根据实际应用需要进行设置，如可以设置为0.7、0.8、0.9等等，在此不做限定。上述方式，通过在每个对象图档内部通过构建无向图并进行遍历的方式，筛选其中的干扰图像，有助于提升数据清洗的精度和效率。

在一个实施场景中，对第一无向图进行遍历的方式可以包括但不限于：深度优先遍历、广度优先遍历等，在此不做限定。

在一个实施场景中，请结合参阅图3，图3是第一无向图以及由第一无向图遍历得到的第一连通子图一实施例的示意图。如图3所示，圆表示节点，且图3中虚线矩形框所围即第一连通子图，即位于左下和左上的第一连通子图均只包含1个节点，而位于右上的第一连通子图包含4个节点，位于右下的第一连通子图包含3个节点。当然，图3所示仅仅是实际应用中第一无向图的一种可能情况。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，第三条件可以设置为：总数量不低于预设阈值为了与其他预设阈值相区别，可以称之为数量阈值。也就是说，若第一连通子图中第一节点的总数量低于数量阈值，可以在对象图档中删除第一连通子图中第一节点对应的拍摄图像，反之，若第一连通子图中第一节点的总数量不低于数量阈值，可以在对象图档中保留第一连通子图中第一节点对应的拍摄图像。至此即可得到对象图档经筛选后的第一图档。需要说明的是，数量阈值具体可以根据实际应用需要进行设置，如在对数据清洗精度要求较高且对象图档中所含拍摄图像也较多的情况下，数量阈值可以设置地适当大一些，如3、4等，反之，在对数据清洗精度要求相对宽松且对象图档中所含拍摄图像也相对较少的情况下，数量阈值可以设置地适当小一些，如可以设置为2等。在此对数量阈值的具体取值不做限定。

步骤S26：基于不同第一图档的图档特征之间的第四相似度，得到第一图档经组合合并或单独保留后的第二图档。

具体地，在对各个对象图档分别进行筛选，得到对应的第一图档之后，可以进一步基于不同第一图档的图档特征之间的第四相似度，构建第二无向图，且第二无向图中第二节点对应于第一图档，相连第二节点对应第一图档的图档特征之间的第四相似度满足第四条件。在此基础上，可以遍历第二无向图，得到若干第二连通子图，且第二连通子图包含至少一个第二节点，从而对于各个第二连通子图，可以将第二连通子图中第二节点对应的第一图档进行合并，得到第二图档。需要说明的是，第四条件可以设置为第四相似度不低于预设阈值，为了区别于其他预设阈值，可以称之为相似度阈值。相似度阈值具体可以根据实际应用需要进行设置。例如，在对数据清洗精度要求较高的情况下，相似度阈值可以设置地大一些，而在对数据清洗精度要求相对宽松的情况下，相似度阈值可以设置地适当小一些，在此对相似度阈值的具体数值不做限定。上述方式，通过在各个对象图档之间通过构建无向图并进行遍历的方式，合并其中属于相同对象的对象图档，有助于提升数据清洗的精度和效率。

在一个实施场景中，第一图档的图档特征可以根据第一图档内各个拍摄图像的图像特征进行融合得到，具体可以参阅前述关于对象图档的图档特征相关描述，在此不再赘述。

在一个实施场景中，第四相似度可以基于余弦相似度、欧氏距离等相似度量方式对不同第一图档的图档特征进行度量得到，在此亦不再赘述。

在一个实施场景中，在得到第二无向图之后，具体可以采用诸如深度优先遍历、广度优先遍历等方式对第二无向图进行遍历，得到若干第二连通子图。

在一个实施场景中，在得到第二连通子图之后，对于每个第二连通子图，可以将第二连通子图中各个第二节点分别对应的第一图档进行合并，即将第二连通子图中各个第二节点分别对应的第一图档视为归属于同一对象，从而可以得到该对象的第二图档。

步骤S27：基于滤除图像的图像特征分别与各个第二图档的图档特征之间的第五相似度，将滤除图像归入第二图档或永久删除。

本公开实施例中，滤除图像为确定从对象图档中滤除的待定图像。滤除图像的具体确定过程，具体可以参阅前述公开实施例中相关描述，在此不再赘述。

具体地，在得到第二图档之后，可以先提取第二图档的图档特征，具体过程可以参阅前述对象图档的图档特征、第一图档的图档特征相关描述，在此不再赘述。基于此，即可基于诸如余弦相似度、欧氏距离等相似度量方式对滤除图像的图像特征和第二图档的图档特征进行相似度量，得到两者之间的第五相似度。在此基础上，响应于不存在第五相似度不低于预设阈值的第二图档，可以将滤除图像永久删除。也就是说，在滤除图像的图像特征与各个第二图档的图档特征之间的第五相似度均低于预设阈值的情况下，可以将滤除图像永久删除，即该滤除图像可以视为不属于当前任一对象。此外，响应于存在第二相似度不低于预设阈值的第二图像，可以将滤除图像归入第二相似度最高的第二图档。也就是说，在滤除图像的图像特征与至少一个第二图档的图档特征之间的第五相似度均不低于预设阈值的情况下，可以将滤除图像归入第五相似度最高的第二图档中，即该滤除图像视为与第五相似度最高的第二图档属于同一对象。上述方式，通过将滤除图像的图像特征与各个第二图档的图档特征之间的第五相似度，选择将滤除图像永久删除或归入第二图档，能够对在对象图档内部经筛选的滤除图像，在图档合并之后再次进行二次归类，有助于进一步降低误删可能性。

上述方案，在确定是否将待定图像从对象图档中滤除之后，基于同一对象图档中拍摄图像的图像特征之间的第三相似度，得到对象图档经筛选后的第一图档，并基于不同第一图档的图档特征之间的第四相似度，得到第一图档经组合合并或单独保留后的第二图档，从而基于滤除图像的图像特征分别与各个第二图档的图档特征之间的第五相似度，将滤除图像归入第二图档或永久删除，且滤除图像为确定从对象图档中滤除的待定图像，故能够对在对象图档内部经筛选的滤除图像，在图档合并之后再次进行二次归类，有助于进一步降低误删可能性。

请参阅图4，图4是本申请数据清洗装置40一实施例的框架示意图。数据清洗装置40包括：属性识别模块41、占比统计模块42、图像选择模块43、图像滤除模块44，属性识别模块41，用于分别识别同一对象图档内各个拍摄图像的属性数据；其中，属性数据包括拍摄图像中目标对象关于若干种对象属性的属性值；占比统计模块42，用于对于各种对象属性，统计拍摄图像关于对应对象属性的属性值在对象图档中的数量占比；图像选择模块43，用于响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件，选择拍摄图像作为待定图像；图像滤除模块44，用于基于待定图像的图像特征与对象图档的图档特征之间的第一相似度，确定是否将待定图像从对象图档中滤除；其中，图档特征由对象图档内拍摄图像的图像特征融合得到。

上述方案，数据清洗装置40分别识别同一对象图档内各个拍摄图像的属性数据，且属性数据包括拍摄图像中目标对象关于若干种对象属性的属性值，从而对于各种对象属性，统计拍摄图像关于对应对象属性的属性值在对象图档中的数量占比，再响应于拍摄图像在至少一种对象属性上数量占比不满足第一条件，选择拍摄图像作为待定图像，进而基于待定图像的图像特征与对象图档的图档特征之间的第一相似度，确定是否将待定图像从对象图档中滤除，且图档特征由对象图档内拍摄图像的图像特征融合得到，由于在数据清洗过程中，考虑拍摄图像中目标对象关于各种对象属性的属性值，并对各种对象属性分别统计每个拍摄图像其属性值在对象图档中的数量占比，故对于每个拍摄图像而言能够挖掘出其关于各种对象属性是否存在明显异于对象图档中多数图像的情况，从而据此确定是否选择其作为待定图像，并进一步根据特征相似度来确定是否滤除待定图像，进而能够在数据清洗过程中充分考虑各种对象属性并尽可能地确保对象图像内部属性一致性，有助于尽可能地减少对图档数据进行数据清洗的误删除，以提升数据清洗的准确性。

在一些公开实施例中，属性识别模块41包括识别子模块，用于识别拍摄图像关于至少一种第一属性的属性值；其中，第一属性为连续取值；占比统计模块42具体用于对于各种第一属性，确定拍摄图像关于对应第一属性的属性值所在的预设区间，并统计拍摄图像关于对应第一属性对应预设区间在对象图档中的数量占比。

在一些公开实施例中，若干种对象属性还包括至少一种第二属性，且第二属性为离散取值。

在一些公开实施例中，图像滤除模块44具体用于基于第一相似度与第一阈值的比较结果，确定是否将待定图像从对象图档中滤除；数据清洗装置40还包括相似度量模块，用于获取对象图档中待定图像之外任一拍摄图像的图像特征与图档特征之间的第二相似度，图像滤除模块44还用于基于第二相似度与第二阈值的比较结果，确定是否将对应拍摄图像从对象图档中滤除；其中，第一阈值大于第二阈值。

在一些公开实施例中，数据清洗装置40还包括质量检测模块，用于获取对象图档中各个拍摄图像的图像质量；数据清洗装置40还包括预处理模块，用于基于拍摄图像的图像质量，选择在对象图档中保留或删除拍摄图像。

在一些公开实施例中，数据清洗装置40还包括类内筛选模块，用于基于同一对象图档中拍摄图像的图像特征之间的第三相似度，得到对象图档经筛选后的第一图档；数据清洗装置40还包括类间筛选模块，用于基于不同第一图档的图档特征之间的第四相似度，得到第一图档经组合合并或单独保留后的第二图档；数据清洗装置40还包括二次归类模块，用于基于滤除图像的图像特征分别与各个第二图档的图档特征之间的第五相似度，将滤除图像归入第二图档或永久删除；其中，滤除图像为确定从对象图档中滤除的待定图像。

在一些公开实施例中，类内筛选模块包括第一构建子模块，用于基于第三相似度，构建第一无向图；其中，第一无向图中第一节点对应于对象图档中拍摄图像，且相连第一节点分别对应拍摄图像的图像特征之间的第三相似度满足第二条件；类内筛选模块包括第一遍历子模块，用于基于第一无向图进行遍历，得到若干第一连通子图；类内筛选模块包括图像删除子模块，用于响应于第一连通子图中第一节点的总数量不满足第三条件，在对象图档中删除第一连通子图中第一节点对应的拍摄图像。

在一些公开实施例中，二次归类模块包括第一响应子模块，用于响应于不存在第五相似度不低于预设阈值的第二图档，将滤除图像永久删除；二次归类模块包括第二响应子模块，用于响应于存在第五相似度不低于预设阈值的第二图档，将滤除图像归入第五相似度最高的第二图档。

在一些公开实施例中，类间筛选模块包括第二构建子模块，用于基于第四相似度，构建第二无向图；其中，第二无向图中第二节点对应于第一图档，且相连第二节点分别对应第一图档的图档特征之间的第四相似度满足第四条件；类间筛选模块包括第二遍历子模块，用于基于第二无向图进行遍历，得到若干第二连通子图；其中，第二连通子图包含至少一个第二节点；类间筛选模块包括图档合并子模块，用于对于各个第二连通子图，将第二连通子图中第二节点对应的第一图档进行合并，得到第二图档。

请参阅图5，图5是本申请电子设备50一实施例的框架示意图。电子设备50包括相互耦接的存储器51和处理器52，存储器51存储有程序指令，处理器52用于执行程序指令以实现上述任一数据清洗方法实施例中步骤，具体可以参阅前述公开实施例，在此不再赘述。需要说明的是，电子设备50可以包括但不限于：服务器、台式计算机、笔记本电脑等，在此不做限定。

具体地，处理器52还可以称为CPU(Central Processing Unit，中央处理单元)。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器52可以由多个成电路芯片共同实现。

上述方案，电子设备50中处理器52实现上述任一数据清洗方法实施例中步骤，由于在数据清洗过程中，考虑拍摄图像中目标对象关于各种对象属性的属性值，并对各种对象属性分别统计每个拍摄图像其属性值在对象图档中的数量占比，故对于每个拍摄图像而言能够挖掘出其关于各种对象属性是否存在明显异于对象图档中多数图像的情况，从而据此确定是否选择其作为待定图像，并进一步根据特征相似度来确定是否滤除待定图像，进而能够在数据清洗过程中充分考虑各种对象属性并尽可能地确保对象图像内部属性一致性，有助于尽可能地减少对图档数据进行数据清洗的误删除，以提升数据清洗的准确性。

请参阅图6，图6是本申请计算机可读存储介质60一实施例的框架示意图。计算机可读存储介质60存储有处理器可运行的程序指令61，该程序指令61能够被执行，用以实现上述任一数据清洗方法实施例中步骤。

需要说明的是，计算机可读存储介质60具体可以为U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序指令61的介质，或者也可以为存储有该程序指令61的服务器，该服务器可将存储的程序指令61发送给其他设备运行，或者也可以自运行该存储的程序指令61。

上述方案，计算机可读存储介质60实现上述任一数据清洗方法实施例中步骤，由于在数据清洗过程中，考虑拍摄图像中目标对象关于各种对象属性的属性值，并对各种对象属性分别统计每个拍摄图像其属性值在对象图档中的数量占比，故对于每个拍摄图像而言能够挖掘出其关于各种对象属性是否存在明显异于对象图档中多数图像的情况，从而据此确定是否选择其作为待定图像，并进一步根据特征相似度来确定是否滤除待定图像，进而能够在数据清洗过程中充分考虑各种对象属性并尽可能地确保对象图像内部属性一致性，有助于尽可能地减少对图档数据进行数据清洗的误删除，以提升数据清洗的准确性。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：杭州华橙软件技术有限公司;

上一篇：一种加载超材料隔板透镜的宽角扫描相控阵天线
下一篇：一种大型球类转盘轴承及其加工方法