数据质量校验方法、系统、电子设备及存储介质

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据质量校验方法、系统、电子设备及存储介质。

背景技术

随着大数据技术的不断发展，数据质量越来越受到了人们的重视。在将数据写入数据表时，通常缺乏对数据质量的校验，而由于整体数据量巨大，难以对“脏数据”进行及时排查解决，导致服务崩溃宕机。目前，通常采用人为设定校验规则的方式，对数据表中的数据进行质量校验，如身份证号长度规定为18位等。然而，人为设定的校验规则往往难以应对全部的待校验情况，如旧版身份证号码为15位等特殊的但正常的需求。这就导致数据质量校验不够全面，校验结果的精确度较低，成本较高。

发明内容

本发明提供一种数据质量校验方法、系统、电子设备及存储介质，用以解决现有技术中通过人为设定校验规则，进行数据质量校验，导致数据质量校验不够全面，校验结果的精确度较低，成本较高的问题。

本发明提供一种数据质量校验方法，包括：

基于数据表的数据列对应的基础校验规则，和/或所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验；每个所述数据列均对应至少一个所述基础校验规则，所述元素特征校验规则与所述数据列一一对应；

所述基础校验规则为通过对对应的所述数据列的全部属性值的数据属性进行统计得到的，所述元素特征校验规则为通过对对应的所述数据列的全部所述属性值的公共字符元素特征进行规则化处理得到的。

根据本发明提供的一种数据质量校验方法，所述基础校验规则的获取步骤包括：

对任一所述数据列进行数据属性识别，得到对应的所述数据列的数据属性集，所述数据属性集包括至少一个数据属性子集，在所述数据属性子集的数量大于一个的情况下，每个所述数据属性子集均对应了相应的类型，每个所述数据属性子集均包括对应类型的所述数据属性；

对任一所述数据属性子集中的所述数据属性进行统计，得到相同所述数据属性的出现次数；

基于所述出现次数超出预设的百分比阈值的所述数据属性，确定校验指标；

基于所述校验指标，生成所述基础校验规则，每个所述基础校验规则均对应设有相应的置信度和权重，所述校验指标与所述基础校验规则一一对应。

根据本发明提供的一种数据质量校验方法，所述数据属性的类型包括：数据类型、数据字段长度、数据组成类型、以及数据是否为空值，所述数据组成类型指属性值中是否包含有预设的构成要素，所述构成要素包括：特殊符号、标点、数字和字母。

根据本发明提供的一种数据质量校验方法，所述公共字符元素特征的获取步骤包括：

对任一所述数据列中的全部所述属性值进行字符拆解，得到字符集，所述字符集包括多个字符；

对每个所述字符在所述字符集中的出现频次进行统计，得到每个所述字符的所述出现频次；

将所述出现频次大于或等于预设的频次阈值的所述字符，确定为公共字符池中的所述公共字符元素特征，所述公共字符池与所述数据列一一对应。

根据本发明提供的一种数据质量校验方法，所述元素特征校验规则的获取步骤包括：

将任一所述数据列中的全部所述属性值分别与对应的所述公共字符池进行交集处理；

对与所述公共字符池存在交集的所述属性值的所述字符进行标记；

将被标记的所述字符确定为第一预设数值，将未被标记的所述字符确定为第二预设数值，以得到当前所述数据列中每个所述属性值的属性向量；

对全部所述属性向量进行投影操作，得到叠加向量组；

将所述叠加向量组中任一点位中密度最大的数值确定为标尺向量点位值；

将全部所述点位各自对应的所述标尺向量点位值确定为标尺向量；

基于所述标尺向量，生成当前所述数据列的所述元素特征校验规则，所述元素特征校验规则设有相应的置信度和权重。

根据本发明提供的一种数据质量校验方法，将被标记的所述字符确定为第一预设数值，将未被标记的所述字符确定为第二预设数值，以得到当前所述数据列中每个所述属性值的属性向量的步骤包括：

将被标记的所述字符确定为第一预设数值，将未被标记的所述字符确定为第二预设数值，得到当前所述数据列中每个所述属性值的属性数值序列；

对每个所述属性数值序列分别进行定长裁剪处理，得到定长数值序列，所述属性数值序列与所述定长数值序列一一对应；所述定长裁剪处理包括：若存在连续的两个或两个以上的所述第二预设数值，则将对应的两个或两个以上的所述第二预设数值裁剪为一个所述第二预设数值；

对当前所述数据列的全部所述定长数值序列进行对齐操作，得到当前所述数据列中每个所述属性值的所述属性向量。

根据本发明提供的一种数据质量校验方法，对当前所述数据列的全部所述定长数值序列进行对齐操作，得到当前所述数据列中每个所述属性值的所述属性向量的步骤包括：

按照所述定长数值序列中每个数值的先后顺序，对当前所述数据列的全部所述定长数值序列，进行对齐操作；

获取当前所述数据列的全部所述定长数值序列的序列长度；

将全部所述定长数值序列的序列长度中的最大值确定为目标序列长度；

在任一所述定长数值序列的长度小于所述目标序列长度的情况下，利用所述第二预设数值，对当前所述定长数值序列进行长度补齐，以得到当前所述数据列中每个所述属性值的所述属性向量。

根据本发明提供的一种数据质量校验方法，基于数据表的数据列对应的基础校验规则，对所述数据表中的行数据进行打分的步骤包括：

对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的至少一个所述基础校验规则，分别进行打分，得到所述行数据中每个所述属性值的至少一个基础校验分数。

根据本发明提供的一种数据质量校验方法，对所述行数据的每个属性值，采用所述属性值所在的所述数据列对应的至少一个所述基础校验规则，分别进行打分，得到所述行数据中每个所述属性值的至少一个基础校验分数的步骤包括：

若所述属性值符合对应的所述基础校验规则，则确定所述属性值在对应的所述基础校验规则下的所述基础校验分数为第一预设基础分；

若所述属性值不符合对应的所述基础校验规则，则确定所述属性值在对应的所述基础校验规则下的所述基础校验分数为第二预设基础分。

根据本发明提供的一种数据质量校验方法，基于数据表的数据列对应的基础校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验的步骤包括：

将所述基础校验分数的平方值依次与对应的所述基础校验规则的置信度、权重相乘，得到与所述基础校验分数一一对应的第一目标分数；

将所述行数据的全部所述属性值的所述第一目标分数之间的和值确定为第二目标分数；

对所述第二目标分数进行平方根运算，得到所述行数据的最终分数；

基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。

根据本发明提供的一种数据质量校验方法，基于所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分的步骤包括：

对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的所述元素特征校验规则，进行打分，得到所述行数据中每个所述属性值的元素特征基础分。

根据本发明提供的一种数据质量校验方法，对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的所述元素特征校验规则，进行打分，得到所述行数据中每个所述属性值的元素特征基础分的步骤包括：

将所述行数据的每个所述属性值的属性向量，分别与对应的所述元素特征校验规则中的标尺向量进行异或运算，得到异或运算结果，所述异或运算结果与所述属性向量一一对应；

将任一所述异或运算结果中的全部数值之间的和值，确定为对应的所述属性值的所述元素特征基础分，以得到所述行数据中每个所述属性值的元素特征基础分。

根据本发明提供的一种数据质量校验方法，基于所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验的步骤包括：

将所述元素特征基础分的平方值依次与对应的所述元素特征校验规则的置信度、权重相乘，得到与所述元素特征基础分一一对应的第三目标分数；

将所述行数据的全部所述属性值的所述第三目标分数之间的和值确定为第四目标分数；

对所述第四目标分数进行平方根运算，得到所述行数据的最终分数；

基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。

根据本发明提供的一种数据质量校验方法，基于数据表的数据列对应的基础校验规则和所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分的步骤包括：

对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的至少一个所述基础校验规则，分别进行打分，得到所述行数据中每个所述属性值的至少一个基础校验分数；并且，采用所述属性值所在的所述数据列对应的所述元素特征校验规则，进行打分，得到所述行数据中每个所述属性值的元素特征基础分。

根据本发明提供的一种数据质量校验方法，基于数据表的数据列对应的基础校验规则和所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验的步骤包括：

将所述基础校验分数的平方值依次与对应的所述基础校验规则的置信度、权重相乘，得到与所述基础校验分数一一对应的第一目标分数；

将所述行数据的全部所述属性值的所述第一目标分数之间的和值确定为第二目标分数；

将所述元素特征基础分的平方值依次与对应的所述元素特征校验规则的置信度、权重相乘，得到与所述元素特征基础分一一对应的第三目标分数；

将所述行数据的全部所述属性值的所述第三目标分数之间的和值确定为第四目标分数；

将所述第二目标分数与所述第四目标分数之间的和值确定为第五目标分数；

对所述第五目标分数进行平方根运算，得到所述行数据的最终分数；

基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。

根据本发明提供的一种数据质量校验方法，所述风险阈值分别与所述基础校验规则的权重、以及所述元素特征校验规则的权重正相关，所述风险阈值分别与所述基础校验规则的置信度、以及所述元素特征校验规则的置信度负相关。

本发明还提供一种数据质量校验系统，包括：

校验模块，用于基于数据表的数据列对应的基础校验规则，和/或所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验；每个所述数据列均对应至少一个所述基础校验规则，所述元素特征校验规则与所述数据列一一对应；

根据本发明提供的一种数据质量校验系统，还包括：聚集模块，用于基于所述基础校验规则，生成与所述基础校验规则一一对应的基础校验网；基于所述元素特征校验规则，生成与所述元素特征校验规则一一对应的元素特征校验网；

所述校验模块具体用于将所述行数据依次通过所述基础校验网和/或所述元素特征校验网，得到所述行数据的最终分数。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述数据质量校验方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述数据质量校验方法。

本发明的有益效果：本发明提供的数据质量校验方法、系统、电子设备及存储介质，通过基于数据表的数据列对应的基础校验规则，和/或数据列对应的元素特征校验规则，对数据表中的行数据进行打分，以完成数据质量校验；每个数据列均对应至少一个基础校验规则，元素特征校验规则与数据列一一对应；基础校验规则为通过对对应的数据列的全部属性值的数据属性进行统计得到的，元素特征校验规则为通过对对应的数据列的全部属性值的公共字符元素特征进行规则化处理得到的。本方法通过对数据表进行无监督地统计，自动生成相应的基础校验规则和/或元素特征校验规则，能够较好地提高数据质量校验的精确度，成本较低，可行性较高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的数据质量校验方法的示意图；

图2是本发明提供的数据质量校验方法中获取基础校验规则的流程示意图；

图3是本发明提供的数据质量校验方法中获取公共字符元素特征的流程示意图；

图4是本发明提供的数据质量校验方法中获取元素特征校验规则的流程示意图；

图5是本发明提供的数据质量校验方法中进行异或运算的示例性示意图；

图6是本发明提供的数据质量校验方法中基于数据表的数据列对应的基础校验规则和数据列对应的元素特征校验规则，对数据表中的行数据进行打分，以完成数据质量校验的流程示意图；

图7是本发明提供的数据质量校验方法中的管道过滤方式的示例性示意图；

图8是本发明提供的数据质量校验系统的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以实施例的方式，结合图1-图9描述本发明提供的数据质量校验方法、系统、电子设备及存储介质。

请参考图1，本实施例提供的数据质量校验方法，包括：

S110：基于数据表的数据列对应的基础校验规则，和/或所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验；每个所述数据列均对应至少一个所述基础校验规则，所述元素特征校验规则与所述数据列一一对应。

需要说明的是，所述数据属性指常规的数据属性信息，如数据类型、数据字段长度、数据组成类型、以及数据是否为空值等。对对应的所述数据列的全部属性值的数据属性进行统计，能够便于后续基于数据列的数据属性，生成相应的基础校验规则。通过对数据列的全部所述属性值的公共字符元素特征进行统计，能够便于后续基于公共字符元素特征，生成相应的元素特征校验规则。本实施例通过基于数据表的数据列对应的基础校验规则，和/或所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验，能够较好地提高数据质量校验的精确度，成本较低，可行性较高，灵活度较高。

还需要说明的是，所述基础校验规则和所述元素特征校验规则的生成，均采用无监督统计的方式进行，能够较好地降低所述基础校验规则和所述元素特征校验规则的生成难度，且精确度较高，复杂程度较低，有效减少规则设计时间，降低成本。

另外，数据表中包括多个数据列（数据列也可叫做数据字段和数据属性等），如姓名数据列、年龄数据列、地址数据列和身份证号码数据列等，每个数据列均包括多个属性值。所述属性值指数据列中的单个数据项。所述行数据可以为数据表中已有的行数据，也可以是新进的行数据。可以理解的，每行行数据均包括多个属性值，每个属性值均位于相应的数据列。

下面对所述基础校验规则的获取步骤进行解释说明。

请参考图2，在一些实施例中，所述基础校验规则的获取步骤包括：

S210：对任一所述数据列进行数据属性识别，得到对应的所述数据列的数据属性集，所述数据属性集包括至少一个数据属性子集，在所述数据属性子集的数量大于一个的情况下，每个所述数据属性子集均对应了相应的类型，每个所述数据属性子集均包括对应类型的所述数据属性。

具体地，在所述数据属性子集的数量大于一个的情况下，每个所述数据属性子集的类型不同，如第一数据属性子集的类型为数据类型，则第二数据属性子集的类型为数据字段长度或数据组成类型等。可以理解的，不同类型的所述数据属性子集中包括对应的数据列中全部所述属性值的对应类型的数据属性。

S220：对任一所述数据属性子集中的所述数据属性进行统计，得到相同所述数据属性的出现次数。如假设当前的数据表共有100万行数据，对于数据类型的所述数据属性子集中“文本”的出现次数为99万次，“数字”的出现次数为1万次等。

S230：基于所述出现次数超出预设的百分比阈值的所述数据属性，确定校验指标。例如：假设数据类型的所述数据属性子集中“文本”的出现次数为99万次，“数字”的出现次数为1万次，对应的百分比阈值为95万次，那么当前数据属性子集对应的校验指标则为是否为文本数据类型。另外需要说明的是，任一类型的数据属性对应的校验指标可以为一个或多个，如假设当前数据属性的类型为数据类型，若数据类型的所述数据属性子集中“数字”的出现次数为98万次，“文本”的出现次数为2万次，对应的百分比阈值为95万次，那么当前数据属性子集对应的校验指标可以为数值取值范围判断、数值类标准差判断等。具体地，所述校验指标可以为数据类型的符合与否、取值区间范围判断（离散值判断）、数值类标准差判断、数据项长度标准差判断、是否允许存在空值、唯一性判断、数据类型纯度（特殊符号的占比）判断等。不同的数据属性，可以生成不同的校验指标。所述百分比阈值与数据表的总行数相关。

S240：基于所述校验指标，生成所述基础校验规则，每个所述基础校验规则均对应设有相应的置信度和权重，所述校验指标与所述基础校验规则一一对应。例如：在上一个举例的基础上，即当前数据属性子集对应的校验指标则为文本数据类型，则对应生成的基础校验规则为判断是否属于文本数据类型。所述置信度和权重可以根据实际情况进行设置与调整，如置信度为99%，权重为1等，此处不再赘述。需要提及的是，每个所述数据列均对应至少一个基础校验规则。所述基础校验规则基于数据列的数据属性得到。

在一些实施例中，所述数据属性的类型包括：数据类型、数据字段长度、数据组成类型、以及数据是否为空值，所述数据组成类型指属性值中是否包含有预设的构成要素，所述构成要素包括：特殊符号、标点、数字和字母等。需要说明的是，本实施例中的所述数据类型指客观数据类型。相比于相关技术中人为地设定主观数据类型，客观数据类型则更加有助于提高后续数据质量校验的全面性。可以理解的，对于一项属性值或记录值，可以被人为定义为一种父类型（主观数据类型），但根据其客观特征可以归为其他的更有意义的类型。如“100”，在数据库最初进行存储时可以人为定义为“文本”或“定长字符串”类型，但客观上，这是数字类型。又如“20230101”主观上可以设置为文本或者数字类型，但客观上这是“日期”类型。即人为设定的主观数据类型并不能较为精准地指代真实的数据类型。在本实施例中，无需人为进行主观数据类型定义，也无需获取人为定义的主观数据类型，而是基于属性值的特征，确定属性值的客观数据类型，使得对于属性值的数据类型的确定更加精确，从而有助于提高后续数据质量校验的针对性与准确度。可以理解的，所述客观数据类型为根据属性值的特征识别得到的数据类型，其类型可以是多种多样的，如文本、数字等。

请参考图3，在一些实施例中，所述公共字符元素特征的获取步骤包括：

S310：对任一所述数据列中的全部所述属性值进行字符拆解，得到字符集，所述字符集包括多个字符。例如：将“浙江省杭州市萧山区”拆分为“浙”、“江”、“省”、“杭”、“州”、“市”、“萧”、“山”和“区”。

S320：对每个所述字符在所述字符集中的出现频次进行统计，得到每个所述字符的所述出现频次。例如：假设当前的数据表共有100万行数据，“浙”的出现频次为3万次，“江”的出现频次为4万次，“省”的出现频次为95万次，“杭”的出现频次为4万次，“州”的出现频次为10万次，“市”的出现频次为90万次，“萧”的出现频次为1万次，“山”的出现频次为5万次， “区”的出现频次为90万次等。

S330：将所述出现频次大于或等于预设的频次阈值的所述字符，确定为公共字符池中的所述公共字符元素特征，所述公共字符池与所述数据列一一对应。需要说明的是，所述频次阈值可以根据实际情况，如数据表的行数进行设置，如90万次等。示例性地，若频次阈值为90万次，则在上一个举例的基础上，得到的公共字符池包括：“省”、“市”和“区”。本实施例通过统计出每个数据列的公共字符池，便于后续基于公共字符池，生成相应的元素特征校验规则。

请参考图4，在一些实施例中，所述元素特征校验规则的获取步骤包括：

S410：将任一所述数据列中的全部所述属性值分别与对应的所述公共字符池进行交集处理。

具体地，将任一所述数据列中的全部所述属性值的字符分别与对应的所述公共字符池进行交集处理，如属性值“浙江省杭州市萧山区15号”的字符包括：“浙”、“江”、“省”、“杭”、“州”、“市”、“萧”、“山”、“区”“1”、“5”和“号”，该数据列对应的公共字符池包括：“省”、“市”和“区”，通过进行上述交集处理，得到当前属性值中的“省”、“市”和“区”为与公共字符池存在交集的字符。

S420：对与所述公共字符池存在交集的所述属性值的所述字符进行标记。例如：在上一个例子的基础上，对“浙”、“江”、“省”、“杭”、“州”、“市”、“萧”、“山”、“区”“1”、“5”和“号”中的“省”、“市”和“区”进行标记。需要说明的是，标记的方式可以采用点亮对应字符的方式进行，本实施例对此不做限定。

S430：将被标记的所述字符确定为第一预设数值，将未被标记的所述字符确定为第二预设数值，以得到当前所述数据列中每个所述属性值的属性向量。所述第一预设数值和所述第二预设数值可以根据实际情况进行设置，如将所述第一预设数值设为1，将所述第二预设数值设为0等。所述第一预设数值和第二预设数值不同。

S440：对全部所述属性向量进行投影操作，得到叠加向量组。具体地，将当前数据列的全部属性向量按位进行投影，得到叠加向量组，所述叠加向量组中包括多个叠加点位，每个叠加点位均包括多个叠加的数值（该数值指属性向量中的任一个值）。

S450：将所述叠加向量组中任一点位中密度最大的数值确定为标尺向量点位值。具体地，将叠加向量组的每个叠加点位中出现次数最多的数值确定为标尺向量点位值。如一个叠加点位中“1”的密度最大或出现次数最多，则将“1”确定为对应的标尺向量点位值。

S460：将全部所述点位各自对应的所述标尺向量点位值确定为标尺向量。

S470：基于所述标尺向量，生成当前所述数据列的所述元素特征校验规则，所述元素特征校验规则设有相应的置信度和权重。所述置信度和权重可以根据实际情况进行设置与调整，如置信度为99%，权重为1等，此处不再赘述。

在一些实施例中，将被标记的所述字符确定为第一预设数值，将未被标记的所述字符确定为第二预设数值，以得到当前所述数据列中每个所述属性值的属性向量的步骤包括：

S4301：将被标记的所述字符确定为第一预设数值，将未被标记的所述字符确定为第二预设数值，得到当前所述数据列中每个所述属性值的属性数值序列。例如：假设“北京市东城区长安路168号”中“市”、“区”、“路”需要被标记，第一预设数值为1，第二预设数值为0，那么，对应的属性数值序列则为[0010010010000]。

S4302：对每个所述属性数值序列分别进行定长裁剪处理，得到定长数值序列，所述属性数值序列与所述定长数值序列一一对应；所述定长裁剪处理包括：若存在连续的两个或两个以上的所述第二预设数值，则将对应的两个或两个以上的所述第二预设数值裁剪为一个所述第二预设数值。例如：在前一个举例的基础上，即若属性数值序列为[0010010010000]，通过进行定长裁剪处理，得到的定长数值序列为[0101010]。通过进行上述定长裁剪处理，能够便于后续确定标尺向量，减低运算难度和复杂度。

S4303：对当前所述数据列的全部所述定长数值序列进行对齐操作，得到当前所述数据列中每个所述属性值的所述属性向量。需要说明的是，通过获取所述数据列中每个所述属性值的所述属性向量，便于后续确定数据列的标尺向量。

进一步地，对当前所述数据列的全部所述定长数值序列进行对齐操作，得到当前所述数据列中每个所述属性值的所述属性向量的步骤包括：

首先，按照所述定长数值序列中每个数值的先后顺序，对当前所述数据列的全部所述定长数值序列，进行对齐操作。

其次，获取当前所述数据列的全部所述定长数值序列的序列长度。

然后，将全部所述定长数值序列的序列长度中的最大值确定为目标序列长度。

最后，在任一所述定长数值序列的长度小于所述目标序列长度的情况下，利用所述第二预设数值，对当前所述定长数值序列进行长度补齐，以得到当前所述数据列中每个所述属性值的所述属性向量。例如：假设当前属性值为“我曾到洛阳市区看过牡丹花”，“市”和“区”为被标记的字符，则对应的定长数值序列为[0110]，又假设目标序列长度为7位，对该定长数值序列进行长度补齐，假设第二预设数值为0，则得到的补齐后的属性向量为[0110000]。

需要说明的是，本发明对数据表中的行数据进行打分，以完成数据质量校验，可以采用三种方式。一种是基于数据表的数据列对应的基础校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验。一种是基于所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验。还有一种是基于数据表的数据列对应的基础校验规则和所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验。

下面对基于数据表的数据列对应的基础校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验的方式进行解释说明。

在一些实施例中，基于数据表的数据列对应的基础校验规则，对所述数据表中的行数据进行打分的步骤包括：

对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的至少一个所述基础校验规则，分别进行打分，得到所述行数据中每个所述属性值的至少一个基础校验分数。需要说明的是，通过对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的至少一个所述基础校验规则，分别进行打分，能够得到精确度较高的基础校验分数。

具体地，对所述行数据的每个属性值，采用所述属性值所在的所述数据列对应的至少一个所述基础校验规则，分别进行打分，得到所述行数据中每个所述属性值的至少一个基础校验分数的步骤包括：

在一种情况下，若所述属性值符合对应的所述基础校验规则，则确定所述属性值在对应的所述基础校验规则下的所述基础校验分数为第一预设基础分。所述第一预设基础分可以根据实际情况进行设置，如0分等。

在另一种情况下，若所述属性值不符合对应的所述基础校验规则，则确定所述属性值在对应的所述基础校验规则下的所述基础校验分数为第二预设基础分。所述第二预设基础分可以根据实际情况进行设置，如1分等。可以理解的，基础校验分数越高，则对应的属性值或行数据的异常程度越大。

在一些实施例中，基于数据表的数据列对应的基础校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验的步骤包括：

首先，将所述基础校验分数的平方值依次与对应的所述基础校验规则的置信度、权重相乘，得到与所述基础校验分数一一对应的第一目标分数。

其次，将所述行数据的全部所述属性值的所述第一目标分数之间的和值确定为第二目标分数。

然后，对所述第二目标分数进行平方根运算，得到所述行数据的最终分数。需要说明的是，通过采用平方根运算的方式，能够较好地提高所述行数据的最终得分的精确度。

最后，基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。具体地，所述风险阈值可以根据实际情况进行设置，如第一风险阈值为3，第二风险阈值为6等，当最终分数小于3时，对应的风险等级为第一等级，当最终分数大于或等于3，并且小于或等于6时，对应的风险等级为第二等级，当最终分数大于6时，对应的风险等级为第三等级等。在此基础上，若最终分数为4，则确定所述行数据的异常成为第一等级。

具体地，上述基于数据表的数据列对应的基础校验规则，对所述数据表中的行数据进行打分的数学表达为：

其中，

下面对基于所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验的情况进行解释说明。

在一些实施例中，基于所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分的步骤包括：

对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的所述元素特征校验规则，进行打分，得到所述行数据中每个所述属性值的元素特征基础分。需要说明的是，通过对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的所述元素特征校验规则，进行打分，能够较好地提高元素特征基础分的精确度。

具体地，对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的所述元素特征校验规则，进行打分，得到所述行数据中每个所述属性值的元素特征基础分的步骤包括：

A．将所述行数据的每个所述属性值的属性向量，分别与对应的所述元素特征校验规则中的标尺向量进行异或运算，得到异或运算结果，所述异或运算结果与所述属性向量一一对应。

异或运算即相同值为0，不同值为1，具体请参考图5，示例性地，假设标尺向量为[0101010]，行数据的某一属性值的属性向量为[0110000]，那么，通过异或运算，得到的异或运算结果为[0011010]。

B．将任一所述异或运算结果中的全部数值之间的和值，确定为对应的所述属性值的所述元素特征基础分，以得到所述行数据中每个所述属性值的元素特征基础分。如图5中[0011010]对应的元素特征基础分为1+1+1=3。

进一步地，基于所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验的步骤包括：

首先，将所述元素特征基础分的平方值依次与对应的所述元素特征校验规则的置信度、权重相乘，得到与所述元素特征基础分一一对应的第三目标分数。

其次，将所述行数据的全部所述属性值的所述第三目标分数之间的和值确定为第四目标分数。

然后，对所述第四目标分数进行平方根运算，得到所述行数据的最终分数。

最后，基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。所述风险阈值可以根据实际情况进行设置，此处不再赘述。

具体地，上述基于所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分的数学表达为：

其中，

下面对基于数据表的数据列对应的基础校验规则和所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验的方式进行解释说明。

在一些实施例中，基于数据表的数据列对应的基础校验规则和所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分的步骤包括：

对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的至少一个所述基础校验规则，分别进行打分，得到所述行数据中每个所述属性值的至少一个基础校验分数；并且，采用所述属性值所在的所述数据列对应的所述元素特征校验规则，进行打分，得到所述行数据中每个所述属性值的元素特征基础分。需要说明的是，通过基于数据表的数据列对应的基础校验规则和所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，能够进一步提高最终得分的精确度。

请参考图6，在一些实施例中，基于数据表的数据列对应的基础校验规则和所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验的步骤包括：

S610：将所述基础校验分数的平方值依次与对应的所述基础校验规则的置信度、权重相乘，得到与所述基础校验分数一一对应的第一目标分数。

S620：将所述行数据的全部所述属性值的所述第一目标分数之间的和值确定为第二目标分数。

S630：将所述元素特征基础分的平方值依次与对应的所述元素特征校验规则的置信度、权重相乘，得到与所述元素特征基础分一一对应的第三目标分数。

S640：将所述行数据的全部所述属性值的所述第三目标分数之间的和值确定为第四目标分数。

S650：将所述第二目标分数与所述第四目标分数之间的和值确定为第五目标分数。

S660：对所述第五目标分数进行平方根运算，得到所述行数据的最终分数。

S670：基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。具体地，所述风险阈值可以根据实际情况进行设置，此处不再赘述。

具体地，基于数据表的数据列对应的基础校验规则和所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分的数学表达为：

在一些实施例中，所述风险阈值分别与所述基础校验规则的权重、以及所述元素特征校验规则的权重正相关，所述风险阈值分别与所述基础校验规则的置信度、以及所述元素特征校验规则的置信度负相关。需要说明的是，通过设置与所述基础校验规则的权重、以及所述元素特征校验规则的权重正相关，且与所述基础校验规则的置信度、以及所述元素特征校验规则的置信度负相关的风险阈值，能够提高风险判定的精确度。

下面以一个具体的示例性实施例对上述实施例中的数据质量校验方法进行进一步解释说明。

假设现有一张数据表，该数据表中存有姓名、身份证号、年龄、性别、住址、工作单位这6列数据列，即6列属性信息。每个数据列均包括多个属性值（属性值即单个数据项或属性项）。数据表中现有100万行数据，数据质量未知。现需要对该数据表中的数据进行质量校验，步骤如下：

A.对每个数据列分别进行属性识别与统计，以生成相应的基础校验规则。每个数据列均对应至少一个基础校验规则。如对于姓名数据列，根据字符编码的范围识别出数据类型为纯文本；根据内容长度统计值识别出属性字符长度分布范围为2到6；该数据列不存在空值。则姓名数据列对应的基础校验规则分别为：数据类型是否为纯文本，属性字符长度分布范围是否在[2,6]区间内，是否存在空值。假设以上三个基础校验规则分别设置权重为1、置信度为99%。对于其他数据列的属性识别与统计的步骤同理可得，此处不再赘述。

为了便于描述，可以将每个基础校验规则分别确定为一个基础校验网（如图7中的P1、P2、P3……），每个基础校验网分别包括相应的校验方式（即数据类型分别为纯文本，属性字符长度分布范围是否在[2,6]区间内或是否存在空值等）、权重和置信度。如P1基础校验网校验数据类型是否为纯文本，P2基础校验网校验属性字符长度分布范围是否在[2,6]区间内，P3基础校验网校验是否存在空值等。每个基础校验网（P1、P2、P3……）分别对对应的属性值进行打分，如对于异常的为空的值，不符合P3基础校验网，得1分；对于“郭达斯坦森托洛夫斯基”或者“李”这样的值，不符合P2基础校验网，得1分；对于“John”或者“Snow”、“111”这样的值则不符合P1基础校验网，得1分。对于“张三”这样的值，则符合全部对应的基础校验网（即姓名数据列对应的全部基础校验网），得0分；以上所得的分数均为基础校验分数。同理对其他数据列也进行类似的处理。

B. 通过对对应的所述数据列的全部所述属性值的公共字符元素特征进行统计，得到与每个数据列一一对应的元素特征校验规则。需要说明的是，考虑到每个数据列的实际情况，在具体实施过程中，每个数据列对应的元素特征校验规则可能为1个或0个。

具体地，以住址数据列为例，首先，需要进行字符分解以抽取出公共字符池（即对住址数据列中的全部所述属性值进行字符拆解，得到字符集，所述字符集包括多个字符；对每个所述字符在所述字符集中的出现频次进行统计，得到每个所述字符的所述出现频次；将所述出现频次大于或等于预设的频次阈值的所述字符，确定为公共字符池中的所述公共字符元素特征）。抽取到的公共字符池如“省、市、区、县、路”。

其次，对地址数据列的属性值进行向量化处理（即将地址数据列中的全部所述属性值分别与对应的所述公共字符池进行交集处理；对与所述公共字符池存在交集的所述属性值的所述字符进行标记（如点亮）；将被标记的所述字符确定为第一预设数值（如1），将未被标记的所述字符确定为第二预设数值（如0），以得到当前所述数据列中每个所述属性值的属性向量），以生成与每个属性值一一对应的属性向量。如“北京市东城区长安路168号”中的“市”、“区”、“路”分别被点亮，并向量化为“[0101010]”。

然后，对全部属性向量进行投影，将投影密度最大的点位值提取出来，以得到标尺向量。如标尺向量[0101010]。

最后，基于标尺向量，生成相应的元素特征校验规则。每个所述元素特征校验规则均设有相应的置信度和权重。

同样地，为了便于描述，可以将每个元素特征校验规则分别确定为一个元素特征校验网（如图7中的M1、M2……），每个元素特征校验网分别包括相应的校验方式（即基于对应的标尺向量，进行异或运算）、权重和置信度。

C.将数据表的行数据的属性值分别输入相应的基础校验网和/或元素特征校验网进行打分，得到行数据在对应的基础校验网的基础校验分数和/或在元素特征校验网的元素特征基础分。基于行数据的全部基础校验分数和/或元素特征基础分，得到最终分数。有关如何获取最终分数的方式可以参考上述实施例，此处不再赘述。最后，基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。可以理解的，最终得分越高，相应的风险程度或异常程度则越高。

需要说明的是，图7中将对行数据的处理过程抽象为一个管道过滤装置，从图7中可以看出，通过将数据表的全部基础校验网（P1、P2、P3……）和元素特征校验网（M1、M2……）依次设置在管道中，将行数据输入管道中，按照预设的数据流向进行依次处理，得到评分S，即最终分数。

需要提及的是，本实施例中的数据质量校验方法，相较于相关技术中的其他检测方法，具有生成方式简单、时间复杂低、置信度可根据业务需要快速调节、结果的可解释性佳等优点。用户可以根据实际业务需要指定相应的置信度和权重组合、以及定量地划定风险阈值，精准找到问题范围数据，提高数据质量，减少服务中断时间，起到事前检验、事后排查的有益效果。

下面对本发明提供的数据质量校验系统进行描述，下文描述的数据质量校验系统与上文描述的数据质量校验方法可相互对应参照。

请参考图8，本实施例提供的数据质量校验系统，包括：

校验模块810，用于基于数据表的数据列对应的基础校验规则，和/或所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验；每个所述数据列均对应至少一个所述基础校验规则，所述元素特征校验规则与所述数据列一一对应；

在一些实施例中，所述数据质量校验系统还包括：

聚集模块，用于基于所述基础校验规则，生成与所述基础校验规则一一对应的基础校验网；基于所述元素特征校验规则，生成与所述元素特征校验规则一一对应的元素特征校验网；

所述校验模块具体用于将所述行数据依次通过所述基础校验网和/或所述元素特征校验网，得到所述行数据的最终分数。

在一些实施例中，还包括：基础校验规则获取模块，用于对任一所述数据列进行数据属性识别，得到对应的所述数据列的数据属性集，所述数据属性集包括至少一个数据属性子集，在所述数据属性子集的数量大于一个的情况下，每个所述数据属性子集均对应了相应的类型，每个所述数据属性子集均包括对应类型的所述数据属性；

对任一所述数据属性子集中的所述数据属性进行统计，得到相同所述数据属性的出现次数；

基于所述出现次数超出预设的百分比阈值的所述数据属性，确定校验指标；

基于所述校验指标，生成所述基础校验规则，每个所述基础校验规则均对应设有相应的置信度和权重，所述校验指标与所述基础校验规则一一对应。

在一些实施例中，还包括：公共字符元素特征获取模块，用于对任一所述数据列中的全部所述属性值进行字符拆解，得到字符集，所述字符集包括多个字符；

对每个所述字符在所述字符集中的出现频次进行统计，得到每个所述字符的所述出现频次；

将所述出现频次大于或等于预设的频次阈值的所述字符，确定为公共字符池中的所述公共字符元素特征，所述公共字符池与所述数据列一一对应。

在一些实施例中，还包括：元素特征校验规则获取模块，用于将任一所述数据列中的全部所述属性值分别与对应的所述公共字符池进行交集处理；

对与所述公共字符池存在交集的所述属性值的所述字符进行标记；

将被标记的所述字符确定为第一预设数值，将未被标记的所述字符确定为第二预设数值，以得到当前所述数据列中每个所述属性值的属性向量；

对全部所述属性向量进行投影操作，得到叠加向量组；

将所述叠加向量组中任一点位中密度最大的数值确定为标尺向量点位值；

将全部所述点位各自对应的所述标尺向量点位值确定为标尺向量；

基于所述标尺向量，生成当前所述数据列的所述元素特征校验规则，所述元素特征校验规则设有相应的置信度和权重。

在一些实施例中，所述元素特征校验规则获取模块具体用于将被标记的所述字符确定为第一预设数值，将未被标记的所述字符确定为第二预设数值，得到当前所述数据列中每个所述属性值的属性数值序列；

对当前所述数据列的全部所述定长数值序列进行对齐操作，得到当前所述数据列中每个所述属性值的所述属性向量。

在一些实施例中，所述元素特征校验规则获取模块还具体用于按照所述定长数值序列中每个数值的先后顺序，对当前所述数据列的全部所述定长数值序列，进行对齐操作；

获取当前所述数据列的全部所述定长数值序列的序列长度；

将全部所述定长数值序列的序列长度中的最大值确定为目标序列长度；

在一些实施例中，所述校验模块810具体用于对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的至少一个所述基础校验规则，分别进行打分，得到所述行数据中每个所述属性值的至少一个基础校验分数。

在一些实施例中，所述校验模块810还具体用于若所述属性值符合对应的所述基础校验规则，则确定所述属性值在对应的所述基础校验规则下的所述基础校验分数为第一预设基础分；

若所述属性值不符合对应的所述基础校验规则，则确定所述属性值在对应的所述基础校验规则下的所述基础校验分数为第二预设基础分。

在一些实施例中，所述校验模块810还具体用于将所述基础校验分数的平方值依次与对应的所述基础校验规则的置信度、权重相乘，得到与所述基础校验分数一一对应的第一目标分数；

将所述行数据的全部所述属性值的所述第一目标分数之间的和值确定为第二目标分数；

对所述第二目标分数进行平方根运算，得到所述行数据的最终分数；

基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。

在一些实施例中，所述校验模块810还具体用于对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的所述元素特征校验规则，进行打分，得到所述行数据中每个所述属性值的元素特征基础分。

在一些实施例中，所述校验模块810还具体用于将所述行数据的每个所述属性值的属性向量，分别与对应的所述元素特征校验规则中的标尺向量进行异或运算，得到异或运算结果，所述异或运算结果与所述属性向量一一对应；

在一些实施例中，所述校验模块810还具体用于将所述元素特征基础分的平方值依次与对应的所述元素特征校验规则的置信度、权重相乘，得到与所述元素特征基础分一一对应的第三目标分数；

将所述行数据的全部所述属性值的所述第三目标分数之间的和值确定为第四目标分数；

对所述第四目标分数进行平方根运算，得到所述行数据的最终分数；

基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。

在一些实施例中，所述校验模块810还具体用于对所述行数据的每个所述属性值，采用所述属性值所在的所述数据列对应的至少一个所述基础校验规则，分别进行打分，得到所述行数据中每个所述属性值的至少一个基础校验分数；并且，采用所述属性值所在的所述数据列对应的所述元素特征校验规则，进行打分，得到所述行数据中每个所述属性值的元素特征基础分。

将所述行数据的全部所述属性值的所述第一目标分数之间的和值确定为第二目标分数；

将所述元素特征基础分的平方值依次与对应的所述元素特征校验规则的置信度、权重相乘，得到与所述元素特征基础分一一对应的第三目标分数；

将所述行数据的全部所述属性值的所述第三目标分数之间的和值确定为第四目标分数；

将所述第二目标分数与所述第四目标分数之间的和值确定为第五目标分数；

对所述第五目标分数进行平方根运算，得到所述行数据的最终分数；

基于所述最终分数和预设的至少一个风险阈值，确定所述行数据的风险程度。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行数据质量校验方法，该方法包括：基于数据表的数据列对应的基础校验规则，和/或所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验；每个所述数据列均对应至少一个所述基础校验规则，所述元素特征校验规则与所述数据列一一对应；所述基础校验规则为通过对对应的所述数据列的全部属性值的数据属性进行统计得到的，所述元素特征校验规则为通过对对应的所述数据列的全部所述属性值的公共字符元素特征进行规则化处理得到的。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的数据质量校验方法，该方法包括：基于数据表的数据列对应的基础校验规则，和/或所述数据列对应的元素特征校验规则，对所述数据表中的行数据进行打分，以完成数据质量校验；每个所述数据列均对应至少一个所述基础校验规则，所述元素特征校验规则与所述数据列一一对应；所述基础校验规则为通过对对应的所述数据列的全部属性值的数据属性进行统计得到的，所述元素特征校验规则为通过对对应的所述数据列的全部所述属性值的公共字符元素特征进行规则化处理得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：苏州元脑智能科技有限公司;

上一篇：便携式刀片刺网快速部署单元
下一篇：一种儿童临床影像资料的自动管理方法、系统及设备