掌桥专利:专业的专利平台
掌桥专利
首页

数据质检方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 20:00:50


数据质检方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术,尤其涉及一种数据质检方法、装置、电子设备及存储介质。

背景技术

在大数据平台上,由于存在采集的数据具有海量、多源、异构的特点,所以需要对采集的数据进行数据质检。

在数据质检时,往往采用人工方式进行数据分析与开发,但是基于上述方式进行数据质检时,数据质量评估的准确性、规范性以及一致性等只能依靠人工进行数据分析,无法准确判断数据的质量。此外,上述方式会导致数据质检十分耗时,影响数据质检的效率。

发明内容

本发明提供一种数据质检方法、装置、电子设备及存储介质,以提高数据质检的效率,同时保证数据质检后数据质量具有较高的准确性。

根据本发明的一方面,提供了一种数据质检方法,该方法包括:

接收待校验数据,并对待校验数据进行规范性校验,得到待处理数据;

基于第一神经网络对待处理数据中至少一个字段所对应的数据内容进行处理,得到字段质检数据;

在字段质检数据未满足第一预设条件时,基于第二神经网络对字段质检数据进行一致性校验,得到记录质检数据;

在记录质检数据未满足第二预设条件时,基于第三神经网络对记录质检数据进行关联度校验,得到目标质检数据。

根据本发明的另一方面,提供了一种数据质检装置,该装置包括:

待处理数据获取模块,用于接收待校验数据,并对待校验数据进行规范性校验,得到待处理数据;

字段质检数据获取模块,用于基于第一神经网络对待处理数据中至少一个字段所对应的数据内容进行处理,得到字段质检数据;

记录质检数据获取模块,用于在字段质检数据未满足第一预设条件时,基于第二神经网络对字段质检数据进行一致性校验,得到记录质检数据;

目标质检数据获取模块,用于在记录质检数据未满足第二预设条件时,基于第三神经网络对记录质检数据进行关联度校验,得到目标质检数据。

根据本发明的另一方面,提供了一种电子设备,该电子设备包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的数据质检方法。

根据本发明的另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的数据质检方法。

本发明通过接收待校验数据并对其进行规范性校验,获得待处理数据,之后基于第一神经网络对待处理数据中至少一个字段对应的数据进行处理,获得字段质检数据,当字段质检数据无法满足第一预设条件时,利用第二神经网络对字段质检数据进行一致性校验,获得记录质检数据,之后,当记录质检数据无法满足第二预设条件时,利用第三神经网络对记录质检数据进行关联度校验,从而获得目标质检数据。解决了现有技术中采用人工进行数据分析与开发导致的数据质检耗时,质检效率低下,以及数据质检结果的准确性和完整性无法保证的问题。通过对待校验数据进行规范性校验后,获得待处理数据,之后利用第一神经网络、第二神经网络以及第三神经网络对待处理数据分别进行字段处理、一致性校验以及关联度校验,从而获得目标质检数据,实现了利用神经网络对数据进行质检,节省数据质检的时间,提高了数据质检的效率,同时保证了数据质检结果的准确性和完整性,达到了准确判断数据质量的目的。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一所提供的一种数据质检方法的流程示意图;

图2为本发明实施例二所提供的一种数据质检方法的流程示意图;

图3为本发明实施例三所提供的一种数据质检装置的结构示意图;

图4为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一所提供的一种数据质检方法的流程示意图,本实施例可适用于在基于正则函数和/或规则函数对数据进行规范性校验后,数据仍存在问题或是数据质量的准确性无法保证,可以利用神经网络对数据再次进行质检的情况,该方法可以由数据质检装置来执行,该数据质检装置可以通过软件和/或硬件的形式实现,该数据质检装置可配置于诸如手机、计算机或者服务器等的电子设备中。如图1所示,该方法包括:

S110、接收待校验数据,并对待校验数据进行规范性校验,得到待处理数据。

在日常生活场景中,会产生各种相关的数据,这些数据可以是相应业务系统产生的数据、市场调研或是手动录入的数据,本实施例对此不做限制。例如,在医疗场景下,可能会产生记录某位患者在不同科室的检查信息的数据,此时,为保证相应数据的准确性和完整性,可以对数据进行校验,校验的数据即为待校验数据。其中,待校验数据可以是从单个数据库表、多个数据库表或Excel表格中获得的一个或多个数据,也可以是基于多方平台获取并进行组合的多个数据。在对待校验数据进行数据质检时,可以先进行规范性校验,规范性校验是判断待校验数据是否符合特定的规范或标准的校验方式,其中,特定的规范或标准是根据实际需求设置的,这些规范或标准可以包括待校验数据的类型、长度、格式以及取值范围等方面。例如,若待校验数据为手机号码,则对待校验数据进行规范性校验,可以检查手机号码是否由11位数字组成,是否以1为开头等内容。在对待校验数据进行规范性校验后,可以获得处理后的数据,即为待处理数据。

具体的,将从单个数据库表、多个数据库表、Excel表格或多方平台中获得的至少一个数据作为待校验数据,之后,对接收的待校验数据进行规范性校验,可以从待校验数据的类型、长度、格式以及取值范围等方面进行判断,即判断上述待校验数据的各方面是否符合根据实际需求设置的规范或标准。其中,可以利用正则表达式、规则、函数等方式实现规范性校验。对于规范性校验的方式可以根据具体的需求进行选择,例如,当待校验数据比较复杂或是进行多次匹配可以利用正则表达式进行校验;当待校验数据比较简单直观,可以使用规则进行校验;当在规范性校验时,需要重用或抽象相应的规范性校验逻辑,可以使用函数对待校验数据进行校验。之后,将待校验数据进行规范性校验后的数据作为待处理数据,以便利用待处理数据进行后续数据质检。

可选的,对待校验数据进行规范性校验,得到待处理数据,包括:依据预先设置的第一正则函数和/或第一规则函数对待校验数据中的行数据和/或列数据进行规范性校验,得到待处理数据;其中,第一正则函数和/或第一规则函数对应于待校验数据中的行表头或列表头。

在本发明实施例中,在对待校验数据进行规范性校验时,可以先根据实际需求设置合适的正则函数和/或规则函数。其中,正则函数是满足某些正则表达式的函数,规则函数是满足某些规则或条件的函数。根据实际需要设置的正则函数可以表征为第一正则函数。例如,第一正则函数可以是match函数,可以利用match函数检查待校验数据对应的字符串数据是否以特定的前缀为开头。相应的,预先设置的规则函数即为第一规则函数。可选的,第一规则函数中的规则或条件可以是业务逻辑、算法或是数学公式等。由于待校验数据存储于相应数据库表或Excel表中,所以对待校验数据进行规范性校验时,可以对待校验数据中的某行数据或某列数据进行校验,某行数据或某列数据即为相应的行数据或列数据。其中,可以用行表头或列表头表示行数据或列数据对应的属性。

具体的,根据实际需求预先设置合适的第一正则函数和/或第一规则函数,之后,利用第一正则函数和/或第一规则函数对待校验数据所在的数据库表或Excel表中的行数据和/或列数据进行规范性校验,从而获得待处理数据,以利用待处理数据进行后续数据处理。其中,第一正则函数和/或第一规则函数对应于待校验数据中的行表头或列表头,以便根据行表头或列表头对行数据和/或列数据进行规范性校验。

S120、基于第一神经网络对待处理数据中至少一个字段所对应的数据内容进行处理,得到字段质检数据。

在本发明实施例中,第一神经网络可以是预先训练好的,用来进行特征提取、词性标注以及分词等字段处理任务的神经网络架构。例如,第一神经网络可以是卷积神经网络、循环神经网络、长短期记忆网络或双向长短期记忆网络等。具体采用哪种网络架构均可以根据实际需求进行设置,在此并不对具体的网络架构进行限定。在利用第一神经网络对待处理数据进行数据质检时,为保证数据质检结果的完整性和准确性,可以选择一个或多个字段。利用第一神经网络对待处理数据的字段进行处理完成后获得的数据即为字段质检数据。

具体的,在利用第一神经网络对待处理数据的字段处理时,首先可以进行特征提取,即将待处理数据所在的数据库表或Excel表的列表头或行表头作为相应的特征,对待处理数据的行数据和/或列数据进行特征提取。之后,将特征提取后的数据的每一个字段进行词性标注,从而利用词性标注后的字段判断每个字段对应的数据内容是否与字段匹配,若不匹配,可以对字段对应的数据内容进行相应修改,在经过上述处理后得到的数据即为字段质检数据。

示例性的,当待处理数据为医院中的患者信息表时,相应信息表的列表头可以有患者姓名、性别、身份证号等,可以将上述列表头作为特征提取时的数据特征,从患者信息表中抽取列表头为患者姓名、性别、身份证号对应的列数据。之后,将列数据的每一个字段进行词性标注,从而判断每个字段对应的数据内容是否与字段匹配。例如,在列表头为患者姓名的列数据中,存在一个“29”的数据,在对该列数据的每个字段对应的数据内容进行处理时,即可识别出此数据与字段不匹配,则校验出不符合字段质检的数据,从而进行相应修改。

可选的,基于第一神经网络对待处理数据中至少一个字段所对应的数据内容进行处理,得到字段质检数据,包括:将待处理数据输入至第一神经网络中,以依据每个字段所对应词性对待处理数据中各字段所对应的数据内容进行处理,得到字段质检数据。

具体的,将待处理数据输入至第一神经网络时,可以将待处理数据的每个字段进行词性标注,其中待处理数据各个字段对应待处理数据中的行表头或列表头,即对待处理数据的行表头或列表头进行词性标注。从而,根据行表头或列表头对应的词性,判断行表头或列表头对应的行数据和/或列数据的词性是否与行表头或列表头匹配,若不匹配,可以对字段对应的数据内容进行相应修改,在经过上述处理后得到的数据即为字段质检数据。

S130、在字段质检数据未满足第一预设条件时,基于第二神经网络对字段质检数据进行一致性校验,得到记录质检数据。

在本发明实施例中,在获得字段质检数据后,可以先判断字段质检数据是否满足的字段完整性以及一致性校验的条件,此条件即为第一预设条件。其中,完整性是指字段质检数据的所有数据内容均正确。一致性校验可以理解为字段质检数据中相关联的数据对应的逻辑应一致。在判断字段质检数据不符合第一预设条件后,可以根据预先训练好的神经网络对字段质检数据的一致性进行校验,该神经网络表示为第二神经网络。可选的,第二神经网络可以是循环神经网络、对抗生成网络或是自编码器等神经网络架构,具体采用哪种网络架构均可以根据实际需求进行设置,在此并不对具体的网络架构进行限定。根据训练好的第二神经网络对字段质检数据进行处理后获得的数据,即为记录质检数据。

具体的,根据第一预设条件对字段质检数据进行判断,可以通过相应的完整性定义判断字段质检数据的所有数据内容是否正确,即判断字段完整性。同时,可以利用正则表达式、规则、函数等方式判断字段质检数据相关联的数据对应的逻辑是否一致,即对字段一致性进行校验。其中,具体实现方式以实际需求为准,本实施例对此不做限制。当字段质检数据中存在不满足第一预设条件的数据,则利用第二神经网络对字段质检数据进行一致性校验,判断字段校验数据与其他相关联的数据对应的逻辑是否一致,从而获得记录质检数据。

可选的,在字段质检数据未满足第一预设条件时,基于第二神经网络对字段质检数据进行一致性校验,得到记录质检数据,包括:基于第二正则函数和/或第二规则函数对字段质检数据进行一致性校验;在校验结果未满足第一预设条件时,将字段质检数据输入至第二神经网络中;基于第二神经网络确定至少两个字段之间的关联度,以基于关联度确定关联字段;对关联字段下的字段质检数据进行校验,得到记录质检数据。

在本发明实施例中,在获取到字段质检数据时,可以先根据实际需求设置合适的正则函数和/或规则函数。其中,正则函数是满足某些正则表达式的函数,规则函数是满足某些规则或条件的函数。相应的,正则函数对应于本实施例中的第二正则函数。例如,第二正则函数可以是search函数,可以利用search函数在字段质检数据中查找特定的内容。相应的,预先设置的规则函数即为第二规则函数。可选的,某些规则或条件可以是业务逻辑、算法或是数学公式等。关联度可以表示字段之间的关联程度。关联字段可以是存在关联度或关联度较高的字段,关联字段通常为至少两个字段。

具体的,利用第二正则函数和/或第二规则函数对字段质检数据进行一致性校验,判断字段质检数据是否符合第二正则函数和/或第二规则函数中相应正则表达式或规则的要求。若存在不符合相应要求的字段质检数据,则认为校验结果没有满足第一预设条件,可以将字段质检数据输入第二神经网络中,由第二神经网络确定字段质检数据中每个字段与其他字段之间的关联度。若两个字段之间存在关联度或关联度较高,可以将这两个字段作为关联字段,之后将关联字段对应的字段质检数据进行一致性校验,从而获得记录质检数据。

示例性的,结合上述示例,字段质检数据可以是医院中的患者信息表的相应数据。首先利用第二正则函数和/或第二规则函数对相应患者信息表的数据进行一致性校验。当患者信息表中的数据不满足第一预设条件时,将患者信息表的数据输入第二神经网络中,由第二神经网络确定患者信息表的数据中每个字段与其他字段之间的关联度,字段质检数据的字段对应患者信息表的行表头或列表头,即判断行表头或列表头之间的关联度。例如,患者信息表中存在列表头为患者姓名、性别、身份证号对应的列数据,则可以确定上述三个列表头之间的关联度。其中,性别与身份证号的关联度最高,则确定关联字段为性别与身份证号。从而,对相应关联字段下的字段质检数据进行校验,即对上述两个列表头对应的列数据进行一致性校验,判断是否满足一致性。例如,若列表头为性别的列数据中存在数据内容为“女”,而相应同一行中,列表头为身份证号的列数据中,相应身份证号对应位数指代的性别为“男”,则说明字段质检数据存在问题。通过上述处理后可以获得记录质检数据。

S140、在记录质检数据未满足第二预设条件时,基于第三神经网络对记录质检数据进行关联度校验,得到目标质检数据。

在本发明实施例中,第二预设条件可以是记录质检数据需要满足的一致性、真实性、时效性、合理性等质检的条件。其中,真实性可以理解为记录质检数据是真实可靠的数据;时效性可以是指记录质检数据在时间变化中的正确程度,即记录质检数据是最新的数据,可以反应最新的情况。合理性可以理解为记录质检数据是合乎逻辑的,与已知的事实或常识相符的。若记录质检数据不满足第二预设条件时,可以根据预先训练好的神经网络对记录质检数据进行关联度校验,该神经网络即为第三神经网络。其中,第三神经网络可以是循环神经网络、对抗生成网络或是自编码器等神经网络架构,具体采用哪种网络架构均可以根据实际需求进行设置,在此并不对具体的网络架构进行限定。记录质检数据经第三神经网络处理后获得的数据即是目标质检数据。

具体的,根据第二预设条件对记录质检数据进行判断,可以通过正则表达式、规则、函数等方式判断记录质检数据是否一致性、真实性、时效性、合理性等质检的条件,其中,具体实现方式以实际需求为准,本实施例对此不做限制。若记录质检数据中存在不满足第二预设条件的数据,则利用第三神经网络对记录质检数据进行关联度校验,从而获得目标质检数据。

可选的,在记录质检数据未满足第二预设条件时,基于第三神经网络对记录质检数据进行关联度校验,得到目标质检数据,包括:对记录质检数据跨行和/或跨域质检,得到质检结果;在质检结果未满足第二预设条件时,基于第三神经网络确定记录质检数据中的关联术语;基于关联术语,对记录质检数据进行一致性校验,得到目标质检数据。

在本发明实施例中,记录质检数据可能从关系型数据库中的不同表获取的或是从不同业务领域抽取得到的,此时可以对记录质检数据进行跨行质检和/或跨域质检,其中,不同业务领域可能是金融、医疗、教育等不同行业,本实施例对此不做限制。跨行质检和/或跨域质检可以是对记录质检数据是否一致性、真实性、时效性、合理性等质检,在质检后获得的结果即为质检结果。若质检结果不满足第二预设条件时,可以根据第三神经网络进行关联度校验,此时,关联度校验依赖于相应具有关联性的知识术语。例如,在医疗场景下,可以利用第三神经网络根据某位患者挂号的科室数据确定该科室为男性科室,从而确定该患者的性别为男,其中,对应为男性科室的科室数据即为关联术语。

具体的,对来自关系型数据库中的不同表或不同业务领域的记录质检数据跨行和/或跨域质检,可以通过正则表达式、规则、函数等方式判断记录质检数据是否符合一致性、真实性、时效性、合理性等,其中,具体实现方式以实际需求为准,本实施例对此不做限制。之后,在进行上述判断后获得相应的质检结果。当记录质检数据中存在不符合一致性、真实性、时效性、合理性的数据,则认为质检结果不满足第二预设条件,可以利用第三神经网络对记录质检数据进行语义提取和语义推理,确定记录质检数据中的关联术语。从而,根据关联术语判断记录质检数据之间的一致性,获得目标质检数据。

示例性的,记录质检数据可以从数据库中的挂号信息表、检验信息表获取得到的数据。由于记录质检数据是来自不同的数据库表中的数据,因此可以对记录质检数据进行跨行质检,从而获得记录质检数据的质检结果。根据质检结果利用第三神经网络确定相应挂号信息表的挂号科室确定该科室下对应的检查项目,其中,具体的检查项目为具有关联性的知识术语,即关联术语,根据关联术语进行一致性校验,判断是否是该科室下对应的检查项目,从而获得目标质检数据。

本实施例的技术方案,通过接收待校验数据并对其进行规范性校验,获得待处理数据,之后基于第一神经网络对待处理数据中至少一个字段对应的数据进行处理,获得字段质检数据,当字段质检数据无法满足第一预设条件时,利用第二神经网络对字段质检数据进行一致性校验,获得记录质检数据,之后,当记录质检数据无法满足第二预设条件时,利用第三神经网络对记录质检数据进行关联度校验,从而获得目标质检数据。解决了现有技术中采用人工进行数据分析与开发导致的数据质检耗时,质检效率低下,以及数据质检结果的准确性和完整性无法保证的问题。通过对待校验数据进行规范性校验后,获得待处理数据,之后利用第一神经网络、第二神经网络以及第三神经网络对待处理数据分别进行字段处理、一致性校验以及关联度校验,从而获得目标质检数据,实现了利用神经网络对数据进行质检,节省数据质检的时间,提高了数据质检的效率,同时保证了数据质检结果的准确性和完整性,达到了准确判断数据质量的目的。

实施例二

图2为本发明实施例二所提供的一种数据质检方法的流程示意图,本实施例为上述实施例的一个示例。如图2所示,该方法包括:

S210、配置数据源信息。

在本发明实施例中,数据源信息对应于上述实施例所提及的待校验数据。

具体的,可以从单个数据库表、多个数据库表、Excel表格或多方平台中调取的一个或多个数据,将调取的数据作为数据源信息,从而配置在相应的平台或系统中。

S220、定义数据质量评估维度。

在本发明实施例中,数据质量评估维度可以分为两个维度,其一是对数据进行单字段质检、记录质检以及跨行/跨域质检,分别对应于上述实施例所提及的S120至S140;其二是对数据进行规范性、一致性、准确性、真实性、时效性、合理性以及时效性等方面进行质检。其中,对数据规范性质检对应上述实施例所提及的规范性校验,对数据进行一致性质检对应上述实施例所提及的一致性校验,其他性质的数据质检对应上述实施例所提及的判断是否满足第一预设条件以及第二预设条件时对应的质检。

具体的,根据两个方面定义数据质量评估的维度,以根据不同的维度的评估标准,保证数据质检的准确性和完整性。

S230、配置质量评估维度对应的规则。

在本发明实施例中,质量评估维度对应的规则可以理解为用来对数据质量评估的通用规则,对应于上述实施例所提及的预先设置的第一正则函数和/或第一规则函数以及第二正则函数和/或第二规则函数。

具体的,通过配置质量评估维度对应的规则,实现对数据的质量评估。

S240、配置调度任务执行质控规则。

在本发明实施例中,调度任务可以是用来调取相应规则的任务,调度任务可以保证数据质量评估有序进行。质控规则可以理解为本实施例S230所提及的质量评估维度对应的规则。

具体的,通过配置调度任务可以确定相应质控规则的优先级,从而根据调度任务有序的执行质控规则,对应上述实施例所提及的先利用预先设置的第一正则函数和/或第一规则函数对待校验数据进行校验,之后利用第二正则函数和/或第二规则函数对字段质检数据进行校验。

S250、对数据进行单字段质检。

在本发明实施例中,单字段质检可以理解为对数据的记录级别的单个字段进行校验的过程,其中,数据对应于上述实施例所提及的待校验数据,数据的记录级别对应于上述实施例所提及的待校验数据中的行表头或列表头。

具体的,对采集到的数据的记录级别的每个字段进行校验,从而完成数据质量评估中的单字段质检。

可选的,单字段质检包括:规范性校验以及内涵一致性校验。

在本发明实施例中,规范性校验可以理解为对数据的类型、长度、格式、取值范围进行校验,以判断数据是否符合特定规范或标准。规范性校验可以通过正则表达式、规则、函数等方式实现。此处的规范性校验对应上述实施例所提及的S110中的规范性校验。内涵一致性校验可以理解为利用相应的AI算法对数据中的每个字段进行词性分析,从而判断每个字段对应的内容是否与字段相匹配的数据校验。其中,AI算法可以是神经网络算法,对应于上述实施例所提及的第一神经网络,内涵一致性校验对应于上述实施例所提及的S120。

具体的,利用相应的规范性校验的实现方式对数据的类型、长度、格式、取值范围进行校验,之后利用相应的AI算法实现对数据的特征提取、词性标注以及分词处理,从而实现对数据的每个字段的词性分析。例如,可以利用Java编程语言实现字段的词性分析,也可以利用其他编程语言,此处只做举例,不对具体应用方式做限制。在进行词性分析后,可以根据相应字段的词性,判断该字段对应的内容是否相匹配,若不匹配,可以进行相应的修改校正。

S260、对数据进行记录质检。

在本发明实施例中,记录质检可以理解为对数据所在的数据集中的单个记录的字段进行校验。单个记录可以理解为数据所在数据集的一行数据或一列数据,对应上述实施例所提及的行数据和/或列数据。

具体的,对采集到的数据集中的单个记录的字段进行校验,从而完成数据质量评估中的记录质检。

可选的,对数据进行记录质检包括:对数据内字段的完整性进行质检、对字段之间的一致性进行质检以及利用AI算法实现一致性校验。

在本发明实施例中,对数据内字段的完整性进行质检以及对字段之间的一致性进行质检对应于上述实施例所提及的第一预设条件。其中,对数据内字段的完整性进行质检可以利用相应的完整性定义进行判断。对字段之间的一致性进行质检可以通过正则表达式、规则、函数等方式实现。此处的AI算法可以是神经网络算法,对应于上述实施例所提及的第二神经网络。利用算法实现一致性校验对应于上述实施例所提及的S130。

具体的,根据完整性的定义判断数据内字段的完整性,之后利用正则表达式、规则、函数等方式对字段之间的一致性进行质检,在进行上述质检之后,存在不符合条件的数据,即对应于实施例一中不满足第一预设条件的数据,可以利用AI算法,即上述实施例所提及的第二神经网络,判断字段之间的关联度,从而根据关联度判断对应字段之间的一致性。

S270、对数据进行跨行/跨域质检。

在本发明实施例中,跨行/跨域质检可以包括对数据进行一致性、真实性、时效性、合理性等质检以及利用AI算法的关联术语检索进行一致性校验。跨行/跨域质检对应于上述实施例所提及的S140,AI算法对应于上述实施例所提及的第三神经网络。

具体的,利用正则表达式、规则、函数等方式对数据的一致性、真实性、时效性、合理性等方面进行数据质检,获得质检结果,即对应上述实施例所提及的判断记录质检数据是否满足第二预设条件,之后利用AI算法对数据进行语义提取和语义推理确定数据的关联术语,从而根据关联术语确定数据之间的一致性,从而完成对数据的跨行/跨域质检,获得最终数据,即上述实施例所提及的目标质检数据。

S280、输出数据质量报告。

在本发明实施例中,数据质量报告可以理解为针对数据质量评估的评测报告,其中,数据质量报告可以包含数据质量评估的准确率、真实率等统计数据。

具体的,根据数据质量评估的最终数据,即上述实施例所提及的目标质检数据,根据数据质量评估维度对数据质量评估过程进行评测,输出相应的数据质量报告,以便相关技术人员可以直观判断数据质检的情况。

示例性的,若字段对应的数据内容为500个,在对数据进行质量评估时,校验出存在4个数据内容为错误内容,则可以根据相应公式判断在数据质量评估过程中的准确率。其中,准确率判断公式由相应技术人员设置。

本实施例的技术方案,通过配置数据源信息、定义数据质量评估维度以及配置质量评估维度对应的规则,为后续进行数据质检提供基础,之后,配置调度任务以确定执行质控规则的优先级,方便后续数据质检有序顺利的进行。在进行数据质检时,分为单字段质检、记录质检以及跨行/跨域质检三部分,既保证了数据质检结果的准确性和完整性,又利用相应的算法节省了数据质检的时间,提高数据质检的效率。最后,生成数据质量报告可以方便相应技术人员直观判断数据质检的情况。

实施例三

图3是本发明实施例三提供的一种数据质检装置的结构示意图。如图3所示,该装置包括:待处理数据获取模块310、字段质检数据获取模块320、记录质检数据获取模块330以及目标质检数据获取模块340。

待处理数据获取模块310,用于接收待校验数据,并对待校验数据进行规范性校验,得到待处理数据;字段质检数据获取模块320,用于基于第一神经网络对待处理数据中至少一个字段所对应的数据内容进行处理,得到字段质检数据;记录质检数据获取模块330,用于在字段质检数据未满足第一预设条件时,基于第二神经网络对字段质检数据进行一致性校验,得到记录质检数据;目标质检数据获取模块340,用于在记录质检数据未满足第二预设条件时,基于第三神经网络对记录质检数据进行关联度校验,得到目标质检数据。

本实施例的技术方案,通过接收待校验数据并对其进行规范性校验,获得待处理数据,之后基于第一神经网络对待处理数据中至少一个字段对应的数据进行处理,获得字段质检数据,当字段质检数据无法满足第一预设条件时,利用第二神经网络对字段质检数据进行一致性校验,获得记录质检数据,之后,当记录质检数据无法满足第二预设条件时,利用第三神经网络对记录质检数据进行关联度校验,从而获得目标质检数据。解决了现有技术中采用人工进行数据分析与开发导致的数据质检耗时,质检效率低下,以及数据质检结果的准确性和完整性无法保证的问题。通过对待校验数据进行规范性校验后,获得待处理数据,之后利用第一神经网络、第二神经网络以及第三神经网络对待处理数据分别进行字段处理、一致性校验以及关联度校验,从而获得目标质检数据,实现了利用神经网络对数据进行质检,节省数据质检的时间,提高了数据质检的效率,同时保证了数据质检结果的准确性和完整性,达到了准确判断数据质量的目的。

在上述实施例的基础上,可选的,待处理数据获取模块,包括:待处理数据获取单元,用于依据预先设置的第一正则函数和/或第一规则函数对待校验数据中的行数据和/或列数据进行规范性校验,得到待处理数据;其中,第一正则函数和/或第一规则函数对应于待校验数据中的行表头或列表头。

可选的,字段质检数据获取模块,包括:字段质检数据获取单元,用于将待处理数据输入至第一神经网络中,以依据每个字段所对应词性对待处理数据中各字段所对应的数据内容进行处理,得到字段质检数据。

可选的,记录质检数据获取模块,包括:数据一致性校验单元,用于基于第二正则函数和/或第二规则函数对字段质检数据进行一致性校验;第一预设条件判定单元,用于在校验结果未满足第一预设条件时,将字段质检数据输入至第二神经网络中;关联度确定单元,用于基于第二神经网络确定至少两个字段之间的关联度,以基于关联度确定关联字段;记录质检数据获取单元,用于对关联字段下的字段质检数据进行校验,得到记录质检数据。

可选的,目标质检数据获取模块,包括:质检结果获取单元,用于对记录质检数据跨行和/或跨域质检,得到质检结果;关联术语确定单元,用于在质检结果未满足第二预设条件时,基于第三神经网络确定记录质检数据中的关联术语;目标质检数据获取单元,用于基于关联术语,对记录质检数据进行一致性校验,得到目标质检数据。

本发明实施例所提供的数据质检装置可执行本发明任意实施例所提供的数据质检方法,具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据质检方法。

在一些实施例中,数据质检方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据质检方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据质检方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的数据质检方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

实施例五

本发明实施例五还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行一种数据质检方法,该方法包括:

接收待校验数据,并对待校验数据进行规范性校验,得到待处理数据;基于第一神经网络对待处理数据中至少一个字段所对应的数据内容进行处理,得到字段质检数据;在字段质检数据未满足第一预设条件时,基于第二神经网络对字段质检数据进行一致性校验,得到记录质检数据;在记录质检数据未满足第二预设条件时,基于第三神经网络对记录质检数据进行关联度校验,得到目标质检数据。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 一种线缆铺设过程中用的牵引装置
  • 一种线缆铺设用牵引装置
  • 一种线缆铺设过程中用的升降平台
  • 一种微电网铺设用线缆保护装置
  • 一种微电网铺设用线缆保护装置
技术分类

06120116543067