掌桥专利:专业的专利平台
掌桥专利
首页

数据标准符合性检测方法、装置、系统及存储介质

文献发布时间:2023-06-19 10:38:35


数据标准符合性检测方法、装置、系统及存储介质

技术领域

本发明涉及数据检测技术领域,尤其涉及数据标准符合性检测方法、装置、系统及存储介质。

背景技术

在过去的信息化建设中,各部门为应对迅速变化的市场和社会需求,逐步建立了各自的信息系统,各部门站在各自的立场生产、使用和管理数据,使得数据分散在不同的部门和信息系统中,缺乏统一的数据规划、可信的数据来源和数据标准,导致数据不规范、不一致、冗余、无法共享等问题出现,各领域的标准和规范不能直接拿来应用或者存在标准冲突、缺失、质量无法保障等问题。为规范项目建设,形成统一标准,使数据从源头到应用全过程控制数据标准,应从系统层面出发,使每个环节都遵循底层标准化建设结果约束,实现整个数据融合、治理、应用环节全流程标准的智能配置处理,尤其要实现批量数据质量检测智能化,才能提高数据质量和数据治理的效率。

发明内容

本发明实施例提供一种数据标准符合性检测方法、装置、系统及存储介质,使得数据质量检测智能化,提高数据检测的准确性。

本发明首先提供一种数据标准符合性检测方法,检测步骤包括:

根据标准数据元的技术属性和数据规则生成标准规则,形成数据标准规则池;

选取待测数据源的待测字段;

为待测字段配置标准数据元以及标准规则;

根据配置的标准规则,形成检测规则,对所述待测字段进行数据标准符合性检测。

进一步的,所述为待测字段配置标准数据元以及标准规则,包括:

自定义配置标准规则,经手动自定义设定,将待测字段与标准规则绑定。

根据同义词、标准等级、历史引证频率自动推荐标准规则。

进一步的,所述根据同义词、标准等级、历史引证频率自动推荐标准规则,包括:

对待测字段进行同义词匹配;

同义词匹配后,确定同义词对应的标准数据元所属标准,按照所属标准等级由高到低进行排序,选取所属标准中标准等级最高的标准。

将所属标准中标准等级最高的标准,按照历史引证频率进行排序,选择引证频率最高的标准作为符合性检测的标准规则。

进一步的,所述根据同义词、标准等级、历史引证频率自动推荐标准规则,还包括:若待测字段并未匹配到同义词,则创建一条新的词条,更新同义词。

进一步的,所述根据配置的标准规则,形成检测规则,对所述待测字段进行数据标准符合性检测之前,还包括根据选择的批量数据源特点,配置数据源中每张表进行检测的范围。

进一步的,还包括根据用户的预设的检测模板将所述数据标准符合性检测的检测结果生成对应的检测报告。

本发明还提供了一种数据标准符合性检测装置,包括:

选取模块,用于选取待测数据源中的待测字段;

配置模块,用于为待测字段配置标准数据元以及标准规则;

检测模块,用于根据对应的所述检测规则对所述待测数据元进行数据标准符合性检测。

进一步的,还包括:

检测报告生成模块,用于根据用户预设的检测模板将所述数据标准符合性检测的检测结果生成对应的检测报告。

本发明另一实施例提供了一种数据标准符合性检测系统,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述发明实施例所述的数据标准符合性检测方法。

本发明另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的数据标准符合性检测方法。

技术效果

与现有技术相比,本发明实施例公开的数据标准符合性检测方法、装置、系统及存储介质,通过综合同义词、标准等级、历史引证频率等要素实现手动绑定及自动配置标准规则,批量实现对待测数据源的数据标准符合性检测,从而避免了人工对数据源进行检测,进而增加了检测的准确性,降低工作人员的工作量,提高工作效率。

附图说明

图1是一种数据标准符合性检测方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一:

参见图1,是本发明一实施例提供的一种数据标准符合性检测方法的流程示意图。

一种数据标准符合性检测方法,包括:

S10根据标准数据元的技术属性和数据规则生成标准规则,形成数据标准规则池;

根据各种行业的标准文件(包括国家标准、地方标准、行业标准等)提取各种行业的数据元。对所述各种行业的数据元进行清洗、去重、关联、标准、完善基础属性,得到标准数据元。

对所述标准数据元按照预设的分类规则进行分类分别构建若干个标准数据元基础库。具体地,通过领域、行业、主题对标准数据元进行分类,从而形成对应的标准数据元库,根据标准数据元的技术属性和数据规则生成标准规则,进而形成数据标准规则池,实现标准文件、标准数据元、标准规则之间的快速检索。

所述数据标准规则池,具体包括:根据各行各业的标准文件的应用范围进行分类;将标准规则根据标准等级和历史引证频率排序。在本实施例中,标准等级是根据标准文件的应用范围分级分类,国家标准等级高于地方标准等级,地方标准等级高于行业标准等级,选取所属标准中标准等级最高的标准。历史引证频率是指该标准规则作为待测数据源检测规则的频次,历史引证频率越多的标准规则适用性越强。

S20,选取待测数据源的待测字段;

包括选择需要进行标准符合性测试的表所在的数据源,选择需要进行标准符合性测试的表,选择需要进行标准符合性测试的字段。

S30为待测字段配置标准数据元以及标准规则,具体配置方法包括:

S301自定义配置标准规则,经手动自定义设定,将待测字段与标准规则绑定。

S302自动推荐标准规则,数据检测规则池根据同义词、标准等级、历史引证频率自动配置标准规则。

对待测字段进行同义词匹配;

同义词匹配后,确定同义词对应的标准数据元所属标准,按照所属标准等级由高到低进行排序,其中国家标准等级高于地方标准等级,地方标准等级高于行业标准等级,选取所属标准中标准等级最高的标准。

将所属标准中标准等级最高的标准,按照历史引证频率进行排序,选择引证频率最高的标准作为符合性检测的标准规则。

若待测字段并未匹配到待测字段的同义词,则建立一条新的词条,从而对同义词库进行更新。

S40根据配置的标准规则,形成检测规则,对所述待测字段进行数据标准符合性检测。

所述检测规则包括:规则类别规则、标准规则、数据类型规则、数据长度范围规则、数据格式以及取值范围规则。

所述数据标准符合性检测包括:类型检测以及取值检测;所述类型检测为根据所述数据类型规则以及所述数据长度范围规则对待测数据元进行对标检测。所述取值检测为根据取值范围规则所述待测数据元的取值范围进行检测。

实施例二:

一种批量数据标准符合性检测方法,包括:

S10,根据标准数据元的技术属性和数据规则自动生成标准规则,形成数据标准规则池;

根据各种行业的标准文件(包括国家标准、地方标准、行业标准等)提取各种行业的数据元。对所述各种行业的数据元进行清洗、去重、关联、标准、完善基础属性,得到标准数据元。

对所述标准数据元按照预设的分类规则进行分类分别构建若干个标准数据元基础库。

具体地,通过领域、行业、主题对标准数据元进行分类,从而形成对应的标准数据元库,进而检测时待测数据元就可以与标准数据元进行比对,实现了标准文件、数据元、标准规则之间的快速检索。

数据标准规则池,根据各行各业的标准文件的应用范围进行分类;将所述标准文件转换成可识别的标准规则;根据标准等级和历史引证频率排序的标准规则。在本实施例中,根据标准文件的应用范围分级分类,如国标为通用类型,行业标准为行业类型,地方标准为相关地区的类型,最终形成资源目录。

S20选取批量待测数据源的待测字段;

包括:选择需要进行标准符合性测试的表所在的数据源,选择需要进行标准符合性测试的表,选择需要进行标准符合性测试的字段。

S30为批量待测字段配置标准数据元以及标准规则,具体配置方法包括:

S301自定义配置标准规则,经手动自定义设定,将待测字段与标准规则绑定。

S302自动推荐标准规则,根据同义词、标准等级、历史引证频率自动配置标准规则。

对待测字段进行同义词匹配;

同义词匹配后,确定同义词对应的标准数据元所属标准,按照所属标准等级由高到低进行排序,其中国家标准等级高于地方标准等级,地方标准等级高于行业标准等级,选取所属标准中标准等级最高的标准。

将所属标准中标准等级最高的标准,按照历史引证频率进行排序,选择引证频率最高的标准作为符合性检测的标准规则。

具体地,将待测字段进行匹配得到待测字段的同义词,若并未匹配到待测字段的同义词,则建立一条新的词条,从而对同义词库进行更新。

S40配置批量待测字段的检测范围

根据选择的批量数据源特点,配置数据源中每张表进行检测的范围

S50根据配置的检测规则,形成检测规则,对所述待测字段进行数据标准符合性检测。

所述检测规则包括:规则类别规则、应用标准规则、数据类型规则、数据长度范围规则、数据格式以及取值范围规则。

所述数据标准符合性检测包括:类型检测以及取值检测;所述类型检测为根据所述数据类型规则以及所述数据长度范围规则对待测数据元进行对标检测。所述取值检测为根据取值范围规则所述待测数据元的取值范围进行检测。

S60根据用户预设的检测模板将所述数据标准符合性检测的检测结果生成对应的检测报告。

综上所述,本发明实施例公开的数据标准符合性检测方法,综合使用同义词、标准级别、历史引证频率等规则找到待测数据元对应的检测规则,根据检测规则对待测字段进行标准化检测,从而实现批量数据标准符合性检测,避免了人工对数据进行检测,进而增加了检测的准确性,降低工作人员的工作量,提高工作效率。

实施例三:

本发明另一实施例对应提供了一种数据标准符合性检测装置,包括:

一种数据标准符合性检测装置,包括:

选取模块,用于提取待测数据库中的待测数据元;其中,数据元包括:数据字符类型以及值域。

配置模块,用于根据同义词、标准等级、历史引证频率自动配置标准规则。具体包括:

对待测字段进行同义词匹配;

同义词匹配后,确定同义词对应的标准数据元所属标准,按照所属标准等级由高到低进行排序,其中国家标准等级高于地方标准等级,地方标准等级高于行业标准等级,选取所属标准中标准等级最高的标准。

将所属标准中标准等级最高的标准,按照历史引证频率进行排序,选择引证频率最高的标准作为符合性检测的标准规则。

检测模块,用于根据所述同义词在数据检测规则池中查找对应的检测规则,根据对应的所述检测规则对所述待测数据元进行数据标准符合性检测。其中,所述检测规则包括:规则类别规则、应用标准规则、数据类型规则、数据长度范围规则、数据格式以及取值范围规则。

作为上述方案的改进,还包括:

检测报告生成模块,用于根据用户预设的检测模板将所述数据标准符合性检测的检测结果生成对应的检测报告。

实施例四:

本发明提供了数据标准符合性检测系统,该实施例的数据标准符合性检测系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个数据标准符合性检测方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述数据标准符合性检测系统中的执行过程。

所述数据标准符合性检测系统可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述数据标准符合性检测系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是数据标准符合性检测系统的示例,并不构成对数据标准符合性检测系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述数据标准符合性检测系统还可以包括输入输出设备、网络接入设备、总线等。

需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进也视为本发明的保护范围。

相关技术
  • 数据标准符合性检测方法、装置、系统及存储介质
  • 淹水数据检测装置及检测方法、非暂时性存储介质、淹水数据提供系统及提供装置
技术分类

06120112623285