掌桥专利:专业的专利平台
掌桥专利
首页

一种数据标准化管理方法和系统

文献发布时间:2024-04-18 19:58:26


一种数据标准化管理方法和系统

技术领域

本发明属于数据管理技术领域,具体涉及一种数据标准化管理方法和系统。

背景技术

随着数据驱动决策在企业中的重要性不断提升,对数据标准治理系统的需求也越来越大。企业意识到数据质量对业务成功的重要性,因此他们越来越关注数据标准治理系统的开发和实施。数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

传统的数据管理系统中数据质量较为低下,数据多存在错误以及冗余。从不同的来源采集数据时,需要进行数据映射以及转换,传统的数据管理系统,难以将不同来源的数据转化为统一的格式,数据格式参差不齐,难以进行进一步处理和分析,同时也会造成数据分析结果的准确性差。

发明内容

为了解决传统的数据管理系统中数据质量较为低下,数据多存在错误以及冗余,从不同的来源采集数据时,需要进行数据映射以及转换,传统的数据管理系统,难以将不同来源的数据转化为统一的格式,数据格式参差不齐,难以进行进一步处理和分析,同时也会造成数据分析结果的准确性差的技术问题,本发明提供一种数据标准化管理方法和系统。

第一方面

本发明提供了一种数据标准化管理方法,应用于云数据管理系统,包括:

S101:获取多个标准规范文件;

S102:对所述标准规范文件进行管理;

S103:根据所述标准规范文件,对基础类数据元、指标类数据元、标准码表、标准词根以及数据项分类情况进行管理;

S104:根据所述标准规范文件,对数据类型映射关系进行管理;

S105:根据所述标准规范文件,对数据库转换规则进行管理;

S106:按照所述标准规范文件,对数据进行规范性处理;

S107:对于经过规范化处理后的数据进行分析。

第二方面

本发明提供了一种数据标准化管理系统,用于执行第一方面中的数据标准化管理方法。

与现有技术相比,本发明至少具有以下有益技术效果:

(1)在本发明中,使用标准规范文件来管理数据元、代码、词根等可以确保数据在整个系统中保持一致性和规范性,有助于避免数据的混乱和不一致,提高数据质量,减少数据错误,降低数据冗余。

(2)在本发明中,通过管理数据类型映射关系和数据库转换规则,可以确保不同数据源之间的数据能够正确映射和转换,从而实现数据的集成和互操作性,将不同来源的数据转化为统一的格式,便于进行进一步处理和分析,提升数据分析结果的准确性。

附图说明

下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种数据标准化管理方法的流程示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

实施例1

在一个实施例中,参考说明书附图1,示出了本发明提供的一种数据标准化管理方法的流程示意图。

本发明提供的一种数据标准化管理方法,包括:

S101:获取多个标准规范文件。

其中,标准规范文件包括国标、行标、企业制定的本地标准等。

S102:对标准规范文件进行管理。

在一种可能的实施方式中,S102具体包括子步骤S1021至S1023:

S1021:在标准规范文件中的标准数据项之间建立关联关系。

具体而言,关联标准数据项,将上传的文档与数据规范、数据元、码表、词根等进行关联,建立关联关系。

S1022:对标准规范文件进行审核检查,检查具有关联关系的标准数据项是否完整和准确。

具体而言,规范文件的审核发布,对标准规范进行审核检查,重点审核关联的标准项是否完整、准确,审核机制生效时,可配置默认自动审核,审核通过的数据项方可使用。

S1023:当具有关联关系的标准数据项完整和准确时,发布标准规范文件。

进一步地,还可以规范文件版本的管理,创建新的标准规范文件,记录版本号,以便跟踪和管理的变更历史。

S103:根据标准规范文件,对基础类数据元、指标类数据元、标准码表、标准词根以及数据项分类情况进行管理。

其中,基础类数据元是为了统一企业所有业务活动相关数据的一致性和准确性,解决业务间数据一致性和数据整合,按照数据标准管理过程制定的数据标准。可理解为定义规则约束的属性字段。

具体而言,对于基础类数据元的管理:可以分析现有数据,评估现有数据质量并识别潜在问题。了解数据中存在的不一致、重复、缺失或错误数据。确定数据属性,明确数据集中的属性字段和每个字段的定义。例如,对客户数据而言,属性字段可能包括姓名、地址、电子邮件和电话号码等。定义数据标准,基于业务需求和属性字段的定义,制定数据标准。数据标准包括字段的格式、长度、取值范围等要求。制定数据规则,为每个属性字段定义规则和约束。规则包括格式验证、数据范围验证、唯一性验证等。例如,对于电话号码字段,规则可以是必须为数字且长度为10位。数据采集和输入控制,在数据采集和输入过程中,实施控制措施以确保数据符合定义的规则和标准。可以使用前端验证、数据格式化和逻辑校验等方法。

其中,指标类数据元是为了统一企业对衡量某一个目标或事物制定的数据计算逻辑,包括取数规则、计算方式、计算公式等。按照业务规则确定的计算逻辑,基于一个或多个数据元素值加工得到的新数据元素。

具体而言,对于指标类数据元的管理:首先,明确想要计算的指标的目标和目的是什么。然后确定所需的原始数据元素。这些数据元素可以来自不同的来源,例如数据库、文件、API等。然后根据指标的定义和目标,确定计算公式。然后使用所选的计算公式,对原始数据元素进行加工和计算,生成新的数据元素,可能包括对数据进行聚合、筛选、排序、分组、过滤等操作,以获得所需的结果。

其中,标准码表是参照类数据标准的具象体现,一般用于作为数据元值域而存在,在数据处理过程中需要完成原始字典到标准字典的映射,完成字典标准化工作。标准码表是其码值列表,码值列表至少要包含两项信息:代码、代码描述,必要时可增加说明字段进行补充。

其中,标准词根是为了标准的命名更加规范统一,最终将被应用到字段命名或其他资产的命名上。在制定数据元及字典时,根据输入的中文名称自动根据词根翻译英文名称。一个完整的词根信息包含英文简称、英文全称、中文全称三个部分,其中文全称支持多个,保证用户在使用词根翻译时相同含义字段能够获取相同的英文简称。

其中,数据项分类是对数据元(字段级)进行分类,用户根据不同场景对不同对象的分类需求,选择或自定义编写分类类目名称。

在本发明中,使用标准规范文件来管理数据元、代码、词根等可以确保数据在整个系统中保持一致性和规范性,有助于避免数据的混乱和不一致,提高数据质量,减少数据错误,降低数据冗余。

S104:根据标准规范文件,对数据类型映射关系进行管理。

其中,数据类型映射关系管理主要管理不同数据源间数据类型的映射关系,随着数据源种类的增加,此模块支持多数据源类型交叉映射。

在一种可能的实施方式中,S104具体包括子步骤S1041至S1044:

S1041:分析参与映射的不同系统或者应用程序中使用的数据类型。

其中,数据类型可以包括基本数据类型(如整数、字符串、日期等)和复杂数据类型(如结构体、对象等)。

S1042:根据数据类型的特性和需求,制定数据类型之间的映射规则。

具体而言,可以确定每个数据类型的标准名称、定义和属性,以及与其他数据类型之间的映射关系。

S1043:创建映射表,对数据类型之间的映射规则进行记录。

具体而言,创建一个映射表或映射字典,记录不同数据类型之间的映射关系。映射表可以采用表格、数据库或其他形式进行管理。对于每个数据类型,记录其源数据类型、目标数据类型以及相关的映射规则和说明。

S1044:对映射表进行定期维护。

具体而言,定期审核和维护映射表,确保映射关系的准确性和及时性。随着系统的演化和数据需求的变化,可能需要更新、添加或删除映射关系。

S105:根据标准规范文件,对数据库转换规则进行管理。

需要说明的是,由于不同数据库系统支持的数据类型和格式可能不同,因此在数据转换过程中需要进行适当的类型转换和格式处理,以确保数据的一致性和准确性。为实现将源数据库的数据转换成适应目标数据库的格式和结构,系统提供配置和映射等操作来定义数据转换规则,提供标准化处理语句的预设功能,以更好地统一处理标准和被更便捷地调用。

在一种可能的实施方式中,S105具体包括子步骤S1051至S1055:

S1051:分析源数据库和目标数据库的结构、模式和数据类型。

具体而言,分析源数据库和目标数据库的结构、模式和数据类型可以了解源数据库和目标数据库之间的差异和相似之处,以确定需要应用的转换规则类型。

S1052:根据源数据库和目标数据库的结构、模式和数据类型,制定数据库转换规则。

其中,数据库转换规则包括:数据类型转换规则、表结构转换规则、数据映射规则和数据清洗规则。

具体而言,根据源数据库和目标数据库的特性和需求,制定转换规则和准则。

S1053:创建规则库或者规则字典,对数据库转换规则进行记录。

具体而言,创建一个规则库或规则字典,用于记录不同转换规则和其对应的说明和逻辑。规则库可以采用文档、数据库表或其他形式进行管理。对于每个转换规则,记录其名称、描述、源数据库规则和目标数据库规则。

S1054:对规则库或者规则字典进行定期维护。

具体而言,定期审核和维护规则库,确保转换规则的准确性和及时性。随着数据库结构和需求的变化,可能需要更新、添加或删除转换规则。

S1055:根据数据库转换规则,进行数据库转换。

具体而言,在进行数据库转换过程中,根据规则库中的规则,应用相应的转换规则。通过编程接口、ETL(提取、转换、加载)工具或其他数据库迁移工具来实现。

在本发明中,通过管理数据类型映射关系和数据库转换规则,可以确保不同数据源之间的数据能够正确映射和转换,从而实现数据的集成和互操作性,将不同来源的数据转化为统一的格式,便于进行进一步处理和分析,提升数据分析结果的准确性。

S106:按照标准规范文件,对数据进行规范性处理。

具体而言,对于建设系统,采用强制落标的方法,即建设系统必须符合统一数据标准,在新系统上线前期对其进行数据标准落地评估,如评估结果与标准规范不一致或出入较大造成不合格,则需要规范其按照统一规范标准来整改优化,以按照标准规范文件,对数据进行规范性处理。而对于已有的历史系统,采用建议落标的策略,首先将已有系统的标准问题找出来,并进行分析和整理,综合多方面考虑,包括工作量、整改风险、周期、成本等等,制定最有效的落标策略,比如等到以后系统升级改造时再落标,通过逻辑转换方式落标,通过数据仓库落标等等。

S107:对于经过规范化处理后的数据进行分析。

在一种可能的实施方式中,S107具体包括子步骤S1071至S1074:

S1071:对数据进行相似度分析。

其中,相似度分析用于比较和度量数据元素之间的相似程度。这种分析可以用于推荐系统、聚类分析等任务中。常用的相似度计算方法包括余弦相似度、欧氏距离、曼哈顿距离等。

在一种可能的实施方式中,S1071具体包括孙步骤S10711至S10716:

S10711:选取相似度度量算法。

其中,相似度度量算法包括:欧几里德距离、余弦相似度、皮尔逊相关系数、Jaccard相似系数。

S10712:对数据进行预处理。

其中,预处理包括:数据清洗、标准化和缺失值补全。

S10713:通过选取的相似度度量算法,计算数据之间的相似度值。

S10714:根据数据之间的相似度值,构建相似度矩阵。

S10715:通过聚类算法和/或降维算法,对相似度矩阵进行分析,确定数据之间的关联关系。

S10716:根据相似度矩阵的分析结果,解释数据之间的关联关系。

在本发明中,相似度分析可以进行更深入的数据分析、更准确的数据比较、关联关系的发现和解释,以及为推荐系统和聚类分析提供支持。

S1072:对数据进行网络结构分析。

具体而言,可以采用图论算法对数据进行网络结构分析。

进一步地,常见的图论算法包括最短路径算法、社区发现算法、PageRank算法等。这些算法可以揭示数据元素之间的紧密度、重要性和聚类结构。

在一种可能的实施方式中,S1072具体包括孙步骤S10721至S10728:

S10721:对数据进行预处理。

其中,预处理包括:数据清洗、缺失值补全和去除噪声。

S10722:根据数据的特点,将实体映射到节点,关系映射到边,构建关系图。

S10723:对关系图进行分析处理。

其中,分析处理包括:社区检测、节点重要性评估和路径分析。

S10724:设置节点和边的属性信息。

S10725:通过社区检测算法,将相似节点分到同一组,分析关系图的社区结构。

其中,社区检测算法包括Louvain算法、谱聚类等。

S10726:通过节点中心性算法,识别关系图中具有重要影响力的节点。

其中,节点中心性算法包括度中心性算法、介数中心性算法和接近中心性算法等。

S10727:通过最短路径算法或者深度优先搜索算法,寻找两个节点之间的最短路径或者相关路径,确定节点之间的连接关系。

其中,最短路径算法可以是Dijkstra算法。

S10728:根据关系图的分析结果,解释数据的网络结构以及数据之间的关联关系。

在本发明中,网络结构分析能够帮助揭示数据元素之间的关系、连接和交互。这有助于理解数据背后的模式和趋势。通过节点中心性算法,可以识别在网络中具有重要影响力的节点。这有助于识别出数据中的关键元素,以及其在网络中的重要性。社区检测算法(如Louvain算法、谱聚类等)可以帮助发现数据元素之间的聚类结构和社区。这可以揭示数据内部的组织和关联。通过最短路径算法(如Dijkstra算法)或深度优先搜索算法,可以确定节点之间的最短路径或相关路径。这有助于理解数据元素之间的连接方式。

S1073:对数据进行因果关系分析。

其中,因果关系分析用于确定数据元素之间的因果关系。通过分析数据元素之间的时间序列或事件触发关系,可以发现潜在的因果关系。常用的因果关系分析方法包括因果图、Granger因果检验等。

在一种可能的实施方式中,S1073具体包括孙步骤S10731至S10738:

S10731:对数据进行预处理,预处理包括:数据清洗、缺失值补全和去除噪声。

S10732:确定数据之间的因果关系假设。

S10733:通过控制变量法,确定数据之间的因果关系。

S10734:通过统计方法,分析数据之间的关联关系,统计方法包括:回归分析、时间序列分析和实验设计分析。

S10735:根据统计分析的结果,进行因果推断,确定变量与结果之间的因果关系,确定变量中的共变量和随机变量。

S10736:根据因果关系,构建因果图,因果图中节点表示变量,边表示变量之间的因果关系。

S10737:使用因果图验证假设和分析结果,通过观察因果图中的路径,确定路径是否与领域知识一致。

S10738:输出因果关系分析结果。

在本发明中,因果关系分析可以帮助确定数据元素之间的真实因果关系,从而揭示潜在的影响机制。了解因果关系可以帮助预测未来趋势,并基于数据的因果关系进行更准确的预测。因果关系分析提供了更深入的数据见解,可以为决策制定提供支持,使决策更加有根据。

S1074:对数据进行异常检测分析。

其中,异常检测用于识别数据元素中的异常值或异常模式。这些异常可能是数据中的离群值、错误数据或突发事件。常见的异常检测算法包括基于统计的方法(如Z-score、箱线图)和基于机器学习的方法(如聚类、异常分数等)

S1074具体包括孙步骤S10741至S10746:

S10741:对数据进行预处理,预处理包括:数据清洗、缺失值补全和去除噪声。

S10742:提取数据特征。

S10743:通过统计算法、机器学习算法以及时间序列分析算法,根据数据特征,进行异常检测,标记出异常的数据点。

其中,机器学习算法包括聚类算法、孤立森林算法和自编码器算法等。

S10744:对异常检测结果进行可视化展示。

S10745:对判定为异常的数据点进行验证。

S10746:输出异常检测结果。

在本发明中,异常检测分析有助于识别和纠正数据中的异常值、错误数据和噪声,从而提升数据的质量和可靠性。异常检测可以帮助识别潜在的问题、异常事件或突发情况,从而及早采取措施进行干预或纠正。通过识别异常,可以保障业务流程的正常进行,及时发现并解决可能影响业务运行的异常情况。对时间序列数据进行异常检测可以帮助监测和预测可能的异常事件,从而更好地应对可能的风险。

与现有技术相比,本发明至少具有以下有益技术效果:

(1)在本发明中,使用标准规范文件来管理数据元、代码、词根等可以确保数据在整个系统中保持一致性和规范性,有助于避免数据的混乱和不一致,提高数据质量,减少数据错误,降低数据冗余。

(2)在本发明中,通过管理数据类型映射关系和数据库转换规则,可以确保不同数据源之间的数据能够正确映射和转换,从而实现数据的集成和互操作性,将不同来源的数据转化为统一的格式,便于进行进一步处理和分析,提升数据分析结果的准确性。

实施例2

在一个实施例中,本发明提供的一种数据标准化管理系统,用于执行实施例1中的数据标准化管理方法。

本发明提供的一种数据标准化管理系统可以实现上述实施例1中的数据标准化管理方法的步骤和效果,为避免重复,本发明不再赘述。

与现有技术相比,本发明至少具有以下有益技术效果:

(1)在本发明中,使用标准规范文件来管理数据元、代码、词根等可以确保数据在整个系统中保持一致性和规范性,有助于避免数据的混乱和不一致,提高数据质量,减少数据错误,降低数据冗余。

(2)在本发明中,通过管理数据类型映射关系和数据库转换规则,可以确保不同数据源之间的数据能够正确映射和转换,从而实现数据的集成和互操作性,将不同来源的数据转化为统一的格式,便于进行进一步处理和分析,提升数据分析结果的准确性。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 一种标准化增程动力系统及管理方法
  • 一种海量数据点实时数据的分布式管理方法及系统
  • 一种大数据平台环境配置与业务数据分离管理方法及系统
  • 一种存储系统元数据的管理方法、管理系统及相关装置
  • 基于标准化元数据体系的数据管理方法和系统
  • 一种数据标准化管理方法与共享系统
技术分类

06120116492154