掌桥专利:专业的专利平台
掌桥专利
首页

一种行业数据的标识系统和方法

文献发布时间:2024-04-18 19:44:28


一种行业数据的标识系统和方法

技术领域

本发明涉及计算机技术领域,尤其涉及到一种行业数据标识系统和方法。

背景技术

数据标识是指将数据进行编码或加上标记,使得计算机可以对其进行识别、分类、检索和管理的过程。数据标识的主要目的是为了方便数据的使用与管理,同时能够提高数据处理的效率和可靠性。在数据库领域,常见的数据标识有数据表名、字段名、数据类型、主键和外键等,这些标识可以帮助管理员更好地管理和维护数据库系统。

例如,申请号为202110883879 .9专利申请文件公开了一种数据库中数据唯一性标识方法,该方法包括定义数据标识列,包括原始数据字段选取、数据标识字段定义,选取需要判断唯一性的相关列,并新增一个数据标识列;生成数据唯一标识,将选取的列生成数据唯一性标识,并将生成结果存储于新增的标识列中备用;判断数据唯一性,通过生成的唯一性标识列与库中已存在数据的唯一性标识列进行对,存在相同唯一性标识则认为存在相同数据,不存在则认为没有相同数据;存在相同数据时,根据业务场景需要,对重复数据进行相关处理;不存在相同数据时,则将新数据入库并添加数据初始版本标识。

以上述为代表的数据标识方法多以行业企业实体作为编码对象,而没有对全域范围的行业数据进行编码,真正覆盖到开放数据、公开数据、私有数据。只是在国家、地区、行业、企业等维度分配了统一编码,后缀多由企业内部自定义编码构成,由于企业内部自定义编码的不统一,在进行统一分类筛选查询时不能快速地按照蕴含行业机理或者语义的行业数据目录进行查询,快速找到所需的行业数据,而只能作为标识解析使用。

随着数据作为新型生产要素推动数据要素市场的发展,在数据治理、数据流通、数据交易时,如果能够将行业数据按照目录系统地分类,就能够帮助用户便捷地发现和访问所需的行业数据。

目前已有的各类编码体系,在数据治理、数据流通、数据交易的过程中,需要的不仅仅是找到某个行业分类下的企业的数据,而是要按照语义找到某一类的行业数据,可能来自不同的企业的同一类数据。这就要求在行业数据目录的分类保持语义性,能够体现行业机理。

另外,在目前的传统行业大数据治理方式中,多提倡数据湖,湖仓一体化的集中存储,这存在着数据聚合难,共享难和确权难的问题。而通过行业数据目录,将多源异构的行业数据的元数据建立语义关联,无论数据是开放数据、公开数据,还是私有数据,存放在本地、云端、雾端,都能够根据权限实时查询获取,进而分析治理。

如果将行业数据元数据通过行业数据目录的形式管理,通过唯一数据资源ID进行统一标识,就能够更好地管理和利用数据资源,存进数据共享治理流通交易等。

因此,有必要对现有技术进行改善,以克服上述缺陷。

发明内容

本发明的目的是提供一种行业数据标识系统和方法,以解决现有技术中存在的问题。

本发明的上述技术目的是通过以下技术方案实现的:

一种行业数据标识系统,包括

数据目录创建模块,其用于由用户自定义或通过行业知识图谱创建行业数据目录;

数据摄取模块,其用于将行业数据或元数据摄取到行业数据目录中,生成与行业数据目录对应的唯一ID标识,并存储唯一ID标识、以及与唯一ID标识对应的行业数据或元数据;

数据访问模块,其用于提供数据目录查询的可视化界面,根据查询结果确认用户权限并解析提供下载。

一种行业数据标识方法,包括如下步骤:

1)通过数据目录创建模块创建行业数据目录,所述行业数据目录由用户自定义或通过行业知识图谱创建;

2)通过数据摄取模块将行业数据或元数据映射至对应的行业数据目录,然后根据行业数据目录生成唯一标识ID,并预设数据访问权限;同时并存储唯一ID标识、以及与唯一ID标识对应的行业数据或元数据;

3)通过数据访问模块对行业数据目录进行查询,提交查询请求,从所述查询请求中提取行业数据的唯一标识ID,将行业数据的唯一标识ID解密为行业数据或元数据并校验,返回满足查询条件的行业数据或元数据信息。

进一步的,所述行业数据的唯一ID标识包括以下中的一种或多种:

数据类别编码,地域编码,行业编码,语义编码,时间编码,世系编码,编码类别编码,自定义编码。

进一步的,所述行业数据的唯一ID标识包括前缀和后缀;所述前缀包括所述行业数据的类别编码,地域编码,行业编码,语义编码,时间编码,世系编码,编码类别编码;所述后缀包括所述行业数据的自定义编码。

进一步的,在通过数据目录查询对应的元数据信息之前,所述方法还包括:

判断请求端是否拥有前缀的访问权限,如果有前缀的访问权限,则返回前缀元数据信息;

判断请求端是否拥有后缀的访问权限,如果请求数据是开放数据,且有后缀的访问权限,则返回后缀元数据信息;同时,如果请求数据为私有数据或公开数据,如果有后缀的访问权限,则实时请求对应的私有数据端,返回后缀元数据信息。

进一步的,所述方法还包括:根据预设要求来设置行业数据及元数据的访问权限,每一个行业数据都有唯一ID标识,每段编码都可以对用户设置不同的权限,授权用户访问解析。

进一步的,所述步骤3)的具体步骤如下:

3.1)用户提交查询请求,查询请求中包括要查询的唯一标识ID、数据要求及用户身份信息;

3.2)确认用户权限及数据要求,对行业数据标识的唯一标识ID格式校验准确性;

3.3)按照用户权限及数据要求,将行业数据的唯一标识ID按照算法解密,转换为字符,再根据映射表解码为元数据;

3.4)使用元数据进行数据资源的检索和查询,解析出的元数据用于查询和检索数据资源;

3.5)验证世系校验码,确保标识没有篡改或损坏;

3.6)返回用户权限及数据要求范围内的所需行业数据或相关元数据信息。

综上所述,本发明具有以下有益效果:

本发明将行业数据元数据通过行业数据目录的形式管理,通过唯一ID标识进行统一标识,能够更好地管理和利用数据资源,存进数据共享治理流通交易。

附图说明

图1是本发明所述的行业数据标识系统和方法的流程图。

图2是本发明所述的唯一ID标识的编码示意图。

图3是本申请的行业数据标识系统和方法的解析示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合图示与具体实施例,进一步阐述本发明。

如图1、图2和图3所示,本发明提出的一种行业数据标识系统,包括

数据目录创建模块,其用于由用户自定义或通过行业知识图谱创建行业数据目录;

数据摄取模块,其用于将行业数据或元数据摄取到行业数据目录中,生成与行业数据目录对应的唯一ID标识,并存储唯一ID标识、以及与唯一ID标识对应的行业数据或元数据;

数据访问模块,其用于提供数据目录查询的可视化界面,根据查询结果确认用户权限并解析提供下载。

一种行业数据标识方法,包括如下步骤:

1)通过数据目录创建模块创建行业数据目录,所述行业数据目录由用户自定义或通过行业知识图谱创建;

2)通过数据摄取模块将行业数据或元数据映射至对应的行业数据目录,然后根据行业数据目录生成唯一标识ID,并预设数据访问权限;同时并存储唯一ID标识、以及与唯一ID标识对应的行业数据或元数据;

3)通过数据访问模块对行业数据目录进行查询,提交查询请求,从所述查询请求中提取行业数据的唯一标识ID,将行业数据的唯一标识ID解密为行业数据或元数据并校验,返回满足查询条件的行业数据或元数据信息。

所述行业数据的唯一ID标识包括前缀和后缀;所述前缀包括所述行业数据的类别编码,地域编码,行业编码,语义编码,时间编码,世系编码,编码类别编码;所述后缀包括所述行业数据的自定义编码。

实施例

本发明第一实施例提供了一种行业数据目录系统的构建、存储方法,包括:自定义构建行业数据目录或根据行业知识图谱抽取目录,根据构建的行业数据目录对任一行业数据生成唯一标识ID,并存储元数据(元数据同时包括用户访问权限)及ID,如果为开放数据或公开数据,根据选择存储原始数据,如果为私有数据,仅存储可公开的元数据。

图1是行业数据目录系统构建方法的流程图,包括以下步骤:

1)通过数据目录创建模块构建行业数据目录,也可以基于内置或自定义创建的行业知识图谱抽取行业数据目录。

2)通过数据摄取模块将行业数据或元数据映射至对应的行业数据目录,对于私有数据,仅摄取可公开的元数据。根据行业数据目录生成唯一标识ID,并预设数据访问权限。存储元数据及ID。

3)通过数据访问模块的海量数据集分析和展示的交互式系统,例如,公告号为CN110413765B的中国发明专利,公开了“一种海量数据集分析和展示的交互式系统”,查询行业数据目录进行查询,提交查询请求,根据用户权限、数据要求解析出查询结果返回元数据或行业数据。

本发明第二实施例提供了一种行业数据的标识、解析方法,包括:根据构建的行业数据目录对任一行业数据生成唯一标识ID,通过大数据治理平台iDS3的标识解析模块确认用户权限后解析ID,用户按照行业目录查询行业数据时,通过ID解析筛选批量获取行业数据集。

本发明实施例的标识编码是对一个给定的行业数据(包括实体均视为行业数据),例如,设备,材料,产线数据,业务数据,文档,人员,机构,产品等,分配一个唯一ID标识,该标识采用数据类别、地域、行业、语义、时间、世系、编码类别作为前缀,自定义编码作为后缀的标识编码规则。

标识编码机制包括以下步骤:

1)数据类别占1位,分为三类:开放数据、公开数据和私有数据。

2)地域编码占4位,由世界各国行政区划编码统一生成,为预定义编码。

3)行业编码占8位,为预定义编码。

4)语义编码占8位,为预定义编码。

5)时间编码占7位,由时间戳加密生成。

6)世系编码占2位,用于记录行业数据所处生命周期和校验码。

7)编码类别占1位,用于标识后缀自定义编码的类别。

8)自定义编码不限位数,为其他标识体系、企业内部、URI等行业数据分配编码标识作为唯一识别码。

本发明实施例是通过映射行业数据目录对应生产唯一ID标识。

本发明实施例所述的方法还包括:基于行业数据目录和行业数据标识,将企业之间的整个行业数据关联整合,也可以将企业自身所关联的相关行业数据进行整合。

本发明实施例是通过在大数据平台上直接通过行业数据目录查找所需的目录信息,进而查询对应的元数据信息。

本发明实施例中,在通过数据目录查询对应的元数据信息之前,该方法还包括:

判断请求端是否拥有前缀的访问权限,如果有前缀的访问权限,则返回前缀元数据信息。

判断请求端是否拥有后缀的访问权限,如果请求数据是开放数据,且有后缀的访问权限,则返回后缀元数据信息。同时,如果请求数据为私有数据或公开数据,如果有后缀的访问权限,则实时请求对应的私有数据端,返回后缀元数据信息。

本发明实施例中所述方法还包括:根据预设要求来设置行业数据及元数据(包括ID)的访问权限,每一个行业数据都有唯一ID标识,每段编码都可以对用户设置不同的权限,授权用户访问解析。

下面将结合图3对本发明实施例的标识解析机制详细说明:

1)用户提交标识查询请求,请求中携带要查询的ID、数据要求及用户身份信息。

2)确认用户权限及数据要求,对行业数据标识的格式等校验准确性。

3)按照用户权限及数据要求,将行业数据表示按照特定的算法解密,转换为字符,再根据映射表解码为元数据。

4)使用元数据进行数据资源的检索和查询,解析出的元数据用于查询和检索数据资源。

5)验证世系校验码,确保标识没有篡改或损坏。

6)返回用户权限及数据要求范围内的所需行业数据或相关元数据信息。

下面将结合图1对本发明实施例的标识查询机制详细说明:

1)用户通过一种海量数据集分析和展示的交互式系统,例如,公告号为CN110413765B的中国发明专利,公开了“一种海量数据集分析和展示的交互式系统”,查询行业数据目录,并提交查询请求,请求中包含要查询的行业数据目录、所请求的数据要求和用户身份信息。

2)判断用户的身份信息权限,根据行业数据目录确定数据ID的筛选范围,通过ID筛选出符合查询条件的行业数据ID,定位到ID对应的行业数据,返回用户权限内可查询的元数据信息。

用户选择预览或下载时,判断用户的身份信息权限,有权限则实时返回允许下载的数据,否则返回失败信息。

在本文中,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“竖直”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了表达技术方案的清楚及描述方便,因此不能理解为对本发明的限制。

在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

技术分类

06120116299531