掌桥专利:专业的专利平台
掌桥专利
首页

基于元数据模型的工程领域知识图谱构建方法

文献发布时间:2023-06-19 11:32:36


基于元数据模型的工程领域知识图谱构建方法

技术领域

本发明属于数据处理技术领域,具体涉及一种基于元数据模型的工程领域知识图谱构建方法。

背景技术

构建工程领域知识图谱时,需要处理大量与工程业务相关的基础数据。业务数据具有来源多样异构、正确性不定,并随企业业务进行不定时更新等特点。采用常规技术手段构建工程领域知识图谱时存在以下难点:

构建知识图谱本体层时,需要将多源异构的业务基础数据进行整理清洗,难以保证知识图谱中数据的正确性和完备性;

当业务数据更新时,会涉及多个本体数据的更新,知识图谱的知识同步过程较为繁琐,一定程度上存在知识滞后的情况;

此外,当业务中需要使用知识图谱中的数据时,图谱数据的读取过程对业务操作人员不友好,存取效率及数据安全性难以保证。

为解决构建工程领域知识图谱的上述难点,本发明基于元数据模型,提出了对工程领域数据的校核、追溯及同步方法,高效地实现知识图谱的标准化构建、管理与应用。

发明内容

本发明的目的是根据上述现有技术的不足之处,提供一种基于元数据模型的工程领域知识图谱构建方法,该方法通过基于元数据模型,提出了对工程领域数据的校核、追溯及同步方法,高效地实现知识图谱的标准化构建。

本发明目的实现由以下技术方案完成:

一种基于元数据模型的工程领域知识图谱构建方法,其特征在于所述构建方法包括以下步骤:

(1)汇总工程项目中的各类基础数据以构建业务数据源;

(2)基于所述业务数据源中的各类基础数据构建知识图谱本体层,所述知识图谱本体层包括本体、本体属性以及本体关系;

(3)基于所述知识图谱本体层构建元数据层以定义所述业务数据源与所述知识图谱本体层之间的映射关系,其中,所述元数据层包括若干个元数据模型,各所述元数据模型分别对应不同的应用场景;

(4)构建数据任务层,所述数据任务层包括数据提取任务、数据清洗任务以及数据存储任务;

(5)构建知识图谱存储层,以存储由所述数据任务层所构建的知识图谱;

(6)构件知识图谱应用层,所述知识图谱应用层包括数据获取接口、数据看板以及数据血缘展示模块。

所述基础数据包括勘察数据、监测数据、施工数据以及设计数据。

所述元数据模型包含有若干个在业务逻辑上相关联的字段,所述字段具有统一的数据规范标准,所述数据规范标准包括字段命名标准、字段说明、字段数据类型规范、数据存储位置以及数据血缘;所述字段具有对应的数据处理方法的声明。

所述字段数据类型规范用以描述所述字段的标准数据存储类型,所述标准数据存储类型包括基本数据类型和集合数据类型,所述基本数据类型为int、float或string,所述集合数据类型为列表、哈希表或元组。

所述数据血缘为所述字段之间的相互依赖关系。

所述数据任务层中的所述数据提取任务、所述数据清洗任务以及所述数据存储任务分别具有各自的数据处理方法。

所述数据提取任务的数据处理方法是从所述业务数据源中全量或增量地提取源数据,并对所述源数据进行字段拆分、空值处理以及重复数据处理;

所述数据清洗任务的数据处理方法为将经所述数据提取任务处理后的源数据转换为符合所述元数据模型标准的格式;

所述数据存储任务的数据处理方法为将经所述数据清洗任务清洗后的源数据进行数据范围校验、数据唯一性与一致性校验、数据更新,之后存储入所述知识图谱中。

所述知识图谱存储层由图数据库、关系型数据库、非关系数据库、本地服务器或云服务器中的一类或多类组成。

所述数据获取接口对所述知识图谱存储层中的不同存储位置封装了统一数据读取方式,所述数据获取接口可根据用户的权限读取所述权限在所述知识图谱存储层中对应存储位置的数据。

本发明的优点是:基于元数据模型,提出了对工程领域数据的校核、追溯及同步方法,高效地实现知识图谱的标准化构建、管理与应用,适用于工民建、桥梁、隧道等各类工程领域知识图谱的构建、管理与应用。

附图说明

图1为本发明中基于元数据模型的工程领域知识图谱构建方法的流程示意图;

图2为本发明中数据血缘展示以有向图的方式展示元数据模型及其中各字段的依赖关系的示意图;

图3为本发明中隧道工程知识图谱本体层的示意图。

具体实施方式

以下结合附图通过实施例对本发明的特征及其它相关特征作进一步详细说明,以便于同行业技术人员的理解:

实施例:如图1、2所示,本实施例以构建隧道工程领域知识图谱为例,具体涉及一种基于元数据模型的工程领域知识图谱构建方法,该构建方法包括以下步骤:

(1)整理汇总隧道工程项目中各类基础数据,包括但不限于勘察数据、监测数据、施工数据、设计数据等基础数据,形成隧道工程领域的业务数据源。

(2)基于业务数据源中的各类基础数据构建工程领域内的知识图谱本体层,包括本体、本体属性以及本体关系;知识图谱本体层应准确、全面地覆盖隧道工程的各类数据。

以隧道工程知识图谱本体层中的隧道区间、隧道管片与病害三个本体为例进行说明。其中,隧道区间的本体属性包括所属线路、区间名称、开通时间、拼装形式等;隧道管片的本体属性包括所属区间、环号、坐标、埋深、变形测值、有无病害等;病害的本体属性包括病害类型、发现时间、严重程度、发现位置等。所述本体、本体属性及之间的本体关系如图3所示。

(3)基于知识图谱本体层,构建知识图谱的元数据层,以定义业务数据源与知识图谱本体层间的映射关系。本实施例中,面向隧道工程的设计、施工、监测等不同应用场景,建立若干元数据模型,各元数据模型共同组成隧道工程领域的知识图谱的元数据层。

元数据模型包含有多个在业务逻辑上相关的字段,并对各字段定义了统一的数据规范标准,包括字段命名规范、字段说明、字段数据类型规范、数据存储位置、数据血缘等元数据的标准定义,以及该字段对应的数据处理方法的声明。

其中,字段数据类型规范描述了字段的标准数据存储类型,该标准数据存储类型包括基本数据类型和集合数据类型,基本数据类型为int、float、string等,集合数据类型为列表、哈希表或元组等;此外,字段类型可以为另一个元数据模型或是元数据模型的集合。如果一个字段的数据类型为集合类型,如下方列表,列表中的元素除基本数据类型外,也可以是另一个元数据模型,例:

元数据模型1{

字段1 :int

字段2:string

字段3:list[int]

}

元数据模型2{

字段1:list[元数据模型1]

字段2:int

}

其中,数据血缘记录了该字段所依赖的其他字段,以便在数据更新与分析时进行溯源。每个字段可以有多个被依赖字段,同时也可能被多个字段依赖。被依赖字段可以是同一元数据模型中的其它字段,也可以是其他元数据模型中的字段。

以隧道工程管片测值的元数据模型为例,其中包含管片环号、管片坐标、变形测值、监测时间以及是否危险等多个字段。该元数据模型中每个字段的命名规范、字段说明、数据类型、数据存储位置与数据血缘关系的定义如下表所示:

其中,管片测值的元数据模型的管片环号、管片坐标以及是否危险的字段存储在MySQL数据库的Ring表中,而变形测值与监测时间的字段则存储在MySQL数据库的Value表中。是否危险字段的取值是由变形测值的大小确定的,因此在该字段的依赖字段中存有变形测值字段。

(4)构建数据任务层,数据任务层是一系列面向元数据模型的数据处理方法的集合,是对元数据模型中所述的数据处理方法的具体实现。数据任务层中主要包括数据提取任务、数据清洗任务与数据存储任务,这三类任务。各任务分别具有各自的数据处理方法以实现其任务目的。其中:

数据提取任务的目的是从业务数据源中提取基础数据主要功能包括:从业务数据源中全量或增量地提取基础数据,并根据需求对基础数据进行字段拆分、空值处理、重复数据处理等操作。

数据清洗任务的目的是将业务数据源中的基础数据转换为符合元数据模型标准的格式。主要功能包括:数据格式转换、数据排序与建立索引以及计算新字段等。

数据存储任务的目的将清洗后的业务数据源中的基础数据存入知识图谱中。主要功能包括:数据范围校验、数据唯一性与一致性校验、数据更新与数据入库等。

需要说明的是,各任务所各自具备的数据处理方法对各数据处理任务从执行频次、执行方式与执行顺序等方面进行了规定。其中,执行频次描述了该任务执行的可执行次数,如只可执行一次、可多次执行等;执行方式描述了数据处理任务的具体执行方法,如主动执行、定期执行、某任务完成后执行等;执行顺序描述了各字段对应数据处理任务执行的优先级与顺序。

以本实施例中的隧道工程为例,面向元数据模型的各字段,定义数据任务。如当新增一个监测项目时,定义数据提取任务“提取监测项目”,从生成数据库中提取新增监测项目的相关信息及涉及的隧道管片测值测点信息。数据清洗任务“处理监测项目”将提取到的源数据转换为满足元数据模型定义的格式,最终由数据存储任务“新增监测项目”将该条记录存入数据库中。各类数据处理任务共同构成了数据任务层。

(5)通过数据任务层将业务数据源中的多源异构基础数据以元数据模型定义的标准化格式存入数据库中,知识图谱存储层构建完成。知识图谱存储层由图数据库、关系型数据库、非关系数据库、本地服务器或云服务器中的一类或多类组成。

(6)基于知识图谱存储层,构建知识图谱应用层。知识图谱应用层提供了知识图谱及其元数据层的各类数据服务,包括数据获取接口、数据看板、数据血缘展示模块等功能。其中:

数据获取接口面向知识图谱存储层的不同存储位置封装了统一数据读取方式,用户可便捷地获取知识图谱中的数据;数据获取接口对用户权限进行了约束,确保指定权限的用户只能读取规定的数据。

数据看板以图表的形式展示了知识图谱中的元数据模型及其数据定义标准,以及知识图谱中各类数据的统计信息。

数据血缘展示模块以有向图的方式展示元数据模型及其中各字段的依赖关系,便于使用者快速了解所构建知识图谱的全貌。

以本实施例中的隧道工程为例,面向业务中的数据应用场景(如读取隧道中某管片当月的变形监测数据等),开发相应的数据读取接口,提供数据服务。知识图谱应用层在提高读取效率的同时确保了数据的安全性。基于元数据模型与知识图谱存储层中的数据,以图表的形式展示了元数据模型及其数据定义标准,以及知识图谱中各类数据的统计信息。数据血缘展示以有向图的方式展示元数据模型及其中各字段的依赖关系,如图2所示。

相关技术
  • 基于元数据模型的工程领域知识图谱构建方法
  • 基于知识图谱的数据保存方法及知识图谱的构建方法
技术分类

06120112965754