掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及电力工程勘测设计领域与知识工程领域,具体是一种面向变电站踏勘选址的知识图谱构建方法。

背景技术

变电站踏勘选址知识具有涉及领域广、实践经验性强、碎片化程度高,学习周期耗费长等特点,目前该业务领域知识的集成与积累基本依靠人工总结和交流学习,共享传播范围有限,学习效果受人员素质影响大,制约着高水平专家的快速成长。

近年来,国内部分设计院建立了企业级知识库。不过由于知识细度不足,非结构化等原因,工程实践知识仍然分布存储在专家的大脑中,专家的退休、调岗或离职带走大量宝贵的知识经验,容易造成知识的流失。2012年,谷歌推出了称为知识图谱的搜索引擎服务,在互联网领域语义搜索、智能问答、辅助语言理解等方面迅速发展,并且在金融、医疗、电商和教育垂直行业领域发挥重要的作用,为解决上述问题提供了新思路。然而,如何将其应用到变电站踏勘选址领域,目前还没有相关的技术研究。

发明内容

针对上述问题,本发明的目的是提供一种面向变电站踏勘选址的知识图谱构建方法和系统,适用于对变电站踏勘选址知识的结构化分解与知识图谱构建,用于存储项目决策知识、项目管理知识、项目案例知识和专家经验知识,改善现有变电站选址知识管理效能,辅助工程决策,有利于提高设计工程师培养速度,进一步提高变电工程勘测设计质量。

为实现上述目的,本发明采取以下技术方案:

本发明的第一个方面,是提供一种面向变电站踏勘选址的知识图谱构建方法,其包括以下步骤:1)根据预先确定的术语来源对获取的与变电站踏勘选址相关的知识进行知识实体抽取,得到选址知识本体集合、属性集合以及关系集合;2)基于步骤1)得到的选址知识本体集合和关系集合,构建本体层知识图谱,用于存储项目决策知识和项目管理知识;3)以本体层知识图谱为基础,结合属性集合构建实例层知识图谱,用于存储项目案例知识、专家经验知识;4)基于本体层知识图谱和实例层知识图谱以及相互之间的连接关系,构建变电站踏勘选址的项目管理与选址决策知识体系,用于行业工程师进行知识的检索学习和辅助决策。

进一步,所述步骤1)中,根据预先确定的术语来源对获取的与变电站踏勘选址相关的知识进行知识实体抽取,得到选址知识本体集合、属性集合以及关系集合的方法,包括以下步骤:1.1)收集与变电站踏勘选址相关的结构化与非结构化知识并进行主题划分,得到项目决策知识、项目管理知识、项目案例知识和专家经验知识四类知识;1.2)根据业务关联领域,获取术语来源,所述术语来源包括下述中的至少一种:电力主题词表、政府公文主题词表、技术规程术语表、项目质量管理术语表;1.3)根据步骤1.2)确定的术语来源对步骤1.1)获取的与变电站踏勘选址相关的四类知识进行知识实体抽取,得到选址知识本体集合、属性集合以及关系集合。

进一步,所述步骤1.3)中,进行知识实体抽取的方法,包括以下步骤:3.1)对于项目决策知识和项目管理知识,根据预设遴选原则进行遴选后转化为第一实体;3.2)对于项目案例知识以及专家经验知识,采用NLP自然语言处理技术,结合确定的术语来源进行语义词频分析,筛选提取高频词汇作为第类实体;3.3)将第一实体和第二实体相结合,进行核查补缺后,得到初始选址知识本体与属性集合;3.4)对步骤3.3)中抽取得到的初始选址知识本体集合和属性集合进行同义词、近义词聚类,确定唯一规范表述,获得精简后的选址知识本体集合和属性集合;3.5)基于精简后的选址知识实体集合和属性集合以及术语来源,得到关系集合。

进一步,所述步骤2)中,构建本体层知识图谱的方法,包括以下步骤:2.1)将选址知识本体集合划分为基本要素类、组织流程类、影响因素类、决策依据类、过程信息类和本体其他类6大类主题后,构建本体类和本体类等级体系;2.2)按用途主题将关系集合划分为职能类、约束类、动作类、逻辑类、空间类、时序类和关系其他类,构建关系和关系等级体系;2.3)基于步骤2.1)中构建的本体类和本体类等级体系、步骤2.2)中构建的关系和关系等级体系,根据选址业务逻辑创建“本体-关系-本体”三元组,得到本体层知识图谱。

进一步,所述步骤3)中,构建实例层知识图谱的方法,包括以下步骤:3.1)从本体类派生创建实例,结合关系集合建立“实例-关系-实例”三元组,构建实例层知识图谱;3.2)根据实例描述需求定义属性及数值类型,其中,属性来源于项目信息和报告、流程纪录、决策依据与事件、专家经验;数值类型包括文本、数值、时间、外部链接。

本发明的第二个方面,是提供一种面向变电站踏勘选址的知识图谱构建系统,包括:实体抽取模块,用于根据预先确定的术语来源对获取的与变电站踏勘选址相关的知识进行知识实体抽取,得到选址知识本体集合、属性集合以及关系集合;本体层知识图谱构建模块,用于基于获得的选址知识本体集合和关系集合,构建用于存储项目决策知识和项目管理知识的本体层知识图谱;实例层知识图谱构建模块,用于以本体层知识图谱为基础,结合属性集合构建用于存储项目案例知识、专家经验知识的实例层知识图谱;知识体系构建模块,用于基于本体层知识图谱和实例层知识图谱以及相互之间的连接关系,构建变电站踏勘选址的项目管理与选址决策知识体系。

进一步,所述实体抽取模块包括:知识来源获取模块,用于收集与变电站踏勘选址相关的结构化与非结构化知识,并进行主题划分,得到项目决策知识、项目管理知识、项目案例知识和专家经验知识四类知识;术语来源获取模块,用于根据业务关联领域,获取术语来源;知识实体抽取模块,用于根据确定的术语来源对获取的与变电站踏勘选址相关的四类知识进行知识实体抽取,得到选址知识本体集合、属性集合以及关系集合。

进一步,所述知识实体抽取模块包括:第一实体抽取模块,用于根据预设遴选原则对项目决策知识和项目管理知识进行遴选后转化为第一实体;第二实体抽取模块,用于采用NLP自然语言处理技术以及确定的术语来源,对项目案例知识和专家经验知识进行语义词频分析,筛选提取高频词汇作为第二实体;初始实体结合确定模块,用于对所述第一实体和第二实体进行结合并进行核查和补充缺失的知识实体,得到初始选址知识本体与属性集合;实体消歧模块,用于对抽取得到的初始选址知识本体集合和属性集合进行同义词、近义词聚类,确定唯一规范表述,获得精简后的选址知识本体集合和属性集合;关系集合确定模块,用于基于得到的精简后的选址知识本体集合和属性集合以及术语来源,得到相应的关系集合。

进一步,所述本体层知识图谱构建模块包括:本体体系构建模块,用于对各知识实体进行主题划分,得到基本要素类、组织流程类、影响因素类、决策依据类、过程信息类和本体其他类6大类主题,并构建本体类和本体类等级体系;关系体系构建模块,用于按用途对关系进行主题划分,得到职能类、约束类、动作类、逻辑类、空间类、时序类和关系其他类,并构建关系和关系等级体系;本体层知识图谱模块,用于基于构建的本体类和本体类等级体系、关系和关系等级体系,根据选址业务逻辑创建“本体-关系-本体”三元组,得到本体层知识图谱。

进一步,所述实例层知识图谱构建模块,包括:实例层知识图谱模块,用于从本体类派生创建实例,结合关系建立“实例-关系-实例”三元组,构建实例层知识图谱;属性及数值类型定义模块,用于根据实例描述需求定义属性及数值类型,所述属性来源于项目信息和报告、流程纪录、决策依据与事件、专家经验;所述数值类型包括文本、数值、时间、外部链接。本发明由于采取以上技术方案,其具有以下优点:1、本发明对变电站踏勘选址领域知识进行结构化分解,构建出静态知识体系与动态信息知识两大类,形成较为完备的选址知识图谱。2、本发明构建的静态知识体系由知识图谱的本体层存储,以项目管理知识流程有向图为主脉络,将任务目标、设计要求、工作内容、组织机构、人员组织等管理知识,以及不同专业的技术规范等决策类知识关联贯通,形成选址知识指南,为选址提供实际有效的指导。3、本发明构建的动态知识由知识图谱的实例层存储,存储项目案例信息及不同案例之间的关联关系,并以项目基本信息、站址技术经济方案、设计依据与规范、专家决策知识、外部链接为属性进行补充,形成丰富的案例知识库,供新的工程检索和辅助决策。知识图谱采用Neoj4图数据库存储,能够方便的实现知识检索与关系可视化,可视化网络关系结构于人的联想思维模式类似,便于人工应用。因此,本发明可以广泛应用于电力工程勘测设计领域与知识工程领域。

附图说明

图1为本发明面向变电站踏勘选址的知识图谱构建方法的流程图;

图2为本发明本体主题划分与等级示意图;

图3为本发明关系主题划分示意图;

图4为本发明本体层知识图谱局部示意图;

图5为本发明实例层知识图谱局部示意图;

图6为本发明项目实例的属性集示意图;

图7为本发明本体层与实例层的关系示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本发明对变电站踏勘选址领域知识的来源、内容、特性和应用需求等进行了深入的分析,提出根据主题划分构建知识本体和关系类,建立本体知识库。由本体派生实例,建立实例知识库,实现了将选址静态知识体系和动态信息知识结构化管理存储的目的。其中,静态知识包括技术规程知识和项目管理知识,动态知识包括项目案例知识和专家经验知识。

如图1所示,为了实现上述目的,本发明提供了一种面向变电站踏勘选址的知识图谱构建方法,具体的,包括以下步骤:

1)知识来源获取:收集与变电站踏勘选址相关的结构化与非结构化知识,并将收集到的结构化与非结构化知识划分为四类知识主题,分别为:项目决策知识、项目管理知识、项目案例知识和专家经验知识。

2)术语来源获取:根据业务关联领域,获取电力主题词表、政府公文主题词表、技术规程术语表和项目质量管理术语表,作为术语来源。

3)知识实体抽取:根据步骤2)中确定的术语来源对步骤1)中的获取的与变电站踏勘选址相关的四类知识进行知识实体抽取,进而得到选址知识本体集合、属性集合以及关系集合。

具体的,包括以下步骤:

3.1)对于四类知识中涉及到电力工程建设领域及电力系统领域等项目决策知识和项目管理知识,根据预设遴选原则进行遴选后转化为实体。其中,预设的遴选原则是指基于与变电站踏勘选址活动内、外部影响相关的术语进行选择,例如描述选址目标、内容、过程、影响、评价、决策等行业约定的规范化术语。

3.2)对于选址技术报告、后评价报告、工程质量分析报告等项目案例知识以及专家总结报告等专家经验知识,采用NLP自然语言处理技术,结合步骤2)中确定的术语来源进行语义词频分析,筛选提取高频词汇作为实体。其中,高频词汇的出现频率可以根据实际需要进行确定。

3.3)将步骤3.1)和步骤3.2)得到的实体相结合,并由变电站选址工作相关技术、造价、项目管理领域人工专家核查补充缺失的知识实体,得到初始选址知识本体与属性集合。

3.4)对步骤3.3)中抽取得到的初始选址知识本体集合和属性集合进行同义词、近义词聚类,确定唯一规范表述,获得精简后的选址知识本体集合和属性集合。

3.5)基于步骤3.3)中得到的选址知识实体集合和属性集合以及步骤2)中的术语来源,得到关系集合。

4)本体层知识图谱:基于步骤3)得到的选址知识本体集合和关系集合,构建本体层知识图谱,用于存储项目决策知识和项目管理知识,此类知识客观存在,是静态知识。

以项目流程本体有向图为主脉络,将任务目标、设计要求、工作内容、组织机构、人员组织以及不同专业的技术规范等关联贯通的选址本体层知识图谱。具体的,包括以下步骤:

4.1)如图2所示,将选址知识本体集合按6大类主题划分,并构建本体类和本体类等级体系,6大类主题分别为基本要素类、组织流程类、影响因素类、决策依据类、过程信息类和其他类。每一类主题又可以分为多个子类,且子类可以根据需求逐级扩充。例如,基本要素类可以分为人员、角色、组织、事务、时间和地点等子类;组织流程类可以分为策划、踏勘、收资、选址、设计、协同、会签、评审、验证和确认等各个环节;影响因素类可以分为政策影响因素、非政策影响因素等;决策依据类可以分为技术规程、造价规程、业主规定和项目要求等影响站址选址决策的各类依据;过程信息类可以分为目标、输入、过程和输出等子类;其他类可以分为未包含在上述类别中的其他本体。

4.2)如图3所示,构建关系和关系等级体系,按用途主题将关系集合划分为职能类、约束类、动作类、逻辑类、空间类、时序类和其他类,其中,职能类用于描述实体之间上下位的关系,约束类用于描述实体之间约束的关系,逻辑类用于描述实体之间逻辑关联的关系,空间类用于描述实体之间空间位置的关系,时序类用于描述实体之间时间顺序的关系,其他类用于描述未包含在上述类别中的其他关系。

4.3)如图4所示,基于步骤4.1)中构建的本体类和本体类等级体系、步骤4.2)中构建的关系和关系等级体系,根据选址业务逻辑创建“本体-关系-本体”三元组,得到本体层知识图谱。

5)实施例知识图谱:以本体层知识图谱为基础,结合属性集合构建实例层知识图谱,用于存储项目案例知识、专家经验知识。此类知识依赖于项目和专家个体存在,更新率高,是动态知识。

以本体层知识图谱派生的项目案例知识图谱,用于存储项目案例信息及不同项目案例的关联关系,并以站址与技术经济方案、设计依据与规范、专家决策知识、外部链接等为属性进行补充。具体的,包括以下步骤:

5.1)如图5所示,从本体类派生创建实例,结合关系集合建立“实例-关系-实例”三元组,构建实例层知识图谱。

5.2)如图6所示,根据实例描述需求定义属性及数值类型,属性来源于项目信息和报告、流程纪录、决策依据与事件、专家经验等。数值类型包括文本、数值、时间、外部链接。

6)基于本体层知识图谱和实例层知识图谱以及相互之间的各种连接关系,构建完整的项目管理与选址决策知识体系,用于行业工程师进行知识的检索学习和辅助决策。

如图7所示,本发明适用于变电站工程踏勘选址工作的知识结构化管理,根据本体层知识图谱和实例层知识图谱以及相互之间的各种链接关系,可构建出较为完备的项目管理与选址决策知识体系,并可随项目数量规模增长和专家知识更新不断扩充。基于Neoj4图数据库可实现知识的快速检索与关系可视化,其网络结构与人的联想思维模式类似,有利于行业工程师进行知识的检索学习和辅助决策。

基于上述面向变电站踏勘选址的知识图谱构建方法,本发明还提供一种面向变电站踏勘选址的知识图谱构建系统,其包括:知识来源获取模块,用于收集与变电站踏勘选址相关的结构化与非结构化知识,并将收集到的结构化与非结构化知识划分为四类知识主题,分别为:项目决策知识、项目管理知识、项目案例知识和专家经验知识;术语来源获取模块,用于根据业务关联领域,获取电力主题词表、政府公文主题词表、技术规程术语表和项目质量管理术语表,作为术语来源;知识实体抽取模块,用于根据确定的术语来源对获取的与变电站踏勘选址相关的四类知识进行知识实体抽取,进而得到选址知识本体集合、属性集合以及关系集合;本体层知识图谱构建模块,用于基于获得的选址知识本体集合和关系集合,构建用于存储项目决策知识和项目管理知识的本体层知识图谱;实例层知识图谱构建模块,用于以本体层知识图谱为基础,结合属性集合构建用于存储项目案例知识、专家经验知识的实例层知识图谱;知识体系构建模块,用于基于本体层知识图谱和实例层知识图谱以及相互之间的各种连接关系,构建完整的项目管理与选址决策知识体系。

进一步,知识实体抽取模块包括:第一实体抽取模块,用于根据预设遴选原则对四类知识中涉及到电力工程建设领域及电力系统领域的常用术语进行遴选后转化为实体;第二实体抽取模块,用于采用NLP自然语言处理技术以及确定的术语来源,对项目案例知识和专家经验知识进行语义词频分析,筛选提取高频词汇作为实体;初始实体结合确定模块,用于对第一实体抽取模块和第二实体抽取模块的实体进行结合并进行核查和补充缺失的知识实体,得到初始选址知识本体与属性集合;实体消歧模块,用于对抽取得到的初始选址知识本体集合和属性集合进行同义词、近义词聚类,确定唯一规范表述,获得精简后的选址知识本体集合和属性集合;关系集合确定模块,用于基于得到的选址知识本体集合和属性集合以及术语来源,得到相应的关系集合。

进一步,本体层知识图谱构建模块包括:本体体系构建模块,用于对各知识实体进行主题划分,并构建本体类和本体类等级体系;关系体系构建模块,用于按用途对关系进行主题划分,并构建关系和关系等级体系;本体层知识图谱模块,用于基于构建的本体类和本体类等级体系、关系和关系等级体系,根据选址业务逻辑创建“本体-关系-本体”三元组,得到本体层知识图谱。

进一步,实例层知识图谱构建模块,包括:实例层知识图谱模块,用于从本体类派生创建实例,结合关系建立“实例-关系-实例”三元组,构建实例层知识图谱;属性及数值类型定义模块,用于根据实例描述需求定义属性及数值类型。

在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明对本体、关系、属性的定义,以及实体之间的关系网络做出各种相应的改变,但这些相应的改变都应属于本发明所附的权力要求的保护范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本发明后依然可对发明的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在发明待批的权利要求保护范围之内。

相关技术
  • 一种面向变电站踏勘选址的知识图谱构建方法和系统
  • 一种面向数学辅导问答系统的知识图谱构建方法及其系统
技术分类

06120113147660