掌桥专利:专业的专利平台
掌桥专利
首页

用于建立电网知识图谱的逻辑模型的方法及系统和介质

文献发布时间:2023-06-19 09:52:39


用于建立电网知识图谱的逻辑模型的方法及系统和介质

技术领域

本发明涉及知识图谱技术,更具体而言,涉及一种用于建立用于电网知识图谱的逻辑模型的方法及相应的系统和计算机可读存储介质。

背景技术

随着知识图谱技术的进一步发展,知识图谱以其强大的语义处理能力和知识组织能力为大规模知识库组织和智能化应用奠定了基础。知识图谱由大量实体和实体关联构成。通过知识图谱,可以检索地标、人名、城市、运动队、建筑物、地理特征、电影、天体、艺术作品等实体,并获取与这些实体相关的信息。这是构建智能应用的关键,它融入了网络的集体智慧,并且能更像人去理解世界。在具体的应用场合,需要基于特定领域本体库建设领域知识图谱,支撑面向特定领域的信息智能检索和领域智能应用建设。面向特定领域的知识图谱建设不仅需要通用知识,更侧重结合领域专业知识。领域知识图谱的建设需要支撑实际工程应用,相比通用知识图谱的建设在识别率、准确性等相关指标方面有更高的要求。为了满足面向领域的大规模知识库及智能应用建设,需要研究适应领域特征的信息抽取技术及领域知识图谱的构建方法。

近些年,国内推出了大量以中文为主语言的知识图谱,它们主要都是基于百度百科和维基百科的结构化信息构建起来的,旨在利用社区力量维护开放域知识图谱的Schema标准。知识图谱的构建方式包括人工编辑和自动抽取,但自动抽取方法主要是基于在线百科中的结构化信息而忽略了非结构化文本,而互联网中大部分的信息恰恰是以非结构化的自由文本形式呈现。在链接数据发展的同期,很多基于信息抽取技术的知识获取方法被提出,用以构建基于自由文本的开放域知识图谱。2007年,华盛顿大学Banko等人率先提出开放域信息抽取(OIE),直接从大规模自由文本中直接抽取实体关系三元组,即头实体、关系指示词以及尾实体三部分。在OIE提出之前,也有很多面向自由文本的信息抽取被提出,但这些方法主要的思路都是为每个目标关系训练相应的抽取器。这类传统的信息抽取方法在面对互联网文本中海量的关系类别时无法高效地工作,即为每个目标关系训练抽取器是不现实的,更为严重的是,很多情况下面对海量的网络文本我们无法事先明确关系的类型。

此外,当前基于企业级数据模型的知识资源分类、智能搜索、以及对于跨域的知识融合和表示尚处于起步阶段,缺乏面向相关管理人员、业务人员的直观通俗的模型界面,同时数据模型的逻辑链路搜索能力及静态语义分析评估能力也受到严重限制。诸如国家电网公司企业公共数据模型(SG-CIM)的数据模型作为公司企业级电网、资产、财务等方面数据的全面抽象,不仅数量庞大,而且涉及专业门类极多,使得在模型成果、应用和支撑三个方面仍存在以下问题:(1)模型设计质量仍需完善,即在目前模型设计成果中,仍存在部分数据对象抽象程度不一致、实体关系不准确、数据对象及属性不完整、去重不彻底、数据溯源不完整、标准编码与源端业务系统编码不对应等实际问题;(2)模型映射率不高,即各单位基于不同版本的物理模型进行映射比对,导致平均映射率较低;(3)缺乏工具支撑,即目前数据模型管控多采用线下方式,流程复杂、沟通效率低,且模型设计成果较为抽象,造成各级人员对模型难以理解,应用能力不足,模型应用与迭代完善质量无法保证。

因此,需要提供一种改进的技术方案,以克服现有数据模型中存在的缺陷。

发明内容

本发明的目的在于提供一种方案,以解决上述技术问题。

具体地,根据本发明的第一方面,提供一种用于建立用于电网知识图谱的逻辑模型的方法,包括:

确定用于定义实体及其属性的实体模式,所述实体模式至少包括实体的实体名称和属性;

接收包括实体相关信息和属性相关信息的第一数据源,将所述第一数据源中的多个实体按以下基准判定为完整实体或不完整实体:对于所述多个实体中的每个实体,当所述第一数据源中不存在相应的属性相关信息时将该实体判定为完整实体,否则将该实体判定为不完整实体;

对于每个完整实体和每个不完整实体,基于所述第一数据源按照所述实体模式生成相应的实体属性信息,从而得到所述第一数据源包括的全部实体的实体属性信息集合,以生成包括所述实体属性信息集合的所述逻辑模型的实体集;

确定用于定义源实体和目标实体之间的关系的关系模式,所述关系模式至少包括源实体的实体名称和目标实体的实体名称;

接收包括源实体和目标实体之间的关系的关系相关信息的第二数据源,所述第二数据源包括多对源实体和目标实体,对于每对源实体和目标实体,基于该源实体的实体名称和该目标实体的实体名称判断该源实体和该目标实体是否存在于所述逻辑模型的实体集中,仅当判断结果为肯定时,基于所述第二数据源和所述逻辑模型的实体集按照所述关系模式生成该对源实体和目标实体的实体关系信息,从而得到所述第二数据源包括的全部关系的实体关系信息集合,以生成包括所述实体关系信息集合的所述逻辑模型的关系集;

基于所述逻辑模型的实体集和所述逻辑模型的关系集,建立包括实体、属性和关系的逻辑模型。

在一个实施例中,实体模式所包括的属性基于所述第一数据源中的属性相关信息按照预定义的属性模式确定,所述属性模式至少包括属性的属性名称和属性数据类型。

在一个实施例中,对于每个完整实体和每个不完整实体,基于所述第一数据源按照所述实体模式生成相应的实体属性信息包括:

对于每个完整实体,基于所述第一数据源中的实体相关信息和属性相关信息,对该完整实体的实体名称以及相应的属性的属性名称和属性数据类型进行规范化处理,并至少基于规范化处理的实体名称以及相应的属性名称和属性数据类型按照所述实体模式和所述属性模式生成相应的实体属性信息;

对于每个不完整实体,基于所述第一数据源中的实体相关信息,对该不完整实体的实体名称进行规范化处理,并至少基于规范化处理的实体名称按照所述实体模式生成相应的实体属性信息。

在一个实施例中,基于所述第二数据源和所述逻辑模型的实体集按照所述关系模式生成一对源实体和目标实体的实体关系信息包括:

对所述第二数据源进行解析以获得表示该源实体和该目标实体之间的关系的第一标签,所述第一标签至少指示该源实体的实体类型和该目标实体的实体类型;

仅当所述第一标签指示该源实体的实体类型和该目标实体的实体类型为类时,基于该源实体的实体名称和该目标实体的实体名称以及所述逻辑模型的实体集按照所述关系模式对该源实体和该目标实体进行信息补全;

从所述第二数据源获取第二标签,基于所述第二标签对该源实体和该目标实体之间的关系的关系类型进行细化;

基于所述第一标签、补全的信息和被细化的关系类型按照所述关系模式生成该对源实体和目标实体的实体关系信息。

在一个实施例中,所述实体模式还包括实体的主题域、二级主题域、实体描述;所述属性模式还包括属性的属性描述;所述关系模式还包括源实体与目标实体之间的关系的关系方向、关系类型、多重性和角色。

在一个实施例中,设有实体及其属性的实体模式的库,从所述实体模式的库确定用于定义实体及其属性的实体模式。

在一个实施例中,设有表示实体之间的关系的关系模式的库,从所述关系模式的库确定用于定义源实体和目标实体之间的关系的关系模式。

在一个实施例中,设有实体、其属性、实体之间的关系的别名集库,所述别名集库包括既往记录的别名及其出现频次,将所述第一数据源和所述第二数据源中出现的实体、其属性、实体之间的关系记录到所述别名库中,并将出现的频次累加;显示的实体、其属性、实体之间的关系为出现频次最大的实体、其属性、实体之间的关系。

根据本发明的第二方面,提供一种用于建立用于电网知识图谱的逻辑模型的系统,包括实体集生成单元、关系集生成单元和处理单元,

其中,所述实体集生成单元被配置为:

确定用于定义实体及其属性的实体模式,所述实体模式至少包括实体的实体名称和属性;

接收包括实体相关信息和属性相关信息的第一数据源,将所述第一数据源中的多个实体按以下基准判定为完整实体或不完整实体:对于所述多个实体中的每个实体,当所述第一数据源中不存在相应的属性相关信息时将该实体判定为完整实体,否则将该实体判定为不完整实体;

对于每个完整实体和每个不完整实体,基于所述第一数据源按照所述实体模式生成相应的实体属性信息,从而得到所述第一数据源包括的全部实体的实体属性信息集合,以生成包括所述实体属性信息集合的所述逻辑模型的实体集;

其中,所述关系集生成单元被配置为:

确定用于定义源实体和目标实体之间的关系的关系模式,所述关系模式至少包括源实体的实体名称和目标实体的实体名称;

接收包括源实体和目标实体之间的关系的关系相关信息的第二数据源,所述第二数据源包括多对源实体和目标实体,对于每对源实体和目标实体,基于该源实体的实体名称和该目标实体的实体名称判断该源实体和该目标实体是否存在于所述逻辑模型的实体集中,仅当判断结果为肯定时,基于所述第二数据源和所述逻辑模型的实体集按照所述关系模式生成该对源实体和目标实体的实体关系信息,从而得到所述第二数据源包括的全部关系的实体关系信息集合,以生成包括所述实体关系信息集合的所述逻辑模型的关系集;

其中,所述处理单元被配置为:

基于所述逻辑模型的实体集和所述逻辑模型的关系集,建立包括实体、属性和关系的逻辑模型。

在一个实施例中,实体模式所包括的属性基于所述第一数据源中的属性相关信息按照预定义的属性模式确定,所述属性模式至少包括属性的属性名称和属性数据类型。

在一个实施例中,对于每个完整实体和每个不完整实体,基于所述第一数据源按照所述实体模式生成相应的实体属性信息包括:

对于每个完整实体,基于所述第一数据源中的实体相关信息和属性相关信息,对该完整实体的实体名称以及相应的属性的属性名称和属性数据类型进行规范化处理,并至少基于规范化处理的实体名称以及相应的属性名称和属性数据类型按照所述实体模式和所述属性模式生成相应的实体属性信息;

对于每个不完整实体,基于所述第一数据源中的实体相关信息,对该不完整实体的实体名称进行规范化处理,并至少基于规范化处理的实体名称按照所述实体模式生成相应的实体属性信息。

在一个实施例中,基于所述第二数据源和所述逻辑模型的实体集按照所述关系模式生成一对源实体和目标实体的实体关系信息包括:

对所述第二数据源进行解析以获得表示该源实体和该目标实体之间的关系的第一标签,所述第一标签至少指示该源实体的实体类型和该目标实体的实体类型;

仅当所述第一标签指示该源实体的实体类型和该目标实体的实体类型为类时,基于该源实体的实体名称和该目标实体的实体名称以及所述逻辑模型的实体集按照所述关系模式对该源实体和该目标实体进行信息补全;

从所述第二数据源获取第二标签,基于所述第二标签对该源实体和该目标实体之间的关系的关系类型进行细化;

基于所述第一标签、补全的信息和被细化的关系类型按照所述关系模式生成该对源实体和目标实体的实体关系信息。

在一个实施例中,设有实体及其属性的实体模式的库,从所述实体模式的库确定用于定义实体及其属性的实体模式。

在一个实施例中,设有表示实体之间的关系的关系模式的库,从所述关系模式的库确定用于定义源实体和目标实体之间的关系的关系模式。

在一个实施例中,设有实体、其属性、实体之间的关系的别名集库,所述别名集库包括既往记录的别名及其出现频次,将所述第一数据源和所述第二数据源中出现的实体、其属性、实体之间的关系记录到所述别名库中,并将出现的频次累加;显示的实体、其属性、实体之间的关系为出现频次最大的实体、其属性、实体之间的关系。

根据本发明的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在由处理器执行时导致上述的用于建立用于电网知识图谱的逻辑模型的方法被执行。

根据本发明的方案,通过从多个数据源获取实体、属性和关系的数据,对这些数据进行规范化处理并按照预定义的实体模式、属性模式和关系模式建立用于电网知识图谱的统一的、完整的数据模型。利用本发明,可以进行查缺补漏、弥补现有模型设计短板,同时可以给管理和业务人员提供更加合理的管控模型,支持公司统一数据模型的信息匹配、共享。另外,本发明可以基于现有数据模型进一步推进模型标准实施和构建完整的体系,为进一步推进数据质量管理打下坚实基础,同时支持数据中台与业务中台的建设,在实际应用中获得直接或间接效益。

附图说明

以示例的方式参考以下附图描述本发明的非限制性且非穷举性实施例,其中:

图1是示意性示出根据本发明一个实施例的用于建立用于电网知识图谱的逻辑模型的方法的流程图;

图2是示意性示出根据本发明一个实施例的建立逻辑模型的实体集的流程图;

图3是示意性示出根据本发明一个实施例的建立逻辑模型的关系集的流程图;以及

图4是示出根据本发明一个实施例的用于建立用于电网知识图谱的逻辑模型的系统的示意图。

具体实施方式

为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。

作为本发明第一方面,提供一种用于建立用于电网知识图谱的逻辑模型的方法。图1示意性示出根据本发明一个实施例的用于建立用于电网知识图谱的逻辑模型的方法S100。如图1所示,S100可以包括步骤S101、步骤S102、步骤S103、步骤S104、步骤S105和步骤S106。

在步骤S101中,确定用于定义实体及其属性的实体模式,所述实体模式至少包括实体的实体名称和属性。本文中实体模式也可以被称为实体定义,其用于限定实体的实体成员,例如可以包括各种合适的用于将一个实体与其他实体区别开的实体成员。实体名称可以包括实体的实体英文名称和实体中文名称中的至少一个。在一个实施例中,实体模式还可以包括实体的主题域、二级主题域和实体描述。例如,可以json格式确定实体模式,如下:

{

'name':[实体英文名称,实体中文名称],

'area':主题域,

'secondary area':二级主题域,

'description':实体描述,

'attributes':[属性列表]

}

在步骤S102中,接收包括实体相关信息和属性相关信息的第一数据源,将所述第一数据源中的多个实体按以下基准判定为完整实体或不完整实体:对于所述多个实体中的每个实体,当所述第一数据源中不存在相应的属性相关信息时将该实体判定为完整实体,否则将该实体判定为不完整实体。这里,第一数据源可以被广义地理解为囊括各种可能形式的数据源,包括结构化、半结构化和非结构化形式的数据源,例如关系型数据库、数仓、非关系型数据库、文档库、各类报表等。优选地,本发明的第一数据源包括excel文档形式的数据源。

在一个实施例中,实体模式所包括的属性基于第一数据源中的属性相关信息按照预定义的属性模式确定,属性模式至少包括属性的属性名称和属性数据类型。本文中属性模式也可以被称为属性定义,其用于限定属性的属性成员。在一个实施例中,属性模式还包括属性的属性描述。例如,可以json格式确定属性模式,如下:

{

'name':[属性英文名称,属性中文名称],

'datatype':属性数据类型,

'description':属性描述

}

在步骤S103中,对于每个完整实体和每个不完整实体,基于所述第一数据源按照所述实体模式生成相应的实体属性信息,从而得到所述第一数据源包括的全部实体的实体属性信息集合,以生成包括所述实体属性信息集合的所述逻辑模型的实体集。根据需要,逻辑模型的实体集可以各种合适的文件形式存储,例如json存储文件形式。在一个实施例中,逻辑模型的实体集的json存储文件形式如下:

在一个实施例中,步骤S103可以包括:对于每个完整实体,基于所述第一数据源中的实体相关信息和属性相关信息,对该完整实体的实体名称以及相应的属性的属性名称和属性数据类型进行规范化处理,并至少基于规范化处理的实体名称以及相应的属性名称和属性数据类型按照所述实体模式和所述属性模式生成相应的实体属性信息;以及对于每个不完整实体,基于所述第一数据源中的实体相关信息,对该不完整实体的实体名称进行规范化处理,并至少基于规范化处理的实体名称按照所述实体模式生成相应的实体属性信息。对于每个实体,可以将实体名称作为实体的识别标准,例如,将“实体英文名称+实体中文名称”作为实体的识别标准、将“实体英文名称”作为实体的识别标准、或将“实体中文名称”作为实体的识别标准。

下面结合图2对步骤S103进行详细地描述。

如图2所示,首先处理作为第一数据源的excel文档中的完整实体。具体而言,针对每个完整实体,首先从上述excel文档中提取该完整实体的信息,将其中的实体数据按“实体英文名称”+“实体中文名称”聚合得到该完整实体的信息;在判定excel文档中的所有完整实体还未处理完毕的情况下,针对还未处理的完整实体,对该完整实体的实体名称进行规范化处理,例如去除实体名称中的空格和换行符;再对该完整实体相应的属性的属性名称、属性数据类型等进行规范化处理,例如去除其中的空格和换行符等,然后按照上文中的属性定义基于上述excel文档整理得到一个规范化的属性;按照上文中的实体定义,将该完整实体及其属性信息整理成相应的实体属性信息,即实体及其属性集,该实体属性信息可以由一个json串来表示。重复上述步骤,直到处理完所有的完整实体(即具有不同的实体名称的任何一个完整实体都被处理),由此得到包含所有完整实体的实体集。

在处理完所有完整实体之后,接着处理excel文档中的不完整实体。具体而言,针对每个不完整实体,首先从上述excel文档中提取该不完整实体,将其中的实体数据按“实体英文名称”+“实体中文名称”聚合得到该不完整实体的信息(未示出);在判定excel文档中的所有不完整实体还未处理完毕的情况下,针对还未处理的不完整实体,对该不完整实体的实体名称进行规范化处理,例如去除实体名称中的空格和换行符;在判定该不完整实体未被包含在所有完整实体的实体集的情况下(例如不完整实体的实体名称未被包含在完整实体的实体名称中),按照上文中的实体定义,将该不完整实体整理成相应的实体属性信息(此时实体定义中的属性列表的值为空值),该实体属性信息可以由一个json串来表示,然后将该不完整实体的实体属性信息加入到所有完整实体的实体集中并丢弃处理完的该不完整实体(其中,在判定该不完整实体被包含在所有完整实体的实体集的情况下,丢弃该不完整实体)。重复上述步骤,直到处理完所有的不完整实体(即具有不同的实体名称的任何一个不完整实体都被处理),由此得到包含所有不完整实体的实体集。

由所有完整实体的实体集和所有不完整实体的实体集生成的逻辑模型的实体集可以json存储文件导出。

在步骤S104中,确定用于定义源实体和目标实体之间的关系的关系模式,所述关系模式至少包括源实体的实体名称和目标实体的实体名称。本文中关系模式也可以被称为关系定义,其用于限定实体对之间的关系的关系成员,例如可以表示源实体与目标实体之间的相互关联。源实体的实体名称和目标实体的实体名称可以包括相应的实体英文名称和实体中文名称中的至少一个。在一个实施例中,关系模式还包括源实体与目标实体之间的关系的关系方向、关系类型、多重性和角色。例如,可以json格式确定关系模式,如下:

{

'source':[源实体英文名称,源实体中文名称],

'target':[目标实体英文名称,目标实体中文名称],

'relation type':关系类型,

'direction':关系方向,

'multiplicity':多重性,

'role':角色

}

在步骤S105中,接收包括源实体和目标实体之间的关系的关系相关信息的第二数据源,所述第二数据源包括多对源实体和目标实体,对于每对源实体和目标实体,基于该源实体的实体名称和该目标实体的实体名称判断该源实体和该目标实体是否存在于所述逻辑模型的实体集中,仅当判断结果为肯定时,基于所述第二数据源和所述逻辑模型的实体集按照所述关系模式生成该对源实体和目标实体的实体关系信息,从而得到所述第二数据源包括的全部关系的实体关系信息集合,以生成包括所述实体关系信息集合的所述逻辑模型的关系集。这里,第二数据源可以被广义地理解为囊括各种可能形式的数据源,包括结构化、半结构化和非结构化形式的数据源,例如关系型数据库、数仓、非关系型数据库、文档库、各类报表、XML文件、HTML文件等。优选地,本发明的第二数据源包括XML文件形式的数据源。本发明的第一数据源和第二数据源可以包括基于电网下各业务系统的数据以及智能电网上采集到的时序数据,主要包括公司营销数据、量化采集数据、运检数据及一些图形化的图像网页数据,可以针对这些结构化、半结构化和非结构化的三种不同形式的数据进行处理、知识抽取和融合规范。

在一个实施例中,步骤S105可以包括:对所述第二数据源进行解析以获得表示该源实体和该目标实体之间的关系的第一标签,所述第一标签至少指示该源实体的实体类型和该目标实体的实体类型;仅当所述第一标签指示该源实体的实体类型和该目标实体的实体类型为类时,基于该源实体的实体名称和该目标实体的实体名称以及所述逻辑模型的实体集按照所述关系模式对该源实体和该目标实体进行信息补全;从所述第二数据源获取第二标签,基于所述第二标签对该源实体和该目标实体之间的关系的关系类型进行细化;基于所述第一标签、补全的信息和被细化的关系类型按照所述关系模式生成该对源实体和目标实体的实体关系信息。

下面结合图3对步骤S105进行详细地描述。

如图3所示,首先读取作为第二数据源的XML文件,将其解析成XML树结构;过滤出该XML树结构中所有的UML:Association、UML:Generalization、UML:Dependency的关系标签,以进行进一步的验证和抽取;然后找到上述关系标签的下级标签UML:ModelElement.taggedValue,该下级标签中包含多个用于存放关系信息的UML:TaggedValue标签(即第一标签);基于UML:TaggedValue标签提取实体的实体类型,即当该UML:TaggedValue标签指示的源实体的实体类型(ea_sourceType)和目标实体的实体类型(ea_targetType)都为类(class)时,提取该源实体与目标实体之间的关系,否则丢弃该条关系;接下来,针对未被丢弃的一条关系,提取出以下的标签(tag)数据:关系类型(relation_type)、关系方向(direction)、源实体英文名称(ea_sourceName)、目标实体英文名称(ea_targetName)、多重性(lb,rb)、角色(lt,rt);然后对该条关系的上述标签数据进行规范化处理,例如去掉实体英文名称中的空格和换行符、使多重性规范化(例如,lb指代一个源实体关联几个目标实体,rb指代一个目标实体关联几个源实体;多重性规范化例如包括将lb或rb为0,1的多重性格式统一规范为0..1,和/或将lb或rb为1..1的多重性格式统一规范为1,其中,0..1表示一个源实体可以关联零个或一个目标实体,0..*表示一个源实体可以关联零个或多个目标实体,1..1表示一个源实体可以关联一个目标实体);读取逻辑模型的实体集以检查该条关系的源实体和目标实体的英文名称是否存在逻辑模型的实体集中,如果存在,则在逻辑模型的实体集中找到对应的中文名称,以补全关系集信息,如果不存在,则将这条关系丢弃;对补全的该条关系的关系类型进一步细化,即从解析的XML文件中找到UML:Association.connection标签(即第二标签),读取UML:Association.connection标签下的聚合(aggregation)属性来进行关系类型的细化——例如,关系信息中的relation_type代表关系类型,但其中只包含关联(Association)、泛化(Generalization)、依赖(Dependency)、聚合(Aggregation)这几种,由于组合关系属于一种特殊的聚合关系,在XML中体现为UML:Association.connection标签下aggregation这个属性,如果aggregation这个属性值为composite,则表示这条关系是组合关系,关系方向(direction)则被表示为组合关系,如果aggregation这个属性值为shared,则表示这条关系是聚合关系,关系方向(direction)则被表示为聚合关系——由此按照上述关系定义整理得到一条规范化的关系。重复上述步骤,直到处理完所有的关系,由此得到包含所有关系的逻辑模型的实体集。根据需要,逻辑模型的关系集可以各种合适的文件形式存储,例如json存储文件形式。在一个实施例中,逻辑模型的关系集的json存储文件形式如下:

尽管在上述实施例中,描述了基于逻辑模型的实体集、源实体及目标实体的英文名称对源实体及目标实体的中文名称进行信息补全的实施例,但是本发明并不限于所示出的实施例。根据需要,也可以基于逻辑模型的实体集、源实体及目标实体的英文名称对源实体及目标实体的其他信息进行信息补全,或基于逻辑模型的实体集、源实体及目标实体的中文名称对源实体及目标实体的英文名称进行信息补全,或者取决于不同的关系模式的定义可能不需要信息补全。

在步骤S106中,基于所述逻辑模型的实体集和所述逻辑模型的关系集,建立包括实体、属性和关系的逻辑模型。

在一个实施例中,本发明的方法还包括:基于逻辑模型的实体集计算该逻辑模型中的实体对之间的相似度,对相似度超过预定阈值的实体对进行去重复处理以生成冗余度较低的逻辑模型的实体集。这样的逻辑模型的实体集可以与相应的物理模型进行匹配以实现模型的一致性检测,从而提高现有模型(例如,国家电网公司企业公共数据模型SG-CIM4.0)静态语义的合理性和完备性并有效地减少冗余,最终将难以观察的非空间知识数据转化为空间图谱,便于相关领域人员的认知和理解,为跨域实体的关联贯通提供了有效的解决方案。同时,可以使得知识图谱技术描述实体、属性与关系的这种强大的语义处理能力得到很好的体现。

作为本发明第二方面,提供一种用于建立用于电网知识图谱的逻辑模型的系统。图4示意性示出根据本发明一个实施例的用于建立用于电网知识图谱的逻辑模型的系统200。系统200可以包括实体集生成单元201、关系集生成单元202和处理单元203。实体集生成单元201与关系集生成单元202通信地耦合,处理单元203与实体集生成单元201和关系集生成单元202通信地耦合。

实体集生成单元201可以被配置为:

确定用于定义实体及其属性的实体模式,所述实体模式至少包括实体的实体名称和属性;

接收包括实体相关信息和属性相关信息的第一数据源,将所述第一数据源中的多个实体按以下基准判定为完整实体或不完整实体:对于所述多个实体中的每个实体,当所述第一数据源中不存在相应的属性相关信息时将该实体判定为完整实体,否则将该实体判定为不完整实体;以及

对于每个完整实体和每个不完整实体,基于所述第一数据源按照所述实体模式生成相应的实体属性信息,从而得到所述第一数据源包括的全部实体的实体属性信息集合,以生成包括所述实体属性信息集合的所述逻辑模型的实体集。

具体而言,实体集生成单元201可以被配置为:对于每个完整实体,基于所述第一数据源中的实体相关信息和属性相关信息,对该完整实体的实体名称以及相应的属性的属性名称和属性数据类型进行规范化处理,并至少基于规范化处理的实体名称以及相应的属性名称和属性数据类型按照所述实体模式和所述属性模式生成相应的实体属性信息;以及,对于每个不完整实体,基于所述第一数据源中的实体相关信息,对该不完整实体的实体名称进行规范化处理,并至少基于规范化处理的实体名称按照所述实体模式生成相应的实体属性信息。

关系集生成单元202可以被配置为:

确定用于定义源实体和目标实体之间的关系的关系模式,所述关系模式至少包括源实体的实体名称和目标实体的实体名称;

接收包括源实体和目标实体之间的关系的关系相关信息的第二数据源,所述第二数据源包括多对源实体和目标实体,对于每对源实体和目标实体,基于该源实体的实体名称和该目标实体的实体名称判断该源实体和该目标实体是否存在于所述逻辑模型的实体集中,仅当判断结果为肯定时,基于所述第二数据源和所述逻辑模型的实体集按照所述关系模式生成该对源实体和目标实体的实体关系信息,从而得到所述第二数据源包括的全部关系的实体关系信息集合,以生成包括所述实体关系信息集合的所述逻辑模型的关系集。

具体而言,关系集生成单元202可以被配置为:对所述第二数据源进行解析以获得表示该源实体和该目标实体之间的关系的第一标签,所述第一标签至少指示该源实体的实体类型和该目标实体的实体类型;

仅当所述第一标签指示该源实体的实体类型和该目标实体的实体类型为类时,基于该源实体的实体名称和该目标实体的实体名称以及所述逻辑模型的实体集按照所述关系模式对该源实体和该目标实体进行信息补全;

从所述第二数据源获取第二标签,基于所述第二标签对该源实体和该目标实体之间的关系的关系类型进行细化;以及

基于所述第一标签、补全的信息和被细化的关系类型按照所述关系模式生成该对源实体和目标实体的实体关系信息。

处理单元203可以被配置为:基于所述逻辑模型的实体集和所述逻辑模型的关系集,建立包括实体、属性和关系的逻辑模型。

在一个实施例中,实体模式所包括的属性基于所述第一数据源中的属性相关信息按照预定义的属性模式确定,所述属性模式至少包括属性的属性名称和属性数据类型。

应理解,本文中前述第一方面的关于用于建立用于电网知识图谱的逻辑模型的方法所描述的具体特征也可类似地应用于第二方面的用于建立用于电网知识图谱的逻辑模型的系统以进行类似扩展。为简化起见,未对其进行详细描述。

应理解,本发明的用于建立用于电网知识图谱的逻辑模型的系统200的各个单元可全部或部分地通过软件、硬件、固件或其组合来实现。所述各单元各自可以硬件或固件形式内嵌于计算机设备的处理器中或独立于所述处理器,也可以软件形式存储于计算机设备的存储器中以供处理器调用来执行所述各单元的操作。所述各单元各自可以实现为独立的部件或模块,或者两个或更多个单元可实现为单个部件或模块。

本领域普通技术人员应理解,图4中示出的系统200的示意图仅仅是与本发明的方案相关的部分结构的示例性说明框图,并不构成对体现本发明的方案的计算机设备、处理器或计算机程序的限定。具体的计算机设备、处理器或计算机程序可以包括比图中所示更多或更少的部件或模块,或者组合或拆分某些部件或模块,或者可具有不同的部件或模块布置。

在本发明中,设有实体及其属性的实体模式的库,从所述实体模式的库确定用于定义实体及其属性的实体模式。

在本发明中,设有表示实体之间的关系的关系模式的库,从所述关系模式的库确定用于定义源实体和目标实体之间的关系的关系模式。

在本发明中,设有实体、其属性、实体之间的关系的别名集库,所述别名集库包括既往记录的别名及其出现频次,将所述第一数据源和所述第二数据源中出现的实体、其属性、实体之间的关系记录到所述别名库中,并将出现的频次累加;显示的实体、其属性、实体之间的关系为出现频次最大的实体、其属性、实体之间的关系。

在一个优选的方案中,对于所述实体别名集库、其属性的别名集库和实体之间的关系的别名集库,对于每次记录设有标签,用于区分不同次采集。这样的话,可以对不同来源,例如不同部门的别名库进行合并,如果两个记录具有相同的标签,则认为它们来自同一次采集,不累计计算。所述标签例如包括日期、时间、随机序列。日期采用8位数模式例如20201030,时间精确到分或秒,例如1830或183025,随机序列例如是6-10位的随机数字,用于校验。通过记录采集日期可以跟踪实体、其属性和实体之间的关系的名称变迁,一般显示的是最流行、最大规模使用的名称,对统一名称有规范作用。作为本发明第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现本发明第一方面的方法的步骤。在一个实施例中,所述计算机程序被分布在网络耦合的多个计算机设备或处理器上,以使得所述计算机程序由一个或多个计算机设备或处理器以分布式方式存储、访问和执行。单个方法步骤/操作,或者两个或更多个方法步骤/操作,可以由单个计算机设备或处理器或由两个或更多个计算机设备或处理器执行。一个或多个方法步骤/操作可以由一个或多个计算机设备或处理器执行,并且一个或多个其他方法步骤/操作可以由一个或多个其他计算机设备或处理器执行。一个或多个计算机设备或处理器可以执行单个方法步骤/操作,或执行两个或更多个方法步骤/操作。

本领域普通技术人员可以理解,本发明的用于建立用于电网知识图谱的逻辑模型的方法的全部或部分步骤可以通过计算机程序来指示相关的硬件如计算机设备或处理器完成,所述的计算机程序可存储于非暂时性计算机可读存储介质中,该计算机程序被执行时实现本发明的辅助方法的步骤。根据情况,本文中对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器的示例包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘等。易失性存储器的示例包括随机存取存储器(RAM)、外部高速缓冲存储器等。

以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述,但这些技术特征的任何组合都应当被认为由本说明书涵盖,只要这样的组合不存在矛盾。

尽管结合实施例对本发明进行了描述,但本领域技术人员应理解,上文的描述和附图仅是示例性而非限制性的,本发明不限于所公开的实施例。在不偏离本发明的精神的情况下,各种改型和变体是可能的。

相关技术
  • 用于建立电网知识图谱的逻辑模型的方法及系统和介质
  • 用于建立电网知识图谱的物理模型的方法及系统和介质
技术分类

06120112337862