掌桥专利:专业的专利平台
掌桥专利
首页

一种基于知识图谱的电力文本实体语义理解方法

文献发布时间:2023-06-19 12:24:27


一种基于知识图谱的电力文本实体语义理解方法

技术领域

本申请涉及电力文本技术领域,尤其涉及一种基于知识图谱的电力文本 实体语义理解方法。

背景技术

随着电力技术与信息技术的快速发展,人们对知识的获取和理解也从纸 质化书籍转向信息化电子化书本,但是面对海量的数字信息,人类也无法快 速理解大量的文本,并从中获取有用信息,因此,使用计算机帮助人们进行 文本的翻译和语言理解是一种可以快速从大量文本中获取有用信息的方法。

作为一种信息处理任务,理解人类的自然语言是机器拥有高级智能的标 志。机器的语言理解,其输入是自然语言,输出则是语言认知的各种结果, 包括实体,概念,关系,场景,主题以及内涵等等,涵盖从浅层次到深层次 等各种形式的理解任务。

目前在电力领域,针对电力文本,仍然是采用人工的方式对文本进行处 理,并未采用计算机辅助人们进行实体语义理解,人工进行信息处理耗费了 大量的时间和精力,并且,采用传统机器语言理解方法对电力文本进行处理 的准确率不高。

发明内容

本申请提供了一种基于知识图谱的电力文本实体语义理解方法,以解决 现有技术中存在的采用人工方式对电力文本进行实体语义理解需要耗费大量 的时间和精力,且准确率不高的问题。

本申请提供一种基于知识图谱的电力文本实体语义理解方法,具体步骤 包括:

根据自举法构建电力实体同义词林;

通过众包平台构建电力领域知识图谱;

根据所述电力实体同义词林,进行电力文本的实体指代理解;

将所述电力文本的实体指代理解链接到所述电力领域知识图谱中的特定 实体;

在所述电力领域知识图谱中对所述特定实体进行匹配查询,获取所述特 定实体的语义信息。

上述技术方案中,众包平台能够使用适当的人力介入知识图谱的构建, 从而有效缓解由于仅仅依靠数据驱动的方法难以使知识图谱达到高准确率和 高覆盖度的问题,众包平台是将一群松散的任务发包方和任务完成者联系起 来,实现任务发包匹配等一系列操作。

在本申请的较佳实施例中,根据自举法构建电力实体同义词林,具体步 骤如下:

获取语料并定义初始模式;

采用所述初始模式对语料进行模式匹配,得到同义词对;

在所述语料中对新同义词进行搜索,寻找新模式;

将所述新模式添加进现有模式库中并重新进行模式匹配,得到新同义词 对;

根据所述同义词对和所述新同义词对,构建电力实体同义词林。

在本申请的较佳实施例中,将所述电力文本的实体指代理解链接到所述 电力领域知识图谱中的特定实体,具体包括:

通过深度学习的方法从实体相关的语料中训练实体向量,并生成词的分 布式向量表示;

通过两类信息求解全局最优的映射方案,其中,两类信息是指代上下文 与候选实体的匹配程度和候选实体的匹配程度和候选实体之间的相容程度;

根据所述两类信息,分别计算局部实体链接分数和全局实体链接分数。

在本申请的较佳实施例中,所述局部实体链接分数和所述全局实体链接 分数均采用近似模型图算法进行计算。

采用上述技术方案,可以降低求解的复杂程度,基于图模型的实体链接 计算能够充分利用指代与候选实体以及候选实体之间的复杂关联信息。

在本申请的较佳实施例中,所述候选实体通过图剪枝算法进行排除,且 排除的是不相关的候选实体。

本申请的一种基于知识图谱的电力文本实体语义理解方法,相较于现有 技术而言,具有以下有益效果:

本申请通过将电力文本、知识图谱与计算机结合起来,减少了人工处理 电力文本所耗费的时间和精力,提高了机器进行文本提取实体语义信息的准 确率,可以有效帮助人们对电力文本信息进行批量处理,节省了电力文本信 息处理的经济成本,同时使得电力技术更加信息化、智能化。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的 附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出 创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一种基于知识图谱的电力文本实体语义理解方法的流程图;

图2为本实施例中构建电力实体同义词林的原理图;

图3为本实施例中欧氏距离原理图;

图4为本实施例中指涉图示意图;

图5为本实施例中的问题定义示意图;

图6为本实施例中的图剪枝算法原理图;

图7为本实施例中的图剪枝算法的运行示例图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申 请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常 在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布 置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制 要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请 中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所 有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦 某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义 和解释。

此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排 他的包含。

基于知识图谱的实体语义理解的主要任务是消除实体的别名和将文本中 所提及的实体链接到知识图谱中的相应实体,即指代理解和实体链接。

其中,指代理解指的是一个实体可能有多种表达方式。指代理解任务是 让机器理解一个实体的多种别名(又叫实体同义词)。

实体链接是让机器理解自然语言的第一步,也是至关重要的一步。实体 链接的输入通常包括实体的指代和上下文,以及链接的知识图谱。实体链接 的输出是指代所对应的知识图谱中的实体。例如,在文本中出现“DTU电力 终端设备的生产厂家是国电南瑞...”这句话时,第一步是识别出DTU这一实 体的指代,利用上下文“电力终端设备”,将“DTU”这个名称链接到知识图谱 中的电力终端设备DTU这一实体上,进而才能继续从知识图谱中找到与实 体相关的信息并作出回答和判断。如果识别出错,将“DTU”链接到“丹麦技术 大学DTU”或者是“数据传输单元DTU”,那么后续对信息的处理判断自然都 是错误的。

下面结合本申请的技术方案进行进一步地详细说明。

实施例

参见图1,为一种基于知识图谱的电力文本实体语义理解方法的流程图。

本申请提供的一种基于知识图谱的电力文本实体语义理解方法,具体步 骤包括:

S100,根据自举法构建电力实体同义词林;

S200,通过众包平台构建电力领域知识图谱;

S300,根据所述电力实体同义词林,进行电力文本的实体指代理解;

S400,将所述电力文本的实体指代理解链接到所述电力领域知识图谱中 的特定实体;

S500,在所述电力领域知识图谱中对所述特定实体进行匹配查询,获取 所述特定实体的语义信息,其中,特定实体为进行实体链接后的实体。

在本实施例中,如图2所示,步骤S100中,根据自举法构建电力实体 同义词林,具体步骤如下:

首先,获取语料并定义初始模式,其中,初始模式被标记为“新模式”(图 2中未示出);

其次,定义同义词抽取的模式,常用的中文同义词模式如下表1,将表1 中的每个模式都标记为“新模式”(图2中未示出),使用表1中的每个“新模 式”(图2中未示出),即初始模式对语料进行模式匹配,得到同义词对;

表1 常见的中文同义词模式

再次,进行模式发现,即在所述语料中对每一个新同义词进行搜索,寻 找新模式,例如,给定同义词对(配电柜,配电箱),在语料中搜索出现同义 词的句子,不难匹配如下几种模式:

(1)“配电柜(配电箱)”,

(2)“配电柜,别名配电箱”,

(3)“配电柜,又称配电箱”等等;

将上述几种模式中的同义词用M和N进行替换,分别可以得到:

(1)“M(N)”,

(2)“M,别名N”,

(3)“M,又称N”等模式,

然后将寻找到的新模式加入到现有的模式库(图2中未示出)中,并标 记为“新模式”(图2中未示出),当所有新模式均已添加到模式库中时,形成 如图2所示的所有模式;

将所述新模式添加进现有模式库中并重新进行模式匹配,得到新同义词 对,其中,新模式指的是所有新模式,重复上述匹配步骤,直至达到终止条 件,即准确率达到一定水平,或无法在发现更多的同义词对;

对图2中的所有模式重复上述步骤完成匹配后,得到如图2所示的所有 同义词对,根据所有同义词对,构建电力实体同义词林(图2中未示出),其 中,所有同义词对包括图2中的新同义词对和首次进行模式匹配得到的同义 词对。

需要特别说明的是,在本实施例中,上表1对同义词模式的相关举例均 是为了说明同义词模式的各种类型,其对本申请的技术方案没有任何实质性 影响。

进一步地,在本实施例中,步骤S200中的众包平台能够使用适当的人 力介入知识图谱的构建,从而有效缓解由于仅仅依靠数据驱动的方法难以使 知识图谱达到高准确率和高覆盖度的问题,众包平台是将一群松散的任务发 包方和任务完成者联系起来,实现任务发包匹配等一系列操作。

进一步地,在本实施例中,步骤S300中的实体指代理解是指将一个实 体的多种同义名称表示都转换为统一的官方名称表示。

在本实施例中,进一步地,步骤S400中将所述电力文本的实体指代理 解链接到所述电力领域知识图谱中的特定实体,具体包括:

S401,通过深度学习的方法从实体相关的语料中训练实体向量,并生成 词的分布式向量表示;

S402,通过两类信息求解全局最优的映射方案,即从指代集映射到实体 集,其中,两类信息分别是指代上下文与候选实体的匹配程度和候选实体的 匹配程度和候选实体之间的相容程度;

S403,根据所述两类信息,分别计算局部实体链接分数和全局实体链接 分数。

实体链接,又称为实体消歧,是实体理解的关键,是一个将文本中的实 体指代连接到知识图谱特定实体的过程。即给定一个实体指代m和其出现的 上下文,以及一个知识图谱K,实体链接的目标就是将指代m链接到知识图 谱中正确的实体t(t∈K)。例如,以句子“电力终端设备DTU的生产厂家是 国电南瑞...”为例,以步骤S200中构建的电力领域知识图谱为目标知识图谱, “DTU”在其中对应为“DTU(电力终端设备)”的实体。

其中,全局实体链接的目标为,对于上下文中的指代集M=(m

其中,Γ表示实体链接方案,包括上下文中所有指代以及他们相对应的 实体所组成的“指代-实体”对映射(m

另外,在本实施例中,步骤S403中,局部实体链接分数通常考虑的是 候选实体与上下文词语的关联程度,例如,句子“电力终端设备DTU的生产 厂家是国电南瑞...”中,词语“DTU”的上下文提到了“电力”,而全局实体链接 分数主要考虑的是候选实体与上下文实体的关联程度,例如句子“电力终端设 备DTU的生产厂家是国电南瑞...TCU充电桩...”中,“DTU”的上下文还出现 了“TCU充电桩”,那么DTU配电终端的全局实体链接分数则比DTU数据传 输单元等其他实体要高。

进一步地,在本实施例中,步骤S403中,计算局部实体链接分数

首先,采用深度学习模型将指代实体生产词的分布式向量表示;

其次,使用欧式距离方法计算该词向量与步骤S401中生成的词的分布 式向量的匹配程度,欧氏距离原理图如图3所示。图3表示欧氏距离的基本 原理思想,图3中的dist(A,B)表示三维空间中A,B两点之间的距离,cosθ表 示A,B向量间的余弦,其拓展到n维空间的一般性计算公式为:

其中,d表示向量间的距离,i表示维数,x与y分别表示需要进行计算 的向量。例如,计算x向量为(1,1,3,1),y向量为(1,2,3,2),则x 与y的相似度ω为:

进一步地,在本实施例中,步骤S403中,计算全局实体链接分数

首先,实体之间的相关程度Ψ(t

其中,W表示步骤S200中构建的电力领域知识图谱中的实体全集;U

上述技术方案中,标准化Google距离,英文缩写为NGD(Normalized GoogleDistance,NGD),标准化Google距离是一种语义相似性度量方法, 由给定一组关键词集合的Google搜索引擎所返回的命中数量得出。在自然语 言意义上有相同或类似含义的关键词往往在Google距离单元倾向于“紧密”, 而有不同含义的词汇则往往距离较远。

在本实施例中,由于每个指代可能对应很多候选实体,指数级搜索代价 难以承受,因此所述局部实体链接分数

采用上述技术方案,可以降低求解的复杂程度,基于图模型的实体链接 计算能够充分利用指代与候选实体以及候选实体之间的复杂关联信息。

在基于图模型的建模中,将指代与实体作为点,局部实体链接分数

通过构建图4中的指涉图,将优化公式,即计算Γ

上述过程转化成具体的问题定义如图5所示,即存在一个指涉图G,指 涉图G包含实体指代点集M=(m

图剪枝算法原理如图6所示,即对于每个实体t计算所有指代节点的最 短路径长度的平方和:

其中,D

本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实 施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。 对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案 所扩展出的任何其他实施方式都属于本申请的保护范围。

相关技术
  • 一种基于知识图谱的电力文本实体语义理解方法
  • 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
技术分类

06120113283693