掌桥专利:专业的专利平台
掌桥专利
首页

化工知识图谱的构建方法及装置以及智能问答方法及装置

文献发布时间:2023-06-19 11:22:42


化工知识图谱的构建方法及装置以及智能问答方法及装置

技术领域

本发明涉及知识图谱及自然语言处理等技术领域,尤其涉及一种化工知识图谱的构建方法、一种化工知识图谱的构建装置、一种化工知识的智能问答方法、一种化工知识的智能问答装置,以及两种计算机可读存储介质。

背景技术

化工行业作为当前我国重点发展的新兴产业之一。随着我国经济发展水平的提高,化工行业的技术装备水平也在提高。这为企业降低能耗、减少污染、提高效率创造了条件,通过资源、能源的综合利用,获得了好的经济效益和社会效益。与此同时,化工产业也是我国当前较为危险的行业之一,化工事故的结果直接关乎到人民的人身安全和国家的经济财产安全。

由于化工领域的知识来源广泛、种类繁多、数量较大等特点,本领域的技术人员很难全面地掌握所有分支的相关知识。一旦遇到紧急事件时,技术人员往往不知道该如何去处理。针对这一问题,现有技术提供了一些基于检索技术或者深度学习匹配技术来实现智能问答的方案。然而,这些现有技术一来不涉及化工领域的知识,因此较难直接应用到化工领域;二来无法高效地应对化工领域的知识来源广泛、种类繁多、数量较大等特点,时常不能理解用户的真实需求,不能真正地解决用户化工领域的问题。

因此,本领域亟需一种完整、准确、高效的化工知识管理技术,用于实时地针对化工领域的技术人员面临的问题提供相关的讲解说明及解决办法,以更好地辅助化工领域的技术人员进行决策,并快速地解决一些复杂的化工问题,从而降低安全事故的发生率,并更好地保障人民的人身安全和企业及国家的经济财产安全。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之前序。

为了更好地保障人民的人身安全和国家的经济财产安全,本发明提供了一种化工知识图谱的构建方法、一种化工知识图谱的构建装置、一种化工知识的智能问答方法、一种化工知识的智能问答装置,以及两种计算机可读存储介质。

根据本发明的第一方面提供的上述化工知识图谱的构建方法包括以下步骤:获取化工领域的知识数据;对所述知识数据进行预处理,以获取其中相关于化工知识的实体数据及属性数据;根据所述实体数据及所述属性数据确定初步知识表示;对所述初步知识表示进行实体对齐以获取标准知识表示;以及根据所述标准知识表示构建所述化工知识图谱。该化工知识图谱的构建方法能够基于自然语言处理、大数据及人工智能技术,自动收集化工领域的相关知识来构建化工知识图谱,从而大幅度地提升化工领域知识图谱的构建速度,并降低化工知识图谱的人工构建成本。

优选地,在本发明的一些实施例中,所述知识数据可以包括结构化数据、半结构化数据和/或非结构化数据。所述对所述知识数据进行预处理的步骤可以包括:对所述结构化数据进行数据集成,以获取其中相关于化工知识的实体数据及属性数据;和/或对所述半结构化数据和/或所述非结构化数据进行知识抽取,以获取其中相关于化工知识的实体数据及属性数据。

优选地,在本发明的一些实施例中,所述属性数据可以包括数据属性数据及关系属性数据。所述数据属性数据用于描述同一初步知识表示中的一个所述实体数据的属性值。所述关系属性数据用于描述同一初步知识表示中的两个所述实体数据之间的关系。

优选地,在本发明的一些实施例中,所述根据所述实体数据及所述属性数据确定初步知识表示的步骤包括:以实体-数据属性-属性值或第一实体-关系属性-第二实体的形式,根据获取的所述实体数据及所述属性数据构建三元组形式的初步知识表示。

可选地,在本发明的一些实施例中,所述对所述初步知识表示进行实体对齐以获取标准知识表示的步骤可以包括:分析多条所述初步知识表示,以确定其中指示同一化工实体的多条不同的实体数据;以及将所述指示同一化工实体的多条不同的实体数据消解为同一实体数据,以获取利用同一实体数据指示同一化工实体的标准知识表示。

可选地,在本发明的一些实施例中,所述根据所述标准知识表示构建所述化工知识图谱的步骤包括:根据多条所述标准知识表示中的所述实体数据及所述属性数据进行知识发现,以获取至少一条高可信度的标准知识表示;根据多条所述标准知识表示中的所述实体数据及所述属性数据进行知识推理,以获取多条未知可信度的标准知识表示;对所述多条未知可信度的标准知识表示进行质量评估,以确定其中高可信度的标准知识表示;以及根据各所述高可信度的标准知识表示构建所述化工知识图谱。

优选地,在本发明的一些实施例中,所述对所述多条未知可信度的标准知识表示进行质量评估的步骤可以包括:将所述多条未知可信度的标准知识表示分别与所述化工领域的知识数据进行文本匹配,以分别获取各所述标准知识表示的文本匹配度;以及将其中文本匹配度高于预设的匹配度阈值的标准知识表示确定为所述高可信度的标准知识表示。

根据本发明的第二方面提供的上述化工知识图谱的构建装置包括存储器及处理器。所述处理器连接所述存储器,并被配置用于实施本发明的第一方面所提供的化工知识图谱的构建方法。通过实施该构建方法,该构建装置能够基于自然语言处理、大数据及人工智能技术,自动收集化工领域的相关知识来构建化工知识图谱,从而大幅度地提升化工领域知识图谱的构建速度,并降低化工知识图谱的人工构建成本。

根据本发明的第三方面提供的上述计算机可读存储介质,其上存储有计算机指令。所述计算机指令被处理器执行时,实施本发明的第一方面所提供的化工知识图谱的构建方法。通过实施该构建方法,该计算机可读存储介质能够基于自然语言处理、大数据及人工智能技术,自动收集化工领域的相关知识来构建化工知识图谱,从而大幅度地提升化工领域知识图谱的构建速度,并降低化工知识图谱的人工构建成本。

根据本发明的第四方面提供的上述化工知识的智能问答方法包括以下步骤:获取用户提出的问题;对所述问题进行预处理,识别其中相关于化工知识的问题实体数据及问题属性数据,并识别所述问题的意图;从化工知识图谱的各图谱实体数据中确定关联于所述问题实体数据的第一图谱实体数据,其中,所述化工知识图谱是由本发明的第一方面提供的上述化工知识图谱的构建方法所构建;根据所述第一图谱实体数据、所述问题的意图及所述化工知识图谱中的标准知识表示进行知识推理,以获取多条候选路径;分别计算所述多条候选路径与所述问题的文本匹配度,并选取文本匹配度最大的候选路径为最佳搜索路径;以及根据所述最佳搜索路径搜索所述化工知识图谱,以获得对应于所述问题的答案。相比于基于检索技术或者深度学习匹配技术进行智能问答的现有技术,该智能问答方法通过化工知识图谱与自然语言处理技术相结合来提供化工领域的智能问答功能,能够更准确地理解用户的真实需求,从而提供更准确、更有效的解决方案。

优选地,在本发明的一些实施例中,所述识别其中相关于化工知识的问题实体数据及问题属性数据的步骤可以包括:将所述问题输入预先训练的问句解析模块,以获取其中相关于化工知识的问题实体数据及问题属性数据,其中,所述问句解析模块是基于化工知识的问题样本所训练的深度学习模型。

优选地,在本发明的一些实施例中,所述问句解析模块中可以包括实体链接词典及属性词典。所述识别其中相关于化工知识的问题实体数据及问题属性数据的步骤还可以包括:将获取的所述问题实体数据输入所述实体链接词典,基于同义词和/或机器学习的模糊匹配将所述问题实体数据映射为与所述化工知识图谱描述一致的数据;以及将获取的所述问题属性数据输入所述属性词典,基于同义词和/或机器学习的模糊匹配将所述问题属性数据映射为与所述化工知识图谱描述一致的数据。

可选地,在本发明的一些实施例中,所述识别所述问题的意图的步骤可以包括:响应于从所述问题中识别到一个所述相关于化工知识的问题实体数据及一个对应的问题属性数据,判定所述问题的意图为根据第一实体及属性检索对应的第二实体;以及响应于从所述问题中识别到两个所述相关于化工知识的问题实体数据,判定所述问题的意图为根据第一实体及第二实体检索对应的属性。

可选地,在本发明的一些实施例中,所述根据所述第一图谱实体数据、所述问题的意图及所述化工知识图谱中的标准知识表示进行知识推理,以获取多条候选路径的步骤可以包括:根据所述问题的意图及所述化工知识图谱中的标准知识表示,选择所有与所述第一图谱实体数据相关的第二图谱属性数据或第二图谱实体数据;以及分别将所述第一图谱实体数据与各所述第二图谱属性数据或各所述第二图谱实体数据进行组合,以获取多条候选路径。

优选地,在本发明的一些实施例中,所述根据所述问题的意图及所述化工知识图谱中的标准知识表示,选择所有与所述第一图谱实体数据相关的第二图谱属性数据或第二图谱实体数据的步骤可以包括:响应于所述问题的意图为根据第一实体及属性检索对应的第二实体,根据所述化工知识图谱中的标准知识表示选择所有与所述第一图谱实体数据相关的第二图谱属性数据;以及响应于所述问题的意图为根据第一实体及第二实体检索对应的属性,根据所述化工知识图谱中的标准知识表示选择所有与所述第一图谱实体数据相关的第二图谱实体数据。

优选地,在本发明的一些实施例中,所述与所述第一图谱实体数据相关的第二图谱属性数据可以包括与所述第一图谱实体数据一度相关或二度相关的第二图谱属性数据,其中,所述一度相关是指所述第一图谱实体数据能通过一条所述标准知识表示关联到所述第二图谱属性数据,所述二度相关是指所述第一图谱实体数据能通过两条所述标准知识表示关联到所述第二图谱属性数据。所述与所述第一图谱实体数据相关的第二图谱实体数据可以包括与所述第一图谱实体数据一度相关或二度相关的第二图谱实体数据,其中,所述一度相关是指所述第一图谱实体数据能通过一条所述标准知识表示关联到所述第二图谱实体数据,所述二度相关是指所述第一图谱实体数据能通过两条所述标准知识表示关联到所述第二图谱实体数据。

可选地,在本发明的一些实施例中,所述分别将所述第一图谱实体数据与各所述第二图谱属性数据或各所述第二图谱实体数据进行组合,以获取多条候选路径的步骤可以包括:响应于所述问题的意图为根据第一实体及属性检索对应的第二实体,分别将所述第一图谱实体数据与选择的各所述第二图谱属性数据进行组合,以获取多条候选路径;以及响应于所述问题的意图为根据第一实体及第二实体检索对应的属性,分别将所述第一图谱实体数据与选择的各所述第二图谱实体数据进行组合,以获取多条候选路径。

可选地,在本发明的一些实施例中,所述分别计算所述多条候选路径与所述问题的文本匹配度的步骤可以包括:将所述问题输入基于化工知识样本预先训练的词向量模型,以获取所述问题的第一向量;将获取的所述多条候选路径分别输入所述词向量模型,以分别获取各所述候选路径的第二向量;以及分别计算各所述第二向量与所述第一向量的余弦值,以作为各所述候选路径与所述问题的文本匹配度。

可选地,在本发明的一些实施例中,所述根据所述最佳搜索路径搜索所述化工知识图谱,以获得对应于所述问题的答案的步骤可以包括:根据所述最佳搜索路径搜索所述化工知识图谱,以确定对应的标准知识表示;根据所述问题的意图确定所述答案在所述标准知识表示中的位置;以及结合所述问题对所述答案进行整理,以获得标准形式的答案。

优选地,在本发明的一些实施例中,所述智能问答方法还可以包括以下步骤:将所述标准形式的答案返回给所述用户。

根据本发明的第五方面提供的上述化工知识的智能问答装置包括存储器及处理器。所述处理器连接所述存储器,并被配置用于实施本发明的第二方面提供的上述化工知识的智能问答方法。通过实施该化工知识的智能问答方法,该智能问答装置能够通过化工知识图谱与自然语言处理技术相结合来提供化工领域的智能问答功能,能够更准确地理解用户的真实需求,从而提供更准确、更有效的解决方案。

根据本发明的第六方面提供的上述计算机可读存储介质,其上存储有计算机指令。所述计算机指令被处理器执行时,能够实施本发明的第二方面提供的上述化工知识的智能问答方法。通过实施该化工知识的智能问答方法,该计算机可读存储介质能够通过化工知识图谱与自然语言处理技术相结合来提供化工领域的智能问答功能,能够更准确地理解用户的真实需求,从而提供更准确、更有效的解决方案。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了根据本发明的一些实施例提供的基于化工知识图谱的智能问答装置的架构示意图。

图2示出了根据本发明的一些实施例提供的构建化工知识图谱的流程示意图。

图3示出了根据本发明的一些实施例提供的进行智能问答的流程示意图。

附图标记

10 智能问答装置;

11 化工知识图谱构建模块;

12 问题预处理模块;

13 问题分析推理模块;

14 问题后处理模块;

15 辅助词典;

S1~S14 步骤。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合优选实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解,以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外,为了避免混乱或模糊本发明的重点,有些具体细节将在描述中被省略。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

另外,在以下的说明中所使用的“上”、“下”、“左”、“右”、“顶”、“底”、“水平”、“垂直”应被理解为该段以及相关附图中所绘示的方位。此相对性的用语仅是为了方便说明之用,其并不代表其所叙述的装置需以特定方位来制造或运作,因此不应理解为对本发明的限制。

能理解的是,虽然在此可使用用语“第一”、“第二”、“第三”等来叙述各种组件、区域、层和/或部分,这些组件、区域、层和/或部分不应被这些用语限定,且这些用语仅是用来区别不同的组件、区域、层和/或部分。因此,以下讨论的第一组件、区域、层和/或部分可在不偏离本发明一些实施例的情况下被称为第二组件、区域、层和/或部分。

如上所述,化工产业是我国当前较为危险的行业之一,化工事故的结果直接关乎到人民的人身安全和国家的经济财产安全。由于化工领域的知识来源广泛、种类繁多、数量较大等特点,本领域的技术人员很难全面地掌握所有分支的相关知识。一旦遇到紧急事件时,技术人员往往不知道该如何去处理。针对这一问题,现有技术提供了一些基于检索技术或者深度学习匹配技术来实现智能问答的方案。然而,这些现有技术一来不涉及化工领域的知识,因此较难直接应用到化工领域;二来无法高效地应对化工领域的知识来源广泛、种类繁多、数量较大等特点,时常不能理解用户的真实需求,不能真正地解决用户化工领域的问题。

为了更好地保障人民的人身安全和国家的经济财产安全,本发明提供了一种将知识图谱和自然语言处理技术结合应用在化工领域的构思。相比于基于检索技术或者深度学习匹配技术的现有技术,本发明能够通过挖掘化工领域的数据来构建化工领域的知识图谱,并基于构建的化工知识图谱进行推理式的智能问答,因此能够更好地辅助化工生产行业人员进行决策,快速地解决一些复杂问题,从而降低安全事故的发生率并更好地保障企业和国家利益。

具体来说,本发明提供了一种化工知识图谱的构建方法、一种化工知识图谱的构建装置、一种化工知识的智能问答方法、一种化工知识的智能问答装置,以及两种计算机可读存储介质。

在一些非限制性的实施例中,本发明的第一方面所提供的化工知识图谱的构建方法,可以由本发明的第二方面所提供的化工知识图谱的构建装置来实施。该构建装置中可以配置有存储器及处理器。该存储器包括但不限于本发明的第三方面所提供的计算机可读存储介质,其上存储有计算机指令。该处理器连接该存储器,并被配置用于执行该存储器上存储的计算机指令,以实施本发明的第一方面所提供的化工知识图谱的构建方法。

相应地,本发明的第四方面所提供的化工知识的智能问答方法,可以由本发明的第五方面所提供的化工知识的智能问答装置来实施。该智能问答装置中也可以配置有存储器及处理器。该存储器包括但不限于本发明的第六方面所提供的计算机可读存储介质,其上存储有计算机指令。该处理器连接该存储器,并被配置用于执行该存储器上存储的计算机指令,以实施本发明的第四方面所提供的化工知识的智能问答方法。

请参考图1,图1示出了根据本发明的一些实施例提供的基于化工知识图谱的智能问答系统的架构示意图。

在图1所示的实施例中,本发明的第五发明提供的上述智能问答装置10 中可以配置有问题预处理模块12、问题分析模块13、问题后处理模块14、辅助词典15,以及本发明的第二方面提供的上述化工知识图谱的构建装置11。在一些实施例中,该构建装置11以模块的形式配置于智能问答装置10内部。在另一些实施例中,该构建装置11通过通信接口连接、数据线连接、无线网络连接等方式,从外部临时或长期地通信连接智能问答装置10。

请进一步参考图2,图2示出了根据本发明的一些实施例提供的构建化工知识图谱的流程示意图。

如图1及图2所示,在构建化工知识图谱的过程中,构建装置11可以首先通过人机交互接口、与外部存储介质的通信接口和/或网络接口,获取化工领域的原始知识数据。该原始知识数据既可以是满足“主-谓-宾”形式的三元组结构化数据,也可以是以其他结构记载的半结构化数据,或者以自然语言形式记载的非结构化数据。在一些实施例中,上述化工领域的原始知识数据包括但不限于化工过程的相关知识。

在获得化工领域的原始知识数据后,构建装置11可以先对这些原始知识数据进行预处理以构建初始数据集,再根据构建的初始数据集来确定初步的本体化知识表示。具体来说,对于满足“主-谓-宾”形式的三元组结构化数据,构建装置11可以对其进行数据集成,直接将其中相关于化工知识的实体数据及属性数据相互关联地添加到初始数据集中,以作为该结构化数据的初步知识表示。对于不满足“主-谓-宾”形式的半结构化数据及非结构化数据,构建装置11 需要先对其进行知识抽取,从中抽取相关于化工知识的实体数据及属性数据,再将抽取获得的实体数据及属性数据相互关联地添加到初始数据集中,以作为这些半结构化数据及非结构化数据的初步知识表示。

以自然语言形式记载的非结构化数据为例:

(1)焦化装置的产品主要有干气、液化气、汽油、柴油、蜡油和焦炭。焦化装置的产品均为半成品,需要下游装置进一步加工,对产品性质要求不高。

(2)原料缓冲罐液位偏高主要原因有:原料加入量过大、泵P-2101抽出量过小、原料带水或管线串汽、罐顶与C-2102连通线不通造成憋压、原料泵 P2101或仪表故障。

(3)分馏塔C-9102底循回流流量过少的原因为“分馏塔C-9102底循回流流量控制回路FIC9133故障,导致阀门FV9133关小。”其后果为“分馏塔 C-9102塔底结焦,引起加热炉进料流量波动,加热炉F-9101炉管烧穿”。安全措施为“加热炉F9101设有进料低流量联锁:进料流量低于27.5T/H时,熄该组的加热炉主火嘴。”

通过对上述(1)~(3)的原始知识数据进行知识抽取,可以获得“焦化装置,产品,干气”;“焦化装置,产品,液化气”;“焦化装置,产品,汽油”;“原料缓冲罐液位偏高,原因,原料加入量过大”;“原料缓冲罐液位偏高,原因,泵P-2101抽出量过小”等相关于化工知识的实体数据及属性数据,其中,“焦化装置,产品,干气”为一条初步知识表示,“焦化装置”及“干气”为该初步知识表示中的实体数据,而“产品”为关系属性(Relation Property)数据,用于描述“焦化装置”及“干气”这两个实体数据之间的关系属性。

本领域的技术人员可以理解,上述关系属性数据只是属性数据的一种非限制性的实施例,并不对本发明的保护范围构成限制。可选地,在另一些实施例中,上述属性数据还可以包括数据属性(Data Property)数据,用于描述对应的一个实体数据的属性值,例如“汽油,密度,0.7~0.78”。

如图1及图2所示,在完成原始知识数据的预处理,并获得各结构化数据、各半结构化数据及各非架构化数据的多条初步知识表示后,构建装置11可以对这些初步知识表示进行实体对齐,以获得多条统一形式的标准知识表示。在一些实施例中,化工知识的实体对齐主要包括共指消解的操作,用于解决多条属性指向同一命名实体的问题。

举例来说,在“原料泵P2101或仪表故障”及“泵P-2101抽出量过小”的实体数据中,“原料泵P2101”与“泵P-2101”实际为同一实体。构建装置11可以对这两个实体进行共指消解,将涉及这两个实体数据的所有数据属性和关系属性都消解指代为同一实体(例如“原料泵P2101”),从而解决多条属性指向同一命名实体的问题。

如图1及图2所示,在完成实体对齐并获得化工知识的多条标准知识表示后,构建装置11可以根据这些标准知识表示进行知识发现和知识推理以获取新的化工知识,并将其中可信度较高的新知识纳入已构建的化工知识图谱中。

上述知识发现是指屏蔽原始数据的繁琐细节,从数据集中识别有效、新颖、潜在有用以及可理解知识的过程,由此方法获得的新知识往往可信度较高。上述知识推理是指通过各种方法来获取满足语义的新的知识或结论的过程,由此方法往往能获得意想不到的新知识,但是也无法保证该新知识的可信度。

举例来说,针对完成实体对齐后获得的多条化工知识的标准知识表示:

原料加入量过大,后果,原料缓冲罐液位偏高;

原料泵P2101抽出量过小,后果,原料缓冲罐液位偏高;

分馏塔C-9102底循回流流量过少,原因,分馏塔C-9102底循回流流量控制回路FIC9133故障导致阀门FV9133关小;

分馏塔C-9102底循回流流量过少,安全措施,加热炉F9101设有进料低流量联锁:进料流量低于27.5T/H时熄该组的加热炉主火嘴;

……

构建装置11可以通过知识发现的方式,结合“分馏塔C-9102底循回流流量过少,原因,分馏塔C-9102底循回流流量控制回路FIC9133故障,导致阀门FV9133关小”,以及“分馏塔C-9102底循回流流量过少,安全措施,加热炉F9101设有进料低流量联锁:进料流量低于27.5T/H时,熄该组的加热炉主火嘴”,这两条标准知识表示,发现“分馏塔C-9102底循回流流量控制回路 FIC9133故障导致阀门FV9133关小,安全措施,加热炉F9101设有进料低流量联锁:进料流量低于27.5T/H时熄该组的加热炉主火嘴”的新知识。由于该新知识是通过两条已知的标准知识表示通过充分必要的逻辑关系结合获得,其通常具备较高的高可信度。

此外,构建装置11还可以通过知识推理的方式,根据“原料加入量过大,后果,原料缓冲罐液位偏高”的已知标准知识表示的语义,推断出“原料缓冲罐液位偏高,原因,原料加入量过大”的新知识;根据“原料泵P2101抽出量过小,后果,原料缓冲罐液位偏高”的已知标准知识表示的语义,推断出“原料缓冲罐液位偏高,原因,原料泵P2101抽出量过小”的新知识;并结合该“原料加入量过大,后果,原料缓冲罐液位偏高”及“原料泵P2101抽出量过小,后果,原料缓冲罐液位偏高”的已知标准知识表示的语义,推断出“原料缓冲罐液位偏高,原因,原料加入量过大或原料泵P2101抽出量过小”的新知识。由于这些新知识是通过语义推断获得,其可信度往往无法得到保证,因此需要通过进一步的质量评估来进行筛选。

如图1及图2所示,在本发明的一些实施例中,构建装置11可以将通过知识推理获得的多条未知可信度的标准知识表示分别与原始知识数据进行文本匹配,以分别获取各标准知识表示的文本匹配度。响应于“原料缓冲罐液位偏高,原因,原料加入量过大”及“原料缓冲罐液位偏高,原因,原料泵P2101抽出量过小”的文本匹配度低于预设的匹配度阈值,构建装置11可以将其确定为低可信度的标准知识表示。反之,响应于“原料缓冲罐液位偏高,原因,原料加入量过大或原料泵P2101抽出量过小”的文本匹配度高于或等于预设的匹配度阈值,构建装置11可以将其确定为高可信度的标准知识表示。

之后,构建装置11可以根据这些通过质量评估筛选获得的高可信度的标准知识表示,以及上述通过知识发现获得的高可信度的标准知识表示,构建化工知识图谱,以供化工知识的智能问答装置10进行调用。

进一步地,在一些实施例中,构建装置11还可以在智能问答装置10的使用过程中,持续地获取化工知识数据以形成新的高可信度的标准知识表示,并将新形成的标准知识表示实时地添加到已构建的化工知识图谱中以更新该化工知识图谱。如此,通过配置该构建模块11,智能问答装置10能够在其日常使用的过程中自动收集化工领域的相关知识,并基于自然语言处理、大数据及人工智能技术,将这些化工领域的相关知识构建到化工知识图谱中,从而进一步提升化工知识图谱中的化工知识的全面性、准确性和实时性。

请进一步参考图3,图3示出了根据本发明的一些实施例提供的进行智能问答的流程示意图。

如图1及图3所示,在完成化工知识图谱的构建后,智能问答装置10即可基于构建的化工知识图谱,快速、准确地针对用户提出的化工领域的问题来提供对应的答案。

具体来说,在进行化工知识的智能问答的过程中,智能问答装置10可以首先通过键盘、麦克风等人机交互接口获取用户输入的问题,再利用问题预处理模块12对其进行问句解析以识别其中相关于化工知识的问题实体数据及问题属性数据,并识别该问题的意图。在一些实施例中,上述问句解析的步骤可以通过一个预先训练的问句解析模块来实施。具体来说,针对用户通过麦克风输入的语音数据,智能问答装置10可以首先利用预先训练的语音识别模块及语义识别模块,将该语音数据转换为对应的文本数据,再将转换获得的文本数据输入预先训练的问句解析模块来识别其中相关于化工知识的问题实体数据及问题属性数据,并识别该问题的意图。

可以理解的是,上述语音识别模块及语义识别模块是本领域的现有技术,在此不再赘述。至于上述问句解析模块,则可以选用深度学习模型。技术人员可以先通过标注化工领域的相关知识来制作大量的化工知识的问题样本,再基于这些化工知识的问题样本来训练问句解析模块,以使其获得从化工知识中识别实体数据及属性数据的功能。如上所述,属性数据可以包括关系属性 (Relation Property)数据及数据属性(Data Property)数据,其中,关系属性数据用于描述两个对应实体之间的关系属性,而数据属性数据用于描述一个对应实体的一种属性值。

举例来说,针对用户提出的“分馏塔C-9102回流量过少是如何导致的”的问题,问句解析模块可以从中识别到“分馏塔C-9102回流量过少”的实体数据,以及“如何导致”的属性数据。

为了避免用户口语化的问题难以与化工知识图谱中标准化的化工知识数据进行关联,智能问答装置10可以利用辅助词典模块15,对识别获取的实体数据及属性数据进行进一步的映射转换。在一些实施例中,该辅助词典模块15 中可以配置有实体链接词典及属性词典。响应于从问题中识别到上述“分馏塔 C-9102回流量过少”的实体数据,智能问答装置10可以首先调用实体链接词典,以查询其中是否记载有该实体数据的同义词。若实体链接词典中记载有该实体数据的同义词,则智能问答装置10可以使用该同义词来替代该实体数据,以将该问题实体数据映射为与化工知识图谱描述一致的数据。反之,若实体链接词典中没有记载该实体数据的同义词,则智能问答装置10可以进一步基于机器学习的模糊匹配技术,从该实体链接词典中查询符合模糊匹配规则的相关记载,并使用模糊匹配到的相关记载(例如“分馏塔C-9102底循回流流量过少”) 来替代该实体数据,以将该问题实体数据映射为与化工知识图谱描述一致的数据。同样地,响应于从问题中识别到上述“如何导致”的属性数据,智能问答装置10也可以调用属性词典,并基于同义词和/或机器学习的模糊匹配技术,将该“如何导致”的属性数据映射为知识图谱中记载的“原因”的属性数据。

之后,问句解析模块可以基于识别到的问题实体数据及问题属性数据来识别该问题的意图。具体来说,针对上述实施例,响应于从问题中识别到一个相关于化工知识的问题实体数据(即“分馏塔C-9102底循回流流量过少”),以及一个对应的问题属性数据(即“原因”),问句解析模块可以判定该问题的意图为根据第一实体及属性检索对应的第二实体。可选地,在另一些实施例中,问句解析模块也可以响应于从问题中识别到两个相关于化工知识的问题实体数据,判定该问题的意图为根据第一实体及第二实体检索对应的属性,在此不再赘述。

如图1及图3所示,在识别到问题涉及的实体数据、属性数据及意图后,智能问答装置10可以利用问题分析推理模块13先将问题预处理模块12输出的结果与化工知识图谱中的知识进行关联,再结合化工知识图谱中相关的标准知识表示进行知识推理,进而得到获取问题答案的候选路径。

具体来说,问题分析推理模块13可以首先根据该问题实体数据查询化工知识图谱,以将其与化工知识图谱中对应的第一图谱实体数据进行关联,再确定化工知识图谱中所有相关于该第一图谱实体数据的多条标准知识表示。之后,问题分析推理模块13可以基于上述根据第一实体及属性检索对应的第二实体的意图,通过该多条标准知识表示选择所有与该第一图谱实体数据相关的第二图谱属性数据,再分别将该第一图谱实体数据与各第二图谱属性数据进行组合,以获取多条候选路径。

举例来说,针对上述“分馏塔C-9102底循回流流量过少”的实施例,问题分析推理模块13可以首先将其与化工知识图谱中记载的“分馏塔C-9102底循回流流量过少”的第一图谱实体数据进行关联,再在化工知识图谱中查询所有与该第一图谱实体数据相关的标准知识表示。在一些实施例中,与该“分馏塔 C-9102底循回流流量过少”的第一图谱实体数据相关的标准知识表示可以包括:“分馏塔C-9102底循回流流量过少,原因,分馏塔C-9102底循回流流量控制回路FIC9133故障”;“分馏塔C-9102底循回流流量过少,后果,分馏塔C-9102 塔底结焦引起加热炉进料流量波动”;以及“分馏塔C-9102底循回流流量过少,安全措施,加热炉F9101设有进料低流量联锁:进料流量低于27.5T/H时熄该组的加热炉主火嘴”。

之后,问题分析推理模块13可以基于上述根据第一实体及属性检索对应的第二实体的意图,从查询到的标准知识表示中选择所有与该第一图谱实体数据相关的第二图谱属性数据(即上述“原因”、“后果”及“安全措施”),以构建多条候选路径。具体来说,问题分析推理模块13可以将该“分馏塔C-9102底循回流流量过少”的第一图谱实体数据与第二图谱属性数据“原因”组合为“分馏塔C-9102底循回流流量过少原因”的第一候选路径;可以将该“分馏塔C-9102 底循回流流量过少”的第一图谱实体数据与第二图谱属性数据“后果”组合为“分馏塔C-9102底循回流流量过少后果”的第二候选路径;也可以将该“分馏塔C- 9102底循回流流量过少”的第一图谱实体数据与第二图谱属性数据“安全措施”组合为“分馏塔C-9102底循回流流量过少安全措施”的第三候选路径。

进一步地,在一些实施例中,与该第一图谱实体数据相关的第二图谱属性数据不仅包括上述一度相关的第二图谱属性数据(即通过一条标准知识表示即可关联到该第一图谱实体数据的第二图谱属性数据),还可以包括与该第一图谱实体数据二度相关的第二图谱属性数据(即需要通过两条标准知识表示才能关联到该第一图谱实体数据的第二图谱属性数据)。例如,针对“分馏塔C-9102 底循回流流量过少,原因,分馏塔C-9102底循回流流量控制回路FIC9133故障”以及“分馏塔C-9102底循回流流量控制回路FIC9133故障,后果,阀门 FV9133关小”的标准知识表示,问题分析推理模块13还可以进一步推理获得“分馏塔C-9102底循回流流量过少,原因,阀门FV9133关小”的新知识,并根据该新知识确定与该第一图谱实体数据二度相关的第二图谱属性数据“原因”。之后,问题分析推理模块13可以将该“分馏塔C-9102底循回流流量过少”的第一图谱实体数据与该二度相关的第二图谱属性数据“原因”组合为“馏塔C-9102 底循回流流量过少原因”的第四候选路径。

本领域的技术人员可以理解,基于上述根据第一实体及属性检索对应的第二实体的意图来生成多条候选路径的方案,只是本发明提供的一种非限制性的实施方式,旨在清楚地展示本发明的主要构思,并提供一种便于公众实施的具体方案,而非用于限制本发明的保护范围。

可选地,在另一些实施例中,基于上述根据第一实体及第二实体检索对应的属性的意图,问题分析推理模块13可以首先根据该第一图谱实体数据来查询上述化工知识图谱,以确定其中所有相关于该第一图谱实体数据的多条标准知识表示。之后,问题分析推理模块13可以基于上述根据第一实体及属性检索对应的第二实体的意图,通过该多条标准知识表示选择所有与该第一图谱实体数据一度相关或二度相关的第二图谱属实体据。该一度相关的第二图谱属实体据是指第一图谱实体数据能通过一条标准知识表示关联到的第二图谱实体数据。该二度相关的第二图谱属实体据是指该第一图谱实体数据能通过两条标准知识表示关联到的第二图谱实体数据。再之后,问题分析推理模块13可以将该第一图谱实体数据与选择的各第二图谱实体数据分别进行组合,以构成多条候选路径。这些候选路径的组合方式与上述实施例相同,在此不再赘述。

如图1及图3所示,在生成多条候选路径后,智能问答装置10可以利用问题后处理模块14对这多条候选路径进行路径匹配,以确定其中的最佳搜索路径。之后,问题后处理模块14根据该最佳搜索路径搜索化工知识图谱,以获得对应于问题的答案。

具体来说,针对上述“分馏塔C-9102底循回流流量过少”的实施例,问题后处理模块14可以首先将用户提出的问题的文本输入基于化工知识样本预先训练的词向量模型,以获取对应于该问题的第一文本向量。之后,问题后处理模块14可以将上述第一至第四候选路径分别输入该词向量模型,以分别获取各候选路径的第二向量。再之后,问题后处理模块14可以分别计算各第二向量与该第一向量的余弦值,以作为各候选路径与该问题的文本匹配度。

在上述实施例中,基于上述“分馏塔C-9102循回流流量过少的原因是什么”的问题文本,第一候选路径“分馏塔C-9102底循回流流量过少原因”的文本匹配度为0.98,第二候选路径“分馏塔C-9102底循回流流量过少后果”的文本匹配度为0.85,第三候选路径“分馏塔C-9102底循回流流量过少安全措施”的文本匹配度为0.74,第四候选路径“分馏塔C-9102底循回流流量过少原因”的文本匹配度也为0.98。

如此,问题后处理模块14即可根据该文本匹配度的排名,选择文本匹配度最大的第一候选路径及第四候选路径(即实体:分馏塔C-9102底循回流流量过少;属性:原因)为最佳搜索路径。之后,问题后处理模块14可以根据该最佳搜索路径搜索化工知识图谱,以确定对应的标准知识表示,即“分馏塔C- 9102底循回流流量过少,原因,分馏塔C-9102底循回流流量控制回路 FIC9133故障”及“分馏塔C-9102底循回流流量过少,原因,阀门FV9133关小”。再之后,问题后处理模块14可以基于上述根据第一实体及属性检索对应的第二实体的意图,确定答案位于相关标准知识表示的第二实体,即上述“分馏塔C-9102底循回流流量控制回路FIC9133故障”及“阀门FV9133关小”。最后,问题后处理模块14可以结合上述问题对获得的答案进行整理,以获得“分馏塔C-9102底循回流流量控制回路FIC9133故障,导致阀门FV9133 关小”的标准形式的答案,并将该标准形式的答案通过扬声器或显示屏等人机交互接口返回给用户。

如此,本发明提供的上述智能问答装置10即可结合化工领域的化工知识图谱及自然语言处理技术,为化工领域的技术人员提供化工知识的智能问答功能。相比于基于检索技术或者深度学习匹配技术来实现智能问答的现有技术,本发明结合化工知识图谱来进行推理式智能问答,能够更准确、更高效地理解化工领域技术人员的真实需求,辅助化工领域的技术人员进行决策,并快速地解决复杂的问题,从而降低安全事故的发生该率,并更好地保障企业和国家利益。

尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。

本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列 (FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

相关技术
  • 化工知识图谱的构建方法及装置以及智能问答方法及装置
  • 旅行知识图谱的构建方法、装置及旅行问答方法、装置
技术分类

06120112901048