掌桥专利:专业的专利平台
掌桥专利
首页

一种飞机电源系统故障诊断知识图谱构建及应用方法

文献发布时间:2023-06-19 18:32:25


一种飞机电源系统故障诊断知识图谱构建及应用方法

技术领域

本发明涉及飞机电源系统故障诊断和知识图谱构建与应用领域,具体涉及一种飞机电源系统 故障诊断知识图谱构建及应用方法。

背景技术

随着科技水平的发展,飞机机载设备的电气化程度越来越高。飞机电源系统作为为机载设 备供电的关键系统,一旦发生故障,将严重威胁着飞机的飞行安全。为降低飞机电源系统故障 的危害,需要对其健康状态进行快速准确的判断。

常用的基于数据驱动的故障诊断方法无法利用专家知识等非结构化数据,同时其结果可解 释性差,为实际使用带来了不便。知识图谱是一种从非结构化知识中抽取实体和关系,并以有 向图的形式存储实体及其间关系的知识库,能够实现对非结构化先验知识的利用以及故障原因 的解释。知识图谱自诞生以来,在医疗、社交和影评等诸多领域得到了广泛的应用,其应用形 式主要包括搜索、问答、推理和推荐等。在故障诊断领域,知识图谱已被应用于铁路、电网等 对象,但基本处于方法研究阶段,未能实际应用。同时,尚未有以飞机电源系统为对象的专利。

本发明提出了一种飞机电源系统故障诊断知识图谱构建及应用方法,通过从飞机电源系统 故障诊断领域的非结构化数据中抽取知识,构建飞机电源系统故障诊断知识图谱,进而通过基 于知识图谱的搜索、推荐和问答实现飞机电源系统的故障诊断。

发明内容

本发明的目的在于公开一种飞机电源系统故障诊断知识图谱构建及应用方法,所解决的技 术问题是,当前的飞机电源系统故障诊断方法多为数据驱动方法,缺乏可解释性且无法有效利 用非结构化先验知识的问题。

为了实现本发明的目的本发明采用如下技术方案。

一种飞机电源系统故障诊断知识图谱构建及应用方法。该方法包含如下步骤:

步骤一、利用专家知识构建飞机电源系统故障诊断知识图谱的本体;

步骤二、选取部分飞机电源系统故障诊断语料,将其划分为训练集和测试集;

步骤三、对训练集和测试集进行实体标注;

步骤四、使用训练集训练基于双向长短期记忆网络的实体抽取模型,并在测试集上测试;

步骤五、使用训练好的实体抽取模型抽取语料中的实体;

步骤六、对训练集和测试集进行关系标注;

步骤七、使用训练集训练基于注意力机制的双向长短期记忆网络关系抽取模型,并在测试 集上测试;

步骤八、使用训练好的关系抽取模型抽取语料中的关系;

步骤九、将抽取出的实体和关系组成“实体-关系-实体”三元组,并利用图数据库构建飞 机电源系统故障诊断知识图谱;

步骤十、利用上述构建的知识图谱,采用搜索、推荐和问答三种人机交互方式对飞机电源 系统进行故障诊断信息查询。

由于采取上述技术方案,与现有技术相比,本发明的优点与积极效果在于:

(1)本发明采用“实体-关系-实体”三元组形式对飞机电源系统的故障诊断知识进行表达, 能够实现飞机电源系统故障诊断关联信息的直观展示,形成体系化的飞机电源系统故障诊断知 识网络;

(2)相比传统的基于数据驱动的飞机电源系统故障诊断方法,本发明所提出的基于知识图 谱的飞机电源系统故障诊断方法可有效利用飞机电源系统故障诊断相关的非结构化先验知识, 并且故障诊断结果具有可解释性;

(3)本发明针对飞机电源系统,提出了“本体构建-实体抽取-关系抽取-图谱构建-智能应用” 的飞机电源系统故障诊断知识图谱构建与应用全流程,并根据飞机电源系统的数据特点,给出 了每个步骤的具体实现方法,以飞机电源系统故障排故手册为原始语料证明了知识图谱技术在 飞机电源系统故障诊断领域应用的可行性。

(4)本发明提出了三种基于知识图谱的飞机电源系统故障诊断智能应用形式,包括智慧搜 索、智能推荐与智能问答。

附图简要说明

图1为飞机电源系统故障诊断知识图谱构建及应用方法流程图,

图2为双向LSTM结构示意图,

图3为基于注意力机制的双向LSTM结构示意图,

图4为动态规划法示意图,

图5为朴素贝叶斯分类器结构示意图,

图6为本体可视化结果,

图7为实体标注结果,

图8为实体抽取模型训练集文本标注可视化效果,

图9为实体抽取模型配置,

图10为实体抽取模型测试结果,

图11为关系抽取语料文本整理结果,

图12为关系抽取模型训练集文本标注可视化效果,

图13为关系抽取模型配置,

图14为关系抽取模型测试结果,

图15为飞机电源系统故障诊断知识图谱可视化结果,

图16为部分飞机电源系统故障诊断知识图谱,

图17为飞机电源系统故障诊断知识图谱详情,

图18为知识图谱智能问答,

图19为知识图谱智慧搜索与推荐。

具体实施方式

图3为飞机电源系统故障诊断知识图谱构建及应用方法流程图,如下图1所示,该方法具 体步骤如下:

步骤一S1、利用专家知识,确定飞机电源系统故障诊断知识图谱中可能存在的实体类型和 关系类型,以自顶向下的方式构建飞机电源系统故障诊断知识图谱的本体;

步骤二S2、选取部分飞机电源系统故障诊断语料,以8:2的比例将其划分为训练集和测试 集;

步骤三S3、对训练集和测试集进行BMEO实体标注,,该方法通过给语料中的每一个字符 添加表征其所在实体的位置和实体类型来标注实体。例如:语料中存在“故障模式”实体类型, 则标签“B-故障模式”代表该字符是一个故障模式实体的首字符,B为“Begin”的缩写;标签 “M-故障模式”代表该字符是一个故障模式实体的中间字符,M为“Middle”的缩写;标签“E- 故障模式”代表该字符是一个故障模式实体的尾字符,E为“End”的缩写;标签“O”代表该 字符不在实体中,O为“Outside”的缩写;

步骤四S4、以训练集中语料的每一句话为输入,句中每个字符对应的BMEO标签为输出, 训练基于双向长短期记忆网络的实体抽取模型,模型机理如下:

双向长短期记忆网络,简称双向LSTM,是常用的一种实体抽取算法,其原理是将时序方 向相反的两个LSTM连接到同一个输出。在进行实体抽取时,会同时需要用到上文和下文的信 息。传统的LSTM只能使用上文信息,而无法利用下文信息,难以用于实现准确的实体抽取。 双向LSTM通过将时序方向相反的两个LSTM连接到同一个输出,实现了上下文信息的利用, 解决了LSTM无法使用下文信息的问题,提高了实体抽取的效果。

图4为双向LSTM结构示意图,如2所示。双向LSTM网络结构的核心是将两个LSTM的合并,其中一个LSTM为正向,另一个LSTM则为反向。正向的LSTM可以利用其历史数据, 即前文信息;而反向LSTM可以利用的历史数据为后文信息。双向LSTM将正向LSTM和反向 LSTM的输出合并,使得其当前时间节点的输出就可以同时利用前后文两个方向的信息,而不 像普通LSTM只能使用前文信息。构成双向LSTM的两个不同方向的LSTM之间不共用状态, 即正向LSTM的输出状态只会对正向的LSTM产生影响,反向LSTM的输出状态只会对反向 LSTM产生影响,它们之间没有直接的连接,不会互相影响。

每一个时间节点的输入会分别传到正向和反向LSTM,它们根据各自的状态产生输出,这 两份输出会一起连接到双向LSTM的输出节点,共同组合成最终输出。双向LSTM的网络中虽 然两个方向的LSTM基本没有交集,但是因为它们共同合成了输出,所以它们对当前时间节点 输出的贡献和造成的损失就可以在训练中被计算出来,并且它们的参数也会根据梯度被优化到 合适的值。

双向LSTM在训练时和普通单向LSTM非常类似,因为两个不同方向的LSTM之间几乎没 有交集,因此它们可以分别展开为普通的前馈网络。不过在使用反向传播算法训练时,无法同 时更新状态和输出。同时,正向状态在x

(1)对数据做前向迭代操作,先沿着x

(2)进行反向迭代操作,即对目标函数求导的操作,先对输出Y求导,然后沿着x

(3)根据求得的梯度值更新模型的参数,完成一次的迭代训练。

输出层是将双向LSTM神经网络各个时刻的输出进行求和取平均,最终得到了对象词在当 前句子环境下的语义表示,这个向量将作为编码器的输出传递给分类器。

在测试集上测试实体抽取模型,计算其准确度和召回率,计算方法如下。

式中:P为准确率(Precision);R为召回率(Recall);TP为正类预测为正类(TruePositive), 即被实际抽取结果为某一标签,且人工标注也是该标签的字符数量;FP为负类预测为正类(False Positive),即实际抽取结果为某一标签,但人工标注不是该标签的字符数量;FN为正类预测为 负类(False Negative),即人工标注为某一标签,但实际抽取结果不是该标签的字符数量;

步骤五S5、使用训练好的实体抽取模型抽取语料中的实体;

步骤六S6、对训练集和测试集进行关系标注,标注出同一句中实体间的关系,并将其整理 为“实体实体关系所在句子”的格式;

步骤七S7、以整理后的关系抽取训练集语料为输入,对应的关系类型为输出,训练基于注 意力机制的双向长短期记忆网络关系抽取模型,模型机理如下:

基于注意力机制的双向LSTM算法是将注意力模型引入了双向LSTM得到的算法。注意力 模型是一种模拟人脑注意力的模型,其核心在于借鉴了人脑在特定的时刻对于事物的注意力会 集中在某一特定的地方,忽略其他部分的特点。注意力模型是一种影响资源分配的模型,其原 理是对于关键部分,分配较多的注意力,对于其他部分分配较少的注意力,合理利用有限的计 算资源,并且还可以去除非关键因素的影响。

基于注意力机制的双向LSTM为在输出层和隐藏层之间加入了注意力层,调整隐藏层输出 的权重。

图3为基于注意力机制的双向LSTM结构示意图,如图3所示。在图3中,F表示双向LSTM 中各自独立方向最终隐藏层状态值的和,称为双向LSTM的最终状态,a表示所有时刻下隐藏 层单元状态对于最终状态的注意力概率分布,其中的分量a

基于注意力机制的模型一般都包含了两部分计算过程,一是关于注意力概率分布的计算过 程,二是基于注意力分布的最终特征计算过程。

a

上式利用softmax函数作为注意力概率分布的计算方式,式中:N表示输入序列元素的个数;U为权重矩阵;F表示双向LSTM中各自独立方向最终隐藏层状态值的加和;h

基于注意力分布的最终特征F

式中:N表示输入序列元素的个数;a

在得到基于注意力机制的文本特征向量F

F'

式中:T为类别标签的数量;V表示模型输出层的权重矩阵;F

E(Y,y)=-Ylog(y) (8)

式中:Y表示真实类别的概率分布;y表示模型预测出的类别的概率分布。

在测试集上测试关系抽取模型,计算其准确度和召回率,计算方法与步骤四相同;

步骤八S8、使用训练好的关系抽取模型抽取语料中的关系;

步骤九S9、根据抽取出的实体和关系,利用Neo4j数据库构建飞机电源系统故障诊断知识 图谱;

步骤十、利用构建的知识图谱,以智慧搜索、推荐和智能问答的形式对飞机电源系统进行 故障诊断。

智慧搜索与推荐具体方法为输入飞机电源系统的故障现象,根据最长公共子序列匹配相似 度最高的故障现象,并输出其故障原因和解决方法。

最长公共子序列相似度与两个字符串间同顺序相同字符数量有关,相同字符越多,相似度 越高。子序列指一个序列删除若干个元素所得到的新序列。两个序列的公共子序列指同时是两 个序列子序列的序列。而最长公共子序列则是指该两个序列所有公共子序列种最长的序列。

最长公共子序列指将两个序列分别删除若干个字符,得到两个子序列,在所有可能的子序 列中,相同且最长的一组子序列。计算两个序列之间的最长公共子序列可以使用枚举法和动态 规划法。枚举法列举出两个序列各自所有的子序列,然后将这两组子序列中一一比较,得到最 长公共子序列。

图4为动态规划法示意图,动态规划法求解两个字符串之间最长公共子序列示意图如图4 所示。图4为利用动态规划法求解字符串“BDCABA”和“ABCBDAB”之间的最长公共子序 列的过程。

(1)根据字符串长度,生成7*8的矩阵M

(2)两字符串间最长公共子序列长度为矩阵右下角位置的值,图中长度为4;

(3)从矩阵中M

(4)根据回溯规则,得到一条回溯路径M

(5)选取回溯路径上所有数值发生变化前的矩阵位置,即M

智慧推荐指智慧搜索的同时,图谱会根据相似度输出与其拥有相似关联实体的其他实体。 相似度计算方法与搜索方法相同,为最长公共子序列相似度。

智能问答指向图谱输入问题,图谱输出该问题的答案。智能问答的关键在于问题分类,即 用户需要什么类型的结果。本发明选择朴素贝叶斯分类器作为问答的方法。

朴素贝叶斯分类器是概率分类器中最简单的分类器,在很多情况下具有相当高的分类准确 率,以高效率和良好的泛化能力而著称。该分类器假设在给定类变量时,属性变量之间条件独 立,即:

在条件独立性假设下,朴素贝叶斯分类器具有简单的星形结构,如图5所示。图5为朴素 贝叶斯分类器结构示意图,在朴素贝叶斯分类器结构基础上的联合概率分解形式如下:

式中:P(C)是类边缘概率;P(X

依据联合概率的分解形式,得到朴素贝叶斯分类器的表示形式为:

在利用朴素贝叶斯分类器完成问题分类后,结合与知识图谱中实体匹配得到的问句关键词, 在知识图谱中进行检索,将得到的答案输出给用户,完成智能问答。

具体实施例

1.试验数据描述

本案例使用的数据来自飞机电源系统故障排故手册文档。该文档包含飞机电源系统可能发 生的故障、故障表现、故障原因和解决措施。该文档部分内容如下:

“1.电源参数显示系统显示发电机输出电压为0V或只有几伏电压

可能原因:(1)副励磁机绕组短路。使用万用表检查绕组电阻为0,或者用兆欧表检查绝缘 电阻为0。(2)主发电机激磁绕组断路。

排除方法:(1)将发电机从发动机上取下来,送往修理厂修理,更换副励磁机定子组件。(2) 将发电机从发动机上取下来,送往修理厂修理,更换主转子组件。”

其中“电源参数显示系统显示发电机输出电压为0V或只有几伏电压”是故障模式“无刷交 流发电机故障”的故障表现;“副励磁机…绕组断路”为故障模式“无刷交流发电机故障”的故 障原因;“将发电机…更换主转子组件”为故障模式“无刷交流发电机故障”的解决措施。

对飞机电源系统故障手册中的内容进行数据预处理。具体地,将“可能原因”“故障现象” “排除方法”之后的编号项中每一项与其对应的故障模式单独成句。经数据预处理后的飞机电 源系统故障手册部分内容如下:

“无刷交流发电机故障的故障表现为电源参数显示系统显示发电机输出电压为0V或只有 几伏电压

无刷交流发电机故障的可能原因为副励磁机绕组短路。使用万用表检查绕组电阻为0,或者 用兆欧表检查绝缘电阻为0。

无刷交流发电机故障的可能原因为主发电机激磁绕组断路。

无刷交流发电机故障的排除方法为将发电机从发动机上取下来,送往修理厂修理,更换副 励磁机定子组件。

无刷交流发电机故障的排除方法为将发电机从发动机上取下来,送往修理厂修理,更换主 转子组件。”

将该文档中部分语料划分为训练集和测试集,用于实体抽取和关系抽取模型的训练和测试。

2.本体构建

基于专家知识,本案例构建飞机电源系统故障诊断知识图谱的本体,共包含实体类型4个, 关系类型3个。

实体类型包含:故障模式、故障原因、故障现象和解决方法。

关系类型及其头、尾实体见下表。

表1关系类型及其头尾实体

构建完成的本体可视化结果如图6所示。图6为本体可视化结果。

3.实体抽取结果

飞机电源系统故障手册文档原始语料划分出的训练集共有137句,4344字;测试集共有31 句,910字。

根据构建的本体,使用BMEO格式标注出训练集中的实体。共标注出实体267个,实体标 注结果如图7所示。图7为实体标注结果,

例如,在上图中,“交流发电机控制保护器故障”的实体类型为故障模式,因此其第一个字 符“交”对应标签为“B-故障模式”,最后一个字符“障”对应标签为“E-故障模式”。

飞机电源系统故障手册文档进行实体标注后,使用开源标注工具brat进行可视化展示,效 果如图8所示,图8为实体抽取模型训练集文本标注可视化效果。

例如,在图8中的原始语料中的句子“交流发电机控制保护器故障的故障表现为调压输出 为0”中,标注出了故障模式实体“交流发电机控制保护器故障”和故障现象实体“调压输出为 0”。

使用标注后的训练集文本训练双向LSTM实体抽取模型,模型由一个embedding层、一个 双向LSTM层和一个全连接层组成。

表2实体抽取模型参数

实体抽取模型配置如下图9所示,图9为实体抽取模型配置。

图9中:N为语料中最长句子的字符数;M为所有BMEO实体标签的种类数加2,所增加的两项为双向LSTM实体抽取所需的标签

模型输入为句子中所有的字符,模型输出为N个M维向量,每个字符对应的一个向量。若 某字符对应的向量中数值最大的维度为i,则该字符对应第i个实体标签。根据每个字符对应的 实体标签,提取出实体。

进而,将测试集文本送入训练好的模型抽取实体,并与人工标注的实体进行对比。实体抽 取模型测试结果如下图10所示,图10为实体抽取模型测试结果。

由图10可以看出,利用基于双向长短期记忆网络算法成功实现了对测试集文本语料的实体 抽取,共910条知识,准确率为99.63%,召回率为71.58%。

完成测试后,使用实体抽取模型抽取原始文档中的实体,用于图谱构建。

4.关系抽取结果

关系抽取训练集和测试集划分与实体抽取相同。根据构建的本体,以“头实体尾实体关系 所在句子”的格式整理训练集中的语料,如图11所示,图11为关系抽取语料文本整理结果。

例如,在图11中的句子“主交流电源系统故障的故障表现为‘主交流’告警”中,实体“主 交流电源系统故障”与实体“‘主交流’告警”之间的关系为“模式_现象”,因此生成的语料为 “主交流电源系统故障‘主交流’告警模式_现象主交流电源系统故障表现为‘主交流’告 警”。

使用开源标注工具brat对飞机电源系统故障手册文档中的关系进行标注,可视化展示效果 如图12所示,图12为关系抽取模型训练集文本标注可视化效果。

例如,在上图中的原始语料中的句子“交流发电机控制保护器故障的可能原因为接口板故 障”中,标注出了实体“交流发电机控制保护器故障”和实体“接口板故障”之间的关系“模 式_原因”。

使用处理后的训练集文本训练基于注意力机制的双向LSTM关系抽取模型,模型由一个词 向量embedding层、两个位置向量embedding层、一个双向LSTM层、一个Attention层、一个 关系向量embedding层和一个softmax层组成。

模型参数如表3所示。

表3关系抽取模型参数

关系抽取模型配置如图13所示,13为关系抽取模型配置。图13中:N为语料中最长句子 的字符数;M为本体中关系类型的数量。

对于关系抽取语料中的每个句子,以一个实体的第一个字符在句中的位置为坐标原点,

词向量Embedding层输入为句子中所有的字符,位置向量Embedding层1输入为句子的头 实体位置向量,位置向量Embedding层2输入为句子的尾实体位置向量。其中,实体的位置向 量指其所在句子中每个字符距离该实体首字符的距离。关系向量Embedding层输入为所有关系 类型,每个关系类型对应一个数字。

模型输出为M维向量,每个句子对应的一个向量。若某句对应的向量中数值最大的维度为 i,则该句中头尾实体之间的关系为第i个关系。

根据实体标注结果,将测试集文本组织成“头实体尾实体所在句子”的格式,将处理后的 测试集文本送入训练好的模型抽取实体关系,并与人工标注的关系进行对比。关系抽取模型测 试结果如图14所示,图14为关系抽取模型测试结果。

由图14可以看出,利用基于注意力机制的双向长短期记忆网络算法成功实现了对测试集文 本的关系抽取,共31条知识,准确率为75.00%,召回率为75.00%。

完成测试后,使用原始文本的实体抽取结果将原始文本组织成“头实体尾实体所在句子” 的格式,并使用关系抽取模型抽取原始文档中的关系,用于图谱构建。

5.知识图谱构建结果

原始语料中每个实体作为一个节点,每个关系作为一条连接其头实体和尾实体的边。使用 Neo4j,将原始文本中人工标注和模型抽取的结果构建为飞机电源系统故障诊断知识图谱。所构 建的知识图谱可视化结果如图15所示,图15为飞机电源系统故障诊断知识图谱可视化结果。

构建的知识图谱因实体数较多,为清晰展示图谱中的实体和关系,截取该图谱部分实体与 关系如图16所示。

该图谱包含实体74个,其中故障模式16个,故障原因34个,故障现象7个,解决方法17 个。关系98条,其中模式_原因76条,模式_现象6条,模式_方法16条。图谱详情如图17所示,图17为飞机电源系统故障诊断知识图谱详情。

经人工审核,该图谱已将原始文档中大部分知识抽取并存储,实现了飞机电源系统故障诊 断知识图谱的构建。

6.基于知识图谱的智能应用

在完成知识图谱构建后,可通过智慧搜索与推荐系统和智能问答系统进行基于飞机电源系 统故障诊断知识图谱的搜索、推荐和问答。

问答系统支持有关实体数量、关系数量、某一实体相关信息等的提问。智能问答效果如图 18所示,图18为知识图谱智能问答。

从图18中可以看出,智能问答系统支持对于实体数量、关系数量、实体“应急交流电源故 障”相关信息等的提问,能够给出相关问题的有效答案。

智慧搜索与推荐系统支持对于某一实体的搜索,在知识库中对该实体的相关信息进行检索 并输出。同时还会根据相关实体的相似度进行推荐。智慧搜索与推荐效果如图19所示,图19 为知识图谱智慧搜索与推荐。

从图19可以看出,智慧搜索系统能够实现对于实体“直流电源系统故障”的搜索及相关信 息展示,并能够根据相似度匹配算法,实现具有相同故障原因和相同解决方法的故障模式推荐。

技术分类

06120115603734