一种装备维修拆装工艺知识图谱的构建方法及系统

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及设备的维修流程和维修工艺，更具体地，涉及一种水轮机维修拆装工艺知识图谱的构建方法及系统。

背景技术

随着产品朝着大型化、高负荷、高性能的方向发展，设备的维修流程和维修工艺也趋于复杂化。由于维修过程的复杂性，复杂机械设备的检修流程分为几大部分进行开展：设备拆卸、设备检修、设备更换、设备功能试验、设备回装。其中，在设备拆卸和设备回装的过程中，以灯泡式贯流水轮机组为例，拆装过程涉及到的工具有大型吊装设备、专用吊具、多种维修工具；涉及到的零部件达上千种，以主要核心大部套进行的重大吊装方案就有10余个。除此之外，在拆装过程中，除了单人拆卸小型零件的工作之外，还涉及到许多需要依靠多人多工种的拆装工作，这对维修人员的技术要求和知识掌握程度提出了更高的要求。

然而，尽管目前我国的水利工程的建设项目在全世界处于领先位置，但是对于水轮发电机的维修工作仍处于经验教学和现场指导的阶段。在真实的维修现场，工人们开班需要查阅相关的纸质版维修手册，对当日的工作进行教学，教学的过程也主要以工作中的经验方法为主要内容。但是随着机械设备更加智能化、复杂化的发展，维修过程变得更加繁琐复杂，知识呈现分散化、碎片化，且技术含量更高，以经验传授进行培训的方式导致知识获取效率低下，传统的培训方式已经不能满足当前企业的需求。

在如今大数据时代，分散的数据源难以统一利用，多源异构的数据难以整合，知识管理需要新的解决方案。近年来，知识图谱作为一种能够提高数据检索质量的知识库，近年来在诸多领域进行了应用，并得到了较好的效果。

然而，目前为止，知识图谱在百科知识、部分专业领域有了较为广泛的应用，但是在传统工业领域，将行业维修知识与知识图谱结合的研究甚少。这导致在维修工作开展过程中，项目负责人需要首先对项目工人进行集体培训，结合数本装备维修工艺手册开展相关工作，同时在检修工作中，随时查阅规范手册，依照手册要求进行任务分配，以保证工程安全顺利开展，这极大地增加维修工作的时间和人力成本。

基于上述问题，本文提出了一种装备维修拆装工艺知识图谱的构建方法，运用知识图谱构建技术，对装备维修工艺文本进行知识获取、知识表示、知识融合、知识储存的构建过程。相比于其他知识图谱，利用汽车标准文本的结构性特征构建的知识图谱能够专业化与精确化的展现汽车标准文件中对象或要素的关联性，对装备检修过程中的拆装信息进行分析整合，实现装备维修数据的统一结构化表示。为下一步汽车标准的可视化，智能搜索，智能问答等应用提供有效支撑。

发明内容

本发明旨在解决现有复杂装备维修知识缺乏统一化表达、维修知识复用和维修知识关联程度低的问题。

为了实现本发明的上述目的，本发明提供了一种装备维修拆装工艺知识图谱的构建方法，包括：

S1：根据专家经验数据设计模式层，并通过所述模式层定义装备维修拆装工艺中的概念以及所述概念之间的关系，从而构建装备拆装维修的本体模型；

S2：对装备的维修拆装工艺中的非结构化数据进行数据预处理；

S3：根据所述模式层定义的所述概念以及所述概念之间的关系，对实体以及所述实体之间的关系进行标注，得到实体数据集与实体关系数据集；

S4：分别采用Bert+BiLSTM+CRF算法和BERT+PCNN算法对标注的实体数据集与实体关系数据集进行训练，得到实体识别模型和实体关系识别模型；

S5：基于步骤S4中得到的所述实体识别模型和所述实体关系识别模型，进行三元组抽取，并对所述实体进行知识融合，得到三元组数据；再将所述三元组数据导入到Neo4j图数据库中，构建知识图谱；以及

S6：将构建好的所述知识图谱导入到Neo4j图数据库中，使所述知识图谱可视化。

所述处理非结构化数据涉及的实体包括：零部件、拆装工艺名称、工艺约束、工艺资源；所述处理非结构化数据涉及的实体关系包括：包含、操作、工艺关系、连接关系、调用、紧前-紧后关系、资源成本。

所述步骤S2中对装备的维修拆装工艺中的非结构化数据进行数据预处理包括：对装备的维修拆装工艺中的非结构化数据进行数据清洗、转化，得到txt文件。

所述步骤S3中，所述实体标注是基于步骤S1中的定义的所述概念，采用人工标注的形式，将所述概念的文本数据处理为BIO标注格式；所述实体关系标注是基于步骤S1中定义的所述概念之间的关系，并将所述概念之间的关系的文本数据通过代码转换成txt格式。

所述步骤S5中，所述三元组抽取包括：流水线pipeline形式抽取，得到的三元组形式为：<实体，关系，实体>；将所述三元组数据导入到Neo4j图数据库中包括：首先将三元组处理成entity.csv和relationship.csv的格式，采用Neo4j-import的方式导入到Neo4j图数据库中，形成所述知识图谱。

本发明还提供了一种水轮发电机维修拆装工艺知识图谱构建系统，其特征是，包括：

处理器；以及

存储器，所述存储器被配置成存储计算机可执行指令，所述处理器在执行所述计算机可执行指令时，实施根据前述任一项权利要求中所述的知识图谱构建方法。

本发明的有益效果是：

装备拆装规范的智能检索：构建装备拆装工艺知识图谱可以为智能化应用提供基础。通过将知识图谱与人工智能技术相结合，实现自动化的拆装工艺规划和优化，提高生产效率和质量。基于构建好的知识图谱，可以结合自然语言处理(NLP)技术和图数据库的查询语言进行对整个装备拆装流程进行智能检索。用户可以输入查询条件，系统通过NLP技术将其转化为图数据库的查询语句，然后在知识图谱中进行查询，返回相关的拆装规范、注意事项、拆装工具、前后工艺和子工艺的信息。

水轮机维修知识共享和知识优化：水轮机拆装工艺知识图谱的构建可以将水轮机拆装领域的知识整合起来，形成一个共享的知识库。这样，各个领域的专家和技术人员可以在同一个平台上进行知识交流和共享，避免了信息孤岛和重复劳动。通过对水轮机拆装工艺知识图谱的分析和挖掘，可以发现其中的规律和优化空间。在基于知识图谱的相关信息推送中，可以通过对不同拆装工艺步骤的比较和分析，找出其中的重复操作和低效率的环节，从而对整个项目工程进行优化和改进，提高资源的利用效率。装备作为重要的水利工程设施，需要定期进行维护和保养。通过构建装备知识图谱，可以对装备的拆装工艺进行系统性的记录和分析，从而优化维护和保养流程，提高装备的效率和安全性。

助力装备相关企业向数字化转型：当前装备维修手册文本文件。主要依赖人员阅读，知识获取效率较低，通过装备拆装知识图谱的构建与应用，可将标准内容中包含的复杂信息通过计算机处理成能够结构化表示的知识，并通过图形数据库的方式展现出来，让这些分散的知识再次整合利用，从而方便工程师和操作人员在实践中使用，提高企业培训和现场作业的效率。后续结合录入现场工况数据，可以实时监测装备运行状态，将获取到的数据构建智能化的诊断和预测模型，通过对装备运行数据的实时监测和分析，预测装备的故障和损坏，从而提前进行维护和保养，避免不必要的停机和损失。

附图说明

下面结合附图对本发明作进一步的说明。

图1是装备维修拆装工艺知识图谱的构建方法流程图。

图2是装备拆装本体表述模型。

图3示例性地示出了实体以及实体之间的关系的标注过程。

图4示例性地示出了实体模型的建立过程。

图5示例性地示出了三元组抽取过程。

图6中示例性示出了关系建立及知识融合的过程。

图7示例性示出了最终实现数据库的部分展示效果。

图8示出了水轮发电机维修拆装工艺知识图谱的构建系统的示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本实施例的一方面提供了一种装备维修拆装工艺知识图谱的构建方法，包括以下步骤：

S1：获取装备维修手册模式层设计并定义装备拆卸、回转工艺过程相关概念以及概念间的关系，构建装备拆装维修的本体模型；S2：对步骤S1中获取的装备维修手册中维修规范、安全标准、拆装维修工艺中的非结构化数据进行数据预处理；S3：根据模式层概念及概念之间的关系，对实体以及实体之间的关系进行标注，得到实体数据集与实体关系数据集；S4：分别采用Bert+BiLSTM+CRF算法和BERT+PCNN算法对标注的实体数据集与实体关系数据集进行训练，得到实体识别模型和实体关系识别模型；S5：基于得到的实体识别模型和实体关系识别模型，进行三元组抽取，结合装备维修手册中的专业词语进行知识融合，导入到Neo4j图数据库中，构建知识图谱；S6：将构建好的知识图谱导入到Neo4j图数据库中，形成装备维修拆装工艺的知识图谱的可视化。

构建知识图谱本体模型

以水轮机为例，基于水轮机拆卸回装信息，采用OWL本体语言构建结构化标准知识描述模型，在此基础上，实现水轮机拆卸回装任务的知识建模。

所述步骤S1中的模式层设计是根据专家经验设计的，定义水轮机维修拆装工艺、零部件等相关概念以及概念间存在的关系。在处理非结构数据中，主要涉及4类实体，即零部件、拆装工艺名称、工艺约束、工艺资源；8类实体关系，即包含、操作、工艺关系、连接关系、调用、紧前-紧后关系、资源成本。

水轮机拆卸工艺知识模型主要用于描述水轮机拆卸回装过程中的工艺操作知识，分为水轮机零部件基础信息、水轮机拆装工艺信息、水轮机拆装约束三个主要子本体，如公式所示：

Disassmbly_Resembly_Product＝(Product_Basic_Infor,Product_Process_Infor,Product_Process_Constraint)

水轮机零部件信息本体主要描述拆装过程中涉及到的零部件基础信息，主要包含零部件ID、名称、零部件信息、连接信息。零部件信息包含了零部件的层次关系；连接信息包含了不同零部件之间的连接关系，如公式所示：

Product_Basic_Infor＝(Parts_ID,Parts_name,Product_parts,Conection)

水轮机拆装工艺信息本体主要描述拆装过程中涉及到的拆装步骤及其操作标准，主要包含工艺名称、工艺调度、工序工步。工艺调度包含了该工艺所需要的人员调度和时间，工序工步则包含了该工艺的基本流程，如公式所示：

Product_Process_Infor＝(Process_name,Process_schedule,Process_steps)

水轮机拆装约束本体主要包括工艺安全约束、拆装工具、拆装资源。工艺安全约束包括工艺安全约束则包含了操作前、中、后需要注意的操作规范和安全标准，拆装工具主要包括拆装过程中需要的工具，拆装资源则包含拆装所需要调配的大型外部资源，如起吊设备、定转子专用吊具等等。如公式所示：

Product_Process_Constraint＝(Process_safety,Tools,Process_resource)

本实施例采用protege 5.2.0本体编辑软件对拆装工艺信息模型进行描述建模，具体的水轮机拆装本体表述模型如图2所述所示。

数据预处理

所述步骤S2中对装备维修手册中维修规范、安全标准、拆装维修工艺等非结构化数据进行数据清洗，转化得到txt文件。

本实施例知识图谱数据来源主要来自《水轮机组维修工艺手册》。根据上述本体模型构建要求，需要在文本中提取到的实体有：水轮机零部件名称、拆卸工艺名称、拆卸工具名称、拆装工艺要求、拆卸资源(大型拆吊设备)名称等。由于仅针对维修的拆卸与回转过程进行知识图谱构建，因此选取手册中的拆卸工艺流程及回装工艺流程进行文本处理。

总体来说，手册中的数据大致可分为两类：结构化数据和文本类数据。结构化数据是指CAPP、ERP等应用系统中已有的数据，一般采用关系型数据库或表格文件进行存储，但这些数据分散在各个系统中，形成了“知识孤岛”，因此对于这类数据的预处理工作，主要是对量纲不统一的数据进行规范化，然后在后续关系建立时添加实体间关系存入知识图谱实现集中管理，处理过程难度较低；而对于文本类数据，其来源于经验手册、文献报告等，表达复杂且形式多样，需要从语句中进行知识抽取，提出有效信息才能融入知识图谱中。因此在数据预处理过程中主要对文本数据进行处理。首先对水轮机维修工艺手册中维修规范、维修工序、维修工步等非结构化数据进行数据预处理。手册中含有大量的非结构化数据，如公式、表格、图片等，需要进行数据清洗，处理成只有文字的形式，以txt文件的方式保存。

数据集标注

对于文本型数据预处理过程中，本实施例将基于自然语言处理技术(NaturalLanguage Processing，NLP)，采用深度学习方法构建水轮机维修知识领域文本知识的自动化抽取技术。在知识图谱中，知识主要以实体和关系进行表达，因此实体的抽取成为了该技术的核心任务。该任务也被称为命名实体识(Named Entity Recognition,NER)，旨在识别文本中所需要的实体，如人名、地名、机构名等。通过NER任务可以将已识别的实体在各种环境中使用，如根据实体建立知识图谱，也可根据实体进行信息检索等。在水轮机维修拆装工艺方面，NER主要是识别出文本中的拆装工艺相关概念、零部件名称、工艺要求等具有特定意义或者指代性强的实体。

进一步地，所述步骤S3中的实体标注是根基于S1中的定义的概念，采用人工标注的形式，将文本数据处理为BIO标注格式；实体关系标注是根据S1中定义的概念关系，并通过代码转换成txt格式。

如图3所示，例如：“用4个10T卡扣、2个10T葫芦及钢丝绳对封水盖板进行吊出，在起吊过程中用两个10T的葫芦调整水平”，【卡扣】【葫芦】【钢丝绳】就是拆装工具实体，【封水盖板】是零部件实体，【起吊封水盖板】属于拆装工艺名称。为了实施NER任务，需要在文本中将实体标注出来，为后续模型的训练提供训练集。同时为有效提取与表征拆装工艺的相关专业词语，还须定义实体的类别，然后输入到下游进行训练。

基于水轮机维修中知识获取需要，本实施例建立了四类实体标签{MAC、RES、MAN、STA}。对于标注方式的选取，相关研究表明在标签不多时两类方式的表现差异不大，考虑到水轮机拆装知识中单字实体的稀少性，本实施例使用BIO标注法对文本进行标注，如表1所示。

表1

除此之外，对手册中的结构化数据也进行整理，以便于后续知识图谱的构建工作。

然后，需要完成对文本中不同实体之间的关系进行标注。根据本体模型中各概念之间的关系，对文本实体关系做出了如表2所示的定义：

表2

对于零部件属性之间、工序工步之间的关系是“包含”(Part of)，三元组形式是部件属性-包含-零件；零部件和工艺名称之间的关系是工艺内容，三元组形式是零部件-工艺内容-工艺名称等等；标注完成后将xlsx文件转换成txt格式。经过文本标注预处理后，得到标注的文本数据集共8668条，从中随机抽选5362条数据作为训练集，剩下的3306条数据按1:1划分，分别得到1653条验证集和1653条测试集数据。

知识抽取(数据训练)

按照前文构建的本体模型，需要从预处理后的文本提取出需要的实体名称，本发明在构建工艺规划领域知识图谱采用了Pipeline方法，即将图谱的构建分为“实体抽取”和“关系识别”两个步骤，整体是串联形式。通过对输入的文本句子进行NER任务识别出相关实体，再将实体及标签进行组合加上原文本句子作为关系识别输入完成两两实体间的关系识别，然后使用训练好的模型按照本体模型中定义的关系类型对抽取出来的实体进行关系抽取，最终获得水轮机拆装工艺知识图谱中的三元组结构。

实体识别

本发明将采用基于BERT-BiLSTM-CRF模型的深度学习方法，实现水轮机拆装工艺文本中的NER任务，其中，Bert用于预训练阶段引入掩码语言模型(Masked LanguageModel)任务，对词级别语义进行深层次建模，同时能显式对句子关系建模，具有强大的上下文语义信息特征提取能力。BiLSTM的作用是用来提取与水轮机拆装工艺相关的文本特征词，CRF则通过给装配实体标签化对其进行约束。本次实验采用BERT中文预训练模型(BERT-Base)，其隐藏层维度为768维，参数大小为110M，在优化器上选择Adam，句子最大长度为128，LSTM模块为128维，学习率设置为3e-5，训练epochs设置为10，batch size为16。具体实现原理如图4所示。

关系抽取

在前文的领域本体构建中，于模式层定义了“包含”、“工艺”、“操作”、“工艺标准”、“连接关系”、“调用”、“紧前-紧后”、“资源成本”八类关系，用以建立模式层概念及属性间的相关关系。本文采用提出的关系提取模型用Bert+PCNN模型完成水轮机拆装工艺实体间的关系提取。该模型主要利用卷积神经网络来嵌入句子语义，在这个模型中，可以通过在多个实例上建立句子层次的注意力减少实例的权重，从而提升该模型的关系提取能力。图5示出了三元组抽取的示例过程。

知识融合

图6中示例性示出了关系建立及知识融合的过程。在构建实体与关系的三元组数据后，还需要进行知识融合任务。在水轮机维修拆装工艺知识图谱建立中的知识融合主要是对抽取出的实体进行对齐，完成三元组的规范化表达，从而使知识的表达更精炼和可靠。具体而言，在维修工艺文本中，有时会含有缩略词以及领域中的特殊表达词，为了对不规范数据进行整合和处理，需要对其中含义一致但表达不统一的部分实体进行对齐工作。实施过程为：基于《水轮机专业词典》建立工艺规划领域中缩略词及特殊词表的标准化表达，再基于规则进行替换，以完成实体的规范化表示。

步骤S5中三元组抽取是流水线pipeline形式抽取，得到的三元组形式为：<实体，关系，实体>，将三元组数据导入到Neo4j图数据库中首先将三元组处理成entity.csv和relationship.csv的格式，采用Neo4j-import的方式导入到Neo4j图数据库中，形成水轮机维修拆装工艺知识图谱。

基于图结构的存储

Neo4j是一个高性能的NOSQL图形数据库，是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，Neo4j具有以下四种特性：

1)灵活性：neo4j是一个灵活的图数据库，可以方便地对知识图谱进行增删改查操作，同时支持复杂查询语句。这使得在水轮机知识图谱中查找相关信息变得更加灵活和方便。

2)高效性：由于neo4j采用了图数据库的结构，可以通过节点和边的方式来表示知识之间的关系。这种方式在检索和查询时非常高效，因为它避免了传统关系型数据库的连接查询和表连接操作。

3)可视化：neo4j提供了可视化的工具和API，可以将知识图谱的信息以图形化的形式展示出来。这使得对水轮机知识图谱进行探索和分析更加直观和易于理解。

4)扩展性：neo4j的数据模型可以方便地扩展，可以随时添加新的节点和关系，从而保证知识图谱的及时更新和扩展，最终将处理好的三元组录入Neo4j中，实现知识图谱的可视化。

①导入节点：LOAD CSV WITH HEADERS FROM"file:///PGnodes.csv"ASlineCREATE(p:Prc_Inf{id:line.id,name:line.name,label:line.label})

②导入关系：LOAD CSV WITH HEADERS FROM"file:///part_rlt.csv"ASlineMATCH(from:Type{id:line.from_id}),(to:System1{id:line.to_id})MERGE(from)-[r:part-of{pro1:line.pro1,pro2:line.pro2}]->(to)

最终实现数据库展示效果如图7所示(部分数据展示)。

数据的基本信息和规模如表3所示，最终生成的水轮机拆装工艺知识图谱实体类型为6个，关系类型8个，实体实例数量990个，关系实例数量1268个。表3为水轮机拆装工艺知识图谱数据总览。

表3

本实施例的另一方面提供了一种水轮发电机维修拆装工艺知识图谱构建系统，如图8所示，该系统包括处理器；以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行如实施例中所述的知识图谱构建方法。

在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器包含内存，例如高速随机存取存储器，也可能还包括非易失性存储器，例如至少1个磁盘存储器等。总线可以分为地址总线、数据总线、控制总线等，图中以一条总线进行简单表达。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信，处理器可以调用存储器中的计算机程序，以执行知识图谱的实体识别和关系抽取的步骤，并最终将数据存储回存储器当中，例如包括：确定根据训练获取的文本识别模型的；根据模型确定测试集中的目标实体；将测试集中的文本信息与已有的知识图谱中各个节点关系进行关系抽取，确定信息三元组并最终导入Neo4j中实现图谱可视化。上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品进行使用，可以存储在一个计算机可读取存储介质中，包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节实施方式。优选实施例中的装置结构仅为方便描述所举示例，本发明不止针对实施例中所示样式，一切类似工作原理装置均在本专利保护范围。

显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：天津大学;

上一篇：一种用于神经网络RAIM的故障卫星识别方法
下一篇：导航过程中指示方向的修正方法、装置、设备及存储介质