导航：首页> 计算；推算；计数>一种检验大数据下基于人工智能的设备健康状态评估方法

一种检验大数据下基于人工智能的设备健康状态评估方法

文献发布时间：2024-04-18 19:59:31

技术领域

本发明涉及承压设备健康评估技术领域，更具体地说，它涉及一种检验大数据下基于人工智能的设备健康状态评估方法。

背景技术

承压类特种设备(包括锅炉、压力容器、压力管道)一般具有参数高、容积大、能量高以及数量多、分布广等特点，有较高的危险性，一旦健康状况恶化，产生事故，可能会造成灾难性后果。然而，对于这类设备的健康状态，一直很难实现准确的量化评估。

虽然承压类特种设备的风险评估、剩余寿命评价等健康相关的评估方法已经具有一定的成熟度，乃至形成了标准，但是仍然缺乏从检测维度更为全面的检验数据出发，实现高精度健康状态评估的方法。基于检验数据的健康状态评估存在以下两个主要难题亟需解决：

1)如何从检测维度更为全面的检验数据中提取健康相关的特征。检验数据中有大量以文本的形式存储的信息，如何从这些文本中提取有效信息，用于构造健康状态高度相关的特征，是本发明解决的难题之一；

2)如何基于检验特征构建健康指标计算模型。在特征提取的基础上，如何构建健康指标计算模型，以高效评估检验时设备的健康状态，是本发明突破的另外一个难点。

发明内容

本发明的目的是为了解决上述问题，提供一种检验大数据下基于人工智能的设备健康状态评估方法。

本发明的上述技术目的是通过以下技术方案得以实现的：一种检验大数据下基于人工智能的设备健康状态评估方法，其特征是，包括以下步骤：

S1、检验要素提取，构建面向检验报告信息提取的模型，并建立健康设备检验要素样本集，提取特征，构造特征集合；

S2、使用上述特征集合训练深度自编码器；

S3、将训练好的深度自编码器，用于待评估的设备检验要素特征，计算重构误差；

S4、利用重构误差，计算健康指标。

优选的，步骤S1中，所述面向检验报告信息提取的模型基于ERNIE-Layout预训练语言模型，检验要素提取流程包括以下步骤：

K1、将检验报告(PDF版)中检验要素进行标注，形成标注训练集。检验要素包括基础信息、技术参数、检验结果、检验参数、检验问题、检验分析、检验结论等；

K2、使用以上标注的训练集，对ERNIE-Layout预训练语言模型进行微调，得到检验报告信息提取模型；

K3、利用检验报告信息提取模型对检验报告进行检验要素提取，生成结构化数据。

优选的，步骤S1中，所述提取特征，构造特征集合，流程包括以下步骤：

N1、利用Bert模型，将检验问题在内的检验文本，提取为Word Embeddings(单词嵌入)特征；

N2、利用独热编码/标签编码/词袋模型/TF-IDF将安全状况等级、压力容器类别等在内的类别数据，提取为0,1...等数值型特征；

N3、将压力、温度等数据，提取为归一化的数值型特征；

N4、将特征横向拼接，构造特征集合。

综上所述，本发明具有以下有益效果：

自动化：该方法可以自动地提取检验数据的内在结构和特征，避免了手动设计特征的困难。

高效性：该方法可以高效地处理大量的检验数据，并从中提取出关键信息，为后续的数据分析和应用提供基础支持。

精度高：该方法可以从检测维度更为全面的检验数据中，生成重构误差来衡量设备的健康状态，并据此生成健康指标，从而实现设备健康状态的定量评估，具有很高的精度。

可扩展性：该方法可以应用于不同类型的设备健康状态评估，具有很强的可扩展性。

附图说明

图1是本发明实施例中设备健康状态评估方法流程；

图2是本发明实施例中检验要素提取流程图；

图3是本发明实施例中设备检验报告示例；

图4是本发明实施例中检验数据特征表达与融合图；

图5是本发明实施例中设备检验问题样本集合示例；

图6是本发明实施例中基于深度自编码的健康指标计算模型图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明的实施例及附图，对本发明的技术方案进行进一步详细地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

实施例：

如图1-图6所示，一种检验大数据下基于人工智能的设备健康状态评估方法，包括以下步骤(流程如图1)：

S1、检验要素提取，构建面向检验报告信息提取的模型，并建立健康设备检验要素样本集，提取特征，构造特征集合；

S2、使用上述特征集合训练深度自编码器；

S3、将训练好的深度自编码器，用于待评估的设备检验要素特征，得到重构误差；

S4、利用重构误差，计算健康指标。

在本实施例中，为了解决承压类设备健康状态量化评估问题，首先利用自然语言处理技术，实现检验数据要素提取；接着运用特征表达与融合技术，基于深度自编码重构误差，构建健康指标。

(一)检验数据要素提取

本发明利用百度开源的ERNIE-Layout预训练语言模型，并结合规则和关键词搜索等方法，构建面向检验报告信息提取的模型，首先检验数据进行接入和清洗，实现对各类设备检验数据的分类，并构建检验语料库。接着使用预训练语言模型在本地进行Fine Tune微调，并结合规则和关键词搜索等方法，构建面向检验报告信息提取的语言模型(如图2所示)，以实现对检验要素的智能提取，包括检验问题、检验项目、检验值、检验结论、检验参数、运行参数等数据。该方案可以高效地提取检验数据，为后续的数据分析和应用提供基础支持。

具体步骤如下：

K2、使用以上标注的训练集，对ERNIE-Layout预训练语言模型进行微调，得到检验报告信息提取模型；

K3、利用检验报告信息提取模型对检验报告进行检验要素提取，生成结构化数据。

在本实施例中，对于步骤K1中的检验报告，本发明使用的格式如图3所示。

(二)特征表达与融合

特征表达与融合的目的在于将原始耦合特征转换为更有效的数值型特征，以便于应用于机器学习，提高学习和推理的性能。针对不同类型的检验数据，采用不同的特征表达方法，提取特征，并进行特征融合，流程如图4所示。特征表达主要解决检验问题、检验文本和类别型数据的特征提取问题。

针对检验问题(无标签/标注的文本数据，如图5所示)的特征提取，基于预训练模型，Bert，将文本数据转化为低维稠密特征，即单词嵌入(word embeddings)。

针对检验文本和类别型数据的特征提取，采用独热编码/标签编码/词袋模型/TF-IDF方式实现数值特征的提取；针对检验参数等数值型数据的特征提取，采用归一化等方式进行处理。结合这些数据的直接或者降维的数值特征，构成健康状态相关的特征集合x,

在本实施例中，提取特征，构造特征集合，具体流程包括以下步骤：

N1、利用Bert模型，将检验问题在内的检验文本，提取为Word Embeddings(单词嵌入)特征；

N2、利用独热编码/标签编码/词袋模型/TF-IDF将安全状况等级、压力容器类别等在内的类别数据，提取为1,2..等数值型特征；

N3、将压力、温度等数据，提取为标准化的数值型特征；

N4、将特征横向拼接，构造特征集合。

(三)基于重构误差的设备健康状态评估

通用健康指标计算算法：在机器学习中，表示学习(Representation Learning)是一种通过学习数据的特征来提取数据内蕴结构结构和特征的方法。在传统机器学习中，通常需要手工设计特征来表示数据，这种方法需要人工经验和领域知识，并且往往难以满足复杂的数据结构和特征要求。而表示学习则通过自动学习数据的特征来解决这个问题。健康状态特征集合呈现高维特征，在高维空间进行状态的划分比较困难。

深度自编码是一种深度神经网络，其目的是将输入数据压缩成低维表示，再通过解码器将其还原回原始数据。假设承压设备是健康的样本占据多数，通过健康样本构造的自编码器输出重构误差比较小，异常的重构误差非常大，因此可以将重构误差作为设备偏离正常的一个指标，即可以用来计算健康指标，如图6所示。

将深度自编码器使用健康设备的特征集合进行训练，得到的模型重构误差在20％范围的置信度应不低于90％。然后将深度自编码器用于待评估设备的特征，得到重构误差，然后计算健康指标h

其中

健康指标接近1表示设备检验时的处于相对健康的状态，接近0表示处于非常不健康状态。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国特种设备检测研究院;

上一篇：一种定向天线多功能引向器
下一篇：一种支付状态的识别方法、装置、电子设备及存储介质