掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多模型融合的工业异常检测模型训练方法和装置

文献发布时间:2024-04-18 19:55:00


一种基于多模型融合的工业异常检测模型训练方法和装置

技术领域

本发明涉及工业设备异常检测领域,特别涉及一种基于多模型融合的工业异常检测模型训练方法和装置。

背景技术

在工业领域,正确地识别设备异常的类型有助于运维人员更快速的锁定问题、从而及时地采取相应的措施。随着工业传感器的广泛应用,可以收集到大量关键设备的监控数据。数据驱动的异常检测方法应运而生,通过对传感器数据的实时监控,可以动态地识别设备是否出现异常,以及识别异常的类型。

基于深度学习神经网络的工业异常检测方法正逐步获得重视,基于深度学习的工业异常检测方法有如下优势:1. 对特征工程的依赖较少,可以实现端到端的训练;2. 模型结构灵活,拟合能力强,可以提取出数据中复杂的模式;但是,深度学习方法对于有标注数据集的要求较高,往往需要较大量的标注数据才能达到较好的预测效果。

在工业异常检测领域,数据标注难度较大,带标注的数据通常难以获得;此外,工业数据涉及数据安全、商业机密问题,不同工厂、部门的设备运行数据往往不能共享,原始数据难以获得;另外,工业设备结构、运行环境都很复杂,很难一开始就掌握所有的异常类型;因此存在迭代模型的需求,从而将新发现和定义的异常类型考虑进去。

通常,针对相同型号的设备,不同工厂、或者相同工厂在不同的历史时期会训练出多个模型;对现有的模型加以利用可以有效的提升预测效果,其中,传统集成学习可以通过综合多个子模型来提升集成模型的效果;但是集成学习方法存在以下问题:1. 所有的子模型都要参与计算,在子模型数量多时,计算压力显著增加;2. 一般要求所有子模型对几个相同的类别作分类,而在工业异常检测领域,时常出现新的异常类型,不同时期模型所支持的异常类别存在差异。

发明内容

为了解决现有技术中存在的上述技术问题,本发明提出了一种基于多模型融合的工业异常检测模型训练方法和装置,其具体技术方案如下:

一种基于多模型融合的工业异常检测模型训练方法,包括以下步骤:

步骤一,获取传感器数据后进行预处理;

步骤二,将预处理得到的传感器特征张量分别输入多个教师模型和学生模型,获取模型中各个网络层输出的特征,特征包括中间层张量和任务层向量;

步骤三,将教师模型的中间层张量、学生模型的中间层张量分别映射为教师公共空间张量、学生公共空间张量;

步骤四,获取并根据各个教师公共空间张量的注意力系数,对所有教师公共空间张量加权平均,得到与学生公共空间张量相对应的教师加权张量,再将所有的教师模型任务层向量横向拼接成一个一维的教师任务层拼接向量;

步骤五,对比学生公共空间张量与其相应的教师加权张量,得到蒸馏损失;对比学生模型任务层向量和教师任务层拼接向量,得到任务损失;对比数据集标注的标签与学生模型的任务层向量,得到预测损失;基于所述的蒸馏损失、任务损失与预测损失,得到总的损失;

步骤六,重复步骤一至步骤五,最小化总的损失,更新学生模型的神经网络参数,直至收敛并固定学生模型的神经网络参数,获得目标模型,完成训练。

进一步的,所述步骤一具体为:利用单层的LSTM网络,将传感器数据转化为传感器特征张量

进一步的,所述步骤二,具体包括以下子步骤:

S21,将传感器特征张量

S22,将传感器特征张量

S23,对于第

进一步的,所述步骤三,具体包括以下子步骤:

S31,将教师模型的中间层张量转化为维度相同的教师公共空间张量,对于第

S32,若非线性变换

S33,对于第

S34,通过对比教师模型的中间层张量

其中,

S35,将学生模型的中间层张量转化为维度相同的学生公共空间张量,对于第

进一步的,所述步骤四,具体包括以下子步骤:

S41,基于第

S42,根据注意力系数

S43,将所有的教师模型的任务层向量拼接成一个一维的教师任务层拼接向量

其中,

进一步的,所述步骤五,具体包括以下子步骤:

S51,对比学生模型的第k个层的学生公共空间张量

其中,

其中,

S52,对比学生模型任务层向量即输出的向量

S53,对于少量有标注的数据集,对比学生模型输出的向量

其中,

S54,将蒸馏损失

其中,

进一步的,所述步骤六,具体包括以下子步骤:

S61,重复步骤一至步骤五,使用梯度下降算法,最小化损失函数

S62,当模型损失函数

一种基于多模型融合的工业异常检测模型训练装置,包括一个或多个处理器,用于实现所述的一种基于多模型融合的工业异常检测模型训练方法。

一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的一种基于多模型融合的工业异常检测模型训练方法。

与其他方法相比,本发明有如下优点:

1. 采用多模型融合的方法,融合多个教师模型的信息,可以对现有模型重复利用,得到可以识别更多异常类别的模型;

2. 能够实现在不接触教师模型训练数据的情况下,通过大量无标注数据完成训练,减轻训练工业异常检测模型时对工业标注数据集的依赖;

3. 与传统的集成学习方法相比,预测时不需要让所有的教师模型参与计算,一经完成训练,只需要用单独一个学生模型做预测即可,可以减小计算资源消耗;

4. 通过少量标注的新异常类型训练数据,可以使目标模型实现对新异常类型的识别与预测。

附图说明

图1是本发明的一种基于多模型融合的工业异常检测模型训练方法的流程示意图;

图2是本发明实施例的一种基于多模型融合的工业异常检测模型训练装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。

在本实施例中,工业异常信号的检测需要根据传感器信号正确地识别设备故障的类型,所述场景下,第一个教师模型可以识别6种不同类型的异常,另有一类是“正常状态”(共7个类别);第二个教师模型可以识别7种不同类型的异常,另有一类是“正常状态”(共8个类别);现有的数据集中,包含一类在多模型中未出现的异常类型,所述场景的问题可以抽象为多分类问题;所述不同时期的数据集已经不可获得;目前可获得的数据为近期采集到的大批量无标注的传感器数据,以及少量的人工标注数据。

基于上述实例,如图1所示,本发明提出的一种基于多模型融合的工业异常检测模型训练方法,包括以下步骤内容:

步骤一,获取传感器数据后进行预处理。

其中,所述传感器数据,具体为:假设有

其中每列是一个时间步上的数据,对于每个时间步:

中每行是单个传感器在时间窗口内采集到的数据,/>

本发明的一个实施例是采用单层的LSTM网络作为传感器数据处理模块,对传感器数据进行预处理,即:传感器数据

步骤二,将预处理得到的传感器特征张量分别输入多个教师模型和学生模型,获取模型中各个网络层输出的特征,特征包括中间层张量和任务层向量。

具体的,将传感器特征张量

本发明实施例中,所述的多个教师模型为两个不同结构的模型,包括教师模型1和教师模型2,其中的教师模型1由四个卷积神经网络CNN层和一个全连接层构成,模型的输出为对7种类别的概率分布;教师模型2由两个叠加的长短时间记忆LSTM层和一个全连接层构成,模型的输出为对8种类别的概率分布;学生模型由三层自注意力层Self-attention层和一个全连接层构成;新的数据集中,有一类新的异常类型;学生模型的输出为16个类别的概率分布,此处16个类别,是两个教师模型中不去重的类别,加上数据集中新类别的总类别数。

所述步骤二,具体包括以下子步骤:

S21,将传感器特征张量

本发明实施例中,对于教师模型1的四个CNN层,由输入的传感器特征张量

第一层:

第二层:

第三层:

第四层:

其中,

对于教师模型2的两个LSTM层,由传感器特征张量

第一层:

第二层:

其中,

S22,将传感器特征张量

本实施例中,对于学生模型的两个Self-attention层,由传感器特征张量

第一层:

第二层:

其中,

S23,对于第

本实施例中,对于教师模型1、教师模型2,学生模型,其相应的任务层向量分别为:

其中,学生模型任务层向量的维度为所有教师模型任务层向量维度的和,共15维,再加上数据集中新出现的类别数,1类。

步骤三,将教师模型的中间层张量、学生模型的中间层张量分别映射为教师公共空间张量、学生公共空间张量,所述教师公共空间张量、学生公共空间张量维度相同,具包括以下子步骤:

S31,将教师模型的中间层张量转化为维度相同的教师公共空间张量,对于第

以教师模型1第二层的中间层张量为例,其相应的教师公共空间张量的表达式为:

其中,

S32,若非线性变换

其中,对于将教师模型的中间层张量转化为教师公共空间张量的变换

S33,对于第

其中,非线性重构变换

S34,通过对比教师模型的中间层张量

其中,

S35,将学生模型的中间层张量转化为维度相同的学生公共空间张量;实施例中,将学生模型的中间层张量

分别是所述学生模型的中间层张量/>

对于第

其中,

步骤四,获取并根据各个教师公共空间张量的注意力系数,对所有教师公共空间张量加权平均,得到与学生公共空间张量相对应的教师加权张量,再将所有的教师模型任务层向量横向拼接成一个一维的教师任务层拼接向量,具体包括以下子步骤:

S41,基于第

S42,根据注意力系数

S43,将所有的教师模型的任务层向量拼接成一个一维的教师任务层拼接向量

其中,

步骤五,对比学生公共空间张量与其相应的教师加权张量,得到蒸馏损失;对比学生模型任务层向量和教师任务层拼接向量,得到任务损失;对于少量有标注的数据集,对比数据集标注的标签与学生模型的任务层向量,得到预测损失;基于所述的蒸馏损失、任务损失与预测损失,得到总的损失,具体包括以下子步骤:

S51,对比学生模型的第k个层的学生公共空间张量

其中,

S52,对比学生模型任务层向量即输出的向量

S53,对于少量有标注的数据集,对比学生模型输出的向量

其中,

S54,将蒸馏损失

其中,

步骤六,重复步骤一至步骤五,最小化总的损失,更新学生模型的神经网络参数,直至收敛并固定学生模型的神经网络参数,获得目标模型,完成训练,具体包括以下子步骤:

S61,重复步骤一至步骤五,使用梯度下降算法,最小化损失函数

S62,当模型损失函数

与前述一种基于多模型融合的工业异常检测模型训练方法的实施例相对应,本发明还提供了基于多模型融合的工业异常检测模型训练装置的实施例。

参见图2,本发明实施例提供的一种基于多模型融合的工业异常检测模型训练装置,包括一个或多个处理器,用于实现上述实施例中的基于多模型融合的工业异常检测模型训练方法。

本发明基于多模型融合的工业异常检测模型训练方法的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本发明基于多模型融合的工业异常检测模型训练装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于多模型融合的工业异常检测模型训练方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

相关技术
  • 具有紧凑的用户对象和离线数据库更新的用于优化的服务访问的代理高速缓存
  • 配置用于分级高速缓存的代理服务器以及动态站点加速和自定义对象和相关的方法
技术分类

06120116387173