掌桥专利:专业的专利平台
掌桥专利
首页

基于改进密度峰值聚类的复杂装备参数异常检测方法

文献发布时间:2023-06-19 19:28:50



技术领域:

本发明涉及复杂装备参数异常检测技术领域,具体的说是一种能够在不需要执行复杂调参等处理的前提下,提高检测准确度的基于改进密度峰值聚类的复杂装备参数异常检测方法。

背景技术:

由于复杂装备如民航发动机气路参数原始值中存在极端样本不平衡、标签不充分等特点,大部分异常检测方法难以得到准确的异常检测结果,对于零部件数量较多的复杂设备参数的异常检测任务,不同设备运行健康状态不同,因此它们提取出的特征一同参与密度聚类必然会降低精度。而单台设备数据集规模较小,样本局部密度受到截断距离d

现存的改进密度峰值聚类DPC算法最终目的是聚类而不是异常检测,离群点可能被划分为聚类中心,也可能被分配给距离最近的类。但是异常检测任务面对的离群点通常独立于所有类别之外,离群点的相互关联也很小,粗暴的将其当作聚类中心或者分配给其他类,会给异常检测任务带来极大的误差。同时K近邻样本数目需要多次调整,存在极大主观性。

发明内容:

本发明针对现有技术中存在的缺点和不足,提出了一种能够在不需要执行复杂调参等处理的前提下,提高检测准确度的基于改进密度峰值聚类的复杂装备参数异常检测方法。

本发明通过以下措施达到:

一种基于改进密度峰值聚类的复杂装备参数异常检测方法,其特征在于,包括以下步骤:

步骤1:构建复杂装备参数异常检测模型,其中对于异常样本足够的设备建立弱监督异常检测模型,对异常样本不足的设备建立无监督异常检测模型;

步骤2:执行异常检测,具体包括:

步骤2-1:采用宽度δ=1的指数核函数定义局部密度,如下式所示:

式中KNN(i)——点i的K近邻点组成的集合,

d

原离群点阈值如公式(5)~(7)所示,其余点聚类完成后最后分配离群点给距离它最近的聚类,离群点阈值通过平均的方式确定,导致选择出的离群点非常多,而且离群点最后分配给距离最近的类别可能会导致离群点无法被判断为异常,k

步骤2-2:执行如公式(8)-(10)坐标变换,

(x

式中x

步骤2-3:聚类过程如下:

步骤2-3-1:计算局部密度,确定密度峰值点,通过决策图确定聚类中心,并依次添加类别标签m(m=0,1,2,3,…,M),

步骤2-3-2:不断搜索聚类中心的K近邻中未分配聚类的点,将其划分给聚类中心所在聚类,

步骤2-3-3:计算剩余点属于各类别的概率,将其分配给概率最大的类,其中概率计算方法如公式(11)、(12)所示,分别计算点x

式中KNN(i)为点i的K近邻集合,y

d

w

步骤4:输出异常检测结果。

本发明中对于异常样本数量大于1的复杂装备,执行以下弱监督聚类调整策略:

步骤3-1:提出K近邻数的迭代策略,K近邻数从0.9总样本数开始,以0.1总样本数为间隔减小取值,当K近邻数小于0.1总样本数时,不断减半并取整,直到K近邻数取值为1;

步骤3-2:不断迭代划分离群点和少数类,少数类判断标准为:根据类内样本数是否少于0.01总样本数判断;

步骤3-3:仅随机保留异常标签中的一个,每次迭代后判断异常检测结果是否检测出该已知异常,即离群点和少数类样本中是否包含该已知异常,如果能够检测到异常则停止迭代;

步骤3-4:如果K近邻数减小到1仍然检测不到异常,则为少数类判断标准增加0.01总样本数;

步骤3-5:如果少数类判断标准增加到0.1总样本数仍然无法找到异常,则认为异常检测算法无效;

步骤3-6:异常检测完成后保存弱监督聚类参数,判断抹除了标签的异常是否被算法检测出来,如果能全部检测出来则认为异常算法效果很好,检测出部分则认为算法效果较好,检测不出则认为算法无效;

至此,完成了不需要复杂调参过程的基于改进密度峰值聚类的弱监督异常检测算法,当有新数据需要被异常检测时,将新数据加入到旧数据中,通过弱监督异常检测,实现对新数据的异常检测;

对于异常数量仅有一个的复杂装备,弱监督聚类调整策略不适用,因此只能采用无监督聚类的方法,根据CH系数、轮廓系数、戴维森堡丁指数、邓恩指数四个评价指标不断调整K近邻数,将得分最高的聚类用于异常检测,其中CH系数通过距离的平方和来计算紧密性和分离性,轮廓系数SC通过观察聚类边界的明显程度计算紧密性和间隔性,戴维森堡丁指数DBI通过类内样本聚类平均值的最大值和聚类中心距离计算紧密性和间隔性,邓恩指数DVI计算类间样本最近距离与类内样本最远距离的比值来判断紧密性和间隔性。

本发明与现有技术相比,为避免极端样本不平衡影响检测效果,采用密度峰值聚类算法;为克服局部密度计算方式的主观性,引入基于样本K近邻的局部密度度量准则;为克服样本分配过程中潜在的连锁分配错误问题,引入基于样本K近邻的样本分配策略;为提高离群点选择准确性降低离群点对聚类过程的影响,提出新的离群点阈值确定方式和离群点处理方式;针对异常样本足够的发动机,为降低调参难度,提出弱监督聚类参数调整策略,针对异常样本数不足的发动机,提出弱监督情况下的异常检测方式,显著提高了检测精度。

附图说明:

附图1是本发明的一种实施原理框图。

附图2是本发明实施例中旧离群点阈值曲线图。

附图3是本发明实施例中新离群点阈值曲线图。

附图4是本发明实施例中K近邻数对聚类效果的影响曲线图。

具体实施方式:

下面结合附图和实施例,对本发明做进一步的说明。

实施例1:

本例以航空发动机参数为例,提出一种基于改进密度峰值聚类的航空发动机设备参数异常检测方法:

由于民航发动机气路参数原始值中存在极端样本不平衡、标签不充分等特点,大部分异常检测方法难以得到准确的异常检测结果,因此研究一种不被极端样本不平衡情况影响,能够从不充分的标签中挖掘有用信息的异常检测方法至关重要。密度聚类根据样本分布位置的密度判断样本所在的类别,不会被类别不平衡影响,能够准确找到异常点,因此研究基于密度聚类的异常检测方法具有广泛的应用前景。

针对以上问题,本发明提出一种以改进密度峰值聚类为基础的弱监督异常检测算法。首先考虑到密度峰值聚类局部密度计算方式和样本分配策略的缺陷,引入基于K近邻的样本局部密度定义策略和样本分配策略;为了使密度峰值聚类更好的用来异常检测,降低离群点给聚类分配带来的影响,提出自适应的离群点阈值确定方法并将离群点排除出聚类分配过程;最后为了利用标签并减少复杂调参过程,通过分析K近邻数目对聚类效果的影响,提出弱监督聚类参数调整策略,以检测出已知异常为目的,通过迭代自动的调整参数,实现不需要复杂调参过程的弱监督异常检测方法。

为了对提取出的特征进行准确的异常检测,提出如图1所示的异常检测算法。为避免极端样本不平衡影响检测效果,采用密度峰值聚类算法;为克服局部密度计算方式的主观性,引入基于样本K近邻的局部密度度量准则;为克服样本分配过程中潜在的连锁分配错误问题,引入基于样本K近邻的样本分配策略;为提高离群点选择准确性降低离群点对聚类过程的影响,提出新的离群点阈值确定方式和离群点处理方式;针对异常样本足够的发动机,为降低调参难度,提出弱监督聚类参数调整策略,针对异常样本数不足的发动机,提出弱监督情况下的异常检测方式。

密度峰值聚类(Clustering by Fast Search and Find of Density Peaks,DPC)算法假设理想的聚类中心有两个基本特征:1)其局部密度大于周围点的局部密度;2)不同聚类中心分布较远。DPC算法提出了样本i的局部密度ρ

式中d

对于本发明的异常检测任务,不同发动机健康状态不同,因此它们提取出的特征一同参与密度聚类必然会降低精度。而单台发动机数据集规模较小,样本局部密度受到截断距离d

现存的改进DPC算法最终目的是聚类而不是异常检测,离群点可能被划分为聚类中心,也可能被分配给距离最近的类。但是异常检测任务面对的离群点通常独立于所有类别之外,离群点的相互关联也很小,粗暴的将其当作聚类中心或者分配给其他类,会给异常检测任务带来极大的误差。同时K近邻样本数目需要多次调整,存在极大主观性。为此,我们提出了基于改进密度峰值聚类(Improved Density Peak Clustering,IDPC)的异常检测算法和弱监督聚类调整策略。

首先优化离群点划分方式,并将离群点直接定义成异常,降低其对聚类结果的干扰;然后优化聚类分配策略完成对剩余点的聚类,把类内样本数量过少的少数类样本和离群点当作异常处理;通过多个评价指标评估K近邻数对聚类精度的影响,提出通过迭代自动选取K近邻样本数和找出异常即终止迭代的弱监督聚类参数调整策略和弱监督IDPC。最后考虑弱监督的适用范围小,提出了无监督IDPC。

采用宽度δ=1的指数核函数定义局部密度,如公式4所示。

式中KNN(i)——点i的K近邻点组成的集合。

d

离群点阈值如公式5-7所示,其余点聚类完成后最后分配离群点给距离它最近的聚类。离群点阈值通过平均的方式确定,导致选择出的离群点非常多,而且离群点最后分配给距离最近的类别可能会导致离群点无法被判断为异常。

k

Outlier={o|k

式中k

如图2绿色线段表示原有的旧离群点阈值,Kdist表示全部k

如图3表示新离群点阈值计算方式,以曲线Kdist最小值作为原点,将曲线Kdist旋转到图示角度,获得新坐标轴和新曲线Kdist′。新坐标轴上新曲线Kdist′的最小值即为拐点,将其设置为离群点阈值,再求出该阈值对应的原坐标轴上位置即可,坐标变换过程如公式8-10所示。

(x

式中x

y

M

x

y

坐标变换完成后即可找到阈值点Threshold′(x

完整的聚类过程如下所示:

1)计算局部密度,确定密度峰值点,通过决策图确定聚类中心,并依次添加类别标签m(m=0,1,2,3,…,M)。

2)不断搜索聚类中心的K近邻中未分配聚类的点,将其划分给聚类中心所在聚类。

3)计算剩余点属于各类别的概率,将其分配给概率最大的类。

概率计算方法,如公式11-12所示,分别计算点x

式中KNN(i)——点i的K近邻集合。

y

d

s

P

w

聚类完成后,将噪声点和少数类作为异常。

弱监督聚类参数调整策略:CH系数(Calinski-Harabasz,CH)、轮廓系数(Silhouette Coefficient,SC)、戴维森堡丁指数(Davies-Bouldin Index,DBI)和邓恩指数(Dunn Validity Index,DVI)是四种评估聚类效果的无监督指标,总体来说类内紧密性越大,类间分离性越大,聚类效果越好。CH通过距离的平方和来计算紧密性何分离性,SC通过观察聚类边界的明显程度计算紧密性和间隔性,DBI通过类内样本聚类平均值的最大值和聚类中心距离计算紧密性和间隔性,DVI计算类间样本最近距离与类内样本最远距离的比值判断紧密性和间隔性。

如图4所示为本发明所用数据的K近邻数从1增长到1602(0.9倍总样本)时的四种指标得分。从无监督角度来看,对于本发明的异常检测任务,当K最近邻数较大时,聚类结果比较接近理想情况下的结果:正常-异常类,类别数较少。当K最近邻数较小时,聚类结果中类数较多,离群点和少数类样本都非常多。K最近邻数越大,多数类样本数越大,聚类结果中的类数就越少,这就导致了通过样本距离平方和计算得到的紧密度增加,分离度减小。因此,当K近邻数越大,CH越差。其他指标使用均值或最大值而不是平方和来计算紧密度和分离度,避免了大多数类别中样本过多的影响,从而得到相似的得分趋势。因此,聚类效果以后三个指标为准。即K近邻数越大,聚类得分越高,K近邻数接近于1时,聚类得分次之,因此K近邻取值应较大或较小。

本发明所用数据中,大部分数据为正常数据,其分布较为集中,最理想的聚类结果为将数据聚类为两类,即正常和噪声(异常)。当K近邻数比较大时(接近样本总数),聚类结果受到整体数据的影响,聚类结果更接近理想情况下的聚类,找出的噪声较少,少数类内样本也较少。当K近邻数较小时(接近于1),局部密度更能反映数据点附近的局部状况,聚类更精细,聚类出的类别更多,噪声点和少数类内样本也更多。因此K近邻数取值应较大或较小。

对于异常样本数多于1的发动机,我们提出了如下的弱监督聚类调整策略:

1)提出K近邻数的迭代策略,K近邻数从0.9总样本数开始,以0.1总样本数为间隔减小取值,当K近邻数小于0.1总样本数时,不断减半并取整,直到K近邻数取值为1;

2)不断迭代划分离群点和少数类,少数类判断标准为:根据类内样本数是否少于0.01总样本数判断;

3)仅随机保留异常标签中的一个,每次迭代后判断异常检测结果是否检测出该已知异常,即离群点和少数类样本中是否包含该已知异常,如果能够检测到异常则停止迭代;

4)如果K近邻数减小到1仍然检测不到异常,则为少数类判断标准增加0.01总样本数;

5)如果少数类判断标准增加到0.1总样本数仍然无法找到异常,则认为异常检测算法无效。

6)异常检测完成后保存弱监督聚类参数,判断抹除了标签的异常是否被算法检测出来,如果能全部检测出来则认为异常算法效果很好,检测出部分则认为算法效果较好,检测不出则认为算法无效。

至此,完成了不需要复杂调参过程的基于改进密度峰值聚类的弱监督异常检测算法。当有新数据需要被异常检测时,将新数据加入到旧数据中,通过弱监督异常检测,实现对新数据的异常检测。

对于异常数量仅有一个的发动机,弱监督聚类调整策略不适用,因此只能采用无监督聚类的方法,根据上文的四个评价指标不断调整K近邻数,将得分最高的聚类用于异常检测。但是由于四个指标的评价标准不一致,K近邻不易调整,又因为缺少了标签信息的指导,异常检测漏报和误报难以控制。

通常使用虚警率和ROC曲线(Receiver Operating Characteristic Curve,受试者工作特征曲线)来评价异常检测算法的效果,前者为虚警数量与检出异常数量的比值,后者根据误报和漏报等指标计算。虚警率需要有足够数量的异常样本,ROC曲线需要足够数量的异常样本和完全的有监督标签。

对于本发明所用的数据,样本总量很多,异常样本很少,标签更少,无论是虚警率还是ROC曲线都无法用来判断本发明方法的好坏。考虑到不同的样本总量对虚警个数的容忍程度不同,本发明采用能够检测出异常的情况下虚警总数与样本总数的比值作为评价指标。

为验证本发明提出的方法是否有效,对本发明方法进行应用验证。由于本发明所用数据中,大部分发动机仅有一个异常标签,因此这部分发动机采用无监督IDPC进行异常检测;对于其余存在多个异常的发动机,随机保留一个异常标签进行弱监督IDPC异常检测,检测完成后,异常检测效果的判断标准为:是否检测到全部或部分被抹除标签的异常。

基于改进密度峰值聚类的异常检测算法的应用验证过程如下所示:

1)构建异常检测模型;

2)针对不同异常数量的发动机分别设置弱监督异常检测模型和无监督异常检测模型,对于使用弱监督异常检测的发动机,随机保留一个异常标签用于指导弱监督异常检测过程,对于使用无监督异常检测的发动机,标签不参与异常检测过程;

3)执行异常检测;

4)根据弱监督异常检测结果调整弱监督异常检测超参数,根据无监督聚类评价指标调整无监督异常检测超参数;

5)输出异常检测结果;

6)对于弱监督异常检测,使用被抹除标签的异常验证异常检测结果有效性,对于无监督异常检测,使用标签判断异常检测结果有效性,如表所示;

7)为证明本发明方法的优越性,采用多组密度聚类方法和多组特征提取方法交叉组合作为对比试验,采用漏报和误报作为评价异常检测结果的指标。

表1异常检测结果

表1所示为MKSFA结合IDPC异常检测算法(MKSFA+IDPC)的异常检测结果和WSFE结合IDPC的异常检测结果。其中WSFE特征提取模型中四台旧发动机采用新发训练模型所提取出的特征,其余发动机采用混合训练模型提取出的特征。本发明提出的两种方法均能够找到12台发动机的大部分异常,漏报少,除个别发动机以外,误报较少,将两种方法结合起来更能有效降低漏报,满足实际应用需求。

为了证明本发明所提出方法的有效性和本发明中模型设置的正确性,下面采用多个不同的异常检测模型作为对比试验。模型1为高斯核慢特征分析特征提取方法结合IDPC进行异常检测;模型2为多项式核慢特征分析特征提取方法结合IDPC进行异常检测;模型3为线性核慢特征分析特征提取方法结合IDPC进行异常检测;模型4为使用不添加WSCE损失函数和分类器的特征提取方法结合IDPC进行异常检测;模型5为不添加WSCE损失函数和分类器的特征提取方法结合DPC进行异常检测;模型6为WSCE结合DPC进行异常检测;模型7为WSFE结合OPTICS进行异常检测。表2表所示为以上模型的异常检测效果,带有下划线的结果表示该异常检测结果是弱监督的。

表2针对模型细节的异常检测对比试验

模型1~3的结果说明本发明第二章提出的混合核函数能够有效的提高特征提取和异常检测效果,异常特征更明显的同时异常检测虚警更少,证明了本发明第二章特征提取方法的有效性。模型4~7的结果说明本发明第三章的模型结构,损失函数等设置能够有效提高特征提取效果,挖掘到准确的发动机气路基线的同时,提取出的一场特征更容易被检测到,证明了本发明第三章特征提取方法的有效性。本发明的异常检测方法能够检测出大部分已知异常,漏报和误报少,证明了本发明特征提取及异常检测方法的优越性。

为了证明本发明的异常检测方法优于现有方法,将PCA、AE、ICA和LLE四种特征提取方法分别结合IDPC、DPC和OPTICS构建共12组模型做异常检测对比实验。为节省篇幅,其中七组无效模型的异常检测结果并未具体列出,对比结果如表3所示,同样地,带有下划线的结果表示该异常检测结果是弱监督的。

表3传统方法的异常检测对比试验

根据表3可知,传统特征提取方法提取出的特征不能准确反应异常的特点,无论使用何种异常检测方法均不能有效的检测出异常,证明了本发明提出的方法是具有广泛应用前景的异常检测方法。

本发明主要提出了一种基于改进密度峰值聚类的异常检测算法和弱监督调整策略,首先针对密度峰值聚类算法的特点,结合样本K近邻信息,对密度峰值聚类算法的局部密度定义方式、样本分配策略、离群点阈值等做出了改进。其次通过分析前文提取特征结果的特点,研究了不同K近邻样本数对聚类结果的影响。最后,针对异常样本充足的发动机,通过加入弱监督标签信息,提出了弱监督聚类调整策略,实现了不需要复杂调参的弱监督异常检测算法。经多组对比实验验证,本发明提出的方法更契合前文提出的特征提取方法,漏报误报少,性能相比于传统算法最少提升一个数量级,能够满足航空公司的实际需求。

相关技术
  • 一种基于改进密度峰值聚类的马蹄窑能耗异常检测方法
  • 基于改进密度峰值聚类的信号依赖噪声参数估计方法
技术分类

06120115922122