导航：首页> 服装>基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法

基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法

文献发布时间：2023-06-19 09:52:39

技术领域

本发明涉及数据模式提取技术领域，尤其涉及一种基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法。

背景技术

在工业装置中，报警系统对保证过程的安全性和可靠性起着重要的作用，它能及时将异常和故障传递给操作人员，防止进一步破坏甚至灾难的发生。过去报警配置成本较高，因为配置报警变量就要对过程变量配置一个传感器，成本较高。因此需要充分有效的专家知识来精心选择过程变量配置报警变量。但一方面，随着生产规模的扩大和工业流程的复杂，现代工厂内需要监测的过程变量有数百个之多。另一方面，先进的现代控制系统，如分布式控制系统(DCS)，使配置报警变量成本极低，只需要在软件中进行设置。以上两种原因导致了大量的报警变量的引入，带来了许多无效和冗余的报警变量。由于工厂中不同设备间的物理连接，一个部分的异常会传播到几个不同的部分，通常会引发工厂范围内的异常。为这些流程配置的一系列报警变量将依次被激活。此外，大量的单个报警变量会因干扰和异常而被反复激活。因此操作者会在很短的时间内收到过多的报警，而无法找到根本原因进行处理，即报警泛滥。报警系统的功能也不能正常工作，最终会导致大规模的破坏。

报警泛滥已成为工厂运行过程中常见而严重的难题。EEMUA和ISA标准建议在考虑操作人员响应时间的情况下，将报警泛滥的阈值设为每10分钟报警10次。许多研究都对报警系统进行了优化设计，以抑制报警洪水的发生或减轻报警洪水的影响。

报警泛滥分析是处理报警泛滥问题的一个重要分支。以序列的形式从报警日志中提取报警泛滥数据，找出相似报警泛滥序列之间的模式，为揭示报警信息之间的关系提供了可能。所得到的模式有助于优化报警管理。首先，由于模式本身的顺序，先发生的报警有可能是后续报警的原因报警。其次，模式可以帮助训练操作人员在遭遇报警泛滥时更有效地处理报警信息。再次，在模式中也可以发现报警系统本身配置不当。最后，将从历史报警数据中提取的模式存储为存储库，并制定相应的管理策略。在线对报警数据进行匹配，以警告操作员即将到来的报警泛滥。同时，作为一种数据挖掘算法，可以更好地处理先验知识难以获取的庞大过程。

传统的报警泛滥分析方法大多是通过两两序列比对的算法获得报警泛滥序列间的相似度，依据相似度进行聚类，在每个子类中再依据序列比对算法进行模式挖掘。序列比对方法大都无法从多个序列中提取模式，虽然提出了多序列处理方向的扩展，但随着处理序列数量的增加，计算量将呈指数增长，提取的模式将更加稀疏，实际意义更小。此外，由于使用聚类方法，如果一个序列中包含不同长度的模式，那么在聚类过程中次要模式会被忽略。PrefixSpan算法解决了以上的问题。但是PrefixSpan算法在处理报警数据时，忽略了时间信息，仅保留了次序信息，还有进一步完善的空间。本发明对PrefixSpan算法的算法结构做了进一步的改进，获得了在报警系统中更具有实际意义的报警泛滥序列数据模式提取方法。

发明内容

为解决现有技术存在的局限和缺陷，本发明提供一种基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法，包括：

剔除持续时间小于预设时间的报警；

剔除抖振报警；

提取报警泛滥序列数据；

提取报警泛滥序列数据模式；

所述剔除持续时间小于预设时间的报警的步骤包括：在报警数据中将持续时间小于预设时间的报警数据剔除，对剩余的报警数据实施抖振报警剔除过程；

所述剔除抖振报警的步骤包括：在剔除持续时间小于预设时间的报警数据之后，针对每个报警变量进行关断延迟定时器的设置，减少抖振报警的数目，将剔除抖振报警的报警数据用于报警泛滥序列数据的提取过程；

所述提取报警泛滥序列数据的步骤包括：以10分钟为窗体宽度对剔除抖振报警的报警数据进行分割，将窗体内报警次数大于等于10次的报警序列数据提取为报警泛滥序列数据；

所述提取报警泛滥序列数据模式的步骤包括：根据改进PrefixSpan算法，在允许确定时间裕度内的顺序模糊的条件之下，获得所述报警泛滥序列数据中的频繁子序列作为报警泛滥序列数据模式。

可选的，所述剔除持续时间小于预设时间的报警的步骤还包括：

定义持续时间为报警变量被激活、发出报警并在报警日志中记录报警出现信息开始到报警变量被抑制、结束报警并在报警日志中记录报警结束信息结束之间的时间；

设置预设时间为T

剔除持续时间小于预设时间T

可选的，所述剔除抖振报警的步骤还包括：

对每个报警变量设置关断延迟定时器，所述关断延迟定时器设置为在预设的报警变量被激活、开始报警并在报警日志中记录报警出现信息之后的时间T

所述关断延迟定时器的设置结束之后，所述报警变量的持续时间至少为T

可选的，所述提取报警泛滥序列数据的步骤还包括：

根据剔除持续时间小于预设时间的报警以及剔除抖振报警的报警数据，获得报警出现信息，所述报警出现信息包括报警变量和报警时间，

将所述报警出现信息按照报警日志中的顺序排列成为序列数据，获得报警序列数据的表达式如下：

其中，a

获得所述报警序列数据对应的报警时间序列数据，所述报警时间序列数据的表达式如下：

其中，t

以10分钟为窗口宽度对所述报警序列数据进行分割，将窗口内报警次数大于等于10次的报警序列数据提取为报警泛滥序列数据，得到报警泛滥序列数据库，所述报警泛滥序列数据库的表达式如下：

其中，n

报警序列数据

报警时间序列数据

其中，m

将得到的报警泛滥序列数据库用于提取报警泛滥序列数据模式。

可选的，所述提取报警泛滥序列数据模式的步骤还包括：

根据支持度阈值在报警泛滥数据库中筛选报警变量作为对象集itemset，所述报警变量的数量为N；

根据所述时间裕度、报警序列以及报警时间序列，以所述对象集itemset中的报警变量itemset(i)作为前缀，在所述报警泛滥序列数据库中建立拓展投影数据库；

根据所述支持度阈值在所述拓展投影数据库中筛选所述报警变量作为前缀，在所述拓展投影数据库中建立新的子拓展投影数据库，进行迭代运行，获得由前缀依次串联构成的报警泛滥序列数据模式以及对应的频率；

将获得的报警泛滥序列数据模式加入报警泛滥序列数据模式库，若所述报警泛滥序列数据模式的长度不满足预设的最小模式长度的要求，或者所述报警泛滥序列数据模式库中已经存在与所述报警泛滥序列数据模式的频率相同的超序列，放弃将所述报警泛滥序列数据模式添加到所述报警泛滥序列数据模式库中，以保证所有的报警泛滥序列数据模式满足预设的模式长度要求，而且在同一频率下都是闭序列；

重复所述根据所述时间裕度、报警序列以及报警时间序列，以所述对象集itemset中的报警变量itemset(i)作为前缀，在所述报警泛滥序列数据库中建立拓展投影数据库的步骤，以所述对象集itemset中的下一个对象作为前缀进行模式提取，完成所有N个循环后，结束模式提取。

本发明具有下述有益效果：

本发明提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法，不同于传统PrefixSpan算法，在进行投影数据库建立的时候引入时间信息，将前缀之前一段时间的序列也加入了每条后缀当中，构建拓展投影数据库，其中将这一段时间定义为时间裕度。传统PrefixSpan算法解决了传统报警泛滥分析方法难以处理多序列模式挖掘以及易忽略次要模式的缺陷，但是在传统PrefixSpan算法与报警系统的实际意义存在部分矛盾：首先，同时发生的报警也无法避免要进行排序与实际意义不符。其次，强关联的报警几乎同时出现，顺序不确定；在噪声和检测延迟随机性的影响下，有时也会影响报警产生的顺序。此时，直接按出现顺序提取，同一传播路径生成的模式会具有不同的形式，各个不同形式分散了出现频率，这将导致无法提取相应的传播路径。为了解决这些问题本发明改进了PrefixSpan算法，构建了拓展数据库，提取出的模式允许了确定时间裕度内的顺序模糊，更符合报警系统的实际意义。同时，整理提取到的模式，剔除相同频率的子模式，使模式结果更清晰，能在后续工作中更好地优化报警系统。

附图说明

图1为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的工作流程图。

图2a为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的一种持续时间短报警剔除过程效果图。

图2b为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的另一种持续时间短报警剔除过程效果图。

图3a为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的一种抖振报警剔除过程效果图。

图3b为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的另一种抖振报警剔除过程效果图。

图4为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的改进PrefixSpan算法主流程图。

图5为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的改进PrefixSpan算法拓展投影数据库建立子流程图。

图6为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的改进PrefixSpan算法模式挖掘子流程图。

图7为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的TE过程流程图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法进行详细描述。

实施例一

本实施例去除单变量滋扰报警的同时，将时间信息引入PrefixSpan算法，提取出更符合报警系统实际的报警泛滥序列模式，用于报警系统管理。

本实施例提供的基于改进PrefixSpan算法的流程工业过程报警泛滥序列数据模式提取方法包括：持续时间短报警剔除过程、抖振报警剔除过程、报警泛滥序列数据提取过程、报警泛滥序列数据模式提取过程，其中：

所述持续时间短报警剔除过程为：在报警数据中将持续时间过短的报警数据剔除，对剩余的报警数据实施抖振报警剔除过程；

所述抖振报警剔除过程为：在剔除持续时间短报警之后，针对每一单个报警变量进行关断延迟定时器(off-delay timer)的设置，减少抖振报警的数目，并将剔除抖振报警的报警数据用于报警泛滥序列数据提取；

所述报警泛滥序列数据提取过程为：以10分钟为窗体宽度对报警数据进行分割，将窗体内报警数量高于10次的报警数据序列作为报警泛滥序列数据；

所述报警泛滥序列数据模式提取过程为：采用改进PrefixSpan算法，在允许确定时间裕度下的顺序模糊的条件下，获得报警泛滥序列数据中的频繁子序列作为模式。

本实施例将时间信息引入PrefixSpan算法，构建拓展投影数据库使提取出的模式允许了确定时间裕度内的顺序模糊，更符合报警系统的实际意义。图1为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的工作流程图。本实施例在TE过程中进行检验，具体表述如下：

在报警数据中将持续时间过短的报警数据剔除，报警持续时间过短，没有分析意义。图2a为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的一种持续时间短报警剔除过程效果图。图2b为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的另一种持续时间短报警剔除过程效果图。在本步骤处理前后，TE过程中的报警变量CF5.PVHI的激活状态如图2a和图2b所示，由左至右在经过处理之后消除了右侧持续时间较短的报警。

在剔除持续时间短报警之后，针对每一单个报警变量进行关断延迟定时器(off-delay timer)的设置，减少抖振报警的数目。在某一报警变量被激活、开始报警并在报警日志中记录报警出现信息后的T

对完成持续时间短报警剔除过程和抖振报警剔除过程的报警数据，获得报警出现信息，包括报警变量和报警时间，并将其按照报警日志中的顺序排列成为序列数据，得到报警序列数据：

其中，a

报警序列数据对应的报警时间序列数据为：

其中，t

本实施例以10分钟为窗口宽度对报警序列数据进行分割，若窗口内报警次数大于等于10次则将窗口内的序列提取为报警泛滥序列数据，得到报警泛滥序列数据库：

其中，n

以及对应的报警时间序列数据：

其中，m

将得到报警泛滥序列数据库用于模式提取。

图4为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的改进PrefixSpan算法主流程图。输入端输入：一个报警泛滥序列数据库(SequenceBase)，包括报警序列和时间序列、支持度阈值(表示为min_sup)、最小模式长度(表示为min_pat)和时间裕度(t_mar)。最小模式长度定义为可接受的模式最小长度。与传统算法不同的是，新的时间裕度(t_mar)表示允许顺序中模糊性的时间长度，并且输入的数据库(SequenceBase)包含报警序列和时间序列。输出端输出：模式数据库。

本实施例输入报警泛滥序列数据库，找到报警序列中符合min_sup要求的对象作为前缀集，数量为N。根据给定的时间裕度，通过拓展投影数据库建立子流程M_Project获得拓展投影数据库，这将在后文详细介绍。在拓展投影数据库中查找满足min_sup要求的对象。如果有多个对象，应用模式挖掘子流程M_Patternmining进行模式挖掘，这将在后文详细介绍，以获得模式和对应的频率。在执行了每个N个周期之后，将获得的模式添加到模式数据库中。在向数据库添加模式时，进行两步检查:如果新模式的长度不满足min_pat要求，或者数据库中已经存在相同频率的超序列，则不能将其添加到库中。如果一个新模式被添加到模式库中，模式库中的现有模式将被检查，与新模式频率相同且为新模式子序列的模式将从模式库中删除，从而完成所有的模式获取。

图5为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的改进PrefixSpan算法拓展投影数据库建立子流程图。图5为拓展投影数据库建立子流程，输入是前缀、序列数据库和时间裕度。如前所述，序列数据库中的每个报警泛滥序列由两个对应的报警序列和时间序列组成。判断每个报警序列是否包含一个前缀。如果包含，则获取前缀第一次出现时对应的时间t_pre。提取时间序列中大于(t_pre-t_mar)的部分，删除时间点t_pre。即获得了在时间裕度t_mar下关于该前缀的时间后缀。根据时间后缀中的时间点，得到报警序列中对应的部分作为拓展报警后缀。所有的拓展报警后缀构成了拓展投影数据库。

图6为本发明实施例一提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法的改进PrefixSpan算法模式挖掘子流程图。图6为模式挖掘流程图，输入为序列数据库、项集、前缀、支持阈值、时间裕度。以itemset中的每个对象作为前缀进行循环。在第j个循环中，将前缀itemset(j)设为prefix1与子例程输入的前缀区分开来。以prefix1为前缀构建一个扩展投影数据库。在扩展的投影数据库中提取满足min_sup要求的对象。如果有不止一个，连结prefix和prefix1作为输入，并再次调用模式挖掘子程序。最后，获得模式数据库。本实施例改进了PrefixSpan算法，构建了拓展数据库，提取出的模式允许了确定时间裕度内的顺序模糊，更符合报警系统的实际意义。同时，整理提取到的模式，剔除相同频率的子模式，使模式结果更清晰，能在后续工作中更好地优化报警系统。

经TE过程进行检验，TE工艺流程包括两相反应器、冷凝器、气液分离器、回收压缩机、汽提塔五个运行单元。41个观察变量记录为XMEAS(1-41)，12个控制变量记录为XMV(1-12)。TE进程共有21个故障IDV(1-21)。

TE过程报警数据生成如下，在TE过程的41个观测变量中，XMEAS(23-41)为成分观测量，该成分观测量对系统的安全性和稳定性没有太强的代表性意义。最后，选择了22个进程状态观测值XMEAS(1-22)。为这22个过程变量配置警报变量。根据3σ原理，每个过程变量配置PVHI和PVLO两个报警变量。因此，报警系统共有44个报警变量。

由于XMEAS(5)、XMEAS(6)、XMEAS(14)之间存在较强的相关性，且序列具有不确定性，同一模式产生多种形式。而传统PrefixSpan算法分别计算同一模式的多种形式的频率，导致某些形式的频率降低。如表1所示，4和5是同一模式的不同形式。由于两种形式的挖掘频率都不满足支持阈值的要求，因此两种形式在传统算法获得的模式库在表2中都无法显示。

表1本实施例获得的模式库

表2传统PrefixSpan算法获得的模式库

在这个过程中，XMEAS(14)和XMEAS(5)是分离器的两个流出流，它们之间有着密切的联系。XMEAS(5)和XMEAS(6)在工艺流程中直接相连，且XMEAS(5)直接影响XMEAS(6)。XMEAS(5)、XMEAS(6)和XMEAS(14)变量的顺序不确定，这与实际意义一致。

本实施例提供的基于改进PrefixSpan算法的报警泛滥序列数据模式提取方法，不同于传统PrefixSpan算法，在进行投影数据库建立的时候引入时间信息，将前缀之前一段时间的序列也加入了每条后缀当中，构建拓展投影数据库，其中将这一段时间定义为时间裕度。传统PrefixSpan算法解决了传统报警泛滥分析方法难以处理多序列模式挖掘以及易忽略次要模式的缺陷，但是在传统PrefixSpan算法与报警系统的实际意义存在部分矛盾：首先，同时发生的报警也无法避免要进行排序与实际意义不符。其次，强关联的报警几乎同时出现，顺序不确定；在噪声和检测延迟随机性的影响下，有时也会影响报警产生的顺序。此时，直接按出现顺序提取，同一传播路径生成的模式会具有不同的形式，各个不同形式分散了出现频率，这将导致无法提取相应的传播路径。为了解决这些问题本实施例改进了PrefixSpan算法，构建了拓展数据库，提取出的模式允许了确定时间裕度内的顺序模糊，更符合报警系统的实际意义。同时，整理提取到的模式，剔除相同频率的子模式，使模式结果更清晰，能在后续工作中更好地优化报警系统。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：朱群雄;金成彦;贺彦林;徐圆;张洋;
专利申请人：北京化工大学;