掌桥专利:专业的专利平台
掌桥专利
首页

一种基于top-k和pso的二次系统缺陷数据挖掘方法

文献发布时间:2023-06-19 13:26:15


一种基于top-k和pso的二次系统缺陷数据挖掘方法

技术领域

本发明涉及系统数据挖掘技术领域,具体涉及一种基于top-k和pso的二次系统缺陷数据挖掘方法。

背景技术

PSO是粒子群优化算法(——ParticleSwarmOptimization)的英文缩写,是一种基于种群的随机优化技术,由Eberhart和Kennedy于1995年提出。粒子群算法模仿昆虫、兽群、鸟群和鱼群等的群集行为,这些群体按照一种合作的方式寻找食物,群体中的每个成员通过学习它自身的经验和其他成员的经验来不断改变其搜索模式。

通常情况下,智能站站端存有大量的变电站二次系统缺陷数据,这些数据可以利用关联分析来挖掘背后的隐藏关系,以便于提供辅助性策略,传统关联分析算法应用在智能站二次故障数据处理的过程时,需要设置支持度、置信度等指标来筛选合适的规则,指标需要人为设置,这个过程较为繁琐,同时还会产生大量冗余规则,分析时需要耗费大量人力。

发明内容

本发明的目的是为了克服现有技术存在的需要设置支持度、置信度等指标来筛选合适的规则,指标需要人为设置,这个过程较为繁琐,同时还会产生大量冗余规则,分析时需要耗费大量人力的问题,提供一种基于top-k和pso的二次系统缺陷数据挖掘方法,该基于top-k和pso的二次系统缺陷数据挖掘方法具有过程简便、不需要大量人力的效果。

为实现上述目的,本发明提供如下技术方案:一种基于top-k和pso的二次系统缺陷数据挖掘方法,包括以下步骤:

步骤一:设备异常情况记录:在智能站中,二次设备是对一次设备起辅助作用的设备,其可靠性影响着整个电网的性能,其中,大部分设备都可以实现在线自检功能,设备发生异常时,可以通过站控层网络上传数据,同时这些数据也会保存在本地的数据库中,这些数据经过预处理后,可以用来挖掘频繁项集和关联规则;

步骤二:异常数据预处理:通常情况下,在二次设备记录中缺陷文本由一线运维人员人工处理,因此难免出现口语化、语言不规范等问题,这将会大大增加文本处理的难度,数据预处理的主要任务就是将上述数据进行规范化,为接下来的数据挖掘做铺垫,将数据形式统一后,可以将需要分析的不同情况下的数据整理在同一组,同时设置不同的识别码,以便于后续的分析;

步骤三:项集的存储方式:利用字典记录频繁项集。其中,s表示支持度;i表示项,对于字典的每个项,支持度是关键字,在整个数据字典中是唯一且不重复的,一个支持度可以对应多个项集,对数据字典进行访问是通过关键字支持度进行的。当需要访问具体的支持度对应的项集时,首先要找出关键字支持度,再找到与其相应的项集,按照顺序读取出对应项集;

步骤四:Top-k频繁项集挖掘算法的基本原理;

步骤五:关联规则挖掘:传统关联规则挖掘过程中,需要设置置信度等指标来筛选符合人们要求的关联规则,为了减少这个过程所耗费的人力,这里利用粒子群算法自动求取置信度指标;

步骤六:整个优化过程的步骤如下:

一、首先设置初始置信度为0;

二、其次计算初始粒子的适应度值;

三、利用粒子位置更新公式开始迭代,直到达到迭代终止条件;

步骤七:算例分析:针对步骤一中提出的六种情况分别做出分析,其中前两种利用top-k频繁项集挖掘算法对其进行挖掘,后四种情况的具体规则形式如下:

一、在第三种情况中,设备异常为前缀,发现方式为后缀;

二、在第四种情况中,设备异常为前缀,异常原因为后缀;

三、在第五种情况中,生产厂家为前缀,设备名称为后缀;

四、在第六种情况中,设备名称为前缀,异常部位为后缀。

针对前两种情况,分别选取支持度占比前十的频繁项集,由于本文所提出的方法无需设置支持度,因此无需调整支持度阈值,只需提取占比前十的项集。

优选的,所述步骤一中,智能变电站历史数据中,二次设备的的遥信信号主要包括:设备名称、生产厂家、发生时间、异常信号等。

优选的,所述步骤一中,在站端的缺陷记录中,有些数据与缺陷设备有关,如缺陷部位、缺陷设备名称等,有些是与缺陷本身有关,例如缺陷发现方式、处理结果等。

优选的,所述步骤一中,出现设备异常时,出现的信号通常带有一定的随机性,这取决于设备的设备的配置以及事件之间的关系,在这些信息之中,通常隐藏很多有用的关联关系,这些关系大致可以分为如下几类:

一、异常频发的设备;

二、容易的出现设备异常类型;

三、异常情况与发现异常的主要方式之间的关系;

四、导致设备异常的主要原因;

五、生产厂家与发生异常的设备之间的关系;

六、发生异常的设备与具体的异常部位之间的关系。

优选的,所述分类中,前三者可以用频繁项集挖掘来实现,后三者可以利用关联规则挖掘来实现。

优选的,所述步骤二中,针对第一节中的设备名称、告警信号、缺陷部位这几种类型的数据,在告警信号中,需要统一形式,例如:“软件异常”,“程序异常”等表述程序出错的信号统一成:“程序异常”;缺陷部位中,例如:“通信模块”、“通信组件”,统一成“通信板”。

优选的,所述步骤二中,在分析异常原因的时候,可以将缺陷部位、缺陷设备与缺陷原因设置分便用A、B、C编号,设置在一组,组成如下形式:D=(A、B、C),式中A、B、C代表不同的数据类型,D代表组号。

优选的,所述步骤五中,规则p→s的置信度的计算公式如下:

p是前缀,s是后缀,Con(p→s)是指规则的置信度,sup(p∪s)是前后缀的并集的出现次数,sup(p)是前缀的出现次数。

优选的,所述步骤五中,在粒子群算法迭代之前,首先设置置信度为0,得到此时的最大规则数N,以便后续计算,同时,设置适应度函数为所有规则的平均置信度和规则数除以最大规则数的加权之和:

式中,K1、K2是加权参数,conave是所有规则的平均置信度,Num是规则数,粒子群算法的粒子更新公式如下:

V

x

式中,Vi是粒子的步长,c1和c2是学习因子,rand()是0到1之间的随机数,xi代表粒子的位置,pbesti代表最佳粒子本身的位置,gbesti表示整个粒子群的最优位置。

与现有技术相比,本发明提供了一种基于top-k和pso的二次系统缺陷数据挖掘方法,具备以下有益效果:

1、本发明通过设置的数据字典,记录各项集的支持度,然后利用pso算法结合规则数和平均置信度组合成的目标函数求取置信度,实现了参数的优化,在保证总体结果具有较高的置信度的同时,尽量不删减数据,且本发明相比于传统关联分析,不必设置支持度和置信度,在一定程度上节约了人力,同时保证了分析结果具有较高的质量,可以给运维人员提供辅助性策略;

2、本发明通过利用top-k频繁项集挖掘算法结合pso优化算法对缺陷数据进行分析,找出不同情况下的数据隐藏信息,无需设置支持度、置信度等指标,在一定程度上节约了人力,并且该方法还能保证规则的个数,避免了阈值过高时带来的结果数量较少的问题,本发明方便实用,其结果可以为二次设备运维人员提供参考。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制,在附图中:

图1为本发明提出的基于top-k和pso的二次系统缺陷数据挖掘方法中智能站二次系统的设备异常数据处理过程图;

图2为本发明提出的基于top-k和pso的二次系统缺陷数据挖掘方法中字典内部的结构示意图;

图3为本发明提出的基于top-k和pso的二次系统缺陷数据挖掘方法中规则的求取过程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体式连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例

请参阅图1-3,本发明提供一种技术方案:一种基于top-k和pso的二次系统缺陷数据挖掘方法,包括以下步骤:

步骤一:设备异常情况记录:在智能站中,二次设备是对一次设备起辅助作用的设备,其可靠性影响着整个电网的性能,其中,大部分设备都可以实现在线自检功能,设备发生异常时,可以通过站控层网络上传数据,同时这些数据也会保存在本地的数据库中,这些数据经过预处理后,可以用来挖掘频繁项集和关联规则;

步骤二:异常数据预处理:通常情况下,在二次设备记录中缺陷文本由一线运维人员人工处理,因此难免出现口语化、语言不规范等问题,这将会大大增加文本处理的难度,数据预处理的主要任务就是将上述数据进行规范化,为接下来的数据挖掘做铺垫,将数据形式统一后,可以将需要分析的不同情况下的数据整理在同一组,同时设置不同的识别码,以便于后续的分析;

步骤三:项集的存储方式:利用字典记录频繁项集。其中,s表示支持度;i表示项,对于字典的每个项,支持度是关键字,在整个数据字典中是唯一且不重复的,一个支持度可以对应多个项集,对数据字典进行访问是通过关键字支持度进行的。当需要访问具体的支持度对应的项集时,首先要找出关键字支持度,再找到与其相应的项集,按照顺序读取出对应项集;

步骤四:Top-k频繁项集挖掘算法的基本原理;

步骤五:关联规则挖掘:传统关联规则挖掘过程中,需要设置置信度等指标来筛选符合人们要求的关联规则,为了减少这个过程所耗费的人力,这里利用粒子群算法自动求取置信度指标;

步骤六:整个优化过程的步骤如下:

一、首先设置初始置信度为0;

二、其次计算初始粒子的适应度值;

三、利用粒子位置更新公式开始迭代,直到达到迭代终止条件;

步骤七:算例分析:针对步骤一中提出的六种情况分别做出分析,其中前两种利用top-k频繁项集挖掘算法对其进行挖掘,后四种情况的具体规则形式如下:

一、在第三种情况中,设备异常为前缀,发现方式为后缀;

二、在第四种情况中,设备异常为前缀,异常原因为后缀;

三、在第五种情况中,生产厂家为前缀,设备名称为后缀;

四、在第六种情况中,设备名称为前缀,异常部位为后缀。

针对前两种情况,分别选取支持度占比前十的频繁项集,由于本文所提出的方法无需设置支持度,因此无需调整支持度阈值,只需提取占比前十的项集。

本发明中,优选的,步骤一中,智能变电站历史数据中,二次设备的的遥信信号主要包括:设备名称、生产厂家、发生时间、异常信号等。

本发明中,优选的,步骤一中,在站端的缺陷记录中,有些数据与缺陷设备有关,如缺陷部位、缺陷设备名称等,有些是与缺陷本身有关,例如缺陷发现方式、处理结果等。

本发明中,优选的,步骤一中,出现设备异常时,出现的信号通常带有一定的随机性,这取决于设备的设备的配置以及事件之间的关系,在这些信息之中,通常隐藏很多有用的关联关系,这些关系大致可以分为如下几类:

一、异常频发的设备;

二、容易的出现设备异常类型;

三、异常情况与发现异常的主要方式之间的关系;

四、导致设备异常的主要原因;

五、生产厂家与发生异常的设备之间的关系;

六、发生异常的设备与具体的异常部位之间的关系。

本发明中,优选的,分类中,前三者可以用频繁项集挖掘来实现,后三者可以利用关联规则挖掘来实现。

本发明中,优选的,步骤二中,针对第一节中的设备名称、告警信号、缺陷部位这几种类型的数据,在告警信号中,需要统一形式,例如:“软件异常”,“程序异常”等表述程序出错的信号统一成:“程序异常”;缺陷部位中,例如:“通信模块”、“通信组件”,统一成“通信板”。

本发明中,优选的,步骤二中,在分析异常原因的时候,可以将缺陷部位、缺陷设备与缺陷原因设置分便用A、B、C编号,设置在一组,组成如下形式:D=(A、B、C),式中A、B、C代表不同的数据类型,D代表组号。

本发明中,优选的,步骤五中,规则p→s的置信度的计算公式如下:

p是前缀,s是后缀,Con(p→s)是指规则的置信度,sup(p∪s)是前后缀的并集的出现次数,sup(p)是前缀的出现次数。

本发明中,优选的,步骤五中,在粒子群算法迭代之前,首先设置置信度为0,得到此时的最大规则数N,以便后续计算,同时,设置适应度函数为所有规则的平均置信度和规则数除以最大规则数的加权之和:

式中,K1、K2是加权参数,conave是所有规则的平均置信度,Num是规则数,粒子群算法的粒子更新公式如下:

V

x

式中,Vi是粒子的步长,c1和c2是学习因子,rand()是0到1之间的随机数,xi代表粒子的位置,pbesti代表最佳粒子本身的位置,gbesti表示整个粒子群的最优位置。

以上详细描述了本发明的优选实施方式,但是,本发明并不限于此。在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,包括各个技术特征以任何其它的合适方式进行组合,这些简单变型和组合同样应当视为本发明所公开的内容,均属于本发明的保护范围。

相关技术
  • 一种基于top-k和pso的二次系统缺陷数据挖掘方法
  • 一种数据流中Top-k项的挖掘方法及系统
技术分类

06120113678438