掌桥专利:专业的专利平台
掌桥专利
首页

面向关联规则挖掘的冗余规则筛除方法及装置

文献发布时间:2023-06-19 10:05:17


面向关联规则挖掘的冗余规则筛除方法及装置

技术领域

本申请涉及数据挖掘技术领域,尤其涉及到一种面向关联规则挖掘的冗余规则筛除方法及装置。

背景技术

数据挖掘包含聚类挖掘、分类挖掘、异常分析、关联规则挖掘四大部分。关联规则挖掘的主要任务是从事务数据库提取有价值的关联模式。例如,最早的关联规则挖掘案例是从超市顾客的购物栏数据库中,提取货物之间关联售出的信息,从而超市经营者可以对应捆绑销售提高收益。出现频率较低或者可靠度较低亦或对于没有价值含义的规则常被定义为没有价值的规则,即冗余规则。关联规则挖掘的经典方法有Apriori和FP-Tree两种方法。每一条挖掘结果通常有三个重要参数来衡量其是否冗余,三个参数分别是支持度、置信度和提升度。预先设定好三个参数的阈值,在执行Apriori或FP-Tree过程中根据三个参数的阈值取舍每一条潜在的关联规则,最终保留下来的即为最终的挖掘结果。

然而使用三参数阈值的挖掘结果存在两个问题:1)参数的设定具有较强的主观性,2)参数阈值过高会导致丢失重要的挖掘结果,而过低又会导致发掘出大量冗余规则。因此目前采用的冗余规则筛除方法,容易受到主观因素影响,导致筛除结果不够精准。

发明内容

有鉴于此,本申请提供了一种面向关联规则挖掘的冗余规则筛除方法及装置,主要目的在于解决目前采用的冗余规则筛除方法,容易受到主观因素影响,导致筛除结果不够精准的技术问题。

依据本申请的一个方面,提供了一种面向关联规则挖掘的冗余规则筛除方法,该方法包括:

基于频繁模式树FP-Tree算法对目标事务数据库进行关联规则挖掘,获取初始挖掘结果;

将所述初始挖掘结果中的关联规则,依次与所述目标事务数据库中的各个案例匹配;

根据各个所述案例的匹配结果,剔除所述初始挖掘结果中的冗余规则,获取目标挖掘结果。

根据本申请的另一个方面,提供了一种面向关联规则挖掘的冗余规则筛除装置,该装置包括:

挖掘模块,用于基于频繁模式树FP-Tree算法对目标事务数据库进行关联规则挖掘,获取初始挖掘结果;

匹配模块,用于将所述初始挖掘结果中的关联规则,依次与所述目标事务数据库中的各个案例匹配;

剔除模块,用于根据各个所述案例的匹配结果,剔除所述初始挖掘结果中的冗余规则,获取目标挖掘结果。

根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述面向关联规则挖掘的冗余规则筛除方法。

根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述面向关联规则挖掘的冗余规则筛除方法。

借由上述技术方案,本申请提供的一种面向关联规则挖掘的冗余规则筛除方法及装置,与目前的冗余规则筛除方式相比,本申请可首先利用频繁模式树FP-Tree算法对目标事务数据库进行关联规则挖掘,获取关联规则的初始挖掘结果,之后通过将初始挖掘结果中的关联规则,依次与目标事务数据库中的各个案例匹配;进而根据各个案例的匹配结果,剔除初始挖掘结果中的冗余规则,即可获取得到最终的目标挖掘结果。通过本申请中的技术方案,可针对每个案例筛选出信息量最大的最佳关联规则,将最佳关联规则之外的关联规则作为冗余规则剔除,进一步通过融合所有案例对应的最佳关联规则,并进行去重处理后,即可得到最终挖掘结果。避免了通过设定参数阈值筛除冗余规则时,由于主观因素造成的筛选误差。通过本申请中的技术方案,可可有效增强冗余规则筛除的精准性,进而保证每个案例对应关联规则挖掘的可靠性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:

图1示出了本申请实施例提供的一种面向关联规则挖掘的冗余规则筛除方法的流程示意图;

图2示出了本申请实施例提供的另一种面向关联规则挖掘的冗余规则筛除方法的流程示意图;

图3示出了本申请实施例提供的一种面向关联规则挖掘的冗余规则筛除过程的实例示意图;

图4示出了本申请实施例提供的一种面向关联规则挖掘的冗余规则筛除装置的结构示意图;

图5示出了本申请实施例提供的另一种面向关联规则挖掘的冗余规则筛除装置的结构示意图。

具体实施方式

下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。

针对目前采用的冗余规则筛除方法,容易受到主观因素影响,导致筛除结果不够精准的技术问题,本申请实施例提供了一种面向关联规则挖掘的冗余规则筛除方法,如图1所示,该方法包括:

101、基于频繁模式树FP-Tree算法对目标事务数据库进行关联规则挖掘,获取初始挖掘结果。

其中,频繁模式树(Frequent Pattern Tree,FP-Tree)算法,其思想是构造一棵频繁模式树FP-Tree,将整个事务数据库压缩到频繁模式树上,再根据这棵FP-Tree找出所有频繁项集。在构造整个事务数据库的FP-tree的过程中,只需要扫描一次事务数据库就能生成。对于本申请,可直接基于频繁模式树FP-Tree算法实现对目标事务数据库的关联规则挖掘,进一步获取得到初始则挖掘结果。由于在初始挖掘结果中存在有价值的关联规则,也同样存在频率较低或者可靠度较低亦或没有价值含义的冗余规则,故需要对初始挖掘结果进行后续的处理,以便实现对冗余规则的精准删除,进一步获取得到更有参考意义的目标挖掘结果。

对于本申请的执行主体可为用于关联规则挖掘的数据处理系统,可在获取得到初始挖掘结果后,将初始挖掘结果中的关联规则依次与目标事务数据库中的各个案例匹配,进而依据匹配结果确定并剔除冗余规则,进而得到更为准确的目标挖掘结果。

102、将初始挖掘结果中的关联规则,依次与目标事务数据库中的各个案例匹配。

对于本实施例,在具体的应用场景中,可通过将初始挖掘结果中的各个关联规则,逐一与目标事务数据库中的各个案例匹配,进而将各个关联规则划分匹配至具体案例中,以便后续根据各个案例对应匹配的关联规则,为各个案例筛选出涵盖信息量最多的目标关联规则,从而确定并剔除涵盖信息量较小的冗余规则。

103、根据各个案例的匹配结果,剔除初始挖掘结果中的冗余规则,获取目标挖掘结果。

对于本实施例,可通过获取与同一案例建立匹配关系的关联规则,并对比分析各个关联规则对应的规则信息量大小,进而可直接将规则信息量最大的关联规则确定为该案例下最佳的目标关联规则。由于其他匹配的关联规则涵盖的信息量较小,故可直接将目标关联规则之外的关联规则确定为可靠度较低的冗余规则,进而将冗余规则剔除,即可获取得到参考意义较大的目标挖掘结果。

通过本实施例中面向关联规则挖掘的冗余规则筛除方法,可首先利用频繁模式树FP-Tree算法对目标事务数据库进行关联规则挖掘,获取关联规则的初始挖掘结果,之后通过将初始挖掘结果中的关联规则,依次与目标事务数据库中的各个案例匹配;进而根据各个案例的匹配结果,剔除初始挖掘结果中的冗余规则,即可获取得到最终的目标挖掘结果。通过本申请中的技术方案,可针对每个案例筛选出信息量最大的最佳关联规则,将最佳关联规则之外的关联规则作为冗余规则剔除,进一步通过融合所有案例对应的最佳关联规则,并进行去重处理后,即可得到最终挖掘结果。避免了通过设定参数阈值筛除冗余规则时,由于主观因素造成的筛选误差。通过本申请中的技术方案,可可有效增强冗余规则筛除的精准性,进而保证每个案例对应关联规则挖掘的可靠性。

进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种面向关联规则挖掘的冗余规则筛除方法,如图2所示,该方法包括:

201、基于频繁模式树FP-Tree算法对目标事务数据库进行关联规则挖掘,获取初始挖掘结果。

对于本实施例,在具体的应用场景中,实施例步骤201具体可以包括:确定目标事务数据库,并基于频繁模式树FP-Tree算法扫描目标事务数据库,获取初始挖掘结果。

其中,目标事务数据库为待进行任务发掘的数据库,在目标事务数据库中可包含多个案例,每个案例可对应多个相同或不相同的事务项,事务项类型根据目标事务数据库类型存在差异。例如,对于建设用地类型的目标事务数据库,某一案例A对应的事务项可包括:至城市中心距离i

202、遍历目标事务数据库中的各个案例,获取各个案例的第一事务项集合。

其中,目标事务数据库中存在有预设数量个与发掘任务相关的案例记录,对于每个案例记录可包含多个事务项(事务项个数不限定可以数个至数千个),如对于学术档案类的目标事务数据库,可包括案例记录A:XX,男,40岁,汉族,籍贯辽宁,博士,党员,1年留学经历,发表文章10篇;还可包括案例记录B:XX,女,38岁,汉族,籍贯辽宁,博士,群众,发表文章10篇,发表专利5篇,主持省部级项目3项等。不同案例之间可具有相同的事务项(如性别,年龄等),也可以具有不同的事务项(如是否发表文章,是否主持项目,是否留学等)。

对于本实施例,可首先提取出各个案例的事务项集合,以便对关联挖掘结果中各个关联规则所包含信息量的验证,当关联规则包含越多案例中的事务项时,代表该关联规则的信息量越大,越有代表意义。故对于本实施例,需要遍历各个案例记录,获取各个案例对应的第一事务项集合。例如,基于实施例步骤201的实例,可针对建设用地类型的目标事务数据库提取出案例A对应的第一事务项集合为:set_a={i

203、遍历初始挖掘结果中的各个第一关联规则,获取各个第一关联规则的第二事务项集合。

在具体的应用场景中,初始挖掘结果是根据各个案例记录综合提取出的,第一关联规则可为有价值的关联规则,也同样可为信息量较小的冗余规则。为了进一步筛除冗余规则,故需要确定各个第一关联规则对应匹配的目标案例,针对目标案例对应匹配的关联规则数量以及信息量大小,实现对冗余规则的筛除。对于本实施例,为了确定出与各个第一关联规则匹配的目标案例,故需要遍历初始挖掘结果中的各个第一关联规则,确定各个第一关联规则对应的第二事务项集合,以便通过第二事务项集合与第一事务项集合的对比分析,建立各个第一关联规则与各个案例之间的匹配关系。

204、依据第一事务项集合和第二事务项集合,确定各个案例的匹配结果。

在具体的应用场景中,在进行关联规则与案例的匹配时,可通过将关联规则对应的第二事务项集合与案例对应的第一事务项集合进行比对,确定第二事务项集合是否完全被第一事务项集合包含,即当第二事务项集合中的所有事务项全包含于第一事务项集合中时,即可判定该第二事务项集合对应的第一关联规则与该第一事务项集合对应的案例匹配,则可将该第一关联规则关联到该案例中;若不匹配,则不予关联并继续执行,直至第一关联规则与所有的案例遍历结束。相应的,对于本实施例,实施例步骤204具体可以包括:在第二事务项集合中提取完全被第一事务项集合包含的目标事务项集合;依据目标事务项集合对应的第二关联规则,确定第一事务项集合对应案例的匹配关系列表。其中,在匹配关系列表中可包含多个匹配的第二关联规则,即同一个案例可对应提取出多个关联规则,当关联规则数量大于1时,可进一步进行冗余规则的确定与剔除。

205、根据各个案例对应匹配关系列表中第二关联规则的规则信息量,确定冗余规则。

对于本实施例,在具体的应用场景中,在完成初始挖掘结果中所有第一关联规则与目标事务数据库中所有案例的遍历匹配后,即可得到各个案例的匹配关系列表。在本实施例中,秉承每个案例下仅保留信息量最大的关系规则的原则,进行各个案例下冗余规则的确定。首先需要依据关联规则对应事务项集合中事务项的数量,确定各个关系规则的规则信息量,当判定案例对应的匹配关系列表中仅包含一个关系规则,或包含多个规则信息量相同的关系规则时,可直接将该关系规则确定为该案例对应最佳的目标关系规则,此时判定该案例下无冗余规则;当判定案例对应的匹配关系列表中包含多个对应不同规则信息量的关系规则时,可进一步通过规则信息量的大小比较,将规则信息量最大的关系规则确定为该案例对应最佳的目标关系规则,将该目标关系规则之外的所有关系规则均确定为待剔除的冗余规则。相应的,实施例步骤205具体可以包括:若依据匹配关系列表,判定案例存在至少两个匹配的第二关联规则,则提取各个第二关联规则的规则信息量;将规则信息量最大的第二关联规则确定为案例的目标关联规则;将目标关联规则之外的第二关联规则确定为冗余规则。

其中,可依据第二关联规则对应第二事务项集合中的事务项数量,确定第二关联规则的规则信息量。由于关联规则包含的事务项数量越少,表示所包含的信息量越小,为了确定出各个第二关联规则所包含的信息量大小,故在本实施例中,需要在目标案例中遍历各个第二关联规则,并记录第二关联规则对应事务项集合中所包含的事务项数量,将事务项数量确定为关联规则信息量。在具体的应用场景中,受到关联规则事务项提取数量阈值的限制,规则信息量也具有对应的数值区间。例如,关联规则所允许提取的事务项数量最大值为12,最小值为1,则规则信息量则对应为大于等于1且小于等于12的数值,规则信息量越接近于最大值,表示对应关联规则的信息量越大,反之,对应关联规则的信息量则越小,越有可能为冗余规则。

对于本实施例,针对一个目标案例存在多个匹配的第二关联规则的情况,可通过比较各个第二关联规则之间的规则信息量,只保留规则信息量最大的第二关联规则作为该目标案例最终的目标关联规则,将目标关联规则之外的第二关联规则作为冗余规则剔除。例如,对于目标案例A,确定匹配的第二关联规则包括a、b、c、d,且各个第二关联规则对应的规则信息量分别确定为:8、9、8、3,由于第二关联规则a和第二关联规则c对应的规则信息量均为最大,故可将第二关联规则a和第二关联规则c确定为目标案例A对应的目标关联规则,由于第二关联规则b和第二关联规则d所包含的规则信息量相对较小,故可将第二关联规则b和第二关联规则d确定为冗余规则剔除。

206、在初始挖掘结果中剔除冗余规则,获取目标挖掘结果。

对于本实施例,在确定得到各个案例下的冗余规则后,可进一步在初始挖掘结果中剔除冗余规则,在完成各个案例对应冗余规则的剔除后,在每个案例中均包含对应关联规则信息量最大的目标关联规则。然而由于各个目标案例中可包含相同的事务项,在事务项足够多时,各个目标案例对应提取出的目标关联规则有可能相同。故为了保证最终呈现的关联规则挖掘结果的简洁性,故需要进行目标关联规则的去重处理。相应的,对于本实施例,在具体的应用场景中,实施例步骤206具体可以包括:遍历目标关联规则并进行相同关联规则的合并处理,依据合并处理后的目标关联规则构建目标挖掘结果。

借由上述面向关联规则挖掘的冗余规则筛除方法,本申请可首先利用频繁模式树FP-Tree算法对目标事务数据库进行关联规则挖掘,获取关联规则的初始挖掘结果,之后通过将初始挖掘结果中的关联规则,依次与目标事务数据库中的各个案例匹配;进而根据各个案例的匹配结果,剔除初始挖掘结果中的冗余规则,即可获取得到最终的目标挖掘结果。通过本申请中的技术方案,可针对每个案例筛选出信息量最大的最佳关联规则,将最佳关联规则之外的关联规则作为冗余规则剔除,进一步通过融合所有案例对应的最佳关联规则,并进行去重处理后,即可得到最终挖掘结果。避免了通过设定参数阈值筛除冗余规则时,由于主观因素造成的筛选误差。通过本申请中的技术方案,可可有效增强冗余规则筛除的精准性,进而保证每个案例对应关联规则挖掘的可靠性。

对于本实施例,在具体的应用场景中,在关联规则挖掘过程中进行冗余规则的筛除时,具体可参见图3所示的面向关联规则挖掘的冗余规则筛除过程的实例示意图,在确定目标事务数据库A后,可采用FP-Tree方法对目标事务数据库A开展关联规则挖掘,获取初始挖掘结果B;进而将初始挖掘结果B中的规则逐一匹配到目标事务数据库A中的每个案例中,并将匹配处理后的目标事务数据库A记为A_Match;遍历数据库A_Match中的案例,记为a_match;遍历a_match所匹配的规则b_match;记录b_match中事务集set_b包含项的个数记为b_match的规则信息量i;将规则信息量i最大值对应的规则b_match作为案例a_match最终对应规则,将规则信息量i较小的规则b_match作为冗余规则剔除;导出数据库A_Match中各个案例a_match保留的规则b_match到匹配规则结果集C中;遍历匹配规则结果集C,合并相同规则得到最终的目标挖掘结果D。其中,在进行合并去重处理时,具体可包括:s1、创建目标挖掘结果集D;s2、遍历匹配规则结果集C中的规则记为c;s3、遍历目标挖掘结果集D中的规则记为d,并创建标识符flag为False;s4、对比规则c中的项集set_c与规则d中的项集set_d是否完全匹配,如匹配则修改表示符flag为Ture,否则重复执行步骤s3直到结果集D遍历完成;s5、判断flag的值,若flag的值为False则将c输出到结果集D中,否则丢弃c并执行步骤s2直到结果集C遍历完成;s6、导出结果集D即为最终的目标挖掘结果。

进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种面向关联规则挖掘的冗余规则筛除装置,如图4所示,该装置包括:挖掘模块31、匹配模块32、剔除模块33;

挖掘模块31,可用于基于频繁模式树FP-Tree算法对目标事务数据库进行关联规则挖掘,获取初始挖掘结果;

匹配模块32,可用于将初始挖掘结果中的关联规则,依次与目标事务数据库中的各个案例匹配;

剔除模块33,可用于根据各个案例的匹配结果,剔除初始挖掘结果中的冗余规则,获取目标挖掘结果。

在具体的应用场景中,为了初步确定初始挖掘结果,挖掘模块31,具体可用于:确定目标事务数据库,并基于频繁模式树FP-Tree算法扫描目标事务数据库,获取初始挖掘结果。

相应的,如图5所示,匹配模块32,具体可包括:遍历单元321、确定单元322;

遍历单元321,可用于遍历目标事务数据库中的各个案例,获取各个案例的第一事务项集合;

遍历单元321,还可用于遍历初始挖掘结果中的各个第一关联规则,获取各个第一关联规则的第二事务项集合;

确定单元322,可用于依据第一事务项集合和第二事务项集合,确定各个案例的匹配结果。

在具体的应用场景中,确定单元322,具体可用于在第二事务项集合中提取完全被第一事务项集合包含的目标事务项集合;依据目标事务项集合对应的第二关联规则,确定第一事务项集合对应案例的匹配关系列表。

相应的,为了剔除关联规则挖掘结果中的冗余规则,如图5所示,剔除模块33,具体可包括:确定单元331、剔除单元332;

确定单元331,可用于根据各个案例对应匹配关系列表中第二关联规则的规则信息量,确定冗余规则;

剔除单元332,可用于在初始挖掘结果中剔除冗余规则,获取目标挖掘结果。

在具体的应用场景中,确定单元331,具体可用于若依据匹配关系列表,判定案例存在至少两个匹配的第二关联规则,则提取各个第二关联规则的规则信息量;将规则信息量最大的第二关联规则确定为案例的目标关联规则;将目标关联规则之外的第二关联规则确定为冗余规则;

相应的,剔除单元332,具体可用于在初始挖掘结果中剔除冗余规则,确定由各个案例对应的目标关联规则构建的目标挖掘结果。

在具体的应用场景中,为了依据各个目标案例对应的目标关联规则确定最终关联规则挖掘结果,剔除单元332,具体可用于遍历目标关联规则并进行相同关联规则的合并处理,依据合并处理后的目标关联规则构建目标挖掘结果。

需要说明的是,本实施例提供的一种面向关联规则挖掘的冗余规则筛除装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。

基于上述如图1至图2所示方法,相应的,本实施例还提供了一种非易失性存储介质,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的面向关联规则挖掘的冗余规则筛除方法。

基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1至图2所示的方法和图4、图5所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;非易失性存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的面向关联规则挖掘的冗余规则筛除方法。

可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。

非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。

通过应用本申请的技术方案,与目前现有技术相比,本申请可首先利用频繁模式树FP-Tree算法对目标事务数据库进行关联规则挖掘,获取关联规则的初始挖掘结果,之后通过将初始挖掘结果中的关联规则,依次与目标事务数据库中的各个案例匹配;进而根据各个案例的匹配结果,剔除初始挖掘结果中的冗余规则,即可获取得到最终的目标挖掘结果。通过本申请中的技术方案,可针对每个案例筛选出信息量最大的最佳关联规则,将最佳关联规则之外的关联规则作为冗余规则剔除,进一步通过融合所有案例对应的最佳关联规则,并进行去重处理后,即可得到最终挖掘结果。避免了通过设定参数阈值筛除冗余规则时,由于主观因素造成的筛选误差。通过本申请中的技术方案,可可有效增强冗余规则筛除的精准性,进而保证每个案例对应关联规则挖掘的可靠性。

本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

相关技术
  • 面向关联规则挖掘的冗余规则筛除方法及装置
  • 一种面向电池生产数据的关联规则的挖掘方法
技术分类

06120112410054