掌桥专利:专业的专利平台
掌桥专利
首页

基于交易数据的异常行为检测方法、装置、设备及介质

文献发布时间:2023-06-19 19:28:50


基于交易数据的异常行为检测方法、装置、设备及介质

技术领域

本申请涉及金融技术领域,尤其涉及基于交易数据的异常行为检测方法、装置、设备及介质。

背景技术

当今支付产业发展日新月异,支付服务和金融科技逐渐紧密结合,支付服务趋于安全,高效和便捷。各大金融机构和非金支付机构的业务部门定期会策划举办活动,吸引大量用户,给用户提供优惠和舒适的支付体验。然而这些公司定期开展的各种形式的营销活动,往往也吸引了违规人员的参与。违规人员参与营销活动从而实现非正常获利。违规人员参与营销活动的行为称为异常行为,金融领域对于异常行为的检测有利于营销活动的有序开展以及对异常行为的打击。

现有技术在检测异常行为时,一般是根据从系统中获取的各个异常交易样本分别对应的用户交易地理位置信息,对各个异常交易样本进行聚类处理,基于聚类结果进一步检测异常行为。现有技术存在的问题是,仅通过用户的交易地理位置进行异常行为检测,数据维度较少,缺少有效的额外信息,使得异常行为检测的准确性较差。

发明内容

本申请实施例提供了基于交易数据的异常行为检测方法、装置、设备及介质,用以解决现有的异常行为检测准确性较差的问题。

第一方面,本申请提供了一种基于交易数据的异常行为检测方法,所述方法包括:

获取设定时间段内的交易信息的各个字段,以及各个字段的各个属性值;

对所述各个字段进行组合,得到各个初始组合字段;针对所述各个初始组合字段,根据该初始组合字段对应的各个属性值,确定该初始组合字段的差异性表征值;根据各个差异性表征值对所述各个初始组合字段进行筛选,得到各个目标组合字段;

针对所述各个目标组合字段,对该目标组合字段中的各个属性值进行组合,得到各个初始属性组合;针对所述各个初始属性组合,根据该初始属性组合中各个属性值的出现次数,确定该初始属性组合的联合概率和条件概率;根据各个联合概率和条件概率,对各个初始属性组合进行筛选,得到各个目标属性组合;

根据各个目标属性组合各自对应的交易卡数量,确定各个目标属性组合各自对应的异常属性评价值;根据异常属性评价值进行异常行为检测。

第二方面,本申请提供了一种基于交易数据的异常行为检测装置,所述装置包括:

获取模块,用于获取设定时间段内的交易信息的各个字段,以及各个字段的各个属性值;

筛选模块,用于对所述各个字段进行组合,得到各个初始组合字段;针对所述各个初始组合字段,根据该初始组合字段对应的各个属性值,确定该初始组合字段的差异性表征值;根据各个差异性表征值对所述各个初始组合字段进行筛选,得到各个目标组合字段;

确定模块,用于针对所述各个目标组合字段,对该目标组合字段中的各个属性值进行组合,得到各个初始属性组合;针对所述各个初始属性组合,根据该初始属性组合中各个属性值的出现次数,确定该初始属性组合的联合概率和条件概率;根据各个联合概率和条件概率,对各个初始属性组合进行筛选,得到各个目标属性组合;

检测模块,用于根据各个目标属性组合各自对应的交易卡数量,确定各个目标属性组合各自对应的异常属性评价值;根据异常属性评价值进行异常行为检测。

第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的方法步骤。

第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。

本申请提供了基于交易数据的异常行为检测方法、装置、设备及介质,所述方法包括:获取设定时间段内的交易信息的各个字段,以及各个字段的各个属性值;对所述各个字段进行组合,得到各个初始组合字段;针对所述各个初始组合字段,根据该初始组合字段对应的各个属性值,确定该初始组合字段的差异性表征值;根据各个差异性表征值对所述各个初始组合字段进行筛选,得到各个目标组合字段;针对所述各个目标组合字段,对该目标组合字段中的各个属性值进行组合,得到各个初始属性组合;针对所述各个初始属性组合,根据该初始属性组合中各个属性值的出现次数,确定该初始属性组合的联合概率和条件概率;根据各个联合概率和条件概率,对各个初始属性组合进行筛选,得到各个目标属性组合;根据各个目标属性组合各自对应的交易卡数量,确定各个目标属性组合各自对应的异常属性评价值;根据异常属性评价值进行异常行为检测。

上述的技术方案具有如下优点或有益效果:

本申请中,获取设定时间段内的交易信息的各个字段,以及各个字段的各个属性值,对各个字段进行组合,得到各个初始组合字段之后,根据各个差异性表征值对各个初始组合字段进行筛选。一方面节省了异常行为检测的计算资源消耗,提高处理速度,另一方面,根据各个差异性表征值对各个初始组合字段进行筛选,提高了异常行为检测的准确性。进而针对各个目标组合字段,根据该目标组合字段的各个初始属性组合的联合概率和条件概率进行筛选,然后再确定保留的各个目标属性组合各自对应的异常属性评价值,最后根据异常属性评价值进行异常行为检测。本申请结合交易信息中所有的字段和属性值实现异常行为检测,数据维度更多,进一步提高了异常行为检测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请提供的基于交易数据的异常行为检测过程示意图;

图2为本申请提供的基于交易数据的异常行为检测流程图;

图3为本申请提供的基于交易数据的异常行为检测装置结构示意图;

图4为本申请提供的电子设备结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。

需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

图1为本申请提供的基于交易数据的异常行为检测过程示意图,该过程包括以下步骤:

S101:获取设定时间段内的交易信息的各个字段,以及各个字段的各个属性值。

S102:对所述各个字段进行组合,得到各个初始组合字段;针对所述各个初始组合字段,根据该初始组合字段对应的各个属性值,确定该初始组合字段的差异性表征值;根据各个差异性表征值对所述各个初始组合字段进行筛选,得到各个目标组合字段。

S103:针对所述各个目标组合字段,对该目标组合字段中的各个属性值进行组合,得到各个初始属性组合;针对所述各个初始属性组合,根据该初始属性组合中各个属性值的出现次数,确定该初始属性组合的联合概率和条件概率;根据各个联合概率和条件概率,对各个初始属性组合进行筛选,得到各个目标属性组合。

S104:根据各个目标属性组合各自对应的交易卡数量,确定各个目标属性组合各自对应的异常属性评价值;根据异常属性评价值进行异常行为检测。

本申请提供的基于交易数据的异常行为检测方法应用于电子设备,该电子设备可以是PC、平板电脑等设备,也可以是服务器。

本申请中,电子设备获取设定时间段内的交易信息的各个字段,以及各个字段的各个属性值。设定时间段例如是6个小时、12个小时、一天等。例如电子设备获取当日的所有交易信息。具体的,交易信息存储在hive数据库中,在进行异常行为检测时,从hive数据库中获取设定时间段内的所有交易信息。并且获取设定时间段内的交易信息的各个字段,以及各个字段的各个属性值。

需要说明的是,hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive适合对数据仓库进行统计分析。

交易信息的各个字段包括每笔交易的金额,交易时间,交易商户,交易地点,受理机构名称,交易应用。交易银行卡的卡属性以及持卡人的性别,用户id,年龄,注册银行卡日期,所在社区等。本申请将交易维度聚合到交易卡维度,此时针对一张交易卡,某些特征存在多个不同的属性值。因此模型过滤掉了多余的属性值,筛选出该特征下最重要的属性值,例如当前用户的最频繁交易地点、最频繁消费商户、最频繁交易APP、最频繁金额、最频繁收单机构、最频繁交易时间等等。其中交易卡例如是银行卡、信用卡等。字段属性值举例如下:社区id字段包含属性[社区1,社区2,社区3],最频繁交易商户名称字段包含属性[超市1,便利店2,餐馆3],最频繁受理机构包含属性[机构1,机构2,机构3]等。

本申请对各个字段进行组合,得到各个初始组合字段,其中,初始组合字段包括一元字段和多元组合字段,一元字段例如是[社区id]、[最频繁交易商户名称]、[最频繁受理机构]等,多元组合字段例如是[社区id,最频繁交易商户名称]这样的二元组合字段、[社区id,最频繁交易商户名称,最频繁受理机构]这样的三元组合字段等等。

针对各个初始组合字段,根据该初始组合字段对应的各个属性值,确定该初始组合字段的差异性表征值。

具体的,针对各个一元字段执行如下操作:

若该一元字段为数值型字段,根据该一元字段的各个属性值的方差,确定该一元字段的差异性表征值;若该一元字段为二元属性字段,根据该一元字段的各个属性值的伯努利随机变量的方差,确定该一元字段的差异性表征值;若该一元字段为多元属性字段,分别确定每个属性的概率分布,根据每个概率分布的方差,确定该一元字段的差异性表征值;

针对各个多元组合字段执行如下操作:

分别确定该多元组合字段中每个字段的差异性表征值,根据所述每个字段的差异性表征值的平均值,确定该多元组合字段的差异性表征值。

数值型字段例如是年龄、金额等;二元属性字段例如是性别字段,只有男女两种属性;多元属性字段例如是社区id包含多种属性的字段。若该一元字段为数值型字段,将该一元字段的各个属性值输入方差计算公式,计算得到方差,可以直接将计算得到的方差作为差异性表征值。若该一元字段为二元属性字段,确定该字段中每个属性值出现的次数占比,将两个次数占比的乘积作为该一元字段的差异性表征值。若该一元字段为多元属性字段,分别确定每个属性的概率分布,然后将每个属性的概率分布输入方差计算公式,计算得到方差,可以直接将计算得到的方差作为差异性表征值。针对各个多元组合字段,分别确定该多元组合字段中每个字段的差异性表征值,根据每个字段的差异性表征值的平均值,确定该多元组合字段的差异性表征值。

根据各个差异性表征值对各个初始组合字段进行筛选,得到各个目标组合字段。具体的,针对各个差异性表征值,若该差异性表征值大于设定的差异性表征阈值,将该差异性表征值对应的初始组合字段作为目标组合字段并保留,否则滤除该差异性表征值对应的初始组合字段。

另外,为了减小异常行为检测的计算量,所述对所述各个字段进行组合,得到各个初始组合字段之前,所述方法还包括:针对所述交易信息中各个交易卡,若该交易卡的交易次数小于设定的次数阈值,将该交易卡的交易信息滤除。设定的次数阈值例如是2次、3次等。

针对所述各个目标组合字段,对该目标组合字段中的各个属性值进行组合,得到各个初始属性组合,初始属性组合包括单属性以及多属性组合。单属性组合例如是[社区1]、[社区2]等,多属性组合例如是[社区1,超市1],[社区1,便利店2],[便利店2,机构2]这样的二元属性组合,[社,1,超市1,便利店1]这样的三元属性组合等。针对各个初始属性组合,根据该初始属性组合中各个属性值的出现次数,确定该初始属性组合的联合概率和条件概率;根据各个联合概率和条件概率,对各个初始属性组合进行筛选,得到各个目标属性组合。

具体的,针对所述各个目标组合字段的各个属性值,根据该属性值的出现次数确定该属性值的第一联合概率;保留大于设定联合概率阈值的第一联合概率对应的属性值。其中,根据该属性值的出现次数与交易卡总数量的比值,确定该属性值的第一联合概率。

将保留的属性值任意组合得到各个二元属性组合,针对所述各个二元属性组合,根据该二元属性组合中各个属性值出现的次数确定该二元属性组合的第二联合概率和第一条件概率;保留大于设定联合概率阈值的第二联合概率,且大于设定条件概率阈值的第一条件概率对应的二元属性组合。

具体的,根据该二元属性组合中各个属性值同时出现的次数与交易卡总数量的比值,确定所述第二联合概率;确定该二元属性组合中各个属性值各自的出现次数,并选取其中的最小次数,根据该二元属性组合中各个属性值同时出现的次数与所述最小次数的比值,确定所述第一条件概率。

将保留的各个二元属性组合与保留的各个属性值任意组合得到各个三元属性组合,并基于设定联合概率阈值和设定条件概率阈值对各个三元属性组合进行筛选,继续迭代得到所有的属性组合,作为各个目标属性组合。

然后根据各个目标属性组合各自对应的交易卡数量,确定各个目标属性组合各自对应的异常属性评价值;根据异常属性评价值进行异常行为检测。

具体的,针对各个目标组合字段,分别进行如下操作:

选取对应的交易卡数量小于设定的数量阈值的各个第一目标属性组合,根据各个第一目标属性组合各自对应的交易卡数量的和值,与交易卡总数量的比值,确定第一子异常属性评价值;

选取对应的交易卡数量最多的第二目标属性组合,确定除所述第二目标属性组合和所述各个第一目标属性组合之外的各个第三目标属性组合各自对应的交易卡数量的平均值,根据所述第二目标属性组合对应的交易卡数量与所述平均值的比值,确定第二子异常属性评价值;

根据各个目标组合字段各自的第一子异常属性评价值和所述第二子异常属性评价值进行异常行为检测。

具体的针对各个目标组合字段,按照包含的字段数量、第一子异常属性评价值和第二子异常属性评价值降序排列,选取排序在前的设定数量的目标组合字段,确定选取出的目标组合字段中的各个目标属性组合为异常行为对应的属性组合。

其中,可以设定字段数量、第一子异常属性评价值和第二子异常属性评价值的优先级,例如字段数量优先级最高,第一子异常属性评价值的优先级次之,第二子异常属性评价值的优先级最低。那么在排序时,首先按照包含的字段数量降序排列,当包含的字段数量相同,再按照第一子异常属性评价值降序排列,当第一子异常属性评价值相同,再按照第二子异常属性评价值降序排列。

下面通过具体示例对本申请提供的基于交易数据的异常行为检测过程进行详细说明。

图2为本申请提供的基于交易数据的异常行为检测流程图。包括:提取交易数据;数据预处理,数据预处理包括脏数据清洗,缺失值填充,异常值处理;数据分析和处理;银行卡筛选;银行卡附加特征计算;字段蒸馏,包括字段组合和方差过滤;属性聚合,包括属性组合、置信度和支持度过滤,其中,支持度为联合概率,置信度为条件概率;多次迭代之后进行评价和排序,第一子异常属性评价值r1和第二子异常属性评价值r2计算、特征组合数量统计、降序排序、输出结果。

大规模异常行为通常指的是在某种属性和行为中或多种不同属性和行为中具有异常集中特征的行为。从全局的角度来看,异常行为明显区别与正常的个人持卡人。由于支付场景,地域,个人意志的不同,每位持卡人在不同时空下产生的交易很难有潜在的关联关系,相反,金融交易中的异常行为往往不可避免产生大量相似的特征和行为,例如都使用相同的交易应用软件,固定的交易笔数,相同的收单机构以及相近的地理位置等。

本申请通过以上分析把所有异常高频交易的银行卡群组归类为重点关注的可疑异常行为。使用无监督的算法聚类大规模数据中的密集异常行为。由于交易数据具有多字段,多属性的特点,本申请首先设计了字段蒸馏的方法,从海量的字段非空集合,蒸馏出具有显著性的字段组合,舍弃高度重合的低显著性字段组合。一方面节省了模型的计算资源消耗,提高后续的银行卡聚合速度,另一方面,舍弃了无用的字段组合提高了异常行为检测的准确性。采用属性聚合的方法从蒸馏的字段组合中,迭代获取满足条件的银行卡组合,这些银行卡组合背后都是潜在的异常行为。最后模型对筛选出来的潜在异常行为进行评分和排序,定位最终的真实异常行为,将真实的异常行为数据整理交给业务部,最后由人工分析得出该异常行为的具体描述。

在字段子集蒸馏过程中,从大量的字段子集中过滤掉不重要的子集,最终筛选出重要的字段组合方法。针对数值型特征,使用每个字段的方差来评价字段的显著性,针对二元属性,采用伯努利随机变量的方差计算结果来评价字段该字段的显著性。针对拥有多元属性的字段,计算每个属性的概率分布,然后计算概率分布的方差,最后得到多元属性字段的显著性。最后舍弃显著性较小的字段组合。

在属性聚合的过程中,引入了支持度和置信度的概念,迭代组合多种属性,通过每种组合的支持度和置信度大小来筛选过滤掉稀疏的交易组合,最后将得到密集的交易组合,即潜在的可疑异常行为。最后模型对所有可疑异常行为进行排序评分。定义相同特征空间下数量小于3的特征组合的规模总和的占比为r1,定义最大的TOP组规模除以除TOP外的规模大于3的群组银行卡数量均值为r2,将所有银行卡特征人工分成10组,计算每组频繁项集中共有了多少个特征组数量。最后按照特征组合数量,r1,r2降序排列,最终得到高度可疑的异常行为。

本申请为了从海量的交易数据中挖掘出持卡人之间的关系以及异常的关系网络,需要找出相互关联的银行卡,发现关联银行卡形成的一种潜在社区,然后对所有社区进行评价,找出可疑的异常社区。为了发现海量银行卡之间的关联关系,定位异常行为中涉及的异常高频特征,引入了支持度和置信度的方法来计算银行卡之间的关联强度。

当前交易数据中存在多个字段,即使是一个字段中也存在大量的特征属性信息,例如收单机构字段下包含了全国的收单机构总行名称。在找出高频属性组合之前,需要遍历所有字段组合,我们首先组合交易中的所有字段,提取的交易字段集合中的所有非空集合。然而,集合的非空子集数量会随着集合中字段的数量增加而指数上升,当前每笔交易中都包含了很多字段来保存交易的属性信息,所以字段组合之后也会得到海量的字段子集。为了降低计算资源消耗,提升计算速度,增强异常行为的识别能力。本申请加入了字段子集蒸馏的方法,从大量的字段子集中过滤掉不重要的子集,最终筛选出重要的字段组合方法。

针对数值型特征,使用每个字段的方差来评价字段的显著性,针对二元属性,采用伯努利随机变量的方差计算结果来评价字段该字段的显著性。对拥有多元属性的字段,我们计算每个属性的概率分布,然后计算概率分布的方差,最后得到多元属性字段的显著性。

当一个特征的方差很小,认为特征的差异性很小,可能特征中大多数的属性都一样,即显著性较弱。蒸馏字段子集的时候,计算子集中所有字段的均值,当方差值不满足我们给定的阈值时,将被舍弃。最终得到蒸馏后的字段子集。

给定一个来自蒸馏字段子集中的字段集合,首先统计字段中出现的所有属性的出现次数,然后分别计算所有属性的支持度和置信度,舍弃那些小于给定阈值的属性。然后基于刚才筛选后的属性,将这些属性相互组合,生成集合大小为2的属性组合,分别计算所有组合的支持度和置信度,舍弃那些小于给定阈值的组合。接下来,基于上一步筛选出的大小为2的属性组合集合,生成集合大小更大的属性组合,然后分别计算所有组合的支持度和置信度,筛选满足给定阈值的组合。如此往复一直迭代,直到模型不能够生成更新的属性组合,那么当前字段集合的迭代停止。模型开始统计下一个字段集合,最后得到海量交易中的所有可疑异常行为。

最后模型对所有可疑异常行为进行排序评分。定义相同特征空间下数量小于等于3的特征组合的规模总和的占比为r1,定义TOP组规模除以相同特征空间下除TOP外的数量大于3的特征组合的规模综合均值为r2,计算所有频繁项集所在项集组的r1值和r2值大小,保留r1>0.8,r2>10的结果。将所有银行卡特征人工分成10组,计算每组频繁项集中共有了多少个特征组数量,即feature_group_num。按照feature_group_num,r1,r2降序排列,最终得到高度可疑的异常行为群组。

最后,对于模型识别出的异常行为群组结果进行商户侧或者卡侧的行为分析,查看非交易层面的描述信息是否相似,再与业务方讨论核对。该无监督聚类方法主要输出一些交易数据层面相似同时非数据字段中某些频繁出现的交易群组,将其在网络数据层面认为是某种异常行为。最后由人工分析得出数据具体描述的行为。

举例说明如下:

从hive数据库中提取当日原始交易信息,其中包括每笔交易的银行卡账号,卡属性,用户id,应用软件名称,交易金额,交易时间,优惠类型,商户名称,受理机构名称,社区id,性别,年龄,注册银行卡日期,二维码订单类型,经纬度等字段。然后脏数据清洗,缺失值填充,异常值处理。

从提取交易中筛选交易笔数大于2笔的银行卡,计算银行卡附加特征,将交易维度聚合到卡维度。此时一条记录包括银行卡账号,卡属性,用户id,社区id,性别,年龄,注册银行卡日期,最频繁交易地点,最频繁交易商户名称,最频繁应用软件名称,最频繁受理机构名称,最频繁交易金额,1元内交易笔数,10元内交易笔数,100元内交易笔数,最频繁交易时间,总交易笔数,总交易金额,总商户数量等字段。

在决策引擎中,字段蒸馏模块首先从所有的字段子集中找出显著性较大的字段组合,其中一元组合包括(社区id)、(性别)、(年龄)、(最频繁交易商户名称)、(最频繁受理机构等)等,二元组合包括(社区id,性别)、(社区id,最频繁交易商户名称),(最频繁交易商户名称,最频繁受理机构等)等,依此类推得到包含所有字段的N元组合。根据本提案设计的显著性计算方法,计算得到每个字段组合的显著性大小,过滤掉显著性较低的组合,最后蒸馏得到显著性较大的字段组合,做进一步的分析。

属性聚合模块处理来自字段蒸馏模块得到的字段组合,针对单个字段组合,属性模块逐级迭代所有属性,计算所有属性组合的支持度和置信度(即联合概率和条件概率),将属性从一元组合推广到多元组合,一旦低元组合不满足筛选阈值条件则其对应的高元组合都不满足筛选条件,因此本申请会执行剪枝操作,不再计算其高元组合中的所有属性组合。例如有字段组合(社区id,最频繁交易商户名称,最频繁受理机构),其中社区id字段包含属性[社区1,社区2,社区3],最频繁交易商户名称字段包含属性[超市1,便利店2,餐馆3],最频繁受理机构包含属性[机构1,机构2,机构3]。属性聚合模块首先计算所有一元属性的支持度和置信度,例如[社区1],[社区2],[社区3],[超市1],[便利店2],[餐馆3],[机构1],[机构2],[机构3],保留满足给定阈值的属性[社区1],[社区2],[超市1],[便利店2],[机构1],[机构2],剪枝掉[社区3],[餐馆3],[机构3]及其之后对应的多元组合。组合上一步的一元组合得到二元组合[社区1,超市1],[社区1,便利店2],[便利店2,机构2]等,计算所有二元属性组合的支持度和置信度,保留满足给定阈值的属性,剪枝掉低于给定阈值的属性及其之后对应的多元组合,多次迭代以上步骤,最后组合得到多个属性的M元属性组合并计算指标大小。

通过多次迭代以上步骤本提案聚合得到多个群组,假设其中包括群组[社区1,超市1],[社区1,便利店2],[社区1,餐馆3],[社区1,文具店4],...,[社区N,咖啡店M]等293个群组(属性群组),它们都来自于相同的特征空间,即字段组合(社区id,最频繁交易商户名称),总共包含1000张银行卡。其中有290个属性群组规模小于3,总计850张银行卡。剩余两个群组规模为10(各有10个银行卡),一个群组规模为130(130个银行卡)。

在异常行为评价和排序中,首先会计算以上群组中银行卡规模小于3的群组的银行卡数量总和,除以银行卡数量总和得到占比为r1,即r1=850/1000>0.8。计算其中规模最大的群组中银行卡的数量除以除TOP外的规模大于3的群组银行卡数量均值为r2,即r2=130/((10+10)/2)>10。预先设定规则保留r1>0.8,r2>10的结果,同时提供字段与字段间的绑定关系,通过数据与业务上分析结果将关系相对紧密的字段绑在一起,假设当前字段组合分别包含绑定字段(a

最后,对于模型识别出的异常行为群组结果进行多角度行为分析,查看非交易层面的描述信息是否相似,再与业务方讨论核对。该无监督聚类方法主要输出一些交易数据层面相似同时非数据字段中某些频繁出现的交易群组,我们将其在银联网络数据层面认为是某种异常行为。最后由人工分析得出数据具体描述的行为。

图3为本申请提供的基于交易数据的异常行为检测装置结构示意图,包括:

获取模块31,用于获取设定时间段内的交易信息的各个字段,以及各个字段的各个属性值;

筛选模块32,用于对所述各个字段进行组合,得到各个初始组合字段;针对所述各个初始组合字段,根据该初始组合字段对应的各个属性值,确定该初始组合字段的差异性表征值;根据各个差异性表征值对所述各个初始组合字段进行筛选,得到各个目标组合字段;

确定模块33,用于针对所述各个目标组合字段,对该目标组合字段中的各个属性值进行组合,得到各个初始属性组合;针对所述各个初始属性组合,根据该初始属性组合中各个属性值的出现次数,确定该初始属性组合的联合概率和条件概率;根据各个联合概率和条件概率,对各个初始属性组合进行筛选,得到各个目标属性组合;

检测模块34,用于根据各个目标属性组合各自对应的交易卡数量,确定各个目标属性组合各自对应的异常属性评价值;根据异常属性评价值进行异常行为检测。

所述筛选模块32,具体用于所述各个初始组合字段包括一元字段和多元组合字段;针对各个一元字段执行如下操作:若该一元字段为数值型字段,根据该一元字段的各个属性值的方差,确定该一元字段的差异性表征值;若该一元字段为二元属性字段,根据该一元字段的各个属性值的伯努利随机变量的方差,确定该一元字段的差异性表征值;若该一元字段为多元属性字段,分别确定每个属性的概率分布,根据每个概率分布的方差,确定该一元字段的差异性表征值;针对各个多元组合字段执行如下操作:分别确定该多元组合字段中每个字段的差异性表征值,根据所述每个字段的差异性表征值的平均值,确定该多元组合字段的差异性表征值。

所述筛选模块32,具体用于针对所述各个差异性表征值,若该差异性表征值大于设定的差异性表征阈值,将该差异性表征值对应的初始组合字段作为目标组合字段并保留,否则滤除该差异性表征值对应的初始组合字段。

所述筛选模块32,还用于针对所述交易信息中各个交易卡,若该交易卡的交易次数小于设定的次数阈值,将该交易卡的交易信息滤除。

所述确定模块33,具体用于针对所述各个目标组合字段的各个属性值,根据该属性值的出现次数确定该属性值的第一联合概率;保留大于设定联合概率阈值的第一联合概率对应的属性值;将保留的属性值任意组合得到各个二元属性组合,针对所述各个二元属性组合,根据该二元属性组合中各个属性值出现的次数确定该二元属性组合的第二联合概率和第一条件概率;保留大于设定联合概率阈值的第二联合概率,且大于设定条件概率阈值的第一条件概率对应的二元属性组合;将保留的各个二元属性组合与保留的各个属性值任意组合得到各个三元属性组合,并基于设定联合概率阈值和设定条件概率阈值对各个三元属性组合进行筛选,继续迭代得到所有的属性组合,作为各个目标属性组合。

所述确定模块33,具体用于根据该二元属性组合中各个属性值同时出现的次数与交易卡总数量的比值,确定所述第二联合概率;确定该二元属性组合中各个属性值各自的出现次数,并选取其中的最小次数,根据该二元属性组合中各个属性值同时出现的次数与所述最小次数的比值,确定所述第一条件概率。

所述检测模块34,具体用于针对各个目标组合字段,分别进行如下操作:选取对应的交易卡数量小于设定的数量阈值的各个第一目标属性组合,根据各个第一目标属性组合各自对应的交易卡数量的和值,与交易卡总数量的比值,确定第一子异常属性评价值;选取对应的交易卡数量最多的第二目标属性组合,确定除所述第二目标属性组合和所述各个第一目标属性组合之外的各个第三目标属性组合各自对应的交易卡数量的平均值,根据所述第二目标属性组合对应的交易卡数量与所述平均值的比值,确定第二子异常属性评价值;根据各个目标组合字段各自的第一子异常属性评价值和所述第二子异常属性评价值进行异常行为检测。

所述检测模块34,具体用于针对各个目标组合字段,按照包含的字段数量、第一子异常属性评价值和第二子异常属性评价值降序排列,选取排序在前的设定数量的目标组合字段,确定选取出的目标组合字段中的各个目标属性组合为异常行为对应的属性组合。

本申请还提供了一种电子设备,如图4所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;

所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行以上任一方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口302用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

本申请还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现以上任一方法步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

技术分类

06120115926188