掌桥专利:专业的专利平台
掌桥专利
首页

一种欺诈交易的检测方法及装置

文献发布时间:2023-06-19 11:26:00


一种欺诈交易的检测方法及装置

技术领域

本发明涉及交易安全技术领域,尤其涉及一种欺诈交易的检测方法及装置。

背景技术

欺诈交易是不法分子冒充持卡人待进行的交易。当前欺诈交易的风险日益凸显,欺诈手法繁杂多样,欺诈交易对社会造成众多不良影响,受到了监管部门和银行业的广泛重视。但是,欺诈交易的技术性越来越强,欺诈行为越来越隐蔽。

所以,及时检测出一笔交易是否是欺诈交易对银行的交易安全性至关重要。目前欺诈交易侦测方法中,主要是基于风控经验制定简单逻辑的规则组合进行识别。然而简单逻辑的规则组合不易发现欺诈行为的深层次特性,所以目前欺诈交易的检测不够准确。

发明内容

本发明提供一种欺诈交易的检测方法及装置,解决了现有技术中目前欺诈交易的检测不够准确的问题。

第一方面,本发明提供一种欺诈交易的检测方法,包括:

获取待检测交易;

确定所述待检测交易的目标时序特征信息;

将所述待检测交易和所述目标时序特征信息输入到至少一个交易检测模型,获得所述待检测交易的至少一个模型评分结果;针对所述至少一个交易检测模型中任一交易检测模型,所述交易检测模型是基于所述交易检测模型对应的数据集,按照所述交易检测模型对应的机器学习算法,对所述交易检测模型对应的初始模型训练得到的;所述交易检测模型对应的数据集中任一条训练数据包括交易、交易的时序特征信息和交易标签;

根据所述至少一个模型评分结果,确定所述待检测交易是否为欺诈交易。

上述方式下,针对所述至少一个交易检测模型中任一交易检测模型,所述交易检测模型在训练过程中并不是仅根据交易进行训练的,还考虑了交易的时序特征信息,而交易具有批量、相关联的时序特性,那么所述交易检测模型可以学习到交易在时序方面的知识,所以在检测待检测交易时,得到目标时序特征信息后,将所述待检测交易和所述目标时序特征信息输入到至少一个交易检测模型,可以将所述待检测交易和所述目标时序特征信息都考虑进去,更充分、全面地检测所述待检测交易,所以欺诈交易的检测更加准确。

可选的,针对所述交易检测模型对应的数据集中任一条训练数据;所述训练数据按照以下方式得到:

获取所述训练数据的原始数据;所述原始数据包括交易、交易的时序特征信息和交易标签;所述交易标签为正常交易,或为疑似欺诈交易,或为欺诈交易;

若所述交易标签为疑似欺诈交易,则将所述原始数据输入至所述交易检测模型的初始模型,获得所述原始数据的模型评分结果;

根据所述原始数据的模型评分结果,将所述交易标签修改为正常交易或欺诈交易。

上述方法中,通过对疑似欺诈交易进行评分,及时将所述交易标签修改为正常交易或欺诈交易,从而增加了数据集的准确性和训练数据的完备性。

可选的,所述确定所述待检测交易的目标时序特征信息,包括:

获取所述待检测交易在多个维度的时序上关联的多个交易时序信息;

对所述多个交易时序信息进行统计分析,确定所述待检测交易的目标时序特征信息。

上述方法中,通过综合考虑所述待检测交易在多个维度的时序上关联的多个交易时序信息,得到所述待检测交易的目标时序特征信息,使得所述目标时序特征信息更加准确。

可选的,所述多个交易时序信息包括以下至少一项:所述待检测交易在第一预设时间段内在地理位置维度上的交易时序信息、所述待检测交易在第二预设时间段内在商户维度上的交易时序信息、所述待检测交易在第三预设时间段内在所属卡片维度上的交易时序信息。

可选的,所述交易检测模型具体按照以下方式得到:

将所述交易检测模型对应的数据集划分为多份子数据集;

针对所述多份子数据集任一份子数据集,按照所述子数据集中数据的时序特性将所述子数据集划分为子数据集的训练集和子数据集的验证集以及子数据集的外推测试集;

基于所述子数据集的训练集和所述子数据集的验证集,按照所述交易检测模型对应的机器学习算法,对所述交易检测模型的中间模型进行训练;所述中间模型为所述初始模型或者为根据所述初始模型和所述子数据集训练得到的模型;

若所述中间模型训练后的模型不满足所述子数据集的预设收敛条件,则更新所述中间模型;反之,则将此时的中间模型作为所述交易检测模型。

可选的,按照以下方式确定所述中间模型是否满足所述子数据集的预设收敛条件:

基于所述子数据集的验证集和子数据集的外推测试集,根据K-S验证法对所述中间模型训练后的模型验证,获得所述中间模型的K-S验证结果;和\或基于所述子数据集的验证集和子数据集的外推测试集,根据AUC验证法对所述中间模型训练后的模型验证,获得所述中间模型的AUC验证结果;

根据所述中间模型的K-S验证结果和\或所述中间模型的AUC验证结果,确定所述中间模型是否满足所述预设收敛条件。

上述方式下,通过所述中间模型的K-S验证结果和\或所述中间模型的AUC验证结果,可以判断模型的稳定性和泛化能力,从而进一步考虑模型的稳定性。

可选的,所述根据所述至少一个模型评分结果,确定所述待检测交易是否为欺诈交易,包括:

根据所述至少一个模型评分结果,按照加权平均方法,获得所述待检测交易的综合模型评分结果;或者,

将所述至少一个模型评分结果输入至高层嵌套模型,获得所述待检测交易的综合模型评分结果;所述高层嵌套模型是基于所述至少一个交易检测模型对应的数据集训练时的模型评分结果,按照机器学习算法训练得到的;

根据所述综合模型评分结果,确定所述待检测交易是否为欺诈交易。

上述方式下,通过融合多个模型的评分结果,可以考虑多个模型的综合情况,从而进一步得到全面的交易检测模型。

第二方面,本发明提供一种欺诈交易的检测装置,包括:

获取模块,用于获取待检测交易;

处理模块,用于确定所述待检测交易的目标时序特征信息;

确定模块,用于将所述待检测交易和所述目标时序特征信息输入到至少一个交易检测模型,获得所述待检测交易的至少一个模型评分结果;针对所述至少一个交易检测模型中任一交易检测模型,所述交易检测模型是基于所述交易检测模型对应的数据集,按照所述交易检测模型对应的机器学习算法,对所述交易检测模型对应的初始模型训练得到的;所述交易检测模型对应的数据集中任一条训练数据包括交易、交易的时序特征信息和交易标签;以及用于根据所述至少一个模型评分结果,确定所述待检测交易是否为欺诈交易。

可选的,针对所述交易检测模型对应的数据集中任一条训练数据;所述装置还包括建立模块,所述建立模块用于:

按照以下方式得到所述训练数据:

获取所述训练数据的原始数据;所述原始数据包括交易、交易的时序特征信息和交易标签;所述交易标签为正常交易,或为疑似欺诈交易,或为欺诈交易;若所述交易标签为疑似欺诈交易,则将所述原始数据输入至所述交易检测模型的初始模型,获得所述原始数据的模型评分结果;根据所述原始数据的模型评分结果,将所述交易标签修改为正常交易或欺诈交易。

可选的,所述处理模块具体用于:

获取所述待检测交易在多个维度的时序上关联的多个交易时序信息;

对所述多个交易时序信息进行统计分析,确定所述待检测交易的目标时序特征信息。

可选的,所述多个交易时序信息包括以下至少一项:所述待检测交易在第一预设时间段内在地理位置维度上的交易时序信息、所述待检测交易在第二预设时间段内在商户维度上的交易时序信息、所述待检测交易在第三预设时间段内在所属卡片维度上的交易时序信息。

可选的,所述装置还包括建立模块,所述建立模块具体用于:

按照以下方式得到所述交易检测模型:

将所述交易检测模型对应的数据集划分为多份子数据集;

针对所述多份子数据集任一份子数据集,按照所述子数据集中数据的时序特性将所述子数据集划分为子数据集的训练集和子数据集的验证集以及子数据集的外推测试集;

基于所述子数据集的训练集和所述子数据集的验证集,按照所述交易检测模型对应的机器学习算法,对所述交易检测模型的中间模型进行训练;所述中间模型为所述初始模型或者为根据所述初始模型和所述子数据集训练得到的模型;

若所述中间模型训练后的模型不满足所述子数据集的预设收敛条件,则更新所述中间模型;反之,则将此时的中间模型作为所述交易检测模型。

可选的,所述建立模块具体用于:

按照以下方式确定所述中间模型是否满足所述预设收敛条件:

基于所述子数据集的验证集和子数据集的外推测试集,根据K-S验证法对所述中间模型训练后的模型验证,获得所述中间模型的K-S验证结果;和\或基于所述子数据集的验证集和子数据集的外推测试集,根据AUC验证法对所述中间模型训练后的模型验证,获得所述中间模型的AUC验证结果;

根据所述中间模型的K-S验证结果和\或所述中间模型的AUC验证结果,确定所述中间模型是否满足所述子数据集的预设收敛条件。

可选的,所述确定模块具体用于:

根据所述至少一个模型评分结果,按照加权平均方法,获得所述待检测交易的综合模型评分结果;或者,将所述至少一个模型评分结果输入至高层嵌套模型,获得所述待检测交易的综合模型评分结果;所述高层嵌套模型是基于所述至少一个交易检测模型对应的数据集训练时的模型评分结果,按照机器学习算法训练得到的;

根据所述综合模型评分结果,确定所述待检测交易是否为欺诈交易。

上述第二方面及第二方面各个可选装置的有益效果,可以参考上述第一方面及第一方面各个可选方法的有益效果,这里不再赘述。

第三方面,本发明提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个可选的方法。

第四方面,本发明提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个可选的方法。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种欺诈交易的检测方法可应用的第一种系统架构示意图;

图2为本发明实施例提供的一种欺诈交易的检测方法可应用的第二种系统架构示意图;

图3为本发明实施例提供的一种欺诈交易的检测方法的步骤流程示意图;

图4为本发明实施例提供的一种欺诈交易的检测方法中至少一个交易检测模型的部署示意图;

图5为本发明实施例提供的一种欺诈交易的检测方法中获取时序特征信息的流程示意图;

图6为本发明实施例提供的一种欺诈交易的检测方法中获取时序特征信息的具体流程示意图;

图7为本发明实施例提供的一种欺诈交易的检测方法中建立至少一个交易检测模型的数据集获取的流程示意图;

图8为本发明实施例提供的一种欺诈交易的检测方法中建立至少一个交易检测模型的数据集处理的具体流程示意图;

图9为本发明实施例提供的一种欺诈交易的检测方法中至少一个交易检测模型的效果检测的流程示意图;

图10为本发明实施例提供的一种欺诈交易的检测方法中建立至少一个交易检测模型的数据集划分的流程示意图;

图11为本发明实施例提供的一种欺诈交易的检测方法中至少一个交易检测模型优化的流程示意图;

图12为本发明实施例提供的一种欺诈交易的检测方法中至少一个交易检测模型融合的流程示意图;

图13为本发明实施例提供的一种欺诈交易的检测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明实施例提供的一种欺诈交易的检测方法可应用于多种场景。

举例来说,欺诈交易的检测方法中的至少一个交易检测模型可以为伪卡欺诈侦测评分模型,用于判断一笔待检测交易是否为伪装原银行卡所进行的欺诈交易,可以应用于伪卡欺诈侦测评分模型系统中。

具体可以如图1所示,为伪卡欺诈侦测评分模型系统的在线架构,待检测交易经过销售终端(point of sale,POS)或自动取款机(Automated Teller Machine,ATM)进入银行卡实时转接清算系统,实时转接清算系统向伪卡欺诈侦测评分模型系统发起评分请求,将评分结果随交易报文一起发送至银行进行决策。

举例来说,欺诈交易的检测方法中的至少一个交易检测模型可以为伪冒绑卡侦测评分模型,用于判断一笔待检测交易是否为伪装用户的设备向原银行卡所进行绑卡请求的欺诈交易,可以应用于伪冒绑卡侦测评分模型系统中。

具体可以如图2所示,为伪冒绑卡侦测评分模型系统的在线架构,持卡人通过手机或其他设备发起近场通信(Near Field Communication,NFC)绑卡交易,进入银联NFC绑卡系统,将绑卡交易信息发送至风控系统,由风控系统调用评分,通过评分结果判断是否为伪冒绑卡。

举例来说,欺诈交易的检测方法中的至少一个交易检测模型可以为伪冒绑卡侦测评分模型,用于判断一笔待检测交易是否为伪装用户的设备向原银行卡所进行绑卡请求的欺诈交易,可以应用于伪冒绑卡侦测评分模型系统中。

在银行卡交易转接网络中布署实时评分系统,实现在银行卡刷卡交易授权前的实时反欺诈量化计算:

对于一笔跨行银行卡交易,在收单银行发起的交易请求信息经过银行卡组织(例如银联)的交易转接网络时,通过使用计算机自动程式实时提取和分析该交易中信息以及与该交易相关的历史信息,结合特定的智能化模型实现对该交易量化评分,并将该评分信息实时附加于交易信息中,发送至发卡银行,由其根据该评分信息进行反欺诈决策动作。

银行卡转接清算网络拥有多维度的海量交易流水,包括卡片、商户、设备维度的历史交易信息,相比银行发卡端与机构收单端,转接系统具有全量卡片、全量商户的跨银行、跨收单机构交易的丰富数据,因此掌握更加全面的信息、洞见全网络的交易风险,因此在银行卡交易转接位置部署银行卡欺诈交易实时侦测评分模型具有更佳的实用效果,比传统发卡银行或收单机构自身单一的风控策略更加有效。

本发明能够做到银行卡欺诈交易的实时侦测,与交易发生的同时,通过实时评分侦测欺诈交易。与现有的交易发生后的批量分析预警方法相比,本发明技术实时性更强,可直接在交易过程中进行干预,实时拦截欺诈交易,这种事中干预的方式,直接拒绝了欺诈交易的成功发生,避免造成经济损失,而原有技术事后分析,即便准确,欺诈交易已经真是发生,未必能够追回经济损失。

显然,上述实施方式具有以下优势:

是本发明基于卡组织转接枢纽位置,创建了卡号、商户、设备多维度的历史交易信息,深挖欺诈交易特征,构建机器学习模型侦测识别银行卡欺诈交易。与现有简单的专家规则组合相比,评分模型性能够统计更多维度、更长时间、更全交易的特征,更能准确刻画欺诈特征,更具有泛化能力,更能应对当前交易网络内不断翻新、复杂多样的欺诈手法。

图3示出了本发明实施例提供的一种欺诈交易的检测方法的步骤流程示意图。

步骤301:获取待检测交易。

步骤302:确定所述待检测交易的目标时序特征信息。

步骤303:将所述待检测交易和所述目标时序特征信息输入到至少一个交易检测模型,获得所述待检测交易的至少一个模型评分结果。

针对所述至少一个交易检测模型中任一交易检测模型,所述交易检测模型是基于所述交易检测模型对应的数据集,按照所述交易检测模型对应的机器学习算法,对所述交易检测模型对应的初始模型训练得到的;所述交易检测模型对应的数据集中任一条训练数据包括交易、交易的时序特征信息和交易标签。

步骤304:根据所述至少一个模型评分结果,确定所述待检测交易是否为欺诈交易。

需要说明的是,本发明实施例提供的一种欺诈交易的检测方法在实际应用中,可以通过应用系统中多个模块协同工作。如图4所示,为至少一个交易检测模型的部署示意图。

具体来说①~⑧代表按时间顺序排列的信息传输步骤,为主链路且均为同步接口,通讯模块、实时缓存模块、短时计算模块、长时计算模块之间的信息传输与主链路之间是异步过程。

在实际生产中,需将离线的至少一个交易检测训练过程中的离线特征工程在生产系统中实现为在线特征工程,实际做法是将一个特征的加工过程分为:当笔交易相关的信息、银行卡片在短时间的历史内发生的交易相关的信息(短时特征)、和银行卡片在长时间的历史内发生的交易相关的信息(长时特征)三个部分,其中短时可以指1~2天,长时可以指3个月或者1年内等更长的时间跨度。下面以一个特征的例子具体说明:

特征逻辑为:交易所在的地区并非该卡片过去1年内所交易过的地区,且交易距上一笔交易的时间差小于60分钟。首先在特征计算模块暂存当笔交易的要素,在此例中,特定地,包括当笔交易的地区,当笔交易时间这两个要素,其次在短时特征模块中调取该卡片在过去48小时内所有交易的要素,并将这些交易的交易地区形成列表,将这些交易按时间倒序,取最近一笔交易的交易时间,然后在长时特征模块中调取该卡片在过去1年到T-1(T为正整数)日内,所有该卡片的交易地区列表,再将短时特征模块中的交易地区列表和长时特征模块中的交易地区列表在实时缓存模块中聚合并去重,得到最终列表,最后将该列表与特征计算模块中的交易地区做比对,并将最近交易时间与当笔交易时间做比对,得到特征计算的最终数值。

在实时评分系统中建立通讯模块、特征计算模块、短时特征模块、长时特征模块、实时缓存模块、评分模块,并通过以下方法建立各个模块的功能和连接方式,最终通过将通讯模块与已有的交易转接网络建立连接,完成具备智能化反欺诈评分的实时系统。

1)建立通讯模块,其功能包括:

a.与交易转接网络系统直接通过实时接口对接,对交易转接网络系统所请求的交易进行实时应答,返回该交易的评分分值。

b.将从交易转接网络系统收到的交易数据发送至短时特征模块,并以时间滑动窗口的形式进行存储。

c.将交易数据发送至特征计算模块,并等待特征计算模块所返回的该笔交易的评分。

2)建立特征计算模块,其功能包括:

a.与通讯模块建立实时接口,接收通讯模块发来的交易数据,并在得到评分后返回给通讯模块。

b.与缓存模块建立实时接口,在得到交易数据后,根据其中的要素(例如卡号、商户号等)去缓存模块中提取相应的交易特征数据及中间统计结果,并结合当笔交易数据后,计算得到最终进入模型的特征数据。

c.与评分模块建立实时接口,将模型需要的特征数据发送给评分模块,等待评分模块的评分运算结果。

进入模型的特征由短时部分和长时部分拼接而成,例如卡片90天内总交易笔数由卡片过去1天的交易笔数(短时部分)和截止T-1日的交易笔数(长时部分)求和而成。

3)建立评分模块,其功能包括:

接收特征计算模块的特征数据,并根据交易所属的特定机构和交易场景加载对应的定稿的模型文件,计算得到模型预测概率值以后,根据线性转换将其转换为整数评分后,返回给特征计算模块。

4)建立短时计算模块,其功能为:

接收通讯模块发送过来的交易数据,并按时间滑窗的方式存储短时间(例如48小时)内的交易数据,并将这些交易数据按银行卡号维度做归并,发送至实时缓存模块。

5)建立长时计算模块,其功能为:

a.从更新频率为T-1日的离线数据库中获取历史交易数据和风险信息数据;

b.根据以上数据,以及特征所需的长时特征部分逻辑,计算出长时特征部分的值,并以每天定时批量发送的形式发送至缓存模块。

特征计算的长时模块主要针对银行卡片历史交易、商户历史交易等较大的数据体量,其运算过程是日度批量式更新的,短时模块主要针对卡片或商户当天交易等较小数据体量,其运算过程是实时更新的,通过二者与当笔交易信息的结合,可以合理分配计算与存储资源,同时避免过多丢弃离线特征工程中计算逻辑复杂的特征,从而影响在线评分模型相对于离线评分模型的效果衰减。

在欺诈交易侦测评分模型的实时计算方案实现过程中,通过拆分计算实现当笔交易的长时间历史特征的实时计算,其特征为对一个长时间的历史特征进行拆分计算,拆分成长时模块、短时模块与当笔模块,长时模块计算当笔交易发生时间T-1天之前的交易特征,短时模块计算当笔交易发生当天的交易特征,这两部分特征在当笔交易发生前就计算完成存入快速内存中,当笔交易发生时,再计算与当笔交易相关的部分,由三个模块计算的结果组合得到当笔交易的一个长时间的历史特征。

6)建立实时缓存模块,其功能为:

a.分别接收来自短时模块的短时特征部分和来自长时模块的长时特征部分,将其拼接计算,得到模型所需的特征结果以及以卡号、商户号为主键的中间统计结果;

b.接收特征计算模块的交易数据,根据交易数据中的卡号、商户号等要素,返回相应的交易特征数据及中间统计结果。

上述过程中,通过先拆分后组合的方法实现对交易反欺诈模型复杂特征的毫秒级实时计算,在提高对于离线特征的保留度的同时保障在线/离线特征工程的一致性精度:

在使用评分模型进行银行卡欺诈交易侦测的过程中,存在模型效果与计算时间的矛盾,使用卡片等维度过长时间的、逻辑过于复杂的特征随让能够提升模型效果,但是计算耗时长,不能满足实时侦测的要求。因此,可能会剔除这类特征,或者找一些逻辑简单的特征替代,但是,本发明提出了一种不丢弃特征同时满足实时计算要求的方法,对一个复杂特征,在实时评分系统中对其特征计算逻辑进行拆分计算,拆分成长时模块、短时模块与当笔模块。实时缓存模块中,当笔交易发生时,再计算与当笔交易相关的部分,由三个模块计算的结果组合得到当笔交易的一个长时间的历史特征,满足了实时计算的要求。

步骤302的一种可选实施方式如下:

获取所述待检测交易在多个维度的时序上关联的多个交易时序信息;对所述多个交易时序信息进行统计分析,确定所述待检测交易的目标时序特征信息。

具体来说,上述实现方式具体举例如下:

如图5所示,为各家银行向银行卡欺诈信息共享平台报送发生的欺诈交易,银行卡组织可利用报送的欺诈交易数据,掌握最新发生的欺诈案件,分析欺诈的行为特征,用于研发银行卡欺诈交易侦测评分模型的特征变量,用于提升模型的效果。

举例来说,在欺诈交易侦测评分模型的特征变量构建过程中,通过银行间欺诈信息共享建立交易网络内共享的欺诈特征,其特征为搭建银行间的欺诈信息共享平台,用于各家银行及时地报送本行卡片发生的欺诈交易,转接机构及时地掌握网络内的新发生的欺诈案件与新的欺诈作案特征,建立可用于计算其他银行卡片交易评分的特征。

例如,当笔交易的商户是否有其他银行的卡片发生过交易,如果有,距离上一笔发生的欺诈交易的时间有多久,以此来判断此商户交易的欺诈可疑程度,同时,计算商户近期的日均交易笔数,以此来排除那些大型商户,防止模型对大型商户的大量交易输出高分,保障持卡人的用户体验。

本发明提出了一种行业联防联控交易欺诈风险的方法,有助于银行卡交易风险防控、减少机构或持卡人的经济损失、净化银行卡交易网络、提升持卡人用户体验。通过银行间欺诈信息共享机制,建立基于快速共享信息的欺诈统计特征,以提升反欺诈评分模型对于团伙类欺诈的识别和防控效果:

作为银行卡交易转接,位于银行与收单机构的、银行间的枢纽位置,本发明提出,搭建银行间的欺诈信息共享平台,用于各家银行及时地报送本行卡片发生的欺诈交易,转接机构及时地掌握网络内的新发生的欺诈案件与新的欺诈作案特征,建立可用于计算其他银行卡片交易评分的特征,如此,一家银行发生了欺诈交易,就能快速、有效地防止其他银行再发生类似的欺诈交易。例如,当笔交易的商户是否有其他银行的卡片发生过交易,如果有,距离上一笔发生的欺诈交易的时间有多久,以此来判断此商户交易的欺诈可疑程度,同时,计算商户近期的日均交易笔数,以此来排除那些大型商户,防止模型对大型商户的大量交易输出高分,保障持卡人的用户体验。

更具体地,图6示出了侦测欺诈交易评分模型方法的特征工程和特征筛选方法流程。

伪卡欺诈侦测评分模型中,可以将上述带有欺诈交易标签的表1作为主表,副表卡片历史交易数据与表1相似,但不具备欺诈标签维度,商户统计信息如表5所示。通过本实施例表1的卡号、商户号维度关联主表与副表。

表5商户统计信息部分内容示意

通过自动化特征工程和人工业务特征开发,对银行卡交易信息生成特征变量,特征变量筛选通过相关系数和机器学习树模型完成,剔除掉特征之间相关性高的、与欺诈标签相关性低的,保留与欺诈标签相关性高的、在机器学习模型中重要的特征。伪卡欺诈侦测评分模型筛选后特征如表6所示,伪冒绑卡侦测评分模型筛选后特征如表7所示。

表6伪卡欺诈侦测评分模型特征部分内容示意

表7伪冒绑卡侦测评分模型特征部分内容示意

所述特征变量之间的相关性,或特征变量与欺诈标签的相关性,如公式(1)所示。

X,Y为2个不同特征变量,或一个特征变量、一个欺诈标签,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。

PSI是用以检验稳定性的指标,可以用以检查特征的稳定性,其公式为:

其中Ai和Ei分别代表实际占比和预期占比,在验证不同时间窗口间的稳定性时,即为窗口1的占比和窗口2的占比,i为将特征进行分箱的标号。PSI越小代表两个分布越相近,即稳定性越好,一般以0.1作为好坏分界的经验判断参数。通过对所有特征求PSI值,删除0.1以上的对应特征,就可以保留稳定特征。

步骤302的上述可选实施方式中,所述多个交易时序信息包括以下至少一项:所述待检测交易在第一预设时间段内在地理位置维度上的交易时序信息、所述待检测交易在第二预设时间段内在商户维度上的交易时序信息、所述待检测交易在第三预设时间段内在所属卡片维度上的交易时序信息。

具体来说:

所述使用转接系统具有的全量卡片、全量商户的跨银行、跨收单机构交易的丰富数据,获取多个交易时序信息的方法为:

1)所述待检测交易在第一预设时间段内在地理位置维度上的交易时序信息:举例来说,卡片当笔与历史交易一致性特征制作方法为:首先提取当笔交易特征及卡片在过去一段时间内的特征,其次将二者做一致性比较,例如判断当笔交易所在的国家是否为卡片历史交易过的国家、是否为历史交易中最频繁交易的国家等,最后再结合该一致性比较的结果与其他如时间差等要素关联起来,形成具有一定欺诈业务可解释性的规则特征,作为最终结果特征,例如当笔交易地点与上一笔交易地点的地理距离与时间差之间的比值是否超过某一阈值等。

2)所述待检测交易在第二预设时间段内在商户维度上的交易时序信息:举例来说,当笔交易商户(或国家、地区)的风险特征的制作方法为:首先整理全量历史欺诈交易数据集,其次将其按照商户做归总统计,即计算各个商户最早、最近被发现为盗刷或者侧录商户的时间、欺诈交易笔数、总交易笔数等要素,最后将这些要素按照发生时间不早于当笔交易时间的原则与当笔交易信息归并,形成专家规则特征,例如当笔交易的商户最近是否发生过欺诈盗刷等。

3)所述待检测交易在第三预设时间段内在所属卡片维度上的交易时序信息:举例来说,卡片历史汇总统计主要包括卡片在过去一段时间内的总交易量、总交易金额、商户数等一系列汇总统计特征,用以区分不同银行卡的使用状态和持卡人特质。

步骤303中,需要说明的是,其中,建立至少一个交易检测模型的数据集获取如图7所示。图7示出了建立至少一个交易检测模型的数据集获取的基本流程。可以对正常交易数据进行降采样与完整的确认是欺诈交易的样本结合训练初步的至少一个交易检测模型,使用至少一个交易检测模型对全量应答失败的交易数据(即疑似欺诈交易的交易数据)进行评分,其中超过评分阈值的交易被判别为欺诈交易与确认欺诈的交易组合成扩充后的欺诈交易样本,然后从全量交易检测模型的数据集中剔除此部分重新做降采样获得正常交易数据的数据集,重新训练验证银行卡欺诈交易侦测评分模型。

在实际中的银行卡交易中,发生的欺诈交易很少,一般欺诈率在万分之几左右,因此,在银行卡交易侦测评分模型的建立过程中,面临着正负样本极度不平衡的问题,给模型的训练和稳定性带来了极大的困难。在实际中,有些欺诈交易因为密码错误、余额不足、或风控策略拦截的原因应答失败了,没有发生经济损失,持卡人不一定能够感知到,所以也就无法得到确认,所以应答失败的交易中一定含有一部分欺诈交易。本发明提出,使用已知的完整的欺诈样本和降采样的正常交易样本进行初步的模型训练,再使用获得的初步模型对正常交易进行评分,将其中评分输出为高分、且实际应答失败的交易划分到欺诈交易样本中,于是欺诈样本数据得到了扩充,使用扩充后的欺诈样本重新训练银行卡欺诈交易侦测评分模型,模型效果得到提升、泛化能力增强。

一种可选实施方式中,针对所述交易检测模型对应的数据集中任一条训练数据;所述训练数据按照以下方式得到:

步骤(1-1):获取所述训练数据的原始数据。

步骤(1-2):若所述交易标签为疑似欺诈交易,则将所述原始数据输入至所述交易检测模型的初始模型,获得所述原始数据的模型评分结果。

步骤(1-3):根据所述原始数据的模型评分结果,将所述交易标签修改为正常交易或欺诈交易。

所述原始数据包括交易、交易的时序特征信息和交易标签;所述交易标签为正常交易,或为疑似欺诈交易,或为欺诈交易。

举例来说,步骤(1-1)中的原始数据的内容如下:

获取银行卡交易数据,如表1所示,伪卡欺诈数据如表2所示,NFC绑卡交易数据如表3所示,伪冒绑卡数据如表4所示。伪冒绑卡侦测评分模型方法将上述带有欺诈交易的表3作为主表,副表卡片历史绑卡数据与表3相似,但不具备欺诈交易的维度,通过本实施例表3的卡片、手机号、账户号维度关联主表与副表。

表1银行卡交易数据部分内容示意

表2伪卡欺诈数据部分内容示意

表3 NFC绑卡交易数据部分内容示意

表4伪冒绑卡数据部分内容示意

更具体地,所述训练数据的原始数据的处理过程可以如图8所示,具体过程可以包括清洗、扩充、匹配等过程。

举例来说,伪卡欺诈侦测评分模型方法先对伪卡欺诈数据进行清洗,通过欺诈类型筛选出伪卡欺诈的样本数据,在伪卡欺诈样本扩充时,例如卡片A在2019年7月11日在商户XYZXYZ发生伪卡欺诈交易,根据业务规则判定2019年7月11日当天卡片A在商户XYZXYZ的所有交易均为伪卡欺诈交易,判定卡片A在2019年7月11日当天的所有余额查询交易均为伪卡欺诈交易,将交易日期和交易时间合并为一个字段维度交易时间,代表交易发生的时间,通过上述合并的交易时间维度,判定卡片A在2019年7月11日12时13分14秒前后30分钟内的线下交易均为伪卡欺诈交易,获得了扩充后的伪卡欺诈数据。所述线下交易通过交易渠道维度筛选出POS、MPOS、ATM交易。通过本实施例的表1和表2的卡号、交易日期、交易时间、商户号维度,将伪卡欺诈标签匹配到银行卡交易数据中。

伪冒绑卡侦测评分模型方法先将原始不同设备类型的欺诈数据整合,如表3所示,在伪冒绑卡样本扩充时,例如卡片H在2019年8月21日在SEID为ABCD的设备上发生了伪冒绑卡,根据业务规则判定卡片H在2019年8月21日当天的所有绑卡交易均为伪冒绑卡,卡片H在ABCD设备上的所有绑卡交易均为伪冒绑卡,设备ABCD在2019年8月21日当天其它卡号的绑卡交易均为伪冒绑卡,获得了扩充后的伪冒绑卡数据。通过本实施例的表3和表4的卡号、交易日期、SEID维度,将伪冒绑卡标签匹配到绑卡交易数据中。

而步骤(1-2)~步骤(1-3)的具体过程举例可以如下:

对于伪卡欺诈侦测,剔除欺诈样本中的线上交易,通过线下交易条件筛选出伪卡欺诈交易。进一步利用欺诈卡片同时期的流水交易进行欺诈样本的扩充,扩充的主要规则包括欺诈卡片发生伪卡欺诈同天内同商户的所有交易、欺诈卡片发生伪卡欺诈同天内的所有余额查询交易、欺诈卡片发生伪卡欺诈前后30分钟之间的交易,符合以上规则中任意一条且符合线下交易条件,判定为伪卡欺诈交易;对于伪冒绑卡侦测,首先获取伪冒绑卡的样本数据,根据样本数据进行扩充,扩充的主要规则包括卡片发生伪冒绑卡当天该卡片的所有绑卡交易、卡片发生伪冒绑卡同设备该卡片的所有绑卡交易、伪冒绑卡当天该设备的所有绑卡交易,符合以上规则中任意一条,判定为伪冒绑卡交易;另一种是使用已知的完整的欺诈样本和降采样的正常交易样本进行初步的模型训练,再使用获得的初步模型对正常交易进行评分,将其中评分输出为高分(大于设定分值)、且实际应答失败的交易(疑似欺诈交易,应答失败具体可以根据场景定义,如密码输入错误)划分到欺诈交易样本中,于是欺诈样本数据得到了扩充。

步骤303中,在使用至少一个交易检测模型时,可以将至少一个交易检测模型部署到交易链路中,对欺诈交易进行实时侦测,可以有如下两种实施方式:一种是由银行卡交易转接系统直接调用部署的至少一个交易检测模型,将评分结果通过转接报文或者系统对接的方式传输给银行,使得银行及时拦截被判定为欺诈交易的待检测交易;另一种是由银行卡交易转接系统的实时风控系统调用至少一个交易检测模型,使用评分结果对待检测交易进行实时干预,及时拦截被判定为欺诈交易的待检测交易。

进一步地,如图9所示,为交易检测模型输出分值和效果检验方法流程。

本发明实施例每100分设置为评分阈值,输出评分大于评分阈值时判定为欺诈交易,模型效果统计检验如表8所示。

表8欺诈交易侦测评分模型效果统计检验示意

上述欺诈侦测模型的准确率、覆盖率和覆盖金额计算公式如下式(2)-(4)。

准确率=命中笔数/报警笔数; (2)

覆盖率=命中笔数/欺诈笔数; (3)

覆盖金额=命中的欺诈交易的交易金额总和; (4)

一种可选实施方式中,所述交易检测模型具体按照以下方式得到:

步骤(2-1):将所述交易检测模型对应的数据集划分为多份子数据集。

步骤(2-2):针对所述多份子数据集任一份子数据集,按照所述子数据集中数据的时序特性将所述子数据集划分为子数据集的训练集和子数据集的验证集以及子数据集的外推测试集。

图10示出了模型训练和验证中,样本抽样划分的具体方法和流程:在确定结构化特征数据后,首先按数据特性(如特定机构、交易场景(如分为境内、境外))等将数据集分为多份,其次对每份数据集按照时序特性(如时间窗口)划分为临时的集合A和外推测试集,可以设置外推测试集时间窗口紧贴集合A之后约2~4个月,最后再将集合A按随机抽样的原则划分为训练集(子数据集的训练集)和验证集(子数据集的验证集),举例来说,抽样比例可以为7:3。

步骤(2-3):基于所述子数据集的训练集和所述子数据集的验证集,按照所述交易检测模型对应的机器学习算法,对所述交易检测模型的中间模型进行训练。

所述中间模型为所述初始模型或者为根据所述初始模型和所述子数据集训练得到的模型。

步骤(2-4):若所述中间模型训练后的模型不满足所述子数据集的预设收敛条件,则更新所述中间模型;反之,则将此时的中间模型作为所述交易检测模型。

在上述步骤(2-1)~步骤(2-5)中,可以按照以下方式确定所述中间模型是否满足所述子数据集的预设收敛条件:

基于所述子数据集的验证集和子数据集的外推测试集,根据K-S验证法对所述中间模型训练后的模型验证,获得所述中间模型的K-S验证结果;和\或基于所述子数据集的验证集和子数据集的外推测试集,根据AUC验证法对所述中间模型训练后的模型验证,获得所述中间模型的AUC验证结果;

根据所述中间模型的K-S验证结果和\或所述中间模型的AUC验证结果,确定所述中间模型是否满足所述子数据集的预设收敛条件。

具体来说,如图11所示,首先选定一种模型训练方法,考虑到交易检测模型在业务上一般属于二分类问题,故主要选择逻辑回归(LR)、支持向量机(SVM)、GBDT、XGBoost等集成类树模型等主流模型训练方法,其次在该模型训练方法下,可以使用网格搜索的方式,在设定好超参数空间的情况下一一训练模型,并在验证集上进行指标验证。此处指标验证选用K-S验证法和AUC验证法,其公式分别为公式(3)和公式(4):

KS=max(|G(range)-B(range)|) (3)

其中G(range)代表将样本按照模型预测值排序后,各分段range的累积好样本比例,B(range)代表将样本按照模型预测值排序后,各分段range的累积坏样本比例,K-S即为累积差异的最大值。在实验过程中发现,K-S指标在0.3~0.4之间说明模型具有一定的区分度,0.4~0.5之间说明模型具有较好的区分度,在0.5以上则具有很好的区分度。

AUC=area_under(ROC) (4)

即AUC代表ROC曲线中线下部分的面积,ROC曲线是按照模型预测值,遍历所有切分阈值后得到的TPR-FPR二维图,TPR代表覆盖率,FPR代表误报比率。AUC在0.7~0.85之间说明模型效果较好,AUC大于0.85则说明模型效果很好。

在训练、验证集上分别进行指标验证,若训练集指标较好而验证集效果明显差于训练集,(例如二者K-S差距达到0.05以上),则推测为模型发生过拟合。此时需首先通过模型超参数调整的方式,降低模型复杂度,(如减少树模型的树深度、增大叶子节点最少样本数等)重新训练模型并观察。若仍然发生过拟合,则考虑是由于特征工程的原因导致,此时需通过减少特征、去除业务解释性差或不稳定的特征来降低模型整体复杂度,以消除过拟合。若模型在训练、验证集上效果较好,但在外推测试集上效果下降严重,则应首先考虑模型中的重要特征随时间变化的特性不稳导致,此时需观察特征在不同时间窗口间的PSI稳定性以及特征与目标变量之间的相关性关系在训练/验证集和外推测试集之间的变化,通过删除随时间不稳定的特征可以消除一部分外推效果下降的不良因素。

需要说明的是,步骤304的一种实施方式可以如下:

根据所述至少一个模型评分结果,按照加权平均方法,获得所述待检测交易的综合模型评分结果;或者,将所述至少一个模型评分结果输入至高层嵌套模型,获得所述待检测交易的综合模型评分结果;所述高层嵌套模型是基于所述至少一个交易检测模型对应的数据集训练时的模型评分结果,按照机器学习算法训练得到的;根据所述综合模型评分结果,确定所述待检测交易是否为欺诈交易。

举例来说,图12示出了模型融合的方法和流程。使用不同的模型训练方法可以得到各交易检测模型,对各交易检测模型对应的模型评分结果进行分析,可以根据预设模型筛选规则,将那些本身效果不佳或者虽然本身效果好但是和其它交易检测模型具有高度相似性的交易检测模型删除后,得到的互有差异的交易检测模型,作为至少一个交易检测模型。

此时,既可以用加权平均的方法做模型融合,(具体示例见表9),也可以使用模型预测值作为输入再训练一个高层嵌套模型,并以高层嵌套模型的预测值作为最终结果,(具体示例见表10)。

表9加权平均得到融合模型结果

表10高层嵌套模型得到融合模型结果

可以在使用过程中,使用至少一个交易检测模型,综合所述至少一个模型评分结果得到最终的综合模型评分结果,根据综合模型评分结果,确定所述待检测交易是否为欺诈交易。

也可以在综合对比两类交易检测模型融合方法以及其与单一模型方法之间的效果、稳定性后,综合评价指标最优的交易检测模型作为最终定稿的交易检测模型,只用这一个交易检测模型进行欺诈交易判断。

如图13所示,本发明提供一种欺诈交易的检测装置,包括:

获取模块1301,用于获取待检测交易;

处理模块1302,用于确定所述待检测交易的目标时序特征信息;

确定模块1303,用于将所述待检测交易和所述目标时序特征信息输入到至少一个交易检测模型,获得所述待检测交易的至少一个模型评分结果;针对所述至少一个交易检测模型中任一交易检测模型,所述交易检测模型是基于所述交易检测模型对应的数据集,按照所述交易检测模型对应的机器学习算法,对所述交易检测模型对应的初始模型训练得到的;所述交易检测模型对应的数据集中任一条训练数据包括交易、交易的时序特征信息和交易标签;以及用于根据所述至少一个模型评分结果,确定所述待检测交易是否为欺诈交易。

可选的,针对所述交易检测模型对应的数据集中任一条训练数据;所述装置还包括建立模块,所述建立模块1301用于:

按照以下方式得到所述训练数据:

获取所述训练数据的原始数据;所述原始数据包括交易、交易的时序特征信息和交易标签;所述交易标签为正常交易,或为疑似欺诈交易,或为欺诈交易;若所述交易标签为疑似欺诈交易,则将所述原始数据输入至所述交易检测模型的初始模型,获得所述原始数据的模型评分结果;根据所述原始数据的模型评分结果,将所述交易标签修改为正常交易或欺诈交易。

可选的,所述处理模块1302具体用于:

获取所述待检测交易在多个维度的时序上关联的多个交易时序信息;

对所述多个交易时序信息进行统计分析,确定所述待检测交易的目标时序特征信息。

可选的,所述多个交易时序信息包括以下至少一项:所述待检测交易在第一预设时间段内在地理位置维度上的交易时序信息、所述待检测交易在第二预设时间段内在商户维度上的交易时序信息、所述待检测交易在第三预设时间段内在所属卡片维度上的交易时序信息。

可选的,所述装置还包括建立模块,所述建立模块1303具体用于:

按照以下方式得到所述交易检测模型:

将所述交易检测模型对应的数据集划分为多份子数据集;

针对所述多份子数据集任一份子数据集,按照所述子数据集中数据的时序特性将所述子数据集划分为子数据集的训练集和子数据集的验证集以及子数据集的外推测试集;

基于所述子数据集的训练集和所述子数据集的验证集,按照所述交易检测模型对应的机器学习算法,对所述交易检测模型的中间模型进行训练;所述中间模型为所述初始模型或者为根据所述初始模型和所述子数据集训练得到的模型;

若所述中间模型训练后的模型不满足所述子数据集的预设收敛条件,则更新所述中间模型;反之,则将此时的中间模型作为所述交易检测模型。

可选的,所述建立模块1303具体用于:

按照以下方式确定所述中间模型是否满足所述子数据集的预设收敛条件:

基于所述子数据集的验证集以及子数据集的外推测试集,根据K-S验证法对所述中间模型训练后的模型验证,获得所述中间模型的K-S验证结果;和\或基于所述子数据集的验证集以及子数据集的外推测试集,根据AUC验证法对所述中间模型训练后的模型验证,获得所述中间模型的AUC验证结果;

根据所述中间模型的K-S验证结果和\或所述中间模型的AUC验证结果,确定所述中间模型是否满足所述子数据集的预设收敛条件。

可选的,所述确定模块1303具体用于:

根据所述至少一个模型评分结果,按照加权平均方法,获得所述待检测交易的综合模型评分结果;或者,

将所述至少一个模型评分结果输入至高层嵌套模型,获得所述待检测交易的综合模型评分结果;所述高层嵌套模型是基于所述至少一个交易检测模型对应的数据集训练时的模型评分结果,按照机器学习算法训练得到的;

根据所述综合模型评分结果,确定所述待检测交易是否为欺诈交易。

基于同一发明构思,本发明实施例还提供了一种计算机设备,包括程序或指令,当所述程序或指令被执行时,如本发明实施例提供的欺诈交易的检测方法及任一可选方法被执行。

基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,包括程序或指令,当所述程序或指令被执行时,如本发明实施例提供的欺诈交易的检测方法及任一可选方法被执行。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种欺诈交易的检测方法及装置
  • 欺诈交易检测方法、装置、计算机设备和存储介质
技术分类

06120112922187