掌桥专利:专业的专利平台
掌桥专利
首页

基于人工智能的数据欺诈检测方法、装置、终端及介质

文献发布时间:2023-06-19 09:54:18


基于人工智能的数据欺诈检测方法、装置、终端及介质

技术领域

本发明涉及人工智能技术领域,具体涉及一种基于人工智能的数据欺诈检测方法、装置、终端及介质。

背景技术

信用卡是一种免担保,无需重复申请而拥有循环额度的小额信贷工具。绝大部分的信用卡业务风险来源于欺诈风险。

在互联网金融欺诈中,单一类型的诈骗几乎不存在,且诈骗的手段总在变化。反欺诈过程中主要面临以下几种问题:大部分数据是无标签的,且有标签的金融数据大多也是不平衡的,导致各种成熟的有监督学习模型不能广泛应用;金融数据量较大,人工标注异常数据,非常费时费力,因此欺诈检测效率较低。

发明内容

鉴于以上内容,有必要提出一种基于人工智能的数据欺诈检测方法、装置、终端及介质,能够提高欺诈检测的效率。

本发明的第一方面提供一种基于人工智能的数据欺诈检测方法,所述方法包括:

获取多个用户的多个维度的目标数据,并将每个维度的每个目标数据编码成特征向量;

对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据,及对每个维度的多个特征向量进行时序分析得到多个第二特征数据;

使用孤立森林模型检测出每个维度的多个第一特征数据中的多个第一异常特征数据及检测出每个维度的多个第二特征数据中的多个第二异常特征数据;

为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签;

基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型;

使用所述欺诈检测模型对待测目标数据进行欺诈检测。

根据本发明的一个可选的实施例,所述将每个维度的每个目标数据编码成特征向量包括:

输入每个维度的每个目标数据至预训练模型BERT中进行编码,得到至少一个字向量;

计算所述至少一个字向量的均值向量并将所述均值向量作为特征向量。

根据本发明的一个可选的实施例,所述对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据包括:

计算所述多个特征向量中的任意两个特征向量之间的距离;

根据所述距离构造特征矩阵;

计算所述特征矩阵的特征值;

确定所述特征值为第一特征数据。

根据本发明的一个可选的实施例,所述对每个维度的多个特征向量进行时序分析得到多个第二特征数据包括:

定义多个时序函数;

从所述多个特征向量中获取与每个时序函数对应的目标特征向量;

使用每个时序函数计算对应的目标特征向量得到第二特征数据。

根据本发明的一个可选的实施例,在所述为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签之前,所述方法还包括:

对每个维度的多个第一正常特征数据进行粗分组及对每个维度的多个第二正常特征数据进行粗分组;

计算每个分组中的每个第一正常特征数据的第一证据权重值及计算每个分组中的每个第二正常特征数据的第二证据权重值;

计算每个分组中的多个第一证据权重值的第一均值及计算每个分组中的多个第二证据权重值的第二均值;

计算每个第一均值的第一信息价值及计算每个第二均值的第二信息价值;

根据所述第一信息价值从所述多个第一正常特征数据中选取出多个第一目标特征数据,及根据所述第二信息价值从所述多个第二正常特征数据中选取出多个第二目标特征数据。

根据本发明的一个可选的实施例,所述基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型包括:

获取与所述第二标签对应的多个第一目标特征数据及多个第二目标特征数据;

基于所述多个第一目标特征数据、所述多个第二目标特征数据及所述第二标签构建训练数据;

基于所述训练数据训练欺诈检测模型;

获取与所述第一标签对应的多个第一异常特征数据及多个第二异常特征数据;

基于所述多个第一异常特征数据及所述多个第二异常特征数据构建测试数据;

基于所述测试数据测试所述欺诈检测模型得到预测标签;

根据所述预测标签与所述第一标签计算测试通过率;

当所述测试通过率大于或者等于预设通过率阈值,结束对所述欺诈检测模型的训练。

根据本发明的一个可选的实施例,所述使用所述欺诈检测模型对待测目标数据进行欺诈检测包括:

获取待测目标数据对应的身份信息;

获取所述身份信息的历史目标数据;

根据所述历史目标数据及所述待测目标数据衍生出与欺诈相关的特征变量;

使用所述欺诈检测模型对所述特征变量进行检测并输出欺诈评分;

判断所述欺诈评分是否大于预设评分阈值;

当确定所述欺诈评分大于所述预设评分阈值,标记所述身份信息对应的账户。

本发明的第二方面提供一种基于人工智能的数据欺诈检测装置,所述装置包括:

数据编码模块,用于获取多个用户的多个维度的目标数据,并将每个维度的每个目标数据编码成特征向量;

数据处理模块,用于对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据,及对每个维度的多个特征向量进行时序分析得到多个第二特征数据;

异常检测模块,用于使用孤立森林模型检测出每个维度的多个第一特征数据中的多个第一异常特征数据及检测出每个维度的多个第二特征数据中的多个第二异常特征数据;

标签生成模块,用于为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签;

模型训练模块,用于基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型;

欺诈检测模块,用于使用所述欺诈检测模型对待测目标数据进行欺诈检测。

本发明的第三方面提供一种终端,所述终端包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现所述的基于人工智能的数据欺诈检测方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于人工智能的数据欺诈检测方法。

综上所述,本发明所述的基于人工智能的数据欺诈检测方法、装置、终端及介质,在获取到多个用户的多个维度的目标数据之后,先将每个维度的每个目标数据编码成特征向量,编码成特征向量有利于机器学习;接着对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据及对每个维度的多个特征向量进行时序分析得到多个第二特征数据,得到的多个第一特征数据和多个第二特征数据具有较强的关联关系;再使用孤立森林模型检测出每个维度的多个第一特征数据中的多个第一异常特征数据及检测出每个维度的多个第二特征数据中的多个第二异常特征数据并为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签,实现了不同特征数据的快速打标签,尤其是提高了异常特征数据的快速打标签;最后基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型,提高了欺诈检测模型的效率;使得使用所述欺诈检测模型对待测目标数据进行欺诈检测时具有较高的检测效率。

附图说明

图1是本发明实施例一提供的基于人工智能的数据欺诈检测方法的流程图。

图2是本发明实施例二提供的基于人工智能的数据欺诈检测装置的结构图。

图3是本发明实施例三提供的终端的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

本发明实施例提供的基于人工智能的数据欺诈检测方法由终端执行,相应地,基于人工智能的数据欺诈检测装置运行于终端中。

图1是本发明实施例一提供的基于人工智能的数据欺诈检测方法的流程图。所述基于人工智能的数据欺诈检测方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S11,获取多个用户的多个维度的目标数据,并将每个维度的每个目标数据编码成特征向量。

持卡人在商户的POS机上刷卡,通过POS机传递目标数据至银联商户行。反欺诈系统通过银联商户引擎从所述银联商户行获取目标数据。反欺诈系统安装在终端中,用于检测待测目标数据的欺诈风险。其中,所述目标数据可以是指信用卡数据。

其中,所述多个目标数据可以包括:单笔交易的基本信息,持卡人的基本信息及商户的基本信息。所述单笔交易的基本信息可以包括:交易金额,交易日期,交易时间,账户余额,信用额度等。所述持卡人的基本信息可以包括:开户名、身份证、开户地、开户日期等。所述商户的基本信息可以包括:商户所在地,商户代码,商户分类代码等。一般采用20个维度左右的数据。

在一个可选的实施例中,所述将每个维度的每个目标数据编码成特征向量包括:

输入每个维度的每个目标数据至预训练模型BERT中进行编码,得到至少一个字向量;

计算所述至少一个字向量的均值向量并将所述均值向量作为特征向量。

BERT(Bidirectional Encoder Representations from Transformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面词的信息,从而获取上下文的语义。可以从Google提供的多种预训练好的BERT模型中选取BERT(base)作为预训练模型。每个维度的每个目标数据通过BERT模型之后,目标数据中的每个字被‘编码’成一个768维的字向量,字向量的每个位置上的数字表示该目标数据的语义信息,将至少一个字向量进行平均特征向量。

示例性的,假设某个维度的一个目标数据为本科,通过预训练模型BERT进行编码得到两个字向量V1和V2,其中,V1=[X11,X12,…,X1768],V2=[X21,X22,…,X2768],则计算字向量V1和V2的均值向量V=[(X11+X21)/2,(X12+X22)/2,…,(X1768+X2768)/2],作为所述维度的目标数据的特征向量。

该可选的实施例中,由于每个维度的目标数据可能为文字性数据,而文字性数据不利用机器学习与训练,通过BERT模型将每个维度的目标数据编码为数值型的特征向量,便于提高机器学习的准确及效率。

在一个实施例中,在将每个维度的每个目标数据编码成特征向量之前,所述方法还可以包括:将同一个维度的不同数据来源的目标数据进行连接与合并,数据清洗。其中,数据连接与合并、数据清洗均为现有技术。将同一个维度的不同数据来源的目标数据进行连接与合并,数据清洗是为了去掉重复的目标数据及去掉缺省信息的目标数据。

S12,对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据,及对每个维度的多个特征向量进行时序分析得到多个第二特征数据。

由于在互联网金融欺诈中,单一的特征向量之间可能不存在关联关系,通过对每个维度的多个特征向量进行数据处理(多维尺度变换,时序分析)得到特征数据,从得到的特征数据中进行欺诈风险的分析。

在一个可选的实施例中,所述对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据包括:

计算所述多个特征向量中的任意两个特征向量之间的距离;

根据所述距离构造特征矩阵;

计算所述特征矩阵的特征值;

确定所述特征值为第一特征数据。

可以采用如下公式构造特征矩阵B:B=[bij]=[aij-ai.-a.j-a..],aij为距离。其中,所述距离可以为欧式距离。

在线性代数中,设A是n阶方阵,如果存在数m和非零n维列向量x,使得Ax=mx成立,则称m是矩阵A的一个特征值。可以调用eig函数计算所述特征矩阵的特征值。

在一个可选的实施例中,所述对每个维度的多个特征向量进行时序分析得到多个第二特征数据包括:

定义多个时序函数;

从所述多个特征向量中获取与每个时序函数对应的目标特征向量;

使用每个时序函数计算对应的目标特征向量得到第二特征数据。

其中,所述时序函数是指与时间相关的均值函数或者与时间相关的方差函数等,所述多个时序函数可以包括,但不限于:当天交易数据的平均,过去7天交易数据的平均,过去一个月交易数据的平均,当天交易数据的方差,过去7天交易数据的方差,过去一个月交易数据的方差等。

示例性的,假设时序函数为过去7天交易数据的平均,则从所述多个维度的特征向量中获取与所述时序函数对应的目标特征向量为获取当前时间至当前时间前7天的交易数据,然后计算当前时间至当前时间前7天的交易数据的平均交易数据得到第二特征数据。

S13,使用孤立森林模型检测出每个维度的多个第一特征数据中的多个第一异常特征数据及检测出每个维度的多个第二特征数据中的多个第二异常特征数据。

孤立随机森林是指利用随机森林算法生成树,异常点会因为数值异常很容易被检测出来。具体实施时,通过每个维度的多个第一特征数据训练孤立森林模型来预测出多个第一特征数据中的多个第一异常特征数据。通过每个维度的多个第二特征数据训练孤立森林模型来预测出多个第二特征数据中的多个第二异常特征数据。异常特征数据一般来说是稀疏的,因此可以用较少次划分把它归结到单独的区域中。

在信用卡欺诈检测场景中,由于信用卡交易记录之间往往存在一定的相互关联性,例如,基本信息相近的持卡人,可能会有相似的消费习惯,此外,同一持卡人所产生的交易记录也有一定的规律,如单笔交易金额、交易频率和交易种类相似。通过定义多个时序函数来挖掘信用卡欺诈交易的模式和规律。因此,使用孤立森林模型将所述多个第一特征数据中的多个距离较远的离群点检测出来,作为第一异常特征数据;使用孤立森林模型将所述多个第二特征数据中的多个不能通过时序函数进行拟合的偏差点检测出来,作为第二异常特征数据。

S14,为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签。

在检测出第一异常特征数据和第二异常特征数据之后,为第一异常特征数据和第二异常特征数据均生成第一标签,并为第一正常特征数据及第二正常特征数据生成第二标签。其中,所述第一标签可以用0表示,所述第二标签可以用1表示。所述第一正常特征数据是指所述多个第一特征数据中除第一异常特征数据之外的特征数据,所述第二正常特征数据是指所述多个第二特征数据中除第二异常特征数据之外的特征数据。

在一个可选的实施例中,在所述为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签之前,所述方法还包括:

对每个维度的多个第一正常特征数据进行粗分组及对每个维度的多个第二正常特征数据进行粗分组;

计算每个分组中的每个第一正常特征数据的第一证据权重值及计算每个分组中的每个第二正常特征数据的第二证据权重值;

计算每个分组中的多个第一证据权重值的第一均值及计算每个分组中的多个第二证据权重值的第二均值;

计算每个第一均值的第一信息价值及计算每个第二均值的第二信息价值;

根据所述第一信息价值从所述多个第一正常特征数据中选取出多个第一目标特征数据,及根据所述第二信息价值从所述多个第二正常特征数据中选取出多个第二目标特征数据。

例如,可以按照年龄进行粗分组,0-3,4-6,7-11,12-17,17-60,60+。变量粗分组是将变量的不同取值或者区间按照目标变量取值的倾向性进行合并,合并之后的取值和区间用分组的某种统计量来表示,对变量进行粗分组处理,既可以避免模型出现过拟合,影响稳定性,也可以解决模型对变量的单调性和线性要求。将模式相近的相邻变量取值或者区间进行组合,同时确保分组中有足够的样本以显示统计意义。

信息值越大,变量对目标变量的预测能力越强。

该可选的实施例中,通过粗分组,统一将变量值用分组中的统计量证据权重值(WOE)来表示,并根据信息价值选择预测能力强的目标特征数据,不仅能将不同变量取值量纲统一,还能增强模型的稳定性。

S15,基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型。

将所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签作为第一数据集,并基于所述第一数据集进行有监督的学习与训练XGBOOST模型得到欺诈检测模型。

在一个可选的实施例中,将所述多个第一目标特征数据、所述第一标签、所述多个第二目标特征数据及所述第二标签作为第二数据集,并基于所述第二数据集进行有监督的学习与训练XGBOOST模型得到欺诈检测模型。

在一个可选的实施例中,所述基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型包括:

获取与所述第二标签对应的多个第一目标特征数据及多个第二目标特征数据;

基于所述多个第一目标特征数据、所述多个第二目标特征数据及所述第二标签构建训练数据;

基于所述训练数据训练欺诈检测模型;

获取与所述第一标签对应的多个第一异常特征数据及多个第二异常特征数据;

基于所述多个第一异常特征数据及所述多个第二异常特征数据构建测试数据;

基于所述测试数据测试所述欺诈检测模型得到预测标签;

根据所述预测标签与所述第一标签计算测试通过率;

当所述测试通过率大于或者等于预设通过率阈值,结束对所述欺诈检测模型的训练。

由于异常特征数据较少,因此仅用于做测试。

当所述测试通过率小于预设通过率阈值时,重新获取多个用户的多个维度的目标数据,并将重新获取的多个维度的目标数据与先前获取的多个维度的目标数据合并在一起,并重新执行S11-S15,直至所述测试通过率大于或者等于预设通过率阈值,结束对所述欺诈检测模型的训练。

将多个第一目标特征数据替换掉多个第一特征数据,及将多个第二目标特征数据替换掉多个第二特征数据,能够减少入模的数据量,提高欺诈检测模型的训练效率;且由于多个第一目标特征数据级多个第二目标特征数据具有较强的预测能力,因此能够有效的提高欺诈检测模型的检测效果,从而提高欺诈检测的检测效果。

S16,使用所述欺诈检测模型对待测目标数据进行欺诈检测。

其中,所述待测目标数据是指当前正在交易的目标数据。

在一个可选的实施例中,所述使用所述欺诈检测模型对待测目标数据进行欺诈检测包括:

获取待测目标数据对应的身份信息;

获取所述身份信息的历史目标数据;

根据所述历史目标数据及所述待测目标数据衍生出与欺诈相关的特征变量;

使用所述欺诈检测模型对所述特征变量进行检测并输出欺诈评分;

判断所述欺诈评分是否大于预设评分阈值;

当确定所述欺诈评分大于所述预设评分阈值,标记所述身份信息对应的账户。

欺诈风险是指申请人、商户或者任何第三方利用各种手段以不诚实的方式使用信用卡或者电话号码等,从而获得金钱、物品或服务。当确定所述欺诈评分大于所述预设评分阈值,则表明待测目标数据的欺诈可能性比较大,则标记该账户,并立即拒绝待测目标数据,并且拒绝所述账户之后的所有交易,能够有效的确保数据交易的安全性。

根据所述历史目标数据及所述待测目标数据衍生出与欺诈相关的特征变量是指对所述历史目标数据及所述待测目标数据进行编码得到特征向量,再对多个维度的特征向量进行多维尺度变换得到多个第一交易数据,及对所述多个维度的特征向量进行时序分析得到多个第二交易数据。

本发明所述的基于人工智能的数据欺诈检测方法,在获取到多个用户的多个维度的目标数据之后,先将每个维度的每个目标数据编码成特征向量,编码成特征向量有利于机器学习;接着对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据及对每个维度的多个特征向量进行时序分析得到多个第二特征数据,得到的多个第一特征数据和多个第二特征数据具有较强的关联关系;再使用孤立森林模型检测出每个维度的多个第一特征数据中的多个第一异常特征数据及检测出每个维度的多个第二特征数据中的多个第二异常特征数据并为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签,实现了不同特征数据的快速打标签,尤其是提高了异常特征数据的快速打标签;最后基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型,提高了欺诈检测模型的效率;使得使用所述欺诈检测模型对待测目标数据进行欺诈检测时具有较高的检测效率。

需要强调的是,为进一步保证欺诈检测模型的私密性和安全性,上述欺诈检测模型可存储于区块链的节点中。

图2是本发明实施例二提供的基于人工智能的数据欺诈检测装置的结构图。

在一些实施例中,所述基于人工智能的数据欺诈检测装置20可以包括多个由计算机程序段所组成的功能模块。所述基于人工智能的数据欺诈检测装置20中的各个程序段的计算机程序可以存储于终端的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于人工智能的数据欺诈检测的功能。

本实施例中,所述基于人工智能的数据欺诈检测装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:数据编码模块201、数据处理模块202、异常检测模块203、标签生成模块204、特征选取模块205、模型训练模块206、欺诈检测模块207及变量衍生模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述数据编码模块201,用于获取多个用户的多个维度的目标数据,并将每个维度的每个目标数据编码成特征向量。

持卡人在商户的POS机上刷卡,通过POS机传递目标数据至银联商户行。反欺诈系统通过银联商户引擎从所述银联商户行获取目标数据。反欺诈系统安装在终端中,用于检测待测目标数据的欺诈风险。其中,所述目标数据可以是指信用卡数据。

其中,所述多个目标数据可以包括:单笔交易的基本信息,持卡人的基本信息及商户的基本信息。所述单笔交易的基本信息可以包括:交易金额,交易日期,交易时间,账户余额,信用额度等。所述持卡人的基本信息可以包括:开户名、身份证、开户地、开户日期等。所述商户的基本信息可以包括:商户所在地,商户代码,商户分类代码等。一般采用20个维度左右的数据。

在一个可选的实施例中,所述数据编码模块201将每个维度的每个目标数据编码成特征向量包括:

输入每个维度的每个目标数据至预训练模型BERT中进行编码,得到至少一个字向量;

计算所述至少一个字向量的均值向量并将所述均值向量作为特征向量。

BERT(Bidirectional Encoder Representations from Transformers,来自Transformer的双向编码器表征)是一个预训练模型,在处理一个词的时候,能考虑到该词前面和后面词的信息,从而获取上下文的语义。可以从Google提供的多种预训练好的BERT模型中选取BERT(base)作为预训练模型。每个维度的每个目标数据通过BERT模型之后,目标数据中的每个字被‘编码’成一个768维的字向量,字向量的每个位置上的数字表示该目标数据的语义信息,将至少一个字向量进行平均特征向量。

示例性的,假设某个维度的一个目标数据为本科,通过预训练模型BERT进行编码得到两个字向量V1和V2,其中,V1=[X11,X12,…,X1768],V2=[X21,X22,…,X2768],则计算字向量V1和V2的均值向量V=[(X11+X21)/2,(X12+X22)/2,…,(X1768+X2768)/2],作为所述维度的目标数据的特征向量。

该可选的实施例中,由于每个维度的目标数据可能为文字性数据,而文字性数据不利用机器学习与训练,通过BERT模型将每个维度的目标数据编码为数值型的特征向量,便于提高机器学习的准确及效率。

在一个实施例中,在将每个维度的每个目标数据编码成特征向量之前,还可以将同一个维度的不同数据来源的目标数据进行连接与合并,数据清洗。其中,数据连接与合并、数据清洗均为现有技术。将同一个维度的不同数据来源的目标数据进行连接与合并,数据清洗是为了去掉重复的目标数据及去掉缺省信息的目标数据。

所述数据处理模块202,用于对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据,及对每个维度的多个特征向量进行时序分析得到多个第二特征数据。

由于在互联网金融欺诈中,单一的特征向量之间可能不存在关联关系,通过对每个维度的多个特征向量进行数据处理(多维尺度变换,时序分析)得到特征数据,从得到的特征数据中进行欺诈风险的分析。

在一个可选的实施例中,所述数据处理模块202对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据包括:

计算所述多个特征向量中的任意两个特征向量之间的距离;

根据所述距离构造特征矩阵;

计算所述特征矩阵的特征值;

确定所述特征值为第一特征数据。

可以采用如下公式构造特征矩阵B:B=[bij]=[aij-ai.-a.j-a..],aij为距离。其中,所述距离可以为欧式距离。

在线性代数中,设A是n阶方阵,如果存在数m和非零n维列向量x,使得Ax=mx成立,则称m是矩阵A的一个特征值。可以调用eig函数计算所述特征矩阵的特征值。

在一个可选的实施例中,所述数据处理模块202对每个维度的多个特征向量进行时序分析得到多个第二特征数据包括:

定义多个时序函数;

从所述多个特征向量中获取与每个时序函数对应的目标特征向量;

使用每个时序函数计算对应的目标特征向量得到第二特征数据。

其中,所述时序函数是指与时间相关的均值函数或者与时间相关的方差函数等,所述多个时序函数可以包括,但不限于:当天交易数据的平均,过去7天交易数据的平均,过去一个月交易数据的平均,当天交易数据的方差,过去7天交易数据的方差,过去一个月交易数据的方差等。

示例性的,假设时序函数为过去7天交易数据的平均,则从所述多个维度的特征向量中获取与所述时序函数对应的目标特征向量为获取当前时间至当前时间前7天的交易数据,然后计算当前时间至当前时间前7天的交易数据的平均交易数据得到第二特征数据。

所述异常检测模块203,用于使用孤立森林模型检测出每个维度的多个第一特征数据中的多个第一异常特征数据及检测出每个维度的多个第二特征数据中的多个第二异常特征数据。

孤立随机森林是指利用随机森林算法生成树,异常点会因为数值异常很容易被检测出来。具体实施时,通过每个维度的多个第一特征数据训练孤立森林模型来预测出多个第一特征数据中的多个第一异常特征数据。通过每个维度的多个第二特征数据训练孤立森林模型来预测出多个第二特征数据中的多个第二异常特征数据。异常特征数据一般来说是稀疏的,因此可以用较少次划分把它归结到单独的区域中。

在信用卡欺诈检测场景中,由于信用卡交易记录之间往往存在一定的相互关联性,例如,基本信息相近的持卡人,可能会有相似的消费习惯,此外,同一持卡人所产生的交易记录也有一定的规律,如单笔交易金额、交易频率和交易种类相似。通过定义多个时序函数来挖掘信用卡欺诈交易的模式和规律。因此,使用孤立森林模型将所述多个第一特征数据中的多个距离较远的离群点检测出来,作为第一异常特征数据;使用孤立森林模型将所述多个第二特征数据中的多个不能通过时序函数进行拟合的偏差点检测出来,作为第二异常特征数据。

所述标签生成模块204,用于为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签。

在检测出第一异常特征数据和第二异常特征数据之后,为第一异常特征数据和第二异常特征数据均生成第一标签,并为第一正常特征数据及第二正常特征数据生成第二标签。其中,所述第一标签可以用0表示,所述第二标签可以用1表示。所述第一正常特征数据是指所述多个第一特征数据中除第一异常特征数据之外的特征数据,所述第二正常特征数据是指所述多个第二特征数据中除第二异常特征数据之外的特征数据。

所述特征选取模块205,用于在所述为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签之前,从所述多个第一正常特征数据中选取出多个第一目标特征数据,及从所述多个第二正常特征数据中选取出多个第二目标特征数据。

在一个可选的实施例中,所述特征选取模块205从所述多个第一正常特征数据中选取出多个第一目标特征数据,及从所述多个第二正常特征数据中选取出多个第二目标特征数据包括:

对每个维度的多个第一正常特征数据进行粗分组及对每个维度的多个第二正常特征数据进行粗分组;

计算每个分组中的每个第一正常特征数据的第一证据权重值及计算每个分组中的每个第二正常特征数据的第二证据权重值;

计算每个分组中的多个第一证据权重值的第一均值及计算每个分组中的多个第二证据权重值的第二均值;

计算每个第一均值的第一信息价值及计算每个第二均值的第二信息价值;

根据所述第一信息价值从所述多个第一正常特征数据中选取出多个第一目标特征数据,及根据所述第二信息价值从所述多个第二正常特征数据中选取出多个第二目标特征数据。

例如,可以按照年龄进行粗分组,0-3,4-6,7-11,12-17,17-60,60+。变量粗分组是将变量的不同取值或者区间按照目标变量取值的倾向性进行合并,合并之后的取值和区间用分组的某种统计量来表示,对变量进行粗分组处理,既可以避免模型出现过拟合,影响稳定性,也可以解决模型对变量的单调性和线性要求。将模式相近的相邻变量取值或者区间进行组合,同时确保分组中有足够的样本以显示统计意义。

信息值越大,变量对目标变量的预测能力越强。

该可选的实施例中,通过粗分组,统一将变量值用分组中的统计量证据权重值(WOE)来表示,并根据信息价值选择预测能力强的目标特征数据,不仅能将不同变量取值量纲统一,还能增强模型的稳定性。

所述模型训练模块206,用于基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型。

将所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签作为第一数据集,并基于所述第一数据集进行有监督的学习与训练XGBOOST模型得到欺诈检测模型。

在一个可选的实施例中,将所述多个第一目标特征数据、所述第一标签、所述多个第二目标特征数据及所述第二标签作为第二数据集,并基于所述第二数据集进行有监督的学习与训练XGBOOST模型得到欺诈检测模型。

在一个可选的实施例中,所述模型训练模块206基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型包括:

获取与所述第二标签对应的多个第一目标特征数据及多个第二目标特征数据;

基于所述多个第一目标特征数据、所述多个第二目标特征数据及所述第二标签构建训练数据;

基于所述训练数据训练欺诈检测模型;

获取与所述第一标签对应的多个第一异常特征数据及多个第二异常特征数据;

基于所述多个第一异常特征数据及所述多个第二异常特征数据构建测试数据;

基于所述测试数据测试所述欺诈检测模型得到预测标签;

根据所述预测标签与所述第一标签计算测试通过率;

当所述测试通过率大于或者等于预设通过率阈值,结束对所述欺诈检测模型的训练。

由于异常特征数据较少,因此仅用于做测试。

当所述测试通过率小于预设通过率阈值时,重新获取多个用户的多个维度的目标数据,并将重新获取的多个维度的目标数据与先前获取的多个维度的目标数据合并在一起,并重新执行数据编码模块201-模型训练模块206,直至所述测试通过率大于或者等于预设通过率阈值,结束对所述欺诈检测模型的训练。

将多个第一目标特征数据替换掉多个第一特征数据,及将多个第二目标特征数据替换掉多个第二特征数据,能够减少入模的数据量,提高欺诈检测模型的训练效率;且由于多个第一目标特征数据级多个第二目标特征数据具有较强的预测能力,因此能够有效的提高欺诈检测模型的检测效果,从而提高欺诈检测的检测效果。

所述欺诈检测模块207,用于使用所述欺诈检测模型对待测目标数据进行欺诈检测。

其中,所述待测目标数据是指当前正在交易的目标数据。

在一个可选的实施例中,所述欺诈检测模块207使用所述欺诈检测模型对待测目标数据进行欺诈检测包括:

获取待测目标数据对应的身份信息;

获取所述身份信息的历史目标数据;

根据所述历史目标数据及所述待测目标数据衍生出与欺诈相关的特征变量;

使用所述欺诈检测模型对所述特征变量进行检测并输出欺诈评分;

判断所述欺诈评分是否大于预设评分阈值;

当确定所述欺诈评分大于所述预设评分阈值,标记所述身份信息对应的账户。

欺诈风险是指申请人、商户或者任何第三方利用各种手段以不诚实的方式使用信用卡或者电话号码等,从而获得金钱、物品或服务。当确定所述欺诈评分大于所述预设评分阈值,则表明待测目标数据的欺诈可能性比较大,则标记该账户,并立即拒绝待测目标数据,并且拒绝所述账户之后的所有交易,能够有效的确保数据交易的安全性。

所述变量衍生模块208,用于根据所述历史目标数据及所述待测目标数据衍生出与欺诈相关的特征变量。

所述变量衍生模块208根据所述历史目标数据及所述待测目标数据衍生出与欺诈相关的特征变量包括:对所述历史目标数据及所述待测目标数据进行编码得到特征向量,再对多个维度的特征向量进行多维尺度变换得到多个第一交易数据,及对所述多个维度的特征向量进行时序分析得到多个第二交易数据。

本发明所述的基于人工智能的数据欺诈检测装置,在获取到多个用户的多个维度的目标数据之后,先将每个维度的每个目标数据编码成特征向量,编码成特征向量有利于机器学习;接着对每个维度的多个特征向量进行多维尺度变换得到多个第一特征数据及对每个维度的多个特征向量进行时序分析得到多个第二特征数据,得到的多个第一特征数据和多个第二特征数据具有较强的关联关系;再使用孤立森林模型检测出每个维度的多个第一特征数据中的多个第一异常特征数据及检测出每个维度的多个第二特征数据中的多个第二异常特征数据并为每个维度的所述多个第一异常特征数据及所述多个第二异常特征数据生成第一标签,及为每个维度的所述多个第一特征数据中的多个第一正常特征数据及所述多个第二特征数据中的多个第二正常特征数据生成第二标签,实现了不同特征数据的快速打标签,尤其是提高了异常特征数据的快速打标签;最后基于多个维度的所述多个第一特征数据、所述第一标签、所述多个第二特征数据及所述第二标签训练XGBOOST模型得到欺诈检测模型,提高了欺诈检测模型的效率;使得使用所述欺诈检测模型对待测目标数据进行欺诈检测时具有较高的检测效率。

需要强调的是,为进一步保证欺诈检测模型的私密性和安全性,上述欺诈检测模型可存储于区块链的节点中。

参阅图3所示,为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中,所述终端3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解,图3示出的终端的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述终端3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述终端3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的计算机设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述终端3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于人工智能的数据欺诈检测方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中,所述至少一个处理器32是所述终端3的控制核心(ControlUnit),利用各种接口和线路连接整个终端3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行终端3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的数据欺诈检测方法的全部或者部分步骤;或者实现基于人工智能的数据欺诈检测装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出,所述终端3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 基于人工智能的数据欺诈检测方法、装置、终端及介质
  • 基于人工智能的车道线检测方法、装置、终端及存储介质
技术分类

06120112341378