掌桥专利:专业的专利平台
掌桥专利
首页

一种银行反诈用户识别方法、系统及存储介质

文献发布时间:2024-04-18 19:59:31


一种银行反诈用户识别方法、系统及存储介质

技术领域

本发明属于反诈预警技术领域,具体涉及一种银行反诈用户识别方法、系统及存储介质。

背景技术

随着技术的不断发展和互联网的普及,银行面临越来越多的网络欺诈威胁,例如信用卡盗刷、虚假转账、身份盗窃等,因此银行反诈技术得到快速发展,银行反诈是指银行与其他金融机构采取一系列措施和技术来预防、检测并打击各种欺诈行为。但是随着欺诈方式的不断演变,银行反诈技术需要不断更新和改进,包括人工智能、机器学习、大数据分析和行为分析技术等,这些技术可以帮助银行实时监测交易、识别异常行为、建立模型预测风险等,从而有效应对欺诈活动。

目前虽然银行长期通过对自有客户数据进行大数据挖掘训练,建立了一些银行风险用户识别方法以及相应的监控防御措施,但是在反诈识别过程仍会显现以下问题:

(1)应对场景不足:银行客户数据是客户接受银行开户协议所产生的数据,银行对客户的监管由客户开户成功之后开始,因此对于客户进行银行开卡或借贷之前的通讯行为无法进行一个初步风险预测,进一步无法决定是否允许开卡或借贷。

(2)数据单一:在互联网通信诈骗活动中,实际上并不只是涉及到银行用户数据,因为诈骗活动中,不仅会引起银行业务数据变化,也会涉及诈骗方和被诈骗方在通信行业业务的使用,如果仅使用银行数据进行挖掘,无法突破现有技术的瓶颈,因此需要不同领域的数据联合使用。

(3)数据安全:如果使用不同领域的数据进行联合建模,涉及到数据的导入导出,数据的安全性需要得到有效保证。

(4)特征工程:银行反诈涉及的场景很多,不同场景结合其他领域的数据例如运营商数据进行联合建模时,需要使用到的用户特征并不是确认的,是需要不断迭代寻优的,因此场景的用户特征评估方案相对比较缺乏。

发明内容

为了解决现有技术中存在的上述技术问题中的至少一个,本发明提供一种银行反诈用户识别方法、系统及存储介质,基于联邦学习为银行提供一种可行的运营商合作方案,对用户通信行为和上网行为的进行数据挖掘,通过隐私计算平台(联邦学习平台)与银行用户画像联合计算,在双方原始数据不出库、有效保护客户个人隐私信息的前提下,充分挖掘利用数据价值,同时提供移动大数据特征工程方案,以适用更广泛、全面的业务场景。

为实现上述目的,本发明的技术方案如下:

一种银行反诈用户识别方法,包括:

S1、节点部署:将不同领域所处数据系统与隐私计算平台连接;

S2、数据探查:收集不同领域的用户数据;

S3、联邦建模:利用获取的不同领域的用户数据进行联邦建模,具体包括:

S301、样本集上传:将不同领域的用户数据上传至隐私计算平台;

S302、数据虚拟融合:将不同领域的用户数据作对齐处理;

S303、特征工程:对不同领域的用户数据进行筛选,得到有效特征;

S304、联邦建模模型训练:将具有有效特征的数据划分为训练集、测试集,进行模型训练,得到联邦建模模型;

S4、模型上线:将建立的模型导出并将模型部署至不同领域。

进一步地,所述不同领域的用户数据包括银行数据和运营商数据。

更进一步地,所述数据探查包括:

银行数据准备:银行准备开户样本形成银行样本集,所述样本包含电诈用户和非电诈用户,并将样本进行定义,其中非电诈用户定义为0,电诈用户定义为1;确定开户样本之后,追溯每个样本观察期内的数据;

运营商数据准备:运营商准备移动用户数据形成运营商样本集,移动用户数据中包括数据特征。

更进一步地,所述观察期为当前时间回溯一个月至十二个月之间的时间窗口。

进一步地,步骤S301中的样本集上传具体包括:将银行样本集加载至隐私计算机平台,通过外部样本授权将运营商样本集加载至隐私计算机平台,之后将银行样本集和运营商样本集添加至联邦建模项目中。

进一步地,所述将不同领域的用户数据作对齐处理,包括:

A1、手机号安全求交:将不同领域的用户手机号码,分别作md5加密处理,加密处理后的字段作为匹配字段,将不同领域的匹配字段进行匹配,以完全对齐作为对齐条件;

A2、手机号结合回溯日期求交:根据步骤A1中已经求交完成的手机号,再将回溯日期作md5加密处理,手机号加密处理后的匹配字段和回溯日期加密处理后的字段拼接为新的匹配字段,使用新的匹配字段再次求交,得到新的求交结果;

A3、建模求交:根据步骤A2中新的求交结果,将每个用户的所有特征附带至每个用户的手机号下,建立样本集之间的求交。

进一步地,对不同领域的用户数据进行筛选,具体采用数据初筛、缺失率筛选、特征重要性筛选、IV筛选、VIF筛选中的一个或多个。

更进一步地,所述数据初筛具体包括:将运营商样本集中特征的IV值大于0.05的特征保留,同时剔除时间因素特征及干扰ID特征。

更进一步地,所述缺失率筛选具体包括:将运营商样本集中特征的缺失值大于95%的样本去除。

更进一步地,所述特征重要性筛选具体包括:将银行样本集或运营商样本集中特征重要性大于零的特征保留。

更进一步地,所述IV筛选具体包括:将银行样本集或运营商样本集中IV值大于0.2的特征保留。

更进一步地,所述VIF筛选具体包括:计算银行样本集或运营商样本集中特征之间的VIF值,计算之后去除最大VIF值对应的特征,重复计算去除,直至所有VIF值均小于10。

进一步地,进行模型训练使用LightGBM模型或LR模型。

本发明还提供一种银行反诈用户识别系统,包括获取模块、数据模块、计算模块,所述获取模块用于获取操作请求、所述操作请求对应的操作特征数据和所述操作请求对应的用户特征数据,所述数据模块用于存储所述获取模块获取的操作特征数据和用户特征数据,且所述数据模块连接隐私计算平台;所述计算模块根据隐私计算平台中的联邦模型计算用户的账户反电诈评分。

进一步地,所述账户反电诈评分的分数区间为0-600,对于开户人员:

若账户反电诈评分为513分以上:批准发卡;

若账户反电诈评分为456-513之间:批准发卡,且日转限额;

若账户反电诈评分为389-455之间:签反电诈承诺书,批准发卡,且日转限额;

若账户反电诈评分为389分以下:建议拒绝开户;

对于存量用户:若账户反电诈评分为500分以上为正常用户;若账户反电诈评分为450-500之间,为中风险用户,需要日转限额;若账户反电诈评分为389-450之间,为高风险用户,关闭该银行账户,直接要求本人重新认证激活。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的银行反诈用户识别方法。

相对于现有技术,本发明具有以下有益效果:

本发明提供的银行反诈用户识别方法,采用不同领域的数据进行模型训练,进而能够对于开卡或借贷前的用户进行风险识别,能够应对多种场景,提高适用性。同时使用多领域数据的联合,进行联邦建模,突破现有技术的反诈识别瓶颈,大大提高识别准确度。

本发明使用数据融合结合特征工程技术,在进行模型训练之前,进行融合求交和数据筛选,进而能够大大降低数据计算量,去除无效特征,提高模型训练效率和模型识别精度。

附图说明

图1为本发明提供的银行反诈用户识别方法流程图。

图2为本发明采用LightGBM模型建模后的训练集概率分布图。

图3为本发明采用LightGBM模型建模后的测试集概率分布图。

图4为本发明采用LR模型建模后的训练集概率分布图。

图5为本发明采用LR模型建模后的测试集概率分布图。

具体实施方式

下面将结合附图说明对本发明的技术方案进行清楚的描述,显然,所描述的实施例并不是本发明的全部实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

需要说明的是,除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式不应被理解为对本发明范围的限制。

以下对示例性实施例的描述仅仅是说明性的,在任何意义上都不作为对本发明及其应用或使用的任何限制。这里对于相关领域普通技术人员已知的技术、方法和装置可能不作详细讨论,但在适用这些技术、方法和装置情况下,这些技术、方法和装置应当被视为本说明书的一部分。

本发明提供一种银行反诈用户识别方法,如图1所示,再次以银行数据和运营商数据为例进行具体说明,包括:

S1、节点部署:将不同领域所处数据系统与隐私计算平台连接;将银行数据系统通过专线或公网白名单连接至数据源DMZ区隐私计算平台,银行用户可以通过浏览器进行联邦学习训练模型,之后建立的有效模型将部署在银行和运营商双方的大数据平台上,通过API或批量预测方式供需求方调用。其中,公网白名单必须为固定IP。

S2、数据探查:收集不同领域的用户数据;对于银行系统和运营商来说,用户数据包括银行数据和运营商数据。数据探查的具体步骤包括:

银行数据准备:银行准备开户样本形成银行样本集,所述样本包含电诈用户和非电诈用户,样本总数为1.5万户;并将样本进行定义,其中非电诈用户定义为0,电诈用户定义为1;确定开户样本之后,追溯每个样本观察期内的数据;其中观察期为当前时间回溯一个月至十二个月之间的时间窗口。样本数据格式采用表1所示的格式,其中手机号使用md5加密处理。

表1银行样板数据格式

运营商数据准备:运营商准备移动用户数据形成运营商样本集,移动用户数据中包括数据特征,数据特征包括手机号、年龄、性别、证件类型、职业编码等等,共计200余个。

S3、联邦建模:利用获取的不同领域的用户数据进行联邦建模,具体包括:

S301、样本集上传:将不同领域的用户数据上传至隐私计算平台;

以移动用户数据为例,开始建模之前,参与建模的各方需要准备各自领域的用户数据,并将数据上传至隐私计算平台,经过授权后,本方的数据样本可被对方使用,在隐私计算平台上,可实现本方样本集添加、编辑、管理,以及申请外部样本授权等操作,支持在建模前完成数据准备工作。

具体包括:将银行样本集加载至隐私计算机平台,可以采用文件加载、API对接、DB数据库连接、HDFS对接等多种方式进行加载;通过外部样本授权将运营商样本集加载至隐私计算机平台,之后将银行样本集和运营商样本集添加至联邦建模项目中。

其中,银行样本集数量为1.5万户;运营商样本集数量为2亿规模,数据维度上提供5000维特征。

S302、数据虚拟融合:将不同领域的用户数据作对齐处理;在使用多个数据样本进行建模的过程中,普遍存在各个样本的用户覆盖范围不一致的情况,因此在实际业务建模过程中,通常需要通过ID求交的方式来进行样本ID对齐,再根据对齐后的客户ID,回溯对应时间,关联时间窗口的特征数据进行建模,包括:

A1、手机号安全求交:将银行样本和运营商样本,双方数据以用户手机号码,分别作md5加密处理,加密处理后的字段作为匹配字段,将不同领域的匹配字段进行匹配,以完全对齐作为对齐条件,目的为了检查数据两个数据的交集量;

A2、手机号结合回溯日期求交:根据步骤A1中已经求交完成的手机号,再将回溯日期作md5加密处理,手机号加密处理后的匹配字段和回溯日期加密处理后的字段拼接为新的匹配字段,使用新的匹配字段再次求交,得到新的求交结果;

A3、建模求交:根据步骤A2中新的求交结果,将每个用户的所有特征附带至每个用户的手机号下,建立样本集之间的求交。

S303、特征工程:对不同领域的用户数据进行筛选,得到有效特征,使用有效特征进行建模,有效保障建模效果;具体采用数据初筛、缺失率筛选、特征重要性筛选、IV筛选、VIF筛选中的一个或多个。依次为:

所述数据初筛具体包括:对运营商样本进行特征探查及筛选特征,将运营商样本集中特征的IV值大于0.05的特征保留,同时剔除时间因素特征及干扰ID特征,最终从5000维特征中筛选出787个特征。其中IV值的阈值大小可以根据需求设定。

所述缺失率筛选具体包括:将运营商初筛后的787个特征生成新的文件后结合缺失值进行筛选,将特征的缺失值大于95%的样本去除。其中缺失值是指每个样本的所有特征中空值的占比。其中缺失值的阈值大小可以根据需求设定。

对于建模模型为XGB模型时,采用特征重要性筛选,具体包括:将银行样本集的全部特征或运营商样本集的全部特征,根据特征重要性筛选,将特征重要性大于零的特征保留。

所述IV筛选具体包括:将银行样本集或运营商样本集中IV值大于0.2的特征保留,最终运营商样本中共有29个特征,其IV值分布在0.2-0.27之间,银行样本共6个特征,其IV值分布在0.25-0.97之间。其中IV值的阈值大小可以根据需求设定。

对于建模模型采用LR模型时,需要检测变量间是否存在线性相关性,采用VIF筛选,具体包括:计算银行样本集或运营商样本集中特征之间的VIF值,计算之后去除最大VIF值对应的特征,重复计算去除,直至所有VIF值均小于10,最终筛选出23个特征。其中VIF值的阈值大小可以根据需求设定。

S304、联邦建模模型训练:将具有有效特征的数据划分为训练集、测试集,进行模型训练,得到联邦建模模型。

本实施例采用两种模型进行建模训练,两种模型为LightGBM模型和LR模型,当采用LightGBM模型时,基于IV值大于0.1的特征入模,之后将入模的样本划分为训练集、测试集和验证集,最终模型效果如图2和图3所示,训练集的auc值为0.8032,ks值为0.4766,F1分数为0.6402;测试集的auc值为0.8036,ks值为0.4586,F1分数为0.6293;表明该模型没有过拟合,且模型稳定。

当采用LR模型时,前筛条件如表2所示

表2LR模型的前筛条件

经过筛选后,LR模型中共计入模116个特征,之后将入模的样本划分为训练集、测试集和验证集,进行模型训练后最终模型效果如图4和图5所示,训练集的auc值为0.8572,ks值为0.5628,F1分数为0.6973;测试集的auc值为0.8601,ks值为0.5716,F1分数为0.6970;表面模型没有过拟合,且模型稳定。

S4、模型上线:将建立的模型导出并将模型部署至不同领域。

对于移动上线流程,存储联邦建模模型的产品由隐私计算平台匿踪查询接口包装后,统一归入移动大数据产品体系内,在用户授权的前提下,客户通过调用移动大数据隐私计算平台匿踪查询接口,查询对应模型评分。

对于银行上线流程,分为新开账户反电诈应用流程、存量用户反电诈应用流程。针对新开账户反电诈应用流程,实时API或匿踪API调用反诈模型评分,根据返回结果进行预警拦截。针对存量用户反电诈应用流程,批量运行方式,通过API或匿踪API调用反诈模型评分,识别出可能涉诈的账号列表,用于人工排查及阻断。

本发明还提供一种银行反诈用户识别系统,包括获取模块、数据模块、计算模块,所述获取模块用于获取操作请求、所述操作请求对应的操作特征数据和所述操作请求对应的用户特征数据,所述数据模块用于存储所述获取模块获取的操作特征数据和用户特征数据,且所述数据模块连接隐私计算平台;所述计算模块根据隐私计算平台中的联邦模型计算用户的账户反电诈评分。

例如,所述账户反电诈评分的分数区间为0-600,对于开户人员:

若账户反电诈评分为513分以上:批准发卡;

若账户反电诈评分为456-513之间:批准发卡,且日转限额;

若账户反电诈评分为389-455之间:签反电诈承诺书,批准发卡,且日转限额;

若账户反电诈评分为389分以下:建议拒绝开户;

对于存量用户:若账户反电诈评分为500分以上为正常用户;若账户反电诈评分为450-500之间,为中风险用户,需要日转限额;若账户反电诈评分为389-450之间,为高风险用户,关闭该银行账户,直接要求本人重新认证激活。其中,具体的分值可以根据实际需要设定,账户反电诈评分的具体评分方法采用现有技术进行。

本发明基于隐私计算技术建立健全行方外部数据安全机制,实现在确保银行与移动数据源进行双方原始数据不出库、有效保护客户个人隐私信息的前提下,充分挖掘利用数据价值。为行方探索出安全、有效的数据安全合作方式。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的银行反诈用户识别方法。

以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种码板的制作方法及一种码板
  • 一种印制电路板生产用对位台架及印制电路板制作方法
  • 一种侧推喇叭口围板及导流板的制作方法
  • 一种锅巴香快餐制作方法
  • 一种茶香叫花鸡及其制作方法
  • 一种刀板香的制作方法
  • 一种无鹰嘴模切刀、制作方法及应用该模切刀的模切板
技术分类

06120116518347