掌桥专利:专业的专利平台
掌桥专利
首页

一种基于网络的自动识别资金异常交易的方法和系统

文献发布时间:2023-06-19 09:33:52


一种基于网络的自动识别资金异常交易的方法和系统

技术领域

本发明涉及交易数据挖掘技术领域,具体涉及一种基于网络的自动识别资金异常交易的方法和系统。

背景技术

洗钱是指将毒品犯罪、黑社会性质的组织犯罪、恐怖活动 犯罪、走私犯罪、贪污贿赂犯罪、破坏金融管理秩序犯罪、金融诈骗犯罪等犯罪所得及收益,通过各种手段隐瞒或掩饰起来,并使之在形式上合法化的行为和过程。金融机构的互联网金融业务及支付交易业务普惠大众的同时,也为洗钱过程的展开提供了渠道。因此,反洗钱工作已成为金融机构重点研究的课题。

现有技术通常采用大量的历史交易数据,利用传统的机器学习算法来训练模型,其中,模型的输入为交易数据,并使用训练好的模型来识别某笔交易是否具有洗钱性质。采用机器学习算法训练得到的模型很难识别出手法复杂的洗钱交易模式,同时由于存在一些洗钱模式和某些特殊客户的交易模式非常相似的情况。因此,采用上述方式很容易将某些特殊客户进行的交易进行误判,从而使得无法准确、有效地识别洗钱交易。

因此,如何能够准确且全面地识别出异常交易、为洗钱行为调查工作提供有力的数据支持,成为了本领域技术人员亟待解决的技术问题和始终研究的重点。

发明内容

针对现有技术中对洗钱交易识别率较低、准确率较低、时间成本过长的问题,本发明提供一种基于网络的自动识别资金异常交易的方法和系统,其目的在于:提高可疑洗钱团伙的识别准确率和识别覆盖率,同时系统自动化标记洗钱团伙,大大提升了识别效率。

本发明采用的技术方案如下:

一种基于网络的自动识别资金异常交易的方法,包括:

步骤A:获取交易方、交易对方和交易环境的信息,生成实体节点和节点关系,根据实体节点包含的信息生成实体节点属性数组,并通过JSON的方式对实体节点属性数组进行存储,根据节点关系包含的信息生成节点关系属性数组,并通过JSON的方式对节点关系属性数组进行存储,基于实体节点、实体节点属性数组、节点关系和节点关系属性数组,通过开源的Neo4j图形数据库和数据系统构建数个复杂网络,形成复杂网络层;

步骤B:复杂网络层中,系统自动以网络ID为目标,统计一个复杂网络范围内的属性特征,形成该复杂网络的网络特征层,系统自动以网络ID为范围,以个人用户的身份证为主键,统计个人用户在该复杂网络范围内的属性特征,形成个人特征层;

步骤C:基于网络特征层,采用CatBoost算法构建网络洗钱团伙指数模型,通过网络洗钱团伙指数模型判断复杂网络为洗钱团伙的概率,基于个人特征层,采用LightGBM算法构建个人洗钱指数模型,通过个人洗钱指数模型判断个人用户为洗钱用户的概率;

CatBoost算法由Yandex 的研究人员和工程师开发的基于梯度提升决策树的机器学习方法,现已开源;LightGBM算法是boosting集合模型中的新进成员,由微软提供,具有更快的训练效率和低内存使用等优势。

步骤D:根据生成的个人洗钱指数模型,通过KS方法找到高中低风险的cut-off点并划分低风险洗钱个人用户,删除复杂网络中与低风险洗钱个人用户关联的实体节点和节点关系,删除后重新组成复杂网络;

步骤E:根据生成的网络洗钱团伙指数模型,通过KS方法划分得到高风险洗钱团伙,多个高风险洗钱团伙生成疑似洗钱团伙集。

本发明通过Neo4j图形数据库进行存储和计算,大大了降低了计算复杂度,并简化了数据流信息的难度,将复杂的信息流信息通过网络的形式展示出来,具有更高的可读性。

进一步的,步骤A具体包括:实体节点的选择包括:手机号、身份证、转出银行卡、转出银行卡预留手机号、转入银行卡、IP和GPS格子,节点关系包括从属关系和关联关系,从属关系即表示同一目标之间实体节点之间的关系,如个人用户信息中的手机号和身份证属于同一目标,关联关系即表示是不同目标之间实体节点的关系,如手机号在GPS格子进行转账操作,属于不同目标,不同的实体节点类型和不同的节点关系类型分别用不同的标签表示。本发明为了更方便的应用GPS信息,通过网络格子的方式离散化GPS经纬度形成100m*100m的GPS网络格子,并赋予唯一的格子ID,形成GPS格子,格子ID为该格子中心点的经纬度。本发明基于交易行为数据生成由实体节点、实体节点属性数组、节点关系、节点关系属性数组构成的复杂网络,保证了网络信息的可得可用及高覆盖性。

进一步的,步骤B具体包括:

以网络ID为目标,统计一个复杂网络中某段时间范围内有效的两个实体节点的距离、实体节点或节点关系的次数或数量、节点关系属性的极值信息和实体节点间关联关系的极值次数或数量,将得到的数据归为距离统计特征类、频次统计特征类、极值统计特征类和极值关联特征类,形成网络特征层;

以网络ID为范围,以目标个人用户的身份证为主键,统计该复杂网络中某段时间范围内有效的X度范围内关联关系属性的极值信息、关联关系的次数或数量和目标个人用户与指定实体节点的距离,得到的数据依次归类为X度极值统计特征类、X度关联统计特征类和X度距离统计特征类,形成个人特征层。

本发明基于复杂网络的网络特征层和个人特征层的并行设计大大降低了计算复杂度,本文抽象的基于网络特征加工的频次统计特征类、距离统计特征类、极值统计特征类、极值关联特征类方法和基于网络个人特征加工的X度关联统计特征类、X度极值统计特征类、X度距离统计特征类方法,可为洗钱识别提供了数以万计的可解释性强、显著性高的特征。在复杂网络中有1度关联,2度关联和3度关联,X度关联表示的是最大有X条边的网络。

进一步的,步骤C具体包括:将网络洗钱指数模型标准化为[0,100]分,若分值越高,则该复杂网络为网络洗钱团伙的概率越大,将个人洗钱指数模型标准化为[0,100]分,若分值越高,则该个人用户为网络洗钱团伙的概率越大。本发明基于网络模型和个人模型的并行模型层设计大大降低了计算复杂度,本文采用的CatBoost算法和LightGBM算法,巧妙的结合二者优点,在很大程度上提升了洗钱识别的准确率。

进一步的,步骤D具体包括:基于个人洗钱指数模型,通过KS方法得到两个最优的cut-off数值,将个人洗钱指数模型划分为低等风险洗钱区、中等风险洗钱区和高等风险洗钱区三段,系统剔除掉低等风险洗钱区的个人用户,重新组建复杂网络。即删除复杂网络中洗钱低风险用户关联的实体节点和节点关系。

步骤E具体包括:基于网络团伙洗钱指数模型,通过KS方法得到一个最优的cut-off数值,将网络洗钱指数模型划分为低风险洗钱团伙区和高风险洗钱团伙区,系统自动筛选高风险洗钱团伙区的高风险洗钱团伙,并生成高风险洗钱团伙集,一个高风险洗钱团伙集包括多个疑似洗钱团伙。

本发明基于个人洗钱指数模型删减网络中洗钱低风险用户的实体节点和关系,基于网络指数模型筛选高风险洗钱团伙;双模型串行筛选最终标记洗钱团伙,大大提升了洗钱团伙识别的准确率。

进一步的,一个洗钱团伙为一个复杂网络,且该复杂网络的个人用户均为洗钱高风险用户。

进一步的,一种基于网络的自动识别资金异常交易的系统,包括数据系统、洗钱团伙识别系统和反洗钱核查系统,所述洗钱团伙识别系统包括:

复杂网络层:基于交易行为数据生成由实体节点、实体节点属性数组、节点关系、节点关系属性数组构成的复杂网络;

网络特征层:基于网络群体的属性特征,描述复杂网络间的属性差异情况;

个人特征层:基于网络中个人用户的属性特征,描述同一个网络中不同个人用户的属性差异情况;

网络模型层:采用CatBoost算法,以网络ID为目标构建基于网络群体属性特征的网络洗钱指数模型;

个人模型层:采用LightGBM算法,以个人用户ID为目标构建基于个人用户属性特征的个人洗钱指数模型;

网络节点删减层:基于个人洗钱指数模型删减网络中洗钱低风险用户的实体节点和节点关系;

洗钱团伙生成层:基于网络指数模型筛选高风险洗钱团伙。

进一步的,数据系统通过域名访问方式与洗钱团伙识别系统对接,洗钱团伙识别系统通过API方式与反洗钱核查系统对接,洗钱团伙识别系统将疑似洗钱团伙自动推送至反洗钱核查系统进行核查,反洗钱核查系统将核查结果自动推送至数据系统数据集市层。本发明通过API接口访问和域名访问的方式形成闭环流程,实现无缝对接,并将疑似洗钱团伙自动推送至反洗钱核查系统。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

1.系统自动识别洗钱团伙,数据系统、洗钱团伙识别系统、反洗钱核查系统通过API接口访问和域名访问的方式形成闭环流程,实现无缝对接,并将疑似洗钱团伙自动推送至反洗钱核查系统。

2.基于复杂网络的网络特征层和个人特征层的并行设计大大降低了计算复杂度,本文抽象的基于网络特征加工的频次统计特征类、距离统计特征类、极值统计特征类、极值关联特征类方法和基于网络个人特征加工的X度关联统计特征类、X度极值统计特征类、X度距离统计特征类方法,可为洗钱识别提供了数以万计的可解释性强、显著性高的特征。

3.基于网络模型和个人模型的并行模型层设计大大降低了计算复杂度,本文采用的CatBoost算法和LightGBM算法,巧妙的结合二者优点,在很大程度上提升了洗钱识别的准确率。

4.基于个人洗钱指数模型删减网络中洗钱低风险用户的实体节点和关系,基于网络指数模型筛选高风险洗钱团伙;双模型串行筛选最终标记洗钱团伙,大大提升了洗钱团伙识别的准确率。

5.基于交易行为数据生成由实体实体节点、实体实体节点属性数组、节点关系、节点关系属性数组构成的复杂网络,保证了网络信息的可得可用及高覆盖性。

6.通过Neo4j图形数据库进行存储和计算,极大地降低了计算复杂度,并简化了数据流信息的难度,将复杂的信息流信息通过网络的形式展示出来,具有更高的可读性。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1是本发明一种具体实施方式示意图;

图2是本发明一个复杂网络示意图。

具体实施方式

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

下面结合图1和图2对本发明作详细说明。

如图1所示,本发明一种基于网络的自动识别资金异常交易的方法,包括数据系统、洗钱团伙识别系统和反洗钱核查系统,所述洗钱识别系统包括:

步骤A:获取交易方、交易对方和交易环境的信息,交易方信息一般包含:手机号、身份证、银行卡、预留手机号;交易对手方信息一般仅包括银行卡信息;交易环境一般包括:设备、IP、GPS经纬度,生成实体节点和节点关系,根据实体节点包含的信息生成实体节点属性数组,并通过JSON的方式对实体节点属性数组进行存储,根据节点关系包含的信息生成节点关系属性数组,并通过JSON的方式对节点关系属性数组进行存储,基于实体节点、实体节点属性数组、节点关系和节点关系属性数组,通过开源的Neo4j图形数据库和数据系统构建数个复杂网络,形成复杂网络层;

步骤A具体包括:如图2所示,实体节点的选择包括:手机号、身份证、转出银行卡、转出银行卡预留手机号、转入银行卡、IP和GPS格子,例如手机实体节点关联的属性信息包括手机运营商、在网时长。手机号状态和手机号归属城市;身份证关联的属性信息包括姓名、性别、年龄、籍贯;转出银行卡关联的属性信息包括转出金额数额,转出时间,转出银行卡卡号,节点关系包括从属关系和关联关系,从属关系即表示同一目标之间实体节点之间的关系,如个人用户信息中的手机号和身份证属于同一目标,关联关系即表示是不同目标之间实体节点的关系,如手机号在GPS格子进行转账操作、银行卡转账到另一张银行卡,均属于不同目标,不同的实体节点类型和不同的节点关系类型分别用不同的标签表示。本发明为了更方便的应用GPS信息,通过网络格子的方式离散化GPS经纬度形成100m*100m的GPS网络格子,并赋予唯一的格子ID,形成GPS格子,格子ID为该格子中心点的经纬度。

步骤B:复杂网络层中,系统自动以网络ID为目标,统计一个复杂网络范围内的属性特征,形成该复杂网络的网络特征层,系统自动以网络ID为范围,以个人用户的身份证为主键,统计个人用户在该复杂网络范围内的属性特征,形成个人特征层;

步骤B具体包括:以网络ID为目标,统计一个复杂网络中某段时间范围内有效的实体节点或节点关系的次数或数量,如统计3个月内该复杂网络中关联的手机号实体节点的个数,统计昨天一天内复杂网络中POS机消费的次数,将得到的数据归为频次统计特征类;

以网络ID为目标,统计一个复杂网络中某段时间范围内有效的两个实体节点之间的距离,两个实体节点之间的距离为连接两者的最短路径的边的数目。如统计昨天一天内某个实体节点到另一个实体节点的距离;统计昨天一天内交易金额大于五万的某个实体节点到另一个实体节点的距离。如两个实体节点有1条边和3条边两个路径,那么两个实体节点之间的距离为1,将得到的数据归为距离统计特征类;

以网络ID为目标,统计一个复杂网络中某段时间范围内有效的节点关系属性的极值信息,极值方法包括:最大值、最小值、平均值、标准差、1/4标准差、3/4标准差、和,例如统计最近七天内在00:00-05:00交易的平均交易金额,将得到的数据归为极值统计特征类;

以网络ID为目标,统计一个复杂网络中某段时间范围内有效的点间关联关系的极值次数或数量,极值方法包括:最大值、最小值、平均值、标准差、1/4标准差、3/4标准差、和,例如统计最近三个月内GPS地址关联的手机号最大个数,得到的数据归为极值关联特征类。

以网络ID为范围,以目标个人用户的身份证为主键,统计该复杂网络中某段时间范围内有效的X度范围内关联关系属性的极值信息,极值方法包括:最大值、最小值、平均值、标准差、1/4标准差、3/4标准差、和,例如:最近7天内一度关联范围内目标该个人用户身份证关联的消费记录的最大金额,将得到的数据归类为X度极值统计特征类。

以网络ID为范围,以目标个人用户的身份证为主键,统计该复杂网络中某段时间范围内有效的X度范围内关联关系的次数或数量,例如最近最近3个月范围内2度关联范围内该用户手机号关联的IP地址去重个数,将得到的数据归类为X度关联统计特征类;

以网络ID为范围,以目标个人用户的身份证为主键,统计该复杂网络中某段时间范围内有效的X度范围内目标个人用户与指定实体节点的距离,两实体节点间的距离为连接两者的最短路径的边的数目。如:最近1个月内3度关联范围内该用户银行卡距离网络中洗钱银行卡的距离,将得到的数据归类为X度距离统计特征类。

步骤C:基于网络特征层,采用CatBoost算法构建网络洗钱团伙指数模型,通过网络洗钱团伙指数模型判断复杂网络为洗钱团伙的概率,基于个人特征层,采用LightGBM算法构建个人洗钱指数模型,通过个人洗钱指数模型判断个人用户为洗钱用户的概率;

步骤C具体包括:将网络洗钱指数模型标准化为[0,100]分,若分值越高,则该复杂网络为网络洗钱团伙的概率越大,将个人洗钱指数模型标准化为[0,100]分,若分值越高,则该个人用户为网络洗钱团伙的概率越大。本发明基于网络模型和个人模型的并行模型层设计大大降低了计算复杂度,本文采用的CatBoost算法和LightGBM算法,巧妙的结合二者优点,在很大程度上提升了洗钱识别的准确率。

步骤D:根据生成的个人洗钱指数模型,通过KS方法得到低风险洗钱个人用户,删除复杂网络中与低风险洗钱个人用户关联的实体节点和节点关系,删除后重新组成复杂网络;

步骤D具体包括:基于个人洗钱指数模型,通过KS方法得到两个最优的cut-off数值,定义为a,b,其中a

步骤E:根据生成的网络洗钱团伙指数模型,通过KS方法得到高风险洗钱团伙,多个高风险洗钱团伙生成疑似洗钱团伙集。

步骤E具体包括:基于网络团伙洗钱指数模型,通过KS方法得到一个最优的cut-off数值,定义为c, 其中网络团伙洗钱指数模型在[0,c)区间时,表示用户具有较低的洗钱风险;网络团伙洗钱指数模型在[c,100]区间时,表示用户具有较高的洗钱风险。将网络团伙洗钱指数模型划分为低风险洗钱团伙区和高风险洗钱团伙区,系统自动筛选高风险洗钱团伙区的高风险洗钱团伙,并生成高风险洗钱团伙集,一个高风险洗钱团伙集包括多个疑似洗钱团伙。

数据系统通过域名访问方式与洗钱团伙识别系统对接,洗钱团伙识别系统通过API方式与反洗钱核查系统对接,洗钱团伙识别系统将疑似洗钱团伙自动推送至反洗钱核查系统进行核查,反洗钱核查系统将核查结果自动推送至数据系统的数据集市层。

一种基于网络的自动识别资金异常交易的系统,包括数据系统、洗钱团伙识别系统和反洗钱核查系统,所述洗钱团伙识别系统包括:

复杂网络层:基于交易行为数据生成由实体节点、实体节点属性数组、节点关系、节点关系属性数组构成的复杂网络;

网络特征层:基于网络群体的属性特征,描述复杂网络间的属性差异情况;

个人特征层:基于网络中个人用户的属性特征,描述同一个网络中不同个人用户的属性差异情况;

网络模型层:采用CatBoost算法,以网络ID为目标构建基于网络群体属性特征的网络洗钱指数模型;

个人模型层:采用LightGBM算法,以个人用户ID为目标构建基于个人用户属性特征的个人洗钱指数模型;

网络节点删减层:基于个人洗钱指数模型删减网络中洗钱低风险用户的实体节点和节点关系;

洗钱团伙生成层:基于网络指数模型筛选高风险洗钱团伙。

一种基于网络的自动识别资金异常交易的系统,数据系统通过域名访问方式与洗钱团伙识别系统对接,洗钱团伙识别系统通过API方式与反洗钱核查系统对接,洗钱团伙识别系统将疑似洗钱团伙自动推送至反洗钱核查系统进行核查,反洗钱核查系统将核查结果自动推送至数据系统数据集市层。

以上所述仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

相关技术
  • 一种基于网络的自动识别资金异常交易的方法和系统
  • 一种基于资金交易网络的异常交易识别方法及系统
技术分类

06120112210089