掌桥专利:专业的专利平台
掌桥专利
首页

一种基于子图融合的GCN异常客户预警方法及装置

文献发布时间:2024-04-18 19:59:31


一种基于子图融合的GCN异常客户预警方法及装置

技术领域

本发明设计计算机技术领域,尤其涉及一种基于子图融合的GCN异常客户预警方法及装置。

背景技术

在大数据时代,随着趋于线上化的金融模式转变,涌现出许多违法交易行为。因此,为避免金融损失的发生,急需通过应用计算机技术手段对客户金融数据的分析和挖掘及时发现客户的异常行为,并及时预警。

近年来在金融领域,犯罪分子利用不法手段进行金融违法活动的案例层出不穷,并且为了能更真实地模拟金融场景,逐渐呈现出团伙特征,金融活动特征与违法犯罪行为具有较强的联系。因此,净化金融环境,及时发现与准确预警客户异常行为已经成为监管要求的重点。本发明在上述监管背景下,提出一种基于子图融合的GCN异常客户预警方法及装置,用于发现银行金融活动中的客户异常行为,并能够及时预警和异常行为管控。

传统的异常客户预警往往建立在单个客户金融行为在时间上的表现进行评判,忽略客户之间的内在联系。比如交易ip、设备、交易对手等数据能真实反映客户之间的关系。本发明充分挖掘客户之间的内在联系,并针对关联图产生的稀疏矩阵问题,提出一种子图融合的思想,可以有效解决多子图产生的稀疏矩阵性能问题。

发明内容

本发明目的在于针对现有技术的不足,提出一种基于子图融合的GCN异常客户预警方法及排查系统,通过基于子图融合的图神经网络挖掘银行客户之间的关联关系,应用机器学习算法进行客户异常风险分析,能自动生成异常客户预警名单并推送到业务系统,助力业务进行异常客户处置与定位。

本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于子图融合的GCN异常客户预警方法,该方法包括以下步骤:

(1)获取客户属性数据和交易数据并进行预处理;

(2)基于异常客户的行为特征,对预处理后的客户属性数据和交易数据进行特征加工及特征同质性筛选,得到特征集合A;

(3)基于加工和筛选后的数据特征,构建客户关联关系子图并基于图卷积极神经网络算法生成图嵌入特征B,所述客户关联关系子图包括客户交易维度的关联子图、设备维度的关联子图以及交易IP维度的关联子图,其中设备维度的关联子图以及交易IP维度的关联子图进行子图融合;

(4)基于XGBoost算法对整合特征集合A和图嵌入特征B的特征工程进行异常客户预警模型训练,通过训练后的异常客户预警模型得到可推送的异常客户预警名单;

(5)分发异常客户预警名单,管户人员核实并处置。

进一步地,对客户属性数据和交易数据进行预处理的方式是通过特征向量构建、归一化以及缺失值填充,并对字符类型的类别数据进行Factorize因数化编码。

进一步地,为了能够准确得到客户活跃账号的交易行为特征,降低非活跃账户造成的主体信息干扰,通过基于交易的频次和每笔交易与最近交易的时间间隔加权的方法对客户交易数据进行特征加工和衍生:

其中,m表示客户持卡数量,amt为该卡账号交易的金额,n为交易的频次,t

进一步地,对客户属性数据和交易数据的特征同质性筛选具体为:计算特征相关性系数对特征进行同质性检验,对相关性在0.9以上的特征仅保留任意一个。

进一步地,异常客户预警模型训练时,使用smote过采样方法进行黑样本扩充,模型最终训练黑样本占比保持在10%。

进一步地,使用子图加权融合的方式将3个关联子图的邻接矩阵进行逐一加权融合后作为GCN模型隐藏层的训练输入。

进一步地,对XGBoost输入特征是结合加工衍生的特征和图嵌入特征,融合客户原始数据信息和客户关联关系信息。

进一步地,异常客户预警名单的确定具体是使用概率密度排序的方式确认,分类结果概率越高表示该客户为异常客户的可能性越高,并按参数化配置输出并推送合适数量的预警名单。

第二方面,本发明还提供了一种基于子图融合的GCN异常客户预警装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于子图融合的GCN异常客户预警方法。

第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种基于子图融合的GCN异常客户预警方法。

本发明的有益效果:

本发明提出的一种基于子图融合的GCN异常客户预警方法及装置实现了定期排查功能,通过对千万级客户属性数据和交易数据进行特征工程加工,有效对百万级的客户进行异常行为风险排查,装置中分类阈值设置为0.5时,对于推送的异常客户名单,精确率达到0.84,极大地提升了数据应用能力、降低了银行资金风险和90%的人力成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1为本发明提供的一种基于子图融合的GCN异常客户预警方法流程图;

图2为本发明提供的一种基于子图融合的GCN异常客户预警方法实现过程细节示意图;

图3为本发明中基于卷积神经网络图嵌入特征训练过示意图;

图4为异常客户预警名单生成的机器学习训练流程图;

图5为异常客户预警名单的分发过程示意图。

图6为一种基于子图融合的GCN异常客户预警装置结构示意图。

具体实施方式

为将本发明的一种基于子图融合的GCN异常客户预警方法及系统的功能和实现方式更直观,以下结合附图对本发明的具体实现方式和过程进行详细的说明。

在本发明内容描述中阐述很多具体的细节和方法以便于能够充分理解本发明,但是除描述的方法之外,本发明还能够采用其他不同的方法进行代替实施。

如图1和图2所示,为一种基于子图融合的GCN异常客户预警方法的流程图。本发明方法包括以下步骤:

S1,获取客户属性数据和交易数据。

在步骤S1中,获取的客户属性数据和交易数据需要进行预处理,所获取的数据中,客户属性数据包括姓名、性别、年龄、户籍、婚姻状况等客户自身的数据,客户交易数据因为数据量大且维度较高,存在数据较多的数据缺失的情况,本发明使用EM(期望值最大化方法)进行缺失数据的填充,对于原始数值差异较大的特征,采用标准化方法进行归一化处理,而对于异常数据以及离群数据则直接删除。对于客户属性数据中的字符类型的类别数据(教育状况代码和婚姻状态代码等)采用Factorize因数化编码的方式转化为定量特征,得到更适合机器学习模型处理的连续型的输入特征,在该步骤的处理后,得到的数据中,不再包含空数值、异常分布、中文信息等数据。

S2,基于异常客户的行为特征,对数据进行特征加工及特征相关性分析和同质性筛选。

经过对客户属性数据和客户交易数据进行特征的加工和衍生,最终得到客户维度及账户维度基本信息类、交易类、风险信息类共计106个特征。筛选阶段使用同质性检验方法进行同质指标的筛选,比如年日均余额、季日均余额、月日均余额3个指标之间同质性较高,且均与来账金额这1个指标相关性系数较大,因此需要剔除同质性较高的指标,最终留存下46个符合模型训练的特征。该步骤对加工的特征进行进一步的筛选,一方面可以获取低维度的训练指标,另一方面,经过筛选之后的特征向量降低了关联性较低的指标的干扰。

此外,银行客户多存在多卡多账户的客观现象,有些账户一直是活跃的,有一些是沉寂的,所以在把这些账户交易行为汇总的时候,应该是越活跃的账户越能反应客户的真实交易行为,所以本发明增加了交易频次(正比)和交易时间(反比)用来衡量每个账户的重要性,在客户维度上的指标设计结合汇总客户所有卡账号数据信息,本发明提出一种按客户卡账使用时间和次数频率加权的特征加工方法,对一个客户不同的卡账号信息根据其重要性进行取舍。特征加工公式如下所示:

其中,m表示客户持卡数量,n和t

S3,构建客户关联关系子图并基于图卷积极神经网络算法生成图嵌入特征。

本发明中,如图3所示,关联关系图的构建包括三个维度:基于交易资金流向的维度、基于共用设备的维度和基于共用交易IP的维度。从三个维度的子图构造,可以充分获取在金融交易活动客户间的关联关系信息,并转化为可以入模的图嵌入特征。从交易、设备、ip三个维度进行关联关系子图的构建,得到交易关联关系子图(G

在以客户属性数据和客户交易数据的基础构建出来的共用ip关联关系子图和共用设备关联关系子图存在邻接矩阵稀疏的问题,针对该问题,本发明提出一种融合子图的方式进行解决。在原来图卷积神经网络模型训练的时候,l层的GCN的输入的数学形式可表示如下:

其中σ为激活函数softmax,H

其中I为单位矩阵,

针对关联关系邻接矩阵系数的问题,可将子图分开训练的过程进行融合后再进行GCN的训练。此时:

其中

其中A

S4,基于机器学习算法进行模型训练,生成并推送异常客户预警名单。

在GCN训练之后,本发明将提取出与交易关系、共用ip关系、共用设备关系的子图融合图嵌入特征25个。在机器学习模型训练前,将得到的图嵌入特征与原始特征相结合,最终以形成用于机器学习模型的71维的特征工程。图4中展示了异常客户预警名单生成的机器学习训练流程,在S21中对通过关联关系构建的子图中存在交易对手为其他客户的机构,该类客户的特征信息是缺失的,因此需要使用已有客户特征值归一化均值填充的方式进行缺失数据补充。在S31中,为样本标注阶段,通过业务经验将监管下发或业务核实验证分析的客户标注为黑样本,业务核实为正常交易的客户标注为白样本。最终形成10万客户位白样本,452个异常客户为黑样本的训练数据基础,黑样本比例为0.44%。为了避免因样本极不平衡导致本发明构造的预警方法对白样本产生的过拟合现象,因此需要在样本标注过程中进行样本平衡化处理,通过smote过采样方式,将黑样本占比保持在10%,直观模拟了异常客户在实际生产中的大致占比,充分模拟在银行金融场景下异常客户占比分布。在S41中,应用基于Boosting思想的XGBoost算法进行异常客户的识别,并推送识别到的异常客户预警名单。

在S5,对异常客户已经名单进行分发核查,验证预警名单的实际情况。

如图5所示,在通过本发明提供的方法得到的异常客户名单中,需要经过业务人员的分析与调研,核实预警客户行为是否异常,例如客户在短时间内出现“集进散出”,并伴随“第三方支付小额试探”等异常交易行为,且在对接客户环节,客户无法为交易行为提供合理解释,可以其商卡进行管控,并上报监管。

与前述基于子图融合的GCN异常客户预警方法的实施例相对应,本发明还提供了基于子图融合的GCN异常客户预警装置的实施例。

参见图6,本发明实施例提供的一种基于子图融合的GCN异常客户预警装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于子图融合的GCN异常客户预警方法。

本发明基于子图融合的GCN异常客户预警装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明基于子图融合的GCN异常客户预警装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于子图融合的GCN异常客户预警方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。

上述内容描述一种基于子图融合的GCN异常客户预警方法及排查系统中各流程环节中使用到的方法和思路,本发明的方法可在代码实现的基础下,嵌入到相应的设备,介质中,发明中提出的各环节解决方案仅仅是针对在银行金融场景下的合理选择,基于该发明思路下的其他方法措施的选取也是可行的,未脱离本发明应保护的范围之外。

上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

相关技术
  • 安全带防误触装置及儿童安全座椅
  • 配备有侧气囊装置的车辆座椅和侧气囊装置
  • 用于倾斜车辆座椅靠背的装置以及用于安装这种倾斜装置的方法
  • 一种防水卷材用收卷方法及收卷装置
  • 座椅安全带卷收器、座椅安全带装置、带座椅安全带装置的车辆
  • 座椅安全带收卷控制装置
技术分类

06120116525178