掌桥专利:专业的专利平台
掌桥专利
首页

一种交易欺诈检测方法、系统、电子设备及存储介质

文献发布时间:2024-04-18 20:00:50


一种交易欺诈检测方法、系统、电子设备及存储介质

技术领域

本发明涉及数据挖掘技术领域,特别是涉及一种交易欺诈检测方法、系统、电子设备及存储介质。

背景技术

基于图网络的欺诈检测是异常检测领域重要的子课题之一,也是一项重要的社会服务,是在从图结构数据中检测出少量与大量良性节点行为不同的欺诈节点。具体地,基于图的欺诈检测包括以下步骤:使用节点表示学习算法获得图网络中的节点表示,然后使用获得的节点表示对节点分类模型进行训练。

基于图的欺诈检测存在两个问题:欺诈者经常通过与许多良性实体产生大量的异质链接来伪装自己,隐藏了欺诈者之间的消息传递;欺诈数据样本存在类别不均衡的问题,即欺诈者只占所有用户很小的一部分。为了解决这两个问题,许多方法通过不同的方式优化欺诈节点的表示和利用降采样的方式去解决类别不均衡的问题。

然而,尽管许多模型在欺诈检测方面取得了成功,但这些模型仅仅关注欺诈者的共性,通过欺诈共性来检测欺诈,忽略了不同欺诈者的欺诈行为也存在特性。这种特性使欺诈者的行为模式呈现多样性,同为欺诈者但体现其欺诈的特征不尽相同。

综上,现有模型能够提供较为不错的检测结果,但它们的预测结果不能提供更多有用的辅助信息,使模型预测结果的可信度较低,导致欺诈的检测精度较低,依然需要付出巨大的人力资源来应对欺诈。

发明内容

本发明的目的是提供一种交易欺诈检测方法、系统、电子设备及存储介质,提高了欺诈检测精度。

为实现上述目的,本发明提供了如下方案:

一种交易欺诈检测方法,所述方法包括:

获取待检数据集;所述待检数据集包括:多个待检交易用户和待检数字货币的流动;

基于所述待检数据集,生成待检属性图;所述待检属性图包括:多个待检节点、多条待检边、待检邻接矩阵和待检节点特征矩阵;一个所述待检节点对应一个所述待检交易用户,一条所述待检边对应一个所述待检数字货币的流动;所述待检邻接矩阵包括多个待检邻接元素,所述待检邻接元素为0或1,为0的待检邻接元素对应的待检节点组之间没有待检边,为1的待检邻接元素对应的两个待检节点组之间有待检边;待检节点组包括待检节点和对应的邻居待检节点;所述待检节点特征矩阵包括所有所述待检节点的节点特征;

对于任一当前待检节点:

利用具有第一可训练参数和第二可训练参数的高维映射函数,将当前待检节点的节点特征映射到高维空间,得到当前待检节点的高维特征;所述第一可训练参数和第二可训练参数是经过训练确定的;

基于当前待检节点所在的所有待检节点组中所有待检节点的高维特征,确定当前待检节点的多层均值隐藏表示;

基于各当前待检节点和非当前待检节点的距离,确定更新后的待检邻接矩阵;非当前待检节点为所有待检节点中除当前待检节点外的待检节点;

基于更新后的待检邻接矩阵构建待检超图,并基于待检超图确定待检关联矩阵;待检超图包括:多个待检节点和待检超边;

利用具有第三可训练参数的超图卷积神经网络,基于所述待检超图和所述待检关联矩阵确定超图卷积后的待检节点特征矩阵,从而确定当前待检节点的超图卷积特征;所述第三可训练参数是经过训练确定的;

基于当前待检节点的高维特征、多层均值隐藏表示和超图卷积特征,确定当前待检节点的综合特征;

基于当前待检节点的综合特征和最终原型表示,计算当前待检节点的相似度得分矩阵;所述最终原型表示是经过训练确定的;

利用具有第二模型参数的多层感知机,基于当前待检节点的相似度得分矩阵,确定当前待检节点的第二预测标签;第二预测标签为正常或异常;所述第二模型参数是经过训练确定的;

基于当前待检节点的第二预测标签确定对应的待检交易用户的类型;所述类型为非欺诈用户或欺诈用户。

可选地,基于当前待检节点所在的所有待检节点组中所有待检节点的高维特征,确定当前待检节点的多层均值隐藏表示,具体包括:

基于当前待检节点所在的所有待检节点组,确定当前待检节点的节点邻域子集;所述当前待检节点的节点邻域子集包括当前待检节点的预设子集元素数个邻居待检节点;

基于当前待检节点的节点邻域子集中所有待检节点的高维特征,确定当前待检节点的多层均值隐藏表示。

可选地,基于各当前待检节点和非当前待检节点的距离,确定更新后的待检邻接矩阵,具体包括:

分别计算当前待检节点和非当前待检节点的距离;

并将前K个距离最近的非当前待检节点确定为当前待检节点的新邻居待检节点;

将当前待检节点与新邻居节点组成的待检节点组确定为待变节点组;

当任一当前待变节点组的待检节点与新邻居节点之间没有待检边时,将待检邻接矩阵中对应的待检邻接元素由0变成1;

将所有当前待变节点组对应的待检邻接元素由0变成1后的待检邻接矩阵,确定为更新后的待检邻接矩阵。

可选地,基于当前待检节点的第二预测标签确定对应的待检交易用户的类型,具体包括:

当当前待检节点的第二预测标签为正常时,对应的待检交易用户为非欺诈用户;

当当前待检节点的第二预测标签为异常时,对应的待检交易用户为欺诈用户。

可选地,第一可训练参数、第二可训练参数、第三可训练参数、第一模型参数、第二模型参数和最终原型表示的确定过程,包括:

基于交易数据集,生成训练用属性图;所述训练用属性图包括:多个训练用节点、多条训练用边、训练用邻接矩阵和训练用节点特征矩阵;所述交易数据集包括:多个训练用交易用户、训练用数字货币的流动和每个所述训练用交易用户的真实标签,所述真实标签为0或1,真实标签为0表示训练用交易用户为非欺诈训练用交易用户,真实标签为1表示训练用交易用户为欺诈训练用交易用户;一个所述训练用节点对应一个所述训练用交易用户,一条所述训练用边对应一个所述训练用数字货币的流动;所述训练用邻接矩阵包括多个训练用邻接元素,所述训练用邻接元素为0或1,为0的训练用邻接元素对应的训练用节点组之间没有训练用边,为1的训练用邻接元素对应的两个训练用节点组之间有训练用边;训练用节点组包括训练用节点和对应的邻居训练用节点;所述训练用节点特征矩阵包括所有所述训练用节点的节点特征;

初始化第一预设可训练参数、第二预设可训练参数、第三预设可训练参数和第一预设模型参数;

基于所述训练用属性图,进行预设第一训练次数的第一训练过程,确定预设第一训练次数后的第一预设可训练参数、第二预设可训练参数、第三预设可训练参数和第一预设模型参数以及各训练用节点的预设第一训练次数后的第一预测标签;第一预测标签为正常或异常;

其中,对于任一当前第一训练次数下的第一训练过程包括:第一训练分过程、第二训练分过程和第三训练分过程;

对于所有训练用节点中任一当前训练用节点,第一训练分过程包括:

利用具有第一预设可训练参数和第二预设可训练参数的高维映射函数,将当前训练用节点的节点特征映射到高维空间,得到当前训练用节点的高维特征;

基于当前训练用节点所在的所有训练用节点组中所有训练用节点的高维特征,确定当前训练用节点的多层均值隐藏表示;

基于各当前训练用节点和非当前训练用节点的距离,确定更新后的训练用邻接矩阵;非当前训练用节点为所有训练用节点中除当前训练用节点外的训练用节点;

基于更新后的训练用邻接矩阵构建训练用超图,并基于训练用超图确定训练用关联矩阵;训练用超图包括:多个训练用节点和训练用超边;

利用具有第三预设可训练参数的超图卷积神经网络,基于所述训练用超图和所述训练用关联矩阵确定超图卷积后的训练用节点特征矩阵,从而确定当前训练用节点的超图卷积特征;

基于当前训练用节点的高维特征、多层均值隐藏表示和超图卷积特征,确定当前训练用节点的综合特征;

第二训练分过程包括:利用具有第一预设模型参数的多层感知机,基于当前训练用节点的综合特征,确定当前训练用节点的第一预测标签;第一预测标签为正常或异常;

第三训练分过程包括:

基于所有训练用节点的第一预测标签和对应的训练用交易用户的真实标签,计算当前第一训练次数下的第一误差,根据当前第一训练次数下的第一误差更新第一训练分过程中的第一预设可训练参数、第二预设可训练参数和第三预设可训练参数以及第二训练分过程中的第一预设模型参数,并进行下一第一训练次数下的第一训练分过程,直到达到预设第一训练次数,得到预设第一训练次数后的第一预设可训练参数、第二预设可训练参数、第三预设可训练参数和第一预设模型参数;

分别利用具有不同第一预设聚类数量和第二预设聚类数量的用K-Means算法,基于所有训练用节点的预设第一训练次数后的第一预测标签,对所有训练用节点进行聚类,得到在各第一预设聚类数量时的多个训练用正常簇和在各第二预设聚类数量时的多个训练用异常簇;

对于任一当前预设聚类数量:

基于预设第一训练次数后的第一预测标签为正常的训练用节点的综合特征,计算当前第一预设聚类数量下的训练用正常簇的轮廓系数,并基于训练用正常簇的轮廓系数最大的第一预设聚类数量对应的所有训练用正常簇,确定正常原型表示;

基于预设第一训练次数后的第一预测标签为异常的训练用节点的综合特征,计算当前第二预设聚类数量下的训练用异常簇的轮廓系数,并基于训练用异常簇的轮廓系数最大的第二预设聚类数量对应的所有训练用异常簇,确定异常原型表示;

基于正常原型表示和异常原型表示,确定原型表示的初始值;

将预设第一训练次数后的第一预设可训练参数确定为初始综合训练次数下的第一预设可训练参数,将预设第一训练次数后的第二预设可训练参数确定为初始综合训练次数下的第二预设可训练参数,将预设第一训练次数后的第三预设可训练参数确定为初始综合训练次数下的第三预设可训练参数,将预设第一训练次数后的第一预设模型参数确定为初始综合训练次数下的第一预设模型,将原型表示的初始值确定为初始综合训练次数下的原型表示,初始化第二预设模型参数;

进行综合训练,确定第一可训练参数、第二可训练参数、第三可训练参数、第一模型参数、第二模型参数和最终原型表示;

对于任一当前综合训练次数下的综合训练过程:

基于所述训练用属性图,确定当前综合训练次数下的各训练用节点的最终预测标签和整体损失;

对于任一当前训练用节点,基于当前综合训练次数下的第一预设可训练参数、第二预设可训练参数和第三预设可训练参数,进行当前综合训练次数下的第一训练分过程,确定当前训练用节点的综合特征;

利用具有当前综合训练次数下的第一预设模型参数的多层感知机,基于当前训练用节点的综合特征,确定当前训练用节点的第一预测标签;

基于所有训练用节点的第一预测标签和对应的训练用交易用户的真实标签,计算当前综合训练次数下的第一误差;

对于任一当前训练用节点,基于当前训练用节点的综合特征和当前综合训练次数下的原型表示,计算当前训练用节点的相似度得分矩阵;

利用具有第二预设模型参数的多层感知机,基于当前训练用节点的相似度得分矩阵,确定当前训练用节点的第二预测标签;

基于所有训练用节点的第二预测标签和对应的训练用交易用户的真实标签,计算当前综合训练次数下的第二误差;

基于当前综合训练次数下的原型表示,计算当前综合训练次数下的分离损失和多样性损失;

基于当前训练用节点的综合特征和当前训练用节点对应的正常原型表示或异常原型表示,计算当前综合训练次数下的聚类损失;

基于当前综合训练次数下的第一误差、第二误差、分离损失、多样性损失和聚类损失,确定当前综合训练次数下的整体误差;

判断是否满足停止条件;所述停止条件为所述当前综合训练次数下的整体误差小于预设整体误差或达到预设综合训练次数;

若是,则将当前综合训练次数下的第一预设可训练参数确定为第一可训练参数,将当前综合训练次数下的第二预设可训练参数确定为第二可训练参数,将当前综合训练次数下的第三预设可训练参数确定为第三可训练参数,将当前综合训练次数下的第一预设模型参数确定为第一模型参数,将当前综合训练次数下的第二预设模型参数确定为第二模型参数,将当前综合训练次数下的原型表示确定为最终原型表示;

若否,则更新综合训练次数,并返回“基于所述训练用属性图,确定当前综合训练次数下的各训练用节点的最终预测标签和整体损失”。

可选地,基于当前训练用节点所在的所有训练用节点组中所有训练用节点的高维特征,确定当前训练用节点的多层均值隐藏表示,具体包括:

基于当前训练用节点所在的所有训练用节点组,确定当前训练用节点的节点邻域子集;所述当前训练用节点的节点邻域子集包括当前训练用节点的预设子集元素数个邻居训练用节点;

基于当前训练用节点的节点邻域子集中所有训练用节点的高维特征,确定当前训练用节点的多层均值隐藏表示。

可选地,基于各当前训练用节点和非当前训练用节点的距离,确定更新后的训练用邻接矩阵,具体包括:

分别计算当前训练用节点和非当前训练用节点的距离;

并将前K个距离最近的非当前训练用节点确定为当前训练用节点的新邻居训练用节点;

当当前训练用节点与新邻居节点组成的训练用节点组确定为待变节点组;

当任一当前待变节点组的训练用节点与新邻居节点之间没有训练用边时,将训练用邻接矩阵中对应的训练用邻接元素由0变成1;

将所有当前待变节点组对应的训练用邻接元素由0变成1后的训练用邻接矩阵,确定为更新后的训练用邻接矩阵。

一种交易欺诈检测系统,所述系统包括:

待检数据集获取模块,用于获取待检数据集;所述待检数据集包括:多个待检交易用户和待检数字货币的流动;

待检属性图生成模块,用于基于所述待检数据集,生成待检属性图;所述待检属性图包括:多个待检节点、多条待检边、待检邻接矩阵和待检节点特征矩阵;一个所述待检节点对应一个所述待检交易用户,一条所述待检边对应一个所述待检数字货币的流动;所述待检邻接矩阵包括多个待检邻接元素,所述待检邻接元素为0或1,为0的待检邻接元素对应的待检节点组之间没有待检边,为1的待检邻接元素对应的两个待检节点组之间有待检边;待检节点组包括待检节点和对应的邻居待检节点;所述待检节点特征矩阵包括所有所述待检节点的节点特征;

综合特征确定模块,用于:

对于任一当前待检节点:

利用具有第一可训练参数和第二可训练参数的高维映射函数,将当前待检节点的节点特征映射到高维空间,得到当前待检节点的高维特征;所述第一可训练参数和第二可训练参数是经过训练确定的;

基于当前待检节点所在的所有待检节点组中所有待检节点的高维特征,确定当前待检节点的多层均值隐藏表示;

基于各当前待检节点和非当前待检节点的距离,确定更新后的待检邻接矩阵;非当前待检节点为所有待检节点中除当前待检节点外的待检节点;

基于更新后的待检邻接矩阵构建待检超图,并基于待检超图确定待检关联矩阵;待检超图包括:多个待检节点和待检超边;

利用具有第三可训练参数的超图卷积神经网络,基于所述待检超图和所述待检关联矩阵确定超图卷积后的待检节点特征矩阵,从而确定当前待检节点的超图卷积特征;所述第三可训练参数是经过训练确定的;

基于当前待检节点的高维特征、多层均值隐藏表示和超图卷积特征,确定当前待检节点的综合特征;

相似度得分矩阵确定模块,用于基于当前待检节点的综合特征和最终原型表示,计算当前待检节点的相似度得分矩阵;所述最终原型表示是经过训练确定的;

第二预测标签确定模块,用于利用具有第二模型参数的多层感知机,基于当前待检节点的相似度得分矩阵,确定当前待检节点的第二预测标签;第二预测标签为正常或异常;所述第二模型参数是经过训练确定的;

类型确定模块,用于基于当前待检节点的第二预测标签确定对应的待检交易用户的类型;所述类型为非欺诈用户或欺诈用户。

一种电子设备,包括:

一个或多个处理器;

存储装置,其上存储有一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述所述的交易欺诈检测方法。

一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述所述的交易欺诈检测方法。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明公开了一种交易欺诈检测方法、系统、电子设备及存储介质,对于任一待检交易用户对应的待检节点:首先,利用具有第一可训练参数和第二可训练参数的高维映射函数确定高维特征,从而确定多层均值隐藏表示;基于更新后的待检邻接矩阵构建待检超图从而确定待检关联矩阵;利用具有第三可训练参数的超图卷积神经网络,基于待检超图和待检关联矩阵确定确定超图卷积特征;基于高维特征、多层均值隐藏表示和超图卷积特征确定综合特征。然后,基于综合特征和最终原型表示,利用具有第二模型参数的多层感知机,确定待检节点的第二预测标签从而确定对应的待检交易用户的类型。将原型表示应用于交易用户的欺诈检测中,提高了欺诈检测精度

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的交易欺诈检测方法流程示意图;

图2为属性图中构成节点特征的元素组成示意图;

图3为属性图中邻域节点聚合到当前节点的过程示意图;

图4为节点与原型映射和分类示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种交易欺诈检测方法、系统、电子设备及存储介质,旨在提高欺诈检测精度。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

图1为本发明实施例1提供的交易欺诈检测方法流程示意图。如图1所示,本实施例中的交易欺诈检测方法,

步骤101:获取待检数据集。

其中,待检数据集包括:多个待检交易用户和待检数字货币的流动。

步骤102:基于待检数据集,生成待检属性图。

其中,待检属性图包括:多个待检节点、多条待检边、待检邻接矩阵和待检节点特征矩阵;一个待检节点对应一个待检交易用户,一条待检边对应一个待检数字货币的流动;待检邻接矩阵包括多个待检邻接元素,待检邻接元素为0或1,为0的待检邻接元素对应的待检节点组之间没有待检边,为1的待检邻接元素对应的两个待检节点组之间有待检边;待检节点组包括待检节点和对应的邻居待检节点;待检节点特征矩阵包括所有待检节点的节点特征。

步骤103:确定各待检节点的综合特征。

步骤103,具体包括:

对于任一当前待检节点:

步骤1031:利用具有第一可训练参数和第二可训练参数的高维映射函数,将当前待检节点的节点特征映射到高维空间,得到当前待检节点的高维特征;第一可训练参数和第二可训练参数是经过训练确定的。

步骤1032:基于当前待检节点所在的所有待检节点组中所有待检节点的高维特征,确定当前待检节点的多层均值隐藏表示。

步骤1033:基于各当前待检节点和非当前待检节点的距离,确定更新后的待检邻接矩阵;非当前待检节点为所有待检节点中除当前待检节点外的待检节点。

步骤1034:基于更新后的待检邻接矩阵构建待检超图,并基于待检超图确定待检关联矩阵;待检超图包括:多个待检节点和待检超边。

步骤1035:利用具有第三可训练参数的超图卷积神经网络,基于待检超图和待检关联矩阵确定超图卷积后的待检节点特征矩阵,从而确定当前待检节点的超图卷积特征;第三可训练参数是经过训练确定的。

步骤1036:基于当前待检节点的高维特征、多层均值隐藏表示和超图卷积特征,确定当前待检节点的综合特征。

步骤104:基于当前待检节点的综合特征和最终原型表示,计算当前待检节点的相似度得分矩阵。

其中,最终原型表示是经过训练确定的。

步骤105:利用具有第二模型参数的多层感知机,基于当前待检节点的相似度得分矩阵,确定当前待检节点的第二预测标签。

其中,第二预测标签为正常或异常;第二模型参数是经过训练确定的。

步骤106:基于当前待检节点的第二预测标签确定对应的待检交易用户的类型;类型为非欺诈用户或欺诈用户。

作为一种可选的实施方式,步骤1032,具体包括:

基于当前待检节点所在的所有待检节点组,确定当前待检节点的节点邻域子集;当前待检节点的节点邻域子集包括当前待检节点的预设子集元素数个邻居待检节点。

基于当前待检节点的节点邻域子集中所有待检节点的高维特征,确定当前待检节点的多层均值隐藏表示。

作为一种可选的实施方式,步骤1033,具体包括:

分别计算当前待检节点和非当前待检节点的距离。

并将前K个距离最近的非当前待检节点确定为当前待检节点的新邻居待检节点。

将当前待检节点与新邻居节点组成的待检节点组确定为待变节点组。

当任一当前待变节点组的待检节点与新邻居节点之间没有待检边时,将待检邻接矩阵中对应的待检邻接元素由0变成1。

将所有当前待变节点组对应的待检邻接元素由0变成1后的待检邻接矩阵,确定为更新后的待检邻接矩阵。

作为一种可选的实施方式,步骤106,具体包括:

当当前待检节点的第二预测标签为正常时,对应的待检交易用户为非欺诈用户。

当当前待检节点的第二预测标签为异常时,对应的待检交易用户为欺诈用户。

作为一种可选的实施方式,第一可训练参数、第二可训练参数、第三可训练参数、第一模型参数、第二模型参数和最终原型表示的确定过程,包括:

步骤1:基于交易数据集,生成训练用属性图;训练用属性图包括:多个训练用节点、多条训练用边、训练用邻接矩阵和训练用节点特征矩阵;交易数据集包括:多个训练用交易用户、训练用数字货币的流动和每个训练用交易用户的真实标签,真实标签为0或1,真实标签为0表示训练用交易用户为非欺诈训练用交易用户,真实标签为1表示训练用交易用户为欺诈训练用交易用户;一个训练用节点对应一个训练用交易用户,一条训练用边对应一个训练用数字货币的流动;训练用邻接矩阵包括多个训练用邻接元素,训练用邻接元素为0或1,为0的训练用邻接元素对应的训练用节点组之间没有训练用边,为1的训练用邻接元素对应的两个训练用节点组之间有训练用边;训练用节点组包括训练用节点和对应的邻居训练用节点;训练用节点特征矩阵包括所有训练用节点的节点特征。

具体的,生成图数据(即训练用属性图)的方法为:下载交易数据集,将交易(某个交易事件中的一个交易用户)作为节点,数字货币的流动作为边。交易数据集中一共包含46564个交易者,即46564个节点,73248条边,其中有9.76%的节点是欺诈节点。训练集包括从46564中个节点随机选择的466个节点及相应的边。获取训练集后,利用节点之间的联系构造属性图

初始化第一预设可训练参数、第二预设可训练参数、第三预设可训练参数和第一预设模型参数。

基于训练用属性图,进行预设第一训练次数的第一训练过程,确定预设第一训练次数后的第一预设可训练参数、第二预设可训练参数、第三预设可训练参数和第一预设模型参数以及各训练用节点的预设第一训练次数后的第一预测标签;第一预测标签为正常或异常。

其中,对于任一当前第一训练次数下的第一训练过程包括:第一训练分过程、第二训练分过程和第三训练分过程。

对于所有训练用节点中任一当前训练用节点,第一训练分过程包括:

利用具有第一预设可训练参数和第二预设可训练参数的高维映射函数,将当前训练用节点的节点特征映射到高维空间,得到当前训练用节点的高维特征。

具体的,将节点特征映射到一个高维空间中,得到节点的高维特征,具体计算公式为:

其中,

其中,a是(1,+∞)区间内的固定参数。

基于当前训练用节点所在的所有训练用节点组中所有训练用节点的高维特征,确定当前训练用节点的多层均值隐藏表示。

作为一种可选的实施方式,基于当前训练用节点所在的所有训练用节点组中所有训练用节点的高维特征,确定当前训练用节点的多层均值隐藏表示,具体包括:

基于当前训练用节点所在的所有训练用节点组,确定当前训练用节点的节点邻域子集;当前训练用节点的节点邻域子集包括当前训练用节点的预设子集元素数个邻居训练用节点。

具体的,节点邻域子集的确定方法,包括:

每一个节点都有不同数量的邻居节点,使用降采样的方式对第i个训练用节点统一地采样一个固定大小的邻域集

基于当前训练用节点的节点邻域子集中所有训练用节点的高维特征,确定当前训练用节点的多层均值隐藏表示。

具体的,将节点邻域子集使用多层均值聚合节点信息,第i个节点的第l

其中,

基于各当前训练用节点和非当前训练用节点的距离,确定更新后的训练用邻接矩阵;非当前训练用节点为所有训练用节点中除当前训练用节点外的训练用节点。

作为一种可选的实施方式,基于各当前训练用节点和非当前训练用节点的距离,确定更新后的训练用邻接矩阵,具体包括:

分别计算当前训练用节点和非当前训练用节点的距离。

具体的,计算距离矩阵:首先在N个训练用节点之间使用欧几里得距离构造一个距离矩阵,其中,第i个节点和第j个节点之间的距离ED

。/>

其中,

并将前K个距离最近的非当前训练用节点确定为当前训练用节点的新邻居训练用节点。

当当前训练用节点与新邻居节点组成的训练用节点组确定为待变节点组。

当任一当前待变节点组的训练用节点与新邻居节点之间没有训练用边时,将训练用邻接矩阵中对应的训练用邻接元素由0变成1。

将所有当前待变节点组对应的训练用邻接元素由0变成1后的训练用邻接矩阵,确定为更新后的训练用邻接矩阵

基于更新后的训练用邻接矩阵构建训练用超图

具体的,超图与一般图在结构的表示方式上不同,超图的关联矩阵H和一般图的邻接矩阵A在数值上完全一致,只是含义不同。超图包括节点和超边,超边是指一条边可以连接多个节点而非传统的连接两个节点。因此只需将邻接矩阵的含义改变,即可得到超图,并生成关联矩阵H,H的每一列表示为一条超边,H

利用具有第三预设可训练参数的超图卷积神经网络,基于训练用超图和训练用关联矩阵确定超图卷积后的训练用节点特征矩阵,从而确定当前训练用节点的超图卷积特征。

具体的,利用具有第三预设可训练参数的超图卷积神经网络,确定节点特征矩阵的公式为:

其中,

基于当前训练用节点的高维特征、多层均值隐藏表示和超图卷积特征,确定当前训练用节点的综合特征。

如图4所示,具体的,综合特征的计算公式为:

其中,

第二训练分过程包括:利用具有第一预设模型参数的多层感知机,基于当前训练用节点的综合特征,确定当前训练用节点的第一预测标签;第一预测标签为正常或异常。

具体的,第一预测标签的确定过程包括:

其中,

归一化第i个节点为异常节点的第一预测概率,计算公式为:

其中,

第三训练分过程包括:

基于所有训练用节点的第一预测标签和对应的训练用交易用户的真实标签,计算当前第一训练次数下的第一误差,根据当前第一训练次数下的第一误差更新第一训练分过程中的第一预设可训练参数、第二预设可训练参数和第三预设可训练参数以及第二训练分过程中的第一预设模型参数,并进行下一第一训练次数下的第一训练分过程,直到达到预设第一训练次数,得到预设第一训练次数后的第一预设可训练参数、第二预设可训练参数、第三预设可训练参数和第一预设模型参数。

具体的,第一误差

其中,

预设第一训练次数为epoch

/>

其中,θ

分别利用具有不同第一预设聚类数量和第二预设聚类数量的用K-Means算法,基于所有训练用节点的预设第一训练次数后的第一预测标签,对所有训练用节点进行聚类,得到在各第一预设聚类数量时的多个训练用正常簇和在各第二预设聚类数量时的多个训练用异常簇。

具体的,将训练样本的预训练特征和标签作为自适应聚类构造器的输入,并设置最大聚类数量阈值T(正常节点时,T=T1;异常节点时,T=T2)。对于每一个类别,分别使用K-Means获得聚类数量为t(正常节点时,t=t1;异常节点时,t=t2)时的节点聚类(簇)集合C,计算公式为:

其中,C为聚类中心的集合;C

对于任一当前预设聚类数量:

基于预设第一训练次数后的第一预测标签为正常的训练用节点的综合特征,计算当前第一预设聚类数量下的训练用正常簇的轮廓系数,并基于训练用正常簇的轮廓系数最大的第一预设聚类数量对应的所有训练用正常簇,确定正常原型表示。

基于预设第一训练次数后的第一预测标签为异常的训练用节点的综合特征,计算当前第二预设聚类数量下的训练用异常簇的轮廓系数,并基于训练用异常簇的轮廓系数最大的第二预设聚类数量对应的所有训练用异常簇,确定异常原型表示。

第二预设聚类数量为t(正常节点时,t=t1;异常节点时,t=t2),时,轮廓系数的计算公式为:

其中,当t=t1时,S

基于正常原型表示和异常原型表示,确定原型表示的初始值。

具体的,正常原型表示和异常常原型表示的确定方法,均包括:

利用公式(17)获取最佳聚类数量k(正常节点时,k=k

k←max({S

利用k值原型表示的初始值P=[P

其中,P

将预设第一训练次数后的第一预设可训练参数确定为初始综合训练次数下的第一预设可训练参数,将预设第一训练次数后的第二预设可训练参数确定为初始综合训练次数下的第二预设可训练参数,将预设第一训练次数后的第三预设可训练参数确定为初始综合训练次数下的第三预设可训练参数,将预设第一训练次数后的第一预设模型参数确定为初始综合训练次数下的第一预设模型,将原型表示的初始值确定为初始综合训练次数下的原型表示,初始化第二预设模型参数。

进行综合训练,确定第一可训练参数、第二可训练参数、第三可训练参数、第一模型参数、第二模型参数和最终原型表示。

对于任一当前综合训练次数下的综合训练过程:

基于训练用属性图,确定当前综合训练次数下的各训练用节点的最终预测标签和整体损失。

对于任一当前训练用节点,基于当前综合训练次数下的第一预设可训练参数、第二预设可训练参数和第三预设可训练参数,进行当前综合训练次数下的第一训练分过程,确定当前训练用节点的综合特征。

利用具有当前综合训练次数下的第一预设模型参数的多层感知机,基于当前训练用节点的综合特征,确定当前训练用节点的第一预测标签。

基于所有训练用节点的第一预测标签和对应的训练用交易用户的真实标签,计算当前综合训练次数下的第一误差。

对于任一当前训练用节点,基于当前训练用节点的综合特征和当前综合训练次数下的原型表示,计算当前训练用节点的相似度得分矩阵。

具体的,相似度得分矩阵的计算公式为:

其中,

利用具有第二预设模型参数的多层感知机,基于当前训练用节点的相似度得分矩阵,确定当前训练用节点的第二预测标签。

具体的,将

其中,

其中,

基于所有训练用节点的第二预测标签和对应的训练用交易用户的真实标签,计算当前综合训练次数下的第二误差。

具体的,第一误差

基于当前综合训练次数下的原型表示,计算当前综合训练次数下的分离损失和多样性损失。

具体的,分离损失的计算公式为:

为分离损失;i2为正常簇的序号,i2∈[1,k

多样性损失的计算公式为:

为多样性损失;/>

基于当前训练用节点的综合特征和当前训练用节点对应的正常原型表示或异常原型表示,计算当前综合训练次数下的聚类损失。

聚类损失的计算公式为:

其中,

基于当前综合训练次数下的第一误差、第二误差、分离损失、多样性损失和聚类损失,确定当前综合训练次数下的整体误差。

整体误差的计算公式为:

其中,α

判断是否满足停止条件;停止条件为当前综合训练次数下的整体误差小于预设整体误差或达到预设综合训练次数。

若是,则将当前综合训练次数下的第一预设可训练参数确定为第一可训练参数,将当前综合训练次数下的第二预设可训练参数确定为第二可训练参数,将当前综合训练次数下的第三预设可训练参数确定为第三可训练参数,将当前综合训练次数下的第一预设模型参数确定为第一模型参数,将当前综合训练次数下的第二预设模型参数确定为第二模型参数,将当前综合训练次数下的原型表示确定为最终原型表示。

若否,则更新综合训练次数,并返回“基于训练用属性图,确定当前综合训练次数下的各训练用节点的最终预测标签和整体损失”。

作为一种可选的实施方式,基于当前训练用节点所在的所有训练用节点组中所有训练用节点的高维特征,确定当前训练用节点的多层均值隐藏表示,具体包括:

基于当前训练用节点所在的所有训练用节点组,确定当前训练用节点的节点邻域子集;当前训练用节点的节点邻域子集包括当前训练用节点的预设子集元素数个邻居训练用节点。

基于当前训练用节点的节点邻域子集中所有训练用节点的高维特征,确定当前训练用节点的多层均值隐藏表示。

作为一种可选的实施方式,基于各当前训练用节点和非当前训练用节点的距离,确定更新后的训练用邻接矩阵,具体包括:

分别计算当前训练用节点和非当前训练用节点的距离。

并将前K个距离最近的非当前训练用节点确定为当前训练用节点的新邻居训练用节点。

当当前训练用节点与新邻居节点组成的训练用节点组确定为待变节点组。

当任一当前待变节点组的训练用节点与新邻居节点之间没有训练用边时,将训练用邻接矩阵中对应的训练用邻接元素由0变成1。

将所有当前待变节点组对应的训练用邻接元素由0变成1后的训练用邻接矩阵,确定为更新后的训练用邻接矩阵。

如图2-图3所示,下面利用具体实施例对上述方法进行说明。

训练集为上述方法中的交易数据集中的46098个节点及相应的边。测试集也是上述方法中的交易数据集中中的数据。表1显示了不同的训练方法在测试集上的对比结果。其中,指标AUC是ROC曲线下的面积,它的值越接近1,模型的分类效果越好;指标Recall-macro表示检测到的正样本比例与检测到的欺诈样本比例的未加权平均值;指标F1-macro是检测时正常类别和欺诈类别F1分数的未加权平均值。CCN表示使用图卷积神经网络作为训练模型;GAT表示图注意力网络作为训练模型;CARE-GNN使用一个自适应的阈值来过滤图卷积过程中不相似的邻居节点并检测欺诈的方法;FRAUDRE利用图无关的嵌入和基于欺诈感知的图卷积方式检测欺诈;PC-GNN通过两个阶段来选择邻居节点并聚合节点信息并检测欺诈;APGNN是本发明使用的方法,利用原型表示节点欺诈行为并检测欺诈。可以看出,本发明方法在三个指标下均达到了最高,比其他方法分别高出0.07个百分点、0.14个百分点以及11.37个百分点。

表1测试结果表

针对每一个节点,其预测过程如下:

在一个交易图网络为例,假设中心节点为一个账户,该账户资金有6个流向,分别是{1,2,3,4,5,6}。每个账户分别对应一些特征并构成特征向量x,原始x的维度为93,如图2所示,其中举例了构成特征的一部分元素。

生成节点的高维空间表示

接着设置一个固定大小为4采样阈值,采样后的邻域集可能为{2,4,5,6}。将五个节点的特征聚合至中心节点上,获得

接着计算全局中节点的相似度,与中心节点相似度较高的节点有7、9和10等节点,选取top-k个节点作为中心节点的全局邻居并优化拓扑结构,此时k设置为1,当前中心节点的邻居节点为{1,2,3,4,5,6,7},并构建超图的关联矩阵H,并计算

拼接

使用

将相似性得分送入分类层,获得最终的预测结果

实施例2

本实施例中的交易欺诈检测系统,包括:

待检数据集获取模块,用于获取待检数据集;待检数据集包括:多个待检交易用户和待检数字货币的流动。

待检属性图生成模块,用于基于待检数据集,生成待检属性图;待检属性图包括:多个待检节点、多条待检边、待检邻接矩阵和待检节点特征矩阵;一个待检节点对应一个待检交易用户,一条待检边对应一个待检数字货币的流动;待检邻接矩阵包括多个待检邻接元素,待检邻接元素为0或1,为0的待检邻接元素对应的待检节点组之间没有待检边,为1的待检邻接元素对应的两个待检节点组之间有待检边;待检节点组包括待检节点和对应的邻居待检节点;待检节点特征矩阵包括所有待检节点的节点特征。

综合特征确定模块,用于:

对于任一当前待检节点:

利用具有第一可训练参数和第二可训练参数的高维映射函数,将当前待检节点的节点特征映射到高维空间,得到当前待检节点的高维特征;第一可训练参数和第二可训练参数是经过训练确定的。

基于当前待检节点所在的所有待检节点组中所有待检节点的高维特征,确定当前待检节点的多层均值隐藏表示。

基于各当前待检节点和非当前待检节点的距离,确定更新后的待检邻接矩阵;非当前待检节点为所有待检节点中除当前待检节点外的待检节点。

基于更新后的待检邻接矩阵构建待检超图,并基于待检超图确定待检关联矩阵;待检超图包括:多个待检节点和待检超边。

利用具有第三可训练参数的超图卷积神经网络,基于待检超图和待检关联矩阵确定超图卷积后的待检节点特征矩阵,从而确定当前待检节点的超图卷积特征;第三可训练参数是经过训练确定的。

基于当前待检节点的高维特征、多层均值隐藏表示和超图卷积特征,确定当前待检节点的综合特征。

相似度得分矩阵确定模块,用于基于当前待检节点的综合特征和最终原型表示,计算当前待检节点的相似度得分矩阵;最终原型表示是经过训练确定的。

第二预测标签确定模块,用于利用具有第二模型参数的多层感知机,基于当前待检节点的相似度得分矩阵,确定当前待检节点的第二预测标签;第二预测标签为正常或异常;第二模型参数是经过训练确定的。

类型确定模块,用于基于当前待检节点的第二预测标签确定对应的待检交易用户的类型;类型为非欺诈用户或欺诈用户。

实施例3

一种电子设备,包括:

一个或多个处理器。

存储装置,其上存储有一个或多个程序。

当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如实施例1中的交易欺诈检测方法。

实施例4

一种存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如实施例1中的交易欺诈检测方法。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 一种无水氟化氢生产过程中的冷量回收系统及回收工艺
  • 一种树脂生产有机溶剂中高聚物的分离回收系统
  • 一种树脂生产有机溶剂中高聚物的分离回收系统
技术分类

06120116543109