掌桥专利:专业的专利平台
掌桥专利
首页

基于GPS轨迹的欺诈用户识别方法

文献发布时间:2024-04-18 19:53:33


基于GPS轨迹的欺诈用户识别方法

技术领域

本发明属于数据处理技术领域,更具体地,本发明涉及一种基于GPS轨迹的欺诈用户识别方法。

背景技术

随着经济的发展和人民生活水平的提升,我国汽车行业得到了快速发展,汽车金融也因此应运而生,并逐渐成为汽车产业链中的重要领域。GPS定位器作为汽车金融风险管理的重要手段,在信用风险监控中发挥着愈加重要的作用。传统的车辆信贷业务风险监控手段在面对车辆处于复杂场景时效果往往缺乏准确性,且对GPS轨迹数据等行为数据的利用深度相对较浅,单纯依靠黑区报警、离线行为等统计信息来判断是否存在风险,不符合多源异构数据融合的大数据趋势。基于此,本专利在贷中环节挖掘借款人多维度时空特征,运用联合建模、图计算、深度学习等技术,构建金融欺诈风险预警模型,发现高风险和可能造成巨大损失的借款人,为渠道监控优化、风险预警等业务提供支撑。

传统金融信贷风险预警方法一般使用基于专家先验知识传统构建的规则或基于相关机器学习模型构建的模型来进行。基于专家经验的方法受制于专家经验限制,所使用到的客户相关数据源范围往往也较为有限,且评分结果与先验知识的准确性和时效性有着较强的依赖关系,现实贷款风险场景更新较快的场景下,此类方法容易导致预测准确性出现问题。使用机器学习的方法可以接受较多的客户贷款特征输入,因而可以较好的拟合多变的实际贷款场景,但由于使用的特征往往多为每位客户之间相对独立的贷款相关信息,因而无法考虑到客户之间的关联特征。

发明内容

本发明提供一种基于GPS轨迹的欺诈用户识别方法,旨在改善上述问题。

本发明是这样实现的,一种基于GPS轨迹的欺诈用户识别方法,所述方法包括如下步骤:

步骤1、构建关系图G:以客户作为节点,客户的贷款相关数据编码后形成节点的向量编码,基于客户的GPS轨迹相似性确定节点间边的权重;

步骤2:基于模块度对关系图G中的客户进行划分,形成若干聚合团;

步骤3:对关系图G及节点的编码向量进行编码,形成节点编码,从聚合团中的节点编码中提取客户关联特征编码,将节点编码及客户关联特征编码输入风险预测网络,输出节点对应客户的风险预测结果。

进一步的,节点间边的权重确定方法具体包括:

(1)确定两个客户的GPS轨迹相似度,作为对应节点间关联边的权重w

(2)对两客户的经销商名称进行语义编码,计算经销商语义编码向量的余弦相似度sim,作为两位客户在经销商层面上的权重w

(3)将权重w

进一步的,GPS轨迹相似度的获取方法具体如下:

筛选出时间间隔大于时间间隔阈值t

采用K-means聚类算法对经过筛选后的所有客户的所有GPS轨迹点进行聚类,形成聚类簇和与之对应的聚类中心;

通过计算簇内两个客户与对应的聚类中心点的距离之和并进行归一化,作为两个客户的GPS轨迹相似度。

进一步的,聚合团的形成过程具体如下:

(1)构建关系图G对应的邻接矩阵A

(2)计算各聚合团合并后关系图G的模块度Q

(3)重复步骤(2),直至关系图G中的模块度Q

进一步的,关系图G的模块度计算公式如下:

其中,A

进一步的,使用图卷积神经网络GCN对关系图G及节点的编码向量进行融合编码,形成节点编码h

进一步的,客户关联特征编码

其中,

进一步的,风险预测网络具体如下:

其中,ρ为softmax函数,λ

进一步的,在步骤S1之前还包括:

对GPS轨迹数据进行预处理,预处理过程具体如下:对GPS轨迹数据根据采集时间按天进行分段;对GPS轨迹数据进行降采样,即筛选时间阈值内移动距离达到距离阈值以上的GPS轨迹点;将保留下来的GPS轨迹点按时段进行分段,在每个时间段内随机抽样指定数量的GPS轨迹点。

本发明通过对客户的贷款相关信息与GPS行为轨迹信息进行分析,计算客户的行动模式与行动模式之间的关联关系,构建客户关联图谱,并从构建好的图谱出发,挖掘客户的个体风险表征与关联风险表征,从而达成对潜在风险客户做出更高效、更精准预警的目的。

附图说明

图1为本发明实施例提供的基于GPS轨迹的欺诈用户识别方法流程图;

图2为本发明实施例提供的关系图G中客户的聚合流程图。

具体实施方式

下面对照附图,通过对实施例的描述,对本发明的具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

本发明在分析车辆贷款用户基本信息的基础上,融入GPS信息,通过使用客户基本数据、客户地址数据、客户车辆GPS轨迹数据等信息,使用数据预处理、聚类算法等方式处理与挖掘这些数据,构建客户关系图。而后,使用关联挖掘算法,对构建好的客户关系图中存在关联聚集关系的客户节点进行聚合,形成关联客户特征。最后,使用图卷积神经网络(Graph Convolutional Network,GCN)对客户关系图中的节点进行编码嵌入,并结合上一步已获得的关联客户特征,形成客户的综合表征向量,输入风险预测网络中,得到对客户贷款综合风险的预测结果。图1为本发明实施例提供的基于GPS轨迹的欺诈用户识别方法流程图,该方法具体包括如下步骤:

步骤一:关系图构建。

关系图构建包括构件图所用的基本数据收集、相关数据的处理、图关系构建以及对应的节点与边向量编码几个部分。主要包含以下几个步骤:

1)数据收集。通过对客户的贷款相关数据及GPS轨迹数据进行收集,获取包括客户基本信息、客户贷款相关信息、客户车辆信息等多维度信息。

2)数据处理。对数据的处理主要分为静态数据及动态数据的处理,其中,贷款相关数据为静态数据车辆GPS轨迹数据为动态数据;

静态数据的处理过程具体如下:对原始数据表中存在的缺失情况进行处理,其中缺失值较高的特征数据,通过设置一定阈值,如果缺失数量超过该阈值,则直接删除该维度特征,如果缺失值低于该阈值,则结合业务情况做进一步筛选,剔除其中对于业务预测无意义或意义不大的维度特征。对经过筛选后的特征,采用0/1填充、众数填充或均值填充来对缺失值进行补全。

动态数据的处理过程具体如下:(1)对GPS轨迹数据根据采集时间按天进行分段,并结合行政区域信息,去除其中的重复及错误记录。(2)对GPS轨迹数据进行降采样,即筛选时间阈值内移动距离达到距离阈值以上的GPS轨迹点,即为驻留点,根据降采样结果,调整进行驻留点判断所用的阈值,进而实现在保证GPS轨迹数据准确性的情况下,提高数据降采样的精度。(3)由于记录设备及车辆自身状态原因,相邻GPS轨迹数据点可能存在时间间隔频率不一致的情况,针对这一问题,将(2)保留下来的GPS轨迹点按时段进行分区,在每个分区内随机抽样指定数量的GPS轨迹点,如在2小时时间段内进行GPS轨迹点的随机抽样,每个时间段随机选取若干个轨迹点。

3)图构建和节点与边向量编码。

以客户作为关系图中的节点,客户的贷款相关数据作为输入形成节点的向量编码,根据客户的GPS轨迹行动模式的相似性确定节点间边的权重。整体主要包括节点编码和边权重计算两部分:

(1)节点的编码向量

根据不同特征维度对应的数据类型不同,对客户的贷款数据进行不同处理,主要包括以下几个方面:

a)对客户编号等不能唯一标识某一笔进件的ID特征,若其长度较短且为数字则直接保留,否则使用LabelEncoder编码器进行编码;

b)对身份证等包含业务信息或客户基本信息的ID类特征,取前6位、第7-14位和15-18位分别作为对客户的地址、出生日期、个人标识信息的编码,并将其与客户已有的基本信息中存在的地址和出生日期的一致性作为编码特征的一部分;

c)对于产品名称、车辆品牌等字符串类特征,若其属于离散型特征,则使用LabelEncoder编码器将其转为长度固定的编码向量,若其属于文本描述类特征,则使用Bert预训练语言模型将其转换为一定长度的语义编码向量;

d)对于出生日期等日期型特征,将其转换为由年月日组成的数值型特征;

e)对于其他数值型特征,直接使用特征对应的属性值,对于波动较大的特征值,使用最大最小标准化方法对其进行归一化处理。

完成上述处理后,将各步骤处理后得到的特征值进行整合,得到对节点i的编码向量

(2)节点间边的权重

对于边的权重计算,从GPS轨迹关系挖掘和经销商关系挖掘两个角度进行:

a)针对海量的客户GPS轨迹数据,通过设定时间间隔阈值t

b)针对客户基本信息中已有的经销商信息,针对两个客户,对其经销商名称进行语义编码,得到语义编码向量,计算两个客户对应的经销商语义编码向量的余弦相似度sim,并将其作为两位客户在经销商层面上的权重w

c)将步骤a)和步骤b)中得到的权重结果w

步骤二:客户关联挖掘。

考虑到构建出的关联网络的特殊性,在应用关联挖掘方法之前,需要对已构建的关联网络进行预处理,而后使用基于聚集模块度的关联挖掘方法对客户中存在关联的客户团体进行划分。整体流程如图2所示,主要步骤如下:

(1)构建图谱对应的邻接矩阵。

基于步骤一中得到的节点编码,对由步骤一中构建的图谱中的边进行编码,构建一个包含n个节点的图G=(V,E),其中V={v

其中,(v

(2)计算模块度。

将各聚合团进行合并,计算聚合团合并后关系图G对应的模块度,模块度计算公式如下:

其中,A

K

(3)进行迭代,计算模块度增量。考虑到车贷金融业务面向的客户范围较为广泛,对应的贷款数据量较大,因而在初次迭代时,往往会面临出现大量初始社区节点的情况,造成在初次迭代时需要较大的计算量,为了避免这种情况,在初次迭代时,直接将网络中的叶子节点合并至其对应上层节点对应的聚合团中,形成对应的子团,并将这个子团看作一个节点加入图中,计算聚合团之间的模块度增量:

ΔQ

其中,Q

(4)重复步骤(3)对应的迭代过程,直至迭代后的图G中模块度Q

v

其中,C为全部聚合团组成的集合。

步骤三:客户欺诈风险检测。

完成关联挖掘结果后,使用图神经网络,并结合步骤二中获得的关联客户聚合结果,对存在潜在风险的客户进行预测,具体分为以下几个步骤:

(1)节点编码。以预处理后的客户作为节点,以节点与节点间的关系作为边,使用图卷积神经网络GCN对关系图G及节点的编码向量进行融合编码,形成节点编码,主要包括输入层、隐藏层与输出层。其中输入层使用节点特征矩阵h与邻接矩阵A组成,隐藏层通过传播规则聚合当前层的节点信息,并将特征传输到下一层,从而提升特征表示向量的抽象度,节点特征矩阵与信息传播过程如公式(5)-(7)描述:

其中,σ表示Leaky-ReLU激活函数,

完成隐藏状态编码后,节点i的隐藏状态可表示为:

h

(2)利用关联客户聚合结果生成节点的客户关联特征编码。完成对节点的隐藏状态编码后,基于关系挖掘结果,对已经构建完成的节点隐藏向量进行聚合,而后生成客户关联特征编码

其中,

(3)将节点编码与客户关联特征编码输入风险预测网络,该风险预测网络事先通过样本进行训练,生成对应的风险预测结果:

其中,ρ为softmax函数,λ

本发明通过结合图谱构建、图向量表征与关系挖掘方法,通过对客户的贷款相关信息与GPS行为轨迹信息进行分析,计算客户的行动模式与行动模式之间的关联关系,构建客户关联图谱,并从构建好的图谱出发,挖掘客户的个体风险表征与关联风险表征,从而达成对潜在风险客户做出更高效、更精准预警的目的。

本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

相关技术
  • 一种彩色结构光三维测量方法、装置、设备及存储介质
  • 一种身高体重测量方法、装置、测量设备及存储介质
  • 植被拖拽力系数测量方法、装置、计算机设备和存储介质
  • 一种班组情景意识的测量方法、装置、设备及存储介质
  • 电力系统中线路电流的测量方法、装置、设备及存储介质
  • 一种存储集群功耗辅助测量方法、装置、设备及存储介质
  • 参考信号测量方法、装置、用户设备、网络侧设备及存储介质
技术分类

06120116338124