掌桥专利:专业的专利平台
掌桥专利
首页

一种基于银行卡数据的电信诈骗识别方法

文献发布时间:2024-04-18 20:01:30


一种基于银行卡数据的电信诈骗识别方法

技术领域

本发明涉及银行信用卡技术领域,具体涉及一种基于银行卡数据的电信诈骗识别方法。

背景技术

随着经济的快速发展,人们物质生活水平的提高和消费观念的改变,消费者在追求高消费水平的同时,也在寻求多样化的消费模式。信用卡逐渐成为人们日常生活中的一种重要支付手段,而像银行这样的金融机构也把它作为一项主要的业务,从而为信用卡交易提供了一个巨大的市场。近年来,由于银行信用卡业务的不断增长,银行信用卡诈骗事件不断增多,每年都有大量的银行和个人客户遭受巨大的损失。

银行信用卡诈骗有盗刷、假卡、个人身份信息诈骗等多种形式,诈骗者们也在不断改进自己的诈骗手段,而传统的诈骗检测工具,例如专家规则,无法探测到这种新的诈骗。在机器学习、数据挖掘等领域,利用大量的数据进行系统自动识别是一种有效的手段。虽然在训练过程中需要大量的数据和大量的训练时间,但是实时情况下所需的运算量很少,因此它的预测速度和效率都要高于传统的欺诈检测。

银行信用卡检测面临的数据集是数据量非常大、欺诈性数据量非常少、不平衡比例非常大的数据集,需要模型妥善处理不平衡数据,并在数据处理后能够对欺诈数据构建预测模型。通过对银行信用卡数据特征的分析,使用随机森林算法进行模型训练,并对随机森林算法进行优化,提高随机森林算法的精确度,具有更优的欺诈检测能力,降低因银行信用卡诈骗而造成的损失与危害。

发明内容

基于背景技术存在的问题,本发明提出了一种基于银行卡数据的电信诈骗识别方法,目的是为了更好地规制银行信用卡犯罪,快速、有效、准确地识别信用卡欺诈交易行为,提高用户的使用体验,使新型业务模式更好地满足经济社会的市场需求,建立高效的风险控制和风险补偿机制,促进互联网金融服务行业绿色健康发展,保证金融市场秩序稳定和维护人民群众财产安全。

本发明提出的基于银行卡数据的电信诈骗识别方法包括:

银行信用卡欺诈交易特征。单个特征如交易金额和交易时间与欺诈交易的相关性明显,通过对银行信用卡数据进行反复抽样、反复聚类,发现一些欺诈交易标注为正类的行为,采用不同的聚类方法,反复调整参数,始终被归为负类,因此根据数据的特征和现实世界的意义,可以将银行信用卡样本分为以下四类:一类是,用户正常刷卡消费,属于正常交易,符合用户的用卡消费行为习惯,占负类样本的绝大部分;二类是,用户异常刷卡消费,属于正常交易,由现实世界因素造成的交易具有部分或全部欺诈属性的交易特征,但没有个人或组织主动实施、诱导、欺骗等非法手段实现交易,因此属于非欺诈交易,是用户异常刷卡行为,在负类样本中占少数,通常被检测为欺诈交易,人工智能算法难以正确分类;三类是,通过欺诈、利诱等非法手段实现的信用卡交易,这类交易的受害对象具有明显的利害关系,属于欺诈交易,该类交易明显偏离制卡人正常用卡行为范式,占正类样本的绝大部分;四类与三类同为欺诈交易,与三类相比,这类的大部分特征属性与正常交易一致,在现实中该类交易因违背法律规范,有明确的利益受害者,因此属于欺诈交易。

不均衡数据集。数据集中可能存在两种类型的不平衡:一种是类与类之间的不平衡,通常指数据集中某些类的样本数量远远多于其他类;另一种是类内部的不平衡,通常指一个类的某些子集的样本数量少于同一类的其他子集。在不平衡的数据集中,样本数量较少的类被称为少数类,一般认为少数类是正类;样本数量较多的类被称为多数类,一般认为多数类是负类。不平衡数据集的问题通常出现在分类问题中,在许多实际应用领域中,人们真正关心的是少数类而不是多数类,因此在分类过程中需要对少数类进行高度预测。

Kmeans聚类算法。KMeans算法是一种典型的基于划分的聚类算法,也是一种无监督学习算法。KMeans算法的思想很简单,对给定的样本集,用欧氏距离作为衡量数据对象间相似度的指标,相似度与数据对象间的距离成反比,相似度越大,距离越小。预先指定初始聚类数以及个初始聚类中心,按照样本之间的距离大小,把样本集划分为个簇根据数据对象与聚类中心之间的相似度,不断更新聚类中心的位置,不断降低类簇的误差平方和(SSE),当SSE不再变化或目标函数收敛时,聚类结束,得到最终结果。

SMOTE算法。SMOTE,合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别而不够泛化,SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。

Kmeans-SMOTE。Kmeans-SMOTE采用简单和流行的kmeans聚类算法结合SMOTE过采样,以重新平衡数据集,它设法通过仅在安全区域进行过采样来避免产生噪声。此外,它的重点是类别间的不平衡和类别内的不平衡,通过使稀疏的少数类别样本增加来对抗小的分离问题。由于其简单性和kmeans以及SMOTE的广泛可用性,该方法易于实现。它与相关方法的不同之处不仅在于其复杂度低,而且还因为其基于聚类分布生成样本。Kmeans-SMOTE包括三个步骤:聚类、过滤和过采样。在聚类步骤中,使用k均值聚类为k个组;过滤选择用于过采样的簇,保留具有高比例的少数类样本的簇,然后,它分配合成样本的数量,将更多样本分配给少数样本稀疏分布的群集;最后,过采样步骤,在每个选定的簇中应用SMOTE以实现少数和多数实例的目标比率。

PCA方法。PCA方法用于工程数据的统计分析,将数据从高维向量空间投影到低维空间,降维后数据的主要特征没有损失,更有利于分类器的处理。使用PCA方法可以有效提取大量信用卡交易中交易信息的主要特征,有助于分类器快速准确地捕捉异常交易。

决策树。决策树是一种典型的单分类器,经过剪枝后形成随机森林的基分类器。决策树分类过程可分为三个步骤。首先,通过对样本进行递归操作生成一个倒立的树状结构,该树包括三种节点:根节点、中间节点和叶子节点。接下来,分析从根节点到叶子节点的路径,生成决策准则,而从根节点通过一系列中间节点到叶子节点的路径就是生成的决策准则。最后,根据决策准则进行分类或预测。根据决策树中间节点生成规则的不同,决策树可细分为CLS决策树、CART决策树、ID3决策树、C4.5决策树等。

随机森林决策树的构建。随机森林是一种集成了多个决策树的分类器,构建每一个分类器都需要从原始的训练集中有放回地随机采样一部分数据子集作为训练子空间,之后在这个随机子空间上建立决策树,最终由所有的决策树的多数表决结果决定随机森林模型的输出结果,构建随机森林的过程就是训练各个决策树的过程。

随机森林算法。随机森林是一种组合分类器,主要分为两部分,一部分是随机采样方法重采样技术,另一部分是决策树的集成机制。构建随机森林的过程就是训练各个决策树的过程,随机森林以K个决策树为基本分类器,各个决策树之间的训练是相互独立的,在使用随机森林对样本进行分类时,其分类结果是由每个决策树的分类结果简单投票决定,随机森林使用随机采样方法抽取K个训练样本集来构建相应的决策树,并采用特征子空间的方法来选择分裂节点。

基于随机森林的信用卡欺诈方法设计流程包括4个部分:数据预处理、特征提取、欺诈识别和模型评价。在对采集到的数据进行脱敏处理后,将其分为训练集和测试集;给训练集中的欺诈数据添加部分噪声,生成新的欺诈数据并加入到训练集中,解决训练集的不平衡问题;之后采用PCA方法分别对训练集和测试集进行特征提取,得到特征向量后,根据训练集特征数据使用随机森林算法构建分类器;将测试集特征数据导入随机森林分类器,对欺诈交易进行识别和分类;最后通过代价评估方法对分类结果进行评估,以确定欺诈检测方法的有效性。

随机森林决策树选择方法优化。在生成随机森林之前,可以通过对参与投票的决策树进行优化,提高随机森林的强度,减少随机森林的n Tree,降低随机森林算法的时间和空间成本。给定训练集S,通过随机采样的方法构造k棵决策树,并计算k棵决策树所对应的OOB误差,每次迭代增加一颗决策树,使泛化误差估计最小;针对银行信用卡数据集,优选原则可以保留精度高的决策树,删除其中相关性高的决策树。对生成的候选决策树,使用原始未经过过采样处理的样本作为测试集;在保障查全率的基础上,采用分级参与投票的方法,可以降低分类结果的假阳性率。

此时,通过优化后的随机森林算法对银行信用卡数据进行识别检测,分析交易过程中欺诈行为的主要特征,提高了欺诈交易的识别效果,及时终止存在风险的交易行为,减少或杜绝欺诈案件的发生,保障支付安全。

附图说明

图1示出了PCA方法流程图。

图2示出了决策树方法流程图。

图3示出了随机森林算法流程图。

图4示出了算法设计流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

根据图1,将银行信用卡数据集特征数据表示成向量的形式:X=[X

实施例1:设置一种基于银行卡数据的电信诈骗识别方法,所述一种基于银行卡数据的电信诈骗识别方法包括PCA方法、决策树方法、随机森林算法。所述PCA方法,用于工程数据的统计分析,将数据从高维向量空间投影到低维空间,降维后数据的主要特征没有损失,更有利于分类器的处理,使用PCA方法可以有效提取大量信用卡交易中交易信息的主要特征,有助于分类器快速准确地捕捉异常交易。所述决策树方法,决策树是一种典型的单分类器,经过剪枝后形成随机森林的基分类器,决策树分类过程可分为三个步骤:首先,通过对样本进行递归操作生成一个倒立的树状结构,该树包括三种节点:根节点、中间节点和叶子节点;接下来,分析从根节点到叶子节点的路径,生成决策准则,而从根节点通过一系列中间节点到叶子节点的路径就是生成的决策准则;最后,根据决策准则进行分类或预测。所述随机森林算法,随机森林是一种组合分类器,主要分为两部分,一部分是随机采样方法重采样技术,另一部分是决策树的集成机制。构建随机森林的过程就是训练各个决策树的过程,随机森林以K个决策树为基本分类器,各个决策树之间的训练是相互独立的,在使用随机森林对样本进行分类时,其分类结果是由每个决策树的分类结果简单投票决定,随机森林使用随机采样方法抽取K个训练样本集来构建相应的决策树,并采用特征子空间的方法来选择分裂节点。

根据图2,每次采集的数据集Si,构成单棵分类树Ti的训练集,在对决策树Ti每个节点进行分裂时,从样本全部特征中随机选取M个特征子集,每次分裂从特征子集中选择分裂能力最佳的特征作为分裂节点,直到使用过所有属性或训练集可以被准确分类,决策树Ti停止分裂。

实施例2:设置一种基于银行卡数据的电信诈骗识别方法,所述一种基于银行卡数据的电信诈骗识别方法包括PCA方法、决策树方法、随机森林算法。所述PCA方法,用于工程数据的统计分析,将数据从高维向量空间投影到低维空间,降维后数据的主要特征没有损失,更有利于分类器的处理,使用PCA方法可以有效提取大量信用卡交易中交易信息的主要特征,有助于分类器快速准确地捕捉异常交易。所述决策树方法,决策树是一种典型的单分类器,经过剪枝后形成随机森林的基分类器,决策树分类过程可分为三个步骤:首先,通过对样本进行递归操作生成一个倒立的树状结构,该树包括三种节点:根节点、中间节点和叶子节点;接下来,分析从根节点到叶子节点的路径,生成决策准则,而从根节点通过一系列中间节点到叶子节点的路径就是生成的决策准则;最后,根据决策准则进行分类或预测。所述随机森林算法,随机森林是一种组合分类器,主要分为两部分,一部分是随机采样方法重采样技术,另一部分是决策树的集成机制。构建随机森林的过程就是训练各个决策树的过程,随机森林以K个决策树为基本分类器,各个决策树之间的训练是相互独立的,在使用随机森林对样本进行分类时,其分类结果是由每个决策树的分类结果简单投票决定,随机森林使用随机采样方法抽取K个训练样本集来构建相应的决策树,并采用特征子空间的方法来选择分裂节点。

根据图3,设训练集S的样本数量为N,随机且有放回地从训练集中的抽取N个训练样本,作为决策树T

实施例3:设置一种基于银行卡数据的电信诈骗识别方法,所述一种基于银行卡数据的电信诈骗识别方法包括PCA方法、决策树方法、随机森林算法。所述PCA方法,用于工程数据的统计分析,将数据从高维向量空间投影到低维空间,降维后数据的主要特征没有损失,更有利于分类器的处理,使用PCA方法可以有效提取大量信用卡交易中交易信息的主要特征,有助于分类器快速准确地捕捉异常交易。所述决策树方法,决策树是一种典型的单分类器,经过剪枝后形成随机森林的基分类器,决策树分类过程可分为三个步骤:首先,通过对样本进行递归操作生成一个倒立的树状结构,该树包括三种节点:根节点、中间节点和叶子节点;接下来,分析从根节点到叶子节点的路径,生成决策准则,而从根节点通过一系列中间节点到叶子节点的路径就是生成的决策准则;最后,根据决策准则进行分类或预测。所述随机森林算法,随机森林是一种组合分类器,主要分为两部分,一部分是随机采样方法重采样技术,另一部分是决策树的集成机制。构建随机森林的过程就是训练各个决策树的过程,随机森林以K个决策树为基本分类器,各个决策树之间的训练是相互独立的,在使用随机森林对样本进行分类时,其分类结果是由每个决策树的分类结果简单投票决定,随机森林使用随机采样方法抽取K个训练样本集来构建相应的决策树,并采用特征子空间的方法来选择分裂节点。

根绝图4,基于随机森林的信用卡欺诈方法设计流程包括4个部分:数据预处理、特征提取、欺诈识别和模型评价。在对采集到的数据进行脱敏处理后,将其分为训练集和测试集;给训练集中的欺诈数据添加部分噪声,生成新的欺诈数据并加入到训练集中,解决训练集的不平衡问题;之后采用PCA方法分别对训练集和测试集进行特征提取,得到特征向量后,根据训练集特征数据使用随机森林算法构建分类器;将测试集特征数据导入随机森林分类器,对欺诈交易进行识别和分类;最后通过代价评估方法对分类结果进行评估,以确定欺诈检测方法的有效性。

实施例4:设置一种基于银行卡数据的电信诈骗识别方法,所述一种基于银行卡数据的电信诈骗识别方法包括PCA方法、决策树方法、随机森林算法。所述PCA方法,用于工程数据的统计分析,将数据从高维向量空间投影到低维空间,降维后数据的主要特征没有损失,更有利于分类器的处理,使用PCA方法可以有效提取大量信用卡交易中交易信息的主要特征,有助于分类器快速准确地捕捉异常交易。所述决策树方法,决策树是一种典型的单分类器,经过剪枝后形成随机森林的基分类器,决策树分类过程可分为三个步骤:首先,通过对样本进行递归操作生成一个倒立的树状结构,该树包括三种节点:根节点、中间节点和叶子节点;接下来,分析从根节点到叶子节点的路径,生成决策准则,而从根节点通过一系列中间节点到叶子节点的路径就是生成的决策准则;最后,根据决策准则进行分类或预测。所述随机森林算法,随机森林是一种组合分类器,主要分为两部分,一部分是随机采样方法重采样技术,另一部分是决策树的集成机制。构建随机森林的过程就是训练各个决策树的过程,随机森林以K个决策树为基本分类器,各个决策树之间的训练是相互独立的,在使用随机森林对样本进行分类时,其分类结果是由每个决策树的分类结果简单投票决定,随机森林使用随机采样方法抽取K个训练样本集来构建相应的决策树,并采用特征子空间的方法来选择分裂节点。

技术分类

06120116561118