掌桥专利:专业的专利平台
掌桥专利
首页

一种欺诈社群的识别方法及装置

文献发布时间:2023-06-19 09:44:49


一种欺诈社群的识别方法及装置

技术领域

本公开涉及大数据技术领域,具体涉及一种欺诈社群的识别方法及装置。

背景技术

团伙欺诈是指在金融活动中以非法占有为目的,违反金融法规,采用虚构事实或者隐瞒事实真相的方法进行诈骗,从而骗取公私财物或者金融机构信用、破坏金融管理秩序的行为。具有事件多发频发、风险传染性强、目标指向明确、社会危害性大等特征,危害程度明显高于恶意欠贷、多头借贷、伪冒欺诈等个人欺诈行为。面对日益严峻的团伙欺诈,金融机构亟需一种能够在欺诈发生之前就有效识别欺诈团伙的方法。

现有技术中,有许多可以识别社群(或叫团体)的方法,通常是在大规模图数据的情况下,发现的社群可能数百万记。如何从海量的数据发现可疑的团伙目标,是需要解决的问题。目前识别可疑团伙主要依靠业务经验定义指标,比如订单通过率=社群中订单通过数量/社群中订单申请总量,欺诈比=社群中欺诈节点数量/节点总数,该类指标主要通过已经定性的节点属性判断团伙的属性,但对新形成的社群(即对大部分节点属性不确定的情况下)很难判定团伙属性的。

一般地,欺诈团伙的识别方法通常基于庞大的数据,本质上属于预测分析,但与传统的基于事物之间的因果关系的预测分析不同,这种基于大数据的预测分析是通过事物之间的相关关系进行分析,相关关系分析的核心是量化两个数据之间的数理关系,当其中一个数据值增加的时候,另一个数据的数值也可能随之增加,因此可以由一个数据的变化推导出另一个数据变化的结果,而不必要去关心结果产生的原因。

基于大数据的欺诈团伙识别方法,一般是通过特定的算法,基于若干特定的团伙特征,对某个社群进行评分,如果该评分超过阈值,则认为该社群是欺诈社群,反之则为非欺诈社群。其中,团伙特征一般包括:(1)和网络结构相关的团伙拓扑特征,例如团伙中节点的数量、平均自由度、团伙中节点间最长的最短路径等;(2)和个体信息相关的团伙实体特征,例如男女比例、最大年龄差、平均年龄、社群总资产、社群总负债等。

由于所采用的算法不同、所基于的团伙特征不同,不同的欺诈团伙识别方法的预测能力往往是不同的。一种现有的欺诈团伙识别方法是根据社群的欺诈比,欺诈比即种子节点(欺诈用户、中介用户等)占社群节点的比例,该指标属于团伙实体特征,表示种子节点在社群分布的广度。另一种现有的欺诈团伙识别方法是根据社群的稀疏比,也属于团伙拓扑特征,表示整个社群中节点之间紧密程度。但以上两种欺诈团伙识别方法的预测能力都不是很理想。

发明内容

针对现有技术中的上述技术问题,本公开实施例提出了一种欺诈团伙的识别方法及装置,以解决现有技术中欺诈团伙预测能力不理想的问题。

本公开实施例的第一方面提供了一种欺诈团伙的识别方法,包括:

发现社群;

计算所述社群中的种子节点占比;

计算所述社群中的种子节点度占比;

计算所述社群的稀疏比;

根据所述种子节点占比、所述种子节点度占比和所述稀疏比计算所述社群的评分;

当所述社群的评分超过预设阈值,识别所述社群为欺诈团伙。

在一些实施例中,所述发现社群包括:

定义种子节点;

根据预设算法发现包括所述种子节点在内的社群。

在一些实施例中,所述种子节点占比=种子节点数量/总节点数量;

所述种子节点度占比=种子节点出入度之和/所有节点出入度之和;

所述稀疏比=2e/v(v-1),其中e是所述社群的边的总数量,v是所述社群的节点的总数量。

在一些实施例中,所述计算所述社群的评分具体包括:

所述评分=alpha*C+alpha*D+(1-2*alpha)*S,

其中C是所述种子节点占比,D是所述种子节点度占比,S是所述稀疏比,系数alpha的取值范围为0≤alpha≤0.5。

本公开实施例的第二方面提供了一种欺诈团伙的识别装置,包括:

发现模块,用于发现社群;

计算模块,用于依次计算所述社群中的种子节点占比、种子节点度占比和种子节点度占比;还用于,根据所述种子节点占比、所述种子节点度占比和所述稀疏比计算所述社群的评分;

识别模块,用于当所述社群的评分超过预设阈值,识别所述社群为欺诈团伙。

在一些实施例中,所述发现模块,具体包括:定义种子节点;根据预设算法发现包括所述种子节点在内的社群。

在一些实施例中,所述种子节点占比=种子节点数量/总节点数量的;

所述种子节点度占比=种子节点出入度之和/所有节点出入度之和;

所述稀疏比=2e/v(v-1),其中e是社群的边的总数量,v是社群的节点的总数量。

在一些实施例中,所述计算所述社群的评分具体包括:

所述评分=alpha*C+alpha*D+(1-2*alpha)*S,

其中C是所述种子节点占比,D是所述种子节点度占比,S是所述稀疏比,系数alpha的取值范围为0≤alpha≤0.5。

本公开实施例的第三方面提供了一种电子设备,包括:

存储器以及一个或多个处理器;

其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。

本公开实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。

本公开实施例中,种子节点占比、种子节点度占比和稀疏比分别代表了社群中种子节点的广度、关键程度以及整个社群的紧密程度,其中,种子节点占比属于团伙实体特征,种子节点度占比既属于团伙实体特征也属于团伙拓扑特征,稀疏比属于团伙拓扑特征,本公开通过结合以上团伙实体特征和团伙拓扑特征进行综合评分,显著提高欺诈团伙的预测能力。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:

图1是根据本公开的一些实施例所示的一种欺诈社群的识别方法流程图;

图2是根据本公开的一些实施例所示的不同加权系数对评分影响的比较示意图;

图3是根据本公开的一些实施例所示的评分分布比较示意图;

图4是根据本公开的一些实施例所示的社群示意图;

图5是根据本公开的一些实施例所示的一种欺诈社群的识别装置结构框图;

图6是根据本公开的一些实施例所示的一种电子设备的结构示意图。

具体实施方式

在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。

应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

随着大数据和人工智能技术的发展,尤其是认知智能技术在近年来的突破,基于关系型数据库的知识图谱技术已经可以在很多应用领域中为用户提供更为专业更加精准的智能分析服务。典型地,利用知识图谱可以为多种基于关系来识别信息的人工智能模型提供支持,比如个性化推荐、关联信息搜索、地图数据处理、社交图谱服务、专业知识库、用户身份验证或互联网金融等应用中均可利用知识图谱来进行优化。

在金融风控领域,基于图谱数据的发现和识别欺诈团伙应用得越来越广泛。团伙欺诈是指在金融活动中以非法占有为目的,违反金融法规,采用虚构事实或者隐瞒事实真相的方法进行诈骗,从而骗取公私财物或者金融机构信用、破坏金融管理秩序的行为。具有事件多发频发、风险传染性强、目标指向明确、社会危害性大等特征,危害程度明显高于恶意欠贷、多头借贷、伪冒欺诈等个人欺诈行为。面对日益严峻的团伙欺诈,金融机构亟需一种能够在欺诈发生之前就有效识别欺诈团伙的方法。

现有技术中,有许多可以识别社群(或叫团体)的方法,通常是在大规模图数据的情况下,发现的社群可能数百万记。如何从海量的数据发现可疑的团伙目标,是需要解决的问题。目前识别可疑团伙主要依靠业务经验定义指标,比如订单通过率=社群中订单通过数量/社群中订单申请总量,欺诈比=社群中欺诈节点数量/节点总数,该类指标主要通过已经定性的节点属性判断团伙的属性,但对新形成的社群(即对大部分节点属性不确定的情况下)很难判定团伙属性的。

一般地,欺诈团伙的识别方法通常基于庞大的数据(大数据),本质上属于预测分析,但与传统的基于事物之间的因果关系的预测分析不同,这种基于大数据的预测分析是通过事物之间的相关关系进行分析,相关关系分析的核心是量化两个数据之间的数理关系,当其中一个数据值增加的时候,另一个数据的数值也可能随之增加,因此可以由一个数据的变化推导出另一个数据变化的结果,而不必要去关心结果产生的原因。

基于大数据的欺诈团伙识别方法,一般是通过特定的算法,基于若干特定的团伙特征,对某个社群进行评分,如果该评分超过阈值,则认为该社群是欺诈社群,反之则为非欺诈社群。其中,团伙特征一般包括:(1)和网络结构相关的团伙拓扑特征,例如团伙中节点的数量、平均自由度、团伙中节点间最长的最短路径等;(2)和个体信息相关的团伙实体特征,例如男女比例、最大年龄差、平均年龄、社群总资产、社群总负债等。

由于所采用的算法不同、所基于的团伙特征不同,不同的欺诈团伙识别方法的预测能力往往是不同的。一种现有的欺诈团伙识别方法是根据社群的欺诈比,欺诈比即种子节点(欺诈用户、中介用户等)占社群节点的比例,该指标属于团伙实体特征,表示种子节点在社群分布的广度。另一种现有的欺诈团伙识别方法是根据社群的稀疏比,也属于团伙拓扑特征,表示整个社群中节点之间紧密程度。但以上两种欺诈团伙识别方法的预测能力都不是很理想。

在本公开中,欺诈团伙识别方法的预测能力使用召回率和准确率来衡量,其中,召回率=正确预测欺诈社群数量/(正确预测欺诈社群数量+将欺诈社群预测为非欺诈社群数量),准确率=正确预测欺诈社群数量/(正确预测欺诈社群数量+将非欺诈社群预测为欺诈社群数量)。具体的,首先将某一时间段内形成的社群,按照不同的阈值(比如从0.01,0.02…到1的100个阈值)分别计算召回率和准确率,形成准确率-召回率曲线,二者交叉点为最佳阈值;然后,将另一时间段内形成的社群,按照上述最佳阈值计算召回率和准确率。如果所形成的准确率-召回率曲线分布稳定,且最佳阈值时的召回率和准确率都较高,则判断该欺诈团伙识别方法的预测能力较高;如果所形成的准确率-召回率曲线分布稳定,但最佳阈值时的召回率和准确率都较低,则判断该欺诈团伙识别方法的预测能力较低;如果所形成的准确率-召回率曲线有严重的偏态分布,最佳阈值时的召回率和准确率相差较大,则判断该欺诈团伙识别方法的预测能力较低。

进一步地,本公开实施例提供了一种欺诈团伙的识别方法,如图1所示,具体包括:

S101、发现社群;

S102、计算所述社群中的种子节点占比;

S103、计算所述社群中的种子节点度占比;

S104、计算所述社群的稀疏比;

S105、根据所述种子节点占比、所述种子节点度占比和所述稀疏比计算所述社群的评分;

S106、当所述社群的评分超过预设阈值,识别所述社群为欺诈团伙。

在一些实施例中,所述发现社群具体包括:定义种子节点;根据预设算法发现包括所述种子节点在内的社群。

在一些实施例中,所述方法还包括:根据用户属性创建所述图谱,在所述图谱中发现社群。

在一些实施例中,所述种子节点为根据用户类型自定义的节点类型;需要说明的是,本公开的自定义的类型不同于传统意义上的“好坏”标签,是需要根据经验和专家知识来进行定义的。例如,种子节点可以是欺诈用户、中介用户等。

在一些实施例中,种子节点占比(C)又称为欺诈比,代表种子节点在社群分布的广度。

具体地,所述种子节点占比=种子节点数量/总节点数量。

在一些实施例中,种子节点度占比(D)又称为欺诈度,用来衡量种子节点在社群中关键程度,值越大,表明联系越广泛。

具体地,所述种子节点度占比=种子节点出入度之和/所有节点出入度之和。

更具体地,节点的出入度(degree)是指该节点的相邻节点的数量,例如图3中的节点1相邻的节点有2、3、5、9,则节点1的出入度为4,整个社群网络的度为所有节点的出入度之和。

在一些实施例中,所述稀疏比值(S)是社群边的数量与社群节点数量按照预设规则计算得到的。

具体地,计算每个社群的稀疏比(S)的预设计算规则为:S=2e/v(v-1),其中,e是社群的边的数量,v是社群节点数量。其中,稀疏比S是介于0-1之间的值,值越大,表明节点之间联系越广泛,用来衡量整个社群中节点之间紧密程度。

在一些实施例中,所述计算所述社群的评分具体包括:

所述评分=alpha*C+alpha*D+(1-2*alpha)*S,

其中C是所述种子节点占比,D是所述种子节点度占比,S是所述稀疏比,系数alpha的取值范围为0≤alpha≤0.5。

由此可见,社群评分值是由上述的三个指标进行加权求和得到的,最终得分隐含了种子节点的广度、关键程度以及整个社群的紧密程度。

具体地,本公式的中的系数alpha是根据实践验证设计的,可根据业务实际情况取值,即可依据对社群评估的侧重点不同而设置大小,一般取0.25;如果加权系数alpha被设置的较大,则对历史社群有较高的召回率;如果加权系数alpha被设置的较小,则对新社群有较好的预测能力。图2是不同的加权系数alpha对应的评分比较。

在一些实施例中,所述方法还包括:设置一阈值,将所述社群的评分与所述阈值比较,根据比较结果确定社群性质,即是否是欺诈团伙。

具体地,如果所述社群的评分大于所述阈值则认为该社群有较高的欺诈嫌疑,该社区被认定为欺诈团伙。

优选地,score一般取值为0.4。

在一些实施例中,如图3所示,本专利所述社群的评分与欺诈比、稀疏比进行比较,在各自最佳划分阈值比较情况如下:

(1)欺诈比:历史召回率70%,未来预测准确率3%,严重的偏态分布,非常弱的预测能力;

(2)稀疏比:历史召回率20%,未来预测准确率15%,历史未来变化不大;

(3)本专利社群的评分:历史召回率65%,未来预测准确率61%,由此可见具有非常高的预测能力。

本公开实施例还提供了一评估示例。如图4所示,为分解图谱得到的一个社群示例。该社群有10个节点和17条边,种子节点有5个,分别为1、2、6、8、10;对应的出入度分别为4、3、4、6、1。

其中:

欺诈比S=5/10=0.5

欺诈度D=(4+3+4+6+1)/34=18/34=0.52

稀疏比S=2e/v(v-1)=2*17/(10*(10-1))=0.3777778

取alpha=0.25,社群评分值

Score=alpha*C+alpha*D+(1-2*alpha)*S

=0.25*0.5+0.25*0.52+(1-2*0.25)*0.3777778

=0.4438889

如果给定阈值为0.4,那么该社群则判定为欺诈嫌疑团伙。

本公开实施例中,根据计算得到的每个社群的种子节点占比值、种子节点度占比及稀疏比值得到社群评分值,将图谱与种子节点结合进行综合评分;不仅对历史可疑团伙具有较强的召回能力,同时对于新形成的社群有较强的识别能力,大大提高了对欺诈团伙等不良社群的识别效率,节省时间和精力;而且社群评分值在考虑了种子节点的在分布广度和重要程度的同时,还考虑了整个社群的紧密程度,结果更准确。

本公开实施例还公开了一种欺诈社群的识别装置500,具体如图5所示包括:

发现模块501,用于发现社群;

计算模块502,用于依次计算所述社群中的种子节点占比、种子节点度占比和种子节点度占比;还用于,根据所述种子节点占比、所述种子节点度占比和所述稀疏比计算所述社群的评分;

识别模块503,用于当所述社群的评分超过预设阈值,识别所述社群为欺诈团伙。

在一些实施例中,所述发现模块,具体包括:定义种子节点;根据预设算法发现包括所述种子节点在内的社群。

在一些实施例中,所述种子节点占比=种子节点数量/总节点数量的;

所述种子节点度占比=种子节点出入度之和/所有节点出入度之和;

所述稀疏比=2e/v(v-1),其中e是社群的边的总数量,v是社群的节点的总数量。

在一些实施例中,所述计算所述社群的评分具体包括:

所述评分=alpha*C+alpha*D+(1-2*alpha)*S,

其中C是所述种子节点占比,D是所述种子节点度占比,S是所述稀疏比,系数alpha的取值范围为0≤alpha≤0.5。

在一些实施例中,所述系数依据对所述社群评估的侧重点不同而设置大小。

参考附图6,为本申请一个实施例提供的电子设备示意图。如图6所示,该电子设备600包括:

存储器630以及一个或多个处理器610;

其中,所述存储器630与所述一个或多个处理器610通信连接,所述存储器630中存储有可被所述一个或多个处理器执行的指令632,所述指令632被所述一个或多个处理器610执行,以使所述一个或多个处理器610执行本申请前述实施例中的方法。

具体地,处理器610和存储器630可以通过总线或者其他方式连接,图6中以通过总线640连接为例。处理器610可以为中央处理器(Central Processing Unit,CPU)。处理器610还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器630作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的级联渐进网络等。处理器610通过运行存储在存储器630中的非暂态软件程序、指令以及模块632,从而执行处理器的各种功能应用以及数据处理。

存储器630可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器610所创建的数据等。此外,存储器630可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器630可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络(比如通过通信接口620)连接至处理器610。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请的一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行本申请前述实施例中的方法。

前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括,但不限于,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。

本领域普通技术人员可以意识到,结合本文中所本申请的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

综上所述,本公开提出了一种欺诈团伙的识别方法、装置、电子设备及其计算机可读存储介质。种子节点占比、种子节点度占比和稀疏比分别代表了社群中种子节点的广度、关键程度以及整个社群的紧密程度,其中,种子节点占比属于团伙实体特征,种子节点度占比既属于团伙实体特征也属于团伙拓扑特征,稀疏比属于团伙拓扑特征,本公开通过结合以上团伙实体特征和团伙拓扑特征进行综合评分,不仅对历史可疑团伙具有较强的召回能力,同时对于新形成的社群有较强的识别能力,大大提高了对欺诈团伙等不良社群的识别效率,显著提高欺诈团伙的预测能力,节省时间和精力;而且社群评分值在考虑了种子节点的在分布广度和重要程度的同时,还考虑了整个社群的紧密程度,结果更准确。

应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

相关技术
  • 一种欺诈社群的识别方法及装置
  • 一种欺诈识别模型训练方法、欺诈识别方法及装置
技术分类

06120112282151