一种欺诈团伙的发现方法及装置

文献发布时间：2023-06-19 09:47:53

技术领域

本公开涉及大数据技术领域，具体涉及一种欺诈团伙的发现方法及装置。

背景技术

团伙金融欺诈是指在金融活动中以非法占有为目的，违反金融法规，采用虚构事实或者隐瞒事实真相的方法进行诈骗，从而骗取公私财物或者金融机构信用、破坏金融管理秩序的行为。具有事件多发频发、风险传染性强、目标指向明确、社会危害性大等特征，危害程度明显高于恶意欠贷、多头借贷、伪冒欺诈等个人欺诈行为。面对日益严峻的团伙欺诈，金融机构需要利用大数据、云计算、人工智能等较前沿的技术，发现和识别欺诈团伙。

在金融风控领域，目前已有多种基于大数据技术的社群(社区、团伙)发现方法用于发现欺诈团伙。如果通过这些社群发现方法所发现的社群是一个真正的社群，或者说高质量的社群，社群应当具有以下结构特点：社群内边密度要高于社群间边密度；社群内部连接相对紧密；各个社群之间连接相对稀疏。在本公开中，所发现的社群的质量，主要使用平均度(平均度＝社群节点度之和/社群节点数)和稀疏比(稀疏比S＝2e/v(v-1)，其中e是社群的边的数量，v是社群节点数量)等评估指标衡量。

目前用于发现欺诈团伙的社群发现方法，例如LPA(标签传播)算法和louvain算法，所发现的社群的质量并不是很理想，有很大的提升空间。

发明内容

针对现有技术中的上述技术问题，本公开实施例提出了一种欺诈团伙的发现方法及装置，以解决现有技术中识别欺诈团伙的质量不高、极易判断错误的问题。

本公开实施例的第一方面提供了一种欺诈团伙的发现方法，包括：

查找图谱中所有K-派系，其中,K为大于2的自然数；

根据所述K-派系构建关联社区矩阵；

处理所述关联社区矩阵，获取关联社区；

在所述关联社区中识别欺诈团伙。

在一些实施例中，所述关联社区矩阵具体为对称矩阵，每一行/列表示一个派系；所述关联社区矩阵中的对角线元素代表派系的规模，非对角线元素代表两个连通派系中共享结点的数目。

在一些实施例中，处理所述关联社区矩阵具体包括：若所述对角线元素的值小于K，则置0；若非对角线的值小于K-1，则置0，剩余元素置1。

在一些实施例中，所述方法还包括：对所述关联社区矩阵中每一行非0部分对应的所述K-派系合并，获取关联社区。

在一些实施例中，在所述关联社区中识别欺诈团伙具体包括：若一个关联社区是其余任一关联社区的子图，则过滤掉为子图的关联社区，剩余的关联社区被识别为欺诈团伙。

在一些实施例中，所述图谱是基于用户属性构造而成；其中，所述用户属性包括：身份信息、手机号码和/或手机IMEI码中的一个或多个。

在一些实施例中，所述方法还包括：确定完全子图，根据所述完全子图在所述图谱中查找所有K-派系。

本公开实施例的第二方面提供了一种识别欺诈团伙的装置，包括：

查找模块，用于查找图谱中所有K-派系，其中,K为大于2的自然数；

构建矩阵模块，用于根据所述K-派系构建关联社区矩阵；

处理模块，用于处理所述关联社区矩阵，获取关联社区；

识别模块，用于在所述关联社区中识别欺诈团伙。

在一些实施例中，所述识别模块，具体用于若一个关联社区是其余任一关联社区的子图，则过滤掉为子图的关联社区，剩余的关联社区被识别为欺诈团伙。

本公开实施例的第三方面提供了一种电子设备，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如前述各实施例所述的方法。

本公开实施例的第五方面提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，可用来实现如前述各实施例所述的方法。

本公开实施例中，通过查找图谱中所有K-派系，并且根据K-派系构建关联社区矩阵，进而获取关联社区，最终在关联社区中识别欺诈团伙；有效过滤无效或非欺诈团伙，大大提高了欺诈团伙的识别度和识别效率，提升欺诈团伙的识别质量，节省了时间和精力。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点，附图是示意性的而不应理解为对本公开进行任何限制，在附图中：

图1是根据本公开的一些实施例所示的一种欺诈团伙的发现方法流程图；

图2是根据本公开的一些实施例所示的图谱示意图；

图3是根据本公开的一些实施例所示的关联社区矩阵的示意图；

图4是根据本公开的一些实施例所示的将关联社区矩阵0-1化的示意图；

图5是根据本公开的一些实施例所示的关联社区的示意图；

图6是根据本公开的一些实施例所示的欺诈团伙的示意图；

图7是根据本公开的一些实施例所示的一种欺诈团伙的发现装置结构框图；

图8是根据本公开的一些实施例所示的一种电子设备的结构示意图。

具体实施方式

在下面的详细描述中，通过示例阐述了本公开的许多具体细节，以便提供对相关披露的透彻理解。然而，对于本领域的普通技术人员来讲，本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是，本公开中使用“系统”、“装置”、“单元”和/或“模块”术语，是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而，如果其他表达式可以实现相同的目的，这些术语可以被其他表达式替换。

应当理解的是，当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时，其可以直接在另一设备、单元或模块上，连接或耦合到或与其他设备、单元或模块通信，或者可以存在中间设备、单元或模块，除非上下文明确提示例外情形。例如，本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例，而非限制本公开范围。如本公开说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件，而该类表述并不构成一个排它性的罗列，其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图，本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本公开的保护范围。可以理解的是，附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是，前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

随着大数据和人工智能技术的发展，尤其是认知智能技术在近年来的突破，基于关系型数据库的知识图谱技术已经可以在很多应用领域中为用户提供更为专业更加精准的智能分析服务。典型地，利用知识图谱可以为多种基于关系来识别信息的人工智能模型提供支持，比如个性化推荐、关联信息搜索、地图数据处理、社交图谱服务、专业知识库、用户身份验证或互联网金融等应用中均可利用知识图谱来进行优化。

目前用于发现欺诈团伙的社群发现方法，例如LPA(标签传播)算法和louvain算法，所发现的社群的质量并不是很理想，有很大的提升空间。

为解决上述问题，本公开实施例提供了一种欺诈团伙的发现方法，通过采用派系过滤CPM(Clique Percolation Method)方法用于发现关联社区，其中，派系(clique)是任意两点都相连的顶点的集合，即完全子图。

在社区内部节点之间连接密切，边密度高，容易形成派系(clique)。因此，社区内部的边有较大可能形成大的完全子图，而社区之间的边却几乎不可能形成较大的完全子图，从而可以通过找出图谱中的派系来发现社区。

K-派系表示图谱中含有k个节点的完全子图，如果一个K-派系与另一个K-派系有k-1个节点重叠，则这两个K-派系是关联/连通的，由所有彼此连通的K-派系构成的集合就是一个K-派系。

相应地，图谱中会存在一些节点同时属于多个K-派系，但是它们所属的这些K-派系可能不相邻，它们所属的多个K-派系之间公共的节点数不足k-1个。这些节点同属的多个K-派系但不是相互连通的，导致这几个K-派系不属于同一个K-派系，因此这些节点最终可以属于多个不同的社区，从而发现社区的关联结构。

如图1所示，一种欺诈团伙的发现方法，具体包括：

S101、查找图谱中所有K-派系，其中,K为大于2的自然数；

S102、根据所述K-派系构建关联社区矩阵；

S103、处理所述关联社区矩阵，获取关联社区；

S104、在所述关联社区中识别欺诈团伙。

在一些实施例中，所述图谱是基于用户属性构造而成的，具体如图2所示，依据用户属性构造一个包含9个节点的异构图；其中，所述用户属性包括：身份信息、手机号码和/或手机IMEI码中的一个或多个。

在一些实施例中，所述方法还包括：确定完全子图，根据所述完全子图在所述图谱中查找所有K-派系。

在本公开实施例中，由于k是个输入参数值，从而k的取值将会影响最终的识别结果，一般k值为3到6。

进一步地，矩阵的第i(i为非0自然数，下同)行第j(j为非0自然数，下同)列表示第i个派系和第j个派系的公共节点数量，比如派系1的节点为{1,2,3,4,5}，派系2的节点为{2,3,5,7,9}，则这两个派系的公共节点为{2,3,5}，数量为3。

在一些实施例中，处理所述关联社区矩阵具体包括：若所述对角线元素的值小于K，则置0；若非对角线的值小于K-1，则置0，剩余元素置1。

在一些实施例中，所述方法还包括：对所述关联社区矩阵中每一行非0部分对应的所述K-派系合并，获取关联社区。

在一具体实施例中，取k＝3，提取所有的3-派系，分别为a＝(1,2,3),b＝(3,6,8),c＝(6,7,8),d＝(5,6,7),e＝(3,4,8)共5个。

进一步地，依据上述的3-派系构建了一关联社区矩阵，如图3所示。其中，a、b、c、d、e构成5X5的矩阵X，下标分别为1、2、3、4、5；a和b的公共节点为{3},则关联社区矩阵X[1][2]＝1,对角线为自身与自身比较,是该派系节点数量，比如X[1][1]＝3，依次类推，完成关联社区矩阵构造。

进一步地，将所述关联社区矩阵0-1化，对角线小于K＝3的置0，非对角线小于K-1＝2的置0，其余置1，如图4所示。

进一步地，对0-1化关联社区矩阵的每一行非0部分对应的3-派系进行合并，如图5所示，共得到5个关联社区，分别为c1＝(1,2,3)、c2＝(3,4,6,7,8)，c3＝(3,5,6,7,8)，c4＝(5,6,7,8)，c5＝(3,4,6,8)。

进一步地，过滤子图，其中c4是c3的子图，c5是c2的子图，过滤掉c4、c5；最终如图6所示，从左到右得到的c1、c2、c3三个欺诈团伙。

本公开实施例中，通过查找图谱中所有K-派系，并且根据K-派系构建关联社区矩阵，进而获取关联社区，最终在关联社区中识别欺诈团伙；有效过滤无效或非欺诈团伙，大大提高了欺诈团伙的识别度和识别效率，节省了时间和精力。

本公开实施例公开的发现欺诈团伙的方案与传统的LPA、Louvain效果比较如表1所示。根据表1不难发现，本方案发现的社区在节点数6-300之间的社区的平均度和稀疏比均大于LPA和louvain方法，社区质量远高于传统方法。

表1

由此可知，本公开实施例公开的方法，能有效过滤无效或非欺诈团伙，大大提高了欺诈团伙的识别度和识别效率，提升欺诈团伙的识别质量，节省了时间和精力。

本公开实施例还公开了一种识别欺诈团伙的装置700，如图7所示，包括：

查找模块701，用于查找图谱中所有K-派系，其中,K为大于2的自然数；

构建矩阵模块702，用于根据所述K-派系构建关联社区矩阵；

处理模块703，用于处理所述关联社区矩阵，获取关联社区；

识别模块704，用于在所述关联社区中识别欺诈团伙。

在一些实施例中，所述识别模块704，具体用于若一个关联社区是其余任一关联社区的子图，则过滤掉为子图的关联社区，剩余的关联社区被识别为欺诈团伙。

参考附图8，为本申请一个实施例提供的电子设备示意图。如图8所示，该电子设备800包括：

存储器830以及一个或多个处理器810；

其中，所述存储器830与所述一个或多个处理器810通信连接，所述存储器830中存储有可被所述一个或多个处理器执行的指令832，所述指令832被所述一个或多个处理器810执行，以使所述一个或多个处理器810执行本申请前述实施例中的方法。

具体地，处理器810和存储器830可以通过总线或者其他方式连接，图8中以通过总线840连接为例。处理器810可以为中央处理器(Central Processing Unit，CPU)。处理器810还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器830作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的级联渐进网络等。处理器810通过运行存储在存储器830中的非暂态软件程序、指令以及模块832，从而执行处理器的各种功能应用以及数据处理。

存储器830可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器810所创建的数据等。此外，存储器830可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器830可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络(比如通过通信接口820)连接至处理器810。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请的一个实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被执行后执行本申请前述实施例中的方法。

前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括，但不限于，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的，但本领域技术人员可以认识到，还可结合其他类型的程序模块来执行其他实现。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解，此处所述的本主题可以使用其他计算机系统配置来实践，包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等，也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备的两者中。

本领域普通技术人员可以意识到，结合本文中所本申请的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

综上所述，本公开提出了一种欺诈团伙的发现方法、装置、电子设备及其计算机可读存储介质。通过查找图谱中所有K-派系，并且根据K-派系构建关联社区矩阵，进而获取关联社区，最终在关联社区中识别欺诈团伙；有效过滤无效或非欺诈团伙，大大提高了欺诈团伙的识别度和识别效率，提升欺诈团伙的识别质量，节省了时间和精力。

应当理解的是，本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理，而不构成对本公开的限制。因此，在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。此外，本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：不公告发明人;
专利申请人：拉卡拉支付股份有限公司;

上一篇：一种基于SPR原理的相对介电常数测量系统
下一篇：一种瓜果蔬菜保鲜方法