掌桥专利:专业的专利平台
掌桥专利
首页

检测异常账户的方法和装置

文献发布时间:2024-04-18 19:59:31


检测异常账户的方法和装置

技术领域

本说明书的一个或多个实施例涉及计算机领域,尤其涉及检测异常账户的方法和装置。

背景技术

在金融、风控及社交网络上,团伙挖掘是重要且备受关注的问题。团伙挖掘即挖掘异常团伙,异常团伙中的成员共同实现预设风险行为。例如,涉及资金的一些风险行为,使得财产安全受到威胁。利用算法去智能化地挖掘异常团伙,可以显著地节省人力物力成本。

挖掘异常团伙的核心是检测或判别异常团伙实体,也就是检测异常账户,异常账户对应的实体属于共同实现预设风险行为的团伙中的成员。在大规模知识图谱数据上,以图神经网络为代表的表示学习类方法是主流的图学习方法,现有技术中常常利用图神经网络检测异常账户。然而,图神经网络对数据量要求较高,同时,可能涉及用户的隐私数据。实际应用中通常对异常节点进行打标的人工成本较高,因此业务中往往不具有大量的数据标签,从而使得检测异常账户的准确率较低。

发明内容

本说明书一个或多个实施例描述了一种检测异常账户的方法和装置,能够提升检测异常账户的准确率。

第一方面,提供了一种检测异常账户的方法,方法包括:

从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;

将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;

获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;

将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。

在一种可能的实施方式中,所述图神经网络模型采用如下的训练方式:

利用图神经网络模型,确定第一节点和第二节点分别对应的第一表征向量和第二表征向量;

基于所述第一表征向量和所述第二表征向量,得到第一节点和第二节点之间是否存在连接边的链接预测结果;

根据所述链接预测结果是否符合所述目标图谱中第一节点和第二节点之间关于连接边的实际情况,对所述图神经网络模型进行训练。

在一种可能的实施方式中,所述节点特征包括如下至少一项子特征:

用于标识节点重要性的第一子特征;

用于标识是否属于稠密子图的第二子特征;

用于标识预设跳数的邻居节点数目的第三子特征。

在一种可能的实施方式中,所述关系特征包括如下至少一项子特征:

用于标识其邻居节点之间的连接边的数目的第四子特征;

用于标识包括所述目标节点在内的两个中心节点之间相关性的第五子特征;

用于标识所述目标节点周围的三角稠密度的第六子特征,所述第六子特征基于包括所述目标节点在内的三个中心节点的度而确定。

进一步地,所述两个中心节点具有共同的多个邻居节点;

所述第五子特征采用如下的确定方式:

针对任一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第一向量;

针对另一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第二向量;

将第一向量和第二向量之间的相似度作为所述第五子特征。

进一步地,所述多个邻居节点中一个邻居节点对该中心节点的贡献值采用如下的确定方式:

确定该邻居节点与该中心节点之间的连接边的权重;

确定该中心节点的度的第一数值和该邻居节点的度的第二数值;

确定两个中心节点共同的邻居节点的数目;

基于所述权重、所述第一数值、所述第二数值和所述数目进行预设运算,得到所述贡献值。

进一步地,所述三个中心节点及连接边构成三角形;

所述第六子特征采用如下的确定方式:

针对任一中心节点确定该中心节点的度的第三数值;

确定另外两个中心节点分别具有的邻居节点的并集具有的节点数;

基于所述目标节点为顶点的三角形的数目、所述第三数值和所述节点数进行预设运算,得到所述第六子特征。

在一种可能的实施方式中,所述分类模型采用有监督的训练方式。

在一种可能的实施方式中,所述分类模型为决策树模型。

在一种可能的实施方式中,所述目标图谱为,交易关系图,或交易领域的知识图谱。

第二方面,提供了一种检测异常账户的装置,装置包括:

子图提取单元,用于从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;

节点表征单元,用于将所述子图提取单元提取的目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;

结构表征单元,用于获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;

团伙检测单元,用于将所述节点表征单元得到的节点表征向量和所述结构表征单元获取的特征值输入预先训练的分类模型,得到所述目标账户是否属于异常账户的检测结果。

第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。

第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。

通过本说明书实施例提供的方法和装置,首先从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;然后将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;接着获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;最后将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。由上可见,本说明书实施例检测异常账户,实质上是进行团伙挖掘。节点的图结构特征能够捕捉和描述异常账户对应的节点与其他节点的聚集和联动行为,将其和节点表征向量共同作为分类模型的输入,有助于对团伙实体的判别,从而提升检测异常账户的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图;

图2示出根据一个实施例的检测异常账户的方法流程图;

图3示出根据一个实施例的归一化相关度的计算场景示意图;

图4示出根据一个实施例的归一化三角系数的计算场景示意图;

图5示出根据一个实施例的系统框架示意图;

图6示出根据一个实施例的检测异常账户的装置的示意性框图。

具体实施方式

下面结合附图,对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及检测异常账户,异常账户对应的实体属于共同实现预设风险行为的团伙中的成员。参照图1,示出了知识图谱中的一个异常子图。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点可以表示实体或概念,边则代表节点之间的关系。其中,节点可以与账户相对应。团伙挖掘:检测大规模异质图谱中的异常节点、关系或子图,一个异常子图对应一个团伙。图结构特征:描述图数据拓扑结构的特征。相较于检测单个异常节点,团伙挖掘任务中需要更好地捕捉异常主体的团伙特性,即节点聚类为一定规模且具有某些联系。图结构特征对于检测异常账户是至关重要的特征,捕捉和描述异常节点聚集和联动行为对团伙挖掘是必要的。

表示学习:将研究对象的语义信息表达为低维稠密向量,该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题。

在大规模知识图谱数据上,以图神经网络为代表的表示学习类方法是主流的图学习方法。然而,图神经网络对节点属性特征有较强的拟合能力却对图结构特征学习可能不够充分,同时图神经网络在训练时对数据量要求较高,因此本说明书实施例引入了启发式方法作为表示学习的补充,能够减少对训练数据的需求,并达到较好的团伙挖掘效果。

启发式方法:基于直观或经验构造的算法,参数通常由人为设置而不是从数据中学习得到。

本说明书实施例,针对检测异常账户所针对的预设风险行为的不同,可以设置不同的图结构特征。以图1为例,该异常子图对应于异常转账行为,其图结构特征可以包括两跳度,两跳度可以用于标识目标节点的跳数为2的邻居节点数目,例如,图1中,用圆来代表节点,若标识了数字1的节点为目标节点,则该目标节点的两跳度为28,这个两跳度能够反映出异常转账行为的团伙联动的特点。

需要说明的是,图结构特征的含义广泛,可以但不限于包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性。

图2示出根据一个实施例的检测异常账户的方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中检测异常账户的方法包括以下步骤:步骤21,从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;步骤22,将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;步骤23,获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;步骤24,将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。下面描述以上各个步骤的具体执行方式。

首先在步骤21,从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图。可以理解的是,可以采用通常的提取子图的方式,例如,提取目标节点和其之间的跳数为1的邻居节点构成目标子图,或者,提取目标节点和其之间的跳数为1或2的邻居节点构成目标子图。

本说明书实施例,提取目标子图,不仅意味着提取目标子图包括的节点和连接边,还意味着提取节点属性以及连接边的边属性。

在一个示例中,所述目标图谱为,交易关系图,或交易领域的知识图谱。

该示例中,具有交易关系的两个节点之间具有连接边,该方法可以从目标图谱中识别具有交易风险的异常节点,上述交易风险可以导致资金损失或者违反法律法规等。

然后在步骤22,将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量。可以理解的是,节点表征向量可以反映出目标子图中各个节点的节点属性和/或连接边的边属性。

其中,图神经网络模型(graph neural networks,GNN)可以但不限于采用GeniePath等。

在一个示例中,所述图神经网络模型采用如下的训练方式:

利用图神经网络模型,确定第一节点和第二节点分别对应的第一表征向量和第二表征向量;

基于所述第一表征向量和所述第二表征向量,得到第一节点和第二节点之间是否存在连接边的链接预测结果;

根据所述链接预测结果是否符合所述目标图谱中第一节点和第二节点之间关于连接边的实际情况,对所述图神经网络模型进行训练。

该示例中,将链接预测作为代理子任务进行自监督的图表征学习,避免了人工标注数据不足的问题。

接着在步骤23,获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性。可以理解的是,对于团伙挖掘任务来说,团伙成员之间的联系和互动反映了其形成何种性质或形式的团伙,因此图结构特征至关重要。在此步骤中,以显式的启发式结构特征来增强团伙挖掘,将图结构特征分为节点层面的特征和节点间关系层面的特征。

在一个示例中,所述节点特征包括如下至少一项子特征:

用于标识节点重要性的第一子特征;

用于标识是否属于稠密子图的第二子特征;

用于标识预设跳数的邻居节点数目的第三子特征。

该示例中,节点特征即节点层面的特征,主要刻画了节点的重要程度或其归属子图的稠密程度。第一子特征可以采用经典的PageRank等算法,第二子特征可以采用K-Core等稠密子图挖掘算法,第三子特征可以采用两跳度。两跳度即节点两跳邻居的数目,在具体的业务实践中,两跳度是挖掘发生预设交易风险的团伙的重要特征。参照图1,团伙常形成账户1-账户2-账户3的两级转账结构,因此两跳度这一特征在区分异常团伙和正常社区上非常有用。

在一个示例中,所述关系特征包括如下至少一项子特征:

用于标识其邻居节点之间的连接边的数目的第四子特征;

用于标识包括所述目标节点在内的两个中心节点之间相关性的第五子特征;

用于标识所述目标节点周围的三角稠密度的第六子特征,所述第六子特征基于包括所述目标节点在内的三个中心节点的度而确定。

该示例中,关系特征即节点间关系层面的特征,其更能反映节点之间的交互行为,是判定团伙的重要特征。第四子特征可以采用点聚类系数,第五子特征体现了双节点间关系,第六子特征体现了三节点间关系。

本说明书实施例,所述关系特征可以包括体现更多数目节点间关系的子特征,例如,四节点间关系、五节点间关系等。

进一步地,所述两个中心节点具有共同的多个邻居节点;

所述第五子特征采用如下的确定方式:

针对任一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第一向量;

针对另一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第二向量;

将第一向量和第二向量之间的相似度作为所述第五子特征。

进一步地,所述多个邻居节点中一个邻居节点对该中心节点的贡献值采用如下的确定方式:

确定该邻居节点与该中心节点之间的连接边的权重;

确定该中心节点的度的第一数值和该邻居节点的度的第二数值;

确定两个中心节点共同的邻居节点的数目;

基于所述权重、所述第一数值、所述第二数值和所述数目进行预设运算,得到所述贡献值。

举例来说,双节点间关系主要以共同邻居为介质去度量两节点间相关性。在共同邻居数目的基础上,Jaccard系数和Adamic-Adar系数分别根据中心节点的并集邻居数和共同邻居度进行归一化。本说明书实施例还可以采用自设计的归一化相关度,兼顾中心节点和共同邻居的热度归一化。

图3示出根据一个实施例的归一化相关度的计算场景示意图。参照图3,中心节点u

其中,w[u

可以采取同样的方式计算每个共同邻居节点对中心节点的贡献值,得到一个tfidf向量,它衡量中心节点对各共同邻居的偏好:

其中,

然后,对两个中心节点,可以以它们的偏好来衡量其相似或相关程度。如下式所示,可采用余弦相似度、皮尔逊相关系数等确定两个tfidf向量之间的相似或相关程度。

其中,

进一步地,所述三个中心节点及连接边构成三角形;

所述第六子特征采用如下的确定方式:

针对任一中心节点确定该中心节点的度的数值;

确定另外两个中心节点分别具有的邻居节点的并集具有的节点数;

基于所述目标节点为顶点的三角形的数目、所述度的数值和所述节点数进行预设运算,得到所述第六子特征。

三角形是团伙稳定不易变化的结构形式,基于三角形数目的三角系数等特征可以描述节点周围的三角稠密度。在本说明书实施例中,更有效的是采用自设计的归一化三角系数。

图4示出根据一个实施例的归一化三角系数的计算场景示意图。参照图4,中心节点u具有邻居节点v

其中,u表示目标节点,也就是待计算归一化三角系数的中心节点,v

分式中,一方面,

另一方面,

最后在步骤24,将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。可以理解的是,所述节点表征向量和所述特征值可以视为目标节点的两部分特征。

在一个示例中,所述分类模型采用有监督的训练方式。

在一个示例中,所述分类模型为决策树模型。

通过本说明书实施例提供的方法,首先从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;然后将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;接着获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;最后将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。由上可见,本说明书实施例检测异常账户,实质上是进行团伙挖掘。节点的图结构特征能够捕捉和描述异常账户对应的节点与其他节点的聚集和联动行为,将其和节点表征向量共同作为分类模型的输入,有助于对团伙实体的判别,从而提升检测异常账户的准确率。

图5示出根据一个实施例的系统框架示意图。参照图5,本说明书实施例,不同于常规的有监督端到端分类任务,而是将团伙挖掘建模为两阶段任务,即特征提取和团伙判别。其中,第一阶段的特征提取中采用无监督和自监督的方式,而在第二阶段的分类判别中采用浅模型进行有监督的分类。由于在第一阶段得到的是较高级语义特征,因此第二阶段的浅层树模型容易收敛且不至于过拟合。在第一阶段中,主要进行自监督的隐式的属性表征学习和无监督的显式的结构特征提取。其中,表征学习又称为表示学习,可以采用GNN模型,例如,GeniePath。在不使用标签信息的情况下,将链接预测作为代理子任务进行自监督的图学习,产出节点表征将用于下游团伙判别。在显式的结构特征提取中,图结构特征包括节点特征和关系特征,其中,节点特征包括PageRank、K-Core、两跳度等多项子特征,关系特征包括点聚类系数、归一化相关度、归一化三角系数等多项子特征。在第二阶段,浅层树模型可以采用决策树、LightGBM等。

本说明书实施例,在模型训练中采用了两阶段学习模式,第一阶段为自监督或无监督的学习模式,第二阶段为有监督的学习模式,极大地减小了对带标签数据量的要求,有效避免过拟合;通过显式的结构特征提取,弥补了表征学习对结构信息捕捉的不足,从而能够以较低的数据标注成本和训练成本达到较好的团伙挖掘效果。

根据另一方面的实施例,本说明书实施例还提供一种检测异常账户的装置,该装置用于执行本说明书实施例提供的方法。图6示出根据一个实施例的检测异常账户的装置的示意性框图。如图6所示,该装置600包括:

子图提取单元61,用于从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;

节点表征单元62,用于将所述子图提取单元61提取的目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;

结构表征单元63,用于获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;

团伙检测单元64,用于将所述节点表征单元62得到的节点表征向量和所述结构表征单元63获取的特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。

可选地,作为一个实施例,所述图神经网络模型采用如下的训练方式:

利用图神经网络模型,确定第一节点和第二节点分别对应的第一表征向量和第二表征向量;

基于所述第一表征向量和所述第二表征向量,得到第一节点和第二节点之间是否存在连接边的链接预测结果;

根据所述链接预测结果是否符合所述目标图谱中第一节点和第二节点之间关于连接边的实际情况,对所述图神经网络模型进行训练。

可选地,作为一个实施例,所述节点特征包括如下至少一项子特征:

用于标识节点重要性的第一子特征;

用于标识是否属于稠密子图的第二子特征;

用于标识预设跳数的邻居节点数目的第三子特征。

可选地,作为一个实施例,所述关系特征包括如下至少一项子特征:

用于标识其邻居节点之间的连接边的数目的第四子特征;

用于标识包括所述目标节点在内的两个中心节点之间相关性的第五子特征;

用于标识所述目标节点周围的三角稠密度的第六子特征,所述第六子特征基于包括所述目标节点在内的三个中心节点的度而确定。

进一步地,所述两个中心节点具有共同的多个邻居节点;

所述第五子特征采用如下的确定方式:

针对任一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第一向量;

针对另一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第二向量;

将第一向量和第二向量之间的相似度作为所述第五子特征。

进一步地,所述多个邻居节点中一个邻居节点对该中心节点的贡献值采用如下的确定方式:

确定该邻居节点与该中心节点之间的连接边的权重;

确定该中心节点的度的第一数值和该邻居节点的度的第二数值;

确定两个中心节点共同的邻居节点的数目;

基于所述权重、所述第一数值、所述第二数值和所述数目进行预设运算,得到所述贡献值。

进一步地,所述三个中心节点及连接边构成三角形;

所述第六子特征采用如下的确定方式:

针对任一中心节点确定该中心节点的度的第三数值;

确定另外两个中心节点分别具有的邻居节点的并集具有的节点数;

基于所述目标节点为顶点的三角形的数目、所述第三数值和所述节点数进行预设运算,得到所述第六子特征。

可选地,作为一个实施例,所述分类模型采用有监督的训练方式。

可选地,作为一个实施例,所述分类模型为决策树模型。

可选地,作为一个实施例,所述目标图谱为,交易关系图,或交易领域的知识图谱。

通过本说明书实施例提供的装置,首先提取单元61从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;然后表征单元62将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;接着获取单元63获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;最后检测单元64将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。由上可见,本说明书实施例检测异常账户,实质上是进行团伙挖掘。节点的图结构特征能够捕捉和描述异常账户对应的节点与其他节点的聚集和联动行为,将其和节点表征向量共同作为分类模型的输入,有助于对团伙实体的判别,从而提升检测异常账户的准确率。

根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。

根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

相关技术
  • 一种具有抗炎作用的化合物及其在制备抗炎药物中的应用
  • 一种兼具抗炎及抗氧化作用的药物
  • 一种兼具抗氧化、抗糖化和抗炎作用的活性组分及其制备方法和应用
技术分类

06120116524947