掌桥专利:专业的专利平台
掌桥专利
首页

一种基于动态多尺度特征融合网络的社区检测方法

文献发布时间:2023-06-19 19:28:50


一种基于动态多尺度特征融合网络的社区检测方法

技术领域

本发明涉及社区检测技术领域,具体涉及一种基于动态多尺度特征融合网络的社区检测方法。

背景技术

社区检测是网络分析的一项具有挑战性的任务,它旨在将网络形成的拓扑图划分成多个不相交的子图,从而揭示网络内部隐藏的关系。社区检测被广泛应用于现实世界的人际关系分析、人物喜好分析等多个领域。目前的社区检测技术主要分为两类:利用概率图模型结合先验知识推断社区结构、利用深度学习技术将复杂网络数据转化为低维数据进行表示学习。但传统的概率图方法一方面难以应用于复杂且动态变化的社区结构中,另一方面难以进行社区特征信息融合,从而导致社区检测任务的精度低下。而近几年发展迅速的深度学习技术,将高维数据转化为低维数据进行表示学习。因此它能快速适应具有动态变化特性的社区结构,通过提取社区结点特征和结点间的结构特征,从而提升社区检测任务的准确性。但目前深度学习在社区检测中具有一定的改进空间。一方面由于社区检测应用的深度学习网络架构往往是浅层网络,这就导致大型社区检测效率并没有得到大幅度提升;另一方面,社区检测技术并没有运用灵活的网络结点特征和网络拓扑结构融合方式。因此,对基于动态多尺度特征融合网络在社区检测中的应用探索是十分有必要的。

发明内容

本发明的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本发明的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

为了解决社区检测的精准度较低的技术问题,本发明提出了一种基于动态多尺度特征融合网络的社区检测方法。

本发明提供了一种基于动态多尺度特征融合网络的社区检测方法,该方法包括:

获取待社区检测数据集;

对所述待社区检测数据集进行预处理,得到目标检测数据特征;

根据所述目标检测数据特征和训练完成的社区检测网络模型,对所述待社区检测数据集中的待社区检测数据进行聚类,生成聚类结果信息。

进一步的,所述对所述待社区检测数据集进行预处理,得到目标检测数据特征,包括:

根据所述待社区检测数据集,建立归一化邻接矩阵;

根据所述待社区检测数据集和归一化邻接矩阵,生成所述目标检测数据特征,其中,所述目标检测数据特征是可进一步处理的数据特征。

进一步的,所述社区检测网络模型的训练过程,包括:

构建社区检测网络模型;

获取样本社区检测数据集组,其中,所述样本社区检测数据集组中的样本社区检测数据集对应的数据特征为样本数据类集合;

对所述样本社区检测数据集组中的每个样本社区检测数据集进行预处理,得到所述样本社区检测数据集对应的样本数据特征;

利用所述样本社区检测数据集组中的各个样本社区检测数据集对应的样本数据特征和数据特征,对社区检测网络模型进行训练,得到训练完成的社区检测网络模型。

进一步的,所述社区检测网络模型包括多个同一尺度下混合网络模块和一个多尺度结点信息融合以及一个自监督聚类模块。

进一步的,所述利用所述样本社区检测数据集组中的各个样本社区检测数据集对应的样本数据特征和数据特征,对社区检测网络模型进行训练,得到训练完成的社区检测网络模型,包括:

利用所述样本社区检测数据集组中的各个样本社区检测数据集对应的样本数据特征和数据特征,对同一尺度下混合网络模块的结点特征进行学习和融合,并且进行多尺度结点信息融合,确定自监督网络训练损失函数,进一步得到训练完成的社区检测网络模型。

进一步的,所述对同一尺度下混合网络模块的结点特征进行学习和融合,包括:

将样本数据特征分别输入两个深度学习网络,将这两个深度学习网络学习到的特征以动态注意力机制进行融合,最终与数据的结构信息做进一步特征提取。

进一步的,所述将样本数据特征分别输入两个深度学习网络,将这两个深度学习网络学习到的特征以动态注意力机制进行融合,最终与数据的结构信息做进一步特征提取,包括:

利用自编码网络进行特征学习;

利用Transformer网络,对数据特征表示学习,其中,Transformer网络包含三个模块:数据输入模块、编码模块和基于任务的多层感知机模块,数据输入模块包含一个线性层,编码模块包含自注意力层、前馈网络层和残差连接层,基于任务的多层感知机模块包含多个线性层和多个非线性层;

利用自编码网络和Transformer网络进行动态混合学习表示数据信息,并且通过自注意力机制求解权重,将权重加权到对应网络,再融入数据的结构特征,最终学习到数据的信息。

进一步的,所述确定自监督网络训练损失函数对应的公式为:

ζ=αζ

其中,ζ是自监督网络训练损失函数,α和β为两个系数,ζ

进一步的,所述建立归一化邻接矩阵对应的公式为:

其中,

进一步的,所述生成所述目标检测数据特征的公式表示为:

其中,X′是目标检测数据特征,

本发明具有如下有益效果:

本发明采用动态多尺度特征融合网络,利用两个模块TDCN-M和TDCNS能动态捕捉结点信息,可以应用于动态且复杂的社区检测领域中,可以提高社区检测的精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1为根据本发明的一种基于动态多尺度特征融合网络的社区检测方法的流程图;

图2为根据本发明的单一Transformer模型框架图示意图;

图3为根据本发明的Transformer网络对数据特征表示学习示意图;

图4为根据本发明的自编码网络和Transformer网络进行动态混合学习表示数据信息示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明提供了一种基于动态多尺度特征融合网络的社区检测方法,该方法包括以下步骤:

获取待社区检测数据集;

对待社区检测数据集进行预处理,得到目标检测数据特征;

根据目标检测数据特征和训练完成的社区检测网络模型,对待社区检测数据集中的待社区检测数据进行聚类,生成聚类结果信息。

下面对上述各个步骤进行详细展开:

参考图1,示出了根据本发明的一种基于动态多尺度特征融合网络的社区检测方法的一些实施例的流程。该基于动态多尺度特征融合网络的社区检测方法,包括以下步骤:

步骤S1,获取待社区检测数据集。

在一些实施例中,可以获取待社区检测数据集。

其中,待社区检测数据集中的待社区检测数据可以是待进行社区检测的数据。例如,待社区检测数据集可以包括但不限于:目标用户的购买商品集、城市人口集和货架物品集。其中,目标用户可以是购买商品的用户。

作为示例,当上述待社区检测数据集为目标用户的购买商品集时,后续对目标用户的购买商品集进行社区检测,可以得到该目标用户购买商品的偏好。

作为又一示例,可以运用Pytorch框架,读入待社区检测数据集。

步骤S2,对待社区检测数据集进行预处理,得到目标检测数据特征。

在一些实施例中,可以对上述待社区检测数据集进行预处理,得到目标检测数据特征。

其中,目标检测数据特征可以是进行预处理后的待社区检测数据集。目标检测数据特征还是可进一步处理的数据特征。

作为示例,本步骤可以包括以下步骤:

第一步,根据上述待社区检测数据集,建立归一化邻接矩阵。

例如,建立归一化邻接矩阵对应的公式可以为:

其中,

第二步,根据上述待社区检测数据集和归一化邻接矩阵,生成目标检测数据特征。

生成目标检测数据特征的公式表示为:

其中,X′是目标检测数据特征(处理后的数据特征)。

步骤S3,根据目标检测数据特征和训练完成的社区检测网络模型,对待社区检测数据集中的待社区检测数据进行聚类,生成聚类结果信息。

在一些实施例中,可以根据上述目标检测数据特征和训练完成的社区检测网络模型,对上述待社区检测数据集中的待社区检测数据进行聚类,生成聚类结果信息。

其中,社区检测网络模型可以用于对待社区检测数据集中的待社区检测数据进行聚类。聚类结果信息可以表征对待社区检测数据集进行社区检测后的结果。

作为示例,聚类指标计算及社区检测分析。其中,聚类指标可以包括:精确度(ACC)、标准化互信息(NMI)、平均Rand指数(ARI)和F1召回率。这四个指标越高,聚类效果越好,从而社区检测效果越好。

可选地,社区检测网络模型的训练过程可以包括以下步骤:

第一步,构建社区检测网络模型。

其中,社区检测网络模型包括多个同一尺度下混合网络模块(TDCN-M)和一个多尺度结点信息融合(TDCN-S)以及一个自监督聚类模块。其中,TDCN-M和TDCN-S都是有一个自编码架构(AE)和一个Transformer结构组成。

例如,可以对社区检测网络模型中的参数进行初始化。比如,可以设置同一尺度下混合网络模块的数目为第一预设数目,数据集聚类数目为第二预设数目,Transformer网络中编码块数目为第三预设数目,Transformer网络中多层感知机模块数目为第四预设数目。单一Transformer模型框架图可以如图2所示。其中,第一预设数目、第二预设数目、第三预设数目和第四预设数目可以是预设设置的数目。第一预设数目、第二预设数目、第三预设数目和第四预设数目可以不相等。第一预设数目可以记作M。第二预设数目可以记作k。第三预设数目可以记作K。第四预设数目可以记作N。数据集聚类数目可以是通过社区检测网络模型进行聚类,得到的类别数目。

第二步,获取样本社区检测数据集组。

其中,上述样本社区检测数据集组中的样本社区检测数据集中的样本社区检测数据的数据类型可以与待社区检测数据的数据类型相同。样本社区检测数据集对应的样本数据类集合可以已知。样本社区检测数据集对应的样本数据类集合可以是预先对样本社区检测数据集中的样本社区检测数据进行聚类划分得到的类别集合。样本数据类集合可以表征样本社区检测数据集中样本社区检测数据的划分情况。上述样本社区检测数据集组中的样本社区检测数据集对应的数据特征为样本数据类集合。

实际情况中,样本社区检测数据集组中样本社区检测数据集的数量越多,对社区检测网络模型进行训练的效果往往越好。

第三步,对上述样本社区检测数据集组中的每个样本社区检测数据集进行预处理,得到上述样本社区检测数据集对应的样本数据特征。

本步骤的具体实现方式可以参考步骤S2,可以将样本社区检测数据集,作为待社区检测数据集,执行步骤S2,得到的目标检测数据特征,即为样本数据特征。

第四步,利用上述样本社区检测数据集组中的各个样本社区检测数据集对应的样本数据特征和数据特征,对社区检测网络模型进行训练,得到训练完成的社区检测网络模型。

例如,可以利用上述样本社区检测数据集组中的各个样本社区检测数据集对应的样本数据特征和数据特征,对同一尺度下混合网络模块的结点特征进行学习和融合,并且进行多尺度结点信息融合,确定自监督网络训练损失函数,进一步得到训练完成的社区检测网络模型,本步骤可以包括以下子步骤:

第一子步骤,对同一尺度下TDCN-M(Multi-Network Feature Fusion Module,混合网络模块)的结点特征进行学习和融合。

比如,可以将样本数据特征分别输入两个深度学习网络,将这两个深度学习网络学习到的特征以动态注意力机制进行融合,最终与数据的结构信息做进一步特征提取,具体可以包括以下步骤:

首先,利用自编码网络进行特征学习。即,将样本数据特征输入第一预设数目层自编码网络,得到每一层自编码网络的特征。

如,得到每一层自编码网络的特征对应的公式可以为:

H

其中,H

接着,利用Transformer网络,对数据特征表示学习。其中,Transformer网络主要包含三个模块:数据输入模块、编码模块、基于任务的多层感知机模块。数据输入模块主要包含一个线性层。编码模块包含自注意力层、前馈网络层和残差连接层。基于任务的多层感知机模块(MLP)包含多个线性层和多个非线性层,具体实现方式参考图3可以包括以下步骤:

步骤301,数据输入模块对输入数据表示学习。

比如,可以将第l个Transformer网络输入的结点特征记作Z

Z

步骤302,编码模块对数据输入模块处理后的数据做进一步处理。

比如,传入的数据特征表示Z

Z′

Z

其中,p的取值范围为{1,2,3,…,K}。

步骤303,MLP对数据进行进一步处理。

比如,经编码模块处理后的数据特征Z

Z′

Z

其中,p的取值范围还可以为{1,2,3,…,N}。MLP是多层感知机。

然后,利用自编码网络和Transformer网络进行动态混合学习表示数据信息。并且通过自注意力机制求解权重。即自编码网络和Transformer网络可以通过自注意力机制求解权重。将权重加权到对应网络,再融入数据的结构特征,最终学习到数据的信息,具体实现方式参考图4可以包括以下步骤:

步骤401,计算出两个网络各自所属的权重。

本步骤的计算公式如下:

Ψ

其中,a是训练过程中可学习的参数。l

步骤402,将计算出的权重,运用到对应网络的输出。

比如,将计算出的权重Ψ

Z

其中,⊙是哈达玛积运算。(ψ

步骤403,TDCN-M的结点特征的最终计算。

比如,将数据的邻接矩阵融入学习到的特征,得到新的数据特征信息,作为下一个TDCN-M的输入,计算公式如下:

其中,Z

第二子步骤,多尺度结点信息融合(TDCN-S)。TDCN-S(Multi-ScaleHeterogeneous Fusion Module)对L个TDCN-M产生的输出Z

首先,连接TDCN-M每个模块的输出和自编码网络的最后一层输出,得到隐藏状态Z′。计算公式如下:

Z′=[Z

其中,l的取值范围为{1,2,3,…,L}。

最后,最终表示Z计算。注意力计算方式可以参考步骤401,得到权重Ψ。将权重Ψ同样是以哈达玛积形式计算出隐藏状态Z′。Z的计算参考步骤403。

第三子步骤,确定自监督网络训练损失函数。损失函数主要由两部分组成,分别是聚类损失ζ

ζ=αζ

其中,ζ是自监督网络训练损失函数。α和β为两个系数。ζ

进一步地,ζ

进一步地,聚类损失ζ

本发明采用动态多尺度特征融合网络,利用两个模块TDCN-M和TDCNS能动态捕捉结点信息,可以应用于动态且复杂的社区检测领域中,可以提高社区检测的精准度。

以上上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。

技术分类

06120115923128