掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、装置、设备、存储介质及计算机程序产品

文献发布时间:2023-06-19 13:45:04


数据处理方法、装置、设备、存储介质及计算机程序产品

技术领域

本申请涉及计算机技术领域,尤其涉及一种数据处理方法、一种数据处理装置、一种计算机设备、一种计算机可读存储介质以及一种计算机程序产品。

背景技术

数据结构图是一种描述现实世界各类复杂系统的普适模型,刻画了各种实体及其之间的相互联系。图聚类算法主要利用数据结构图的数据结构(如节点的度分布、以及图的结构和模式,等等),将数据结构图中的各个节点划分到不同类簇中,使得同一类簇中的节点联系紧密,例如将社交网络中联系紧密并且具有相似特征的个体划分到一个类簇中。现有的图聚类算法难以准确地对数据结构图中的节点进行划分,因此,提高图聚类算法的准确性是十分有必要的。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备、存储介质及计算机程序产品,可以有效提高数据结构图的聚类准确性和聚类处理效率。

一方面,本申请实施例提供了一种数据处理方法,所述方法包括:

获取待处理数据结构图,所述待处理数据结构图包括M个节点、所述M个节点中具有第一类关联关系的节点之间的连接边、以及N个群组标识,每一个群组标识所指示的群组中的节点之间具有第二类关联关系;

利用特征提取网络对所述待处理数据结构图中的第一节点进行特征提取,得到所述第一节点的第一特征,根据所述第一特征确定所述第一节点的聚类结果,所述第一节点为所述待处理数据结构图中的任一节点;

其中,所述特征提取网络是对利用训练数据结构图进行训练的过程中确定的目标损失参数训练得到的,所述目标损失参数是根据第一损失参数和第二损失参数确定的;所述第一损失参数是根据第二特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征确定的,所述第二特征是训练过程中所述特征提取网络针对第二节点确定的,所述第二节点为所述训练数据结构图中的任一节点;所述第二损失参数是根据所述第二节点对应的同质性群组特征和异质性群组特征确定的,所述同质性群组特征是根据所述训练数据结构图中所述第二节点所属的群组的群组融合特征确定的,所述异质性群组特征是根据所述训练数据结构图中不包括所述第二节点的群组的群组融合特征确定的。

另一方面,本申请实施例提供了一种数据处理装置,所述装置包括:

获取单元,用于获取待处理数据结构图,所述待处理数据结构图包括M个节点、所述M个节点中具有第一类关联关系的节点之间的连接边、以及N个群组标识,每一个群组标识所指示的群组中的节点之间具有第二类关联关系;

处理单元,用于利用特征提取网络对所述待处理数据结构图中的第一节点进行特征提取,得到所述第一节点的第一特征,根据所述第一特征确定所述第一节点的聚类结果,所述第一节点为所述待处理数据结构图中的任一节点;

其中,所述特征提取网络是对利用训练数据结构图进行训练的过程中确定的目标损失参数训练得到的,所述目标损失参数是根据第一损失参数和第二损失参数确定的;所述第一损失参数是根据第二特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征确定的,所述第二特征是训练过程中所述特征提取网络针对第二节点确定的,所述第二节点为所述训练数据结构图中的任一节点;所述第二损失参数是根据所述第二节点对应的同质性群组特征和异质性群组特征确定的,所述同质性群组特征是根据所述训练数据结构图中所述第二节点所属的群组的群组融合特征确定的,所述异质性群组特征是根据所述训练数据结构图中不包括所述第二节点的群组的群组融合特征确定的。

相应地,本申请实施例提供了一种计算机设备,计算机设备包括处理器、通信接口和存储器,处理器、通信接口和存储器相互连接,其中,存储器存储有计算机程序,处理器用于调用计算机程序,执行上述任一可能实现方式的数据处理方法。

相应地,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,处理器执行上述任一可能实现方式的数据处理方法所涉及的计算机程序。

相应地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现本申请实施例提供的数据处理方法的步骤。

相应地,本申请实施例还提供了一种计算机程序,所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的数据处理方法。

本申请实施例中,根据训练数据结构图中的节点的特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征确定第一损失参数,以及根据训练数据结构图中的节点对应的同质性群组特征和异质性群组特征确定第二损失参数,然后结合该第一损失参数和该第二损失参数对特征提取网络进行训练,可以使得特征提取网络实现类簇同质级别和群组同质级别的联合学习,从而提高特征提取网络的聚类处理准确性。另外,利用采用上述方式训练得到的特征提取网络对数据结构图进行聚类处理,可以有效提高数据结构图的聚类准确性和聚类处理效率。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据结构图的示意图;

图2为本申请实施例提供的一种图聚类的示意图;

图3为本申请实施例提供的一种特征提取网络训练方法的流程示意图;

图4为本申请实施例提供的一种数据处理方法的流程示意图;

图5为本申请实施例提供的另一种数据处理方法的流程示意图;

图6为本申请实施例提供的另一种特征提取网络训练方法的流程示意图;

图7示出了图聚类的实验结果的对比示意图;

图8为本申请实施例提供的一种数据处理装置的结构示意图;

图9为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”等的技术特征可以明示或者隐含的包括至少一个该特征。

现实世界中,许多应用领域如社交网络、Web(World Wide Web,万维网)网络、传感器网络、道路网等,均可以用数据结构图来描述,例如,数据结构图中的节点可以描述社交网络中的用户、传感器网络中的元器件等,数据结构图中节点之间的连接边可以描述对应用户之间的好友关系、元器件之间的连接关系等。而对于大规模的数据结构图,往往难以直接从图中获取到有效信息,因此对数据结构图进行图聚类,可以将具有紧密联系的节点划分到一个类簇中,便于后续分析和理解,例如,将社交网络中的各个用户划分到不同类簇中,同一个类簇中的用户往往具有相似之处,可以将一个类簇中的各个用户作为一个整体确定用户画像,从而可以将各个类簇的用户画像应用在智能推荐的场景,可以提升智能推荐的效率,还可以将用户画像应用在车载、智慧交通、智能家居等领域。

目前,图聚类算法往往只聚焦于节点之间的单一关系,例如在对社交网络进行聚类时,数据结构图中往往只考虑了社交网络中用户之间的好友关系,但用户之间除了存在好友关系,还可能存在群组关系,例如属于同一个工作群,家族群或兴趣群,因此,图聚类算法没有充分利用社交网络中的群组信息,没有考虑节点之间的群组关系,导致图聚类的准确性偏低。为了有效提高数据结构图的聚类准确性,本申请提出了一种数据处理方法。该数据处理方法可以是基于人工智能技术中的机器学习技术实现,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在可行的实施例中,本申请实施例提供的数据处理方法还可以基于云技术(Cloudtechnology)和/或区块链技术实现。区块链:(blockchain或block chain)是借由密码学串接并保护内容的串连文字记录(又称区块)。每一个区块包含了前一个区块的加密散列、相应时间戳记以及交易数据(通常用默克尔树(Merkle tree)算法计算的散列值表示),这样的设计使得区块内容具有难以篡改的特性。用区块链技术所串接的分布式账本能让两方有效纪录交易,且可永久查验此交易。本申请实施例提供的数据处理方法具体可以涉及云技术中的云存储(Cloud storage)、云数据库(Cloud Database)、大数据(Big data)、用户画像中的一种或者多种。例如,从云数据库中获取执行该数据处理方法所需要的数据(例如数据结构图、参考类簇中心集、目标类簇中心集等)。又例如,执行该数据处理方法所需要的数据可以是以区块的形式存储在区块链上;可以将执行该数据处理方法所产生的数据(例如同质性类簇特征、异质性类簇特征、同质性群组特征、异质性群组特征等)以区块的形式存储到区块链上;另外,执行该数据处理方法的计算机设备可以是区块链网络中的节点设备。

具体地,本申请实施例提出了一种新的数据结构图,该图是由节点、连接边、以及群组标识组成的一种数据结构,可以通过节点集合V、连接边集合E和群组集合G来进行描述,其中,节点集合包括数据结构图中的节点,连接边集合E包括节点之间的连接边,群组集合G包括各个群组标识指示的群组,每个群组标识指示的群组可以表示为g

由于一个群组中的节点是出于某种原因而自然聚集在一起的,群组内的节点往往表现出同质性(是否具备同质性,主要取决于能否寻获相同或相似之处),因此,如图2所示,本申请实施例可以联合数据结构图中节点之间的单一关系(即图2中节点u

本申请实施例可以通过训练数据结构图对特征提取网络进行类簇同质级别和群组同质级别的联合训练,从而使特征提取网络能够进行多种信息的建模,实现信息增强,具体为:请参阅图3,图3为特征提取网络训练方法的流程示意图,图3中31所指示的部分表示训练数据结构图;图3中32所指示的部分表示特征提取网络获取训练数据结构图中任一节点(以训练数据结构图中的节点u

需要解释的是,属于同一个类簇中的各个节点会表现出同质性,另外,每个节点与其所属类簇的类簇中心也会表现出同质性,因此,本申请提出的类簇同质级别的学习是指特征提取网络通过学习可以让节点的特征和其对应的同质性类簇特征之间的相似度越来越高,让节点的特征和其对应的异质性类簇特征之间的相似度越来越低。可以理解的,属于同一个群组中的各个节点之间也会表现出同质性,本申请提出的群组同质级别的学习是指特征提取网络通过学习让节点的特征和其对应的同质性群组特征之间的相似度越来越高,让节点的特征和其对应的异质性群组特征之间的相似度越来越低。

在一实施例中,利用本申请实施例提供的特征提取网络可以对待处理数据结构图中的各个节点进行特征提取,得到各个节点的特征,并利用各个节点的特征对各个节点进行图聚类处理,得到各个节点的聚类结果。由于本申请提供的特征提取网络可以利用节点之间的单一关系和群组关系进行联合建模,因此,属于同一个群组和/或互相之间具有单一关系的节点的特征在隐空间中的位置是比较接近的,可以有效提高数据结构图的聚类准确性。

下面详细介绍本申请的一种数据处理方法。

请参阅图4,为本申请实施例提供的一种数据处理方法的流程示意图。本申请实施例中所描述的数据处理方法可以由一计算机设备执行,计算机设备可以是终端或者服务器,服务器可以是物理服务器或者云服务器,终端可以是智能手机、电脑等。所述数据处理方法包括但不限于如下步骤:

S401、获取待处理数据结构图,所述待处理数据结构图包括M个节点、所述M个节点中具有第一类关联关系的节点之间的连接边、以及N个群组标识,每一个群组标识所指示的群组中的节点之间具有第二类关联关系。

本申请实施例中,待处理数据结构图为需要执行图聚类任务的数据结构图,是由M(为正整数)个节点,M个节点中具有第一类关联关系的节点之间的连接边,以及N(为正整数)个群组标识组成的数据结构,M大于或等于N。连接边相连的两个节点之间具有第一类关联关系,第一类关联关系为节点之间的单一关系,例如单一关系可以为用户A与用户B之间具有好友关系,或者,元器件A与元器件B之间具有连接关系。群组标识可以为上述图1所示的分隔框,也可以为节点携带的群组标识,例如节点A携带群组标识“家族群1”。群组标识所指示的群组中的节点之间具有第二类关联关系,第二类关联关系为节点之间的群组关系,例如群组标识1指示的群组为家族群1,其包括用户A和用户B,则表示用户A和用户B属于家族群1,或者,群组标识1指示的群组为功能模块1,其包括元器件A和元器件B,则表示元器件A和元器件B属于功能模块1。

S402、利用特征提取网络对所述待处理数据结构图中的第一节点进行特征提取,得到所述第一节点的第一特征,根据所述第一特征确定所述第一节点的聚类结果,所述第一节点为所述待处理数据结构图中的任一节点。

在本申请实施例中,特征提取网络为图神经网络(Graph Neural Networks,GNN)。图神经网络GNN是一种直接作用于图结构上的神经网络。神经网络是仿生物神经网络而来的一种技术,通过连接多个特征值,经过线性和非线性的组合,最终达到一个目标。第一节点为待处理数据结构图中的任一节点,第一特征为第一节点的特征,可以理解为节点特征。

在一实施例中,本申请实施例利用特征提取网络对待处理数据结构图中的第一节点进行特征提取,得到第一节点的第一特征的具体方式为:利用待处理数据结构图确定第一节点对应的子数据结构图,利用特征提取网络对第一节点对应的子数据结构图进行分析处理,得到第一节点的第一特征。

在本申请实施例中,第一节点对应的子数据结构图包括第一节点以及与第一节点具有第一类关联关系的节点,即特征提取网络主要是利用与第一节点之间具有第一类关联关系的各个节点来提取第一节点的特征。

在一实施例中,本申请提出的数据结构图除了包括节点集合V、连接边集合E和群组集合G,还可以包括节点属性集合F,其中,节点属性集合F包括数据结构图中各个节点的属性参数,例如节点为用户时,属性参数可以为年龄、性别、学历等。特征提取网络在对第一节点对应的子数据结构图进行分析处理时,可以利用第一节点对应的子数据结构图中第一节点的邻居节点(与第一节点具有第一类关联关系的节点)的属性参数进行分析处理,得到第一特征。具体地,可以将邻居节点的属性参数表示为稀疏矩阵来作为邻居节点的特征,例如,邻居节点的属性参数为年龄23、性别女、学历专科,稀疏矩阵的表示规则包括:性别表示规则为男0、女1,学历表示规则为小学1、中学2、专科3、大学4,则稀疏矩阵可以表示为[23,1,3],将[23,1,3]作为邻居节点的特征,进一步地,可以利用特征提取网络将各个邻居节点的特征聚合到第一节点上,从而得到第一节点的第一特征,上述方式可以用如下所示的式(1)表示:

其中,

需要说明的是,本申请实施例中的特征提取网络除了可以是经典的图卷积神经网络(Graph Neural Network,GNN),也可以为其他图神经网络,例如消息传递神经网络(Neural Message Passing for Quantum Chemistry,MPNN)、以及非局部神经网络(non-local neural network,NLNN),等等,也可以将多种图神经网络结合起来使用。

在一实施例中,根据第一特征确定第一节点的聚类结果,具体为:确定第一特征与目标类簇中心集所包括的各个目标类簇中心之间的相似度,根据第一特征与各个目标类簇中心之间的相似度,确定第一节点和各个目标类簇中心所对应类簇之间的匹配概率,将各个目标类簇中心所对应类簇中与第一节点之间的匹配概率最大的类簇,确定为第一节点的聚类结果。

在本申请实施例中,目标类簇中心集可以包括一个或多个目标类簇中心,各个目标类簇中心是通过对参考类簇中心集中的各个参考类簇中心进行调整得到的,最初的参考类簇中心可以是通过对向量进行初始化得到的,类簇中心(参考类簇中心或目标类簇中心)可以理解为类簇的中心点或聚类中心。

在一实施例中,可以将第一节点的第一特征的转置与各个目标类簇中心分别进行相乘,得到第一节点的第一特征与各个目标类簇中心之间的相似度,如下所示的式(2)表示:

其中,目标u

在另一实施例中,可以利用第一特征和各个目标类簇中心之间的相似度,得到第一节点与各个目标类簇中心所对应类簇之间的匹配概率,其如下所示的式(3)表示:

其中,τ表示超参数(可以人为设定),s

进一步地,可以将各个目标类簇中心所对应类簇中与第一节点之间的匹配概率最大的类簇,确定为第一节点的聚类结果,可以通过如下所示的式(4)表示:

其中,当

本申请实施例中,特征提取网络可以针对待处理数据结构图中第一类关联关系和第二类关联关系提供的信息联合建模,从而在对待处理数据结构图中的第一节点进行特征提取,可以得到信息增强的第一特征,利用信息增强的第一特征可以更加准确地确定第一节点的聚类结果,可以有效提高数据结构图的聚类准确性。

请参阅图5,为本申请实施例提供的一种特征提取网络训练方法的流程示意图,所述特征提取网络的训练方法可以由一计算机设备执行,计算机设备可以是终端或者服务器,服务器可以是物理服务器或者云服务器,终端可以是智能手机、电脑等。此处的计算机设备与执行前文数据处理方法的计算机设备可以相同,也可以不同。所述特征提取网络的训练方法包括但不限于如下步骤:

S501、获取训练数据结构图。

在本申请实施例中,训练数据结构图包括多个节点、多个节点中具有第一类关联关系的节点之间的连接边、以及多个群组标识,每一个群组标识所指示的群组中的节点之间具备第二类关联关系。在一个实施例中,训练数据结构图可以为上述待处理数据结构图。

S502、利用特征提取网络对所述训练数据结构图中的第二节点进行特征提取,得到第二特征,所述第二节点为所述训练数据结构图中的任一节点。

在本申请实施例中,特征提取网络为训练中的图神经网络,其网络参数尚在调整过程中,特征提取网络的网络参数可以是通过随机初始化得到的。在一实施例中,利用特征提取网络对所述训练数据结构图中的第二节点进行特征提取,得到第二特征的具体方式为:利用训练数据结构图确定第二节点对应的子数据结构图,利用特征提取网络对第二节点对应的子数据结构图进行分析处理,得到第二特征。特征提取网络对第二节点对应的子数据结构图进行分析处理,得到第二特征的详细实现方式,与前述步骤S402中描述的特征提取网络对第一节点对应的子数据结构图进行分析处理,得到第一节点的第一特征的方式是类似的,本实施例不再赘述。

S503、根据所述第二特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征确定第一损失参数,以及根据所述第二节点对应的同质性群组特征和异质性群组特征确定第二损失参数。

在本申请实施例中,参考类簇中心集包括一个或多个参考类簇中心,最初的参考类簇中心可以是通过对向量进行初始化得到的。

在一实施例中,可以通过对参考类簇中心集包括的各个参考类簇中心进行调整,得到上述目标类簇中心集,具体为:利用特征提取网络对训练数据结构图包括的各个节点进行特征提取,得到训练数据结构图包括的各个节点的特征,根据训练数据结构图包括的各个节点的特征、以及训练数据结构图包括的各个节点与待调整参考类簇中心之间的匹配概率,确定新的参考类簇中心,将待调整参考类簇中心替换为新的参考类簇中心,不断执行上述步骤,直到特征提取网络停止训练时,利用新的参考类簇中心确定目标类簇中心。

在本申请实施例中,待调整参考类簇中心为参考类簇中心集所包括的任一参考类簇中心,在对特征提取网络的每轮训练过程中,需要对参考类簇中心集包括的各个参考类簇中心进行调整,并将参考类簇中心集中的参考类簇中心替换为新的参考类簇中心,在特征提取网络停止训练时,利用参考类簇中心集得到目标类簇中心集。

在一实施例中,可以获取训练数据结构图包括的各个节点对应的子数据结构图,利用特征提取网络对训练数据结构图包括的各个节点对应的子数据结构图进行分析处理,得到各个节点的特征。其详细实现过程,与前述步骤S402中描述的特征提取网络对第一节点对应的子数据结构图进行分析处理,得到第一节点的第一特征的方式是类似的,本实施例不再赘述。

进一步地,确定训练数据结构图包括的各个节点与待调整参考类簇中心之间的匹配概率的详细实现方式,可以参考前文上述式(3)确定第一节点与各个目标类簇中心所对应类簇之间的匹配概率的相关描述,此处不再赘述。利用训练数据结构图包括的各个节点的特征,以及各个节点与待调整参考类簇中心之间的匹配概率,可以得到新的参考类簇中心,可以用如下所示的式(5)表示:

其中,c

需要说明的是,由于每进行一轮训练,就会对特征提取网络的网络参数进行调整,因此本申请可以是在对特征提取网络的网络参数调整前,利用参考类簇中心集中的各个参考类簇中心确定各个新的参考类簇中心,再将各个新的参考类簇中心作为参考类簇中心集,再利用得到的参考类簇中心集执行一次对特征提取网络的网络参数的调整,当特征提取网络停止训练时,将新的参考类簇中心形成的参考类簇中心集作为目标类簇中心;也可以是对特征提取网络的网络参数调整后,利用调整后的特征提取网络获取待训练数据结构图中的各个节点的特征,再利用各个节点的特征确定各个新的参考类簇中心,因此,此时在特征提取网络停止训练时,是将当前的参考类簇中心集作为目标类簇中心。

在一实施中,确定第二特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征,具体为:确定第二特征与参考类簇中心集包括的各个参考类簇中心之间的相似度,根据第二特征与各个参考类簇中心之间的相似度,确定第二节点与各个参考类簇中心所对应类簇之间的匹配概率,根据第二节点与各个参考类簇中心所对应类簇之间的匹配概率、以及各个参考类簇中心,确定第二特征与各个参考类簇中心之间的待融合类簇特征,将第二特征与各个待融合类簇特征进行融合,确定第二特征与参考类簇中心集之间的同质性类簇特征,对同质性类簇特征中的元素的排列顺序进行调整,得到第二特征与参考类簇中心集之间的异质性类簇特征。

在本申请实施例中,同质性类簇特征是根据节点与各个参考类簇中心表现出的同质性得到的,能够反映节点在类簇级别的同质性的融合;异质性类簇特征能够反映节点在类簇级别的异质性的融合。在一实施例中,确定第二特征与参考类簇中心集包括的各个参考类簇中心之间的相似度,可以参考前文基于上述式(2)确定第一特征与各个目标类簇中心之间的相似度的相关描述,此处不再赘述,以及确定第二节点与各个参考类簇中心所对应类簇之间的匹配概率,可以参考前文基于上述式(3)确定第一节点与各个目标类簇中心所对应类簇之间的匹配概率的相关描述,此处不再赘述。

进一步地,通过加权平均的方式,将第二节点与各个参考类簇中心所对应类簇之间的匹配概率分别与相对应的各个参考类簇中心进行相乘,得到第二特征与各个参考类簇中心之间的待融合类簇特征(可以反映第二节点和各个参考类簇中心表现出的同质性),将第二特征与各个待融合类簇特征进行融合,得到第二特征与参考类簇中心集之间的同质性类簇特征。上述方法如下述式(6)所示:

其中,v

在可行的实施例中,还可以采用拼接方式等将第二特征与各个待融合类簇特征进行融合,本实施例对此不作限定。另外,还可以采用自注意力机制等更复杂的聚合方式,得到同质性类簇特征。

进一步地,可以对同质性类簇特征中的元素的排列顺序进行打乱处理,得到第二特征与参考类簇中心集之间的异质性类簇特征。在一实施例中,如图6所示,可以采用随机排序处理(SHUFFLE)对同质性类簇特征v

在另一实施例中,可以将其他节点(是指不为第二节点)的特征与参考类簇中心集之间的同质性类簇特征作为第二特征与参考类簇中心集之间的异质性类簇特征。

虽然第二节点的第二特征是通过对与第二节点具有第一类关联关系的各个节点进行聚合得到的,同质性类簇特征是利用第二节点的类簇关系(可以理解为第二节点与各个类簇之间的匹配概率)进行聚合得到的,但基于类簇同质性(节点与节点所属类簇中心表现出的同质性),可知第二特征和同质性类簇特征其本质是相似的,因此,如图6所示,可以将第二特征和同质性类簇特征作为正对,第二特征和异质性类簇特征作为负对,构建第一对比损失函数,第一对比损失函数如下述式(7)所示:

其中,

在一实施例中,可以将第二节点的第二特征、第二特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征输入第一对比损失函数,得到第一损失参数。

在一实施例中,确定第二节点对应的同质性群组特征,具体为:利用特征提取网络针对第二节点所属的群组进行特征提取,确定第二节点所属的群组包括的各个节点的特征,对第二节点所属的群组包括的各个节点的特征进行融合,得到第二节点所属的群组的群组融合特征,根据第二节点所属的群组的群组融合特征以及第二节点所属的群组中的节点的数量,确定第二节点对应的同质性群组特征。

在本申请实施例中,同质性群组特征是根据与第二节点属于同一个群组中的各个节点表现出的同质性得到的,能够反映节点在群组级别的同质性的融合。

在一实施例中,利用特征提取网络针对第二节点所属的群组进行特征提取,确定第二节点所属的群组包括的各个节点的特征,具体为:获取第二节点所属的群组中的各个节点对应的子数据结构图,利用特征提取网络对第二节点所属的群组中的各个节点对应的子数据结构图进行分析处理,得到第二节点所属的群组包括的各个节点的特征,特征提取网络对第二节点所属的群组中的各个节点对应的子数据结构图进行分析处理,得到第二节点所属的群组包括的各个节点的特征的详细实现方式,与前述步骤S402中描述的特征提取网络对第一节点对应的子数据结构图进行分析处理,得到第一节点的第一特征的方式是类似的,本实施例不再赘述。

进一步地,如图6所示,设计了一个群组池化网络POOLING来获取第二节点对应的同质性群组特征,其实现方式如下述式(8)所示:

g

其中,g

在一实施例中,如下述式(9)所示,群组池化网络的具体设计为:对第二节点所属的群组包括的各个节点的特征进行相加,得到第二节点所属的群组的群组融合特征,将第二节点所属的群组的群组融合特征与第二节点所属的群组中的节点的数量的倒数进行相乘后,再利用激活函数进行处理,从而得到第二节点对应的同质性群组特征。本申请提供的群组池化网络能够高效处理不同节点数的群组。

其中,|g

在可行的实施例中,除了采用群组池化网络,还可以采用注意力机制和/或神经网络等方式获取同质性群组特征。

在一实施例中,确定第二节点对应的异质性群组特征,具体为:利用特征提取网络针对不包括第二节点的群组进行特征提取,确定不包括第二节点的群组包括的各个节点的特征,对不包括第二节点的群组包括的各个节点的特征进行融合,得到不包括第二节点的群组的群组融合特征,根据不包括第二节点的群组的群组融合特征以及不包括第二节点的群组中的节点的数量,确定第二节点对应的异质性群组特征。利用特征提取网络针对不包括第二节点的群组进行特征提取,确定不包括第二节点的群组包括的各个节点的特征的详细实现方式,类似于前述步骤S402中描述的特征提取网络对待处理数据结构图中的第一节点进行特征提取,得到第一节点的第一特征的方式,本实施例不再赘述。以及确定第二节点对应的异质性群组特征的详细实现方式,与前文所述的基于上述式(9)确定第二节点对应的同质性群组特征的方式是类似的,本实施例不再赘述。

在本申请实施例中,异质性群组特征是根据与第二节点不属于同一个群组中的各个节点表现出的异质性得到的,能够反映节点在类簇级别的异质性的融合。在一实施例中,可以是将不包括第二节点的群组标识指示的群组作为不包括第二节点的群组,利用不包括第二节点的群组标识指示的群组中的各个节点确定第二节点对应的异质性类簇特征;或者如图6所示,通过随机采样处理获取与第二节点不具有群组关系的多个节点,并利用该多个节点构成不包括第二节点的群组来确定第二节点对应的异质性类簇特征。

虽然第二特征是通过特征提取网络对与第二节点具有第一类关联关系的各个节点进行聚合得到的,同质性群组特征是通过对与第二节点具有第二类关联关系的各个节点和第二节点进行聚合得到的,但基于群组同质性(属于一个群组中的各个节点表现出的同质性),可知第二特征和同质性群组特征其本质是相似的,因此,如图6所示,可以将第二特征和同质性群组特征作为正对,第二特征和异质性群组特征作为负对,构建第二对比损失函数,第二对比损失函数如下述式(10)所示:

其中,

在一实施例中,将第二节点的第二特征、第二节点对应的异质性群组特征和第二节点对应的同质性群组特征输入第二对比损失函数,得到第二损失参数。

S504、根据所述第一损失参数和所述第二损失参数确定目标损失参数,并根据所述目标损失参数对所述特征提取网络的网络参数进行调整,得到训练后的特征提取网络。

在一实施例中,综合考虑类簇同质性和群组同质性,设计了目标损失函数,如下述式(11)所示:

其中,α表示超参数(可以人为设定),其平衡了群组同质级别和类簇同质级别的联合学习。

在一实施例中,可以将第一损失参数和第二损失参数输入目标损失函数,得到目标损失参数,根据每次得到的目标损失参数对特征提取网络的网络参数进行调整,同时根据网络参数调整后的目标损失参数确实是否满足停止训练条件,并在满足停止训练条件时,停止训练得到训练后的特征提取网络。此处的满足停止训练条件可以是指网络参数调整后得到的目标损失参数小于或者等于预设损失参数阈值,或者达到预设的训练次数。利用训练后的特征提取网络可以对数据结构图中的单一关系和群组关系进行联合建模,实现信息增强。

如下述表1所示,显示了采用本方法得到的特征提取网络对数据集1和数据集2进行图聚类的实验结果。数据集1和数据集2分别包含数万用户、数万用户中两个用户之间的好友关系,以及数万用户中用户之间的群组关系。由表1可知,本方法得到的特征提取网络相比于图聚类算法:DeepWalk(将随机游走和word2vec两种算法相结合的图结构数据挖掘算法),ComE(基于社区嵌入学习的节点表示学习方法),CDE(基于非负矩阵分解优化的社区结构嵌入编码方法),vGraph(联合节点检测与节点表示的概率生成模型),DAEGC(深度注意嵌入式图聚类算法),AGC(Attributed GraphClustering via Adaptive GraphConvolution,基于自适应图卷积的属性图聚类算法)以及SDCN(Structural DeepClustering Network,结构性深度聚类网络)而言,具有最佳的聚类表现。

表1

另外,如图7所示,左边CCG1显示了特征提取网络仅利用数据集1中的好友关系进行图聚类,以及右边CCG2显示了特征提取网络利用数据集1中的好友关系和群组关系进行图聚类的实验结果,可知,使用群组信息可以提高图聚类的准确性。

在本申请实施例中,根据训练数据结构图中的节点的特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征确定第一损失参数,以及根据训练数据结构图中的节点对应的同质性群组特征和异质性群组特征确定第二损失参数,然后结合该第一损失参数和该第二损失参数对特征提取网络进行训练,可以使得特征提取网络实现类簇同质级别和群组同质级别的联合学习,采用本方法得到的特征提取网络可以对数据结构图中的单一关系和群组关系进行联合建模,实现信息增强,提高特征的有效性,从而有效提高数据结构图的聚类准确性。另外,利用采用上述方式训练得到的特征提取网络对数据结构图进行聚类处理,可以有效提高数据结构图的聚类准确性和聚类处理效率。

上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。请参见图8,图8是本申请一个示例性实施例提供的一种数据处理装置的结构示意图,该数据处理装置80可以包括:

获取单元801,用于获取待处理数据结构图,所述待处理数据结构图包括M个节点、所述M个节点中具有第一类关联关系的节点之间的连接边、以及N个群组标识,每一个群组标识所指示的群组中的节点之间具有第二类关联关系;

处理单元802,用于利用特征提取网络对所述待处理数据结构图中的第一节点进行特征提取,得到所述第一节点的第一特征,根据所述第一特征确定所述第一节点的聚类结果,所述第一节点为所述待处理数据结构图中的任一节点;

其中,所述特征提取网络是对利用训练数据结构图进行训练的过程中确定的目标损失参数训练得到的,所述目标损失参数是根据第一损失参数和第二损失参数确定的;所述第一损失参数是根据第二特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征确定的,所述第二特征是训练过程中所述特征提取网络针对第二节点确定的,所述第二节点为所述训练数据结构图中的任一节点;所述第二损失参数是根据所述第二节点对应的同质性群组特征和异质性群组特征确定的,所述同质性群组特征是根据所述训练数据结构图中所述第二节点所属的群组的群组融合特征确定的,所述异质性群组特征是根据所述训练数据结构图中不包括所述第二节点的群组的群组融合特征确定的。

在一实施例中,所述处理单元802,具体用于:

利用所述待处理数据结构图确定所述第一节点对应的子数据结构图,所述子数据结构图包括所述第一节点以及与所述第一节点具有所述第一类关联关系的节点;

利用所述特征提取网络对所述子数据结构图进行分析处理,得到所述第一节点的第一特征。

在一实施例中,所述处理单元802,具体用于:

确定所述第一特征与目标类簇中心集所包括的各个目标类簇中心之间的相似度;

根据所述第一特征与所述各个目标类簇中心之间的相似度,确定所述第一节点和所述各个目标类簇中心所对应类簇之间的匹配概率;

将所述各个目标类簇中心所对应类簇中与所述第一节点之间的匹配概率最大的类簇,确定为所述第一节点的聚类结果。

在一实施例中,所述处理单元802,具体用于:

利用所述特征提取网络对所述训练数据结构图包括的各个节点进行特征提取,得到所述训练数据结构图包括的各个节点的特征;

根据所述训练数据结构图包括的各个节点的特征、以及所述训练数据结构图包括的各个节点与待调整参考类簇中心之间的匹配概率,确定新的参考类簇中心;其中,所述待调整参考类簇中心为所述参考类簇中心集所包括的任一参考类簇中心;

将所述待调整参考类簇中心替换为新的参考类簇中心。

在一实施例中,所述处理单元802,具体用于:

确定所述第二特征与所述参考类簇中心集包括的各个参考类簇中心之间的相似度;

根据所述第二特征与所述各个参考类簇中心之间的相似度,确定所述第二节点与所述各个参考类簇中心所对应类簇之间的匹配概率;

根据所述第二节点与所述各个参考类簇中心所对应类簇之间的匹配概率、以及所述各个参考类簇中心,确定所述第二特征与所述各个参考类簇中心之间的待融合类簇特征;

将所述第二特征与各个所述待融合类簇特征进行融合,确定所述第二特征与所述参考类簇中心集之间的同质性类簇特征。

在一实施例中,所述处理单元802,具体用于:

对所述同质性类簇特征中的元素的排列顺序进行调整,得到所述第二特征与所述参考类簇中心集之间的异质性类簇特征。

在一实施例中,所述处理单元802,具体用于:

利用所述特征提取网络针对所述第二节点所属的群组进行特征提取,确定所述第二节点所属的群组包括的各个节点的特征;

对所述第二节点所属的群组包括的各个节点的特征进行融合,得到所述第二节点所属的群组的群组融合特征;

根据所述群组融合特征以及所述第二节点所属的群组中的节点的数量,确定所述第二节点对应的同质性群组特征。

可以理解的是,本申请实施例所描述的数据处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。

本申请实施例中,根据训练数据结构图中的节点的特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征确定第一损失参数,以及根据训练数据结构图中的节点对应的同质性群组特征和异质性群组特征确定第二损失参数,然后结合该第一损失参数和该第二损失参数对特征提取网络进行训练,可以使得特征提取网络实现类簇同质级别和群组同质级别的联合学习,从而提高特征提取网络的聚类处理准确性。另外,利用采用上述方式训练得到的特征提取网络对数据结构图进行聚类处理,可以有效提高数据结构图的聚类准确性和聚类处理效率。

如图9所示,图9是本申请一个实施例提供的一种计算机设备的结构示意图,该计算机设备90内部结构如图9所示,包括:一个或多个处理器901、存储器902、通信接口903。上述处理器901、存储器902和通信接口903可通过总线904或其他方式连接,本申请实施例以通过总线904连接为例。

其中,处理器901(或称CPU(Central Processing Unit,中央处理器))是计算机设备90的计算核心以及控制核心,其可以解析计算机设备90内的各类指令以及处理计算机设备90的各类数据,例如:CPU可以用于解析用户向计算机设备90所发送的开关机指令,并控制计算机设备90进行开关机操作;再如:CPU可以在计算机设备90内部结构之间传输各类交互数据,等等。通信接口903可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等),受处理器901的控制用于收发数据。存储器902(Memory)是计算机设备90中的记忆设备,用于存放第一计算机程序和数据。可以理解的是,此处的存储器902既可以包括计算机设备90的内置存储器,当然也可以包括计算机设备90所支持的扩展存储器。存储器902提供存储空间,该存储空间存储了计算机设备90的操作系统,可包括但不限于:Windows系统、Linux系统等等,本申请对此并不作限定。具体地,处理器901通过运行存储器902中存储的第一计算机程序,执行如下操作:

获取待处理数据结构图,所述待处理数据结构图包括M个节点、所述M个节点中具有第一类关联关系的节点之间的连接边、以及N个群组标识,每一个群组标识所指示的群组中的节点之间具有第二类关联关系;

利用特征提取网络对所述待处理数据结构图中的第一节点进行特征提取,得到所述第一节点的第一特征,根据所述第一特征确定所述第一节点的聚类结果,所述第一节点为所述待处理数据结构图中的任一节点;

其中,所述特征提取网络是对利用训练数据结构图进行训练的过程中确定的目标损失参数训练得到的,所述目标损失参数是根据第一损失参数和第二损失参数确定的;所述第一损失参数是根据第二特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征确定的,所述第二特征是训练过程中所述特征提取网络针对第二节点确定的,所述第二节点为所述训练数据结构图中的任一节点;所述第二损失参数是根据所述第二节点对应的同质性群组特征和异质性群组特征确定的,所述同质性群组特征是根据所述训练数据结构图中所述第二节点所属的群组的群组融合特征确定的,所述异质性群组特征是根据所述训练数据结构图中不包括所述第二节点的群组的群组融合特征确定的。

在一实施例中,所述处理器901,具体用于:

利用所述待处理数据结构图确定所述第一节点对应的子数据结构图,所述子数据结构图包括所述第一节点以及与所述第一节点具有所述第一类关联关系的节点;

利用所述特征提取网络对所述子数据结构图进行分析处理,得到所述第一节点的第一特征。

在一实施例中,所述处理器901,具体用于:

确定所述第一特征与目标类簇中心集所包括的各个目标类簇中心之间的相似度;

根据所述第一特征与所述各个目标类簇中心之间的相似度,确定所述第一节点和所述各个目标类簇中心所对应类簇之间的匹配概率;

将所述各个目标类簇中心所对应类簇中与所述第一节点之间的匹配概率最大的类簇,确定为所述第一节点的聚类结果。

在一实施例中,所述处理器901,具体用于:

利用所述特征提取网络对所述训练数据结构图包括的各个节点进行特征提取,得到所述训练数据结构图包括的各个节点的特征;

根据所述训练数据结构图包括的各个节点的特征、以及所述训练数据结构图包括的各个节点与待调整参考类簇中心之间的匹配概率,确定新的参考类簇中心;其中,所述待调整参考类簇中心为所述参考类簇中心集所包括的任一参考类簇中心;

将所述待调整参考类簇中心替换为新的参考类簇中心。

在一实施例中,所述处理器901,具体用于:

确定所述第二特征与所述参考类簇中心集包括的各个参考类簇中心之间的相似度;

根据所述第二特征与所述各个参考类簇中心之间的相似度,确定所述第二节点与所述各个参考类簇中心所对应类簇之间的匹配概率;

根据所述第二节点与所述各个参考类簇中心所对应类簇之间的匹配概率、以及所述各个参考类簇中心,确定所述第二特征与所述各个参考类簇中心之间的待融合类簇特征;

将所述第二特征与各个所述待融合类簇特征进行融合,确定所述第二特征与所述参考类簇中心集之间的同质性类簇特征。

在一实施例中,所述处理器901,具体用于:

对所述同质性类簇特征中的元素的排列顺序进行调整,得到所述第二特征与所述参考类簇中心集之间的异质性类簇特征。

在一实施例中,所述处理器901,具体用于:

利用所述特征提取网络针对所述第二节点所属的群组进行特征提取,确定所述第二节点所属的群组包括的各个节点的特征;

对所述第二节点所属的群组包括的各个节点的特征进行融合,得到所述第二节点所属的群组的群组融合特征;

根据所述群组融合特征以及所述第二节点所属的群组中的节点的数量,确定所述第二节点对应的同质性群组特征。

具体实现中,本申请实施例中所描述的处理器901、通信接口902及存储器903可执行本申请实施例提供的一种数据处理方法中所描述的计算机设备的实现方式,也可执行本申请实施例提供的一种数据处理装置中所描述的实现方式,在此不再赘述。

本申请实施例中,根据训练数据结构图中的节点的特征与参考类簇中心集之间的同质性类簇特征和异质性类簇特征确定第一损失参数,以及根据训练数据结构图中的节点对应的同质性群组特征和异质性群组特征确定第二损失参数,然后结合该第一损失参数和该第二损失参数对特征提取网络进行训练,可以使得特征提取网络实现类簇同质级别和群组同质级别的联合学习,从而提高特征提取网络的聚类处理准确性。另外,利用采用上述方式训练得到的特征提取网络对数据结构图进行聚类处理,可以有效提高数据结构图的聚类准确性和聚类处理效率。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如本申请实施例所述的数据处理方法。其具体实现方式可参考前文描述,此处不再赘述。

本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现本申请实施例提供的数据处理方法的步骤。其具体实现方式可参考前文描述,此处不再赘述。

本申请实施例还提供了一种计算机程序,所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的数据处理方法。其具体实现方式可参考前文描述,此处不再赘述。

需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。

以上所揭露的仅为本申请部分实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

技术分类

06120113791785