掌桥专利:专业的专利平台
掌桥专利
首页

聚类模型的训练方法、装置、电子设备和存储介质

文献发布时间:2024-04-18 20:02:40


聚类模型的训练方法、装置、电子设备和存储介质

技术领域

本发明涉及机器学习技术领域,尤其涉及一种聚类模型的训练方法、装置、电子设备和存储介质。

背景技术

联邦学习的方式旨在确保信息安全、维护终端和个人数据隐私、保障合法合规流程,实现多参与方或多计算节点中的高效、安全、可靠的机器学习模型构建。联邦学习整合了隐私保护手段,以建立正向的数据交易机制,从而可靠地连接数据孤岛,其主要可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。在传统的横向联邦学习应用在聚类这类无监督机器学习方法中,由于在联邦学习思想下,各参与方需要进行标签和数据的共享。

但是,无监督机器学习是无明确的目的与数据标签,且各参与方存在数据安全和隐私,无法直接将各参与方的数据预测结果进行共享。由此无法量化其聚类模型的训练效果,导致训练得到的聚类模型的模型性能不太理想。

发明内容

本发明提供一种聚类模型的训练方法、装置、电子设备和存储介质,用以解决现有技术中无法量化其聚类模型的训练效果,导致训练得到的聚类模型的模型性能不太理想的缺陷。

本发明提供一种聚类模型的训练方法,应用于发起方,包括:

接收多个参与方分别发送的当前轮次的类簇聚类模型、类簇和伪标签,所述类簇是基于所述类簇聚类模型对样本数据进行聚类得到的;

对所述多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于所述多个参与方的所述伪标签,对所述多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数;

将所述全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以使各参与方基于所述全局聚类模型以及下一轮次的更新簇参数对当前轮次的类簇聚类模型进行更新,得到下一轮次的类簇聚类模型、类簇和伪标签并返回,直至达到终止条件。

根据本发明提供的一种的聚类模型的训练方法,基于所述多个参与方的所述伪标签,对所述多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数,包括:

基于所述多个参与方的伪标签之间的相似度,对所述多个参与方的类簇进行全局重分类,得到全局类簇;

基于所述各参与方的类簇的簇参数以及所述全局类簇的簇参数,得到下一轮次的多个参与方的更新簇参数。

根据本发明提供的一种的聚类模型的训练方法,所述基于所述多个参与方的伪标签之间的相似度,对所述多个参与方的类簇进行全局重分类,得到全局类簇,之后还包括:

基于评估指标,对所述全局类簇进行重评估,得到评估类簇;所述评估指标包含通用指标,以及所述各参与方对应的个性化指标;

所述基于所述各参与方的类簇的簇参数以及所述全局类簇的簇参数,得到下一轮次的多个参与方的更新簇参数,包括:

基于所述各参与方的类簇的簇参数以及所述评估类簇的簇参数,得到下一轮次的多个参与方的更新簇参数。

根据本发明提供的一种的聚类模型的训练方法,所述对所述多个参与方的类簇聚类模型进行融合,得到全局聚类模型,包括:

基于所述多个参与方的聚类预测结果,以及所述多个参与方的融合权重,得到所述各类簇的待融合簇参数;

对所述各类簇的待融合簇参数进行融合,得到所述全局聚类模型。

本发明还提供一种聚类模型的训练方法,应用于参与方,包括:

接收发起方发送的全局聚类模型、以及当前轮次的更新簇参数,所述全局聚类模型是所述发起方对多个参与方的上一轮次的类簇聚类模型进行融合得到的,所述当前轮次的更新簇参数是所述发起方基于所述多个参与方的上一轮次的伪标签,对所述多个参与方的上一轮次的类簇进行重分类得到的;

基于所述全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型;

基于所述当前轮次的类簇聚类模型,对样本数据进行聚类,得到所述当前轮次的类簇;

将所述当前轮次的类簇聚类模型、类簇和伪标签返回所述发起方,直至达到终止条件。

根据本发明提供的一种的聚类模型的训练方法,所述基于所述全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型,包括:

基于当前轮次的更新簇参数,确定本地更新类簇;

基于所述全局聚类模型,对上一轮次的类簇聚类模型进行梯度更新,得到更新类簇聚类模型;

基于所述本地更新类簇对应的类簇聚类模型以及所述更新类簇聚类模型,得到待迭代类簇聚类模型;

对所述待迭代类簇聚类模型进行迭代,得到当前轮次的类簇聚类模型。

根据本发明提供的一种的聚类模型的训练方法,所述基于当前轮次的更新簇参数,确定本地更新类簇,包括:

基于当前轮次的更新簇参数,更新与所述更新簇参数相对应的类簇聚类模型的簇参数,得到簇间更新簇参数;

基于各簇间更新簇参数之间的余弦距离,确定所述本地更新类簇。

本发明还提供一种聚类模型的训练装置,所述装置应用于发起方,包括:

第一接收单元,接收多个参与方分别发送的当前轮次的类簇聚类模型、类簇和伪标签,所述类簇是基于所述类簇聚类模型对样本数据进行聚类得到的;

融合重分类单元,对所述多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于所述多个参与方的所述伪标签,对所述多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数;

第一发送单元,将所述全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以使各参与方基于所述全局聚类模型以及下一轮次的更新簇参数对当前轮次的类簇聚类模型进行更新,得到下一轮次的类簇聚类模型、类簇和伪标签并返回,直至达到终止条件。

本发明还提供一种聚类模型的训练装置,所述装置应用于参与方,包括:

第二接收单元,接收发起方发送的全局聚类模型、以及当前轮次的更新簇参数,所述全局聚类模型是所述发起方对多个参与方的上一轮次的类簇聚类模型进行融合得到的,所述当前轮次的更新簇参数是所述发起方基于所述多个参与方的上一轮次的伪标签,对所述多个参与方的上一轮次的类簇进行重分类得到的;

更新单元,基于所述全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型;

聚类单元,基于所述当前轮次的类簇聚类模型,对样本数据进行聚类,得到所述当前轮次的类簇;

第二发送单元,将所述当前轮次的类簇聚类模型、类簇和伪标签返回所述发起方,直至达到终止条件。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述聚类模型的训练方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述聚类模型的训练方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述聚类模型的训练方法。

本发明提供的聚类模型的训练方法、装置、电子设备和存储介质,通过接收多个参与方的伪标签、类簇聚类模型、类簇,对多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于多个参与方的伪标签,对多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数,并将全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以更新各参与方的类簇聚类模型,直至各参与方的类簇聚类模型达到终止条件,实现了使用伪标签和重训练迭代方法,提升了类簇聚类模型的训练效果以及模型性能,同时也增强了模型的可评估性,使得得到的类簇聚类模型更加贴近参与方的实际需求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的应用于发起方的聚类模型的训练方法的流程示意图;

图2是本发明提供的模型融合以及类簇重分类方法的流程示意图;

图3是本发明提供的应用于参与方的聚类模型的训练方法的流程示意图;

图4是本发明提供的融合参与方类簇聚类模型的簇参数的流程示意图;

图5是本发明提供的联邦场景下聚类模型的训练方法的流程示意图;

图6是本发明提供的应用于发起方的聚类模型的训练装置的结构示意图;

图7是本发明提供的应用于参与方的聚类模型的训练装置的结构示意图;

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

联邦学习是一项基于近年来新兴的人工智能技术,如今已经取得了巨大的发展,并被广泛应用于不同行业和领域。比如,在市场营销中,聚类模型可以帮助企业根据客户的购买行为、消费习惯和偏好将客户划分为不同的群体。这有助于企业制定更有效的营销策略,提高客户满意度和忠诚度。举例来说,电商公司可以使用聚类模型将客户分为高价值客户、潜在客户和流失客户等不同群体,然后针对每个群体采取相应的营销策略。针对联邦场景,多个电商公司可以在保护数据隐私的基础上,联合多方数据形成多个聚类模型,最终根据各聚类模型输出的用户分类为用户进行个性化推荐。

传统联邦学习的方案如下:步骤1、准备阶段,设立一架中心服务器用于进行各联邦学习节点之间的消息传递及模型初始化。各节点准备各自的数据与标签。步骤2、模型训练,每个节点用自己域内的数据与中心服务器下发的模型进行局部模型训练,并将训练好的参数发送至中心服务器。步骤3、模型更新共享,中心服务器对各节点发送过来的模型参数进行融合,常用的融合方法有FedAvg等,融合后再将模型分发给各参与方。在迭代优化阶段重复步骤2-3对全局模型进行迭代优化直至达到中心服务器预置好的终止条件,最后得到保护数据隐私场景下各参与方的全局模型。

但是,无监督机器学习是无明确的目的与数据标签,且各参与方存在数据安全和隐私,无法直接将各参与方的数据预测结果进行共享。由此无法量化其聚类模型的训练效果,导致训练得到的聚类模型的模型性能不太理想,无法对最终得到的聚类模型进行评估。

针对上述问题,本发明提供了一种聚类模型的训练方法,应用于发起方,以实现在联邦场景下训练得到各参与方的可评估、性能优良的聚类模型。图1是本发明提供的应用于发起方的聚类模型的训练方法的流程示意图,如图1所示,该方法包括:

步骤110,接收多个参与方分别发送的当前轮次的类簇聚类模型、类簇和伪标签,所述类簇是基于所述类簇聚类模型对样本数据进行聚类得到的;

此处,发起方可以是中心服务器,可以作为中心节点与各参与方相连接进行数据传输。在联邦学习中,发起方与参与方通过相互配合,对参与方的类簇聚类模型进行多次更新,最后得到符合质量要求的类簇聚类模型。此处,类簇聚类模型指的是参与方通过接收发起方下发的初始聚类模型,通过初始层次聚类模型对参与方私有的样本数据进行聚类,得到各类簇对应的类簇聚类模型。类簇聚类模型可以是对样本数据是否属于该类簇进行预测。需说明的是,参与方对样本数据进行聚类,可以得到多个类簇以及各类簇对应的类簇聚类模型。并且,各参与方的样本数据是各自独有的,相互之间是不进行共享的无标签数据。在各参方的类簇聚类模型的训练阶段,可以将样本数据进行预划分好的训练集、验证集及测试集。

在实际应用场景中,样本数据可以是参与方私有的用户消费数据,可以通过初始层次聚类模型对样本数据进行聚类,得到各高价值客户、潜在客户、流失客户等类簇对应的类簇聚类模型,通过各类簇聚类模型输出该样本数据是否是属于对应类簇的概率。比如,可以通过高价值客户聚类模型输出该客户是否属于高价值客户。由此,此处的类簇可以反映参与方对样本数据进行聚类得到的各类簇的分类情况,比如参与方对样本数据进行聚类得到的各个类簇。可以理解的是,此处的类簇还可以包含类簇聚类模型对样本数据进行聚类得到的是否属于该类簇的预测概率,即聚类预测结果。

需说明的是,针对单个参与方的类簇聚类模型,可以是包含单个或多个类簇对应的类簇聚类模型,比如参与方1-类簇a聚类模型、参与方1-类簇b聚类模型、参与方1-类簇c聚类模型。针对多个参与方的类簇聚类模型,可以是包含来自不同参与方针对相同类簇的类簇聚类模型以及不通过类簇的类簇聚类模型,比如,存在参与方1-类簇a聚类模型、参与方1-类簇b聚类模型、参与方2-类簇a聚类模型、参与方1-类簇f聚类模型。其中,参与方1与参与方2都存在类簇a聚类模型,但参与方1存在参与方2不存在的类簇b聚类模型、参与方2存在参与方1类簇f聚类模型。

另外,伪标签可以反映参与方的预期类簇,可以通过参与方的个性化需求和客户特性,定义并形成预期类簇,将此预期类簇可以作为伪标签。并且,可以通过各参与方的伪标签对各参与方的类簇进行标记,即将类簇1标记为类簇a,此处的a即为该参与方的预测类簇。举例来说,此处的伪标签可以是高价值客户、潜在客户、流失客户等。

需说明的是,针对无监督的聚类模型的训练,伪标签可以作为聚类效果评估的评估依据,有助于提高类簇聚类模型性能,同时也增强了类簇聚类模型的可评估性,使得能够训练得到各参与方的目标聚类模型,即得到符合各客户端实际需求的目标聚类模型,以便每个参与方可以针对自己特定的客户群体制定更有效的营销策略。可以理解的是,若不存在伪标签,则无法在训练过程中对参与方的类簇聚类模型进行评估是否是参与方所需的聚类模型,无法评估进行聚类得到的各类簇是否是目标类簇。同时,也无法提升目标类簇对应的类簇聚类模型的模型性能,使得最后各参与方得到的类簇聚类模型无法保证是所需的类簇聚类模型,更加无法保证得到的所需的类簇聚类模型的模型性能。

步骤120,对所述多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于所述多个参与方的所述伪标签,对所述多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数;

此处,全局聚类模型可以表示将多各参与方针对各类簇的类簇聚类模型进行融合,得到对多个参与方的样本数据进行聚类效果最佳的全局聚类模型。另外,此处下一轮次的多个参与方的更新簇参数指的是对各参与方上一轮次的类簇聚类模型进行更新的模型参数,可以通过在对类簇进行重分类后,将重分类后的类簇对应的类簇聚类模型的模型参数作为各自参与方的更新簇参数。

具体地,可以通过将多个参与方的类簇聚类模型进行融合,将不同类簇的类簇聚类模型进行融合,得到全局聚类模型。需说明的是,在针对数个参与方相同类簇的类簇聚类模型进行融合时,可以通过选取最高票即可信度最高的类簇聚类模型,作为该类簇的类簇聚类模型进行融合。另外,在完成多个参与方的类簇聚类模型的融合,得到全局聚类模型后,还可以通过多个参与方的伪标签,对多个参与方的类簇进行重分类,并将重分类后的类簇对应的类簇聚类模型的模型参数作为各参与方的更新簇参数。此处进行重分类可以是通过伪标签之间的相似度,比如可以通过伪标签将多个极小类簇重分类为一个类簇。还可以将极大类簇进行划分为多个类簇。

图2是本发明提供的模型融合以及类簇重分类方法的流程示意图,如图2所示,该方法包括:首先,发起方接收来自各参与方的聚类信息。此处的聚类信息包含各类簇的伪标签,比如类簇a;类簇与参与方之间的关系,比如类簇a(参与方1);类簇以及类簇对应的类簇聚类模型。如图2所示,各参与方的聚类信息包含类簇a(参与方1)、类簇b(参与方1)、类簇a(参与方2)、类簇c(参与方2)、类簇e(参与方3)、类簇d(参与方3)、类簇f(参与方4)等。接着,整合各发起方聚类信息,形成全局聚类模型。

进一步地,根据各类簇的伪标签冲划分新的类簇。举例来说,当类簇a、类簇c的伪标签之间的相似度较高时,可以将类簇a(参与方1)、类簇a(参与方2)、类簇c(参与方2)对应的类簇聚类模型的簇参数进行融合,即合并类簇,对g

需说明的是,通过伪标签对多个参与方的类簇进行重分类,可以在基于多个参与方不同的样本数据进行聚类的情况下,优化得到的类簇,使得类簇更加均匀,进而提升得到的类簇聚类模型的模型性能。

步骤130,将所述全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以使各参与方基于所述全局聚类模型以及下一轮次的更新簇参数对当前轮次的类簇聚类模型进行更新,得到下一轮次的类簇聚类模型、类簇和伪标签并返回,直至达到终止条件。

具体地,发起方可以将全局聚类模型发送至各参与方,并且,可以根据当前轮次的类簇与各参与方的对应关系,将下一轮次的各参与方的更新簇参数发送至对应参与方,以使得各参与方通过全局聚类模型以及下一轮次更新簇参数,对各参与方当前轮次的类簇聚类模型进行更新,并通过各参与方独有的样本数据对更新后的类簇聚类模型进行迭代,得到下一轮次的类簇聚类模型、类簇和伪标签,并将下一轮次的类簇聚类模型、类簇和伪标签并返回至发起方,直至达到循环的终止条件。此处,终止条件可以指的是参与方的类簇聚类模型的个数、性能、或者训练时间、循环次数等条件。终止条件可以是发起方进行定义的收敛条件。比如可以是选用自底向上的凝结层次聚类,终止条件为得到小于n的类簇个数;或选用自顶向下的分裂层次聚类,终止条件为得到大于n的类簇个数;或选用邻域半径为a,最小样本数为b的DBSCAN等聚类方案。

需说明的是,发起方可以将终止条件发送至各参与方,通过参与方在接收到发起方下发的全聚聚类模型以及更新簇参数后,对本地的类簇聚类模型的簇参数进行参数更新,并判断更新后的簇参数是否满足终止条件。当满足终止条件时,即不返回下一轮次的类簇聚类模型、类簇和伪标签;当未满足终止条件时,返回下一轮次的类簇聚类模型、类簇和伪标签。

本发明实施例提供的方法,通过接收多个参与方的伪标签、类簇聚类模型、类簇,对多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于多个参与方的伪标签,对多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数,并将全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以更新各参与方的类簇聚类模型,直至各参与方的类簇聚类模型达到终止条件,实现了使用伪标签和重训练迭代方法,提升了类簇聚类模型的训练效果以及模型性能,同时也增强了模型的可评估性,使得得到的类簇聚类模型更加贴近参与方的实际需求。

可以理解的是,在各参与方的样本数据为异质时,全局聚类模型会偏向样本数据的数据集较大的参与方的数据特征,从而导致模型偏差,使得模型的性能下降。针对此问题,基于上述任一实施例,步骤120中,基于所述多个参与方的所述伪标签,对所述多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数,包括:

基于所述多个参与方的伪标签之间的相似度,对所述多个参与方的类簇进行全局重分类,得到全局类簇;

基于所述各参与方的类簇的簇参数以及所述全局类簇的簇参数,得到下一轮次的多个参与方的更新簇参数。

此处,全局类簇可以表示多个参与方的类簇进行再次重分类后得到的类簇,可以将多个参与方得类簇进行融合。另外,此处各参与方的类簇的簇参数指的可以是各参与方的类簇对应的类簇聚类模型的模型参数;全局类簇的簇参数指的可以是全局类簇对应的类簇聚类模型的模型参数。

具体地,可以通过计算多个参与方的伪标签之间的相似度,将相似度大于预设阈值的伪标签对应的类簇进行融合;对相似度小于预设阈值的伪标签对应的类簇不进行重分类,得到全局类簇。进一步地,可以通过计算各参与方的类簇的簇参数与全局类簇的簇参数的平均值,得到下一轮次的各参与方的更新簇参数。比如,可以通过以下公式计算得到:

式中,

可以理解的是,通过多个参与方的伪标签之间的相似度,可以将相似的伪标签对应的类簇进行凝结,可以将极小类簇进行凝结,以使得极小类簇对应的类簇聚类模型的模型参数更加丰富,进而提升类簇聚类模型的模型性能。

可以理解的是,联邦学习场景下多数为非独立同分布的样本数据,而对于聚类场景下,由于每个参与方的样本数据都呈现不同的类簇特征,类簇聚类模型会更倾向于将每个样本数据分为一个类簇,从而导致聚类效果不佳。针对此问题,基于上述任一实施例,基于所述多个参与方的伪标签之间的相似度,对所述多个参与方的类簇进行全局重分类,得到全局类簇,之后还包括:

基于评估指标,对所述全局类簇进行重评估,得到评估类簇;所述评估指标包含通用指标,以及所述各参与方对应的个性化指标;

所述基于所述各参与方的类簇的簇参数以及所述全局类簇的簇参数,得到下一轮次的多个参与方的更新簇参数,包括:

基于所述各参与方的类簇的簇参数以及所述评估类簇的簇参数,得到下一轮次的多个参与方的更新簇参数。

此处,评估指标包含通用指标,以及各参与方对应的个性化指标。此处的通用指标可以反映各类簇的类簇质量标准,可以包含DB指数、CH指数。可以理解的是,若类簇的质量越高,则可以不对该类簇进行重分类;若类簇的质量越低,则可以对该类簇进行重分类。另外,个性化指标可以是各参与方根据自身实际需求设定的类簇个数、种类,比如,参与方1需要获取至少3个类簇的类簇聚类模型。

具体地,可以在得到全局类簇后,通过评估指标对全局类簇进行评估,得到评估类簇。比如,可以是将质量不好的类簇进行凝结,或者通过个性化指标对极大的类簇进行拆分,或者对极小的类簇进行凝结。进一步地,可以通过计算各参与方的类簇的簇参数以及评估类簇的簇参数的平均值,得到下一轮次的各参与方的更新簇参数。

本发明实施例提供的方法,基于联邦学习的聚类重分类方式,进行了个性化的类簇选择,减少了在数据非独立同分布情况下导致的数据聚簇分配不平衡的现象。

基于上述任一实施例,所述对所述多个参与方的类簇聚类模型进行融合,得到全局聚类模型,包括:

基于所述多个参与方的聚类预测结果,以及所述多个参与方的融合权重,得到所述各类簇的待融合簇参数;

对所述各类簇的待融合簇参数进行融合,得到所述全局聚类模型。

此处,聚类预测结果指的是类簇聚类模型对样本数据进行聚类得到的是否属于该类簇的预测概率,比如,高价值客户聚类模型预测该客户为高价值客户的概率为0.8。此处的多个参与方的融合权重可以反映各参与方的类簇聚类模型的预测可信度,可以是是预先设置得到,使∑

具体地,对多个参与方的类簇聚类模型进行融合,将不同类簇的类簇聚类模型进行融合,得到全局聚类模型。其中,针对多个参与方存在相同的类簇聚类模型时,可以通过选取最高票即可信度最高的类簇聚类模型,作为该相同类簇的类簇聚类模型以进行融合。比如可以通过以下公式实现选取最高票的类簇聚类模型:

式中,H(x)表示全局聚类模型对样本数据的预测结果;

需说明的是,若存在多个参与方针对相同类簇的类簇聚类模型的置信度是相同的,则可以随机选取一个参与方的类簇聚类模型作为该类簇的类簇聚类模型,以进行全局聚类模型的融合。

可以理解的是,将多个参与方的类簇聚类模型进行融合,得到置信度最高的全局聚类模型,提升了全局聚类模型的模型性能,进而提升各参与方的下一轮次的类簇聚类模型的模型性能。另外,使得单个参与方单独学习得到的单一聚类模型经过发起方的聚合最终形成联邦下场景下融合多参与方数据特征的多重单簇模型。相比于在整套联邦流程后形成一个全局聚类模型,能更好地捕获经过不同参与方样本数据训练后的能归为一类单一簇的特征,从而提高模型的适应性和泛化能力。

基于上述任一实施例,图3是本发明提供的应用于参与方的聚类模型的训练方法的流程示意图,如图3所示,该方法包括:

步骤310,接收发起方发送的全局聚类模型、以及当前轮次的更新簇参数,所述全局聚类模型是所述发起方对多个参与方的上一轮次的类簇聚类模型进行融合得到的,所述当前轮次的更新簇参数是所述发起方基于所述多个参与方的上一轮次的伪标签,对所述多个参与方的上一轮次的类簇进行重分类得到的;

此处,发起方可以是客户端。此处的全局聚类模型可以表示将多各参与方针对各类簇的类簇聚类模型进行融合,得到对多个参与方的样本数据进行聚类效果最佳的全局聚类模型。另外,此处当前轮次的各参与方的更新簇参数指的是对各参与方上一轮次的类簇聚类模型进行更新的模型参数,可以通过在对上一轮次的类簇进行重分类后,将重分类后的类簇对应的类簇聚类模型的模型参数作为当前轮次的各参与方的更新簇参数。

此处的类簇聚类模型可以指的是参与方通过接收发起方下发的初始聚类模型,通过初始层次聚类模型对参与方私有的样本数据进行聚类,得到各类簇对应的类簇聚类模型。类簇聚类模型可以是对样本数据是否属于该类簇进行预测。需说明的是,参与方对样本数据进行聚类,可以得到多个类簇以及各类簇对应的类簇聚类模型。并且,各参与方的样本数据是各自独有的,相互之间是不进行共享的无标签数据。在各参方的类簇聚类模型的训练阶段,可以将样本数据进行预划分好的训练集、验证集及测试集。

另外,伪标签可以反映参与方的预期类簇,可以通过参与方的个性化需求和客户特性,定义并形成预期类簇,将此预期类簇可以作为伪标签。并且,可以通过各参与方的伪标签对各参与方的类簇进行标记,即将类簇1标记为类簇a,此处的a即为该参与方的预测类簇。举例来说,此处的伪标签可以是高价值客户、潜在客户、流失客户等。

具体地,可以通过将多个参与方的类簇聚类模型进行融合,将不同类簇的类簇聚类模型进行融合,得到全局聚类模型。需说明的是,在针对数个参与方相同类簇的类簇聚类模型进行融合时,可以通过选取最高票即可信度最高的类簇聚类模型,作为该类簇的类簇聚类模型进行融合。另外,在完成多个参与方的类簇聚类模型的融合,得到全局聚类模型后,还可以通过多个参与方的伪标签,对多个参与方的类簇进行重分类,并将重分类后的类簇对应的类簇聚类模型的模型参数作为各参与方的更新簇参数。此处进行重分类可以是通过伪标签之间的相似度,比如可以通过伪标签将多个极小类簇重分类为一个类簇。还可以将极大类簇进行划分为多个类簇。

步骤320,基于所述全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型;

具体地,可以通过全局聚类模型对当前轮次的更新簇参数进行局部梯度更新,得到更新后的类簇聚类模型。另外,还可以通过当前轮次的更新簇参数对样本数据进行重新聚类,得到样本数据新的类簇对应的类簇聚类模型。由此,可以将更新后的类簇聚类模型,以及新的类簇对应的类簇聚类模型,作为当前轮次的类簇聚类模型。需说明的是,利用全局聚类模型与重分类后融合的更新簇参数在参与方进行簇参数更新的机制,有效地实现了簇间的全局知识共享。

步骤330,基于所述当前轮次的类簇聚类模型,对样本数据进行聚类,得到所述当前轮次的类簇;

步骤340,将所述当前轮次的类簇聚类模型、类簇和伪标签返回所述发起方,直至达到终止条件。

此处,终止条件可以指的是参与方的类簇聚类模型的个数、性能、或者训练时间、循环次数等条件。终止条件可以是发起方进行定义的收敛条件。比如可以是选用自底向上的凝结层次聚类,终止条件为得到小于n的类簇个数;或选用自顶向下的分裂层次聚类,终止条件为得到大于n的类簇个数;或选用邻域半径为a,最小样本数为b的DBSCAN等聚类方案。

具体地,通过当前轮次的类簇聚类模型,对样本数据中的验证集进行聚类,得到当前轮次的类簇。并且,参与方将当前轮次的类簇聚类模型、类簇和伪标签返回发起方。

本发明实施例提供的方法,通过接收发起方发送的全局聚类模型、以及当前轮次的更新簇参数,并通过全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型,基于当前轮次的类簇聚类模型,对样本数据进行聚类,得到当前轮次的类簇,并将当前轮次的类簇聚类模型、类簇和伪标签返回发起方,直至达到终止条件,实现了使用伪标签和重训练迭代方法,提升了类簇聚类模型的训练效果以及模型性能,同时也增强了模型的可评估性,使得得到的类簇聚类模型更加贴近参与方的实际需求。

基于上述任一实施例,步骤320包括:

基于当前轮次的更新簇参数,确定本地更新类簇;

基于所述全局聚类模型,对上一轮次的类簇聚类模型进行梯度更新,得到更新类簇聚类模型;

基于所述本地更新类簇对应的类簇聚类模型以及所述更新类簇聚类模型,得到待迭代类簇聚类模型;

对所述待迭代类簇聚类模型进行迭代,得到当前轮次的类簇聚类模型。

此处,本地更新类簇可以是基于更新簇参数对上一轮次相应的类簇聚类模型的簇参数进行簇参数更新,并使用更新后的簇参数对样本数据进行重新聚类,得到的新的类簇,比如可以是将类簇进行凝结。此处,更新类簇聚类模型可以是通过全局聚类模型对上一轮次的类簇聚类模型进行梯度更新,得到的融合全局知识的更新类簇聚类模型。

具体地,可以通过当前轮次的更新簇参数,对上一轮次相应的类簇聚类模型的簇参数进行簇参数更新,并使用更新后的簇参数对样本数据重新聚类,得到本地更新类簇。比如,可以通过以下公式进行重新聚类:

式中,

另外,通过全局聚类模型对上一轮次的类簇聚类模型执行E个局部epoch的SGD随机梯度下降,比如可以通过以下公式实现:

式中,

图4是本发明提供的融合参与方类簇聚类模型的簇参数的流程示意图,如图4所示,该方法包括:首先,各参与方接收发起方下发的更新簇参数以及全局聚类模型;接着,参与方基于上一轮次的类簇聚类模型与全局聚类模型进行局部epoch的SGD随机梯度下降,对上一轮次的类簇聚类模型进行更新,得到更新类簇聚类模型;同时,基于当前轮次的更新簇参数重新划分类簇。接着,基于本地更新类簇对应的类簇聚类模型以及所述更新类簇聚类模型,得到待迭代类簇聚类模型。最后,对待迭代类簇聚类模型进行持续迭代更新。

本发明实施例提供的方法,基于集成学习对各参与方类簇聚类模型在发起方进行簇参数融合从而形成全局聚类模型的机制,并且利用全局聚类模型与重分类后融合的更新簇参数在参与方进行簇参数更新的机制,有效地实现了簇间的全局知识共享。

基于上述任一实施例,所述基于当前轮次的更新簇参数,确定本地更新类簇,包括:

基于当前轮次的更新簇参数,更新与所述更新簇参数相对应的类簇聚类模型的簇参数,得到簇间更新簇参数;

基于各簇间更新簇参数之间的余弦距离,确定所述本地更新类簇。

具体地,可以通过当前轮次的更新簇参数,更新与更新簇参数相对应的类簇聚类模型的簇参数,得到簇间更新簇参数。接着,基于各簇间更新簇参数之间的余弦距离,对样本数据进行重聚类,确定本地更新类簇。可以理解的是,若两个簇之间的余弦距离很小,表示它们相似度高,可以将它们合并为一个簇。相反,若两个簇之间的余弦距离很大,表示它们相似度低,可以考虑将它们划分为不同的簇。此处,余弦距离可以通过以下公式计算得到:

式中,α

基于上述任一是实施例,图5是本发明提供的联邦场景下聚类模型的训练方法的流程示意图,如图5所示,该方法包括:

首先,针对发起方,发起方通过初始化层次聚类模型,并为每个参与方分配模型权重;接着,发起方将初始化层次聚类模型以及对应参数进行下发至各参与方,包括参与方1至参与方n。

针对参与方,参与方在接收下发的初始化层次聚类模型以及对应参数后,进行构建聚类模型,生成伪标签,并将伪标签分配给各类簇的聚类模型,即得到类簇a…类簇m,进而得到类簇聚类模型的簇参数、类簇和伪标签。参与方将当前轮次的类簇聚类模型的簇参数、类簇和伪标签返回发起方,直至达到终止条件。

基于上述任一实施例,图6是本发明提供的应用于发起方的聚类模型的训练装置的结构示意图,如图6所示,该装置包括:

第一接收单元610,接收多个参与方分别发送的当前轮次的类簇聚类模型、类簇和伪标签,所述类簇是基于所述类簇聚类模型对样本数据进行聚类得到的;

融合重分类单元620,对所述多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于所述多个参与方的所述伪标签,对所述多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数;

第一发送单元630,将所述全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以使各参与方基于所述全局聚类模型以及下一轮次的更新簇参数对当前轮次的类簇聚类模型进行更新,得到下一轮次的类簇聚类模型、类簇和伪标签并返回,直至达到终止条件。

本发明实施例提供的装置,通过接收多个参与方的伪标签、类簇聚类模型、类簇,对多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于多个参与方的伪标签,对多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数,并将全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以更新各参与方的类簇聚类模型,直至各参与方的类簇聚类模型达到终止条件,实现了使用伪标签和重训练迭代方法,提升了类簇聚类模型的训练效果以及模型性能,同时也增强了模型的可评估性,使得得到的类簇聚类模型更加贴近参与方的实际需求。

基于上述任一实施例,融合重分类单元具体用于:

基于所述多个参与方的伪标签之间的相似度,对所述多个参与方的类簇进行全局重分类,得到全局类簇;

基于所述各参与方的类簇的簇参数以及所述全局类簇的簇参数,得到下一轮次的多个参与方的更新簇参数。

基于上述任一实施例,融合重分类单元还具体用于:

基于评估指标,对所述全局类簇进行重评估,得到评估类簇;所述评估指标包含通用指标,以及所述各参与方对应的个性化指标;

所述基于所述各参与方的类簇的簇参数以及所述全局类簇的簇参数,得到下一轮次的多个参与方的更新簇参数,包括:

基于所述各参与方的类簇的簇参数以及所述评估类簇的簇参数,得到下一轮次的多个参与方的更新簇参数。

基于上述任一实施例,融合重分类单元具体用于:

基于所述多个参与方的聚类预测结果,以及所述多个参与方的融合权重,得到所述各类簇的待融合簇参数;

对所述各类簇的待融合簇参数进行融合,得到所述全局聚类模型。

基于上述任一实施例,图7是本发明提供的应用于参与方的聚类模型的训练装置的结构示意图,如图7所示,该装置包括:

第二接收单元710,接收发起方发送的全局聚类模型、以及当前轮次的更新簇参数,所述全局聚类模型是所述发起方对多个参与方的上一轮次的类簇聚类模型进行融合得到的,所述当前轮次的更新簇参数是所述发起方基于所述多个参与方的上一轮次的伪标签,对所述多个参与方的上一轮次的类簇进行重分类得到的;

更新单元720,基于所述全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型;

聚类单元730,基于所述当前轮次的类簇聚类模型,对样本数据进行聚类,得到所述当前轮次的类簇;

第二发送单元740,将所述当前轮次的类簇聚类模型、类簇和伪标签返回所述发起方,直至达到终止条件。

本发明实施例提供的装置,通过接收发起方发送的全局聚类模型、以及当前轮次的更新簇参数,并通过全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型,基于当前轮次的类簇聚类模型,对样本数据进行聚类,得到当前轮次的类簇,并将当前轮次的类簇聚类模型、类簇和伪标签返回发起方,直至达到终止条件,实现了使用伪标签和重训练迭代方法,提升了类簇聚类模型的训练效果以及模型性能,同时也增强了模型的可评估性,使得得到的类簇聚类模型更加贴近参与方的实际需求。

基于上述任一实施例,更新单元具体用于:

基于当前轮次的更新簇参数,确定本地更新类簇;

基于所述全局聚类模型,对上一轮次的类簇聚类模型进行梯度更新,得到更新类簇聚类模型;

基于所述本地更新类簇对应的类簇聚类模型以及所述更新类簇聚类模型,得到待迭代类簇聚类模型;

对所述待迭代类簇聚类模型进行迭代,得到当前轮次的类簇聚类模型。

基于上述任一实施例,更新单元还具体用于:

基于当前轮次的更新簇参数,更新与所述更新簇参数相对应的类簇聚类模型的簇参数,得到簇间更新簇参数;

基于各簇间更新簇参数之间的余弦距离,确定所述本地更新类簇。

图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行应用于发起方的聚类模型的训练方法,该方法包括:接收多个参与方分别发送的当前轮次的类簇聚类模型、类簇和伪标签,所述类簇是基于所述类簇聚类模型对样本数据进行聚类得到的;对所述多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于所述多个参与方的所述伪标签,对所述多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数;将所述全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以使各参与方基于所述全局聚类模型以及下一轮次的更新簇参数对当前轮次的类簇聚类模型进行更新,得到下一轮次的类簇聚类模型、类簇和伪标签并返回,直至达到终止条件。

还可以执行应用于参与方的聚类模型的训练方法,该方法包括:接收发起方发送的全局聚类模型、以及当前轮次的更新簇参数,所述全局聚类模型是所述发起方对多个参与方的上一轮次的类簇聚类模型进行融合得到的,所述当前轮次的更新簇参数是所述发起方基于所述多个参与方的上一轮次的伪标签,对所述多个参与方的上一轮次的类簇进行重分类得到的;基于所述全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型;基于所述当前轮次的类簇聚类模型,对样本数据进行聚类,得到所述当前轮次的类簇;将所述当前轮次的类簇聚类模型、类簇和伪标签返回所述发起方,直至达到终止条件。

此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的应用于发起方的聚类模型的训练方法,该方法包括:接收多个参与方分别发送的当前轮次的类簇聚类模型、类簇和伪标签,所述类簇是基于所述类簇聚类模型对样本数据进行聚类得到的;对所述多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于所述多个参与方的所述伪标签,对所述多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数;将所述全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以使各参与方基于所述全局聚类模型以及下一轮次的更新簇参数对当前轮次的类簇聚类模型进行更新,得到下一轮次的类簇聚类模型、类簇和伪标签并返回,直至达到终止条件。

还可以执行应用于参与方的聚类模型的训练方法,该方法包括:接收发起方发送的全局聚类模型、以及当前轮次的更新簇参数,所述全局聚类模型是所述发起方对多个参与方的上一轮次的类簇聚类模型进行融合得到的,所述当前轮次的更新簇参数是所述发起方基于所述多个参与方的上一轮次的伪标签,对所述多个参与方的上一轮次的类簇进行重分类得到的;基于所述全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型;基于所述当前轮次的类簇聚类模型,对样本数据进行聚类,得到所述当前轮次的类簇;将所述当前轮次的类簇聚类模型、类簇和伪标签返回所述发起方,直至达到终止条件。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的应用于发起方的聚类模型的训练方法,该方法包括:接收多个参与方分别发送的当前轮次的类簇聚类模型、类簇和伪标签,所述类簇是基于所述类簇聚类模型对样本数据进行聚类得到的;对所述多个参与方的类簇聚类模型进行融合,得到全局聚类模型,以及,基于所述多个参与方的所述伪标签,对所述多个参与方的类簇进行重分类,得到下一轮次的多个参与方的更新簇参数;将所述全局聚类模型,以及下一轮次的多个参与方的更新簇参数发送到各参与方,以使各参与方基于所述全局聚类模型以及下一轮次的更新簇参数对当前轮次的类簇聚类模型进行更新,得到下一轮次的类簇聚类模型、类簇和伪标签并返回,直至达到终止条件。

还可以执行应用于参与方的聚类模型的训练方法,该方法包括:接收发起方发送的全局聚类模型、以及当前轮次的更新簇参数,所述全局聚类模型是所述发起方对多个参与方的上一轮次的类簇聚类模型进行融合得到的,所述当前轮次的更新簇参数是所述发起方基于所述多个参与方的上一轮次的伪标签,对所述多个参与方的上一轮次的类簇进行重分类得到的;基于所述全局聚类模型以及当前轮次的更新簇参数,对上一轮次的类簇聚类模型进行更新,得到当前轮次的类簇聚类模型;基于所述当前轮次的类簇聚类模型,对样本数据进行聚类,得到所述当前轮次的类簇;将所述当前轮次的类簇聚类模型、类簇和伪标签返回所述发起方,直至达到终止条件。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种书法训练方法、装置、电子设备及存储介质
  • 工作量评估及模型训练方法、电子设备及存储介质
  • 基于聚类的分类方法、装置、存储介质和电子设备
  • 神经网络模型的优化方法及装置、电子设备和存储介质
  • 三维模型处理方法和装置、电子设备、计算机可读存储介质
  • 聚类模型的训练方法、装置、电子设备和计算机存储介质
  • 聚类模型的训练方法、装置、电子设备和计算机存储介质
技术分类

06120116586560