掌桥专利:专业的专利平台
掌桥专利
首页

基于半监督联邦学习的多分类器集成训练方法

文献发布时间:2024-04-18 19:57:31


基于半监督联邦学习的多分类器集成训练方法

技术领域

本发明涉及人工智能技术领域,具体而言,尤其涉及一种基于半监督联邦学习的多分类器集成训练方法。

背景技术

随着X射线摄影装置、CT装置、超声波检测装置等医用图像采集装置的大量应用,海量的医疗图像数据被生成并分散保存在医疗机构。由于医疗资料信息包含了大量的疾病特征数据,因此深入挖掘医疗数据的特性对疾病诊断具有重要意义。

人工智能技术的发展给医学图像应用提供了更广泛的契机。具体来说与医学图像分类相关的人工智能技术大致分为以下三种:

一、基于人工智能方法的数据自动分类技术,现有的人工智能方法大多数旨在使用公开的已标注的数据集,利用机器学习模型进行训练和测试。例如,Supratak等人在《DeepSleepNet:A Model for Automatic Sleep Stage Scoring Based on Raw Single-Channel EEG》中使用两个不同大小的卷积核提取睡眠数据中的时间特征和频率特征,并使用双向的长短时记忆(Long Short-term Memory,LSTM)模块学习时间转化规律。卷积神经网络(Convolutional Neural Network,CNN)和深度信念网络(Deep Belief Network,DBN)在特征提取方面有优良的性能,循环神经网络(Recurrent Neural Network,RNN)在时间序列信号处理方面具有良好的能力。目前,于人工智能方法的数据自动分类技术已经在政治、经济、文化等各个领域广泛推广和应用。

二、基于“分歧”的半监督学习技术,使用“多视图”,即数据对象的多个“属性集”,解决当只有少量有标记样本可用时,使用大量无标记样本来提高学习算法性能的问题。特别地,针对网页分类学习任务,每个示例的描述可以划分为两个不同的视图,如,一个网页的描述可以划分为该网页上的词语和在超链接中指向该网页的词语。当没有足够过的有标签的数据时,可以同时使用两个视图,以廉价的无标记数据来增加一个更小的有标记示例集。Blum等人在《Combining labeled and unlabeled data with co-training》中首次提出了Co-training协同训练算法,在有少量已标注数据的情况下,使用大量的未标注数据的两个“视图”对模型进行训练,获得两个模型并完成数据标注任务。目前,半监督学习技术已经被广泛推广,尤其是在网页分类任务中获得了良好的应用价值。

三、基于联邦学习的多中心大数据建模技术,是针对加强个人数据管制而限制数据收集,无法再利用集中式学习获得性能表现更好的模型这一现状而出现的一种分布式学习技术。例如,医院的患者信息往往包含个人健康信息(Personal Health Information,PHI),其中包含了姓名、地址、电话号码等大量敏感的个人信息,收集并利用这些信息用于学习过程是违反世界范围内隐私法案的,若将私有数据进行分享往往会有数据泄露的风险。进行深度学习时,一般认为更多的训练数据会导致更好的性能,但是由于涉及病人隐私,大量的数据处于闲置状态,无法得到充分的挖掘。基于联邦学习的技术解决了数据隐私的问题。

但是针对个性化的任务,涉及的隐私医学图像数据个性化标注任务,多方参与客户端积存的是无标签数据,因此现有的联邦学习框架无法直接使用。

发明内容

鉴于现有技术的不足,本发明提出了一种基于半监督联邦学习的多分类器集成训练方法,基于联邦学习框架,使用少量有标签数据和大量无标签私有数据进行训练,合理使用公开数据资源,融合用户个性化需求,有效保护多方参与用户的隐私信息,在保证准确分类的同时提升业务速度,提高公共资源的利用率。

本发明采用的技术手段如下:

一种基于半监督联邦学习的多分类器集成训练方法,应用于分布式分类系统,所述系统包括中心服务器端以及多方参与客户端,所述中心服务器端具有第一训练数据,所述多个客户端分别具有第二训练数据,所述第一训练数据包括有标签数据,所述第二训练数据包括有标签数据和无标签数据;

所述模型训练方法包括以下步骤:

S1、中心服务器端设置并向多方参与客户端发送分类器固定配置参数,所述分类器固定配置参数包括输入格式和输出格式;

S2、客户端根据本地私有数据特点、本地数据分类偏好以及中心服务器配置参数要求,自主设计分类模型并将得到的个性化本地模型发送至可信中心服务器;

S3、中心服务器端收集多方客户端模型形成“模型池”,使用公开的第一训练数据对“模型池”中的分类器分别进行有监督训练,获得初始化全局“模型池”,并发送至多方客户端;

S4、多方客户端利用中心服务器发来的“模型池”,对本地数据进行分类,对多个分类输出使用集成函数,获得分类结果;基于置信度扩充有标签数据集并更新无标签数据集;

S5、多方客户端利用本地标签数据对模型进行交错训练,,获得本地训练“模型池”,并上传至可信中心服务器;

S6、可信中心服务器对“模型池”中的分类器模型进行联邦聚合,并使用一个批次的服务器数据对聚合后的分类器进行微调整,之后发送至多方客户端;

S7、反复执行S4-S6,至全局模型收敛并且客户端数据完成更新任务,停止通信。

进一步地,所述集成函数为:

其中,λ

进一步地,客户端根据本地私有数据特点、本地数据分类偏好以及中心服务器配置参数要求,自主设计分类模型并将得到的个性化本地模型发送至可信中心服务器,包括:

客户端审查本地数据,划分有标签数据和无标签数据;

确定本地分类偏好;

据本地需求设计一个或多个分类器模型框架和模型内部参数,将本地模型发送到可信中心服务器进行集中初始化。

进一步地,所述本地分类偏好为:获得目标类别标注准确率高于阈值,其中目标类别和标注准确率阈值预先设定。

进一步地,多方客户端利用中心服务器发来的“模型池”,对本地数据进行分类,对多个分类输出使用集成函数,获得分类结果;基于置信度扩充有标签数据集并更新无标签数据集,包括:

客户端接到可信服务器发来的全局“模型池”,客户端使用“模型池”中的分类器分别对本地数据进行一次遍历,得到每个分类器的分类结果;

客户端使用分类器和得到的分类结果进行交错训练,即,使用带有非本分类器分类结果的数据对该分类器进行训练,获得更新“模型池”并发送到可信中心服务器;

客户端使用更新过的“模型池”结合集成函数获得分类结果,挑选置信度高的分类标注,更新本地有标签数据和无标签数据。

较现有技术相比,本发明具有以下优点:

1、本发明提出了一种新的基于“分歧”的半监督学习和联邦学习分类模型训练方法,仅使用部分带有标签的数据实现大量无标签数据的标注和个性化模型训练。

2、本专利基于联邦学习解决了目前常见的基于监督的深度学习模型具有数据集不足,准确率不高的问题。目前常见的横向联邦学习框架均为有监督学习,但在实际应用环境中获得有标签的数据价格昂贵并且一致性差;现有联邦学习使用单一模型设置标准,对于多方参与客户端的个性化需求不能够充分满足;截止目前,使用基于“分歧”的半监督学习往往设置了固定数目的参与分类器,无法动态适应数据的个性化学习要求。本专利利用多分类器的“模型池”基于“分歧”实现了半监督联邦学习框架,允许客户端保持数据不流通的情况下进行数据标注,满足了客户端个性化学习需求,保护了数据隐私的同时保证良好的分类准确性,完成数据较高的一致性标注。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种基于半监督联邦学习的多分类器集成训练方法流程图。

图2为本发明实施例中半监督学习流程图。

图3为本发明实施例中联邦学习框架在医疗领域的应用示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本专利发明了一种基于半监督学习和联邦学习的适用于私有未标注数据自动分类的方法,算法结合“动态”的分类器组合,接收不固定数量的个性化模型,形成“模型池”,利用交互训练和集成分类实现数据和模型更新。合理使用可获得公开数据,利用大量无标注数据进行模型训练并完成数据标注任务。本算法使用联邦学习建模,但不局限于以往单一模型标准的联邦学习,结合分类器集成方法,对客户端的多种模型进行聚合,利用“模型动,数据不动”的特点,在保证不泄露数据隐私的情况下,建立共享“模型池”,学习所有参与客户端模型特征,微调个性化私有模型,生成更为健壮的分类器“模型池”。

本发明公开的方法执行流程包括:首先,可信中心服务器设置分类器的固定配置参数,例如,分类器的输入和输出格式;之后将固定配置参数发送给所有参与的客户端。然后,多方参与的客户端根据本地私有数据的特点、本地数据管理需求及偏好和中心服务器配置参数要求,进行个性化本地分类器构建;之后各客户端将自主设计的分类器模型发送至可信中心服务器,形成“模型池”。可信中心服务器加载公开数据集,对“模型池”中的分类器模型分别进行有监督训练,获得初始化全局“模型池”,之后将所有的分类器都发送给客户端。多方客户端接收到“模型池”后对本地无标签数据进行半监督训练获得更新的“模型池”和一个较小的有标注数据集,之后将本地“模型池”上传至中心服务器。中心服务器对“模型池”中的分类器分别进行聚合后利用有标签数据进行微调整后再次发送客户端,进行训练。重复初始化后的过程,直至模型收敛并且客户端数据完成更新任务。

详细步骤说明如下;

S1:中心服务器端设置并向多方参与客户端发送分类器固定配置参数:输入格式和输出格式。

S2:客户端根据本地私有数据特点、本地数据分类偏好以及中心服务器配置参数要求,自主设计分类模型并将个性化本地模型发送至可信中心服务器。

S3:中心服务器端收集多方客户端模型形成“模型池”,使用加载到的公开数据集对“模型池”中的分类器分别进行有监督训练,获得初始化全局“模型池”

S4:多方客户端利用中心服务器发来的“模型池”

其中,λ

基于置信度扩充有标签数据集

S5:多方客户端利用本地标签数据

S6:可信中心服务器对“模型池”中的分类器模型进行联邦聚合,并使用一个批次的服务器数据对聚合后的分类器进行微调整,之后发送至多方客户端。

S7:重复S4~S6过程t轮,至全局模型收敛并且客户端数据完成更新任务,停止通信。

其中,在客户端服务器中,使用算法1进行模型的本地训练。在第t轮,首先,所有客户端加载模型

在可信中心服务器中,使用算法2进行模型初始化以及全局聚合和微调整。

中心服务器全局分类器“模型池”的初始化和微调过程结合集成函数

用户使用介绍:

步骤1:客户端向可信中心服务器申请并获得模型的输入和输出设置;

步骤2:客户端审查本地数据,划分有标签数据和无标签数据;确定本地分类偏好,比如,需要获得较高的非快速眼动第一时期的标注准确率;根据本地需求设计一个或多个分类器模型框架和模型内部参数,将本地模型发送到可信中心服务器进行集中初始化;

步骤3:客户端接到可信服务器发来的全局“模型池”,客户端使用“模型池”中的分类器分别对本地数据进行一次遍历,得到每个分类器的分类结果;

步骤4:客户端使用分类器和得到的分类结果进行交错训练,即,使用带有非本分类器分类结果的数据对该分类器进行训练,获得更新“模型池”并发送到可信中心服务器;

步骤5:客户端使用更新过的“模型池”结合集成函数获得分类结果,挑选置信度高的分类标注,更新本地有标签数据和无标签数据;

步骤6:重复步骤3到5,直至本地完成数据分类并获得收敛模型。

下面通过具体的应用实例,对本发明的方案和效果做进一步说明。

图1是本实施例中算法执行流程图。首先,在可信中心服务器端设置固定参数,客户端设置个性化本地模型。其次,中心服务器收集客户端模型形成“模型池”,并使用公开数据对“模型池”进行初始化。之后,发送至所有参与联邦的客户端进行本地个性化无标签学习。每轮学习过程中,所有模型需要对所有本地数据进行一次计算,筛选出置信度高的数据添加到有标签数据集中,数据中的有标签数据不断增多,无标签数据逐渐减少。之后,客户端向可信服务器发送分类器“模型池”,服务器对“模型池”中的每种分类器进行分别聚合和整体有监督微调后再次发送给客户端,经过多次聚合更新,输出收敛分类器并且各客户端数据已更新为有标签数据。整个过程中,以一种私有数据可用不可见的方式完成。训练后的分类模型可用于多种领域数据分类,与机构内人工智能评测系统相嵌合。

图2是实施例中涉及的本地客户端进行半监督学习的算法模块图。

图3展示了本实施例中算法框架在医疗领域的应用示意图。首先,可信中心服务器端设置输入和输出的固定参数,客户端按照参数要求和个性化需求设计分类器模型并上传;然后,可信中心服务器加载公开数据集,如PhysioBank的公开睡眠多导监测信号数据集Sleep-EDF,将监测信号转化为频谱图形式的医疗图像数据,对所有的分类器模型有监督训练形成初始化“模型池”;之后,发送客户端,每个客户端进行半监督训练并更新私有数据中的有标注和无标注数据集以及分类模型;最后,多方参与客户端上传本地更新的分类模型,中心服务器对模型进行联邦聚合和微调整,再次发送客户端;重复初始化后的步骤,直至所有客户端的私有数据均完成标注任务。

总的来说,本发明设计了一种新的基于半监督学习和联邦学习的分类标注算法,可以满足参与机构的个性化本地需求,有效地完成无标签数据标注和分类模型更新,特别是对医疗图像处理领域意义重大。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术分类

06120116459144