掌桥专利:专业的专利平台
掌桥专利
首页

一种基于聚类和主动学习的训练样本选择方法

文献发布时间:2024-01-17 01:26:37


一种基于聚类和主动学习的训练样本选择方法

技术领域

本发明涉及一种基于聚类和主动学习的训练样本选择方法与装置,属于互联网与人工智能技术领域。

背景技术

在机器学习中,模型训练依赖大量的已标注样本,模型性能的好坏往往取决于给定标注样本的数量以及质量。样本数量越多,质量越高,获得高精度模型的可能性就越大。在实际应用过程中,如目标检测、人脸识别、文本分类等,通常会出现大量的无标记样本,而标注样本需要耗费大量的人力和财力,一些特定领域的样本,还需要有相关领域背景的专家进行标注以确保样本的标签质量。

为了解决样本标注成本过大的问题,相关学者提出了主动学习(ActiveLearning,AL)和半监督学习(Semi-super Vised Learning,SSL)。AL是通过在多次迭代过程中,根据相应策略选择不确定性较高、稳定性较差的样本给专家进行标注,通过人工标注尽可能少的高品质样本来训练模型。SSL基于大量无标签样本对模型进行训练,并使用少量带标签样本对模型进行微调,同时利用模型对高置信度的无标记样本生成的伪标签来减少人工标注成本。

但现有的半监督主动学习方法仍存在一些问题,如SSL模块通常设定高而固定的阈值来选取置信度高的样本自生成伪标签并送入到已标注数据池中。高阈值可以有效降低偏差,过滤噪声数据,但是模型在不同迭代轮次的训练情况是动态调整的,在训练初期,模型的精度较低,只有少数的样本能够超过设定的高阈值,这在一定程度上会造成大量样本浪费,导致模型收敛速度变慢。另外,SSL方法的数据抽取质量高度依赖于上一迭代过程中SSL模块自生成的伪标签质量,这样会导致一旦在某个迭代阶段生成的伪标签质量较差,那么错误的标签会被纳入训练,并且随着迭代次数的增加,错误被不断放大,后期模型极易往错误的方向学习。而AL模块多基于不确定性或不稳定性等单一指标进行样本抽取,但是单一指标容易忽略样本各标签的代表性,从而导致每次抽取的样本存在一定的冗余,进一步降低了模型的性能。

本发明提出一种基于聚类和主动学习的训练样本选择方法,首先使用半监督学习的一致性正则方法对样本进行区分,将样本划分为高于阈值的高置信度样本和低于阈值的低置信度样本;其次,通过使用密度峰值聚类算法将簇内样本划分为内外区域;最后,将高于阈值且属于内区域的样本标记上伪标签,将低于阈值且属于外区域的样本送入到主动学习模块中,通过多指标融合算法选择样本给标注专家进行标注。

发明内容

针对现有技术存在的问题与不足,本发明提出一种基于聚类和主动学习的训练样本选择方法与装置,能够在达到模型预设性能的前提下,尽可能减少专家的标注成本。

为了实现上述目的,本发明的技术方案如下:一种基于聚类和主动学习的训练样本选择方法与装置,该方法主要包括一致性正则划分样本置信度、密度峰值聚类划分簇内外区域和多指标融合选择策略等过程,能够在达到模型预设性能的前提下,尽可能减少专家的标注成本。该方法主要包括三个步骤,具体如下:

步骤1,使用动态自适应阈值的设定方法。在训练初期,因为模型整体精度较低,所以降低阈值设定标准,让阈值从0开始上升,给所有样本一个被学习的机会,等模型逐渐稳定获得辨识能力后再恢复到固定的高阈值。

步骤2,使用密度峰值聚类方法将簇划分内外区域。在SSL模块和AL模块之间添加基于密度峰值聚类(DPC)的模块,通过DPC得到样本整体的底层结构,利用数据集自身的空间分布特点,进一步缩小数据的选择范围,提高样本筛选质量,从而对模型当前的精度进行一定的解耦。

步骤3,多指标融合的选择策略。使用基于信息熵地不确定性指标和基于欧式距离地代表性指标挑选对提升模型性能贡献度高的样本,减少所选样本的重复性,从而加快模型的收敛速度。

相对于现有技术,本发明的有益效果如下:

1.该方法通过自适应阈值可以有效减少SSL模块中固定阈值设定导致大量标签样本浪费的问题。

2.该方法本文在SSL模块和AL模块之间添加基于密度峰值聚类(DPC)的模块,通过DPC得到样本整体的底层结构,利用数据集自身的空间分布特点,进一步缩小数据的选择范围,提高样本筛选质量,从而对模型当前的精度进行一定的解耦。

3.该方法使用多指标融合的选择策略,在抽取价值高的样本的同时考虑样本标签的代表性,减少所选样本重复性,从而加快模型的收敛速度,在达到模型预设性能的基础上降低用户的标注成本。

附图说明

图1为本发明实施例的方法总体框架图。

图2为本发明实施例的方法流程图。

具体实施方式

为了加深对本发明的认识和理解,下面结合具体实施例进一步阐明本发明。

实施例:本发明的整体框架和具体流程分别如图1和图2所示,具体实施步骤如下:一种基于聚类和半监督主动学习的样本选择方法,所述方法如下。

步骤1,动态自适应阈值的设定方法,具体如下,本发明选用Resnet50作为任务模型T,首先对数据池中L个已标注样本集

其中原始标签为

在SSL模块中,主要通过一致性正则化思想对网络进行训练,该思想建立在一个基本假设:相同图片经过不同的扰动增强,网络会输出相同的预测结果。分别对未标注数据集进行弱增强和强增强,其中弱增强是基于flip-and-shift增强策略,强增强是基于CTAugment策略,通过弱增强获取伪标签,然后利用该伪标签去监督强增强的输出值,计算两者的loss便可以对网络进行监督训练。

在每次迭代过程中,网络的学习能力是动态变化,逐渐增强的,本发明使用自适应动态阈值对伪标签进行过滤。在网络训练至第t步时的自适应阈值为:

其中T

网络对弱增强后的样本进行训练,得出概率分布,选取预测概率大于公式(2)中设定的动态阈值的标签作为样本伪标签,然后利用该伪标签去监督强增强的输出值,计算未标注数据的损失函数以便对网络进行监督训练。未标注数据的损失函数为:

其中P

步骤2,使用密度峰值聚类方法划分簇内内外区域,该方法分为4个子步骤。

子步骤2-1,对未标注样本点x

其中d

y

其中y

子步骤2-2,轮廓系数不需要样本的实际类别信息,可以表示出簇内聚合度和簇间分离度,计算方式如公式(8)所示:

其中,a(x

子步骤2-3,针对K个簇,计算第k∈{1,2,…K}个簇中除聚类中心u

公式(9)中:n

子步骤2-4,本发明综合考虑轮廓系数和隶属度两个指标,认为在轮廓系数高的簇中的内区域点的样本质量是较高的,而在轮廓系数低的簇中的外区域点的样本质量较差。将轮廓系数从大到小进行排序,假设为S

步骤3,基于多指标融合地选择策略,具体如下分为3个子步骤。

子步骤3-1,基于信息熵的不确定性指标。本发明采用信息熵对不确定性指标进行衡量,熵值越大,当前分类器越难分辨样本所属的类别。样本的熵值定义如公式(10)所示:

其中,Y为所有可能的分类取值集合,以二分类问题为例,Y取值为0和1;θ

其中,max函数的值为取最大值时对应的索引值;i

子步骤3-2,在迭代过程中,计算当前已标注样本与未标注样本间的欧氏距离,距离越小则说明样本离得越近,样本的相似度越高。对某个未标注样本x

d(x

子步骤3-3,多指标融合方法,为了降低单一指标导致抽取样本冗余度高的问题,本发明采用加权的形式将不确定性和代表性2个指标相融合,将得到的融合指标作为最终样本的选取标准,融合指标公式如(13)所示:

其中,β∈[0,1]为权重系数,当0.5<β≤1时,不确定性占的权重更大;当0≤β<0.5时,代表性占的权重更大;当β=0.5时,不确定性与多样性的权重相同。因为在每轮迭代过程中分类器的参数一直变化,固定的β值难以保证在变化过程中抽取的样本是最佳的。为此本发明设置β的取值集合为{0.1,0.2…0.9},当β取这9个不同值的时候可以选出9个不同的K个数据集,将这些数据集送入到SSL模块进行训练,根据公式(4)分别计算出这9个数据集对应的损失函数,损失越大说明当前的融合指标越有价值。设损失最大时的β

β

综上,CSSAL框架可以在达到模型预设性能的前提下,有效减少人工标注的成本。通过选取预测概率高于设定阈值的样本生成伪标签;其次通过DPC聚类模块,将数据集划分为高置信度和低置信度两个区间,最终留下高于阈值且处于高置信度区间的伪标签,将低于阈值且处于低置信度区间的样本送入第三部分AL模块。在AL模块中,通过多指标融合的策略选取兼具不确定性和代表性的样本送给专家进行标注,最后将标注好的数据送入已标注数据池中,任务模型基于最新的标签数据再次训练,整个过程不断迭代,直到模型达到预设精度。

基于相同的发明构思,本发明实施例公开的一种基于聚类和半监督主动学习的样本选择方法与装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于聚类和半监督主动学习的样本选择方法与装置。

需要说明的是,上述实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

相关技术
  • 一种基于主动学习和聚类分析的高光谱图像分类方法
  • 一种基于聚类和投票机制的主动学习初始样本选择方法
  • 一种基于聚类和投票机制的主动学习初始样本选择方法
技术分类

06120116213881