掌桥专利:专业的专利平台
掌桥专利
首页

一种基于自学习标注的标注模型训练方法及标注方法

文献发布时间:2023-06-19 16:08:01



技术领域

本发明属于标注技术领域,具体涉及一种基于自学习标注的标注模型训练方法及标注方法。

背景技术

图像识别模型等需要学习训练的一些模型,在学习训练之前,需要配置大量的标注数据用于模型的训练。获取标注数据的方式一般有两种:一种是采用人工标注,采用人工标注需要大量的人力;另一种是采用训练好的标注模型进行自动标注,可以高效的完成数据标注。

但是在对于新的标注模型本身进行训练时或对于一些旧的标注模型进行更新训练时,没有成熟的标注模型来标注,需要人工标注大量的训练数据,为了达到较好的标注模型,有些训练数据往往需要几百万个,甚至几千万个,大量的标注数据采用人工标注,这样会浪费大量的人力成本。

发明内容

本发明提供了一种基于自学习标注的标注模型训练方法及标注方法,旨在解决现有技术中对于新的标注模型本身进行训练时或对于一些旧的标注模型进行更新训练时,需要人工标注大量的训练数据,导致人力成本较高的问题。

为了解决上述技术问题,本发明所采用的技术方案为:

第一方面,本发明提供了一种基于自学习标注的标注模型训练方法,包括以下步骤:

S100、从原始数据集中的m个数据中抽取m

S200、将未进行人工标注的剩余数据采用训练后的标注模型进行标注,并输出识别结果和置信度;

S300、将识别结果按照置信度排序,按照置信度将剩余数据划分为低置信度数据集和其他数据集,并对低置信度数据集进行人工审查;

S400、判断人工审查结果是否满足预设条件;若人工审查结果不满足预设条件,则执行步骤S500;若人工审查结果满足预设条件,则执行步骤S600;

S500、对低置信度数据集中的数据进行人工重新标注,并采用人工标注后的数据对训练后的标注模型进行再次训练获得再次训练后的标注模型;

采用再次训练后的标注模型对其他数据集中的数据进行重新标注,并输出识别结果和置信度;

将识别结果按照置信度排序;按照置信度将其他数据集中的数据进一步划分为低置信度数据集和其他数据集,对进一步划分出的低置信度数据集进行人工审查,并按照人工审查结果再次执行步骤S400;

S600、则标注模型达标,获得达标标注模型。

进一步改进的方案:基于自学习标注的标注模型训练方法,还包括步骤:

S700、将检验数据集中的数据采用步骤S600获得的达标标注模型进行自动标注,并得到识别结果和置信度;

S800、按照置信度筛选出低置信度数据,判断采用人工审查低置信度数据的自动标注是否合格;

S801、若合格,则将达标标注模型作为最终标注模型;

S802、若不合格,则将检验数据集替换原始数据集,并采用步骤S100至S600对达标标注模型再次训练,直到获得最终标注模型。

基于上述方案,引入检验数据集,一方面达标标注模型进行自动标注,并得到识别结果和置信度,按照置信度筛选出低置信度数据,通过审核低置信度数据可以检验达标标注模型是否可以最终标注模型;另一方面,当达标标注模型不合格,则可以采用检验数据集进行自学习标注,提高标注模型的准确度,直到获得合格的最终标注模型。

进一步改进的方案:在步骤S800中,判断人工审查低置信度数据的自动标注是否合格判断依据是标注的准确率。

进一步改进的方案:其中,m

基于上述方案,m

进一步改进的方案:在步骤S300中,按照置信度将剩余数据划分为低置信度数据集和其他数据集时,采用设定比例划分或设定置信度阈值来划分;

在步骤S500中,按照置信度将其他数据集中的数据进一步划分为低置信度数据集和其他数据集,采用设定比例划分或设定置信度阈值来划分。

进一步改进的方案:在步骤S400中,判断人工审查结果是否满足预设条件为标注的成功率是否达到设定阈值。

第二方面,本发明提供了一种标注方法,采用上述任一方案所述的一种基于自学习标注的标注模型训练方法得到的达标标注模型对待标注数据进行标注。

本发明的有益效果为:

本发明先从原始数据集中抽取少量的数据进行人工标注获得初始的训练数据,并采用少量的人工标注数据对标注模型进行初步训练;将初步训练好的标注模型对原始数据集中未进行人工标注的数据进行自动标注,并抽取置信度较低的自动标注数据核验标注模型是否达标;若不达标,则对抽取的置信度较低的自动标注数据进行人工标注,再次对标注模型进行训练,并按照上述方法对训练好的标注模型再次核验是否达标;重复上述步骤,每次核验不通过后均抽取一部分置信度较低的自动标注数据进行人工标注,并对标注模型进行训练,直到获得达标的标注模型;本发明的标注模型训练方法,只需要人工标注少量的数据,便可以完成模型的训练,减少了劳动强度;此外,本发明采用了人工少量标注和标注模型自身自动标注相结合的方式,多次对标注模型自身进行验证,通过自学习的方式达到了模型的训练效果。

本发明利用置信度对标注模型自动标注的数据进行排序并获得低置信度数据集,一方面通过核验对低置信度的数据,对于标注模型的核验更加准确;另一方面,对筛选出的低置信度数据集重新进行人工标注,并用来训练标注模型,可以获得较好的训练效果。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简要介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关附图。

图1是本发明中基于自学习标注的标注模型训练方法的流程示意图。

图2是本发明中基于自学习标注的标注模型训练方法的逻辑框图。

图3是本发明中采用检验数据集检验达标标注模型是否合格的流程示意图。

图4是本发明中包括有检验达标标注模型流程的标注模型训练方法的流程示意图。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚完整的描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。基于本发明的实施例,本领域技术人员在没有创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。

实施例一:

参阅图1和图2,本实施例提供了一种基于自学习标注的标注模型训练方法,包括以下步骤:

S100、从原始数据集中的m个数据中抽取m

S200、将未进行人工标注的剩余数据采用训练后的标注模型进行标注,并输出识别结果和置信度;

S300、将识别结果按照置信度排序,按照置信度将剩余数据划分为低置信度数据集和其他数据集,并对低置信度数据集进行人工审查;

S400、判断人工审查结果是否满足预设条件;若人工审查结果不满足预设条件,则执行步骤S500;若人工审查结果满足预设条件,则执行步骤S600;

S500、对低置信度数据集中的数据进行人工重新标注,并采用人工标注后的数据对训练后的标注模型进行再次训练获得再次训练后的标注模型;

采用再次训练后的标注模型对其他数据集中的数据进行重新标注,并输出识别结果和置信度;

将识别结果按照置信度排序;按照置信度将其他数据集中的数据进一步划分为低置信度数据集和其他数据集;对进一步划分出的低置信度数据集进行人工审查,并按照人工审查结果再次执行步骤S400;

S600、则标注模型达标,获得达标标注模型。

在步骤S500中,每执行一次步骤S400,都需要判断一次标注模型是否达标,若不达标则需要重新执行步骤S500,将其他数据集再一次拆分为低置信度数据集和其他数据集(拆分前后的其他数据集属于拆分前的其他数据集的一部分);并对拆分后的低置信度数据集进行人工标注,利用人工标注后的低置信度数据集对标注模型进行训练。直到从步骤S400进入到步骤S600,则可以获得达标标注模型。

在本发明中,步骤S400和步骤S500一般执行3-5次,便可以获得进入到步骤S600,获得达标标注模型。

本发明的方法是一种通用方法,不局限于某一个标注模型,适用于新搭建的标注模型训练;或者用于更新训练旧的标注模型。

参阅图3和图4,在上述方案的基础上,基于自学习标注的标注模型训练方法,还包括步骤:

S700、将检验数据集中的数据采用步骤S600获得的达标标注模型进行自动标注,并得到识别结果和置信度;

S800、按照置信度筛选出低置信度数据,判断采用人工审查低置信度数据的自动标注是否合格;

S801、若合格,则将达标标注模型作为最终标注模型;

S802、若不合格,则将检验数据集替换原始数据集,并采用步骤S100至S600对达标标注模型再次训练,直到获得最终标注模型。

基于上述方案,引入检验数据集,一方面达标标注模型进行自动标注,并得到识别结果和置信度,按照置信度筛选出低置信度数据,通过审核低置信度数据可以检验达标标注模型是否可以最终标注模型;另一方面,当达标标注模型不合格,则可以采用检验数据集进行自学习标注,提高标注模型的准确度,直到获得合格的最终标注模型。

在上述任一方案的基础上,在步骤S800中,判断人工审查低置信度数据的自动标注是否合格判断依据是标注的准确率;准确率可以设定为99.5%等数值。

在上述任一方案的基础上,其中,m

在步骤S300中,按照置信度将剩余数据划分为低置信度数据集和其他数据集时,采用设定比例划分或设定置信度阈值来划分;

在步骤S500中,按照置信度将其他数据集中的数据进一步划分为低置信度数据集和其他数据集,采用设定比例划分或设定置信度阈值来划分。

在上述任一方案的基础上,在步骤S400中,判断人工审查结果是否满足预设条件为标注的成功率是否达到设定阈值。

实施例二:

本实施例提供了一种标注方法,采用实施例一任一方案所述的一种基于自学习标注的标注模型训练方法得到的达标标注模型对待标注数据进行标注。

本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。

技术分类

06120114717609