掌桥专利:专业的专利平台
掌桥专利
首页

模型训练方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 12:14:58


模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域,尤其涉及模型训练方法、装置、电子设备及存储介质。

背景技术

现今,癌症、肿瘤等疾病逐渐成为困扰人们身体健康的重要因素,这些疾病往往基于医学影像分析来进行治疗,目前,医院存储的信息超过90%是影像信息,影像信息已经形成了巨大的数据积累。基于医学影像大数据的人工智能技术与应用已逐渐成为医疗机构、科研、产业和政府共同关注的焦点。

癌症中,肺癌是当今中国死亡率最高的疾病之一,利用低剂量CT进行早期肺癌筛查可以起到有效的防治效果。早期肺癌在CT影像中往往表现为小型的肺结节,需要花费医生大量时间进行筛查。

目前主流CAD系统(计算机辅助检测系统)基于大数据训练模型来提升病灶(例如肺结节)的检出率。但是对于一些特殊类别的样本,本身检出难度比较大,针对性获取临床数据又比较困难,CAD系统很容易会产生漏检。但是这些结节对于临床诊断又具有重要意义,例如肺门处的结节,这些结节常常和肺组织存在黏连,这对CAD系统提出了很高的挑战。针对这些难例样本,CAD系统很难获得理想的检测结果。

因此,提供一种预测准确率较高的模型对于疾病筛查等医疗难题具有重大意义。

发明内容

本申请的目的在于提供模型训练方法、装置、电子设备及存储介质,利用更新后的训练数据集对模型进行训练,从而不断优化模型,提高模型的预测准确率。

本申请的目的采用以下技术方案实现:

第一方面,本申请提供了一种模型训练方法,所述方法包括:获取样本图像库,所述样本图像库包括多个样本图像以及每个样本图像对应的标注信息;获取训练数据集,所述训练数据集包括多个训练图像以及每个训练图像对应的标注信息;基于第一训练图像从所述样本图像库中匹配得到第一样本图像;基于所述第一训练图像及所述第一样本图像生成新的样本图像;根据所述第一训练图像对应的标注信息和所述第一样本图像对应的标注信息,获取所述新的样本图像对应的标注信息;将所述新的样本图像输入当前模型,得到输出结果;当所述输出结果符合预设条件时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集;根据更新后的所述训练数据集,对所述当前模型进行训练,更新所述当前模型。该技术方案的有益效果在于,可以基于第一训练图像,在样本图像库中进行匹配,得到与第一训练图像对应的第一样本图像,结合第一训练图像和第一样本图像,生成新的样本图像,并结合第一训练图像对应的标注信息和第一样本图像对应的标注信息,获取新的样本图像对应的标注信息,将新的样本图像输入当前模型,得到输出结果,基于新的样本图像对应的标注信息判断输出结果是否符合预设条件,若符合,将新的样本图像及其对应的标注信息放入训练数据集,利用更新后的训练数据集对模型进行训练,从而不断优化模型,提高模型的预测准确率,利用该方法可以从新的样本图像中选取符合预设条件的图像,利用这些图像对模型进行迭代训练,增强模型的鲁棒性和适用性。

在一些可选的实施例中,所述当前模型是预设模型,所述标注信息用于指示图像中是否存在病灶和/或当存在病灶时病灶的类型;所述当所述输出结果符合预设条件时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集,包括:如果所述新的样本图像对应的标注信息指示所述新的样本图像中不存在病灶,则当所述输出结果是存在病灶时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集;如果所述新的样本图像对应的标注信息指示所述新的样本图像中存在病灶,则当所述输出结果是不存在病灶,或者所述输出结果中病灶的类型与对应标注信息中病灶的类型不同,或者所述输出结果中病灶的类型与对应标注信息中病灶的类型相同但是病灶类型的置信度低于第一预设置信度时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集。该技术方案的有益效果在于,输出结果符合预设条件的情况可以是:新的样本图像对应的标注信息指示该图像中不存在病灶,而输出结果是存在病灶,此时输出结果与对应的标注信息不符,当前模型识别有误;

新的样本图像对应的标注信息指示该图像中存在病灶,而输出结果是不存在病灶,或者输出结果是存在病灶,但是病灶的类型与对应标注信息中病灶的类型不同,此时输出结果与对应的标注信息不符,当前模型识别有误;

新的样本图像对应的标注信息指示该图像中存在病灶,输出结果是存在病灶且病灶的类型与对应标注信息中病灶的类型相同,但是病灶类型的置信度低于第一预设置信度,此时输出结果与对应的标注信息相符,但当前模型识别效果较差。

综上,符合预设条件的新的样本图像可以是当前模型无法识别或者识别效果较差的图像,将这些图像放入训练集中,可以对模型进行迭代训练,进一步增强模型的鲁棒性和适用性。

在一些可选的实施例中,所述方法还包括:基于所述输出结果中病灶的类型确定所述第一预设置信度。该技术方案的有益效果在于,可以基于输出结果中病灶的类型确定第一预设置信度,针对实际应用中人们较为关注的某一病灶类型,可以设置数值较低的第一预设置信度,使得利用当前模型检测训练图像时,更容易检出该病灶类型。

在一些可选的实施例中,所述预设模型是检测模型,所述基于所述输出结果中病灶的类型确定所述第一预设置信度,包括:获取每个病灶的类型对应的漏检率;基于所述输出结果中病灶的类型对应的漏检率确定所述第一预设置信度。该技术方案的有益效果在于,可以基于输出结果中病灶的类型对应的漏检率确定第一预设置信度,对于漏检率较高的病灶类型,当前模型对该病灶类型的检测效果不理想,可以针对该病灶类型设置数值较低的第一预设置信度,使得利用当前模型检测训练图像时,更容易检出该病灶类型。

在一些可选的实施例中,所述病灶的类型包括所述病灶的部位和/或尺寸。该技术方案的有益效果在于,病灶的类型可以包括病灶的部位和/或尺寸,病灶的类型例如是肺结节、乳腺肿块或者异物等,病灶的部位例如是左肺叶,病灶的尺寸例如是直径10mm。

在一些可选的实施例中,所述预设模型是分割模型,所述标注信息还用于指示病灶的分割区域的轮廓线;所述当所述输出结果符合预设条件时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集,还包括:如果所述新的样本图像对应的标注信息指示所述新的样本图像中存在病灶,则当所述输出结果中病灶分割的置信度低于第二预设置信度,或者病灶的分割区域与对应标注信息中病灶的分割区域的重合度低于预设重合度时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集,其中病灶的分割区域由病灶分割区域的轮廓线来确定。该技术方案的有益效果在于,当前模型可以为分割模型,输出结果符合预设条件的情况还可以是:新的样本图像对应的标注信息指示该图像中存在病灶,输出结果是存在病灶,但是病灶分割的置信度低于第二预设置信度,或者输出结果是存在病灶,但是病灶的分割区域与对应标注信息中病灶的分割区域的重合度低于预设重合度,此时输出结果与对应的标注信息相符,但当前模型识别效果较差。综上,符合预设条件的新的样本图像可以是当前模型无法识别或者识别效果较差的图像,将这些图像放入训练集中,可以对模型进行迭代训练,进一步增强模型的鲁棒性和适用性。

在一些可选的实施例中,所述方法还包括:基于所述输出结果中病灶的类型确定所述第二预设置信度和/或所述预设重合度。该技术方案的有益效果在于,可以基于输出结果中病灶的类型确定第二预设置信度和/或预设重合度,针对实际应用中人们较为关注的某一病灶类型,可以设置数值较低的第二预设置信度和/或预设重合度,使得利用当前模型识别训练图像时,更容易识别出该病灶类型。

第二方面,本申请提供了一种模型训练装置,所述装置包括:样本获取模块,用于获取样本图像库,所述样本图像库包括多个样本图像以及每个样本图像对应的标注信息;训练获取模块,用于获取训练数据集,所述训练数据集包括多个训练图像以及每个训练图像对应的标注信息;图像匹配模块,用于基于第一训练图像从所述样本图像库中匹配得到第一样本图像;图像生成模块,用于基于所述第一训练图像及所述第一样本图像生成新的样本图像;标注获取模块,用于根据所述第一训练图像对应的标注信息和所述第一样本图像对应的标注信息,获取所述新的样本图像对应的标注信息;图像输入模块,用于将所述新的样本图像输入当前模型,得到输出结果;数据集更新模块,用于当所述输出结果符合预设条件时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集;模型更新模块,用于根据更新后的所述训练数据集,对所述当前模型进行训练,更新所述当前模型。

在一些可选的实施例中,所述当前模型是预设模型,所述标注信息用于指示图像中是否存在病灶和/或当存在病灶时病灶的类型;所述数据集更新模块包括:第一更新单元,用于如果所述新的样本图像对应的标注信息指示所述新的样本图像中不存在病灶,则当所述输出结果是存在病灶时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集;第二更新单元,用于如果所述新的样本图像对应的标注信息指示所述新的样本图像中存在病灶,则当所述输出结果是不存在病灶,或者所述输出结果中病灶的类型与对应标注信息中病灶的类型不同,或者所述输出结果中病灶的类型与对应标注信息中病灶的类型相同但是病灶类型的置信度低于第一预设置信度时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集。

在一些可选的实施例中,所述装置还包括:第一置信度模块,用于基于所述输出结果中病灶的类型确定所述第一预设置信度。

在一些可选的实施例中,所述预设模型是检测模型,所述第一置信度模块包括:漏检率获取单元,用于获取每个病灶的类型对应的漏检率;确定置信度单元,用于基于所述输出结果中病灶的类型对应的漏检率确定所述第一预设置信度。

在一些可选的实施例中,所述病灶的类型包括所述病灶的部位和/或尺寸。

在一些可选的实施例中,所述预设模型是分割模型,所述标注信息还用于指示病灶的分割区域的轮廓线;所述数据集更新模块还包括:第三更新单元,用于如果所述新的样本图像对应的标注信息指示所述新的样本图像中存在病灶,则当所述输出结果中病灶分割的置信度低于第二预设置信度,或者病灶的分割区域与对应标注信息中病灶的分割区域的重合度低于预设重合度时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集,其中病灶分割区域由病灶的分割区域的轮廓线来确定。

在一些可选的实施例中,所述模型训练装置还包括第二置信度模块,用于基于所述输出结果中病灶的类型确定所述第二预设置信度和/或所述预设重合度。

第三方面,本申请提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法的步骤。

第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法的步骤。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是本申请实施例提供的一种模型训练方法的流程示意图;

图2是本申请实施例提供的一种模型训练方法的原理图;

图3是本申请实施例提供的一种更新训练数据集的流程示意图;

图4是本申请实施例提供的另一种模型训练方法的流程示意图;

图5是本申请实施例提供的一种确定第一预设置信度的流程示意图;

图6是本申请实施例提供的又一种模型训练方法的流程示意图;

图7本申请实施例提供的再一种模型训练方法的流程示意图;

图8是本申请实施例提供的一种模型训练装置的结构示意图;

图9是本申请实施例提供的一种数据集更新模块的结构示意图;

图10是本申请实施例提供的另一种模型训练装置的结构示意图;

图11是本申请实施例提供的一种第一置信度模块的结构示意图;

图12是本申请实施例提供的另一种数据集更新模块的结构示意图;

图13是本申请实施例提供的又一种模型训练装置的结构示意图;

图14是本申请实施例提供的一种电子设备的结构示意图;

图15是本申请实施例提供的一种用于实现模型训练方法的程序产品的结构示意图。

具体实施方式

下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

参见图1和图2,本申请实施例提供了一种模型训练方法,所述方法包括步骤S101~S108。

步骤S101:获取样本图像库,所述样本图像库包括多个样本图像以及每个样本图像对应的标注信息。

步骤S102:获取训练数据集,所述训练数据集包括多个训练图像以及每个训练图像对应的标注信息。

步骤S103:基于第一训练图像从所述样本图像库中匹配得到第一样本图像。

步骤S104:基于所述第一训练图像及所述第一样本图像生成新的样本图像。

步骤S105:根据所述第一训练图像对应的标注信息和所述第一样本图像对应的标注信息,获取所述新的样本图像对应的标注信息。

步骤S106:将所述新的样本图像输入当前模型,得到输出结果。

步骤S107:当所述输出结果符合预设条件时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集。

步骤S108:根据更新后的所述训练数据集,对所述当前模型进行训练,更新所述当前模型。

由此,可以基于第一训练图像,在样本图像库中进行匹配,得到与第一训练图像对应的第一样本图像,结合第一训练图像和第一样本图像,生成新的样本图像,并结合第一训练图像对应的标注信息和第一样本图像对应的标注信息,获取新的样本图像对应的标注信息,将新的样本图像输入当前模型,得到输出结果,基于新的样本图像对应的标注信息判断输出结果是否符合预设条件,若符合,将新的样本图像及其对应的标注信息放入训练数据集,利用更新后的训练数据集对模型进行训练,从而不断优化模型,提高模型的预测准确率,利用该方法可以从新的样本图像中选取符合预设条件的图像,利用这些图像对模型进行迭代训练,增强模型的鲁棒性和适用性。

其中,预设条件可以有一种或多种,可以根据当前模型来确定对应的预设条件。例如在当前模型是分类模型时,用户比较关心分类结果是否正确以及分类表现好不好,相应的,预设条件可以包括分类预测结果正确与否以及分类预测结果置信度是否达标;而在当前模型是分割模型时,用户还会关心病灶分割的置信度以及病灶分割区域的划分是否贴近真实轮廓线,相应的,预设条件还可以包括病灶分割区域的置信度达标和重合度达标。对应不同模型,下文将给出几个具体实例。

参见图3,在一些实施方式中,所述当前模型可以是预设模型,所述标注信息可以用于指示图像中是否存在病灶和/或当存在病灶时病灶的类型;

所述步骤S107可以包括步骤S201~S202。

步骤S201:如果所述新的样本图像对应的标注信息指示所述新的样本图像中不存在病灶,则当所述输出结果是存在病灶时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集。此时,预设条件可以是:输出结果是存在病灶。显然,该新的样本图像中并不存在病灶,而输出结果显示存在病灶,这说明预测结果发生错误。

步骤S202:如果所述新的样本图像对应的标注信息指示所述新的样本图像中存在病灶,则当所述输出结果是不存在病灶,或者所述输出结果中病灶的类型与对应标注信息中病灶的类型不同,或者所述输出结果中病灶的类型与对应标注信息中病灶的类型相同但是病灶类型的置信度低于第一预设置信度时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集。此时,预设条件可以包括以下至少一种:输出结果是不存在病灶;输出结果中病灶的类型与对应标注信息中病灶的类型不同;所述输出结果中病灶的类型与对应标注信息中病灶的类型相同但是病灶类型的置信度低于第一预设置信度。

预设模型可以是预先设定的模型,在一具体应用中,预设模型可以是以下任意一种:检测模型、分割模型和分类模型。

由此,预设模型可以是检测模型、分割模型和分类模型中的任意一种,可以利用预设模型执行检测任务、分割任务或者分类任务。

病灶类型的置信度可以用于指示病灶是该类型的可能性,其中,第一预设置信度可以是预先设置的置信度,第一预设置信度例如是90%、88%、85%等。例如可以在肺结节检测中为不同部位的肺结节设置不同的预设置信度,将左上肺叶结节和左下肺叶结节对应的第一预设置信度分别设置为90%和75%,将右上肺叶结节、右中肺叶结节和右下肺叶结节对应的第一预设置信度依次设置为88%、87%和64%。

由此,输出结果符合预设条件的情况可以是:新的样本图像对应的标注信息指示该图像中不存在病灶,而输出结果是存在病灶,此时输出结果与对应的标注信息不符,当前模型识别有误;

新的样本图像对应的标注信息指示该图像中存在病灶,而输出结果是不存在病灶,或者输出结果是存在病灶,但是病灶的类型与对应标注信息中病灶的类型不同,此时输出结果与对应的标注信息不符,当前模型识别有误;

新的样本图像对应的标注信息指示该图像中存在病灶,输出结果是存在病灶且病灶的类型与对应标注信息中病灶的类型相同,但是病灶类型的置信度低于第一预设置信度,此时输出结果与对应的标注信息相符,但当前模型识别效果较差。

综上,符合预设条件的新的样本图像可以是当前模型无法识别或者识别效果较差的图像,将这些图像放入训练集中,可以对模型进行迭代训练,进一步增强模型的鲁棒性和适用性。

在一些实施方式中,所述病灶的类型可以包括所述病灶的部位和/或尺寸。除此之外,所述病灶的类型还可以包括病情等级,病情等级例如可以分为轻型、中型、重型等,病情等级还可以分为一期、二期、三期等。

由此,病灶的类型可以包括病灶的部位和/或尺寸,病灶的类型例如是肺结节、乳腺肿块或者异物等,病灶的部位例如是左上肺叶、右下肺叶等,病灶的尺寸例如是直径10mm、直径5mm等。

参见图4,在一些实施方式中,所述方法还可以包括步骤S109。

步骤S109:基于所述输出结果中病灶的类型确定所述第一预设置信度。在设置第一预设置信度时,可以使不同病灶类型对应的第一预设置信度相同或不同,例如可以为左下肺叶结节和左上肺叶结节设置不同的第一预设置信度。

由此,可以基于输出结果中病灶的类型确定第一预设置信度,针对实际应用中人们较为关注的某一病灶类型,可以设置数值较低的第一预设置信度,使得利用当前模型检测训练图像时,更容易检出该病灶类型。

在一具体应用中,人们更关心大尺寸肺结节的检测结果,可以对较大尺寸的肺结节设置数值较低的第一预设置信度,从而增加大结节的检出率。

参见图5,在一些实施方式中,所述预设模型可以是检测模型,所述步骤S109可以包括步骤S301~S302。

步骤S301:获取每个病灶的类型对应的漏检率。

步骤S302:基于所述输出结果中病灶的类型对应的漏检率确定所述第一预设置信度。

由此,可以基于输出结果中病灶的类型对应的漏检率确定第一预设置信度,对于漏检率较高的病灶类型,当前模型对该病灶类型的检测效果不理想,可以针对该病灶类型设置数值较低的第一预设置信度,使得利用当前模型检测训练图像时,更容易检出该病灶类型。

一般而言,病灶的类型对应的漏检率越高,该病灶的类型对应的第一预设置信度越低。例如,可以将容易漏检的左下肺叶结节对应的第一预设置信度设置为75%,将不容易漏检的左上肺叶结节对应的第一预设置信度设置为90%。

在一具体应用中,输出结果中左肺叶下方和右肺叶下方的肺结节漏检率较高,可以针对这两处位置的肺结节设置数值较低的第一预设置信度,增加这两处位置的肺结节检出率。例如,左上肺叶结节和左下肺叶结节对应的第一预设置信度分别设置为90%和75%,右上肺叶结节、右中肺叶结节和右下肺叶结节对应的第一预设置信度依次设置为88%、87%和64%。

由此,可以基于输出结果中病灶的类型对应的漏检率确定第一预设置信度,对于漏检率较高的左下肺叶结节和右下肺叶结节,可以针对这两种病灶类型设置数值较低的第一预设置信度,使得利用当前模型检测训练图像时,更容易检出左下肺叶结节和右下肺叶结节,获得更准确的检测结果。

在一些实施方式中,所述预设模型可以是分割模型,所述标注信息还用于指示病灶的分割区域的轮廓线;

所述步骤S107还可以包括:如果所述新的样本图像对应的标注信息指示所述新的样本图像中存在病灶,则当所述输出结果中病灶分割的置信度低于第二预设置信度,或者病灶的分割区域与对应标注信息中病灶的分割区域的重合度低于预设重合度时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集,其中病灶的分割区域由病灶分割区域的轮廓线来确定。此时,预设条件还可以包括以下至少一种:病灶分割的置信度低于第二预设置信度;病灶的分割区域与对应标注信息中病灶的分割区域的重合度低于预设重合度。

病灶分割的置信度可以用于指示病灶的分割区域的轮廓线是该轮廓线的可能性,其中,第二预设置信度可以是预先设置的置信度,第二预设置信度例如是91%、87%、83%等,预设重合度可以是预先设置的重合度,例如是75%、74%、72%等。具体而言,病灶分割的置信度是指分割模型预测病灶的分割区域的轮廓线是该轮廓线的信心;病灶重合度是指预测结果中病灶分割区域与对应标注信息中病灶分割区域的重合度。其中,病灶分割区域一般而言是一个或多个闭合形状,以病灶分割区域是一个闭合形状为例,标注信息中的病灶分割区域例如是形状A1,分割模型预测得到的病灶分割区域例如是形状A2,病灶重合度即形状A1和形状A2的重合度。

由此,当前模型可以为分割模型,输出结果符合预设条件的情况还可以是:新的样本图像对应的标注信息指示该图像中存在病灶,输出结果是存在病灶,但是病灶分割的置信度低于第二预设置信度,或者输出结果是存在病灶,但是病灶的分割区域与对应标注信息中病灶的分割区域的重合度低于预设重合度,此时输出结果与对应的标注信息相符,但当前模型识别效果较差。反之,如果输出结果中病灶分割区域与对应标注信息中病灶分割区域的重合度高于或等于预设重合度,和/或,输出结果中病灶分割区域的置信度高于或等于第二预设置信度,则说明当前模型识别效果较佳。

综上,符合预设条件的新的样本图像可以是当前模型无法识别或者识别效果较差的图像,将这些图像放入训练集中,可以对模型进行迭代训练,进一步增强模型的鲁棒性和适用性。

上述方法可以利用更新后的训练数据集对模型进行训练,从而不断优化模型,提高模型的预测准确率。无论当前模型是分类模型、检测模型还是分割模型,都能够使用上述方法,找出预测错误或者预测表现不好的难例样本图像,并利用这些难例样本图像再次训练模型,实现模型的迭代和优化。虽然本申请实施例未提及其他模型,但可以理解,当前模型(预设模型)应该包括所有能够应用上述方法进行迭代训练的模型。

参见图6,在一些实施方式中,所述方法还可以包括步骤S110。

步骤S110:基于所述输出结果中病灶的类型确定所述第二预设置信度和/或所述预设重合度。

由此,可以基于输出结果中病灶的类型确定第二预设置信度和/或预设重合度,针对实际应用中人们较为关注的某一病灶类型,可以设置数值较低的第二预设置信度和/或预设重合度,使得利用当前模型识别训练图像时,更容易识别出该病灶类型。

参见图2和图7,本申请实施例还提供了一种模型训练方法,所述方法包括步骤S1~S6。

步骤S1:获取样本图像库,所述样本图像库包括多个样本图像以及每个样本图像对应的标注信息。

步骤S2:获取训练数据集,所述训练数据集包括多个训练图像以及每个训练图像对应的标注信息。

步骤S3:针对所述训练数据集中的每个训练图像执行以下处理:利用匹配算法,基于所述训练图像从所述样本图像库中匹配得到与所述训练图像相似度较高的样本图像。

步骤S4:利用生成算法,基于样本库中所述样本图像的标注信息,在所述训练图像上自动生成对应的新的样本图像,记为生成样本图像。其中,例如可以采用生成式对抗网络(Generative adversarial networks,GANs)的生成器来执行生成算法,生成器将训练图像作为输入,并生成样本图像作为输出。

步骤S5:结合领域知识对所述生成样本图像进行筛选,从所述生成样本图像中选取当前模型不能识别或者表现不好的图像,记为难例样本图像。其中,领域知识是指本技术领域的公知常识及现有技术,当前模型例如是肺结节检测模型。

步骤S6:将所述难例样本图像和对应的标注信息放入所述训练数据集,根据更新后的所述训练数据集,对所述当前模型进行迭代训练,得到更新后的模型。

技术效果

参见图8,本申请实施例还提供了一种模型训练装置,其具体实现方式与上述模型训练方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。

所述装置包括:样本获取模块101,用于获取样本图像库,所述样本图像库包括多个样本图像以及每个样本图像对应的标注信息;训练获取模块102,用于获取训练数据集,所述训练数据集包括多个训练图像以及每个训练图像对应的标注信息;图像匹配模块103,用于基于第一训练图像从所述样本图像库中匹配得到第一样本图像;图像生成模块104,用于基于所述第一训练图像及所述第一样本图像生成新的样本图像;标注获取模块105,用于根据所述第一训练图像对应的标注信息和所述第一样本图像对应的标注信息,获取所述新的样本图像对应的标注信息;图像输入模块106,用于将所述新的样本图像输入当前模型,得到输出结果;数据集更新模块107,用于当所述输出结果符合预设条件时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集;模型更新模块108,用于根据更新后的所述训练数据集,对所述当前模型进行训练,更新所述当前模型。

参见图9,在一些实施方式中,所述当前模型是预设模型,所述标注信息用于指示图像中是否存在病灶和/或当存在病灶时病灶的类型;所述数据集更新模块107包括:第一更新单元1071,用于如果所述新的样本图像对应的标注信息指示所述新的样本图像中不存在病灶,则当所述输出结果是存在病灶时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集;第二更新单元1072,用于如果所述新的样本图像对应的标注信息指示所述新的样本图像中存在病灶,则当所述输出结果是不存在病灶,或者所述输出结果中病灶的类型与对应标注信息中病灶的类型不同,或者所述输出结果中病灶的类型与对应标注信息中病灶的类型相同但是病灶类型的置信度低于第一预设置信度时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集。

在一些实施方式中,所述病灶的类型可以包括所述病灶的部位和/或尺寸。

参见图10,在一些实施方式中,所述装置还可以包括:第一置信度模块109,可以用于基于所述输出结果中病灶的类型确定所述第一预设置信度。

参见图11,在一些实施方式中,所述预设模型可以是检测模型,所述第一置信度模块109可以包括:漏检率获取单元1091,可以用于获取每个病灶的类型对应的漏检率;确定置信度单元1092,可以用于基于所述输出结果中病灶的类型对应的漏检率确定所述第一预设置信度。

参见图12,在一些实施方式中,所述预设模型可以是分割模型,所述标注信息还用于指示病灶的分割区域的轮廓线;所述数据集更新模块107还包括:第三更新单元1073,用于如果所述新的样本图像对应的标注信息指示所述新的样本图像中存在病灶,则当所述输出结果中病灶分割的置信度低于第二预设置信度,或者病灶的分割区域与对应标注信息中病灶的分割区域的重合度低于预设重合度时,使用所述新的样本图像及其对应的标注信息更新所述训练数据集,其中病灶分割区域由病灶的分割区域的轮廓线来确定。

参见图13,在一些实施方式中,所述模型训练装置还可以包括第二置信度模块110,可以用于基于所述输出结果中病灶的类型确定所述第二预设置信度和/或所述预设重合度。

参见图14,本申请实施例还提供了一种电子设备200,电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)211和/或高速缓存存储器212,还可以进一步包括只读存储器(ROM)213。

其中,存储器210还存储有计算机程序,计算机程序可以被处理器220执行,使得处理器220执行本申请实施例中模型训练方法的步骤,其具体实现方式与上述模型训练方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214,这样的程序模块215包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的,处理器220可以执行上述计算机程序,以及可以执行实用工具214。

总线230可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个能够与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,所述计算机程序被执行时实现本申请实施例中模型训练方法的步骤,其具体实现方式与上述模型训练方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。

图15示出了本实施例提供的用于实现上述模型训练方法的程序产品300,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品300不限于此,在本申请中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,已符合专利法所强调的功能增进及使用要件,本申请以上的说明书及说明书附图,仅为本申请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置,特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆应属本申请的专利申请保护的范围之内。

相关技术
  • 模型训练方法、模型训练装置、存储介质和电子设备
  • 模型训练方法、模型训练平台、电子设备和存储介质
技术分类

06120113227585