掌桥专利:专业的专利平台
掌桥专利
首页

基于自适应训练模型的全切片图像分类方法及装置

文献发布时间:2024-04-18 19:52:40


基于自适应训练模型的全切片图像分类方法及装置

技术领域

本申请涉及计算机视觉技术领域,尤其涉及一种基于自适应训练模型的全切片图像分类方法及装置。

背景技术

随着计算机视觉技术领域的发展,出现了基于计算机视觉技术的图像分析处理技术。其中,将该技术应用于基于自适应训练模型的全切片图像分类,不仅能够提高进行基于自适应训练模型的全切片图像分类的效率,还能够减轻检验人员的工作量。

在现有技术中,获取全切片样本图像构建样本数据集,筛选各个全切片样本图像的特征,构建神经网络模型并设置超参数,基于样本数据集对神经网络模型进行训练,得到用于对全切片图像进行分类的分类模型。由于特征数据、模型结构、超参数和抽样策略都是工作人员根据实际情况或者经验知识进行选择的,对工作人员的要求较高,且工作人员要亲自参与分类模型生成的各个环节,人力成本和时间成本较高。人为选择往往主观性较强,难以从客观角度考虑到不同变量之间的关联性,导致分类模型的分类准确性较低。

发明内容

本申请提供一种基于自适应训练模型的全切片图像分类方法及装置,通过构建目标搜索空间以自适应选择特征、模型结构、超参数和抽样策略,训练出在不同域上稳定性较强且性能较好的分类模型,减少对人工的依赖性,有效降低人工成本和时间成本,提高了分类模型的分类准确率。

第一方面,本申请提供了一种基于自适应训练模型的全切片图像分类方法,包括:

将待分类的全切片图像分成多个全切片子图像,将所述全切片子图像输入预先训练好的特征提取模型,得到所述特征提取模型输出的第一特征信息;

根据所述多个全切片子图像对应的第一特征信息,确定所述全切片图像的第二特征信息;

将所述全切片图像的第二特征信息输入预先训练的第一分类模型,得到所述第一分类模型输出的所述全切片图像的类别;所述第一分类模型基于目标搜索空间和第一训练集对分类网络进行训练得到,所述目标搜索空间包括特征搜索空间、网络结构搜索空间、训练超参搜索空间和训练集采样策略搜索空间中的至少一个。

第二方面,本申请提供了一种基于自适应训练模型的全切片图像分类装置,包括:

第一特征确定模块,被配置为将待分类的全切片图像分成多个全切片子图像,将所述全切片子图像输入预先训练好的特征提取模型,得到所述特征提取模型输出的第一特征信息;

第二特征确定模块,被配置为根据所述多个全切片子图像对应的第一特征信息,确定所述全切片图像的第二特征信息;

图像分类模块,被配置为将所述全切片图像的第二特征信息输入预先训练的第一分类模型,得到所述第一分类模型输出的所述全切片图像的类别;所述第一分类模型基于目标搜索空间和第一训练集对分类网络进行训练得到,所述目标搜索空间包括特征搜索空间、网络结构搜索空间、训练超参搜索空间和训练集采样策略搜索空间中的至少一个。

第三方面,本申请提供了一种基于自适应训练模型的全切片图像分类设备,包括:

一个或多个处理器;存储装置,存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的基于自适应训练模型的全切片图像分类方法。

第四方面,本申请提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的基于自适应训练模型的全切片图像分类方法。

在本申请中,预先训练用于提取全切片子图像的第一特征信息的特征提取模型,以及构建特征搜索空间、网络结构搜索空间、训练超参搜索空间和/或训练集采样策略搜索空间以形成目标搜索空间,基于目标搜索空间和第一训练集对分类网络进行训练,预先训练出用于确定全切片图像的类别的第一分类模型。在特征提取模型和第一分类模型训练完成后,将待分类的全切片图像对应分成多个全切片子图像,通过特征提取模型确定每个全切片子图像的第一特征信息。对多个全切片子图像的第一特征信息进行处理,得到全切片图像的第二特征信息。将全切片图像的第二特征信息输入第一分类模型,通过第一分类模型确定全切片图像的类别。通过上述技术手段,在训练分类网络时会从目标搜索空间中自适应选择分类网络的特征、模型结构、超参数和/或抽样策略等,以代替人工选择特征、模型结构、超参数和/或抽样策略,无需人工亲自参与分类模型生成的各个环节,减少对人工的依赖性,有效节约人工成本和时间成本。全面探索目标搜索空间中不同变量之间的关系,以便从目标搜索空间中搜索出最佳的特征、模型结构、超参数和/或抽样策略组合,进而训练出在不同域上稳定性较强且性能较好的分类模型,提高了分类模型的分类准确率。

附图说明

图1是本申请实施例提供的一种基于自适应训练模型的全切片图像分类方法的流程图;

图2是本申请实施例提供的确定全切片图像的第二特征信息的流程图;

图3是本申请实施例提供的构建第一训练集的流程图;

图4是本申请实施例提供的构建目标搜索空间的流程图;

图5是本申请实施例提供的训练分类网络的流程图;

图6是本申请实施例提供的通过估计器确定优化采样值的流程图;

图7是本申请实施例提供的一种基于自适应训练模型的全切片图像分类装置的结构示意图;

图8是本申请实施例提供的一种基于自适应训练模型的全切片图像分类设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

本实施例中提供的基于自适应训练模型的全切片图像分类方法可以由基于自适应训练模型的全切片图像分类设备执行,该基于自适应训练模型的全切片图像分类设备可以通过软件和/或硬件的方式实现,该基于自适应训练模型的全切片图像分类设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。例如基于自适应训练模型的全切片图像分类设备可以是电脑和服务器等处理能力较强的智能终端。其中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

基于自适应训练模型的全切片图像分类设备安装有至少一类操作系统,基于自适应训练模型的全切片图像分类设备可以基于操作系统安装至少一个应用程序,应用程序可以为操作系统自带的应用程序,也可以为从第三方设备或者服务器中下载的应用程序。在该实施例中,基于自适应训练模型的全切片图像分类设备至少安装有可以执行基于自适应训练模型的全切片图像分类方法的应用程序。

为便于理解,本实施例以服务器为执行基于自适应训练模型的全切片图像分类方法的主体为例,进行描述。

在一实施例中,将全切片图像划分成多个图像块,通过前置模型检测出各个图像块中的各类细胞的置信度、数量和形状信息等特征,基于这些特征人为筛选出全切片图像的特征,基于全切片图像的特征训练分类模型。由于特征筛选过程往往主观性较强,极度依赖经验知识,容易影响分类模型的稳定性和准确性。除此之外,分类模型的训练抽样策略、网络结构和超参数的选择同样依赖人工的调试,当人工调试这些变量时,难以考虑到不同变量之间的关联性,导致分类模型的分类准确性较低。

为解决上述问题,本实施例提供了一种基于自适应训练模型的全切片图像分类方法,以训练出在不同域上稳定性较强且性能较好的分类模型,减少对人工的依赖性,提高了分类模型的分类准确率。

图1给出了本申请实施例提供的一种基于自适应训练模型的全切片图像分类方法的流程图。参考图1,该基于自适应训练模型的全切片图像分类方法具体包括:

S110、将待分类的全切片图像分成多个全切片子图像,将全切片子图像输入预先训练好的特征提取模型,得到特征提取模型输出的第一特征信息。

其中,待分类的全切片图像是指待确定图像类别的全切片图像。全切片可以是组织全切片或细胞全切片,细胞可以是类间差异较小的细胞,例如宫颈细胞;全切片图像可以是尺寸较大的数字图像,例如细胞病理全切片数字图像;全切片图像分成的多个全切片子图像需要符合预设尺寸,预设尺寸可以是任意图像尺寸,例如1024*1024,多个全切片子图像的尺寸可以是完全相同的。

示例性的,确定全切片图像中的有效区域,通过预设尺寸的窗口在全切片图像的有效区域内进行滑窗裁图,将每一次滑窗裁剪到的图像块作为一个全切片子图像,当遍历完整个有效区域即可得到全切片图像对应分成的多个全切片子图像。其中,有效区域是指非空白的、有信息的区域。通过滑窗形式可以快速将全切片图像划分成多个等尺寸的全切片子图像,有效提高了全切片子图像的获取效率。

其中,特征提取模型是指用于确定出全切片子图像中细胞类别的神经网络模型。全切片子图像的第一特征信息是指全切片子图像中细胞的类别、置信度和/或尺寸等特征。

在一实施例中,特征提取模型可以是细胞分类模型,细胞分类模型采用分类网络如EfficientNet和Resne等。在该实施例中,将全切片子图像输入预先训练好的细胞分类模型,得到细胞分类模型输出的全切片子图像中第一细胞的类别和置信度,将第一细胞的类别和置信度作为全切片子图像的第一特征信息;第一细胞为全切片子图像中病变程度最高的细胞。示例性的,在训练细胞分类模型时,将全切片样本子图像输入分类网络,根据分类网络输出的分类结果和全切片样本子图像中标记的病变程度最高的细胞类别对分类网络进行参数调整,以训练出可以确定出全切片子图像中病变程度最高的细胞类别的细胞分类模型。需要说明的,当训练细胞分类模型时,可给全切片样本子图像增加噪声或对全切片样本子图像进行扰动等方式进行图像增广,以减少细胞分类模型的过拟合。

在另一实施例中,特征提取模型可以是细胞检测模型,细胞检测模型采用目标检测网络如EfficientDet和Yolo等。在该实施例中,将全切片子图像输入预先训练好的细胞检测模型,得到细胞检测模型输出的全切片子图像中第二细胞的类别、置信度和尺寸,将第二细胞的类别、置信度和尺寸确定为全切片子图像的第一特征信息;第二细胞为全切片子图像中各种病变程度的细胞。示例性的,在训练细胞检测模型时,将全切片样本子图像输入目标检测网络,根据目标检测网络输出的检测结果和全切片样本子图像中标记的各种病变程度的细胞类别以及对应的锚框对目标检测网络进行参数调整,以训练出可以通过检测框选中全切片子图像中各种病变程度的细胞并确定细胞类别的目标检测网络。其中,细胞检测模型输出的第二细胞的尺寸是指选中该第二细胞的检测框的尺寸。同样的,当训练细胞检测模型时,可给全切片样本子图像增加噪声或对全切片样本子图像进行扰动等方式进行图像增广,以减少细胞检测模型的过拟合。

S120、根据多个全切片子图像对应的第一特征信息,确定全切片图像的第二特征信息。

其中,全切片图像的第二特征信息是指全切片图像中各种细胞的类别、数量和置信度等特征。需要说明的,通过细胞检测模型也确定出全切片图像中各个细胞的类别和置信度,但由于全切片图像的尺寸较大,细胞检测模型去检测全切片图像时检测速度较慢。因此本实施例提出将全切片图像分割成多个全切片子图像,根据多个全切片子图像中各个细胞的类别和置信度,确定全切片图像中各个细胞的类别和置信度,即可确定出全切片图像的第二特征信息。

在一实施例中,图2是本申请实施例提供的确定全切片图像的第二特征信息的流程图。如图2所示,该确定全切片图像的第二特征信息的步骤具体包括S1201-S1204:

S1201、根据多个全切片子图像中各个细胞的类别和置信度,确定全切片图像中各个细胞的置信度分布。

其中,置信度分布可以是全切片图像中细胞在置信度区间和类别上的分布,例如,假设置信度区间为将0~100%平均划分成10个区间,细胞类别包括正常细胞、低级别病变细胞、高级别病变细胞和癌细胞,若细胞A的置信度为90%,类别为正常细胞,则将细胞A划分至(80%,90]和正常细胞对应的分布区间。在将多个全切片子图像中的所有细胞划分至对应分布区间后,统计各个分布区域内的细胞数量占总细胞数量的比例,得到二维直方图,该二维直方图即为全切片图像中所有细胞的置信度分布。除此之外,置信度分布也可以是全切片图像中细胞在对应置信度区间内的类别分布,例如将多个全切片子图像中在置信度区间(80%,90]内的所有细胞划分类别,确定每种类别的细胞数量占该置信度区间的细胞总数量的比例,得到该置信度区间的一维直方图,该一维直方图即为全切片图像中在该置信度区间的所有细胞的类别分布。置信度分布还可以是全切片图像中细胞在对应类别下的置信度区间分布,例如将多个全切片子图像中为正常类别的所有细胞划分至对应的置信度区间,确定各个置信度区间的细胞数量占该正常类别的细胞总数量的比例,得到正常类别的一维直方图,该一维直方图即为全切片图像中为正常类别的所有细胞的置信度区间分布。

需要说明的,全切片图像中的细胞即为全切片子图像中的细胞,全切片图像中细胞的类别和置信度即为特征提取模型确定的全切片子图像中细胞的类别和置信度。置信度分布除了可以基于全切片图像中所有细胞的类别和置信度确定以外,也可以基于全切片图像中置信度最高的N个细胞的类别和置信度确定,还可以是基于全切片图像中每种类别的置信度最高的N个细胞的类别和置信度确定。

S1202、根据多个全切片子图像中各个细胞的类别和尺寸,确定全切片图像中各个细胞的面积分布。

同理的,面积分布可以是全切片图像中细胞在面积区间和类别上的分布,也可以是全切片图像中细胞在对应面积区间内的类别分布,还可以是全切片图像中细胞在对应类别下的置信度区间分布。其中,细胞面积由细胞对应检测框的尺寸确定。

同样的,面积分布可以基于全切片图像中所有细胞的类别和尺寸确定,也可以基于全切片图像中置信度最高的N个细胞的类别和尺寸确定,还可以是基于全切片图像中每种类别的置信度最高的N个细胞的类别和置信度确定。

需要说明的,只有当特征提取模型为细胞检测模型时,才会确定面积分布,否则不执行该步骤。

S1203、根据多个全切片子图像中各个细胞的尺寸,确定全切片图像中各个细胞的长宽比。

示例性的,将细胞对应检测框的长度比上宽度,得到该细胞对应的长宽比。其中,可以筛选出全切片图像中每种类别的置信度最高的N个细胞确定对应的长宽比。

同样的,只有当特征提取模型为细胞检测模型时,才会确定长宽比,否则不执行该步骤。

S1204、将全切片图像中各个细胞的置信度、置信度分布、面积分布和长宽比作为全切片图像的第二特征信息。

示例性的,筛选出全切片图像中每种类别的置信度最高的N个细胞,基于这些细胞的置信度、类别和尺寸确定置信度分布、面积分布和长宽比,将置信度分布和面积分布以及这些细胞的长宽比、类别和置信度数值作为全切片图像的第二特征信息。

S130、将全切片图像的第二特征信息输入预先训练的第一分类模型,得到第一分类模型输出的全切片图像的类别;第一分类模型基于目标搜索空间和第一训练集对分类网络进行训练得到,目标搜索空间包括特征搜索空间、网络结构搜索空间、训练超参搜索空间和训练集采样策略搜索空间中的至少一个。

在本实施例中,第一分类模型由第一训练集和目标搜索空间对分类网络进行训练得到,因此在训练第一分类模型之前,先构建出第一训练集和目标搜索空间。

在一实施例中,图3是本申请实施例提供的构建第一训练集的流程图。如图3所示,该构建第一训练集的步骤具体包括S210-S230:

S210、将样本图像分成多个样本子图像,将样本子图像输入特征提取模型,得到特征提取模型输出的第一特征信息。

其中,样本图像即为事先收集的标记有对应图像类别的全切片图像,其为用于训练第一分类模型的训练样本。样本图像标记的图像类别可以是人工标记的,也可以是由其他已经训练好的第二分类模型推理出来的图像类别。通过预设窗口对样本图像进行滑窗裁剪,以将样本图像分成多个样本子图像,通过训练好的特征提取模型确定每个样本子图像中细胞的类别、置信度和/或尺寸。

S220、根据多个样本子图像对应的第一特征信息,确定样本图像的第二特征信息。

示例性的,根据多个样本子图像对应的类别、置信度和/或尺寸,确定出样本图像中细胞的置信度分布、面积分布、置信度数值、类别和/或长宽比。

S230、将样本图像的第二特征信息和对应标记的图像类别关联保存至第一训练集。

将样本图像的第二特征信息与对应标记的图像类别关联保存为一组样本数据,通过多组样本数据构建出第一训练集。

在一实施例中,图4是本申请实施例提供的构建目标搜索空间的流程图。

如图4所示,该构建目标搜索空间的步骤具体包括S310-S340:

S310、将第二特征信息中每类特征的采用情况作为采样点以构建特征搜索空间。

示例性的,第二特征信息包括置信度分布、面积分布、置信度数值、长宽比和类别等特征,这些特征是否被分类网络采用于预测图像类别的采用情况作为采样点以构建出特征搜索空间。当训练分类网络时从特征搜索空间获取各个采用点的采样值,以通过采样值表征对应特征的采用情况。例如,置信度分布的采样点为1时,表明分类网络会基于置信度分布来预测图像类别,置信度分布的采样点为0时,表明分类网络不会基于置信度分布来预测图像类别。可理解,本实施例通过设置特征搜索空间,以从特征搜索空间中自适应搜索出最适合分类网络去预测图像类别的特征,不依赖人工筛选特征,减少人为引入的误差,提高第一分类模型的准确性和稳定性。

S320、将分类网络的网络结构参数作为采样点以构建网络结构搜索空间,网络结构参数包括网络层数、激活函数、丢弃比例和隐藏层的神经元数量中的至少一个。

示例性的,网络层数、每一层网络的激活函数、每一层网络的丢弃比例(Dropout比例)和每一隐藏层的神经元数量都是影响网络结构的参数,为构建出结构最稳定的分类网络,可将网络层数、每一层网络的激活函数、每一层网络的丢弃比例和每一隐藏层的神经元数量作为采样点以构建出网络结构搜索空间。当训练分类网络时从网络结构搜索空间中获取各个采用点的采样值,以通过采样值表征对应采样点的结构参数。可理解,本实施例通过设置网络结构搜索空间,以从网络结构搜索空间中自适应搜索出稳定性最强的网络结构,不依赖人工构建网络结构,减少人为引入的误差,提高第一分类模型的准确性和稳定性。

在该实施例中,分类网络可以是全连接网络或随机森林网络。当分类网络时全连接网络时,全连接网络对应的网络结构参数即为网络结构搜索空间中的采样点,例如网络层数等。而当分类网络是随机森林网络时,随机森林网络对应的网络结构参数即为网络结构搜索空间中的采样点,例如决策树数量、每次节点分割时考虑的特征数量和决策树最大深度等。

S330、将分类网络的超参数作为采样点以构建训练超参搜索空间;超参数包括优化器、学习率策略、标签平滑参数和类别权重中的至少一个。

示例性的,优化器、学习率策略、标签平滑参数和类别权重都是影响网络性能的训练参数,为构建出性能最佳的分类网络,可将优化器、学习率策略、标签平滑参数和类别权重作为采样点以构建出训练超参搜索空间。当训练分类网络时从训练超参搜索空间中获取各个采用点的采样值,以通过采样值表征对应采样点的训练参数。可理解,本实施例通过设置训练超参搜索空间,以从训练超参搜索空间中自适应搜索出网络性能最佳的训练参数,不依赖人工调试网络超参数,减少人为引入的误差,提高第一分类模型的准确性和稳定性。

S340、将图像类别中各种类别的过采样比例或欠采样比例作为采样点以构建训练集采样策略搜索空间,图像类别包括制片类别、制片来源类别、扫描仪类别和切片类别中的至少两个。

由于不同医院的制片手法和试剂导致的差异,不同扫描仪之间的差异,不同制片方法之间的差异都会影响全切片图像的切片类别。因此本实施例将全切片图像的图像类别划分成制片类别、制片来源类别、扫描仪类别和切片类别这四大类,每个全切片图像都有对应的制片类别、制片来源类别、扫描仪类别和切片类别,通过分析出制片类别、制片来源类别和扫描仪类别下各种切片类别的差异,进而准确预测全切片图像的切片类别。其中,全切片图像的切片类别包括正常、低级别病变、高级别病变和癌变。

由于第一训练集中各种类别的样本数据可能分布不均,例如制片类别下有制片类别A和制片类别B,第一训练集中制片类别A和制片类别B的比例分别为80%和20%,此时可通过Random Over/Under Sample(过采样或欠采样)算法来平衡第一训练集中这两种制片类别的样本数据的分布,以达到一个较好的训练效果。因此可将各种类别的过采样比例或欠采样比例作为一个采样点以构建训练集采样策略搜索空间。当训练分类网络时从训练集采样策略搜索空间中获取各个采样点的采样值,以通过采样值表征对应类别的过采样比例或欠采样比例。可理解,本实施例通过设置训练集采样策略搜索空间,以从训练集采样策略搜索空间中自适应搜索出最合适用于训练分类网络的抽样策略,不依赖人工确定抽样策略,减少人为引入的误差,提高第一分类模型的准确性和稳定性。

在一实施例中,目标搜索空间还包括半监督任务参数搜索空间。相应的,半监督任务参数搜索空间的构建过程为:在样本图像对应标记的图像类别为第一分类结果的情况下,将样本图像的样本权重的缩小比例作为采样点以构建半监督任务参数搜索空间;其中,第一分类结果是预先训练的第二分类模型输出的置信度超过预设置信度阈值的分类结果。示例性的,当训练任务为半监督任务时,部分样本图像没有人工标记的真实标签,但有其他预先训练好的第二分类模型推理出来的标签。可预先设置置信度阈值,以确定出高置信度的样本图像的第二特征信息,将第二分类模型预测的图像类别与对应的第二特征信息关联保存为样本数据,将样本数据放入第一训练集中。此时,这类样本数据的样本权重的缩小比例会影响分类网络的训练效果,因此可将这类样本数据的样本权重的缩小比例作为采样点以构建出半监督任务参数搜索空间。通过半监督任务参数搜索空间,可自适应搜索半监督任务场景下最优的样本权重的缩小比例,优化模型的训练效果。

在一实施例中,目标搜索空间还包括迁移学习任务参数搜索空间,迁移学习任务参数搜索空间的构建过程为:在分类网络为基于第二训练集进行预训练得到的情况下,将分类网络中锁住的层数和参数作为采样点以构建迁移学习任务参数搜索空间。示例性的,当训练任务为迁移学习任务时,已经通过其他的第二训练集预训练出了通用的分类网络,可在第一训练集上对分类网络进行微调即可得到适应第一训练集的第一分类模型。微调范围取决于第一训练集和第二训练集的差异程度和第二训练集中的样本数据量,因此微调过程中将分类网络的第几层到第几层的那些参数锁住可作为采样点以构建迁移学习任务参数搜索空间。通过迁移学习任务参数搜索空间,可自适应搜索迁移学习任务场景下最优的微调范围,优化模型的训练效果。

需要说明的,在迁移学习任务场景下,由于分类网络的结构和特征已确定,目标搜索空间不包括特征搜索空间和网络结构搜索空间。

在构建出第一训练集和目标搜索空间后,基于第一训练集和目标搜索空间对分类网络进行训练,得到第一分类模型。在一实施例中,图5是本申请实施例提供的训练分类网络的流程图。如图5所示,该训练分类网络的步骤具体包括S410-S450:

S410、从目标搜索空间随机获取多组初始采样值,根据每组采样值和第一训练集对分类网络进行训练,并通过验证集确定每个训练后的分类网络的性能评价指标值。

示例性的,从目标搜索空间的各个采样点随机获取对应的初始采样值,将当前获取各个采样点的初始采样值作为一组初始采样值。根据一组初始采样值,筛选出采用的特征、构建出网络结构、设定网络超参数以及抽样策略。根据特征、构建出网络结构、设定网络超参数、抽样策略和第一训练集对分类网络进行训练,并获取训练后的分类网络在验证集上的性能评价指标值。其中,性能评价指标值可以是敏感性和特异性的加权平均值,也可以是AUC或其他自定义的指标。

重复上述的采样、训练和验证的过程十次,得到十组初始采样值对应训练出的分类网络和分类网络对应的性能评价指标值。

S420、基于高斯混合模型通过每组采样值和对应的性能评价指标值构建估计器,通过估计器确定优化采样值。

在本实施例中,估计器采用TPE(Tree of Parzen Estimators)算法从历史采样记录中搜索出下一组优化采样值。示例性的,图6是本申请实施例提供的通过估计器确定优化采样值的流程图。如图6所示,该通过估计器确定优化采样值的步骤具体包括S4201-S4202:

S4201、将最优的性能评价指标值和对应的采样值构建第一高斯混合模型,将剩余的采用值和对应的性能评价指标值构建第二高斯混合模型。

S4202、解算第一高斯混合模型与第二高斯混合模型比值最大时的参数,得到优化采样值。

示例性的,从十组采样值对应的性能评价指标值中挑选出最优的性能评价指标值和对应采样值构建第一高斯混合模型l(x),将剩下的九组采样值和对应的性能评价指标值构建第二高斯混合模型g(x)。其中,x是指各个采样点对应的变量。解算l(x)/g(x)为最大值时的x,将x的取值作为对应采样点的采样值,得到下一组的优化采样值。

需要说明的,本实施例是同时搜索出各个搜索子空间下各个采样点的最优采样值,因此本实施例能够全面客观地探索不同采样点之间的关系,可自适应地得到一个在不同域上稳定性最强性能最佳的分类模型。

S430、通过优化采样值和第一训练集对分类网络进行训练,并通过验证集确定训练后的分类网络的性能评价指标值。

示例性的,根据该组优化采样值,筛选出采用的特征、构建出网络结构、设定网络超参数以及抽样策略。根据特征、构建出网络结构、设定网络超参数、抽样策略和第一训练集对分类网络进行训练,并获取训练后的分类网络在验证集上的性能评价指标值。

S440、在优化采样值对应的性能评价指标值满足预设指标阈值的情况下,将优化采样值对应训练的分类网络作为第一分类模型。

示例性的,当该组优化采样值对应的性能评价指标值满足预设指标阈值时,表明该优化采样值训练出的分类网络的稳定性高和性能好,可将该分类网络作为用于确定全切分图像类别的第一分类模型。

S450、在优化采样值对应的性能评价指标值不满足预设指标阈值的情况下,基于高斯混合模型通过每组采样值和对应的性能评价指标值构建估计器,通过估计器确定下一优化采样值。

示例性的,当该组优化采样值对应的性能评价指标值不满足预设指标阈值时,表明该优化采样值训练出的分类网络稳定性差和性能差,因此可继续获取下一组优化采样值,直至训练出性能评价指标值满足预设指标阈值的分类网络。

在该实施例中,当确定下一组优化采样值时,从历史记录的所有组采样值中挑选出性能评价指标值最高的一组采样值,将该组采样值和对应的性能评价指标值构建第一高斯混合模型,然后通过历史记录剩余的多组采样值和对应的性能评价指标值构建第二高斯混合模型。解算第一高斯混合模型与第二高斯混合模型比值最大时的参数,得到下一组优化采样值。可理解的,每次搜索均会使用一个估计器来通过历史记录确定下一组的优化采样值,即使搜索参数量多,也可以客观地衡量并估计搜索方向。

需要说明的,除了当分类网络的性能评价指标值达到预设指标阈值时停止搜索,搜索停止的条件也可以是连续多组最优采样值训练出的分类网络的性能评价指标值没有提升,还可以是搜索优化采样值的次数达到上限或者搜索优化采样值的搜索时间达到上限。搜索停止的条件根据实际情况进行设定,在此不做限定。

综上,本申请实施例提供的基于自适应训练模型的全切片图像分类方法,通过预先训练用于提取全切片子图像的第一特征信息的特征提取模型,以及构建特征搜索空间、网络结构搜索空间、训练超参搜索空间和/或训练集采样策略搜索空间以形成目标搜索空间,基于目标搜索空间和第一训练集对分类网络进行训练,预先训练出用于确定全切片图像的类别的第一分类模型。在特征提取模型和第一分类模型训练完成后,将待分类的全切片图像对应分成多个全切片子图像,通过特征提取模型确定每个全切片子图像的第一特征信息。对多个全切片子图像的第一特征信息进行处理,得到全切片图像的第二特征信息。将全切片图像的第二特征信息输入第一分类模型,通过第一分类模型确定全切片图像的类别。通过上述技术手段,在训练分类网络时会从目标搜索空间中自适应选择分类网络的特征、模型结构、超参数和/或抽样策略等,以代替人工选择特征、模型结构、超参数和/或抽样策略,无需人工亲自参与分类模型生成的各个环节,减少对人工的依赖性,有效节约人工成本和时间成本。全面探索目标搜索空间中不同变量之间的关系,以便从目标搜索空间中搜索出最佳的特征、模型结构、超参数和/或抽样策略组合,进而训练出在不同域上稳定性较强且性能较好的分类模型,提高了分类模型的分类准确率。

在上述实施例的基础上,图7为本申请实施例提供的一种基于自适应训练模型的全切片图像分类装置的结构示意图。参考图7,本实施例提供的基于自适应训练模型的全切片图像分类装置具体包括:第一特征确定模块51、第二特征确定模块52和图像分类模块53。

其中,第一特征确定模块,被配置为将待分类的全切片图像分成多个全切片子图像,将全切片子图像输入预先训练好的特征提取模型,得到特征提取模型输出的第一特征信息;

第二特征确定模块,被配置为根据多个全切片子图像对应的第一特征信息,确定全切片图像的第二特征信息;

图像分类模块,被配置为将全切片图像的第二特征信息输入预先训练的第一分类模型,得到第一分类模型输出的全切片图像的类别;第一分类模型基于目标搜索空间和第一训练集对分类网络进行训练得到,目标搜索空间包括特征搜索空间、网络结构搜索空间、训练超参搜索空间和训练集采样策略搜索空间中的至少一个。

在上述实施例的基础上,特征提取模型为细胞分类模型或细胞检测模型;相应的,第一特征确定模块包括:细胞分类单元,被配置为将全切片子图像输入预先训练好的细胞分类模型,得到细胞分类模型输出的全切片子图像中第一细胞的类别和置信度,将第一细胞的类别和置信度作为全切片子图像的第一特征信息;第一细胞为全切片子图像中病变程度最高的细胞;或细胞检测单元,被配置为将全切片子图像输入预先训练好的细胞检测模型,得到细胞检测模型输出的全切片子图像中第二细胞的类别、置信度和尺寸,将第二细胞的类别、置信度和尺寸确定为全切片子图像的第一特征信息;第二细胞为全切片子图像中各种病变程度的细胞。

在上述实施例的基础上,第二特征确定模块包括:置信度分布确定单元,被配置为根据多个全切片子图像中各个细胞的类别和置信度,确定全切片图像中各个细胞的置信度分布;面积分布确定单元,被配置为根据多个全切片子图像中各个细胞的类别和尺寸,确定全切片图像中各个细胞的面积分布;长宽比确定单元,被配置为根据多个全切片子图像中各个细胞的尺寸,确定全切片图像中各个细胞的长宽比;第二特征确定单元,被配置为将全切片图像中各个细胞的类别、置信度、置信度分布、面积分布和长宽比作为全切片图像的第二特征信息。

在上述实施例的基础上,基于自适应训练模型的全切片图像分类装置还包括第一训练集构建模块,第一训练集构建模块包括:第一样本特征确定单元,被配置为将样本图像分成多个样本子图像,将样本子图像输入特征提取模型,得到特征提取模型输出的第一特征信息;第二样本特征确定单元,被配置为根据多个样本子图像对应的第一特征信息,确定样本图像的第二特征信息;第一训练集生成单元,被配置为将样本图像的第二特征信息和对应标记的图像类别关联保存至第一训练集。

在上述实施例的基础上,基于自适应训练模型的全切片图像分类装置还包括搜索空间构建模块,搜索空间构建模块包括:第一空间构建单元,被配置为将第二特征信息中每类特征的采用情况作为采样点以构建特征搜索空间;第二空间构建单元,被配置为将分类网络的网络结构参数作为采样点以构建网络结构搜索空间,网络结构参数包括网络层数、激活函数、丢弃比例和隐藏层的神经元数量中的至少一个;第三空间构建单元,被配置为将分类网络的超参数作为采样点以构建训练超参搜索空间;超参数包括优化器、学习率策略、标签平滑参数和类别权重中的至少一个;第四空间构建单元,被配置为将图像类别中各种类别的过采样比例或欠采样比例作为采样点以构建训练集采样策略搜索空间,图像类别包括制片类别、制片来源类别、扫描仪类别和切片类别中的至少两个。

在上述实施例的基础上,目标搜索空间还包括半监督任务参数搜索空间;相应的,搜索空间构建模块还包括:第五空间构建单元,被配置为在样本图像对应标记的图像类别为第一分类结果的情况下,将样本图像的样本权重的缩小比例作为采样点以构建半监督任务参数搜索空间;其中,第一分类结果是预先训练的第二分类模型输出的置信度超过预设置信度阈值的分类结果。

在上述实施例的基础上,目标搜索空间还包括迁移学习任务参数搜索空间;相应的,搜索空间构建模块还包括:第六空间构建单元,被配置为在分类网络为基于第二训练集进行预训练得到的情况下,将分类网络中锁住的层数和参数作为采样点以构建迁移学习任务参数搜索空间。

在上述实施例的基础上,基于自适应训练模型的全切片图像分类装置还包括分类网络训练模块,分类网络训练模块包括:初始采样值获取单元,被配置为从目标搜索空间随机获取多组初始采样值,根据每组采样值和第一训练集对分类网络进行训练,并通过验证集确定每个训练后的分类网络的性能评价指标值;第一采样值确定单元,被配置为基于高斯混合模型通过每组采样值和对应的性能评价指标值构建估计器,通过估计器确定优化采样值;分类网络训练单元,被配置为通过优化采样值和第一训练集对分类网络进行训练,并通过验证集确定训练后的分类网络的性能评价指标值;第一分类模型确定单元,被配置为在优化采样值对应的性能评价指标值满足预设指标阈值的情况下,将优化采样值对应训练的分类网络作为第一分类模型;第二采样值确定单元,被配置为在优化采样值对应的性能评价指标值不满足预设指标阈值的情况下,基于高斯混合模型通过每组采样值和对应的性能评价指标值构建估计器,通过估计器确定下一优化采样值。

在上述实施例的基础上,第一采样值确定单元包括:模型构建子单元,被配置为将最优的性能评价指标值和对应的采样值构建第一高斯混合模型,将剩余的采用值和对应的性能评价指标值构建第二高斯混合模型;采样值解算子单元,被配置为解算第一高斯混合模型与第二高斯混合模型比值最大时的参数,得到优化采样值。

上述,本申请实施例提供的基于自适应训练模型的全切片图像分类装置,通过预先训练用于提取全切片子图像的第一特征信息的特征提取模型,以及构建特征搜索空间、网络结构搜索空间、训练超参搜索空间和/或训练集采样策略搜索空间以形成目标搜索空间,基于目标搜索空间和第一训练集对分类网络进行训练,预先训练出用于确定全切片图像的类别的第一分类模型。在特征提取模型和第一分类模型训练完成后,将待分类的全切片图像对应分成多个全切片子图像,通过特征提取模型确定每个全切片子图像的第一特征信息。对多个全切片子图像的第一特征信息进行处理,得到全切片图像的第二特征信息。将全切片图像的第二特征信息输入第一分类模型,通过第一分类模型确定全切片图像的类别。通过上述技术手段,在训练分类网络时会从目标搜索空间中自适应选择分类网络的特征、模型结构、超参数和/或抽样策略等,以代替人工选择特征、模型结构、超参数和/或抽样策略,无需人工亲自参与分类模型生成的各个环节,减少对人工的依赖性,有效节约人工成本和时间成本。全面探索目标搜索空间中不同变量之间的关系,以便从目标搜索空间中搜索出最佳的特征、模型结构、超参数和/或抽样策略组合,进而训练出在不同域上稳定性较强且性能较好的分类模型,提高了分类模型的分类准确率。

本申请实施例提供的基于自适应训练模型的全切片图像分类装置可以用于执行上述实施例提供的基于自适应训练模型的全切片图像分类方法,具备相应的功能和有益效果。

图8是本申请实施例提供的一种基于自适应训练模型的全切片图像分类设备的结构示意图,参考图8,该基于自适应训练模型的全切片图像分类设备包括:处理器61、存储器62、通信装置63、输入装置64及输出装置65。该基于自适应训练模型的全切片图像分类设备中处理器61的数量可以是一个或者多个,该基于自适应训练模型的全切片图像分类设备中的存储器62的数量可以是一个或者多个。该基于自适应训练模型的全切片图像分类设备的处理器61、存储器62、通信装置66、输入装置64及输出装置65可以通过总线或者其他方式连接。

存储器62作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例的基于自适应训练模型的全切片图像分类方法对应的程序指令/模块(例如,第一特征确定模块51、第二特征确定模块52和图像分类模块53)。存储器62可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器62可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置63用于进行数据传输。

处理器61通过运行存储在存储器62中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的基于自适应训练模型的全切片图像分类方法。

输入装置64可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置65可包括显示屏等显示设备。

上述提供的基于自适应训练模型的全切片图像分类设备可用于执行上述实施例提供的基于自适应训练模型的全切片图像分类方法,具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种基于自适应训练模型的全切片图像分类方法,该基于自适应训练模型的全切片图像分类方法包括:将待分类的全切片图像分成多个全切片子图像,将全切片子图像输入预先训练好的特征提取模型,得到特征提取模型输出的第一特征信息;根据多个全切片子图像对应的第一特征信息,确定全切片图像的第二特征信息;将全切片图像的第二特征信息输入预先训练的第一分类模型,得到第一分类模型输出的全切片图像的类别;第一分类模型基于目标搜索空间和第一训练集对分类网络进行训练得到,目标搜索空间包括特征搜索空间、网络结构搜索空间、训练超参搜索空间和训练集采样策略搜索空间中的至少一个。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的基于自适应训练模型的全切片图像分类方法,还可以执行本申请任意实施例所提供的基于自适应训练模型的全切片图像分类方法中的相关操作。

上述实施例中提供的基于自适应训练模型的全切片图像分类装置、基于自适应训练模型的全切片图像分类系统、存储介质及基于自适应训练模型的全切片图像分类设备可执行本申请任意实施例所提供的基于自适应训练模型的全切片图像分类方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的基于自适应训练模型的全切片图像分类方法。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

技术分类

06120116334029