掌桥专利:专业的专利平台
掌桥专利
首页

一种全切片组织病理图像分析方法及系统

文献发布时间:2023-06-19 12:07:15


一种全切片组织病理图像分析方法及系统

技术领域

本发明属于图像处理技术领域,具体涉及一种全切片组织病理图像分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

通过病理学检查对癌症亚型进行分类是诊断恶性肿瘤和选择治疗的关键过程。近年来,开始使用全幻灯片成像技术(whole slide imaging,WSI),它将组织病理学载玻片扫描为全切片数字病理图像(whole slide images,WSIs),并通过计算机辅助诊断(computer-aided diagnosis,CAD)对其进行分析。尽管人们在显微镜技术和病理分析方面取得了大量的研究和进展,但是由于整张全切片病理图像尺度大,分析非常依赖于有经验的观察者的临床经验等原因,全切片病理图像中所包干信息的量化非常困难。此外,人工分析WSI非常耗时。

自WSI技术出现以来,自动化肿瘤亚型分类已成为一个活跃的研究主题。在WSI的临床评估中,基于CAD的病理图像分析变得越来越普遍。近来,用于WSI的临床分析和研究的深度学习方法已经取得了重大进展,大规模数据收集和分析进一步揭示不同癌症之间共享的空间信息。但是,基于深度学习的方法通常需要大量的标注数据来训练模型,这使得模型在训练模型或迁移到新的医疗任务时依旧需要非常昂贵的标注图像。显然,组织病理学图像对应的标注数据的获取非常困难。WSI的尺寸大,需要经验丰富的病理学家使用特殊的标注工具,并花费大量时间和成本进行注释。

综上所述,现有的深度学习技术用于组织病理图像分析的问题,尚缺乏行之有效的解决方案。

发明内容

本发明为了解决上述问题,提出了一种全切片组织病理图像分析方法及系统,本发明只需要部分标注图像就能够实现模型的训练,基本达到与大量标注图像训练的模型性能,减轻了深度学习方法对图像标签的需求。

根据一些实施例,本发明采用如下技术方案:

一种全切片组织病理图像分析方法,包括以下步骤:

获取全切片数字病理图像;

对全切片数字病理图像进行放大、并切分成可用于分析的图像块;

去除无组织和细胞的背景图像块;

利用半监督深度学习模型分析剩余图像块,将分析得到的信息显示在原全切片病理图像中。

作为可选择的实施方式,利用半监督深度学习模型分析剩余图像块的具体过程包括:

将全切片病理图像块,分为有标签数据和无标签数据;

利用基于卷积神经网络的图像分类模型,对输入的图像数据进行卷积运算,得到图像对应的类别概率;

对不同图像数据进行损失函数的计算,以优化训练所述图像分类模型;

利用优化训练后的模型进行图像分析。

作为进一步的限定,对于有标签的数据,数据进入图像分类模型后,由图像分类模型提取特征,得到预测的类分布,使用交叉熵损失函数约束预测类分布与原始单一标签的一致性。

作为进一步的限定,通过数据扩充对未标记的数据进行转换,然后使用一致性正则化方法来约束模型,使其在数据转换前后对模型预测保持不变。

作为进一步的限定,对于无标签数据,使用训练中的模型从未标记的数据中获取虚拟标签,该虚拟标签作为增强后的无标记数据的人工标签。

作为进一步的限定,未标记的数据经过弱监督后的图像输入到分类模型中,预测类分布,当类预测中最大预测类型的预测值大于设定阈值时,则保留该预测,生成的单一标签形式的伪标签。

作为进一步的限定,所述损失函数包括无标签数据损失和有标签数据损失,其中:对于有标签数据,给定一组数据χ={(x

CE(*||*)指数据的原始标签p

对于无标签数据,给定一组数据

总的损失函数定义为:

一种全切片组织病理图像分析系统,包括:

图像获取模块,被配置为获取全切片数字病理图像;

图像预处理模块,被配置为对全切片数字病理图像进行读取并以一定的放大倍数导出、并切分成可用于分析的图像块,去除无组织和细胞的背景图像块;

图像分析模块,被配置为利用半监督深度学习模型分析剩余图像块,将分析得到的信息显示在原全切片病理图像中。

一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述一种全切片组织病理图像分析方法中的步骤。

一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述一种全切片组织病理图像分析方法中的步骤。

与现有技术相比,本发明的有益效果为:

本发明借鉴了半监督方法中通过一致性正则化和虚拟标签生成人工标签的策略,通过少量的标注图像和大量的未标注图像共同训练深度学习分类模型。对于未标注图像,弱增强图像的估计可以用来生成人工标签用作强增强图像的虚拟标签。通过这种方法,只需要部分标注图像就能够实现模型的训练,基本达到与大量标注图像训练的模型性能,减轻了深度学习方法对图像标签的需求,能够使模型实现与相对拥有大量标注数据训练的全监督模型相似的分析精度。

本发明利用半监督方法使模型更容易迁移应用到不同种类的组织病理图像分析上,迁移学习成本低、易实现。方法分为离线学习和在线学习,完成离线学习的模型可以在新数据上实现交互的在线学习,具有更好的适用性和扩展性。

本发明基于深度学习模型,基于简单常用的深度学习分类框架。深度学习模型测试过程仅经过一次卷积前向传播过程,能够实现图像数据的分析,计算复杂度低,能够在很短的时间内得到全切片组织病理图像分析结果,运算速度快。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1是基于半监督深度学习的全切片组织病理图像分析流程;

图2是本实施例基于一致性正则化和虚拟标签的半监督深度学习图像分类模型;

图3是全切片数字病理的实例图;

图4是病理图像块的实例图;

图5是组织病理图像块的数据增强结果展示图;

图6是基于均值标签半监督方法模型图;

图7是基于伪标签半监督方法模型图。

具体实施方式:

下面结合附图与实施例对本发明作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种基于半监督深度学习的全切片组织病理图像分析流程,如图1所示,以该方法应用于乳腺癌的组织病理图像分析为例进行解释说明,该方法包括以下步骤:

步骤S1:获取全尺寸数字病理图像。

具体的,数据可以使用H&E染色后扫描的数字病理图像,也可使用公开数据集。

H&E染色病理切片制备:石蜡固定、切片、贴片、H&E染色、封片等操作,得到病理切片,后使用扫描仪扫描为全尺寸数字病理图像(whole slide images,WSI)。本实施例中石蜡固定、切片、贴片、染色、封片等采用常规的方式,不做限定;对扫描仪获取全尺寸数字病理图像的具体方式不做限定。

公开病理切片数据集:The Cancer Genome Atlas(TCGA),癌症基因图谱数据集,包含影像学数据、病理数据、基因测序、存活期等信息。

步骤S2:对所述的全尺寸数字病理图像按照一定的放大倍数导出(通常是40倍放大图像或20倍放大图像),切分成可用于分析的图像块。

具体的,在Python中导入openslide工具包,使用OpenSlide读取,确定下采样因子;设置切块大小及是否重叠(本发明中将全尺寸病理图像切块为512×512的非重叠图像块);将切割的图像块以对应的行列命名保存。

步骤S3:去除无组织和细胞的背景图像块。

具体的,设置图像阈值,对图像中每个像素区分为前景和背景像素,前景像素大于等于50%的图像块被定义为前景图像块,用于后续分析;前景像素小于50%的图像块被定义为背景图像块,在后续计算分析中不被使用。

步骤S4:使用半监督深度学习模型分析来自全切片病理图像的图像块。

具体的,根据具体任务和数据标签,制定具体的模型分析任务。数据分为有标签图像和无标签图像,使用一致性正则化策略和虚拟标签策略。

模型输入,输入数据来自全切片病理图像块,分为有标签数据和无标签数据;

分类模型,基于卷积神经网络(Convolutional Neural Network,CNN)的图像分类模型,输入为图像,经过卷积运算,得到图像对应的类别概率;

对于分类问题,给定一组有单一标签的数据,一组不含标签的未标记数据。分类模型。对于有标签的数据,数据进入模型后,由模型提取特征,得到预测的类分布。使用交叉熵损失函数约束预测类分布与原始单一标签的一致性。此外,有标签数据经过数据扩充后的数据,也期望得到预期的类分布。对于无标签数据,使用训练中的模型以某种方式从未标记的数据中获取虚拟标签,该虚拟标签可以作为增强后的无标记数据的人工标签。

请注意,数据扩充是半监督方法的核心思想。通过数据扩充对未标记的数据进行转换,然后使用一致性正则化方法来约束模型,使其在数据转换前后对模型预测保持不变。

一致性正则化是训练深度模型的常用方法。它依赖于数据增强技术,这意味着当输入相同图像的扰动图像时,该模型应对应于相似的预测结果分布。这种一致性正则化方法已应用于SSL方法,并且已成为最新SSL技术的重要组成部分。应用于未标注数据的一致性正则化基于以下假设:当输入图像受到干扰时,模型的输出保持不变。这种类型的模型使用未标注的数据通过标准监督的分类损失L2-范数损失来训练模型:

其中,α(u

虚拟标签借用模型未预测数据的预测输出,作为人工标签,执行上述一致性正则化的约束。虚拟标签提供了更简单有效的策略,实践证明,它可以显着改善结果。

在方法MixMatch中,通过提高K次模型预测的平均值来解决此问题。该方法使用分类模型分别对未标记数据的K个随机数据扩充进行预测,得到K个类分布预测,然后平均K次预测的结果

其中,

此外,也可使用伪标签标签策略来简化一致性正则化,未标记的数据经过弱监督后的图像输入到分类模型中,预测类分布,当类预测中最大预测类型的预测值大于某一阈值时,则保留该预测,生成的单一标签形式的伪标签。假设q

其中,1(*)是一个指标函数,是指当预测概率分布的最大值大于超参数β时,该项约束成立,以单一标签形式的伪标签约束模型生成的预测类别分布。CE(*||*)指两个概率分布

需要注意的是,数据扩充是一致性正则化和虚拟标签的基础。已有的文献中已经提出了各种各样的数据扩充方法,它们可以简单地分为三类:简单的增强方法,区域级增强方法和自动增强方法。大多数扩增方法都基于第一类:几何变换,例如翻转,裁剪,仿射变换;像素级内容转换,例如反转,噪点,模糊,清晰度,对比度干扰。几种区域级别的增强方法,例如Cutout,在图像的N×N大小的区域中随机遮挡或修改像素值,从而使用正则化改善模型性能。此外,AutoAugment、Fast AutoAugment、RandAugment等自动增强的方法,通过训练一个子网进行搜索以选择合适的增强参数或根据模型训练和数据集的大小调整增强参数,从而从原始数据集中生成新颖的图像数据。

在本发明中,我们使用类似于RandAugment的方法。基于Python图像库(PIL)定义了图像处理转换库,其中包含K个转换,例如翻转,裁剪,仿射转换,噪声,模糊等操作。然后,每次执行数据扩充时随机选择库中的一个操作,执行N次操作。

损失函数,总损失函数包含无标签数据损失和有标签数据损失。

对于有标签数据,给定一组数据χ={(x

CE(*||*)指数据的原始标签p

对于无标签数据,给定一组数据

总的损失函数定义为:

步骤S5:将分析结果显示在原全切片病理图像中,得出量化结果。

使用深度学习模型预测每个图像块类别,图像块的行列号能将其对应原始全切片图像,并将分类标签在图像中显示。

一种全切片组织病理图像分析系统,包括:

图像获取模块,被配置为获取全切片数字病理图像;

图像预处理模块,被配置为对全切片数字病理图像进行放大、并切分成可用于分析的图像块,去除无组织和细胞的背景图像块;

图像分析模块,被配置为利用半监督深度学习模型分析剩余图像块,将分析得到的信息显示在原全切片病理图像中。

系统还提供以下功能:

离线学习,在原始数据集上完成模型训练,原始数据集包含有标签数据和无标签数据;

设置数据路径、预训练模型、模型存储路径等,设置数据扩充中转换的类型、虚拟标签策略、超参数,以及初始化、偏差、正则化、初始学习率、学习率降低方式、优化算法、迭代次数等训练参数,实现半监督深度学习模型的训练。

在线学习,模型测试使用阶段,使用新数据进行模型微调。

模型测试过程与训练过程相似,设置输入图像、使用模型等。在一个实施例中,输入包括测试文件夹路径、测试模型路径、测试模型、测试图像、测试结果输出路径。

特别的,可以在测试数据上实现模型微调。如果测试数据中包含简单的标注,经过导出切块后,部分图像带有标记标签。模型执行与训练过程类似的微调。最后,进行测试结果显示,显示模型生成的全切片病理图像分析结果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

相关技术
  • 一种全切片组织病理图像分析方法及系统
  • 一种基于JPEG压缩编码的数字病理全切片图像快速分析方法
技术分类

06120113175852