对用于组织学染色的组织中的预分析因素的数字分析
文献发布时间:2024-07-23 01:35:12
相关申请
本申请要求于2021年11月23日提交的第63/282,249号美国临时专利申请的优先权权益,该申请的内容通过引用整体并入本文。
背景技术
本发明的一些实施例中涉及预分析因素,并且更具体地但不排他地涉及用于估计用于组织学染色的组织中的预分析因素的系统和方法。
预分析因素(也被称为预分析变量)包括可能影响用于组织保存和组织学染色的组织福尔马林固定和石蜡包埋的过程的固定和处理变量。
发明内容
根据第一方面,一种训练预分析因素机器学习模型的计算机实现的方法,包括:创建多个记录的预分析训练数据集,其中,预分析记录包括:用至少一个预分析因素处理过的对象的病理组织切片的图像、和指示至少一个预分析因素的真值标签;以及在预分析训练数据集上训练预分析机器学习模型,以用于响应于目标图像的输入而生成用于处理目标图像中描绘的组织的至少一个目标预分析因素的结果。
根据第二方面,一种用于获得对象的病理组织切片的目标图像的至少一个预分析因素的计算机实现的方法包括:将目标图像馈送到预分析机器学习模型中,其中,预分析机器学习模型是在多个记录的预分析训练数据集上训练的,其中,预分析记录包括:用至少一个预分析因素处理过的对象的病理组织切片的图像、和指示至少一个预分析因素的真值标签;以及获得用于处理目标图像中描绘的病理组织的至少一个目标预分析因素的结果。
根据第三方面,一种用于训练预分析因素机器学习模型的设备,包括:至少一个硬件处理器,用于执行代码的以:创建多个记录的预分析训练数据集,其中,预分析记录包括:用至少一个预分析因素处理过的对象的病理组织切片的图像、和指示至少一个预分析因素的真值标签;以及在预分析训练数据集上训练预分析机器学习模型,以用于响应于目标图像的输入而生成用于处理目标图像中描绘的组织的至少一个目标预分析因素的结果。
根据第四方面,一种用于获得对象的病理组织切片的目标图像的至少一个预分析因素的设备,包括:至少一个硬件处理器,用于执行代码以:将目标图像馈送到预分析机器学习模型中,其中,预分析机器学习模型是在多个记录的预分析训练数据集上训练的,其中预分析记录包括:用至少一个预分析因素处理过的对象的病理组织切片的图像、和指示至少一个预分析因素的真值标签;以及获得用于处理目标图像中描绘的病理组织的至少一个目标预分析因素的结果。
在第一、第二、第三和第四方面的其他实现形式中,还包括:创建多个记录的辅助训练数据集,其中,辅助记录包括:用至少一个预分析因素处理过的对象的病理组织切片的图像、至少一个预分析因素、以及指示辅助指示的真值标签;以及在辅助训练数据集上训练辅助机器学习模型,以用于响应于目标图像和用于处理目标图像中描绘的组织的至少一个目标预分析因素的输入而生成目标辅助指示的结果。
在第一、第二、第三和第四方面的其他实现形式中,辅助训练数据集包括临床指示训练数据集,辅助指示包括临床指示,并且辅助机器学习模型包括临床机器学习模型。
在第一、第二、第三和第四方面的其他实现形式中,临床指示选自包括以下各项的组:临床评分、医学状况、和病理学报告。
在第一、第二、第三和第四方面的其他实现形式中,还包括根据临床评分和/或根据病理学报告,使用对该医学状况有效的处理来处理对象。
在第一、第二、第三和第四方面的其他实现形式中,真值标签选自由以下各项组成的组:标签、元数据、图像、和被馈送图像的分割模型的分割结果。
在第一、第二、第三和第四方面的其他实现形式中,被馈送到辅助机器学习模型中的至少一个预分析因素的输入是作为被馈送目标图像的预分析机器学习模型的结果而获得的。
在第一、第二、第三和第四方面的其他实现形式中,预分析机器学习模型和辅助机器学习模型是至少使用预分析因素的公共标签和公共图像而联合地训练的。
在第一、第二、第三和第四方面的其他实现形式中,辅助记录的至少一个预分析因素包括至少一个特征图,该至少一个特征图从被馈送了使用至少一个预分析因素处理过的对象的病理组织切片的图像的预分析机器学习模型的隐藏层提取,并且其中,辅助机器学习模型响应于目标图像和从被馈送目标图像的预分析机器学习模型的隐藏层提取的目标特征图的输入而生成目标辅助指示的结果。
在第一、第二、第三和第四方面的其他实现形式中,还包括:创建图像转换训练数据集,图像转换训练数据集包括图像转换记录的两个或更多个集合,其中,源图像转换记录集合的源图像转换记录包括:用至少一个预分析因素处理过的对象的病理组织切片的源图像,以及指示源标签的真值,其中,目的地图像转换记录的集合的目的地图像转换记录包括:用至少一个预分析因素处理过的对象的病理组织切片的目的地图像,以及指示目的地标签的真值;以及在图像转换训练数据集上训练图像转换机器学习模型,以用于将源图像转换记录集合的病理组织切片的目标源图像转换到目的地图像转换记录集合的病理组织切片的结果目的地。
在第一、第二、第三和第四方面的其他实现形式中,源标签指示用至少一个预分析因素异常处理的病理组织,并且目的地标签指示用至少一个预分析因素正常处理的病理组织。
在第一、第二、第三和第四方面的其他实现形式中,目标源图像包括输入图像和指示已经被异常处理的源预分析因素的附加元数据,以及指示已经被正常处理的目的地预分析因素的元数据。
在第一、第二、第三和第四方面的其他实现形式中,目标源图像包括输入图像,并且该方法还包括提供来自目的地集合的用于推断输入图像的目的地的参考图像。
在第一、第二、第三和第四方面的其他实现形式中,源集合是根据作为被馈送目标图像的预分析机器学习模型的结果而被获得的至少一个预分析因素的输入来选择的。
在第一、第二、第三和第四方面的其他实现形式中,还包括:创建多个记录的图像校正训练数据集,其中,图像校正记录包括:用至少一个预分析因素处理过的对象的病理组织切片的图像、至少一个预分析因素、以及真值标签,其中,至少一个预分析因素被分类为异常,其中,切片的图像描绘异常处理的病理组织,真值标签指示使用被分类为正常的至少一个预分析因素处理过的病理组织切片的正常图像;以及在图像校正训练数据集上训练图像校正机器学习模型,以用于响应于使用被分类为异常的至少一个目标预分析因素处理过的病理组织切片的目标图像的输入而生成切片的合成的经校正的图像的结果,该经校正的图像模拟当该切片的目标图像使用被分类为正常的至少一个预分析因素处理时该切片的目标图像看起来的样子。
在第一、第二、第三和第四方面的其他实现形式中,被馈送到图像校正机器学习模型中的至少一个预分析因素的输入是作为被馈送目标图像的预分析机器学习模型的结果而获得的。
在第一、第二、第三和第四方面的其他实现形式中,图像校正机器学习模型和预分析机器学习模型是使用预分析因素的公共真值标签和公共图像而联合地训练的。
在第一、第二、第三和第四方面的其他实现形式中,还包括:使用自监督和/或无监督方法在使用至少一个预分析因素处理过的对象的病理组织的多个未标记图像的未标记训练数据集上训练基准模型,并且其中,训练包括进一步在用于创建预分析机器学习模型的预分析训练数据集上训练该基准模型。
在第一、第二、第三和第四方面的其他实现形式中,指示至少一个预分析因素的真值标签包括指示正确应用的预分析因素或对预分析因素的异常应用的真值标签,其中,训练包括:训练预分析机器学习模型的用于学习被标记为正确应用的预分析因素的保留值图像的分布的实现方式,以检测出作为指示不正确应用的预分析因素的剔除值的图像。
在第一、第二、第三和第四方面的其他实现形式中,还包括:使用预训练的特征提取器从图像中提取特征,其中,预分析记录包括被提取的特征,其中,预训练的特征提取器被应用于目标图像以获得被馈送到预分析机器学习模型的被提取的目标特征。
在第一、第二、第三和第四方面的其他实现形式中,预训练的特征提取器被实现为神经网络,其中,被提取的特征是当神经网络被馈送目标图像时从神经网络的分类层之前的至少一个特征图获得的。
在第一、第二、第三和第四方面的其他实现形式中,神经网络是在标有真值分类类别的非组织图像的图像训练数据集上训练的图像分类器。
在第一、第二、第三和第四方面的其他实现形式中,神经网络是在标有对细胞核的真值分割的病理组织切片的图像的分割训练数据集上训练的核分割网络。
在第一、第二、第三和第四方面的其他实现形式中,还包括:从图像中提取多个小块,其中,提取特征包括从多个小块中提取特征。
在第一、第二、第三和第四方面的其他实现形式中,还包括:针对每个小块,使用全局最大池化层和/或全局平均池化层来将从小块中提取的被提取的特征降维成特征向量,其中,预分析记录包括该特征向量,其中预分析机器学习响应于针对从目标图像的小块提取的特征而计算出的特征向量的输入而生成至少一个目标预分析因素的结果。
在第一、第二、第三和第四方面的其他实现形式中,还包括:针对每个预分析记录,将图像馈送到核分割机器学习模型中以获得对图像中的细胞核的分割的结果;基于分割的结果来创建掩蔽掉对细胞核的分割之外的像素的掩码;以及将该掩码应用于图像以创建经掩蔽图像,其中,预分析记录的图像包括经掩蔽图像,并且其中,从目标图像创建的目标经掩蔽图像被馈送到在预分析训练数据集上训练的预分析机器学习模型中。
在第一、第二、第三和第四方面的其他实现形式中,还包括:针对每个预分析记录,将图像馈送到核分割机器学习模型中以获得对图像中的细胞核的分割的结果;以及在每个分割周围裁剪出边界以创建单个细胞核的小块,其中,预分析记录的图像包括多个单个细胞核的小块,并且其中,从目标图像创建的对细胞核的目标分割被馈送到在预分析训练数据集上训练的预分析机器学习模型中。
在第一、第二、第三和第四方面的其他实现形式中,还包括:针对每个预分析记录,将彩色版本的图像转换为灰阶版本的图像,并且其中,目标灰阶版本的目标图像被馈送到在预分析训练数据集上训练的预分析机器学习模型中。
在第一、第二、第三和第四方面的其他实现形式中,还包括:针对每个预分析记录,将图像馈送到红细胞(RBC)分割机器学习模型中,以获得对图像中RBC的分割的结果和/或描绘RBC的小块,其中,预分析记录的图像包括对RBC的分割和/或描绘RBC的小块,并且其中,将来自目标图像的对RBC的分割和/或描绘RBC的小块馈送到在预分析训练数据集上训练的预分析机器学习模型中。
在第一、第二、第三和第四方面的其他实现形式中,在包括多个图像的另一图像训练数据集上预训练预分析机器学习模型,该另一图像训练数据集每个图像标有某个分类类别的相应真值指示,并且其中,被预训练的预分析训练数据集也在预分析训练数据集上进行训练。
在第一、第二、第三和第四方面的其他实现形式中,预分析记录还包括指示至少一个已知的预分析因素的元数据,并且其中,真值标签用于至少一个未知的预分析因素,其中,与目标图像相关联的至少一个已知的预分析因素还被馈送到在预分析训练数据集上训练的预分析机器学习模型中。
在第一、第二、第三和第四方面的其他实现形式中,还包括:训练可解释性机器学习模型以生成可解释性图,该可解释性图指示目标图像的像素对于获得至少一个目标预分析因素的相对重要性,其中,目标图像是低分辨率的;并且还包括对目标图像的多个高分辨率小块进行采样,以及将多个高分辨率小块馈送到预分析机器学习模型中,以获得至少一个目标预分析因素。
在第一、第二、第三和第四方面的其他实现形式中,至少一个预分析因素包括固定时间。
在第一、第二、第三和第四方面的其他实现形式中,至少一个预分析因素包括通过将FFPE块切片获得的组织厚度。
在第一、第二、第三和第四方面的其他实现形式中,至少一个预分析因素选自由以下各项组成的组:固定剂类型、热缺血时间、冷缺血时间、预固定期间温度的持续时间和延迟、固定剂配方、固定剂浓度、固定剂pH、固定剂试剂龄、固定剂制备源、组织与固定剂体积比、固定方法、初次和二次固定条件、固定后洗涤条件和持续时间、固定后储存试剂和持续时间、处理器类型、服务和试剂更换频率、组织与试剂体积比、共处理位置样本的数量、脱水和清除试剂、脱水和清除温度、脱水和清除变化数量、脱水清除持续时间、烘烤时间和温度。
在第一、第二、第三和第四方面的其他实现形式中,至少一个预分析因素是对切片的病理组织的染色的质量的指示。
在第一、第二、第三和第四方面的其他实现形式中,该染色剂选自由以下各项组成的组:免疫组织化学(IHC)染色剂、原位杂交(ISH)染色剂、荧光ISH(FISH)、色原ISH(CISH)、银ISH(SISH)、苏木精和伊红(H&E)、苏木精、吖啶橙、俾斯麦棕、胭脂红、考马斯蓝、甲酚紫、水晶紫、4′,6-二脒基-2-苯基吲哚(“DAPI”)、伊红、溴化乙锭嵌入化合物、酸性品红、Hoechst染色剂、碘、孔雀石绿、甲基绿、亚甲蓝、中性红、尼罗蓝、尼罗红、四氧化锇、碘化丙啶、若丹明、番红、基于抗体的染色剂、或无标签成像标记,该无标签成像标记使用包括拉曼光谱、近红外(“NIR”)光谱、自发荧光成像或相位成像的成像技术获得并且能在没有外部染料的情况下突出感兴趣特征。
在第一、第二、第三和第四方面的其他实现形式中,切片包括福尔马林固定的石蜡包埋的(FFPE)组织。
在第一、第二、第三和第四方面的其他实现形式中,还包括:将目标图像和至少一个目标预分析因素馈送到辅助机器学习模型中,其中,辅助机器学习模型是在多个记录的辅助指示训练数据集上训练的,其中,辅助指示记录包括:用至少一个预分析因素处理过的对象的病理组织切片的图像、至少一个预分析因素、以及指示辅助指示的真值标签;以及获得目标辅助指示的结果。
在第一、第二、第三和第四方面的其他实现形式中,还包括:响应于将至少一个目标预分析因素分类为异常,将目标图像和至少一个目标预分析因素馈送到图像校正机器学习模型中,其中,图像校正机器学习模型是在多个记录的校正的图像训练数据集上训练的,其中,图像校正记录包括:用至少一个预分析因素处理过的对象的病理组织切片的图像、至少一个预分析因素、以及真值标签,其中,至少一个预分析因素被分类为异常,其中,切片的图像描绘异常处理的病理组织,该真值标签指示使用被分类为正常的至少一个预分析因素处理过的病理组织切片的正常图像;以及获得经校正的图像的结果,该经校正的图像模拟当该切片的目标图像使用被分类为正常的至少一个预分析因素处理时改切片的目标图像看起来的样子。
在第一、第二、第三和第四方面的其他实现形式中,还包括:响应于将至少一个目标预分析因素分类为异常,将目标图像和至少一个目标预分析因素馈送到图像转换机器学习模型中,其中,图像转换机器学习模型是在图像转换训练数据集上训练的,图像转换训练数据集包括两个或更多个图像转换记录的集合,其中,源图像转换记录集合的源图像转换记录包括:用所述至少一个预分析因素处理过的所述对象的所述病理组织切片的源图像、以及指示源标签的真值,其中,目的地图像转换记录集合的目的地图像转换记录包括:使用至少一个预分析因素处理过的对象的病理组织切片的目的地图像、以及指示目的地标签的真值;以及获得目的地图像转换记录集合的病理组织切片的结果目的地图像,结果目的地图像是异常处理的目标图像到正常处理的图像的转换。
除非另有定义,否则本文使用的所有技术和科学术语具有本发明所属领域的普通技术人员通常理解的相同含义。虽然与本文描述的那些方法和材料类似或等同的方法和材料可以用于实践或测试本发明的实施例,但是下面描述示例性方法和/或材料。在冲突的情况下,将以本专利说明书(包括定义)为准。此外,材料、方法和实施例仅是说明性的,而不旨在进行必要限制。
附图说明
本文仅通过示例的方式参考附图来描述本发明的一些实施例。现在详细地具体参考附图,要强调的是,通过示例的方式并且为了本发明的实施例的说明性讨论的目的而示出细节。就这点而言,结合附图的描述使得本领域技术人员清楚如何实践本发明的实施例。
在附图中:
图1是根据本发明的一些实施例的用于训练(一个或多个)ML模型的系统的组件的框图,训练(一个或多个)ML模型以响应于目标图像的输入而生成对用于处理目标图像中描绘的组织的(一个或多个)预分析因素(preanalytical factor)的指示,和/或响应于描绘(一个或多个)组织样本的(一个或多个)图像的输入而使用(一个或多个)ML模型来获得对(一个或多个)预分析因素的指示。
图2是根据本发明的一些实施例的用于训练(一个或多个)ML模型的过程的流程图,训练(一个或多个)ML模型以响应于目标图像的输入而生成对用于处理目标图像中描绘的组织的(一个或多个)预分析因素的指示;
图3是根据本发明的一些实施例的用于响应于描绘(一个或多个)组织样本的(一个或多个)目标图像的输入而使用(一个或多个)ML模型来获得对(一个或多个)预分析因素的指示的过程的流程图;
图4是根据本发明的一些实施例的描绘具有不同固定时间(fixation time)的组织样本的切片的图像的示例;
图5是根据本发明的一些实施例的描绘具有不同固定时间的组织样本的切片的另一示例;
图6是根据本发明的一些实施例的使用提取的特征来训练ML模型的过程的示意图;以及
图7描绘了根据本发明的一些实施例的用一个或多个预分析因素处理过的组织的图像,其中,经分割细胞核是由核分割ML模型分割的。
具体实施方式
本发明在一些实施例中涉及预分析因素,并且更具体地但不排他地涉及用于估计用于组织学染色的组织中的预分析因素的系统和方法。
本发明的一些实施例的一个方面涉及用于训练预分析因素机器学习模型的系统、方法、计算设备和/或代码指令,这些代码指令存储在存储器上并且由一个或多个硬件处理器执行。创建多个记录的预分析训练数据集。预分析记录包括用(一个或多个)预分析因素处理过的对象的病理组织切片的图像、以及指示(一个或多个)预分析因素的真值标签。在预分析训练数据集上训练预分析机器学习模型,以响应于目标图像的输入而生成用于处理目标图像中描绘的组织的(一个或多个)目标预分析因素的结果。
本发明的一些实施例的一个方面涉及用于获得对象的病理组织切片的目标图像的(一个或多个)预分析因素的系统、方法、计算设备和/或代码指令,这些代码指令存储在存储器上并且由一个或多个硬件处理器执行。目标图像被馈送到预分析机器学习模型中。从预分析机器学习模型获得用于处理目标图像的(一个或多个)目标预分析因素的结果。
可选地,作为来自预分析机器学习模型的结果而获得的(一个或多个)目标预分析因素与目标图像一起被馈送到辅助机器学习模型中。获得目标辅助指示的结果作为辅助机器学习模型的结果。辅助机器学习模型可以在包括多个记录的辅助指示训练数据集上训练。辅助指示记录包括用(一个或多个)预分析因素处理过的对象的病理组织切片的图像、对(一个或多个)预分析因素的指示、以及指示辅助指示的真值标签,例如标签、元数据、图像、以及被馈送了图像的分割模型的分割结果。辅助训练数据集可以被实现为临床指示训练数据集,辅助指示可以被实现为临床指示,并且辅助机器学习模型可以被实现为临床机器学习模型。
可选地,当作为来自预分析机器学习模型的结果而获得的(一个或多个)目标预分析因素被确定为异常时,例如,在指示(一个或多个)目标预分析因素的正确值的范围和/或阈值之外时,目标图像和(一个或多个)目标预分析因素被馈送到图像校正机器学习模型中。获得经校正的图像的结果,作为图像校正机器学习模型的结果,该经校正的图像模拟当切片的目标图像使用被分类为正常的(一个或多个)预分析因素处理时该切片的目标图像看起来的样子。图像校正机器学习模型是在多个记录的图像校正训练数据集上训练的。图像校正记录包括使用(一个或多个)预分析因素处理过的对象的病理组织切片的图像、对(一个或多个)预分析因素的指示、以及真值标签,其中,(一个或多个)预分析因素被分类为异常,并且其中,切片的图像描绘异常处理的病理组织,该真值标签指示使用被分类为正常的(一个或多个)预分析因素处理过的病理组织切片的正常图像。
替代地或附加地,当作为来自预分析机器学习模型的结果而获得的(一个或多个)目标预分析因素被确定为异常时,可以在显示器上呈现热图(例如,如本文所描述的)和/或评分(例如,异常的概率)。用户可以查看热图和/或评分来帮助确定如何解释图像,和/或是否应当丢弃图像。
本文描述的系统、方法、装置(例如,计算设备)和/或代码指令(例如,存储在数据存储设备上并且可由一个或多个硬件处理器执行)的至少一些实现方式解决了确定处理图像(例如,病理组织的全切片图像)中描绘的组织的预分析因素的技术问题。本文描述的系统、方法、装置和/或代码指令的至少一些实现方式通过从描绘这些组织样本的图像中确定用于处理组织的预分析因素而改进了组织样本分析的技术领域和/或医学领域。本文描述的系统、方法、装置和/或代码指令的至少一些实现方式通过提供响应于组织样本的图像的输入而生成(一个或多个)预分析因素的结果的(一个或多个)机器学习模型,改进了机器学习的技术领域。
经处理的组织(例如使用免疫组织化学(IHC)方法染色的福尔马林固定的石蜡包埋的(FFPE)组织样本)由病理学家在世界范围内的临床和研究实验室中进行常规分析。然而,最终IHC染色的质量取决于多个预分析因素,例如组织固定、处理变量、分析有效性、和本文描述的其他因素。染色质量可以指主染色和反染色的染色强度和/或组织样品内的组织结构的外观。染色质量主要受到通过预分析工作流程而保存在组织样品中的有限组织抗原的数量的影响,例如,如参考K.B.Engel和H.M.Moore在Arch Pathol Lab Med.2011;135(5);537–43中的"Effects of preanalytical variables on the detection ofproteins by immunohistochemistry in formalin-fixed,paraffin-embedded tissue"(下文中称为“Engel”),和/或D.R.Bauer,M.Otter和D.R Chafin在Current pathobiologyreports,2018;Vol.6;135-143中的"A New Paradigm for Tissue Diagnostics:Toolsand Techniques to Standardize Tissue Collection,Transport,and Fixation"(下文中称为“Bauer”),其全部内容通过引用并入本文。
一旦从血液供应中取出一片组织,就开始预分析阶段,因为由细胞内的自溶引起的组织变性开始了。因此,固定剂用于保护组织结构和尽可能多的抗原。染色质量主要取决于对组织样本的过度固定/固定不足,例如,固定不足的组织样本将在IHC染色剂中显示弱染色信号,例如,如Bauer所描述的。增加周围环境的温度可能进一步加速组织变性,使固定时间成为获得良好染色质量的关键参数。不良固定还可能导致形态学组织改变,这可能去除可用于手动或自动癌症诊断的重要组织信息。不存在标准的预分析工作流程,并且不知道每个参数如何影响最终染色质量,例如,如Bauer所描述的。缺乏标准化导致机构内和机构间染色协议的显著差异,例如,如Engel和/或Lanng,M.等人在2019,Cytometry.Part A:the journal of the International Society for Analytical Cytology.95,4,s.381-388中的“Quality assessment of Ki67 staining using cell line proliferationindex and stain intensity features”(下文称为“Langg”),其全部内容通过引用并入本文。
本文描述的ML模型(其提供用于确定在处理图像中描绘的组织中使用的预分析因素的客观和/或可再现方法)可以用于标准化预分析组织采集工作流程、评估新开发的染色协议的染色质量、和/或改善疾病(例如癌症)诊断和/或治疗。例如,在遵循协议之后,组织的图像可以被馈送到(一个或多个)ML模型中,以确定用于处理组织的预分析因素是落在正确范围内(或高于/低于阈值)还是异常的(例如,在正确范围之外和/或高于/低于阈值)。可以通过使用本文描述的方法来分析预分析因素对所制备的染色的组织样本的质量的影响的程度,得到基于对组织学染色的组织样本的评估的改进的临床工作流程,例如,最终染色的组织样本的图像和/或新组织样本中的染色响应可以用于评估染色质量。人类病理学家和/或自动化癌症(或其他疾病)诊断过程(例如,在计算机上运行的应用)在进行诊断时可以考虑预测的染色质量。例如,当染色质量差时,可以不进行诊断或者可以进行不确定的诊断,而当染色质量高时,可以以高确定性进行诊断。染色质量评估工具可以用作黄金标准染色质量评估,用于开发更鲁棒的染色协议和/或测定产物。
预分析因素对染色质量的影响也是抗原依赖性的,导致一些IHC染色剂对预分析变化比其他染色剂更敏感。HER2是通常用于乳腺癌诊断以决定最佳治疗的敏感表位的示例,例如参考Bauer和/或E.C.Colley&R.H.Stead在Immunohistochemical stainingmethods,IHC Guidebook,chapter 2,6th edition,Dako Denmark A/S,An AgilentTechnologies Company中的"Fixation and Other Pre-Analytical Factors"(下文称为“Colley”)。然而,染色不足可能导致HER2阳性组织结构中染色反应不足,并且因此无法被病理学家检测到。由预分析因素引起的染色变化可能直接影响诊断过程,从而影响患者的治疗和结果,例如,如参考Engel所描述的。
技术挑战是,对于病理学家而言,由于预分析治疗不佳而导致的组织变化难以发现。虽然例如由于热缺血引起的广泛组织降解产生显著的形态变化,但是它需要病理学家的专业知识才能看到源于过度固定和固定不足的微小差异。病理学家可以查看的一个参数是红细胞的几何形状,但是评估该度量并不是常规做法,并且因为变化很小,所以它们很少被发现。可以评估的另一度量是有丝分裂事件的清晰度,因为似乎过度固定略微模糊了有丝分裂核的变化。
本文描述的至少一些实现方式改进了用于评估组织样品质量的标准方法。用于组织样本的质量控制措施的先前方法是基于人工的,依赖于被足够训练以识别预分析参数的问题并基于该先前知识对组织样本做出决定的病理学家。此外,这样的手动方法是主观的并且不一定是可再现的。相反,本文描述的至少一些实现方式使用机器学习模型来提供对组织样本的自动的、客观的、可再现的和/或准确的分析,以确定在组织处理中使用的预分析因素。预分析因素可以指示组织样品的质量,例如对固定时间是否可接受的指示。本文描述的基于(一个或多个)机器学习模型的实现方式可以通过使分析的主观性较低而显著改进病理学家评估组织样本的工作流程并且改进决策制定。
在许多预分析变量中,组织固定时间(即,特定预分析因素)可能对IHC和原位杂交(ISH)染色的质量具有最显著的影响,因为其影响许多其他变量,例如抗原修复和表位结合。本文描述的至少一些实现方式能够提供一种响应于(例如在HER2染色的组织样本中的)组织样本的图像而预测固定时间的自动的、客观的、可再现的和/或准确的方法。可以根据预测的固定时间确定染色质量。例如,当预测的固定时间落在正确范围内时,染色质量良好,而当预测的固定时间在正确范围之外(指示固定时间异常(例如,不正确))时,染色质量差。考虑到由于预分析条件改变而导致变化的染色质量的后果,通过告知终端用户关于染色中的潜在偏差来帮助终端用户更好地解释IHC染色的能力将有助于降低由于染色的假阳性/假阴性解释而导致的错误患者治疗的风险。在一些情况下,例如在过度固定的情况下,已知增加预处理时间可以有效地克服与过度固定相关的问题。在这种情况下,在不引入除了明视场切片扫描仪之外的其他硬件的情况下,使用本文描述的实现方式可以通知病理学家给定的样本是固定不足的/过度固定的,并且可能需要针对该样本的修改的诊断染色协议来给出准确的结果。这种工具可以解决在新的诊断分析的开发过程中所使用的具有对输入的生物组织的固定状态的有限了解的技术上具有挑战性的开发。虽然官方指南通常被执行固定的实验室使用,但是这些指南具有宽泛的边界,并且组织密度、尺寸和几何形状极大地影响组织样本的固定程度。在可以使用本文描述的实现方式测量组织的相对固定程度的情况下,在短期内将可能具有客观处理来选择用于分析开发的组织,从而允许更鲁棒的染色协议和诊断产品的开发。
在详细解释本发明的至少一个实施方案之前,应当理解,本发明在其应用中不必限于以下描述中阐述的和/或附图和/或示例中说明的结构和组件排列和/或方法的细节。本发明能够具有其他实施例或以各种方式实践或执行。
本发明可以是系统,方法和/或计算机程序产品。计算机程序产品可以包括一种计算机可读存储介质(或多种计算机可读存储介质),该存储介质上具有使处理器执行本发明的各方面的计算机可读程序指令。
计算机可读存储介质可以是能够保留和存储指令的有形设备,该指令供指令执行设备使用。例如,计算机可读存储介质可以是但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或前述项的任何合适的组合。计算机可读存储介质的较具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、内存棒、软盘、以及前述项的任何合适的组合。本文使用的计算机可读存储介质不能被解释为暂态信号本身,例如,无线电波或其他自由地传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤电缆传播的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并且转发该计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、取决于机器的指令、微代码、固件指令、状态设定数据,或以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括诸如程序设计语言(Smalltalk)、C++之类的面向对象的编程语言,以及诸如“C”编程语言或相似编程语言的常规的过程编程语言。该程序代码可以完全在用户的计算机上执行、部分地在用户的计算机上执行、作为独立式软件包执行、部分地在用户的计算机上并且部分地在远程计算机上执行、或完全在远程计算机或服务器上执行。在后一场景中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者远程计算机可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,包括,例如,可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用使电子电路个性化的计算机可读程序指令的状态信息来执行计算机可读程序指令,以执行本发明的各方面。
参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图,本文描述了本发明的各方面。应当理解,可以通过计算机可读程序指令来实现流程图和/或框图的每个框、以及流程图和/或框图中的框的组合。
这些计算机可读程序指令可以被提供到通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,该计算机可读存储介质可以引导计算机、可编程数据处理装置、和/或其他设备以特定方式运行,以使得其中存储有指令的计算机可读存储介质包括制造品,该制造品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程,因此在计算机、其他可编程装置或其他设备上执行的指令实现在流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明各个实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。就这点而言,流程图或框图中的每个框可以表示指令的模块、片段或一部分,该代码包括用于实现(一个或多个)指定逻辑功能的一个或多个可执行指令。在一些替代实现方式中,在框中提到的功能可以按照不同于在附图中提到的顺序发生。例如,根据所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行。还应当注意,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以通过执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
现在参考图1,图1是根据本发明的一些实施例的用于训练(一个或多个)ML模型的系统100的组件的框图,训练(一个或多个)ML模型以响应于目标图像的输入而生成对用于处理目标图像中描绘的组织的(一个或多个)预分析因素的指示,和/或响应于描绘(一个或多个)组织样本的(一个或多个)图像的输入而使用(一个或多个)ML模型来获得对(一个或多个)预分析因素的指示。还参考图2,图2是根据本发明的一些实施例的用于训练(一个或多个)ML模型的过程的流程图,训练(一个或多个)ML模型以响应于目标图像的输入而生成对用于处理目标图像中描绘的组织的(一个或多个)预分析因素的指示。还参考图3,图3是根据本发明的一些实施例的用于响应于描绘(一个或多个)组织样本的(一个或多个)目标图像的输入而使用(一个或多个)ML模型来获得对(一个或多个)预分析因素的指示的过程的流程图。还参考图4,图4是根据本发明的一些实施例的描绘具有不同固定时间的组织样本切片的图像的示例。还参考图5,图5是根据本发明的一些实施例描绘具有不同固定时间的组织样本切片的另一示例。还参考图6,图6是根据本发明的一些实施例描绘使用提取的特征来训练ML模型的过程600的示意图。现在参考图7,图7描绘了根据本发明的一些实施例的使用一个或多个预分析因素处理过的组织的图像702,其中经分割细胞核704(为清楚起见示出了一个细胞核)是由核分割ML模型分割的。
现在返回参考图4,图像402描绘了经历26小时的正常固定时间的正常固定的红细胞的样本。相比照地,图像404描绘了经历143小时的过度固定时间的过度固定的红细胞的另一样本。在视觉上难以在图像404中的细胞和图像402中的细胞之间进行区分,特别是由于图像是不同的细胞样本,即使对于专家病理学家也是如此。因此,难以确定图像404中的细胞是过度固定的,而图像402中的细胞是正常固定的。如本文所讨论的,在一些情况下,红细胞几何形状的量度可以被计算出来并且用于尝试和确定固定时间,但是评估该量度并不是常规做法,并且因为变化较小,所以它们很少被发现。在本文描述的至少一些实现方式中,经训练的ML模型响应于图像402和/或404的输入而生成指示固定时间和/或指示固定时间是正常还是异常的结果。
现在返回参考图5,图像502描绘了经历26小时的正常固定时间的正常固定的组织的样本。相比照地,图像504描绘了经历143小时的过度固定时间的过度固定的组织的另一样本。在视觉上难以在图像504中的细胞和图像502中的细胞之间进行区分,特别是由于图像是不同的细胞样本,即使对于专家病理学家也是如此。因此,难以确定图像504中的细胞是过度固定的,而图像502中的细胞是正常固定的。如本文所讨论的,在一些情况下,有丝分裂事件清晰度量度可以被计算出来并且用于尝试确定固定时间,但是评估该量度并不是常规做法,并且因为变化较小,所以它们很少被发现。与502中的正常固定相比,504中的过度固定使有丝分裂核的变化略微模糊,但是这些变化难以发现。在本文描述的至少一些实现方式中,经训练的ML模型响应于图像502和/或504的输入而生成指示固定时间和/或指示固定时间是正常还是异常的结果。
现在返回参考图1,系统100可以实施参考图2至图7描述的方法的动作,可选地由执行存储在存储器106中的代码指令106A和/或106B的计算设备104的(一个或多个)硬件处理器102来实施。
例如,计算设备104可以被实现为客户端终端、服务器、虚拟服务器、实验室工作站(例如,病理学工作站)、过程(例如,操作)室计算机和/或服务器、虚拟机、计算云、移动设备、台式计算机、瘦客户端、智能电话、平板计算机、膝上型计算机、可穿戴计算机、眼镜计算机和手表计算机。计算设备104可以包括高级可视化工作站,该高级可视化工作站有时被实现为实验室工作站的附属装置和/或向用户(例如,病理学家)呈现组织样本的图像的其他设备。
可以实现基于计算设备104的系统100的不同架构,例如,基于中央服务器的实现方式和/或基于本地化的实现方式。
在基于中央服务器的实现方式的示例中,计算设备104可以包括执行参考图2图至图7描述的动作中的一个或多个动作的本地存储的软件,和/或可以作为一个或多个服务器(例如,网络服务器、web服务器、计算云、虚拟服务器),该一个或多个服务器通过网络110向一个或多个客户端终端108(例如,位于远处的实验室工作站、远程图片归档和通信系统(PACS)服务器、远程电子病历(EMR)服务器、远程图像存储服务器、位于远处的病理学计算设备、用户的诸如台式计算机之类的客户端终端)提供服务(例如,参考图2至图7描述的动作中的一个或多个动作),例如,向(一个或多个)客户端终端108提供软件即服务(SaaS),向(一个或多个)客户端终端108提供用于本地下载的应用(例如,web浏览器的附属装置和/或组织样本成像查看器应用),和/或使用远程访问会话(例如,通过web浏览器)向客户端终端108提供功能。在一种实现方式中,多个客户端终端108各自从(一个或多个)不同的成像设备112获得组织样本的图像。多个客户端终端108中的每个客户端终端108向计算设备104提供图像。如本文所描述的,计算设备可以将(一个或多个)接收到的图像馈送到一个或多个机器学习模型122A中,以获得指示预分析因素(例如,估计的固定时间;和/或固定时间是正常的,还是异常的,例如太少(即,固定不足),或太多(即,过度固定);以及本文描述的其他因素)的结果,和/或不同ML模型的其他结果(例如,辅助指示和/或经校正图像)。从计算设备104获得的结果可以被提供给每个相应的客户端终端108,例如,用于在显示器上呈现和/或存储在本地存储装置中和/或馈送到另一过程(例如诊断应用)中。(一个或多个)机器学习模型122A的训练可以由计算设备104基于组织样本的图像和/或从一个或多个客户端终端108(可选地,多个不同的客户端终端108)获得的对数据的注释来集中地执行,和/或由另一设备(例如,(一个或多个)服务器118)执行并且被提供给计算设备104以供使用。
在基于本地的实现方式中,每个相应的计算设备104由具体的用户使用,例如,具体的病理学家、和/或场所(例如医院和/或病理学实验室)中的一组用户。计算设备104例如直接地和/或经由图像储存库114(例如,PACS服务器、云存储、硬盘)从成像设备112接收样本图像。注释可以从用户接收(例如,经由接口手动地输入),和/或从其他源提取,例如,从(一个或多个)组织处理设备150输出的指示在组织的处理期间所使用的预分析因素的元数据提取。图像可以被本地地馈送到一个或多个机器学习模型122A中以获得本文描述的一个或多个结果。例如,该(一个或多个)结果可以被呈现在显示器126上,被本地地存储在计算设备104的数据存储设备122中,和/或被馈送到可以被本地地存储在数据存储设备122上的另一应用中。(一个或多个)机器学习模型122A的训练可以由每个相应的计算设备104基于从相应的成像设备112获得的样本的图像和/或对数据的注释来本地地执行,例如,不同的用户可以各自使用由该用户使用的使用特定处理协议和/或使用特定组织处理设备150处理过的样本来训练他们自己的一组机器学习模型122A,和/或不同的病理学实验室可以各自使用它们自己的使用它们自己的特定组织处理协议和/或使用它们自己的特定组织处理设备150处理过的图像来训练它们自己的一组机器学习模型。例如,擅长于分析骨髓活检的病理学家在使用适合于骨髓的预分析因素处理过的骨髓活检样本的图像上训练ML模型。擅长于肾活检的另一实验室在描绘经由活检获得的使用适合于肾组织的预分析因素处理过的肾组织的图像上训练ML模型。在另一示例中,经训练的(一个或多个)机器学习模型122A从另一设备(例如,中央服务器)获得。
计算设备104接收由(一个或多个)成像设备112捕获的组织样本的图像。(一个或多个)示例性成像设备112包括:在标准颜色通道(例如,红、绿、蓝)中扫描的扫描仪、在四个或更多个通道中获取图像的多光谱成像器、共焦显微镜、黑白成像设备、和成像传感器。
可选地,一个或多个组织处理设备150使用(一个或多个)分析因素来处理组织,该(一个或多个)分析因素可以是已知的和/或未知的,例如如本文所描述的那样确定的。例如,固定组织和/或将染色剂应用于组织样本,然后由成像设备112对组织样本进行成像。
(一个或多个)成像设备112可以创建样本的二维(2D)图像,可选地创建全切片图像。
由成像机器112捕获的图像可以被存储在图像储存库(例如存储服务器(例如PACS、EHR服务器)、计算云、虚拟存储器和硬盘)114中。
如本文所描述的,(一个或多个)训练数据集122B可以基于所捕获的图像来创建。
如本文所描述的,(一个或多个)机器学习模型122A可以在(一个或多个)训练数据集122B上进行训练。
(一个或多个)示例性ML模型122A包括以下模型中的一个或多个模型:预分析ML模型、辅助ML模型(例如,临床ML模型)、图像校正ML模型、以及在可选的预处理步骤中使用的其他ML模型(例如核分割ML模型、RBC分割ML模型、和/或可解释性ML模型(例如,如参考图2的206所描述的))。
本文描述的机器学习模型的示例性架构包括,例如,统计分类器和/或其他统计模型、各种架构的神经网络(例如,卷积网络、全连接网络、具有一个或多个后续连接层的一个或多个卷积层、深度网络、编码器-解码器网络、递归网络、图形网络)、支持向量机(SVM)、逻辑回归、k最近邻、决策树、提升、随机树林、回归、和/或允许回归、分类、降维、监督学习、无监督学习、半监督学习或强化学习的任何其他商业或开放源包。机器学习模型可以使用监督方法和/或无监督方法来训练。
本文描述的机器学习模型可以被精细地调整和/或更新。针对某些类型的组织(例如骨髓活检)训练的现有经训练ML模型可以用作针对其他类型的组织(例如血液涂片)使用迁移学习方法来训练其他ML模型的基础。与“从头开始”训练新ML模型的标准方法相比,使用现有ML模型的迁移学习方法可以增加新训练的ML模型的准确度和/或减小用于训练新ML模型的训练数据集的大小,和/或减少用于训练新ML模型的时间和/或用于训练新ML模型的计算资源。
计算设备104可以使用一个或多个成像接口120(例如,有线连接(例如,物理端口)、无线连接(例如,天线)、局部总线、用于连接数据存储设备的端口、网络接口卡、其他物理接口实现方式、和/或虚拟接口(例如,软件接口、虚拟专用网络(VPN)连接、应用编程编程接口(API)或软件开发工具包(SDK)))从成像设备112和/或图像储存库114接收用于分析的图像。替代地或附加地,计算设备104可以从(一个或多个)客户端终端108和/或(一个或多个)服务器118接收图像。
例如,(一个或多个)硬件处理器102可以被实现为(一个或多个)中央处理单元(CPU)、(一个或多个)图形处理单元(GPU)、(一个或多个)现场可编程门阵列(FPGA)、(一个或多个)数字信号处理器(DSP)和(一个或多个)专用集成电路(ASIC)。(一个或多个)处理器102可以包括一个或多个(同质的或异质的)处理器以进行并行处理,这一个或多个(同质的或异质的)处理器可以被布置为作为集群和/或作为一个或多个多核心处理单元。
存储器106(本文中也被称为程序存储和/或数据存储设备)存储由(一个或多个)硬件处理器102执行的代码指令,例如,随机存取存储器(RAM)、只读存储器(ROM)、和/或存储设备(例如,非易失性存储器、磁性介质、半导体存储器设备、硬盘驱动器、可移动存储装置、和光学介质(例如,DVD、CD-ROM))。存储器106存储代码106A和/或训练代码106B,它们实施参考图3至图7描述的方法的一个或多个动作和/或特征。
计算设备104可以包括用于存储数据(例如本文描述的(一个或多个)机器学习模型122A和/或用于训练本文描述的(一个或多个)机器学习模型122A的训练数据集122B)的数据存储设备122。例如,数据存储设备122可以被实现为存储器、本地硬盘驱动器、可移动存储设备、光盘、存储设备、和/或被实现为(例如,通过网络110访问的)远程服务器和/或计算云。应当注意,存储在数据存储设备122中的数据的执行代码部分可以被加载到存储器106中,以供由(一个或多个)处理器102执行。
计算设备104可以包括数据接口124,可选地包括连接到网络110的网络接口,例如,以下各种网络接口中的一种或多种网络接口:网络接口卡、连接到无线网络的无线接口、连接到用于网络连接的电缆的物理接口、在软件中实现的虚拟接口、提供较高层网络连接的网络通信软件、和/或其他实现方式。计算设备104可以使用网络110访问一个或多个远程服务器118,例如,以下载(一个或多个)机器学习模型122A、代码106A、训练代码106B、和/或(一个或多个)训练数据集122B的更新版本。
计算设备104可以使用网络110(或另一通信信道,例如,通过直接链路(例如,电缆、无线链路)和/或间接链路(例如,经由诸如服务器之类的中间计算设备、和/或经由存储设备的链路)与以下各项中的一项或多项通信:
*(一个或多个)客户端终端108,例如,如本文所描述的,当计算设备104作为向远程实验室终端提供图像分析服务(例如,SaaS)的服务器时。
*服务器118,例如,如本文所描述的,服务器118与PACS和/或电子病例相关联地实现,PACS和/或电子病例可以存储来自不同个体(例如,患者)的用于处理的样本的图像。
*图像储存库114,其存储由成像设备112捕获的样本的图像。
应当注意,成像接口120和数据接口124可以作为两个独立接口(例如,两个网络端口)、作为公共物理接口上的两个虚拟接口(例如,公共网络端口上的虚拟网络)存在、和/或集成到单个接口(例如,网络接口)中而存在。
计算设备104包括用户界面126或与其通信,用户界面126包括为用户输入数据(例如,手动输入预分析因素用于对图像的注释)和/或查看数据(例如,由(一个或多个)ML模型预测的预分析因素)而设计的机制。例如,示例性用户界面126包括触摸屏、显示器、键盘、鼠标和使用扬声器和麦克风的语音激活软件中的一个或多个。
现在返回参考图2,在200处,获得和/或获取使用至少一个预分析因素处理过的一个或多个对象的组织(可选地,病理组织)(例如切片)的一个或多个图像。
可以获得多个切片的多个图像,每个图像描绘从不同对象获得的组织样本。多个图像可以来自同一组织的不同切片。替代地或附加地,获得来自同一对象的不同组织的不同切片的多个图像。图像可以是从不同对象获得的同一类型的组织样本(例如血液涂片、骨髓活检、手术切除的肿瘤和从活检提取的息肉)的图像。被提供和/或被训练的(一个或多个)ML模型可以对应于一种或各种组织类型;或者,替代地,对应于描绘来自不同患者的不同类型组织的图像。
切片上的组织可以包括福尔马林固定的石蜡包埋(FFPE)的组织。
例如,图像可以从捕获图像的图像传感器、从捕获图像的扫描仪、或从存储图像的服务器(例如,PACS服务器、EMR服务器、病理服务器)获得。例如,组织图像在被成像器捕获之后和/或一旦图像在被成像器扫描之后被存储,就被自动地发送以进行分析。
如本文所使用的,术语“图像”可以指全切片图像(WSI)、和/或从WSI提取的小块、和/或样品的部分。例如,指示图像被馈送到ML模型的短语可以指从WSI提取的小块被馈送到ML模型。
图像可以是在高放大率(例如,对于物镜而言在约20X至40X(即20倍至40倍)之间,或其他值)下获得的样品的图像。这种高放大率成像可以创建非常大的图像,例如,数量级为千兆像素大小。每个大图像可以被分成较小尺寸的小块,然后对其进行分析。替代地,大图像作为整体来分析。可以沿着不同的x-y平面以不同的轴(即,z轴)深度来扫描图像。
组织可以在手术期间获得,例如,在活检过程、细针抽吸(FNA)过程、核心活检过程、液体活检过程、用于去除结肠息肉的结肠镜检查、用于去除未知肿块的手术、用于去除良性癌症的手术、用于去除恶性癌症的手术、和/或用于治疗医学病症的手术期间获得。可以从液体(例如,尿液、滑液、血液和脑脊髓液)获得组织。组织可以是相连的细胞群的形式,例如,组织学切片。组织可以是悬浮在液体(例如,细胞学样本)中的单个细胞或细胞块的形式。
在202处,获得和/或获取对在处理每个相应图像中描绘的组织期间使用的(一个或多个)预分析因素的指示,例如,自动提取(例如,从与切片相关联的记录,该记录例如由切片准备设备输出)和/或由用户手动输入该指示。例如,该指示可以被存储为元数据、标签和/或字段的值。
示例性预分析因素包括:固定时间、通过将FFPE块切片获得的组织厚度、固定剂类型、热缺血时间、冷缺血时间、预固定期间温度的持续时间和延迟、固定剂配方、固定剂浓度、固定剂pH、固定剂试剂龄、固定剂制备源、组织与固定剂体积比、固定方法、初次和二次固定条件、固定后洗涤条件和持续时间、固定后储存试剂和持续时间、处理器类型、服务和试剂更换频率、组织与试剂体积比、共处理位置样本的数量、脱水和清除试剂、脱水和清除温度、脱水和清除变化数量、脱水清除持续时间、烘烤时间和温度。
(一个或多个)预分析因素可以包括对切片染色质量的指示。示例性染色剂包括IHC染色剂、原位杂交(ISH)染色剂、ISH的其他方法(例如荧光ISH(FISH)、色原ISH(CISH)、银ISH(SISH)等)、苏木精和伊红(H&E)、苏木精、吖啶橙、俾斯麦棕、胭脂红、考马斯蓝、甲酚紫、水晶紫、4′,6-二脒基-2-苯基吲哚(“DAPI”)、伊红、溴化乙锭嵌入化合物、酸性品红、Hoechst染色剂、碘、孔雀石绿、甲基绿、亚甲蓝、中性红、尼罗蓝、尼罗红、四氧化锇、碘化丙啶、若丹明、番红、基于抗体的染色剂、或无标签成像标记(其可以由使用包括但不限于拉曼光谱、近红外(“NIR”)光谱、自发荧光成像或相位成像等的成像技术产生,和/或其可以用于在没有外部染料等的情况下突出感兴趣特征)和/或,等等。在一些情况下,使用无标签成像技术时的对比度可以在没有诸如荧光染料或色原染料等的附加标记的情况下产生。
在204处,可以获得和/获取一个或多个附加数据项(例如针对每个相应对象),例如自动地(例如,从诸如相应对象的电子健康记录的记录中提取)和/或由用户手动地提供。例如,附加数据项可以被存储为元数据、标签和/或字段值。
如本文所描述的,附加数据项可以用作用于训练一个或多个ML模型的(一个或多个)训练数据集的(一个或多个)记录中的真值(ground truth),和/或可以用作ML模型的输入。
可选地,附加数据项可以包括对相应对象的辅助指示。辅助指示的示例包括:标签、元数据、以及被馈送了图像的分割模型的分割结果。辅助指示可以是临床指示(例如,用于训练临床指示ML模型的临床指示训练数据集的临床指示记录),例如,临床评分(例如,特定免疫细胞与总免疫细胞的比率、癌症侵入到组织中的等级)、医学状况(例如,恶性、良性、腺瘤、肺癌)的临床诊断、和病理学报告。
替代地或附加地,附加数据项可以是对相应(一个或多个)预分析因素是否被分类为正常(例如,被正确地应用)或分类为异常(例如,被错误地应用、不正确操作值、异常应用)的指示。根据(一个或多个)预分析因素是正常还是异常来确定切片的质量。例如,(一个或多个)预分析因素是否在被定义为适合于获得质量切片的正确操作范围的范围内,或者(一个或多个)预分析因素是否在正确操作范围之外(即,错误的),并且因此切片的质量下降。如本文所描述的,对(一个或多个)预分析因素是正常还是异常的指示可以用于选择描绘正常预分析因素的图像作为真值并且描绘异常预分析因素的其他图像包括在图像校正训练数据集中。
替代地或附加地,附加数据项可以是指示(一个或多个)未知预分析因素的元数据。对于每个切片的每个图像,某(一个或多个)预分析因素可能是已知的,而某(一个或多个)预分析因素可能是未知的。
在206处,(一个或多个)(例如,每个相应的)图像可以被预处理,例如,提取小块、提取特征、分割细胞核、颜色转换、RBC分割、以及计算可解释性图。
可选地,从相应图像中提取特征。可以使用预训练特征提取器来提取特征。如本文所描述的,被提取的特征可以用作用于训练一个或多个ML模型的(一个或多个)训练数据集的(一个或多个)记录中的真值,和/或可以用作ML模型的输入。
预训练特征提取器可以被实现为神经网络(例如,深度神经网络)和/或其他ML模型架构和/或可以不是基于ML的其他特征提取架构(例如,尺度不变特征变换(SIFT)和/或加速鲁棒特征(SURF))。当神经网络被馈送目标图像时,从神经网络的分类层之前的至少一个特征图获得被提取的特征。例如,从刚好在分类层之前的层、和/或从一个或多个更深的层进行提取,例如,使用在所习得的表示的顶部上的投影头部进行提取。例如,该神经网络可以是在标有真值分类类别的非组织图像的图像训练数据集上训练的图像分类器。替代地或附加地,该神经网络是在标有对细胞核和/或核仁的真值分割的病理组织切片的图像的分割训练数据集上训练的核分割网络。可以从核分割网络中提取颈部层。在这种实现方式中,被提取的特征是由神经网络输出的对细胞核的分割和/或细胞核分割的掩码。替代地或附加地,可以提取其他特征,例如手工制作特征、和/或由特征搜索过程(例如SIFT、SURF)自动识别的特征。
替代地或附加地,从图像中提取小块。可以使用小块而非全切片图像来提高计算设备在训练和/或推断期间的计算效率,即小块小于全切片图像,因此,处理小块所需的计算资源比全切片图像更少。在一些情况下,相同的(一个或多个)预分析因素可以应用于图像(例如,在切片上)中描绘的整个组织样本。在这种情况下,确定小块的(一个或多个)预分析因素推断出整个图像的(一个或多个)预分析因素。在其他情况下,对于图像(例如,在切片上)的不同区域而言,预分析因素可能局部地变化,例如,组织的厚度可能变化(这可能影响局部的预分析因素),固定时间可能局部地变化,并且自溶可能局部地变化。在这种情况下,同一图像的不同小块可能具有变化的预分析因素值。
可以从小块中提取特征,例如,使用本文描述的用于从图像中提取特征的方法。可以从感兴趣区域(ROI)获得小块,感兴趣区域可以是具有可选地在预设放大率下的预设大小(例如,具有长度和/或宽度的一定数量的像素)的矩形。ROI可以是WSI的区域。可以在覆盖ROI的网格中提取小块。小块可以是重叠的(例如,以预设的重叠量)和/或非重叠的。从小块中提取的特征可以被拼接在一起以创建增强特征图,和/或用作单独的特征。
针对每个图像和/或每个小块,从相应小块和/或图像中提取的特征可以被降维成特征向量。例如,该降维可以使用全局最大池化层和/或全局平均池化层来完成。预分析记录(用于训练预分析ML模型)可以包括该特征向量。可选地,在神经网络实现方式、预分析ML模型(例如,卷积神经网络(CNN)、全连接网络和基于注意力的(转换器)网络)的训练期间,(一个或多个)卷积层可以直接对输入的特征小块进行操作。可选地,ML模型的非神经网络实现方式(例如,基于树的方法,例如梯度提升树(GBT)和随机森林等)可以对通过其他方法(例如,SIFT、SURF)提取的特征进行操作。预分析机器学习响应于针对从目标图像的小块中提取的特征和/或从目标图像中提取的特征而计算出来的特征向量的输入,生成目标预分析因素的结果。
现在返回参考图6,参考图5描述的特征可以被实现为参考图6描述的特征、与这些特征进行组合和/或用这些特征来代替。在602处,获得使用一个或多个预分析因素处理过的组织样本的图像,可选地获得全切片图像,例如,如参考图2的200所描述的。例如,如参考图2的202所描述的,获得指示用于处理图像中描绘的组织的(一个或多个)预分析因素的真值。在604处,从组织的图像中提取小块,可选地从ROI中提取。在606处,特征提取被应用于小块,用于提取特征,例如,如参考图2的206所描述的。在608处,可以提取特征图,例如,如参考图2的206所描述的。在610处,训练数据集包括标有真值的特征图或被提取的特征的记录,例如,如参考图2的208A所描述的。在612处,使用损失函数来训练ML模型,例如参考图2的208B所描述的。替代地,省略了特征606和/或608,在这种情况下,标有对(一个或多个)预分析因素的相应真值指示的小块604被包括在610的训练数据集的记录中。
现在返回参考图2的206,替代地或附加地,图像被馈送到核分割机器学习模型中,以获得对图像中细胞核的分割的结果。可以基于该分割的结果来创建掩蔽掉对细胞核的分割之外的像素的掩码。该掩码被应用于图像以创建经掩蔽图像。除了图像本身之外和/或代替图像本身,经掩蔽图像可以被用在记录(例如,预分析记录)中,用于训练(一个或多个)ML模型(例如,预分析机器学习模型)。在推断期间,从目标图像创建的目标经掩蔽图像被馈送到经训练(例如,预分析)机器学习模型中,例如以获得(一个或多个)目标预分析因素。
替代地或另外地,当图像被馈送到核分割机器学习模型中以获得对图像中的细胞核的分割的结果时,可以在每个分割周围形成边界(例如,最小边界矩形,或能够从核的周围推断的其他上下文)以创建单个细胞核的小块。除了图像本身之外和/或代替图像本身,单个细胞核的小块可以被用在记录(例如,预分析记录)中,用于训练(一个或多个)ML模型(例如,预分析机器学习模型)。在推断期间,从目标图像创建的对细胞核的目标分割被馈送到经训练(例如,预分析)机器学习模型中,例如以获得(一个或多个)目标预分析因素。
现在返回参考图7,描绘了使用一个或多个预分析因素处理过的组织的图像702,其包括被核分割ML模型分割的经分割细胞核704(为清楚起见示出了一个细胞核)。例如,核分割ML模型可以在标有对细胞核的真值分割的细胞图像的训练数据集上训练。核分割ML模型可以使用其他方法来计算分割,例如分析细胞的颜色分布以识别经分割细胞核。
现在返回参考图2的206,替代地或附加地,彩色版本的图像被转换为灰阶版本的图像。除了彩色图像之外和/或代替彩色图像,灰阶图像可以被用在记录(例如,预分析记录)中,用于训练(一个或多个)ML模型(例如,预分析机器学习模型)。在推断期间,目标灰阶版本的目标图像被馈送到经训练(例如,预分析)机器学习模型中,例如以获得(一个或多个)目标预分析因素。代替彩色图像和/或除了彩色图像之外使用灰阶图像可以防止ML模型学习不相关的颜色变化(例如由不同染色剂、不同成像传感器等引起)。
替代地或附加地,图像被馈送到红细胞(RBC)分割机器学习模型中,以获得对图像中RBC的分割的结果和/或描绘RBC的小块。代替图像本身和/或除了图像本身之外,对RBC的分割和/或描绘RBC的小块可以被用在记录(例如,预分析记录)中,用于训练(一个或多个)ML模型(例如,预分析机器学习模型)。在推断期间,来自目标图像的对RBC的目标分割和/或描绘RBC的小块被馈送到经训练(例如,预分析)机器学习模型中,例如,以获得(一个或多个)目标预分析因素。RBC对固定过程更敏感,并且可以是对预分析因素是正确还是异常的良好指示,例如指示过度固定和/或固定不足。
替代地或附加地,可解释性机器学习模型被训练以生成可解释性图,该可解释性图指示目标图像的像素对于获得目标预分析因素的相对重要性。可解释性图可以被实现为例如注意力图、概率图和/或类激活图。用于获得可解释性图的目标图像可以是低分辨率的。然后可以根据从低分辨率目标图像计算出来的可解释性图对目标图像的高分辨率小块进行采样。例如,高分辨率小块可以被选择为K个经采样小块,其中,K表示ML模型的超参数,该选择基于小块的相关性和/或其他考虑,例如选择K个最相关的、和/或尝试选择最相关的而不选择来自样本的采样区域中的所有小块。在另一示例中,高分辨率小块可以被选择为具有高于阈值的相对重要性。除了图像本身之外和/或代替图像本身,高分辨率小块可以被用在记录(例如,预分析记录)中,用于训练(一个或多个)ML模型(例如,预分析机器学习模型)。在推断期间,从目标图像中提取的高分辨率小块被馈送到经训练(例如,预分析)机器学习模型中以获得(一个或多个)目标预分析因素。
现在返回参考图2,参考208A至B、210A至B以及212A至B描述的特征表示可以使用在特征200至206中获得的数据来训练的不同的ML模型。可以使用损失函数(例如标准交叉熵损失函数)来执行训练。
在208A处,创建多个记录的预分析训练数据集。预分析记录包括使用(一个或多个)预分析因素处理过的相应对象的(例如,病理的)组织切片的图像、指示预分析因素的真值标签、以及可选地参考204和/或206描述的其他数据。其他数据可以是除了图像之外的数据,和/或可以是图像的实现方式(例如从图像中提取的小块)。其他数据可以包括以下各项中的一项或多项:从图像中提取的小块、从图像中提取的特征、经分割细胞核、颜色转换的图像(例如,黑白图像)、RBC分割、和(一个或多个)可解释性图。
预分析记录还可以包括指示以下两种类型的预分析因素的元数据,(i)已知的(一个或多个)预分析因素和(ii)在推断期间被预测为未知(但是在训练期间为已知)的(一个或多个)预分析因素。已知的预分析因素可以与推断时未知的(一个或多个)预分析因素相关。在推断期间,已知的预分析因素的值被馈送到ML模型中,并且用于辅助确定未知的(一个或多个)预分析因素的值。例如,预分析因素FISH对过度固定非常敏感。在推断过程中,已知的预分析因素FISH被馈送到ML模型中,并且可以用于辅助ML模型推断关于组织块中组织的固定程度和/或自溶程度的信息,其中,这样的(一个或多个)预分析因素是未知的。为了训练这种模型,真值标签是在推断期间被预测为未知的(但是在训练期间为已知的)(一个或多个)预分析因素的真值标签。
在208B处,在预分析训练数据集上训练预分析机器学习模型,用于响应于目标图像的输入而生成用于处理目标图像中描绘的组织的(一个或多个)预分析因素的结果。
可选地,指示预分析因素的真值标签包括:指示所应用的预分析因素是否被正确应用或对预分析因素的应用是否异常的真值标签。在这种情况下,机器学习模型的一种实现方式可以被训练成学习被标记为正确应用的预分析因素的保留值(inlier)图像的分布,以检测出作为剔除值(outlier)(指示不正确应用的预分析因素)的图像。例如,ML模型的实现方式可以是自动编码器、变分自动编码器(VAE)、和生成对抗网络(GAN)等。
可选地,在包括图像的另一图像训练数据集上预训练预分析机器学习模型,该另一图像训练数据集的每个图像标有某个分类类别的相应真值指示。被预训练的预分析训练数据集也在预分析训练数据集上进行训练。
在210A处,创建记录的辅助指示训练数据集。辅助指示记录包括使用(一个或多个)预分析因素处理过的相应对象的病理组织切片的相应图像、对(一个或多个)预分析因素的指示、和辅助指示的真值标签、以及可选地参考204和/或206描述的其他数据(例如参考208A提供的示例)。
可选地,辅助指示记录的(一个或多个)预分析因素包括从预分析机器学习模型的(一个或多个)隐藏层中提取的至少一个特征图,该预分析机器学习模型被馈送了使用(一个或多个)预分析因素处理过的对象的病理组织切片的图像。(一个或多个)隐藏层可以包括一个或多个层,其可以是分类层之前的最后一层或其他层。在推断期间,辅助机器学习模型响应于目标图像和从被馈送目标图像的预分析机器学习模型的隐藏层中提取的目标特征图的输入而生成目标辅助指示的结果。
在210B处,在辅助指示训练数据集上训练辅助机器学习模型,以响应于目标图像和用于处理目标图像中描绘的组织的(一个或多个)目标预分析因素的输入而生成目标辅助指示的结果。(一个或多个)目标预分析因素可以作为被馈送了目标图像的预分析机器学习模型的结果而被获得。
在212A处,创建多个记录的图像校正训练数据集。图像校正记录包括使用(一个或多个)预分析因素处理过的对象的病理组织切片的图像。该记录包括描绘异常处理的病理组织的切片的图像。该记录还包括对(一个或多个)预分析因素被分类为异常的指示。排除其(一个或多个)预分析因素被分类为正常的图像。该记录还包括对(一个或多个)预分析因素的指示。该记录还包括切片的正常图像(例如,与异常切片相同的组织的图像,或类似于被标记为异常的切片的组织的图像的另一图像)的真值标签,可选地,包括使用(一个或多个)预分析因素处理过的被分类为异常的病理组织的切片的正常图像的真值标签。
替代地或附加地,创建图像转换记录的两个或更多个集合的图像转换训练数据集,其中,每个集合包括源图像转换记录的源集合和目的地图像转换记录的目的地集合。这些集合可以通过对预分析因素的分类而被拆分。源图像转换记录的集合的源图像转换记录可以包括使用预分析因素处理过的对象的病理组织切片的源图像、以及指示源标签的真值。源标签可以指示使用预分析因素异常处理的病理组织。目的地图像转换记录集合的目的地图像转换记录可以包括使用预分析因素处理过的对象的病理组织切片的目的地图像、以及指示目的地标签的真值。目的地标签可以指示使用预分析因素正常处理的病理组织。
在212B处,在图像校正训练数据集上训练图像校正机器学习模型,以响应于使用被分类为异常的目标预分析因素处理过的切片的目标图像的输入,生成病理组织切片的合成的经校正的图像的结果,该经校正的图像模拟当切片的目标图像使用被分类为正常的(一个或多个)预分析因素处理时该切片的目标图像看起来的样子。
替代地或附加地,在图像转换训练数据集上训练图像转换机器学习模型。图像转换ML模型用于将源图像转换记录集合的病理组织切片的目标源图像转换到目的地图像转换记录集合的病理组织切片的结果目的地。
用于实现图像校正ML模型和/或图像转换ML模型的示例性架构包括:无监督图像转换、自监督图像转换、CycleGAN、StarGAN、无监督图像到图像转换(UNIT)、和多模态无监督图像到图像转换(MUNIT)。
在214处,可以至少使用公共的图像和公共的预分析因素标签来联合地(例如,端对端地)训练预分析机器学习模型和辅助机器学习模型。例如,一些图像和/或标签是公共的,并且一些图像和/或标签对于预分析和辅助ML模型中的一者或两者而言是唯一的。公共的图像和/或标签可以用于联合(例如,端对端)训练,而唯一的图像和/或标签可以例如在不存在辅助结果但存在(一个或多个)预分析因素的情况下用于实现联合训练。
在216处,可以使用公共图像和预分析因素的公共真值标签来联合地训练图像校正机器学习模型和预分析机器学习模型。
在218处,可以使用自监督和/或无监督方法在使用(一个或多个)预分析因素处理过的(一个或多个)对象的组织(或可选地,病理组织)的未标记图像的未标记训练数据集上训练基准模型。未标记图像可以是与本文描述的记录中所使用的组织类似的组织和/或不同的组织的图像。未标记图像可以是与本文描述的记录中所使用的(一个或多个)预分析因素类似的(一个或多个)预分析因素和/或不同的(一个或多个)预分析因素的图像。然后在用于创建预分析机器学习模型的预分析训练数据集上训练基准模型。应当注意,基线模型可以在用于创建辅助ML模型的辅助指示训练数据集上训练和/或在用于创建图像校正ML模型的图像校正训练数据集上训练。
基线模型可以用作使用特征提取器的替代,和/或可以在除了使用特征提取器之外使用。特征提取可以用于在交叉验证方案下进行快速训练。使用微调过程可以允许网络在较低层上学习更相关的特征,在微调过程中,基线模型(例如,预训练的网络)被用作初始状态,并且使用训练数据集来训练网络层的部分或全部。
现在返回参考图3,在302处,训练和/或提供(一个或多个)ML模型,例如如参考图2所描述的。(一个或多个)ML模型包括以下模型中的一个或多个模型:预分析ML模型、辅助ML模型、图像校正ML模型、以及在可选的预处理步骤中使用的其他ML模型(例如核分割ML模型、RBC分割ML模型、和/或可解释性ML模型(例如,如参考图2的206所描述的))。
在304处,获得和/或获取对象的组织(可选地病理组织)样本的目标图像,例如,如参考图2的200所描述的。
在306处,例如,如参考图2的206所描述的,可以例如通过以下操作中的一个或多个操作来预处理目标图像:提取小块、提取特征、分割细胞核、颜色转换、RBC分割、以及计算可解释性图。该预处理对应于图2的206中完成的预处理,以获得用于训练相应ML模型的相应训练数据集的数据,如参考图2所描述的。
在308处,(可选地预处理的)目标图像被馈送到预分析机器学习模型中。替代地或附加地,如参考306所描述的而获得的以下各项中的一项或多项被馈送到预分析ML模型中:被提取的特征、小块、经分割细胞核、转换的彩色图像、RBC分割、可解释性图、和/或从目标图像获得的其他数据。
在310处,从预分析机器学习模型获得用于处理目标图像的(一个或多个)目标预分析因素的结果。
在312处,提供(一个或多个)目标预分析因素,例如呈现在显示器上、存储在数据存储设备上(例如,作为图像的标签)、和/或转发到另一过程用于输入和/或进一步处理。
替代地或附加地,在314A处,目标图像、(一个或多个)预分析因素、以及可选地如参考306所描述的而获得的一个或多个附加数据被馈送到辅助机器学习模型中。
被馈送到辅助机器学习模型中的(一个或多个)预分析因素的输入可以是作为至少被馈送了目标图像的预分析机器学习模型的结果而被获得的,如参考310所描述的。
在314B处,从辅助机器学习模型获得目标辅助指示的结果。
在314C,可以根据目标辅助指示使用对医学状况有效的处理来处理对象。例如,当辅助评分高于阈值时,可以使用化学疗法来处理对象。
在316A处,响应于目标预分析因素被分类为异常,目标图像和(一个或多个)目标预分析因素被馈送到图像校正机器学习模型和/或图像转换ML模型中。
应当注意,预分析因素分类不一定是二元的,例如,正常或异常。在一些情况下,二元分类不一定是可行的,例如当预分析因素应用于整个组织块而不是可逆的或递增的时,和/或当没有特定的“正确”或“错误”而是有不同的可能性时。可以有多个类别,例如,三个或更多个类别,这可以取决于特定的预分析因素。例如,当预分析因素是时间时,可以有5个类别,例如0至9小时、9至20小时、20至60小时、60至120小时、和大于120小时。
对于图像转换ML模型而言,目标源图像可以包括输入图像和指示源预分析因素的附加元数据,源预分析因素指示输入图像的状态。源预分析因素可以是所获得的指示,例如如310中获得的正常、异常或其他分类结果。例如,源预分析因素可以指示异常处理。其他可选的元数据指示所生成的期望结果图像的目的地预分析因素,例如,以生成正常处理的图像,以生成针对所选分类类别(例如20至60小时)完成处理的图像。例如,目标源图像具有9至20小时的预分析因素,并且描绘20至60小时的图像是期望的。元数据可以是显式的,例如自动生成的和/或由用户选择的。元数据可以作为默认而是隐式的,例如,结果图像的期望预分析因素是什么是正常的,或者是最佳或以其他方式“最好”的预分析因素。替代地或附加地,在没有提供显式元数据的情况下,目标源图像可以包括输入图像而不包括显式元数据。可选地,来自目的地集合的参考图像用于推断输入图像的目的地。
可以有多个图像转换ML模型和/或不同的图像校正ML模型在不同的源集合和/或不同的训练集合上训练,例如,在描述不同的预分析因素的不同的训练集合上训练。可以选择图像转换ML模型和/或图像校正ML模型,和/或可以选择源集合,例如,根据作为被馈送目标图像的预分析机器学习模型的结果而获得的预分析因素的输入来选择。
目标预分析因素可以被分类为正常或异常,例如,通过对作为预分析ML模型的结果而获得的目标预分析因素应用一组规则。在另一示例中,应用范围和/或阈值来限定目标预分析因素的正确值。当目标预分析因素在该范围内或低于该阈值(或高于阈值)时,目标预分析因素被分类为正常,并且当目标预分析因素在该范围外或高于该阈值(或低于该阈值)时,目标预分析因素被分类为异常。在另一示例中,预分析ML模型的结果可以包括指示目标预分析因素被分类为正常还是异常的分类标签。为了获得这种结果,预分析训练数据集的记录可以包括相应记录的相应预分析因素的正常或异常的真值指示。
被馈送到图像校正机器学习模型和/或图像转换ML模型中的(一个或多个)预分析因素的输入可以是作为如参考310描述的被馈送了目标图像的预分析机器学习模型的结果而获得的。
在316B处,获得经校正的图像的结果,作为图像校正机器学习模型的结果,该经校正的图像模拟当切片的目标图像使用被分类为正常的(一个或多个)预分析因素处理时该切片的目标图像看起来的样子。
替代地或附加地,从图像转换ML模型获得目的地图像转换记录集合的病理组织切片的结果目的地图像,该结果目的地图像是异常处理的图标图像到正常处理的图像的转换。
如上文所描绘的以及如下面的权利要求部分中要求保护的本发明的各个实施例、实现方式和方面在以下示例中得到实验和/或计算的支持。
示例
现在参考以下示例,其连同以上描述以非限制性方式来说明本发明的一些实施例和/或实现方式。
发明人进行实验以研究被训练成响应于固定的组织样本的图像和/或从图像中提取的特征而生成指示固定时间的结果的机器学习模型的至少一些实现方式,如本文所描述的。
材料
从由哥本哈根大学获得的新鲜制备的猪组织中获取组织。如本文所描述的,发明人认为固定时间是染色质量结果的主要影响因素。因此制备了以下训练数据集,其中发明人完全控制了缺血时间,并且唯一的变量是在中性缓冲福尔马林中的固定时间。总共创建了144个块,代表完成一式三份的在8个不同器官系统上的6种不同的固定时间。为了可行性,从来自肝组织器官系统的块中切下部分,并且在组织染色机(Dako Coverstainer)仪器中使用标准化协议用伊红和苏木精(H&E)对这些部分进行染色。在Phillips超快切片扫描仪上扫描样品以创建全切片图像的训练数据集,发明人使用下文描述的不同机器学习计算方法对其进行测试。发明人成功地训练了能够区分固定时间的若干网络。
方法
发明人评估了第一种特征提取方法,其中,从如材料部分中制备的全切片图像(WSI)中取出的小块中提取特征。使用预训练的特征提取器(例如深度神经网络)或如本文所描述的一些其他特征提取机制来提取特征。然后使用这些特征来训练预分析机器学习模型(例如分类和/或回归模型),以推断固定时间,如本文所描述的。发明人评估了用于特征提取的两种预训练网络,ResNet18和UNet。
ResNet18是公众可获得的图像分类器,在ImageNet数据集上训练,发明人从IResNet18中提取分类层之前的最后特征图。使用ResNet18提取的小块的大小为224×224×3。从ResNet18中提取的特征的矢量维数为512。
UNet是定制的经训练的核分割网络,发明人从该网络中提取瓶颈层。使用定制的UNet网络提取的小块的大小为256×256×3。从UNet中提取的特征的矢量维数为2048。
从每个整个切片图像中,选择一侧10000至20000像素的感兴趣区域(ROI)矩形(40倍放大率),进行提取。在覆盖ROI的网格中提取小块。发明人尝试提取部分重叠的小块和非重叠的小块。所提取的每个小块的特征被拼接在一起以创建提取的特征图或被保存为单独的特征。
在5折交叉验证(CV)方案中,所提取的特征或特征图被拆分成训练/验证数据集。针对每个CV折,从同一WSI提取的所有特征被一起选择,全部用于训练或全部用于验证。如果提取了特征图而不是单独的特征,则在训练期间它们被拆分成非重叠或部分重叠的特征小块的网格。使用了在1×1至20×20的空间维度范围内的不同的特征小块网格。
发明人使用各种架构来训练神经网络,以根据固定时间对所提取的数据集进行分类。发明人探索的架构是卷积神经网络(CNN)和全连接神经网络(FCNN)。CNN由具有一个或多个卷积层及一个或多个后续的全连接层组成。
当训练FCNN时,使用全局最大池化层或全局平均池化层将每个特征小块在空间上降维成特征向量。当训练CNN时,卷积层直接在输入特征小块上进行操作。使用标准交叉熵损失来训练网络。通过测量每个验证折的F1评分来评估模型性能,并且获得的多个折的最佳平均F1评分为~0.7。
发明人还评估了一种替代的流水线,其中WSI小块被直接馈送到定制的CNN中,而无需先前的特征提取。最后一层是分类层,其具有针对每个不同的固定时间的输出。从每个WSI中,选择一侧10000至20000像素的感兴趣区域(ROI)矩形(40倍放大率)用于提取,并且在覆盖ROI 256×256RGB小块的网格中提取小块。基于WSI切片或小块的随机分布,将小块分为训练集合和验证集合。
损失函数是标准交叉熵损失。随机小块选择的准确度评分是高的(>95%),而在WSI级别完成验证/训练拆分时(对应于使用特征提取获得的结果),准确度评分显著较低(<60%)。
已经出于说明的目的呈现了对本发明的各个实施例的描述,但是这些描述并不旨在穷举或限于所公开的实施例。对于本领域的普通技术人员来说,在不脱离所描述的实施例的范围和精神的情况下,许多修改和变更将是显而易见的。选择本文使用的术语以最佳地解释实施例的原理、实际应用或对市场中存在的技术的技术改进、或使本领域的技术人员能够理解本文所公开的实施例。
预期在从本申请成熟的专利的寿命期间,许多相关的ML模型将被开发,并且术语ML模型的范围旨在先验地包括所有这样的新技术。
本文使用的术语“约”是指10%。
术语“包括(comprises)”、“包括(comprising)”、“包括(includes)”、“包括(including)”、“具有”和它们的变化形式是指“包括但不限于”。该术语涵盖术语“由......组成”和“基本上由......组成”。
短语“基本上由......组成”是指组合物或方法可以包括附加的成分和/或步骤,但仅当附加的成分和/或步骤不实质上改变要求保护的组合物或方法的基本和新颖特性时。
本文使用单数形式“一”、“一个”和“该”包括复数指代,除非上下文另外清楚地指明。例如,术语“一种化合物”或“至少一种化合物”可以包括多种化合物,包括其混合物。
本文使用的词语“示例性”于是指“作为示例、实例或说明”。被描述为“示例性”的任何实施例不一定被解释为比其他实施例优选或有利和/或从其他实施例排除特征的并入。
本文使用的词语“可选地”是指“在一些实施例中被提供而在其他实施例中未被提供”。本发明的任何特定实施例可以包括多个“可选的”特征,除非这些特征冲突。
贯穿本申请,本发明的各个实施例可以以范围格式呈现。应当理解,范围格式的描述仅仅是为了方便和简洁,而不应当被解释为对本发明范围的不灵活的限制。因此,范围的描述应当被认为具体公开了所有可能的子范围以及该范围内的单个数值。例如,诸如1至6之类的范围的描述应当被认为具有具体公开的子范围,例如,1至3、1至4、1至5、2至4、2至6、3至6等、以及该范围内的单个数字,例如,1、2、3、4、5和6。这不管范围的宽度如何都适用。
每当本文的数字范围被指示时,意在包括在被指示范围内的任何引用的数字(分数或整数)。短语“在第一指示数字和第二指示数字之间的范围”和“从第一指示数字到第二指示数字的范围”可以在本文中互换地使用并且意在包括第一和第二指示数字以及它们之间的所有分数和整数。
应当理解,为了清楚起见,在单独实施例的上下文中描述的本发明的某些特征也可以在单个实施例中被组合提供。相反地,为了简洁起见,在单个实施例的上下文中描述的本发明的各种特征也可以单独地或以任何合适的子组合或在本发明的任何其他描述的实施例中合适地被提供。在各个实施例的上下文中描述的某些特征不被认为是那些实施例的基本特征,除非该实施例在没有那些元件时不可操作。
虽然已经结合本发明的具体实施例描述了本发明,但是很明显,许多替代、修改和变化对于本领域技术人员来说是显而易见的。因此,本发明旨在涵盖落入所附权利要求的精神和大体范围内的所有这些替代、修改和变化。
(一个或多个)申请人的意图是,在本说明书中引用的所有出版物、专利和专利申请通过其整体引用并入本说明书中,如同当通过引用并入本文时每个单独的出版物、专利或专利申请被具体地和单独地提及。此外,本申请中任何指代的引用或标识不应当被解释为承认这些指代可以作为本发明的现有技术。就使用章节标题而言,它们不应当被解释为必要的限制。此外,本申请的(一个或多个)任何优先权文件通过引用以其整体并入本文。
- 细胞和组织学染色图像高通量定量分析方法及装置
- 用于光学组织学图像的分析和远程解译的系统和方法