掌桥专利:专业的专利平台
掌桥专利
首页

一种基于自监督学习的病理全切片特征学习方法

文献发布时间:2024-04-18 20:00:50


一种基于自监督学习的病理全切片特征学习方法

技术领域

本发明涉及数字图像处理技术领域,更具体的说是涉及一种基于自监督学习的病理全切片特征学习方法。

背景技术

目前,由于硬件资源的限制,全切片图像分析很难在端到端的框架中直接处理千兆像素的全切片;层次图像金字塔变换器(Hierarchical Image Pyramid Transformer,HIPT)方法探索并提出了一个新的挑战,称为全切片级自监督学习,它利用了全切片固有的分层结构,构建了多个级别的自监督学习框架来学习高分辨率图像表示。这种方法使基于多实例学习的框架能够利用大量未标记的全切片,进一步提高肿瘤特征识别的准确性和稳健性。

HIPT是一种基于贪婪训练策略的分层学习框架。在表示模型的每个级别中产生的偏置和误差将会累积到在最终决策模型中。此外,HIPT中使用的视觉变换器(VisionTransformer,ViT)主干最初是为位置信息一致的固定尺寸的自然场景图像设计的,但是组织病理全切片是尺度变化且各向同性的。ViT的位置嵌入策略会给结构建模带来歧义。为了缓解这个问题,核注意力转换器(Kernel Attention Transformer,KAT)建立了基于局部锚点的分层掩码,从而在训练中保持多尺度的相对距离信息。但是这些掩码是手动定义的,这是不可训练的并且缺乏方向信息。目前全切片结构描述的嵌入策略并不完整。

因此,如何充分学习全切片图像的空间信息以提高模型性能,是本领域技术人员亟需解决的问题。

发明内容

有鉴于此,本发明提供了一种基于自监督学习的病理全切片特征学习方法,能够学习到泛化能力强、语义表达丰富的特征表示,能在全切片分类等特定下游任务中具有高性能表现。

为了实现上述目的,本发明采用如下技术方案:

一种基于自监督学习的病理全切片特征学习方法,包括以下步骤:

获取全切片图像,并通过预处理生成全切片的初始图像块;对初始图像块构建全切片特征并进行随机掩盖后,筛选出未被掩盖的图像块特征输入至编码器;所述编码器由多个编码模块串联而成,编码模块根据所述图像块的空间位置信息进行注意力加权计算,并生成加权后的编码结果;初始化掩盖的图像块特征,并根据位置信息与所述编码结果进行结合;将结合后的图像块特征输入至解码器后得到解码结果;根据初始图像块和解码结果计算重建损失,进行模型预训练。

优选的,步骤还包括:

预训练结束后,进行参数微调:提取预训练好的编码器框架网络参数,作为全切片特征提取器;输入全切片图像,将编码器提取的特征和全切片标签输入分类器,通过交叉熵损失函数训练网络。

优选的,所述对初始图像块构建全切片特征,步骤包括:

通过DINO框架确认全切片图像块的锚点特征,并为各个初始图像块添加空间位置信息,得到各个初始图像块与锚点特征之间的相对距离矩阵和角度矩阵。

优选的,所述编码模块包括依次连接的第一归一化层、交叉注意计层、第二归一化层和多层感知机;

所述交叉注意力层根据经第一归一化层输出的相对距离矩阵和角度矩阵进行注意力计算:

其中,K

n个编码输出的图像块特征,

优选的,多个串联的编码模块的特征处理过程中,在输入下一个编码模块前进行核重定向,每个锚点特征根据各方向注意力得分进行排序,并选取得分最高的方向为新一轮主方向,进而更新所有图像块方向信息。

优选的,所述核重定向,步骤包括:

获取角度矩阵和锚点特征的注意力矩阵;通过锚点特征的注意力矩阵对角度矩阵进行加权,统计各个角度的注意力得分并进行排序,选取最高得分作为角度更新的主方向,得到更新角度;将角度矩阵与更新角度做差,得到新的角度矩阵。

一种基于自监督学习的病理全切片特征提取网络模型,包括输入层、编码器、解码器和输出层;所述输入层接收全切片图像,并生成图像块;所述图像块依次经过所述编码器和所述解码器进行编码和解码后通过输出层输出全切片特征;所述编码器由多个编码模块串联而成,编码模块根据所述图像块的空间位置信息进行注意力加权计算,并生成加权后的编码结果。

优选的,所述编码模块包括依次连接的第一归一化层、交叉注意计层、第二归一化层和多层感知机。

优选的,所述解码器由多个解码模块串联而成,所述解码模块与所述编码模块网络结构相同。

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于自监督学习的病理全切片特征学习方法,够利用大量无标签信息的病理全切片图像数据进行特征学习与挖掘,学习到泛化能力强、语义表达丰富的特征表示,能在全切片分类等特定下游任务中具有高性能表现;提出了一种基于空间信息感知的核交叉注意力机制,基于锚点机制引入相对距离与相对方位嵌入信息,结合动态更新方位策略,不仅节省了计算过程中的资源开销,还适应了病理全切片的各向同性特征,消除语义空间的歧义,更利于表达完整的语义信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种基于自监督学习的病理全切片特征学习方法流程示意图;

图2附图为本发明提供的病理全切片特征学习算法示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

如图1和图2本发明实施例公开了一种基于自监督学习的病理全切片特征学习方法,包括以下步骤:

S1:获取全切片图像,并通过预处理生成全切片的初始图像块。在预处理的过程中,通过位置聚类,获得到锚点的空间位置信息。

S2:全切片图像特征编码:对初始图像块构建全切片特征并进行随机掩盖后,筛选出未被掩盖的图像特征块输入至编码器;编码器由多个编码模块串联而成,编码模块根据所述图像块的空间位置信息进行注意力加权计算,并生成加权后的编码结果。

具体的,输入全切片的图像块,图像块采用256×256像素的图像,使用DINO框架,映射为de维特征向量。为全切片添加空间位置均匀的锚点特征向量,并为所有图像块添加上空间位置信息。随机移除一部分图像块特征及相应位置信息。将剩余图像块特征、相应位置信息及锚点特征输入全切片特征编码器。

S3:初始化掩盖的图像块特征,在每一个被掩盖的位置随机初始化一个特征向量;并根据位置信息与所述编码结果进行结合;将结合后的图像块特征输入至解码器后得到解码结果。

S4:根据初始图像块和解码结果计算重建损失,进行模型预训练。

为了进一步实施上述方案,还包括S5:预训练结束后,进行参数微调:提取预训练好的编码器框架网络参数,作为全切片特征提取器;输入全切片图像,将编码器提取的特征和全切片标签输入分类器,通过交叉熵损失函数训练网络。

为了进一步实施上述方案,编码模块由依次连接的第一归一化层、交叉注意计层、第二归一化层和多层感知机构成;所述交叉注意力层根据经第一归一化层输出的相对距离矩阵和角度矩阵进行注意力计算。

图像块特征和锚点特征进行注意力计算的数据流分别表示为:

其中,K

n个编码输出的图像块特征,

为了进一步实施上述方案,多个串联的编码模块的特征处理过程中,在输入下一个编码模块前进行核重定向,每个锚点特征根据各方向注意力得分进行排序,并选取得分最高的方向为新一轮主方向,进而更新所有图像块方向信息。

具体的,核重定向的步骤包括:获取角度矩阵和锚点特征的注意力矩阵;通过锚点特征的注意力矩阵对角度矩阵进行加权,统计各个角度的注意力得分并进行排序,选取最高得分作为角度更新的主方向,得到更新角度;将角度矩阵与更新角度做差,得到新的角度矩阵。

实施例2

基于相同的发明构思,本发明实施例提供一种基于自监督学习的病理全切片特征提取网络模型,包括输入层、编码器、解码器和输出层;输入层接收全切片图像,并生成图像块;图像块依次经过编码器和解码器进行编码和解码后通过输出层输出全切片特征;编码器由多个编码模块串联而成,编码模块根据图像块的空间位置信息进行注意力加权计算,并生成加权后的编码结果。编码模块包括依次连接的第一归一化层、交叉注意计层、第二归一化层和多层感知机;解码器由多个解码模块串联而成,解码模块与编码模块网络结构相同。

本发明能充分利用无标注数据进行预训练,学习图像本身的语义表征;本方法设计了一种基于全切片的空间方位感知的交叉注意力模块,可以充分捕获变化尺度下的图像特征,同时结合锚点主方向更行策略,实现自适应契合全切片各向同性的性质;本方法同时提出一种重建全切片特征的预训练任务,在不使用任何标注信息的前提下,充分挖掘全切片本身包含的潜在语义特征,从而辅助模型学习的特征更加有效地解决特定下游应用任务。相比于现有的弱监督方法,本专利的方法,可以充分利用大量未标注数据挖掘语义信息,在仅使用少量标注数据微调的情况下取得更佳性能,相比于现有的自监督学习方法,本专利的方法考虑到全切片的空间位置信息以及各向同性特点,提出基于位置感知的交叉注意力模块和锚点主方向更新模块,取得了更加优越的性能,其中,性能的评价标准包括接收者操作特征曲线下面积(Area Under Curve,AUC)和准确率(Accuracy,ACC)。

具体如表1所示。

表1全切片分类结果

本方法是一种自监督学习,仅需要使用少量的标注信息就可以完成高精度的分类任务。基于多示例学习的转换器(Transformer based Multiple instance learning,TransMIL)和核注意力转换器(Kernel Attention Transformer,KAT)为弱监督学习方法,掩盖自编码器(Masked Autoencoders,MAE)和层次图像金字塔变换器(HierarchicalImage Pyramid Transformer,HIPT)为自监督学习方法,本发明方法在两个数据集上与现有方法进行了对比,分别才有35%标注数据训练和100%标注数据训练的条件下,本专利提出的方法均取得了最佳效果。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种基于离线编程的工件自动打磨加工方法
  • 一种AI自动加工编程处理方法
  • 一种榴弹数控机床加工自动编程系统及编程方法
技术分类

06120116544713