掌桥专利:专业的专利平台
掌桥专利
首页

医学图像感兴趣区域可视化方法、装置、存储介质和设备

文献发布时间:2023-06-19 10:29:05


医学图像感兴趣区域可视化方法、装置、存储介质和设备

技术领域

本发明涉及图像数据分析技术,尤其涉及一种医学图像感兴趣区域可视化方法、装置、存储介质和设备。

背景技术

目前基于深度学习,尤其是卷积神经网络(Convolution neural network,CNN)的图像分类方法是图像分析领域的主流研究方法之一,且已在多种应用场景中取得很好效果,但是在细粒度图像分类任务中,CNN等深度学习算法的性能仍有待提升。以基于大脑结构磁共振图像的精神疾病分类任务为例,由于大脑的解剖结构较为复杂,精神疾病对大脑结构的影响相对较为细微,同时与肿瘤、脑卒中等具有确切病灶的疾病不同,精神疾病对大脑的影响往往分布于大脑中的多个位置,因此对于精神疾病的诊断任务而言,全脑结构磁共振图像具有大量的冗余信息,因此直接将全脑结构磁共振图像作为深度学习模型的输入,很难实现精神疾病的精确诊断。

针对此问题,目前最新的研究提出利用先验信息,定位出特定图像区域,该特定图像区域根据先验被认为是与分类标签高度相关的图像区域,如痴呆症诊断任务中的大脑磁共振图像中的海马体区域、汽车品牌分类任务中的车标区域等。将定位区域作为图像块提取出来,作为深度学习模型的输入,进行分类。这种策略可以很大程度上减少原始图像中的冗余信息,从而提升分类精度。但上述策略存在四个问题:1)需要预先人工定义图像感兴趣区域,对于一些难分类的图像(如精神分裂症患者的大脑结构磁共振图像)很难预先精确定义哪些特定的图像区域发生病变;2)对于不同图像,很难确定包含感兴趣区域的图像块的大小,因此感兴趣区域可能超出预定义图像块的范围,或包含在多个图像块中,因此造成分类相关特征的缺失或割裂;3)定义好感兴趣区域后,在每个图像数据上提取感兴趣区域,需要目标检测算法的协助,因此目标检测算法的精度将极大地决定后续分类模型的性能;4)预定义的感兴趣区域彼此之间可能存在关联,因此直接提取出感兴趣区域进行分类,将导致这种潜在关联信息的丢失,从而没有实现数据的有效利用。

深度学习分类模型的一个弊端在于其难解释性,即很难给出模型进行推理判断具体依据哪些特征。为解决此问题,目前最新的研究采用类别激活图(Class activationmap,CAM)和基于梯度的类别激活图(Gradient-based CAM,Grad-CAM)的策略,即利用网络模型全连接层的神经元权重、或各通道特征图的平均值为网络每个通道的梯度激活情况进行加权,得到模型对于每幅输入图像的特定类别标签的响应情况,以此来可视化深度学习模型对图像的哪些区域做出较大响应。目前,CAM和Grad-CAM广泛应用于图像处理的各个领域,但此类方法需要利用深度神经网络模型中下采样得到的特征图上的梯度激活情况,因此可视化过程中需要大比例的上采样操作,因此得到的类别激活图较为模糊,如果应用场景需要精细的解释(如医学影像分析中需要接近体素级别的可视化),CAM类方法无法得到较为精细的可视化结果。

综上,现有技术的模型对图像局部信息和整体信息的融合差,对图像的分类速度和精确低;对于制定类别的感兴趣区域可视化结果精细度不高。亟需一种对图像分类及感兴趣区域可视化的高速、高精度方法。

发明内容

为了克服现有技术的不足,本发明的目的在于提供一种医学图像感兴趣区域可视化方法、装置、存储介质和设备,其能解决上述问题。

本发明的目的采用以下技术方案实现。

一种医学图像自动分类及感兴趣区域可视化方法,方法包括:

步骤1,建立分类模型;

步骤2,从训练数据中的一个原始图像上任意位置随机提取一个任意尺寸的图像块作为模型的输入进行训练;

步骤3,将步骤2中的原始图像整幅作为模型的输入进行训练,获匹配该图像块的类别标签并确定相应的权值;

步骤4,改变步骤2中原始图像的选取位置,提取任意尺寸的图像块作为模型的输入进行训练;

步骤5,再将步骤2中的原始图像整幅作为模型的输入进行训练;

步骤6,重复步骤4和步骤5,选取的图像块的位置遍历整个原始图像,通过迭代训练学习图像全局及不同位置的局部纹理信息,获得训练好的生成器;

步骤7,验证测试,加载所述训练好的生成器,从原始图像中随机取T个图像块,使采样得到的图像块集合可以有重叠地覆盖整幅图像,通过融合每个图像块中的激活图,得到原始图像X针对类别标签c的感兴趣区域激活图L

步骤8,通过原始图像X的感兴趣区域激活图L

优选的,在步骤1中,采用卷积神经网络作为分类模型。

优选的,图像块尺寸采用正方体尺寸块。

优选的,训练标签采用精神疾病标签类别,模型输出为健康、精神分裂症、和双相情感障碍。

优选的,疾病标签类别c,神经网络对于相应图像块的感兴趣区域激活图l

式中:f

优选的,原始图像X的感兴趣区域激活图L

式中:l

本发明还提供了一种识别医学图像的装置,所述装置包括:

图像获取模块,用于获取医学图像;

图像处理模块,通过图像处理方法对医学图像进行初步处理为便于学习的二值化图像;

区域提取模块,对处理后的二值化图像进行形态学随机块选取处理以得到感兴趣区域;

可视化分类标识,通过前述方法训练的卷积神经网络模型对感兴趣区域进行识别。

本发明还提供了一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述的方法。

本发明还提供了一种电子设备,设备包括:处理器和存储器;所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实施前述的方法。

相比现有技术,本发明的有益效果在于:1.利用特定的训练策略,实现模型对图像局部信息和整体信息的融合,实现图像的快速、精确分类;

2.提供一种新的深度学习可视化方法,可以实现相比现有方法更加精细的对于指定类别的感兴趣区域可视化结果。

附图说明

图1为本发明图像分类及可视化系统的训练及测试示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

若附图中存在方框图,所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

在详细阐述本发明的实施例的技术方案之前,以下介绍一些相关的技术方案、术语和原理。

卷积神经网络(Convolutional NeuralNetwork,CNN)

CNN是一种多层监督学习神经网络,用来处理图像相关的机器学习问题。

典型的CNN由卷积层(Convolution)、池化层(Pooling)和全连接层(FullyConnection)组成。其中,低隐层一般由卷积层和池化层交替组成,卷积层的作用是通过卷积运算使图像的原信号特征增强并降低噪音,池化层的作用在于根据图像局部相关性的原理减少计算量同时保持图像旋转不变性。全连接层位于CNN的高层,其输入是由卷积层和池化层进行特征提取得到的特征图像,输出可连接分类器,通过采用逻辑回归、Softmax回归、或者是支持向量机(Support VectorMachine,SVM)对输入图像进行分类。

CNN的训练过程一般采用梯度下降法最小化损失函数,通过全连接层后连接的损失层,对网络中各层的权重参数逐层反向调节,并通过频繁的迭代训练提高网络的精度。CNN的训练样本集通常由形如“输入向量,理想输出向量”的向量对构成,在开始训练前,网络所有层的权重参数可以用一些不同的小随机数进行初始化。由于CNN本质上可视为一种输入到输出的映射,能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确数学表达式,因此可以用已知向量对组成的训练样本集对CNN加以训练,使其具有输入输出对之间的映射能力。

Softmax层

Softmax函数将多个标量映射为一个概率分布,其输出的每一个值范围在(0,1)。softmax函数经常用在神经网络的最后一层,作为输出层,进行多分类。

残差神经网络(ResidualNeuralNetwork,ResNet)

CNN的典型网络结构包括ResNet、AlexNet、VGGNet、GoogleNet、SENet等。

与其他网络结构相比,ResNet最大的不同在于,其可以设置旁路支线将输入直接连到网络后面的层中,使网络后面的层也可以直接学习残差。这种方式能够解决传统CNN在信息传递时,或多或少会丢失原始信息的问题,从而保护数据的完整性。

ImageNet数据集

ImageNet数据集是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。

ASAP(Automated Slide Analysis Platform,自动切片分析平台)

ASAP是一个集成了浏览、标记等功能的组织病理学WSI(Whole Slide Image,全切片图像)分析的开源平台。ASAP基于多个成熟的开源软件包,如OpenSlide、Qt和OpenCV等搭建。

TensorFlow

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。

TFRecord数据格式

TFRecord是一种数据格式,可以允许将任意的数据转换为TensorFlow所支持的格式,其可以使TensorFlow的数据集更容易与网络应用架构相匹配。

PNPoly算法

本算法是由W.Randolph Franklin提出的。算法的思路如下:从待测点出发作一条射线,然后判断这条射线与不规则区域的交点数量。如果点的两边交点的个数都是奇数个则该点在多边形内,否则在多边形外。这个算法对于任意不规则图形都适用。

以下对本发明实施例的技术方案的原理和实现细节进行详细阐述。

一种医学图像自动分类及感兴趣区域可视化方法,以基于大脑结构磁共振图像的精神疾病诊断任务为例,方法具体如下。

使用卷积神经网络(CNN)作为分类模型,模型的训练过程中,采用多尺度输入数据进行训练,即训练数据包括两部分:1)原始图像,2)由原始图像上随机取得的图像块。

对于每个训练数据,首先从图像上任意位置随机提取一个图像块(如48×48×48)作为模型的输入进行训练,再将整幅图像作为模型的输入进行训练。

由于每个训练数据要参与模型训练的多次迭代(实验中设定为2000次,可根据实际情况进行调整),图像块的采样位置可以遍历整幅图像,因此模型可以学习到图像不同位置的局部纹理信息;而由于未裁剪过的原始图像也作为输入训练数据,因此模型也可以学习到图像的整体信息。根据上述描述,模型训练过程中,随机提取的图像块和原始图像交替作为模型的输入,通过上述训练策略,模型可以综合学习来自图像不同尺度的输入信息,得到针对精神疾病大脑变化模式的更加可靠的判断。训练标签采用精神疾病标签类别,即模型输出为健康、精神分裂症、双相情感障碍等。

当模型训练结束后,对于任意测试图像,将其输入模型中,即可得到模型对于疾病标签的预测结果。

对于训练完成的模型,既可以像上述一样输入整幅图像作为测试图像,也可以输入图像块(如48×48×48),得到该图像块区域上的疾病预测结果。对于疾病标签类别c,可以通过下式计算神经网络对于该图像块的感兴趣区域激活图l

上式中,f

根据上述计算,测试阶段输入模型的每一个图像块都可得到对应的激活情况。从原图像中随机取T个图像块(实验中T=2000),使采样得到的图像块集合可以有重叠地覆盖整幅图像。通过融合每个图像块中的激活图,即可得到原始图像X针对类别标签c的感兴趣区域激活图L

上式中,l

根据上述计算,得到的原始图像X的感兴趣区域激活图可以实现神经网络对于输入测试图像各个类别的激活情况,标记出了神经网络的感兴趣区域,提供了一种神经网络的可视化方法,可以为后续分析,以及感兴趣区域的定位、再分类提供依据,同时相较现有的CAM类方法保留了更多的细节。

具体地,模型的训练过程如图1所示。分类网络为一深度卷积神经网络,其网络结构主要包括5层卷积核尺寸为3×3×3、步长为1的卷积层,每层卷积层后包括一层批归一化层、一层ReLU激活函数层、以及一层池化核尺寸为2×2×2、步长为2的最大池化层,每经过一组卷积层、批归一化层、激活函数层和池化层的处理,特征图尺寸减半、通道数加倍,最终输出128维向量,经一层全连接层处理,输出n维向量(n为待分类样本集合的类别数)。

模型的损失函数采用神经网络算法中常用的交叉熵损失函数,优化方式采用自适应矩估计算法,学习率设为1e-4,模型参数通过梯度下降法更新。

效果测试:

训练得到的图像分类器及可视化系统,在搭载CentOs 6.5系统的Intel(R)Xeon(R)CPU E5-2670v22.50GHz处理器上,利用Pytorch搭建模型并测试,可在0.1秒内实现单幅图像的标签判断,对采集自不同中心的3200例大脑磁共振结构像数据上测试,得到5类精神疾病的分类准确率为85%;同时对可视化得到的感兴趣区域进行皮层特征提取,提取得到的特征使用线性SVM进行分类测试,得到的结果相比于无感兴趣区域先验、直接全脑皮层提取特征作为线性SVM输入的分类精度提升了10%。

特殊说明:

1、网络结构方面,分类网络的网络结构不局限于前述描述的结构,可以包括但不限于ResNet、DenseNet、LSTM、GRU等;

2、分类模型训练阶段,输入模型的图像块固定尺寸不局限于前述提到的48×48×48尺寸,还可为其他尺寸;

3、分类模型训练阶段,输入模型的图像块不局限于固定尺寸,也可使用可变尺寸图像块作为输入,即以多种尺寸的图像块对模型进行训练;

4、损失函数部分,不局限于前述的交叉熵损失函数,也可为Focal loss、BCEloss等分类损失函数。

5、本发明以磁共振结构图像为例进行讲解,但其适用对象包括但不限于其余模态的医学影像、遥感图像、显微镜切片图像、自然图像等

6、本发明构建一种图像分类及感兴趣区域可视化方法。该方法首次利用特定的训练策略,实现模型对图像局部信息和整体信息的融合,实现图像的快速、精确分类

7、本发明提供一种新的深度学习可视化方法,可以实现相比现有方法更加精细的对于指定类别的感兴趣区域可视化结果

本发明还提供了一种识别医学图像的装置,所述装置包括:

图像获取模块,用于获取医学图像;

图像处理模块,通过图像处理方法对医学图像进行初步处理为便于学习的二值化图像;

区域提取模块,对处理后的二值化图像进行形态学随机块选取处理以得到感兴趣区域;

可视化分类标识,通过前述方法训练的卷积神经网络模型对感兴趣区域进行识别。

本发明还提供了一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述的方法。

本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现前述方法的各个步骤。

本发明还提供了一种电子设备,设备包括:处理器和存储器;所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实施前述的方法。

方法可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请方法、装置和设备中限定的各种功能。

综上所述,

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 医学图像感兴趣区域可视化方法、装置、存储介质和设备
  • 医学图像中确定感兴趣区域的方法、装置、设备及介质
技术分类

06120112567186