掌桥专利:专业的专利平台
掌桥专利
首页

一种医疗图像的分析方法及存储介质

文献发布时间:2024-04-18 20:02:18


一种医疗图像的分析方法及存储介质

技术领域

本发明涉及机器学习技术领域,尤其涉及一种医疗图像的分析方法及存储介质。

背景技术

诸如CLIP和ChatGPT等大模型是目前人工智能的研究热点。大模型,如其名,通常指包含大量参数的训练模型。它们具有强大的功能和灵活性,可以解决各种复杂的任务,从自然语言处理到复杂的游戏战略决策。这些大模型的好处在于其强大的泛化能力,可以从大量数据中学习并应用到各种不同的环境和任务中。

然而,在医疗图像与病例报告的多模态分析领域,大模型的训练和应用还有很大的探索空间。尽管有许多现存的模型都已经在该领域取得了一些进展,但对于特定任务而言,经过针对性训练的大模型可能会有更出色的表现。

CLIP (对比式语言-图像预训练) 是OpenAI提出的一种大规模多模态预训练方案。其核心准则是对图像和文本的配对处理,与之配套的进一步学习训练。在我方试验中,CLIP在零样本分类及图像文本检索方面展现出优越的性能。

在CLIP的基础上,微软研究院尝试利用大量PubMed Central文章里的图像-标题对来训练一个专注于生物医学领域的BiomedCLIP,通过精心设计的文本编码器和训练策略,BiomedCLIP在文本-图像检索、零样本分类、视觉问题回答等任务上均取得了优越性能。

发明内容

本发明提供一种医疗图像的分析方法及存储介质,用以解决现有病例分析不准确,训练成本高以及无法满足临床实际需求的问题。

为了解决上述技术问题,本发明公开了如下技术方案:

本发明提供一种医疗图像的分析方法,包括病例数据采集步骤,特征提取步骤以及模型训练步骤。

所述病例数据采集步骤用以采集至少一组病例数据,每一组病例数据包括彼此对应的一病例报告及一医疗图像;将同属一组的病例报告以及医疗图像记为第一文本图像对;所述特征提取步骤是利用文本编码器提取至少一病例报告的文本特征,利用图像编码器提取至少一医疗图像的图像特征;所述模型训练步骤是将N个文本特征和N个图像特征作为训练样本进行对比学习训练,N个文本特征和N个图像特征分别配对,预测N

进一步地,在所述病例数据采集步骤与所述特征提取步骤之间,还包括数据增强步骤,所述数据增强步骤是对每一组病例数据中的病例报告及医疗图像进行数据增强处理;随机选择被增强后的一病例报告及一医疗图像记为第二文本图像对。

进一步地,所述数据增强步骤包括图像裁剪步骤以及插值处理步骤。

所述图像裁剪步骤是在一医疗图像上随机选择一个矩形区域,裁剪出一个矩形图像,该矩形区域与该医疗图像的面积比在0.9-1.0之间,该矩形区域的长

宽比在0.75到1.33之间;所述插值处理步骤是将所述矩形图像的尺寸放大至与该医疗图像一致,将被裁剪的图像进行双三次插值处理,获得多个被增强的图像。

进一步地,所述数据增强步骤还包括翻译步骤,所述翻译步骤是利用GPT 3.5模型对病例报告进行翻译,改变随机种子翻译5次,获得5个英文文本。

进一步地,在所述特征提取步骤与所述模型训练步骤之间,还包括初始化步骤,所述初始化步骤是将BiomedCLIP大模型开源的预训练权重加载至未经训练的所述CLIP模型进行初始化处理。

进一步地,在所述模型训练步骤之后,还包括如下步骤文本构建步骤,图像采集步骤以及零样本分类步骤。

所述文本构建步骤是根据任务需求构建两种以上的描述文本,利用所述文本编码器提取每种描述文本对应的文本特征;所述图像采集步骤用以采集第二医疗图像,利用图像编码器提取该第二医疗图像的图像特征;所述零样本分类步骤是将所述描述文本对应的文本特征以及所述第二医疗图像的图像特征录入至所述CLIP模型,计算所述描述文本对应的文本特征以及所述第二医疗图像的图像特征的余弦相似度,余弦相似度最大的文本特征对应的类别即为所述第二医疗图像的分类结果。

进一步地,在所述零样本分类步骤之后,还包括病灶标记步骤以及报告生成步骤。

所述病灶标记步骤是基于CLIP Surgery方法,根据所述第二医疗图像的类别对所述第二医疗图像进行病灶标记;所述报告生成步骤是根据所述零样本分类步骤的分类结果,相似度最大的文本特征对应的描述文本即为所述第二医疗图像的文本描述,根据所述第二医疗图像的文本描述生成第二病例报告。

进一步地,在所述报告生成步骤之后,还包括二次翻译步骤,所述二次翻译步骤是利用Helsinki翻译模型将所述第二病例报告翻译为中文。

进一步地,所述文本编码器为自然语言处理模型;所述图像编码器为卷积神经网络模型或Vision Transformer模型。

本发明还提供一种存储介质,用以存储可执行程序代码;处理器用以读取所述可执行程序代码,以运行与所述可执行程序代码对应的计算机程序,以执行所述的医疗图像的分析方法中的至少一步骤。

与现有技术相比,本发明至少具备以下技术效果:

本发明提供一种医疗图像的分析方法,收集不同类型的医学图像数据和对应的病例报告,在特定任务上针对性进行微调训练,构建专注于该类型数据的多模态医疗大模型,以满足相应临床需求,实现更加精确的疾病诊断和评估;针对小数据集难以微调大模型的问题,我们设计了针对文本与图像配对数据的数据增强策略,同时利用BiomedCLIP进行迁移学习,实现对CLIP模型在特定医学领域的有效微调和应用;不仅实现了各个数据集上的疾病零样本分类与诊断,同时在病例报告生成、疾病相关区域标记任务也完成了有效性验证,病例分析准确,训练成本低,提高了本方法在实际临床场景下的应用价值,可以帮助医生和患者快速分析疾病类型、病变位置,并生成相应的病例报告。

附图说明

下面结合附图和具体实施例,对本发明的技术方案进行详细的说明。

图1为本发明实施例所述的一种医疗图像的分析方法流程图;

图2为本发明实施例所述的一种医疗图像的分析方法具体过程示意图;

图3为本发明实施例所述的模型训练步骤流程图;

图4为本发明实施例所述的医疗图像的分析方法的性能比较图;

图5为本发明实施例所述的BiomedCLIP的ROC曲线图;

图6为本发明实施例所述的医疗图像的分析方法的ROC曲线图;

图7为本发明实施例所述的医疗图像的分析方法的性能比较图;

图8为本发明实施例所述的医疗图像的分析方法的病灶标记图;

图9为本发明实施例所述的医疗图像的分析方法的病灶标记图;

图10为本发明实施例所述的存储介质与处理器的结构示意图。

图中部件标识如下:

20存储介质,21处理器。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1以及图2所示,本发明提供一种医疗图像的分析方法,包括步骤S1)病例数据采集步骤,步骤S2)数据增强步骤,步骤S3)特征提取步骤,步骤S4)初始化步骤,步骤S5)模型训练步骤,步骤S6)文本构建步骤,步骤S7)图像采集步骤,步骤S8)零样本分类步骤,步骤S9)病灶标记步骤,S10)报告生成步骤以及步骤S11)二次翻译步骤。

步骤S1)病例数据采集步骤,采集至少一组病例数据,每一组病例数据包括彼此对应的一病例报告及一医疗图像;将同属一组的病例报告以及医疗图像记为第一文本图像对。

步骤S2)数据增强步骤,对每一组病例数据中的病例报告及医疗图像进行数据增强处理;随机选择被增强后的一病例报告及一医疗图像记为第二文本图像对,以提高训练过程中数据的多样性,避免过拟合至第一文本图像对,进而提高模型的鲁棒性。

如图3所示,步骤S2)数据增强步骤具体包括步骤S21)图像裁剪步骤,步骤S22)插值处理步骤以及步骤S23)翻译步骤。

步骤S21)图像裁剪步骤,在一医疗图像上随机选择一个矩形区域,裁剪出一个矩形图像,该矩形区域与该医疗图像的面积比在0.9-1.0之间,该矩形区域的长宽比在0.75到1.33之间。

S22)插值处理步骤,将所述矩形图像的尺寸放大至与该医疗图像一致,将被裁剪的图像进行双三次插值处理,获得多个被增强的图像,插值后图片大小为224像素×224像素,在本实施例中,双三次插值处理是一种更加复杂的插值方式,它能创造出比双线性插值更平滑的图像边缘。 双三次插值方法通常运用在一部分图像处理软件、打印机驱动程序和数码相机中,对原图像或原图像的某些区域进行放大,双三次插值处理是一种成熟的现有技术,在此不再赘述。

步骤S23)翻译步骤,利用GPT 3.5模型对病例报告进行翻译,改变随机种子翻译5次,获得5个英文文本。

在本实施例中,通过步骤S2)数据增强步骤能够将一组医疗图像与病例报告转换为多个训练样本,而大模型的训练通常需要大量数据作为支撑,对于CLIP模型而言,原始模型收集了4亿个图像-文本对作为训练数据,然而在医学场景下,如此大规模的数据获取成本高昂,导致无法采用自然场景下的原始训练策略来训练医疗大模型,所述数据增强步骤有效的降低了训练成本。

步骤S3)特征提取步骤,利用文本编码器提取至少一病例报告的文本特征,利用图像编码器提取至少一医疗图像的图像特征,文本编码器为自然语言处理模型;所述图像编码器为卷积神经网络模型或Vision Transformer模型。

在本实施例中,CLIP模型分为两个关键组成部分来实现的,即文本编码器和图像编码器,它们分别从文本和图像中提取特征,文本编码器利用常见的自然语言处理(NLP)模型,图像编码器采用知名的卷积神经网络(CNN)或Vision Transformer来提取图像特征。

步骤S4)初始化步骤,将BiomedCLIP大模型开源的预训练权重加载至未经训练的所述CLIP模型进行初始化处理。

在本实施例中,BiomedCLIP是一种针对生物医学视觉语言处理的大模型。其从PubMed Central的生物医学研究文章中提取了包括MRI、CT、X光在内的1500万张图像及其标题,利用PubMed BERT、dropout、图像尺寸与batch size扩大等策略对生物医学VLP进行了领域专属的适配。BiomedCLIP在检索、分类和视觉问答等任务上取得了最佳性能,通过利用BiomedCLIP开源的预训练权重作为该模型初始化方式,以利用其在生物医学领域所获取的大量数据,进而为后续的训练提供有效的先验信息,有效减少了训练时所需要的样本,实现小数据集能够微调大模型,实现对CLIP模型在特定医学领域的有效微调和应用。

步骤S5)模型训练步骤,将N个文本特征和N个图像特征作为训练样本进行对比学习训练,N个文本特征和N个图像特征分别配对,预测N

在本实施例中,在N

余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间,本发明中的图像特征以及文本特征就是两个向量数据,具体计算过程现有技术已经非常成熟,在此不再赘述。

步骤 S6)文本构建步骤,根据任务需求构建两种以上的描述文本,利用所述文本编码器提取每种描述文本对应的文本特征。

步骤S7)图像采集步骤,采集第二医疗图像,利用图像编码器提取该第二医疗图像的图像特征。

步骤S8)零样本分类步骤,将所述描述文本对应的文本特征以及所述第二医疗图像的图像特征录入至所述CLIP模型,计算所述描述文本对应的文本特征以及所述第二医疗图像的图像特征的余弦相似度,余弦相似度最大的文本特征对应的类别即为所述第二医疗图像的分类结果。

在本实施例中,在胸片数据上,我们了构建了两条有关肺部纹理增强的描述文本,分别是『X-ray with no obvious abnormalities』以及『Increased lung markings』,这两条文本通过文本编码器得到对应的文本特征,同时把要预测的图像输入图像编码器得到图像特征,然后与这两条文本特征计算余弦相似度。相似度大的文本对应的类别即图像分类的结果。

对比BiomedCLIP而言,本发明的优势如图4-图6所示。

对于MRI颅脑平扫数据而言,我们了构建了两条有关是否存在疾病的描述文本,分别是『The cranial MRI scan did not show any apparent abnormalities』以及『Thecranial MRI scan show hydrocephalus, brain atrophy, enlargement ofventricular system, or other obvious abnormalities』,和胸片不同的是每个患者有不同模态的3D影像,我们对所有模态选取的slice逐一进行预测,若有一张被判断为正例,则该患者被判断为正例,否则该患者判断为负例。

对比BiomedCLIP而言,本发明的优势如图7所示。

步骤S9)病灶标记步骤,基于CLIP Surgery方法,根据所述第二医疗图像的类别对所述第二医疗图像进行病灶标记。

在本实施例中,CLIP Surgery方法主要由两部分组成:CLIP ArchitectureSurgery和CLIP Feature Surgery。前者通过v-v自注意力以及dual paths技术解决了原始CLIP关于“对立的可视化”的问题;而后者通过使用一个空字符串来消除无关和冗余的特征解决了"嘈杂的激活"问题,即背景区域的明显突出和噪音激活。利用这一技术,可以实现对于CLIP模型的可解释性分析和可视化,进而对疾病相关区域进行高亮和标记,标记结果如图8-图9所示。

步骤S10)所述报告生成步骤是根据步骤S8)零样本分类步骤的分类结果,相似度最大的文本特征对应的描述文本即为所述第二医疗图像的文本描述,根据所述第二医疗图像的文本描述生成第二病例报告。

步骤S11)二次翻译步骤,将所述第二病例报告利用Helsinki翻译模型翻译为中文,翻译为中文的第二病例报告能够帮助医生和患者快速分析疾病类型、病变位置,具有实际临床场景下的应用价值。

如图10所示,本发明还提供一种存储介质20,用以存储可执行程序代码;处理器21用以读取所述可执行程序代码,以运行与所述可执行程序代码对应的计算机程序,以执行所述的医疗图像的分析方法中的至少一步骤。

本申请的优点在于,本发明提供一种医疗图像的分析方法,通过收集不同类型的医学图像数据和对应的病例报告,在特定任务上针对性进行微调训练,构建专注于该类型数据的多模态医疗大模型,以满足相应临床需求,实现更加精确的疾病诊断和评估;针对小数据集难以微调大模型的问题,我们设计了针对文本与图像配对数据的数据增强策略,同时利用BiomedCLIP进行迁移学习,实现对CLIP模型在特定医学领域的有效微调和应用;不仅实现了各个数据集上的疾病零样本分类与诊断,同时在病例报告生成、疾病相关区域标记任务也完成了有效性验证,病例分析准确,成本低,提高了本方法在实际临床场景下的应用价值,可以帮助医生和患者快速分析疾病类型、病变位置,并生成相应的病例报告。

以上对本发明实施例所提供的一种医疗图像的分析方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。

相关技术
  • 一种图像指纹生成方法、图像相似度比较方法及存储介质
  • 一种图像处理方法、装置、设备、存储介质及直播方法
  • MRI图像的伪影去除方法、装置、医疗设备及存储介质
  • 一种图像拍摄方法、装置、设备及存储介质
  • 一种图像自动分割的方法、装置及计算机可读存储介质
  • 医疗图像分类模型的训练方法、系统、存储介质及医疗图像处理装置
  • 医学图像分析方法、医学图像分析系统以及存储介质
技术分类

06120116580932