掌桥专利:专业的专利平台
掌桥专利
首页

基于复习网络的内窥镜影像报告生成方法及存储介质

文献发布时间:2023-06-19 19:27:02


基于复习网络的内窥镜影像报告生成方法及存储介质

技术领域

本发明涉及人工智能技术领域,具体涉及一种基于复习网络的内窥镜影像报告生成方法及存储介质。

背景技术

如何通过医疗科技和人工智能减轻医生的负担,改善患者就医体验,是医疗科技企业孜孜以求的目标。内窥镜可以经口腔进入胃内或经其他天然孔道进入体内,可以看到X射线不能显示的病变,对常规肠胃疾病的治疗乃至早期癌症的诊断有重要意义。通常在患者进行影像扫描后,医生会出具一份包含患者基本信息,病史,影像学表现、影像学诊断的影像报告,对于经验丰富的医生,一天书写数百份报告无疑是巨大负担,而对于占大部分人口的经济较为落后区域,难以找到优秀的医生书写详尽的报告,为患者治疗提供足够的进一步治疗指导。

发明内容

本发明提出的一种基于复习网络的内窥镜影像报告生成方法,提供一种能够自动读取内窥镜检查图像并生成语义通顺、描述较为准确符合医疗行业语言的影像报告的生成方法、装置、计算机设备和存储介质。它能够很好地适应于肠胃等不同的内窥镜检查环境,从而实现在各种环境下依然可以进行准确的影像报告自动生成。

为实现上述目的,本发明采用了以下技术方案:

一种基于复习网络的内窥镜影像报告生成方法,包括以下步骤,

S1、下载并处理预训练数据,获取他们的标签;

S2、利用前述数据集预训练骨干分类RESNET网络,获得适合内窥镜图像的初始参数;

S3、用正式数据集和前步获得的骨干分类RESNET网络,训练目标检测与特征提取网络N1;

S4、利用目标检测与特征提取网络N1训练加入了复习网络模块的自注意力文本生成网络;

S5、训练文本特征提取网络与注意力机制网络及视觉门控网络;

S6、将步骤s4,s5的网络联合,形成完整模型在新的内窥镜数据上进行生成报告。

进一步的,所述预训练的骨干分类RESNET网络采用残差神经网络RESNET-50,包含了49个卷积层、一个全连接层;Resnet50网络结构分成七个部分,第一部分不包含残差块,对输入进行卷积、正则化、激活函数、最大池化的计算;

第二、三、四、五部分结构都包含了残差块,在Resnet50网络结构中,残差块都有三层卷积,网络的输入为224×224×3,经过前五部分的卷积计算,输出为7×7×2048,第六部分池化层会将其转化成一个特征向量,最后一部分分类器会对这个特征向量进行计算并输出类别概率。

进一步的,所述正式训练集来自系统配套的存储系统,图片被重新压缩为224×224的彩色图像,其文本将经过包括去除数字,特殊符号这些处理,最后采用词嵌入技术获得各个单词的向量表示。

进一步的,所述目标检测与特征提取网络N1采用FASTER-RCNN网络,它包括:

卷积特征提取层骨架网络,采用前述RESNET 50作为卷积层骨干,它将使用一系列卷积,relu函数非线性输出以及池化生成该图像的特征图,该特征图被共享用于后续建议层和全连接层;

区域建议网络;该网络用于生成目标所在区域的建议;该层首先通过全连接层和逻辑回归函数判断该区域有没有目标,而后进行精细调整获得目标位置;

池化层;该层收集输入的特征图和区域讲义,综合这些信息后送入后续全连接层判定目标类别;

分类层,利用池化层传来的信息计算这个区域的类别,同时再次使用全连接层精修目标位置,获得精确的位置四元组(x

进一步的,所述步骤S4中复习网络模块包括一个双层长短期记忆网络为核心融合两个注意力模块与视觉门控模块,而后整合到一套以全连接层为基础的复杂网络中,为每一个句子设置一个特殊的结束标志Sstop,当第二层遇到Sstop时生成结束,在训练网络之前,预先将训练文本集中的单词经过词嵌入转化为词向量,训练时LSTM1子模块负责在每一步接收编码器输出的图像特征与解码器输出的本次文本特征,LSTM1子模块的初始化也通过全局平均图像特征完成;

还包括LSTM2子模块负责接收来自低层子模块带有权重的,视觉、文本综合向量,来自复习模块下方的自注意力网络解码器输出经由全连接层的softmax函数处理后生成一个新的权重向量作为自注意力解码阶段的实际输出,与编码的输入结合构成自注意力三个分量进行下一步运算。

进一步的,所述S1、下载并处理预训练数据,获取他们的标签,具体包括:

接收任一内窥镜检测图像输入I,并经由一系列算法生成语义通顺满足设定要求的报告Y=(y

进一步的,所述S2、利用前述数据集预训练骨干分类RESNET网络,获得适合内窥镜图像的初始参数,具体包括:

首先将每张图片配套的文本使用NLM Medical Text Indexer提取其关键词,而后筛选出频率最高的1000个关键词充当分类标签,将对应的图片分到该类别下构建多类别分类预训练数据集,同时保证同一张图片不出现在不同类别里,这样预训练集构建完成,而后用RESNET50在预训练集上基于前述生成的标签类别在输出端使用进行单标签分类训练,获得RESNET50适用于医学图像的参数权重存于存储器中用于后续特征提取的预训练参数。

进一步的,所述S3、用正式数据集和前步获得的骨干分类RESNET网络,训练目标检测与特征提取网络N1,具体包括:

进行视觉特征的提取,规格化为224×224×3的正式训练集图像I首先经过FASTER-RCNN网络生成一系列目标区域框,将图片在各自目标区域框内的各个像素点数字化后经平均池化到统一的固定维度d,表示为向量组V=(V

采用目前的标准方案训练FASTER RCNN,用非极大值抑制方法,将重合度高于设定要求的候选目标区域框删除,最终的的损失函数是:

其中

这里p

获得这些数据后在输入自注意力网络之前先进行一次几何注意力训练,将经过几何注意力的结果作为自注意力网络输入层嵌入的一部分参与整个自注意力网络的训练,这里对于两个视觉目标(m,n),有:

m=(X

it=softmax(WΩ+b)其中W与b都是可训练的参数最终生成的参数向量i维度与视觉目标个数相同,最后生成一系列基于几何位置注意力权重的新输入向量组(t

Multihead(Q,K,V)=Concat(head

进一步的,所述S4中复习网络模块包括联合注意力模块:

在attend模块中首先生成文本指导的视觉注意力参数,有

然后采用一个外置矩阵将

另一方面,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。

由上述技术方案可知,本发明的基于复习网络的内窥镜影像报告生成方法,应用于服务器系统中,该系统连接有医学影像存储库与内窥镜检查系统,包括以下步骤:获取并处理预训练数据;预训练分类模型获得适合内窥镜图像的初始参数;用正式数据集训练目标检测与特征提取网络,训练加入了复习网络模块的自注意力文本生成网络,模型在新的内窥镜数据上进行推理生成。这里本装置直接连接内窥镜影像设备,并通过USB实时将数据发送到处理器中。

与千奇百怪的自然图像不同,内窥镜图像模式较为单调,他们的影像报告也在很大程度上较为相似,因此可以认为图像之间存在一些相对固定的模式,复习网络就是发掘利用这些模式,在生成本次报告时适当参考以往信息,结合文发明和图像,利用一个注意力机制实现特征融合,利用长短期记忆网络实现对以往生成过程的复习,最后将复习模块融入自注意力网络的解码器中,实现端到端学习。

所述模型在预训练阶段采用多标签分类方式,学习、集成了性能优良的多实例医学图像标注数据集,这是一个从权威的医学期刊和医学教科书中提取的包含一系列染色、组织类型和病理的密集诊断和形态学描述,提供多角度密集监督,专为计算机辅助病理学设计的数据集,本数据集包含15164个图片-文本对,有的文本对应了多张图片。同时对于所有处理后的文本,采用词嵌入技术获得各个单词的向量表示。视觉特征提取器基于预训练过的RESNET 50为骨架构建FASTER RCNN目标检测网络提取视觉特征向量,文本特征提取器则每次都同时接收来自下层解码器的本次输入和整体的上次输出,这个输出可以使跨图片的,训练循环神经网络学会医学影像报告这种特殊文本的内在语言逻辑。融合器的融合思路是利用注意力机制在语言模型的基础上指导模型下一步应当关心哪些视觉特征,同时采用采用视觉门控机制让模型在适当的情况下忽略视觉特征而更关注语言模型本身。

总的来说,本发明在生成报告方面采用了深度学习目前最流行的框架transformer用于充分发掘输入图像特征的关系,在视觉特征提取方面则采用了经相关领域数据集预训练过,获得良好初始权重的FASTER-RCNN检测框架用于提取高质量的视觉概念并采用了复习模块用于兼顾当前正在查看的图片与过去查看的图片间的关系,在复习模块中使用了注意力机制动态调整过去的知识与现在输入模型的新知识的权重关系,从而更加智能的模仿专业医生的学习、检测过程,生成质量更高的内窥镜报告。

附图说明

图1是本发明的总体结构示意图;

图2是本发明实施例的视觉特征提取网络骨干RESNET50的示意图;

图3是本发明实施例的复习模块构成图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

如图1所示,本实施例所述的基于复习网络的内窥镜影像报告生成方法,包括以下步骤:

S1、下载并处理预训练数据,获取他们的标签;

S2、利用前述数据集预训练骨干分类RESNET网络,获得适合内窥镜图像的初始参数;

S3、用正式数据集和前步获得的骨干网络,训练目标检测与特征提取网络N1;

S4、利用N1网络训练加入了复习网络模块的自注意力文本生成网络;

S5、训练文本特征提取网络与注意力机制网络及视觉门控网络;

S6、将s4,s5的网络联合,如图一所示形成完整模型在新的内窥镜数据上进行推理生成。

其中,所述模型在预训练阶段采用多标签分类方式,学习、集成了性能优良的多实例医学图像标注数据集,即所述预训练数据是一个从权威的医学期刊和医学教科书中提取的包含一系列染色、组织类型和病理的密集诊断和形态学描述,它涵盖的任务丰富,包括分类检测描述等;包括的图片内容广泛包括癌症,糖尿病的细胞等,配套说明详细包括详细说明不同来源的转移癌症,总体来看它拥多实例图像注释、多标签分类,专为计算机辅助病理学设计的数据集,为计算机辅助病理学设计的数据集,本数据集包含15164个图片-文本对,有的文本对应了多张图片;对于所有处理后的文本,采用词嵌入技术获得各个单词的向量表示。

所述预训练的分类模型采用残差神经网络RESNET-50,他的结构如图1所示,包含了49个卷积层、一个全连接层。Resnet50网络结构可以分成七个部分,第一部分不包含残差块,主要对输入进行卷积、正则化、激活函数、最大池化的计算。第二、三、四、五部分结构都包含了残差块,在Resnet50网络结构中,残差块都有三层卷积,网络的输入为224×224×3,经过前五部分的卷积计算,输出为7×7×2048,第六部分池化层会将其转化成一个特征向量,最后一部分分类器会对这个特征向量进行计算并输出类别概率。

所述正式训练集来自系统配套的存储系统,为了后续方便,图片必须被重新压缩为224×224的彩色图像,其文本将经过标准处理,包括去除数字,特殊符号等,最后采用词嵌入技术获得各个单词的向量表示。

所述目标检测与特征提取网络采用FASTER-RCNN网络如附图2所示,它包括:一、卷积特征提取层骨架网络,作为一种卷积神经网络网络目标检测方法,本方法对FASTER RCNN的实现采用前述RESNET 50作为卷积层骨干,它将使用一系列卷积,relu函数非线性输出以及池化生成该图像的特征图,该特征图被共享用于后续建议层和全连接层。二、区域建议网络(Region Proposal Networks)。该网络用于生成目标所在区域的建议。该层首先通过全连接层和逻辑回归函数判断该区域有没有目标,而后进行精细调整获得目标位置。三、池化层。该层收集输入的特征图和区域讲义,综合这些信息后送入后续全连接层判定目标类别。四、分类层,利用池化层传来的信息计算这个区域的类别,同时再次使用全连接层精修目标位置,获得精确的位置四元组(x

复习网络模块由一个双层长短期记忆网络为核心融合两个注意力模块与视觉门控模块组成,而后整合到一套以全连接层为基础的复杂网络中,如附图3所示,这里为每一个句子设置一个特殊的结束标志Sstop,当第二层遇到Sstop时生成结束,在训练网络之前,预先将训练文本集中的单词经过词嵌入转化为词向量,训练时LSTM1子模块负责在每一步接收编码器输出的图像特征与解码器输出的本次文本特征,LSTM1子模块的初始化也通过全局平均图像特征完成。测试时则选用上次判断后最有把握的词输入。LSTM2子模块负责接收来自低层子模块带有权重的,视觉、文本综合向量,来自复习模块下方的自注意力网络解码器输出经由全连接层的softmax函数处理后生成一个新的权重向量作为自注意力解码阶段的实际输出,与编码的输入结合构成自注意力三个分量进行下一步运算。

进一步,在新的数据集上推理,这里本装置直接连接内窥镜影像设备,并通过USB实时将数据发送到处理器中,处理器首先对收到的数据进行类似于前述的预处理,而后进行推理生成报告并与图像一同展示以供医生辅助诊疗。

现在结合附图对模型处理的具体细节做进一步阐述,重点是算法公式推导与模型训练过程。

如附图1所示,本方法接收任一内窥镜检测图像输入I,并经由一系列算法生成语义通顺合乎逻辑的报告Y=(y

而后进行视觉特征的提取,规格化为224×224×3的正式训练集图像I首先经过FASTER-RCNN网络生成一系列目标区域框,将图片在各自目标区域框内的各个像素点数字化后经平均池化到统一的固定维度d,表示为向量组V=(V

采用目前的标准方案训练FASTER RCNN,用非极大值抑制方法,将重合度太高的候选目标区域框删除,最终的的损失函数是:

这里p

获得这些数据后在输入自注意力网络之前先进行一次几何注意力训练,将经过几何注意力的结果作为自注意力网络输入层嵌入的一部分参与整个自注意力网络的训练,这里例如对于两个视觉目标(m,n),有:m=(X

接下来是复习网络模块的核心:联合注意力模块如图3所示:

在这里

又一方面,本发明所采用的技术装置包含以下几个模块:

预训练模块,用于让resnet50获得适用于医学图像的特征,即教会卷积神经网络“看懂”医学图像。

正式训练数据获取模块,在这里正式获取处理所有正式训练使用的数据,包括图像与文本。

视觉特征检测提取模块,获取特征图,获取目标未知参数,获取表示目标的特征向量

文本指导下的视觉注意力与几何注意力模块、视觉门控模块、自注意力训练文本生成模块:这三个模块整合成一个,负责接收前面的视觉特征和预处理过的单词向量,经一系列机制生成目标报告。

本发明所采用硬件设备是一种基于复习网络的自注意力多模态深度学习的内窥镜影像报告生成方法计算机装置有以下几个组件:第一:存储器和处理器,所述存储器存储有计算机程序以及必要的预训练数据与结果,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。第二:保证计算机正常启动运行所必须的其他硬件设备如控制器,输出装置等。

又一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述任一方法的步骤。

再一方面,本发明还公开一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述任一方法的步骤。

在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一方法的步骤。

可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。即上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种基于复习网络的自注意力多模态深度学习的内窥镜影像报告生成方法:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种基于神经网络多模态深度学习的内窥镜影像报告生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120115917847