内窥镜影像识别方法、电子设备及存储介质

文献发布时间：2023-06-19 11:57:35

技术领域

本发明涉及医疗设备成像领域，更具体地，涉及基于深度学习的内窥镜影像识别方法、电子设备及存储介质。

背景技术

胶囊内窥镜是检查患者消化道疾病的有效诊疗工具，其中集成有摄像头、LED灯、无线通信模块等器件。在检查时，患者吞下胶囊内窥镜，胶囊内窥镜在消化道中行进的同时拍摄图像，以及将图像传送至患者体外。对胶囊内窥镜采集的图像进行分析以识别消化道中的病灶。与传统的内窥镜检查相比，胶囊内窥镜的优点是对患者造成的痛苦程度小，并且可以对整个消化道进行检查，作为革命性的技术突破已经获得了越来越广泛的应用。

胶囊内窥镜在检查过程中采集大量的图像（例如，几万张图像），对图像的阅片工作变得艰巨且耗时。随着技术的发展，利用图像处理和计算机视觉技术进行病灶识别获得了广泛的关注。然而，在现有的内窥镜影像识别方法中，经由卷积神经网络对胶囊内窥镜采集的每张图像进行病灶识别并获得诊断结果。即使内窥镜影像识别方法的正确率高达90%，对于患者消化道采集的大量图像而言，任意一张图像的病灶识别结果错误均会产生错误的病例诊断结果。

因此，仍然期待进一步改进内窥镜影像识别方法，以提高基于大量图像的病例诊断的准确度。

发明内容

为解决上述技术问题，本发明的目的在于提供一种内窥镜影像识别方法、电子设备及存储介质，其中，在对多张原始图像按照单张图像进病种预测之后，基于病种预测结果对测试样本集的多个图像特征进行病种识别准确度。

根据本发明的第一方面，提供一种内窥镜影像识别方法，包括：采用第一神经网络模型，对多张原始图像分别进行多个病种类别的病种预测；基于所述多张原始图像的病种预测结果，建立所述多个病种类别的测试样本集，每个测试样本集包括预定数量原始图像的图像特征；采用第二神经网络模型，对所述多个病种类别的测试样本集分别进行病种识别；以及对所述多个病种的病种识别结果进行叠加以获得病例诊断结果；其中，所述第二神经网络模型对所述测试样本集中的多个图像特征进行加权组合以获得所述病种识别结果。

优选地，所述第一神经网络模型为卷积神经网络模型，所述卷积神经网络模型输入所述多张原始图像的单张图像，输出所述多个病种类别的图像特征和分类概率。

优选地，所述第二神经网络模型为循环神经网络模型，所述循环神经网络模型输入所述测试样本集中的多个图像特征，输出与所述测试样本集相对应的病种识别结果。

优选地，所述第二神经网络模型包括：第一全连接层，将所述测试样本集中的多个图像特征分别进行降维处理；双向长短期记忆层，对经过降维处理的多个图像特征分别按照前向和后向预测隐藏状态；以及注意力机制，将所述多个图像特征的隐藏状态加权组合成最终特征，其中，所述第二神经网络模型基于所述最终特征获得病种识别结果。

优选地，所述第一全连接层包括多个全连接单元，所述多个全连接单元分别对相应一个图像特征进行降维处理。

优选地，所述双向长短期记忆层包括多个前向长短期记忆单元和多个后向长短期记忆单元，所述多个前向长短期记忆单元分别对相应一个图像特征进行前向预测，所述多个后向长短期记忆单元分别对相应一个图像特征进行后向预测。

优选地，所述加权组合包括对所述多个图像特征的隐藏状态加权求和，所述多个图像特征的权重系数表示对相应病种类别的病种识别影响。

优选地，所述多个图像特征的权重系数如下式所示：

其中，

优选地，建立所述多个病种类别的测试样本集的步骤包括：对于所述多个病种类别中的不同病种类别，分别从所述多张原始图像中选择所述分类概率最高的预定数量原始图像的图像特征形成测试样本集。

优选地，所述预定数量是2~128的范围内的任意整数。

优选地，所述多张图像采用以下任意一种内窥镜采集获得：光纤内窥镜、主动式胶囊内窥镜、被动式胶囊内窥镜。

根据本发明的第二方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求任意一项所述基于深度学习的内窥镜影像识别方法中的步骤。

根据本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述权利要求任意一项所述基于深度学习的内窥镜影像识别方法中的步骤。

根据本发明实施例的内窥镜影像识别方法、电子设备及存储介质，采用第一神经网络模型进行病种预测，以及采用第二神经网络模型进行病种识别，在第二神经网络中，对测试样本集中的多个图像特征进行加权组合以获得病种识别结果，因而可以提高病种识别准确度。进一步地，基于多个病种类别相对应的多个测试样本集，获得多个病种识别结果，对多个病种类别的识别结果进行叠加以获得病例诊断结果。

在优选的实施例中，第二神经网络模型包括双向长短期记忆层，用于对于多个图像特征分别按照前向和后向预测隐藏状态，组合前后时刻的图像特征一起进行病种识别，因而可以进一步提高病种识别准确度。

在优选的实施例中，每个测试样本集包括预定数量原始图像的图像特征，例如2-128个原始图像，因而可以兼顾病种识别准确度和病种类别的计算时间。

附图说明

图1示出胶囊内窥镜系统的结构示意图。

图2示出胶囊内窥镜的一种实例的示意性截面图。

图3和图4分别示出根据本发明实施例的内窥镜影像识别方法的流程图和示意性框图。

图5示出根据本发明实施例的内窥镜影像识别方法中的第一神经网络模型的示意性框图。

图6示出根据本发明实施例的内窥镜影像识别方法中的第二神经网络模型的示意性框图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

图1示出胶囊内窥镜系统的结构示意图。胶囊内窥镜系统例如包括主机104、磁球105、三轴位移底座106、磁球支架107、以及无线接收装置108。

磁球支架107包括连接三轴位移底座106的第一端和连接磁球105的第二端。三轴位移底座106例如可以沿彼此垂直的三个坐标轴平移。磁球支架107随着三轴位移底座106一起平移，并且允许磁球105相对于磁球支架107在水平面和垂直面内旋转。例如，采用电机和丝杠驱动三轴位移底座106的平移，采用电机和皮带驱动磁球105的旋转。因而，磁球105可以在五个自由度上姿态变化。磁球105例如由永磁体组成，包括彼此相对的N极和S极。在磁球105的姿态变化时产生位置和方位相应变化的外磁场。

在检查过程中，患者101吞下胶囊内窥镜10，例如平躺在床102上。胶囊内窥镜10沿着消化道行进。如下文所述，胶囊内窥镜10的内部包括永磁体。主机104向三轴位移底座106和磁球支架107发送操作指令，从而控制磁球105的姿态变化。磁球105产生的外磁场作用于永磁体上，因而可以控制胶囊内窥镜10在患者消化道中的位置和方位。胶囊内窥镜10在消化道中行进的同时拍摄图像，以及将图像传送至患者体外的无线接收装置108。主机104与无线接收装置108相连接，用于获取胶囊内窥镜10采集的图像，以便于对图像进行分析而识别消化道中的病灶。

图2示出胶囊内窥镜的一种实例的示意性截面图。胶囊内窥镜10包括壳体11、以及位于壳体11内的电路组件。

壳体11例如由塑料等高分子材料组成，并且包括透明的端部，用于提供照明光路和拍摄光路。电路组件包括沿着壳体11的主轴依次排列的影像传感器12、第一电路板21、永磁体15、电池16、第二电路板22、以及无线发射器17。影像传感器12与壳体11的透明端部相对，例如安装在第一电路板21的中间位置上。第一电路板21上还安装有围绕影像传感器12的多个LED 13。第二电路板22上安装无线发射器17。第一电路板21和第二电路板22之间经由柔性电路板23连接，并且二者之间夹持永磁体15和电池16。采用柔性电路板23或附加的电路板提供电池16的正极和负极接触。

进一步地，电路组件还可以包括固定连接在第二电路板22上的限位块18，用于卡合柔性电路板23或者卡合壳体11。

在胶囊内窥镜10的拍摄状态下，多个LED 13点亮，经由壳体端部提供照射光，影像传感器12经由壳体端部获取患者消化道的影像。该影像数据经由柔性电路板23传送至无线发射器17发送至患者体外的无线接收装置108，使得主机104可以获取图像进行病灶分析。

图3和4分别示出根据本发明实施例的内窥镜影像识别方法的流程图和示意性框图。

在图1所示的胶囊内窥镜系统中，利用磁球控制胶囊内窥镜的位置和方位，胶囊内窥镜采集患者消化道不同位置和方位的大量原始图像，主机进一步执行图3所示的内窥镜影像识别方法以获得病例诊断结果。上述胶囊内窥镜系统包括主动式胶囊内窥镜用于采集消化道影像，仅为获取原始图像的一种方式，在其他实施例中，原始图像可以是通过光纤内窥镜获取的消化道影像，还可以是通过被动式胶囊内窥镜采集的消化道影像等。

在步骤S01中，采用第一神经网络模型，对原始图像的单张图像进行病种预测，以获得原始图像的病种类别的图像特征和分类概率，其中该分类概率指的是该单张图像被识别为不同病种对应的概率。在该实施例中，第一神经网络模型例如是卷积神经网络（缩写为CNN）模型。

参见图5，第一神经网络模型例如包括多个卷积层、至少一个池化层、至少一个全连接层和至少一个归一化指数层（例如，softmax层）。在卷积神经网络模型中，采用卷积运算可以提取图像的不同特征。多个卷积层可以依次提取低级图像特征和高级图像特征。池化层对图像特征（即低级图像特征和高级图像特征）进行下采样，从而压缩图像特征的数据和参数，同时保持图像特征的不变性。全连接层的每一个节点与上一层的所有节点相连，用来把上一层提取到的最终特征（即经过下采样的图像特征）综合起来进行分类。归一化指数层用于将上一层（例如，全连接层）的输出映射到（0，1）区间内的概率值，从而获得相应病种的分类概率。可以理解，第一神经网络模型可以经过标注的训练样本集训练得到。将检查过程中采集的原始图像的单张图像作为第一神经网络模型的输入，从池化层提取图像特征，从归一化指数层计算出分类概率。

本发明的内窥镜影像识别方法不限于特定的卷积神经网络（CNN）模型，可以采用Resnet、Densenet、MobileNet等常用的网络模型。例如，本申请人在中国专利申请202110010379.4中公开了可以应用于该步骤的卷积神经网络模型。如上所述，在患者的检查过程中，胶囊内窥镜可以采集到几万张原始图像。第一神经网络模型的输入为至少一部分原始图像的单张图像，对单张图像进行处理以获得相应的病种类别和分类概率。病种类别包括糜烂、出血、溃疡、息肉、隆起、毛细血管扩张、血管畸形、憩室、寄生虫中的至少一种。在该实施例中列举了共9个病种类别，可以理解，第一神经网络模型可以识别的病种类别的数量与训练样本集相关，本发明不限于特定数量的病种类别。

在步骤S02中，对于不同病种类别，分别从原始图像中选择病种分类概率最高的多张图像的图像特征形成测试样本集。

对于多个病种类别，按照分类概率对已经进行病种预测的多个原始图像排序，选择相应病种类别的分类概率最高的原始图像的图像特征组成各自的测试样本集。其中，测试样本集中的图像特征优选为池化层输出的图像特征。每个病种类别的测试样本集中的图像数量S例如是2~128的范围内的任意整数，从而兼顾病种识别准确度和病种识别的计算时间。在该实施例中，病种类别的数量N=9，每个病种类别的测试样本集的图像数量S=10。再其他实施例中，病种类别的数量以及每个病种类别的测试样本集可按照实际需要进行调整。

例如，参见图4所示，将采集图像输入第一神经网络模型（即卷积神经网络模型）进行病种预测。第一神经网络模型针对每张采集图像进行处理，并根据每张采集图像的图像特征，得到该采集图像被判断为不同病种类别对应的概率。据此，可以得到被分类到类别1的采集图像，图像1、图像2、图像3......图像M，并按照分类概率由高到低的顺序选择图像样本，得到图像3、图像M、图像2......图像S。其他类别的处理与类别1类似，在此不再赘述。基于选择的图像样本，第一神经网络模型输出图像样本对应的图像特征，并形成测试样本集。

在步骤S03中，采用第二神经网络模型，对多个病种的测试样本集分别进行病种识别。第二神经网络模型例如是循环神经网络（缩写为RNN）模型。

对于多个病种类别的各个测试样本集，第二神经网络模型基于多张原始图像中提取的图像特征的测试样本集进行病种识别，即基于第一神经网络模型输出的测试样本集，以提高病种识别的准确度。参见图4，例如，第一神经网络模型选取的疑似糜烂图像的概率最高的S张图像，并将该S张图像的每张图像中提取的疑似类别1（例如糜烂）的图像特征作为测试样本集，将测试样本集输入到第二神经网络模型，第二神经网络模型可以确认是否真的患有类别1的疾病（例如糜烂类型的疾病），其他类型疾病以此类推。

在步骤S04中，对多个病种的识别结果进行叠加以获得病例诊断结果。

经过上述的病种预测和病种识别步骤，对患者的检查过程中采集的海量原始图像进行处理可以获得多个病种的识别结果，进行叠加以获得病例诊断结果。在一具体实施例中，该病例诊断结果是患者的病灶包括9个病种类别的一种或多种。例如，对于上述9个病种类别，如果出血和息肉两个病种类别的识别结果是有病灶，且其他病种类别的识别结果是没有病灶，则病例诊断结果是叠加后的全部病种类别，即患者存在着出血和息肉这两个病种类别的病灶。

下文结合图6，对根据本发明实施例的内窥镜影像识别方法中的第二神经网络模型进行详细描述。

第二神经网络模型是循环神经网络模型(RNN)。循环神经网络模型是以序列数据作为输入的递归神经网络。如图所示，第二神经网络模型例如包括至少一个第一全连接层、至少一个双向长短期记忆（缩写为LSTM）层、注意力机制、至少一个第二全连接层、以及至少一个归一化指数层（例如，softmax层）。

第一神经网络模型的病种预测获得的单个病种类别的测试样本集作为第二神经网络模型的输入。测试样本集包括从多个原始图像获取的多个图像特征。

第一全连接层包括多个全连接单元，多个全连接单元分别对相应一个图像特征进行降维处理，即多个全连接单元分别将高维度的多个图像特征进行降维处理以获得低维度的多个图像特征。

双向长短期记忆层包括多个前向长短期记忆单元和多个后向长短期记忆单元，用于对于多个图像特征分别按照前向和后向预测隐藏状态。其中，多个前向长短期记忆单元分别对相应一个图像特征进行前向预测，多个后向长短期记忆单元分别对相应一个图像特征进行后向预测。

本发明的发明人注意到，医生在根据消化道影像（尤其是连续拍摄的消化道影像）进行阅片诊断时，不仅会参考前一时刻拍摄的图像，还会参考后一时刻拍摄的图像，结合前后时刻的图像一起进行诊断。现有的胶囊内窥镜影像处理方法中的循环神经网络模型采用单向长短期记忆层，因此只能依据前一时刻的输入来预测下一时刻的输出，而不能基于采集的图像获得准确的病种识别结果。与现有的循环神经网络模型不同，本发明的循环神经网络模型采用双向长短期记忆层，组合前后时刻的图像特征一起进行病种识别。

在双向长短期记忆层中，每个前向长短期记忆单元的输入为已经降维的相应一个图像特征，输出为相应一个隐藏状态。其中，前向长短期记忆单元对输入的图像特征按输入顺序从前往后计算。每个后向长短期记忆单元的输入为已经降维的相应一个图像特征，输出为相应一个隐藏状态。其中，后向长短期记忆单元对输入的图像特征按输入顺序从后往前计算。计算如下式所示：

其中，

进一步地，将每个图像特征相对应的前向长短期记忆单元和后向长短期记忆单元的输出叠加成各自的隐藏状态H，如下式所示：

其中，

因而，双向长短期记忆层可以获得与多个图像特征相对应的多个隐藏状态。

第二神经网络模型的注意力机制用于将多个图像特征的隐藏状态加权组成最终特征。

每个图像特征的权重系数表示对病种识别的影响，如下式所示：

其中，

多个图像特征的隐藏状态加权组合以获得最终特征T，如下式所示：

进一步地，第二全连接层将上一层提取到的最终特征T综合起来进行分类。归一化指数层用于将上一层（即第二全连接层）的输出映射到（0，1）区间内的概率值，从而获得每个最终特征T分类到不同病种类别的概率，即病种类别疑似概率，再根据病种类别疑似概率得到病例诊断结果，并输出。

第二神经网络模型基于多张原始图像的图像特征的测试样本集进行病种识别，从而确认病种类别疑似概率最高的多张原始图像是否真的包含病灶。

进一步的，本发明一实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述基于深度学习的内窥镜影像识别方法中的步骤。

进一步的，本发明一实施方式提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述基于深度学习的内窥镜影像识别方法中的步骤。

综上所述，本发明的基于深度学习的内窥镜影像识别方法、电子设备及存储介质，在对原始图像的单张图像进病种预测之后，基于病种预测结果选择多张图像进行加权组合以提高病种识别准确度，对多个病种类别的识别结果进行叠加以获得病例诊断结果。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

以上所描述的装置实施方式仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张行;龚强;袁文金;张皓;
专利申请人：安翰科技(武汉)股份有限公司;

上一篇：靶机的创建方法以及网络攻防训练系统
下一篇：光网络单元带宽管理方法、装置、电子设备及存储介质