消化道内窥镜图片多标签分类系统

文献发布时间：2023-06-19 12:22:51

技术领域

本申请涉及一种消化道内窥镜图片多标签分类系统，属于医学图像智能处理技术领域。

背景技术

根据全球的癌症统计数据显示，发病率排名前10的肿瘤中有4个来自消化道。包括消化道良性、癌前性和恶性疾病在内的消化道疾病正在严重威胁着患者的生活质量和生命安全，造成了巨大的卫生负担。消化道肿瘤在我国的各类恶性肿瘤中发病率也处于首位。由于消化道内窥镜技术在消化道癌症诊断方面效果显著，已被推荐为消化道癌症的主要诊断方法。具体来说，消化道内窥镜检查可以直接探及消化道内的病变组织区域，以供医疗人员作出相应的诊断，在消化道内窥镜下可以做组织活检对早期的消化道癌前疾病或者是癌前病变的诊断及鉴别良性恶性溃疡都有重要作用。

但是，由于人为因素例如医生的经验水平不一致，或者疏忽等特殊特殊情况会直接影响最后的消化道癌症诊断情况。同时，面对呈指数增长的医学图片，依靠人眼观察消化道内窥镜图片会耗费大量的时间，造成速度慢，效率低，并且漏检的情况时有发生。

虽然目前已经出现利用人工智能图像识别对消化道内窥镜图片进行分类的技术，可以提高医生的诊断效率，但现有技术在图像分类往往是只是对消化道内窥镜图片进行单分类，即给定一张消化道内窥镜图片，预测出此图片所属的一个典型的疾病类别。而在现实当中，消化道的病症往往不是单一的，比如胃炎容易并发胃溃疡病，胃穿孔和胃出血又会是溃疡病患者严重的并发症，一张消化道内窥镜图片可以诊断出不止一种病症。这就需要消化道内窥镜图片多标签分类技术，然而多标签分类具有更高的技术难度，并且由于消化道内窥镜图片的多标签分类需要具有较高的预测准确率以防止误诊和漏诊的发生，目前的消化道内窥镜图片的多标签分类方法不适用于对大量的消化道内窥镜图片进行分类。

因此，人们期望获得一种技术方案，能够利用人工智能图像识别技术对海量的消化道内窥镜图片进行多标签分类，并且适用于消化道内窥镜病症的场景，可以捕捉到不同疾病类别之间的相互关系，具有较高的预测准确率。

发明内容

本申请提供了一种消化道内窥镜图片多标签分类系统，可以使用训练后的模型进行消化道内窥镜图片多标签分类，且具有良好的预测精准度，可以实现消化道内窥镜图片的自动诊断。本申请提供如下技术方案：

提供一种消化道内窥镜图片多标签分类系统，其包括：

收集和预处理模块，用于获取消化道内窥镜样本图片并预处理，得到处理后的样本图片；

模型构建模块，用于构建预设的分类模型，所述预设的分类模型包括特征抽取网络，与所述特征抽取网络相连的疾病类别依赖关系捕捉网络，与所述疾病类别依赖关系捕捉网络相连的预测网络，所述特征抽取网络抽取样本图片特征，所述疾病类别依赖关系捕捉网络由深度自注意力变换网络构成，捕捉样本图片中疾病类别之间的依赖关系并输出类别特征，所述预测网络解码类别特征，输出样本图片的分类预测；

模型训练模块，用于将所述处理后的样本图片输入所述预设的分类模型，并使用预设的损失函数对所述预设的分类模型进行训练，得到多标签分类模型；

分类模块，用于利用所述多标签分类模型对输入的消化道内窥镜图片进行多标签分类；

其中所述深度自注意力变换网络至少包括用于获取序列特征的多头注意力部分、用于非线性变换的前馈传播部分和用于归一化的加和标准化部分，前馈传播部分位于多头注意力部分之后，在前馈传播部分和多头注意力部分的输出位置分别构建加和标准化部分。

可选地，其中所述对消化道内窥镜样本图片预处理包括：缩放裁剪处理、去均值处理、归一化处理之一或其任意组合。

可选地，其中所述特征抽取网络为以下网络中的一种：卷积神经网络、全连接神经网络、深度自注意力变换网络。

可选地，其中在将样本图片特征输入疾病类别关系捕捉网络前，复制样本图片特征为C份，其中C为总类别个数。

可选地，其中所述疾病类别依赖关系捕捉网络由一层或多层结构深度自注意力变换网络构成。

可选地，其中所述类别预测网络由一层或多层全连接层组成。

可选地，其中所述类别预测网络的数量与总类别数一致，且每个类别预测网络的结构相同。

可选地，其中所述预设的损失函数为：

其中，N为输入的样本数，C为总类别个数，

本申请的有益效果至少包括：提供了一种新颖的消化道内窥镜图片多标签识别的神经网络框架，利用训练后的模型对输入的消化道内窥镜图片进行多标签分类，可以解决人工进行消化道内窥镜图片疾病分类时效率较低、且现有多标签模型不适用于消化道内窥镜图片诊断场景的问题；通过利用深度自注意力变换网络来捕捉疾病之间的依赖关系，使得消化道内窥镜图片多标签分类方法具有较高的预测精度水平。另外，在识别过程中不需要人工参与，减少人为因素的同时，可以为医生提供高效的诊断参考。

上述本申请的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

通过结合附图对于本申请的示例性实施例进行描述，可以更好地理解本申请，在附图中：

图1是本申请一个实施例提供的消化道内窥镜图片多标签分类方法的流程图。

图2是本申请一个实施例提供的深度自注意力变换网络示意图。

图3是本申请一个实施例提供的对消化道内窥镜图片预处理并利用特征抽取网络抽取图片特征的示意图。

图4是本申请一个实施例提供利用深度自注意力变换网络捕捉疾病类别之间的依赖关系的示意图。

图5是本申请一个实施例提供的胃炎预测网络解码类别特征的示意图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述，以令本领域技术人员参照说明书文字能够据以实施。

需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请的内容不充分。

深度自注意力变换网络是近几年在深度学习领域提出的新型神经网络模型，目前主要被应用于自然语言处理领域中的机器翻译。深度自注意力变换网络中抛弃了传统的神经网络模型结构，只使用了注意力机制来实现，因此深度自注意力变换网络是一个完全基于注意力机制的编码解码模型。并且在深度自注意力变换网络中引入了自注意力这一概念，深度自注意力变换网络的整个架构就是叠层的自注意层和全连接层。深度自注意力变换网络的优势在于能够捕捉特征之间关系，并且适合长距离捕捉，使得全局信息可以很容易地通过深度自注意力变换网络得到。另外，与递归神经网络的隐藏状态必须依次计算相比，深度自注意力变换网络的自注意层和全连接层的输出可以并行计算，容易加速，因此效率更高。在消化道内窥镜图片分类问题中，一张消化道内窥镜图片往往包含多个疾病类别标签，而不同的疾病之间往往存在着某种隐含的依赖关系，比如胃炎容易并发胃溃疡病，胃穿孔和胃出血又会是溃疡病患者严重的并发症，它们的同时出现往往具有更高的概率，所以捕捉不同疾病类别之间的依赖关系是获得高精度预测水平重要的一环。本发明创新地利用深度自注意力变换网络来捕捉疾病类别之间的依赖关系，训练后的模型具有较高的预测精度水平。

图2中深度自注意力变换网络是捕捉疾病类别之间依赖关系的基础组件，通过堆叠的方式来捕捉疾病类别之间依赖关系。每层深度自注意力变换网络至少包括用于获取序列特征的多头注意力部分、用于非线性变换的前馈传播部分和用于归一化的加和标准化部分，前馈传播部分位于多头注意力部分之后，在前馈传播部分和多头注意力部分的输出位置分别构建加和标准化部分。

图1是本申请一个实施例提供的消化道内窥镜图片多标签分类系统的框图。该系统至少包括以下几个模块：

收集和预处理模块110，用于获取消化道内窥镜样本图片并预处理，得到处理后的样本图片。

首先收集用于模型训练的消化道内窥镜图片，并且为了更好的抽取消化道内窥镜图片特征，对消化道内窥镜图片预处理，预处理包括：缩放裁剪处理、去均值处理、归一化处理之一或其任意组合。缩放裁剪处理用于将输入图片处理成固定的尺寸。去均值处理是指在图片的RGB未读上减去数据对应维度的统计平均值，以消除公共的部分、凸显个体之间的特征和差异。归一化处理是指将模型输入的数值限制在[0，1]之间，以加快模型收敛速度。

模型构建模块120，用于构建预设的分类模型，所述预设的分类模型包括特征抽取网络，与所述特征抽取网络相连的疾病类别依赖关系捕捉网络，与所述疾病类别依赖关系捕捉网络相连的预测网络，所述特征抽取网络抽取样本图片特征，所述疾病类别依赖关系捕捉网络由深度自注意力变换网络构成，捕捉样本图片中疾病类别之间的依赖关系并输出类别特征，所述预测网络解码类别特征，输出样本图片的分类预测。

预处理后的图片输入特征抽取网络获得图片特征，其中，特征抽取网络可由各种神经网络结构实现，本实施例不对特征抽取网络的具体结构作限定。

示意性地，参考图3，原始的消化道内窥镜图片在经过预处理后被裁剪成统一的尺寸384*384，然后将预处理后的图片输入特征抽取网络，其中特征抽取网络由12层深度自注意力变换网络组成，最终获得一个768维的图片特征向量。

胃部疾病之间常常存在一些依赖关系，比如胃炎容易并发胃溃疡病，胃穿孔和胃出血又会是溃疡病患者严重的并发症。采用深度自注意力变换网络能够很好的捕捉疾病类别之间关系，进而实现更好的多标签分类效果。为了能够使用深度自注意力变换网络捕捉病症之间关系，要将图片特征复制为C份，其中C为总类别个数。

示意性地，参考图4，假设一个多标签分类任务包括5个疾病类（C=5），分别为胃炎、胃癌、胃溃疡、胃出血，胃穿孔，那么要将步骤S102抽取的768维图片特征向量复制为5份。

将C个特征输入深度自注意力变换网络，深度自注意力变换网络内部的注意力机制能够自动学习不同类别之间的依赖关系并输出各个类别的类别特征。其中，深度自注意力变换网络可以采用一层或多层结构来捕捉疾病类别之间依赖关系，本实施例不对捕捉疾病类别之间依赖关系中深度自注意力变换网络堆叠的层数取值作限定。

示意性地，参考图4，将复制的5份特征向量输入4层深度自注意力变换网络，获得5个仍为768维的类别特征向量，类别特征向量中已融合了疾病类别之间的依赖关系信息。

在获得类别特征之后，需要使用类别预测网络对类别特征进行解码。其中，类别预测网络共有C个，每个疾病类别对应一个专属的预测网络，负责解码对应的类别特征，类别预测网络接收类别特征作为输入，经过解码输出一个2维向量，分别是输入的消化道内窥镜图片属于对应疾病类别的概率值和不属于对应疾病类别的概率值。其中，所有类别预测网络具有相同的结构，类别预测网络的结构可由一层或多层全连接神经网络实现，本实施例不对预测网络中全连接堆叠的层数取值作限定。

示意性地，在疾病类别依赖关系捕捉网络获取了5个类别特征，则需要5个类别预测网络对每个类别特征进行分别解码，分别为胃炎预测网络、胃癌预测网络、胃溃疡预测网络、胃出血预测网络、胃穿孔预测网络。参考图5，为胃炎预测网络解码类别特征示意图，胃炎预测预测网络接收对应的类别特征作为输入，预测输出属于胃炎类别的概率为0.7，不属于胃炎类别的概率为0.3。

模型训练模块130，用于将所述处理后的样本图片输入所述预设的分类模型，并使用预设的损失函数对所述预设的分类模型进行训练，得到多标签分类模型。

模型训练过程包括：将消化道内窥镜样本图片进行预处理并输入特征抽取网络抽取样本图片特征，接着利用深度自注意力变换网络捕捉样本图片的疾病类别之间依赖关系输出类别特征，利用预测网络解码类别特征得到消化道内窥镜样本图片的类别预测信息，按照公式构建损失函数，进行模型训练。

可选地，在训练过程中，设置批大小为8，初始学习率为0.00001，采用Adam优化器，在其它实施方式中，模型训练时对应的超参数也可以不同，批大小和初始学习率也可以为其它值，本实施例不对训练过程中的各个参数取值作限定。

在模型训练过程中使用交叉熵作为损失函数，公式如下：

其中，N为输入的样本数，C为总类别个数，

分类模块140，用于利用所述多标签分类模型对输入的消化道内窥镜图片进行多标签分类。

将需要进行多标签分类的消化道内窥镜图片输入训练后的模型进行处理，训练后的模型具有良好的识别精度，可以用于对输入的消化道内窥镜图片多标签分类。

综上所述，本实施例提供的消化道内窥镜图片多标签分类系统，提供了一种新颖的消化道内窥镜图片多标签识别的神经网络框架，利用训练后的模型对输入的消化道内窥镜图片进行多标签分类，可以解决人工进行消化道内窥镜图片疾病分类时效率较低、且现有多标签模型不适用于消化道内窥镜图片诊断场景的问题；通过利用深度自注意力变换网络来捕捉疾病之间的依赖关系，使得消化道内窥镜图片多标签分类方法具有较高的预测精度水平。另外，在识别过程中不需要人工参与，减少人为因素的同时，可以为医生提供高效的诊断参考。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本申请的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。

因此，本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本申请，并且存储有这样的程序产品的存储介质也构成本申请。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本申请的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：戴捷;李亮;
专利申请人：紫东信息科技(苏州)有限公司;

上一篇：一种检测方法和温度检测系统
下一篇：一种储能系统调频控制方法、终端及计算机可读存储介质