掌桥专利:专业的专利平台
掌桥专利
首页

一种手术器械、行为和目标组织联合识别的方法及装置

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及医学图像处理领域,具体而言,涉及一种手术器械、行为和目标组织联合识别的方法及装置。

背景技术

手术器械、行为和目标组织的联合识别是进行手术场景解析的关键。手术器械的精准操作是手术安全性和效果的保证。器械作为引导手术的视频画面中最显著的目标,精准的器械识别是场景感知中的首要任务,也是对手术动作和目标组织进行判断的基础。手术行为识别,则是在器械识别的基础上,综合器械运动中涉及的目标组织和手术器械的运动情况,来对当前执行的具体手术操作进行精准判断。工作流程识别则是在具体的器械、手术行为上,在阶段层面对手术进行流程进行全局感知。通过对器械、行为和目标组织的联合识别,能在术中为外科医生提供充分的手术状况分析和手术决策支持,同时实现手术剩余时间的估计,为手术室内和手术室间的人员协调提供辅助,有效提高了腹腔镜微创手术的安全性和效率。在术后,精准的手术视频内容解析也极大程度地便利了相应的手术记录和教学。因此,提出高精度的手术器械、行为和目标组织的联合识别是实现计算机辅助干预微创手术的基础和关键。

针对手术场景感知问题,前人主要在腹腔镜胆囊切除术上进行了工作流程和手术器械等一系列单任务和多任务联合的识别工作。早期方法基于单张图像利用强度、梯度、形状、颜色和组织纹理等人工筛选的特征实现手术工作流和器械的识别。考虑到帧间相关性,有学者利用隐马尔科夫模型为代表的时间序列模型处理连续一段时间内的手术视频。随着深度学习方法在自然场景的广泛应用,Twinanda等人首次引入深层卷积网络EndoNet用于手术场景的深层视觉特征提取,同时延续了隐马尔科夫模型进行帧间相关信息的提取,使用两个独立的网络分别实现对工作流程和手术器械的分类识别。针对EndoNet独立处理时空特征的局限性,Jin等人利用长短时记忆网络作为一种有效的时间序列模型的特点,结合深度卷积网络构造的端到端网络首次提取到充分的时空融合特征用以实现工作流的识别。Alshirbaji等人将该方法迁移到器械识别任务上同样取得了超越前人方法的识别精度。

观察到手术场景中不同任务间的强关联关系,Jin等人提出一种基于联合损失函数的多任务手术器械和工作流联合识别网络。器械识别和工作流识别分支共享主干网络上的空间特征,在工作流任务分支上后接长短时记忆网络以融合时间维度上的动作信息,最后利用加权损失函数构造联合损失函数进行多任务网络训练。为了更丰富具体地解析手术场景中的关键内容,Nwoye等人构造了器械、动作和目标组织三类关键内容描述手术场景中的器械组织交互情况,并使用一种3D映射交互空间函数实现多任务联合学习。

前人围绕手术场景感知问题进行的工作流和器械识别工作大多使用通用的深度卷积网络进行视觉特征提取并利用全连接层实现相应类的识别。这些方法通过提取类别融合的全局特征实现对当前时刻空间特征的粗粒度描述,没有关注到腹腔镜中手术场景由于目标组织纹理高度相似、重叠和器械差异仅存在尖端等局部细节等特点所造成的丰富细粒度特征,同时也没有关注到手术场景中多器械同时出现时的多标签多目标问题。此外,现有围绕手术场景感知方面的研究主要从工作流和器械两方面任务,但缺乏更具体地描述手术动作的识别任务。多任务间的协同识别方法仅采用损失函数的简单加权平均,未能充分利用不同手术任务间的相关关系。

发明内容

本发明实施例提供了一种手术器械、行为和目标组织联合识别的方法及装置,以至少解决现有技术缺乏描述手术动作的识别任务的技术问题。

根据本发明的一实施例,提供了一种手术器械、行为和目标组织联合识别的方法,包括以下步骤:

利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦;

引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合;

通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。

进一步地,利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦包括:

利用基于通道注意力的多标签互通道损失作用于深度卷积网络对场景中的手术器械、行为和目标组织子任务提取出空间特征。

进一步地,利用基于通道注意力的多标签互通道损失作用于深度卷积网络对场景中的手术器械、行为和目标组织子任务提取出空间特征包括:

采用深度残差网络作为主干模块初步提取深层特征,再使用全局池化操作得到多维特征向量来构建子任务分支;

基于各任务的总类别数将对应的全局特征划分为类别对齐的特征组。

进一步地,采用深度残差网络作为主干模块初步提取深层特征,再使用全局池化操作得到多维特征向量来构建子任务分支包括:

首先采用由四个残差模块组成的五十层深度残差网络作为主干模块初步提起深层特征,再使用全局池化操作得到2048维的特征向量作为主干模块的输出;

采用1×1卷积操作将提取到的2048维特征向量变换到适应于各任务分支的通道数。

进一步地,基于各任务的总类别数将对应的全局特征划分为类别对齐的特征组包括:

腹腔镜胆囊切除术涉及目标组织15类,利用1×1卷积操作得到2040维度的全局特征F,将其划分为15组特征:

F={F

其中每组F

多标签互通道损失由区分性模块和多样性模块组成,在单个任务上分别作用于15组特征F之间和每组特征F

对于第i组特征F

其中W和H表示特征图的宽度和高度,F

输入图片对每个类别的最终响应Dis(F

其中y

多样性模块在每组特征F

当每张图上的平均响应计算后,多样性损失可通过下式计算得到:

完整的多标签互通道损失通过对多样性模块和区分性模块的加权和求得:

L

其中相应的权重根据特定任务的需求加以调节设定。

进一步地,引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合包括:

在各任务的细粒度视觉特征提取模块后通过一个单层的长短时记忆网络进行一段时间输入内的运动特征提取,得到512维时空融合特征并最终通过全连接层实现相应任务的识别。

进一步地,在视觉特征层面采用跳跃链接的方法实现级联式的有效视觉特征传递,其中长短时记忆网络的整体损失函数由视觉特征层级的互通道损失和时空融合特征得到分类结果的标准交叉熵损失加权组成。

根据本发明的另一实施例,提供了一种手术器械、行为和目标组织联合识别的装置,包括:

类别对齐的细粒度视觉特征提取模块,用于利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦;

时空特征融合模块,用于引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合;

多任务级联模块,用于通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。

一种存储介质,存储介质存储有能够实现上述任意一项手术器械、行为和目标组织联合识别的方法的程序文件。

一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的手术器械、行为和目标组织联合识别的方法。

本发明实施例中的手术器械、行为和目标组织联合识别的方法及装置,首先利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦;再引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合;而后通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。本发明通过对手术场景中局部多样性细粒度特征进行提取,实现更充分的空间特征描述,通过类别解耦实现外科手术中多器械、多目标情况下的精准识别,综合实现了精准具体的手术场景关键内容的自动实时解析。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明手术器械、行为和目标组织联合识别的方法的流程图;

图2为本发明手术器械、行为和目标组织联合识别的方法的多任务学习框架图;

图3为本发明手术器械、行为和目标组织联合识别的方法的多样性损失模块的作用原理图;

图4为本发明手术器械、行为和目标组织联合识别的装置的模块图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

手术场景感知是现代智能手术室在具备精密的硬件设备和丰富的实时传感信号条件下,面向信息综合化和智能化发展的一项重要任务。在内窥镜引导的计算机辅助微创手术中,通过对当前手术视野中关键信息的理解和处理,手术场景感知系统能够实时监控手术全流程并在任意时刻为外科医生提供具体的辅助信息。在以腹腔镜胆囊切除术为代表的微创手术中,体表的微小创口减轻了手术对病人的负担,但内窥镜成像视野的局限性为手术的操作引导造成了一定困难。具体地,内窥镜镜头的取景范围限制了医生的手术视野,腔内烟雾和画面反光也对医生视野形成了遮挡,有限视角下目标组织的纹理高度相似性和重叠也为医生对当前手术环境的判断造成了困难,都使得手术风险难以预知。因此,为了在保留微创手术优点的同时提高手术安全性,基于术中内窥镜获取的实时手术视频信号,对手术场景进行关键内容的识别与解析,为外科医生提供实时的手术监控和场景解析以提供辅助干预是现代手术室场景感知系统发展的关键技术。

实施例1

根据本发明一实施例,提供了一种手术器械、行为和目标组织联合识别的方法,参见图1,包括以下步骤:

S100:利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦;

S200:引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合;

S300:通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。

本发明实施例中的手术器械、行为和目标组织联合识别的方法,首先利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦;再引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合;而后通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。本发明通过对手术场景中局部多样性细粒度特征进行提取,实现更充分的空间特征描述,通过类别解耦实现外科手术中多器械、多目标情况下的精准识别,综合实现了精准具体的手术场景关键内容的自动实时解析。

其中,利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦包括:

利用基于通道注意力的多标签互通道损失作用于深度卷积网络对场景中的手术器械、行为和目标组织子任务提取出空间特征。

其中,利用基于通道注意力的多标签互通道损失作用于深度卷积网络对场景中的手术器械、行为和目标组织子任务提取出空间特征包括:

采用深度残差网络作为主干模块初步提取深层特征,再使用全局池化操作得到多维特征向量来构建子任务分支;

基于各任务的总类别数将对应的全局特征划分为类别对齐的特征组。

其中,采用深度残差网络作为主干模块初步提取深层特征,再使用全局池化操作得到多维特征向量来构建子任务分支包括:

首先采用由四个残差模块组成的五十层深度残差网络作为主干模块初步提起深层特征,再使用全局池化操作得到2048维的特征向量作为主干模块的输出;

采用1×1卷积操作将提取到的2048维特征向量变换到适应于各任务分支的通道数。

其中,基于各任务的总类别数将对应的全局特征划分为类别对齐的特征组包括:

腹腔镜胆囊切除术涉及目标组织15类,利用1×1卷积操作得到2040维度的全局特征F,将其划分为15组特征:

F={F

其中每组F

多标签互通道损失由区分性模块和多样性模块组成,在单个任务上分别作用于15组特征F之间和每组特征F

对于第i组特征F

其中W和H表示特征图的宽度和高度,F

输入图片对每个类别的最终响应Dis(F

其中y

多样性模块在每组特征F

当每张图上的平均响应计算后,多样性损失可通过下式计算得到:

完整的多标签互通道损失通过对多样性模块和区分性模块的加权和求得:

L

其中相应的权重根据特定任务的需求加以调节设定。

其中,引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合包括:

在各任务的细粒度视觉特征提取模块后通过一个单层的长短时记忆网络进行一段时间输入内的运动特征提取,得到512维时空融合特征并最终通过全连接层实现相应任务的识别。

其中,在视觉特征层面采用跳跃链接的方法实现级联式的有效视觉特征传递,其中长短时记忆网络的整体损失函数由视觉特征层级的互通道损失和时空融合特征得到分类结果的标准交叉熵损失加权组成。

下面以具体实施例,对本发明的手术器械、行为和目标组织联合识别的方法进行详细说明:

手术器械、行为和目标组织的联合识别是计算机辅助外科介入微创手术的关键技术。然而在腹腔镜有限视角下,目标组织的纹理相似性、器械尖端的相似结构以及手术阶段中重复的非特定行为动作等细粒度特点,都对这些关键手术内容的精准识别造成了困难。针对前人方法的现有缺点,本发明目的在于利用手术器械、目标组织和执行动作子任务的联合识别提供更精确具体手术场景解析方法。通过对手术场景中局部多样性细粒度特征进行提取,实现更充分的空间特征描述,通过类别解耦实现外科手术中多器械、多目标情况下的精准识别。

本发明提出一种基于多标签下互通道损失的手术器械、行为和目标组织联合识别的方法,主要用于以腹腔镜胆囊切除术为代表的计算机辅助外科微创手术中和术后场景和动作识别,致力于解决通过细粒度分类和多任务学习模型解决外科视频中关键全局和局部融合的视觉特征和长时间依赖关系下的动作特征的问题。本发明利用类别对齐的通道注意力机制实现视觉特征解耦,引入长短时记忆网络对场景中的动作信息进行时间特征提取,并以一种级联的方式实现多任务联合识别。经实验验证,本发明在单一任务和联合任务上均取得优于前人方法的良好识别结果。

本发明在多任务分支共享的类别对齐的细粒度视觉特征提取模块中,应用一种多标签的互通道损失函数实现通道上的特征类别对齐解耦,从而达到关注手术场景中多重局部细节的目的。在三个子任务分支,针对涉及连续时间内动作的任务后接长短时记忆网络模块以达到融合时空特征的目的。最后在多任务联合识别上,长短时记忆网络模块采用空间特征级联传递的方式强化器械呈现情况与组织行为交互的关系,综合实现了精准具体的手术场景关键内容的自动实时解析。

本发明的多任务学习框架如图2所示,主要包括类别对齐的细粒度视觉特征提取模块、时空特征融合模块和多任务级联模块三部分结构。

1.类别对齐的细粒度视觉特征提取模块

针对器械、行为和目标组织等子任务的识别,通用方法是利用深度卷积网络提取类别融合的全局视觉特征。为了充分解析手术场景中的局部细节视觉特征以实现多标签多实体情况下的精准识别,本模块引入一种基于通道注意力的多标签互通道损失作用于深度卷积网络提取到的空间特征。

具体地,由于多个子任务分支共享手术场景中的部分视觉特征,首先采用由四个残差模块组成的五十层深度残差网络作为主干模块初步提起深层特征,再使用全局池化操作得到2048维的特征向量作为主干模块的输出。为了便于多标签互通道损失在不同任务分支的应用和计算,采用1×1卷积操作将提取到的2048维特征向量变换到适应于各任务分支的通道数。针对腹腔镜胆囊切除术中手术器械类别为6类,执行动作为10类,涉及目标组织15类,因此对于三个任务分支分别利用1×1卷积变换为2040、2000和2040通道的全局视觉特征,每组包含340、200和136通道数的局部特征。

2.多标签互通道损失的作用方式与组成原理

在构建好子任务分支后,基于各任务的总类别数可以将对应的全局特征划分为类别对齐的特征组。以目标组织识别任务分支为例,腹腔镜胆囊切除术涉及目标组织15类,利用1×1卷积操作得到2040维度的全局特征F,故将其划分为15组特征:

F={F

其中每组F

区分性模块用于引导不同组特征分别学习到对应类别相关的特征并将它们区分开来。对于第i组特征F

其中W和H表示特征图的宽度和高度,F

输入图片对每个类别的最终响应Dis(F

其中y

多样性模块在每组特征F

当每张图上的平均响应计算后,多样性损失可通过下式计算得到:

值得注意的是,在多器械同时出现的多标签多实体手术场景中,多样性损失模块的作用原理如图3所示。图3中,左边为多标签多样性模块的原理图,右边为单标签多样性模块的原理图。

完整的多标签互通道损失通过对多样性模块和区分性模块的加权和求得:

L

其中相应的权重根据特定任务的需求加以调节设定。

3.时空特征融合、多任务级联和整体损失函数

为了捕获连续帧间包含的运动信息,在各任务的细粒度视觉特征提取模块后通过一个单层的长短时记忆网络进行一段时间输入内的运动特征提取,得到512维时空融合特征并最终通过全连接层实现相应任务的识别。此外,考虑到手术器械作为最显著的特征和手术动作的先决条件,同时器械和动作作用于目标组织的手术操作规律,在视觉特征层面采用跳跃链接的方法实现级联式的有效视觉特征传递。长短时记忆网络的整体损失函数由视觉特征层级的互通道损失和时空融合特征得到分类结果的标准交叉熵损失加权组成。

本发明方法的创新技术点至少在于:

1.多标签多实体情况下互通道损失函数中多样性模块的改进设计;

2.多标签多实体情况下互通道损失函数中区分性模块的改进设计;

3.手术器械、行为和目标组织联合识别的级联式空间特征传递结构;

4.设计改进的多标签互通道损失在腹腔镜场景中提取细粒度空间特征的应用。

本发明方法的有益效果至少在于:

本发明改进设计的多标签互通道损失函数可以充分提取到腹腔镜手术场景中分布在视野不同区域的局部特征;多标签情况下的损失设计能更好地应对手术场景中多器械多实体同时执行手术操作的应用情况;类别对齐的解耦机制增加了模型的可视性和解释性;器械、行为和目标组织的级联式联合识别更好的利用了多任务间的相关关系,提高了单一任务和多任务的识别精度,从而在手术中的实时辅助提供了更具体、更精确的指示。

本发明提出的基于多标签互通道损失的手术器械、行为和目标组织联合识别的多任务学习方法,已在公开数据集CholecT40和HeiCholec上进行了实验,在单一任务和多任务联合上均取得了优于上述前人方法的有效提升。在多个数据集上的验证也显示出模型的鲁棒性,能够达到腹腔镜手术场景中器械、行为和目标组织辅助解析的需求。经实验验证,本发明提出的多标签下的互通道损失函数能够有效地实现图像局部细粒度特征的解耦和类别对齐,长短时记忆网络模块基于解耦后的特征序列有效提取连续时间内蕴含的动作信息,级联式的多任务联合识别结构充分利用了器械、行为到目标组织间的先验关系,从而使本发明提出的联合识别网络相较于现有方法取得明显提升。

实施例2

根据本发明的另一实施例,提供了一种手术器械、行为和目标组织联合识别的装置,参见图4,包括:

类别对齐的细粒度视觉特征提取模块100,用于利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦;

时空特征融合模块200,用于引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合;

多任务级联模块300,用于通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。

本发明实施例中的手术器械、行为和目标组织联合识别的装置,首先利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦;再引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合;而后通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。本发明通过对手术场景中局部多样性细粒度特征进行提取,实现更充分的空间特征描述,通过类别解耦实现外科手术中多器械、多目标情况下的精准识别,综合实现了精准具体的手术场景关键内容的自动实时解析。

下面以具体实施例,对本发明的手术器械、行为和目标组织联合识别的装置进行详细说明:

手术器械、行为和目标组织的联合识别是计算机辅助外科介入微创手术的关键技术。然而在腹腔镜有限视角下,目标组织的纹理相似性、器械尖端的相似结构以及手术阶段中重复的非特定行为动作等细粒度特点,都对这些关键手术内容的精准识别造成了困难。针对前人方法的现有缺点,本发明目的在于利用手术器械、目标组织和执行动作子任务的联合识别提供更精确具体手术场景解析装置。通过对手术场景中局部多样性细粒度特征进行提取,实现更充分的空间特征描述,通过类别解耦实现外科手术中多器械、多目标情况下的精准识别。

本发明提出一种基于多标签下互通道损失的手术器械、行为和目标组织联合识别的装置,主要用于以腹腔镜胆囊切除术为代表的计算机辅助外科微创手术中和术后场景和动作识别,致力于解决通过细粒度分类和多任务学习模型解决外科视频中关键全局和局部融合的视觉特征和长时间依赖关系下的动作特征的问题。本发明利用类别对齐的通道注意力机制实现视觉特征解耦,引入长短时记忆网络对场景中的动作信息进行时间特征提取,并以一种级联的方式实现多任务联合识别。经实验验证,本发明在单一任务和联合任务上均取得优于前人方法的良好识别结果。

本发明在多任务分支共享的类别对齐的细粒度视觉特征提取模块100中,应用一种多标签的互通道损失函数实现通道上的特征类别对齐解耦,从而达到关注手术场景中多重局部细节的目的。在三个子任务分支,针对涉及连续时间内动作的任务后接长短时记忆网络模块以达到融合时空特征的目的。最后在多任务联合识别上,长短时记忆网络模块采用空间特征级联传递的方式强化器械呈现情况与组织行为交互的关系,综合实现了精准具体的手术场景关键内容的自动实时解析。

本发明的多任务学习框架如图2所示,主要包括类别对齐的细粒度视觉特征提取模块100、时空特征融合模块200和多任务级联模块300三部分结构。

1.类别对齐的细粒度视觉特征提取模块100

针对器械、行为和目标组织等子任务的识别,通用方法是利用深度卷积网络提取类别融合的全局视觉特征。为了充分解析手术场景中的局部细节视觉特征以实现多标签多实体情况下的精准识别,本模块引入一种基于通道注意力的多标签互通道损失作用于深度卷积网络提取到的空间特征。

具体地,由于多个子任务分支共享手术场景中的部分视觉特征,首先采用由四个残差模块组成的五十层深度残差网络作为主干模块初步提起深层特征,再使用全局池化操作得到2048维的特征向量作为主干模块的输出。为了便于多标签互通道损失在不同任务分支的应用和计算,采用1×1卷积操作将提取到的2048维特征向量变换到适应于各任务分支的通道数。针对腹腔镜胆囊切除术中手术器械类别为6类,执行动作为10类,涉及目标组织15类,因此对于三个任务分支分别利用1×1卷积变换为2040、2000和2040通道的全局视觉特征,每组包含340、200和136通道数的局部特征。

2.多标签互通道损失的作用方式与组成原理

在构建好子任务分支后,基于各任务的总类别数可以将对应的全局特征划分为类别对齐的特征组。以目标组织识别任务分支为例,腹腔镜胆囊切除术涉及目标组织15类,利用1×1卷积操作得到2040维度的全局特征F,故将其划分为15组特征:

F={F

其中每组F

区分性模块用于引导不同组特征分别学习到对应类别相关的特征并将它们区分开来。对于第i组特征F

其中W和H表示特征图的宽度和高度,F

输入图片对每个类别的最终响应Dis(F

其中y

多样性模块在每组特征F

当每张图上的平均响应计算后,多样性损失可通过下式计算得到:

值得注意的是,在多器械同时出现的多标签多实体手术场景中,多样性损失模块的作用原理如图3所示。图3中,左边为多标签多样性模块的原理图,右边为单标签多样性模块的原理图。

完整的多标签互通道损失通过对多样性模块和区分性模块的加权和求得:

L

其中相应的权重根据特定任务的需求加以调节设定。

3.时空特征融合、多任务级联和整体损失函数

为了捕获连续帧间包含的运动信息,在各任务的细粒度视觉特征提取模块后通过一个单层的长短时记忆网络进行一段时间输入内的运动特征提取,得到512维时空融合特征并最终通过全连接层实现相应任务的识别。此外,考虑到手术器械作为最显著的特征和手术动作的先决条件,同时器械和动作作用于目标组织的手术操作规律,在视觉特征层面采用跳跃链接的方法实现级联式的有效视觉特征传递。长短时记忆网络的整体损失函数由视觉特征层级的互通道损失和时空融合特征得到分类结果的标准交叉熵损失加权组成。

本发明装置的创新技术点至少在于:

1.多标签多实体情况下互通道损失函数中多样性模块的改进设计;

2.多标签多实体情况下互通道损失函数中区分性模块的改进设计;

3.手术器械、行为和目标组织联合识别的级联式空间特征传递结构;

4.设计改进的多标签互通道损失在腹腔镜场景中提取细粒度空间特征的应用。

本发明装置的有益效果至少在于:

本发明改进设计的多标签互通道损失函数可以充分提取到腹腔镜手术场景中分布在视野不同区域的局部特征;多标签情况下的损失设计能更好地应对手术场景中多器械多实体同时执行手术操作的应用情况;类别对齐的解耦机制增加了模型的可视性和解释性;器械、行为和目标组织的级联式联合识别更好的利用了多任务间的相关关系,提高了单一任务和多任务的识别精度,从而在手术中的实时辅助提供了更具体、更精确的指示。

本发明提出的基于多标签互通道损失的手术器械、行为和目标组织联合识别的多任务学习装置,已在公开数据集CholecT40和HeiCholec上进行了实验,在单一任务和多任务联合上均取得了优于上述前人方法的有效提升。在多个数据集上的验证也显示出模型的鲁棒性,能够达到腹腔镜手术场景中器械、行为和目标组织辅助解析的需求。经实验验证,本发明提出的多标签下的互通道损失函数能够有效地实现图像局部细粒度特征的解耦和类别对齐,长短时记忆网络模块基于解耦后的特征序列有效提取连续时间内蕴含的动作信息,级联式的多任务联合识别结构充分利用了器械、行为到目标组织间的先验关系,从而使本发明提出的联合识别网络相较于现有方法取得明显提升。

实施例3

一种存储介质,存储介质存储有能够实现上述任意一项手术器械、行为和目标组织联合识别的方法的程序文件。

实施例4

一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的手术器械、行为和目标组织联合识别的方法。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术分类

06120114694998