掌桥专利:专业的专利平台
掌桥专利
首页

用于实时视频去噪的系统和方法

文献发布时间:2023-06-19 19:28:50


用于实时视频去噪的系统和方法

相关申请的交叉引用

本申请要求于2021年6月18日提交的美国临时申请号63/212,267的优先权,其内容整体并入本文。

背景技术

图像引导手术系统已被用于在手术操作过程中检查患者解剖结构或引导手术器械。这些视觉或图像引导系统可以提供外科医生运动、目标部位位置和各种其他有用信息的实时视觉反馈,这些信息可以实时显示在手术室中的计算机监视器上或远程显示。

各种成像模式(例如,超声、透视成像、计算机断层扫描(CT)、磁共振成像(MRI)、C臂透视检查等)可以提供体内实时成像。例如,可将透视成像和其他成像系统提供给术内交互式手术计划和显示系统,将患者外表面的现场视频与从患者的医学诊断成像数据中获得的交互式计算机生成的内部解剖模型混合在一起。计算机图像和现场视频在手术过程中实时协调并显示给外科医生,使外科医生可以同时查看内外结构和它们之间的关系,并相应地调整手术。这可以允许更安全和侵入性更小的手术,因为外科医生可以更好地控制手术,从而减少组织创伤和破坏。

然而,透视成像依赖于电离辐射在外科手术过程中为医生提供高质量的视频反馈。辐射暴露对医生和患者都是有害的,但减少剂量会导致噪音更大的视频。此外,在长时间扫描期间可能会出现由于运动而导致的模糊或伪影。传统的视频去噪算法可以采用运动补偿机制。例如,可以估计光流并将其用于将相邻帧扭曲到同一空间中。然而,当前的去噪方法可能导致模糊、伪影以及空间和时间分辨率的降低。

发明内容

提供了用于改进现场视频质量的方法和系统。特别地,本公开可以提供一种允许时空运动弹性视频去噪的改进的视频去噪方法。去噪可以应用于空间域和时间域两者。本文提供的方法和系统可以解决传统系统的各种缺点,包括上面认识到的那些。本公开的方法和系统可能能够通过改变空间去噪、时间去噪或两者的组合的程度来动态地适应视频中的运动来降低噪声,从而实时改进现场视频质量。这可以有益地改进患者和外科医生两者的手术安全性,并允许进行长时间的外科手术(例如,可能需要长时间实施透视检查的诸如在体内放置支架或其他装置的介入程序)。

所提供的方法和系统可以通过采用深度学习技术来改进现场视频/成像质量,从而降低噪声。由于复杂的计算,传统基于深度学习的去噪器的推理运行时间可能很高,使得只能离线或延时执行渲染去噪。本文的方法或算法可以通过减少/降低的推理运行时间来改进现场成像质量。由于传统去噪器的高推理运行时间,这有利地允许了以前不可用的实时视频增强。各种视频伪影,诸如时间伪影(例如,可见闪烁)、诸如噪声等图像伪影(例如,低信噪比)、模糊(例如,运动伪影)、阴影(例如,阻塞或干扰感知)、丢失信息(例如,由于信息的去除或掩蔽而导致的绘画中丢失的像素或体素)和/或重建(例如,测量域中的退化),可以通过所提供的方法和系统来减轻。

所提供的方法和系统适用于各种成像模式。本公开的方法和系统可以应用于现有系统而不需要改变底层基础设施。特别地,所提供的方法和系统可以在没有附加硬件组件成本的情况下改进现场成像,并且无论底层基础设施的配置或规范如何都可以进行部署。

在一个方面,提供了一种用于改进现场视频质量的计算机实现的方法。所述方法包括:使用医学成像设备获取对象的连续图像帧流;将所述连续图像帧流馈送到第一组去噪组件,其中所述第一组去噪组件中的每一个被配置为在空间域中对所述连续图像帧流中的图像帧进行去噪以输出中间图像帧;以及将多个所述中间图像帧馈送到第二去噪组件。所述第二去噪组件被训练以(i)预测指示在所述多个中间图像帧中存在运动的运动图和(ii)至少部分地基于所预测的运动图,输出在时间域和空间域两者中具有改进的质量的最终图像帧。

在相关但独立的方面,提供了一种用于改进现场视频质量的系统。所述系统包括:(i)通信接口,其通信耦合到医学成像设备,(ii)存储器,其用于存储一组软件指令,以及(iii)一个或多个处理器,其被配置为执行所述一组软件指令以:从所述医学成像设备接收对象的连续图像帧流;将所述连续图像帧流馈送到第一组去噪组件,其中所述第一组去噪组件中的每一个被训练为在空间域中对所述连续图像帧流中的图像帧进行去噪以输出中间图像帧;以及将多个所述中间图像帧馈送到第二去噪组件。所述第二去噪组件被训练以(i)预测指示在所述多个中间图像帧中存在运动的运动图和(ii)至少部分地基于所预测的运动图,输出在时间域和空间域两者中具有改进的质量的最终图像帧。

在一些实施方式中,所述第二去噪组件是集成的多任务网络,其被训练以预测所述运动图并执行时间或时空去噪。在一些实施方式中,所述第二去噪组件包括单独网络,其被训练以预测所述运动图。

在一些实施方式中,所述方法还包括将所述多个中间图像帧与由所述第二去噪组件使用所述运动图生成的去噪的图像帧组合以输出所述最终图像帧。在一些实施方式中,所述运动图是二进制图并且具有与所述中间图像帧相同的空间分辨率。在一些情况下,所述运动图中的像素的值指示是否对所述像素执行时间或时空去噪。

在一些实施方式中,所述连续图像帧流的数量是可调整的。在一些实施方式中,所述医学成像设备正在执行透视成像。在一些实施方式中,所述连续图像帧流是用减少量的辐射剂量获取的。

在一些实施方式中,所述第一组去噪组件和第二去噪组件中的每一个都包括修改的U-net模型。在一些实施方式中,使用包括一对模拟低质量视频和模拟高质量视频的训练数据集来训练所述第一组去噪组件。在一些情况下,所述模拟低质量视频包括目标的运动。在一些情况下,所述一对模拟低质量视频和模拟高质量视频是从以标准量的辐射剂量获取的视频生成的。在一些情况下,通过将选定类型的伪影或选定级别的模拟噪声引入以所述标准量的辐射剂量获取的视频来生成所述模拟低质量视频。

通过以下详细描述,本公开的其他方面和优点对于本领域技术人员将变得显而易见,其中仅显示和描述了本公开的说明性实施方式。如将意识到的,本公开能够具有其他和不同的实施方式,并且其若干细节能够在各种明显方面进行修改,所有这些均不背离本公开。因此,附图和说明书应被视为本质上是说明性的,而不是限制性的。

援引加入

本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,其程度与每个单独的出版物、专利或专利申请被具体且单独地指示通过引用并入的程度相同。

附图说明

本发明的新颖特征在所附权利要求中特别阐述。通过参考以下阐述其中利用了本发明的原理的说明性实施方式以及附图的详细描述,将获得对本发明的特征和优点的更好理解,其中:

图1示意性地示出了根据一些实施方式的示例成像系统。

图2示意性地示出了根据本公开的一些实施方式的在成像平台中实现的用于实时视频增强的现场成像增强系统。

图3示意性地示出了根据本发明的一些实施方式的深度学习增强系统的架构。

图4和图5图示了用于功能块的修改的U-net架构的示例。

图6A和图6B图示了第二阶段中的去噪网络的示例。

图7图示了在第二阶段中由去噪网络生成的跳跃权重图的示例。

图8图示了来自具有低图像相等性的现场视频的图像帧,以及由深度学习增强系统产生的改进图像帧的示例。

具体实施方式

虽然本发明的各种实施方式已经在本文中示出和描述,但是对于本领域技术人员来说显而易见的是,这些实施方式仅作为示例提供。在不背离本发明的情况下,本领域技术人员可以想到许多变化、改变和替换。应当理解,可以采用本文所述的本发明实施方式的各种替代方案。

本公开提供了能够改进现场医疗视频质量的系统和方法。特别地,所提供的系统和方法可以采用深度学习框架,该框架可以在现场视频采集期间执行实时视频质量增强或视频去噪。视频去噪的深度学习框架可以根据输入帧的序列和/或特定应用动态调整时间去噪和/或空间去噪的程度。

在一些情况下,深度学习框架可能允许空间和时间去噪程度逐帧变化。在一些情况下,可以训练模型以允许空间和时间去噪的程度在每个帧内在空间上变化。例如,如果目标在图像帧/视频的一部分中移动(在时间上跨越一个或多个图像帧),则模型/算法可能能够预测对应于运动的权重图并根据权重图动态调整时间/时空去噪。这有利地允许基于区域中的运动在区域(和周围区域)中执行时间去噪以减轻模糊。

所提供的系统和方法可以在各个方面实时改进视频质量。现场医学成像中的低质量示例可包括噪声(例如,低信噪比)、低空间分辨率、时间伪影(例如,可见闪烁)、对比度、模糊(例如,运动伪影)、阴影(例如,阻塞或干扰感测)、丢失信息(例如,由于去除信息或掩蔽而丢失像素或体素)、重建(例如,测量域中的退化)和/或欠采样伪影(例如,由于压缩感测、混叠导致的欠采样)。

在一些实施方式中,所提供的深度学习框架可以包括两阶段去噪,因为第一阶段去噪可以在空间域中执行(例如,以减轻低信噪比、对比度、伪影等)而第二阶段去噪可以在时间域或时空域中执行(例如,以减轻模糊或运动伪影),并使用预测的跳跃权重图(运动图)来调整去噪的程度。在一些情况下,第一阶段的去噪程度也可以基于使用应用或输入视频的属性进行动态调整。

在一些情况下,所提供的系统和方法的深度学习框架也可能能够改进现场成像质量(实时视频去噪),从而允许减少电离辐射暴露。这有利地允许在不损害现场成像质量的情况下减少电离辐射暴露。本公开的系统和方法可以应用于各种现场成像模式,例如透视成像、计算机断层扫描(CT)、单光子发射计算机断层扫描(SPECT)扫描仪、功能磁共振成像(fMRI)或磁共振成像(MRI)扫描仪、正电子发射断层扫描(PET)和其他各种扫描仪。尽管本文主要提供了透视成像和电离辐射的示例,但应理解,本方法可用于需要现场成像去噪的其他成像模式环境中。

术语外科成像的“视频质量”通常可以是指存在可能影响上述视觉效果(例如,噪声、对比度、缺失信息、低空间分辨率、诸如闪烁的时间伪影等等)或成像的准确性(例如,定量生物标志物评估的准确性)的各种现场成像伪影。例如,具有高视频质量的视频通常可以是指具有低水平的视频伪影的视频,而低视频质量可以是指高水平的视频伪影。诸如信噪比(signal to noise ratio,SNR)、对比度、锐度、空间/时间分辨率等的各种预测因子可用于限定和/或量化视频质量。

如本文所用,术语“实时”通常是指诸如计算机处理器的响应时间小于1秒、十分之一秒、百分之一秒、毫秒或更短。实时还可以是指第一事件相对于第二事件的发生同时或基本上同时发生。

如本文所用,术语“减少的辐射剂量”可以是指低于用于现场成像的辐射剂量的量/水平(例如,正常/标准辐射剂量)的辐射剂量的量或水平,以便在没有提供的系统和方法的情况下获得足够的质量。例如,所提供的方法和系统可能能够在不降低视频或现场成像质量的情况下将辐射剂量减少至少10%、20%、30%、40%、50%、60%、70%、80%或90%。

所提供的系统和方法可能能够通过以至少每秒10帧、每秒20帧、每秒30帧、每秒40帧、每秒50帧的帧速率以不超过60毫秒、50毫秒、40毫秒、30毫秒、20毫秒执行图像帧增强来实现实时视频增强,从而避免延迟。在一些实施例中,本公开的系统和方法可能能够以约每秒30帧(fps)和1536x1536图像分辨率以不超过33.3毫秒或12毫秒实现实时视频增强。在一些示例中,可以在不降低现有成像系统的图像分辨率的情况下以至少10fps、15fps、20fps、30fps、40fps、50fps、60fps、70fps、80fps、90fps、100fps实现实时视频增强。

图像分辨率可能取决于成像系统的成像传感器。成像传感器可能能够以特定图像分辨率捕获图像帧或图像帧序列。图像帧分辨率可以由帧中的像素数定义。图像分辨率可以大于或等于大约352x420像素、480x320像素、720x480像素、1280x720像素、1440x1080像素、1920x1080像素、2048x1080像素、3840x2160像素、4096x2160像素、7680x4320像素、1536x1536像素或1536x8640像素。例如,成像装置可以是4K相机或具有更高分辨率的相机。

成像传感器可以以特定捕获速率捕获图像帧序列。在一些情况下,可以以标准透视视频帧速率(诸如大约每秒25帧或每秒30帧)捕获图像序列。在一些情况下,可以以小于或等于大约标准帧速率的速率捕获图像序列,同时可以通过本方法和系统改进视频的时间分辨率(例如,跨帧插值以获得更平滑的运动或减少可见闪烁)。

每当术语“至少”、“大于”或“大于或等于”在一系列两个或更多个数值中的第一个数值之前时,术语“至少”、“大于”或“大于或等于”适用于该系列数值中的每个数值。例如,大于或等于1、2或3等价于大于或等于1、大于或等于2或大于或等于3。

每当术语“不大于”、“小于”或“小于或等于”在一系列两个或更多个数值中的第一个数值之前时,术语“不大于”、“小于”或“小于或等于”适用于该系列数值中的每个数值。例如,小于或等于3、2或1等价于小于或等于3、小于或等于2或小于或等于1。

所提供的系统和方法可以提供深度学习框架以允许基于时间和空间信息两者的动态视频去噪。如上所述,用于视频去噪的深度学习框架可以根据输入帧的序列和特定应用两者来动态调整时间去噪和/或空间去噪的程度。术语去噪的“程度”可以指用于时间平均的帧的数量(例如,窗口大小)、不执行去噪操作的帧的选择(例如,跳跃用于时间或空间去噪的选定帧)、用于空间去噪的像素数量和/或各种去噪系数。

深度学习框架可以允许空间和时间去噪的程度以逐帧变化。在一些实施方式中,可以训练模型以使空间和时间去噪的程度能够在每个帧内在空间上变化。例如,如果目标在图像帧/视频的一部分中(跨越一个或多个连续图像帧)移动,则模型/算法可能能够根据运动调整去噪的程度。这有利地允许在发生运动的区域(和周围区域)中进行最小的时间去噪以减轻模糊。

在一些情况下,深度学习框架可以允许空间去噪程度作为时间去噪的函数而变化。例如,空间去噪程度可以与空间去噪程度成反比。例如,当视频中呈现运动时,模型可以应用较低程度的时间去噪,诸如通过减小平均窗口大小来减轻模糊。在一些情况下,当呈现很少的运动时(例如,视频基本上是静态的),模型可以执行低程度的空间去噪,诸如通过减少用于滤波的像素数量以保持空间分辨率。

所提供的系统和方法可以进一步有益地允许在减少的辐射剂量或低辐射暴露以及改进的视频质量下进行现场图像获取。例如,X线透视检查是一种在监视器上显示连续X射线图像的医学成像,很像X射线电影。在X线透视检查过程中,X射线束穿过患者身体。图像被传输到显示器,因此可以详细看到身体部位或仪器或造影剂(“X射线染料”)穿过身体的运动。患者接受的辐射剂量取决于个体手术而不同。X线透视检查可能导致相对较高的辐射剂量,特别是对于需要长时间进行X线透视检查的复杂介入手术(例如将支架或其他装置放置在体内)。在减少的辐射剂量和/或低帧速率(例如,低时间分辨率)下拍摄的透视成像可能会导致低视频质量(例如,高噪声、低分辨率、低对比度、可见闪烁)。本文所述的方法和系统可以实时改进现场医学图像的质量,同时允许降低辐射剂量。本公开的方法和系统可以方便地集成到或应用于任何现有的成像系统,而不需要修改物理系统(例如,硬件配置或设置)。

本文提供的方法和系统可能能够通过利用深度学习增强机制来实时改进实时现场医学成像的质量。传统的去噪方法可以采用深度学习来改进单帧图像的质量,诸如改进单个图像帧内空间域的分辨率。然而,由于推理的运行时间长,传统的深度学习方法可能不适用于现场成像或实时成像质量增强。例如,视频去噪的一类现有解决方案是基于补丁的算法,该算法通过沿着具有相似块的运动轨迹跟踪块来构建3D时空体积,从而利用作为第四维的非局部空间相关性。视频去噪的第二类现有解决方案由深度学习方法组成,诸如端到端训练的神经网络,该网络在后续步骤中执行空间去噪、帧扭曲和时间去噪。然而,基于补丁和神经网络方法的主要问题是它们需要显式运动估计或补偿步骤。执行显式运动估计和/或运动补偿可能在计算上很昂贵,这会阻碍实时去噪能力。此外,当前的去噪方法可能无法适应空间和时间域两者中的运动。

本文的方法和系统通过采用改进的深度学习框架或深度学习增强机制,有利地提供实时视频去噪。在一些实施方式中,深度学习增强机制可以通过利用帧内信息结合帧间信息来改进现场成像质量。深度学习增强机制的输出可以是在噪声、对比度、保持空间分辨率和时间分辨率(例如,动态平滑运动、减少闪烁、跨帧内插以获得更平滑的运动)或其他视频质量指标(例如,峰值信噪比(PSNR)、视频质量指标(VQM)、结构相似度指数(SSIM)、平均结构相似度(MSSIM)指数和视觉信噪比(VSNR)等)中的至少一种中具有改进质量的图像流。

在一些实施方式中,深度学习增强机制可以通过具有快速视频去噪能力的卷积神经网络来实现。在一些情况下,增强机制可以包括修改的U-Net框架,诸如快速深度视频去噪网络(DVDnet)。关于动态去噪或运动弹性去噪机制的细节将在本文后面描述。

系统总览

这些系统和方法可以在现有成像系统上实施,而不需要改变硬件基础设施。图1示意性地示出了根据一些实施方式的示例成像系统100。在所示示例中,成像系统100可以包括用于捕获术中现场图像的成像装置(例如,C臂或O臂透视成像系统)101。如上所述,虽然在示例中示出了透视成像系统,但是这些方法可以应用于需要现场成像去噪的任何其他成像系统,而不限于成像系统的类型。成像装置101可以利用任何合适的成像模式来捕获可能涉及患者和外科医生的连续辐射暴露的患者的现场视频。成像系统可以是例如C臂图像增强器或O臂术中CT。例如,高分辨率X射线图像可以由C臂成像扫描仪101实时捕获,从而允许医生监控进展并立即作出任何校正。C臂X线透视检查系统可以包括发生器和X射线图像增强器,该图像增强器将X射线转换为比单纯荧光屏更高强度的可见光。发生器发射穿透患者身体的X射线。图像增强器或检测器将X射线转换成显示在成像系统103的监视器或其他显示器上的可见图像。

在本公开的一个方面,可以向成像系统100提供基于深度学习的现场成像增强系统以实时改进视频的质量。可以实时改进现场视频的质量,使得医师或外科医生可以在显示器103上观看改进的视频而没有时间延迟。

图2示意性地示出了在成像平台200上实现的用于实时视频增强的现场成像增强系统211。可以在外科手术过程中实时执行视频增强。例如,图像帧的质量可以随着成像装置201捕获图像帧而实时改进。另外,可以在已经捕获视频(或视频的一部分)之后的任何期望时间点执行视频增强。

成像平台200可以包括计算机系统210和一个或多个数据库220,该数据库220通过网络230可操作地耦合到控制器203。计算机系统210可以用于实施与本文其他地方描述的方法和系统一致的方法和系统以实时改进现场视频的质量。计算机系统210可以用于实现现场成像增强系统211。现场成像增强系统211可以包括被配置为使用训练数据集开发和训练深度学习框架的训练模块和被配置为执行训练的深度学习框架进行推理的视频增强模块。尽管图示的图表将控制器和计算机系统显示为单独的组件,但控制器和计算机系统(现场成像增强系统的至少一部分)可以集成到单个组件中。

成像装置201可以获取现场视频或图像帧,如图1中所述。现场视频或图像帧可以使用诸如但不限于CT、fMRI、SPECT、PET、超声等或以上的任何组合的任何医学成像模式进行流式传输。现场成像增强系统211可以处理实时视频以总体上增强质量,诸如通过在空间和时间域中执行去噪。在一些情况下,捕获的现场视频或图像数据流的图像质量可能由于例如低时间分辨率或辐射剂量减少或成像序列中存在噪声而降低。捕获的视频流可能具有低质量,诸如低图像分辨率(空间分辨率)、低时间分辨率、低对比度或低信噪比(SNR)。

控制器203可以与成像装置201、一个或多个显示器和现场成像增强系统211通信。根据安装的软件程序,控制器201可以被操作以提供控制器信息以管理成像系统的操作。例如,控制器203可以控制成像系统的各种组件,例如X射线管、光谱整形滤光片、准直器、抗散射网格、图像接收器(X射线图像增强器)、基于电耦合器件(CCD)图像传感器或互补金属氧化物半导体(CMOS)技术以及各种其他图像后处理组件的数码相机。

在一些情况下,至少部分现场成像增强系统211可以集成到控制器203或控制器本地,使得可以在本地实时执行视频增强。在一些情况下,现场成像增强系统211可以采用边缘智能范例,使得可以在边缘或边缘网关(例如,成像系统)处执行推理或视频增强。在一些情况下,深度学习模型可以在云/数据中心上构建、开发和训练,并在成像系统(例如,硬件加速器)上运行。例如,在边缘运行的软件可能是经过训练的深度学习框架,用于实时处理图像流。在云或本地环境上运行的软件可能是用于训练、开发和管理深度学习模型的训练模块。

控制器203可以包括或耦合到操作员控制台,该操作员控制台可以包括输入装置(例如,键盘)和控制面板以及显示器。例如,控制器可能具有连接到显示器、键盘和其他I/O装置的输入/输出端口。在一些情况下,操作员控制台可以通过网络与计算机系统进行通信,该计算机系统使操作员能够控制生产(例如,X射线管和图像接收器)并在显示屏上显示现场视频。显示在显示器上的现场视频可以由现场成像增强系统211处理并且具有改进的质量。

成像平台200可以包括用户界面。用户界面可以被配置为接收用户输入和向用户输出信息。用户输入可以与控制或设置视频获取方案有关。例如,用户输入可以指示每次获取/运行的辐射剂量(例如,辐射剂量水平、剂量减少因素等)、获取的帧速率、期望的辐射暴露水平。在一些情况下,用户输入可能与视频增强算法(例如,滑动窗口大小、视频的估计运动或属性等)或期望的增强参数(诸如视频平滑级别或清晰度级别)有关。用户界面可以包括诸如触摸屏的屏幕和诸如手持控制器、鼠标、操纵杆、键盘、轨迹球、触摸板、按钮、口头命令、手势识别、姿态传感器、热传感器、触摸电容式传感器、脚踏开关或任何其他装置的任何其他用户交互外部装置。

在一些情况下,用户界面可以包括允许用户选择操作模式、视频显示参数、视频增强参数和图像获取设置的图形用户界面(GUI),如本文其他地方所述。在一些实施方式中,现场成像增强系统211可以允许不同的操作模式。在一些情况下,不同的操作模式可以至少包括现场视频去噪模式,以及由现场成像增强系统211在延迟时间(例如,在捕获完整视频之后或在至少部分视频被捕获之后)处理捕获的视频的回顾模式。图形用户界面可以允许用户输入用户命令以在两种操作模式之间切换。

GUI可以显示允许用户查看或访问与视频增强或视频显示相关的信息的图形元素。图形用户界面可以具有各种交互元素,例如按钮、文本框等,其可以允许用户通过直接键入、点击或拖动这些交互元素来提供输入命令或内容。

在一些情况下,可以在显示器上提供图形用户界面(GUI)或用户界面。显示器可能是也可能不是触摸屏。显示器可以是发光二极管(LED)屏幕、有机发光二极管(OLED)屏幕、液晶显示器(LCD)屏幕、等离子屏幕或任何其他类型的屏幕。显示器可以被配置为显示通过应用(例如,通过在本地计算机系统或云上执行的应用编程接口(API))呈现的用户界面(UI)或图形用户界面(GUI)。显示器可以在用户装置上,或者在图1中描述的成像系统的显示器上。

现场成像增强系统211可以包括多个组件,例如配置为使用训练数据集开发和训练深度学习框架的训练模块213,以及用于部署训练的深度学习框架并执行推理的视频增强模块215。在一些情况下,现场成像增强系统还可以被配置用于持续训练、生成和准备训练数据集以及管理深度学习模型。

训练模块213可以被配置为训练深度学习模型。在一些实施方式中,训练模块可以被配置为训练以分层架构(例如,两阶段层次结构)组装的多个深度学习模型,用于实时增强视频质量。训练模块可以单独训练多个深度学习模型。替代地或除此之外,可以将多个深度学习模型训练为整体模型。

训练模块213可以被配置为生成和管理训练数据集。例如,用于实时视频增强的训练数据集可能包括成对的低质量(例如,低剂量)视频和高质量(例如,高剂量)视频或“真实”视频。在一些情况下,高质量视频可以具有等于或高于以标准辐射剂量获取的视频的质量。视频可能包含移动目标,以便可以训练模型以去噪或减少由移动引起的伪影。

高质量的医学视频数据集可能很少见。来自同一对象的成对视频可能更难收集。在一些情况下,提供的训练模块可以实现专有算法来模拟低质量视频和/或高质量视频以生成成对的训练数据集。例如,可以处理在标准辐射剂量下拍摄(例如,来自临床数据库)的视频数据,以生成模拟高辐射剂量的高质量视频数据(例如,通过对标准视频数据应用时间平均和去噪)。还可以处理相同的标准视频数据,以通过向视频数据引入伪影,诸如通过向视频数据添加以不同级别缩放的模拟噪声来创建模拟低辐射剂量的低质量视频数据。在一些情况下,可能会引入噪声来模拟视频中移动目标引起的模糊。

训练模块213可以被配置为训练深度学习网络以增强图像质量。例如,训练模块可以采用监督训练、无监督训练或半监督训练技术来训练模型。训练模块可以被配置为实现如本文别处描述的机器学习方法。训练模块可以离线训练模型。替代地或附加地,训练模块可以使用实时数据或新收集的数据作为反馈来完善模型以进行改进或持续训练。

视频增强模块215可以被配置为使用训练模块提供的经训练模型实时增强视频质量。视频增强模块可以实现经过训练的模型以进行实时推理,即产生具有改进质量的图像帧。关于深度学习模型架构和模型框架的细节将参考图3至图6进行描述。

计算机系统210可以被编程或以其他方式配置为管理和/或实施视频增强模块、训练模块及其操作。计算机系统210可以被编程以实现与本文的公开内容一致的方法。

成像平台200可以包括计算机系统210和数据库系统220,它们可以与现场成像增强系统211交互。计算机系统可以包括膝上型计算机、台式计算机、中央服务器、分布式计算系统等。处理器可以是硬件处理器,诸如中央处理单元(CPU)、图形处理单元(GPU)、通用处理单元,其可以是单核或多核处理器,或用于并行处理的多个处理器。处理器可以是任何合适的集成电路,诸如计算平台或微处理器、逻辑器件等。尽管参考处理器描述了本公开,但其他类型的集成电路和逻辑器件也是适用的。处理器或机器可能不受数据操作能力的限制。处理器或机器可以执行512位、256位、128位、64位、32位或16位数据操作。

计算机系统210可以通过网络230与一个或多个远程计算机系统通信。例如,计算机系统210可以与用户或参与平台(例如,操作员)的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式PC)、板或平板PC(例如,

成像平台200可以包括一个或多个数据库220。一个或多个数据库220可以利用任何合适的数据库技术。例如,结构化查询语言(SQL)或“NoSQL”数据库可用于存储视频数据、收集的原始数据、增强视频数据、训练数据集、经训练模型(例如,超参数)、用户指定参数(例如,窗口大小)等。一些数据库可以使用各种标准数据结构来实现,诸如数组、散列、(链接)列表、结构、结构化文本文件(例如,XML)、表、JSON、NOSQL等。这样的数据结构可以存储在存储器和/或(结构化)文件中。在另一个替代方案中,可以使用面向对象的数据库。对象数据库可以包括许多对象集合,这些对象集合通过公共属性分组和/或链接在一起;它们可能通过一些共同的属性与其他对象集合相关。面向对象的数据库与关系数据库相似地执行,不同之处在于对象不仅仅是数据片段,而且可能具有封装在给定对象中的其他类型的功能。如果本公开的数据库被实现为数据结构,则本公开的数据库的使用可以集成到另一个组件中,诸如本公开的组件。此外,数据库可以实现为数据结构、对象和关系结构的混合。可以通过标准数据处理技术对数据库进行合并和/或以变化形式分布。部分数据库,例如表格,可以被导出和/或导入,从而分散和/或集成。

网络230可以建立成像平台中的组件之间的连接以及成像系统与外部系统的连接。网络230可以包括使用无线和/或有线通信系统两者的局域网和/或广域网的任何组合。例如,网络230可以包括互联网以及移动电话网络。在一个实施方式中,网络230使用标准通信技术和/或协议。因此,网络230可以包括使用诸如以太网、802.11、全球微波接入互操作性(WiMAX)、2G/3G/4G/5G移动通信协议、异步传输模式(ATM)、InfiniBand、PCI Express高级交换等技术的链路。网络230上使用的其他网络协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。通过网络交换的数据可以使用技术和/或格式来表示,包括二进制形式的图像数据(例如,便携式网络图形(PNG))、超文本标记语言(HTML)、可扩展标记语言(XML)等。此外,可以使用诸如安全套接字层(SSL)、传输层安全性(TLS)、互联网协议安全性(IPsec)等传统加密技术对所有或部分链路进行加密。在另一实施方式中,网络上的实体可以使用定制和/或专用数据通信技术来代替或补充上述技术。

深度学习框架

图3示意性地示出了根据本发明的一些实施方式的深度学习增强系统300的架构。深度学习增强系统300可以与图2中描述的视频增强模块相同。深度学习增强系统可以包括经过训练的深度学习模型,该模型能够改进现场视频质量或执行动态去噪。在一些实施方式中,深度学习增强系统可以包括多个功能块。在一些情况下,每个功能块可以包括修改的U-net模型311、313。在一些实施方式中,深度学习架构可以包括用于改进输入图像帧质量(例如,去噪视频)的一系列组件。

在一些实施方式中,深度学习框架310的输入可以包括低质量的图像数据流,并且深度学习框架330的输出可以包括具有改进质量的图像帧。在所示示例中,一系列连续图像帧310可以由深度学习框架300处理以生成具有改进质量的图像帧330(例如,输入帧系列的中心帧的估计)。现场视频增强可以通过在空间和时间域两者中执行不同程度的去噪来实现。这种独特的架构可以有益地提供具有内置学习过程的动态时空去噪器,而无需执行额外的显式运动估计或补偿。

在一些情况下,深度学习框架300可以包括串行化的功能块。串行化的功能块可以被配置为在第一阶段315中执行空间去噪并且在第二阶段317中执行时间去噪。在一些情况下,可以在第二阶段317中执行时空去噪。来自一系列连续帧310的每个输入帧可以在第一阶段315中单独地进行空间去噪。然后可以将第一阶段320的输出馈送到第二阶段317中的时空去噪器或时间去噪器313。

例如,第一阶段315中的多个功能块311(例如,去噪块)可用于处理一系列连续的图像帧310。在一些情况下,第一组功能块311可以共享相同的权重。该系列连续图像帧310可以来自图像流或现场成像。在一些实施方式中,第一阶段的功能块的数量或功能块的布置可以取决于滑动窗口大小n(例如,被处理以便输出一个最终输出图像帧330的连续图像帧的数量)。

在一些情况下,第一阶段的每个功能块311可以接收和处理来自连续图像帧310的一个输入帧。例如,第一去噪块311可以接收帧t-n并且在空间上对帧t-n进行去噪。第一阶段的功能块的输出可以是在空间域中具有改进质量的中间图像帧310。

图像帧增强的第一阶段可以对空间域中的输入图像进行去噪。第一阶段的功能块的输出可以是一系列中间图像帧320(例如,n个中间图像帧),其在空间域中具有比原始输入图像帧改进的质量。

在一些情况下,可以基于使用应用动态调整第一阶段去噪。例如,可以基于在输入视频中捕获的运动、组织移动、移动目标、患者运动、外科手术等动态调整空间去噪的程度。在一些实施方式中,空间去噪的程度可以基于视频的属性、外科手术、成像模式和实时条件。例如,对于基于不同外科手术、外科手术期间的不同时间点和/或图像帧的不同部分(例如,像素子集、图像帧中的补丁)的选定帧或帧内的区域,可以跳跃空间去噪。在一些情况下,可以基于视频中的运动估计来动态地调整空间去噪的程度(例如,是否对特定帧应用空间去噪)。例如,当在这些帧中检测到很少的运动时,对于选定帧可以跳跃空间去噪以保持空间分辨率。例如,当输入视频基本上是静态的时,可以降低空间去噪的程度以保持空间分辨率。在一些情况下,可以在处理之前将这样的运动特性提供给系统。例如,用户可以输入与视频相关的使用应用,指示视频是否可能是静态的或包含移动目标。替代地或附加地,可以基于对视频中先前图像帧的处理来预测这样的运动特性。运动特性可以由用户手动提供或自动调整。例如,诸如DeepFlow、Farneback算法或LiteFlowNet的运动估计算法可以应用于现场视频以估计图像帧内某个时间点和/或补丁位置(例如,x、y坐标)的运动,然后可以自动调整空间去噪的程度(例如,执行或跳跃空间去噪)。在一些情况下,这种动态调整和/或运动估计是深度学习架构的固有部分,而无需用户输入。

第一层功能块(例如,去噪块1 311)可以基本上并行地处理一系列连续的图像帧,并且第一层功能块的输出可以包括要由功能块(例如,去噪块313)在第二阶段317中处理的一系列改进的图像帧310。去噪块313可以是经过训练以执行时间去噪的模型。或者,去噪块313可以是经过训练以执行时空去噪的模型。

在一些实施方式中,每个去噪组件(例如,去噪块311、去噪块313)可以具有修改的U-net架构。例如,修改的U-net可以是修改的n层U-net,其将三个相邻帧作为输入。在一些情况下,第一阶段中的多个去噪块可能具有相同的修改的U-net架构,但权重可以不同。或者,第一阶段中的多个去噪块可以共享同一组权重。在一些情况下,可以针对不同数量的输入帧选择不同的U-net架构或层数。或者,修改的U-net架构可以是相同的,而不管输入帧的数量,即滑动窗口大小。关于修改的U-net架构的细节将参考图4-图6进行描述。

图4和图5示出了用于第一阶段中的功能块的修改的U-net架构400、500的示例。在一些情况下,第二阶段中的功能块可以包括与第一阶段相同的U-net架构。U-net架构400、500本质上是多尺度编码器-解码器架构,具有将每个编码器层的输出直接转发到相应解码器层的输入的跳跃连接。在一些情况下,第一阶段和第二阶段中的每个功能块或去噪块可以包括修改的U-Net。在修改的U-net架构的图示示例中,解码器中的上采样是使用有助于减少网格伪影的像素混洗层执行的。编码器的特征与解码器的特征的合并是通过逐像素加法运算来执行的,从而减少了存储器需求。引入中心噪声输入帧与输出帧之间的残差连接以加速训练过程。

在所示示例中,功能块可以包括多个卷积层。在大多数层中,卷积层的输出之后是逐点ReLU激活函数ReLU(·)=max(·,0),除了最后一层。在训练时,批量归一化层(BN)放置在卷积层与ReLU层之间。在评估/推理时,批量归一化层被移除,并由应用学习归一化的仿射层代替。

返回参考图3,第二阶段功能块可以获得第一阶段的输出(例如,中间帧320)作为输入数据,并输出具有改进质量的最终图像帧330(输出帧t)。例如,时空网络可以包括多通道输入,其中n个时间步的帧作为单独的通道输入。去噪块313的输出是对中心输入帧(例如,输入帧t-n/2)的估计,其中其他中间帧320的质量进一步改进。或者,可以为去噪块的输出分配与随机选择的帧相对应的时间索引t使得2

第二阶段中的去噪块的输入通道数(即滑动窗口大小n)可以基于输入图像流的属性来确定。第二阶段313中的去噪块的输入通道数可以与第一阶段中的输入图像流310的滑动窗口大小相同或不同。在一些情况下,第二阶段中的去噪块的输入通道数(即滑动窗口大小n)与第一阶段中的去噪块的数量相匹配,或者第一阶段和第二阶段的滑动窗口大小相同。或者,第二阶段中的去噪块的输入通道数(即,滑动窗口大小n)可以独立于第一阶段中的去噪块的数量来调整/调节。

在一些实施方式中,可以根据视频的属性、外科手术、成像模式和实时条件来选择要由深度学习框架处理的输入图像流的滑动窗口大小。在一些实施方式中,可以为不同的外科手术、外科手术过程中的不同时间点和/或对于图像帧的不同部分(例如,像素的子集、图像帧中的补丁)动态选择(时间相邻帧的)不同的滑动窗口大小。例如,可以基于视频中的运动估计动态调整滑动窗口大小。例如,当检测到较大的运动以减轻运动模糊时,可以选择较小的窗口大小。在另一示例中,如果在图像帧的补丁的位置内检测到运动,则图像帧的一部分(即,像素子集、补丁)可以在较少的相邻连续图像(即,较小的窗口大小)上进行平均。通过需要小组的连续输入帧(例如,十帧、九帧、八帧、七帧、六帧、五帧、四帧、三帧等)进行推理,去噪方法能够在整个视频获取过程中以流式传输方式运行而没有延迟。

用于确定输入数据流的参数,诸如滑动窗口大小,可以由用户手动选择或自动调整。例如,可以将诸如DeepFlow、Farneback算法或LiteFlowNet的运动估计算法应用于现场视频,以估计图像帧内某个时间点和/或补丁位置的运动,然后可以自动调整用于处理输入图像流的窗口大小或图像帧的选定补丁。

在一些情况下,窗口大小和/或运动估计的动态调整是深度学习架构的固有部分。时间去噪器或时空去噪器313可以包括具有固有运动估计能力的多通道去噪网络。例如,可以训练网络以预测指示或对应于输入帧序列中的运动区域的跳跃权重图。术语“跳跃权重图”也可以称为“运动图”,它们在整个说明书中可互换使用。对于在跳跃权重图中预测运动的图像帧内的区域,可以减小滑动窗口大小。在一些实施方式中,去噪网络可以包括用于预测跳跃权重图的单独网络。图6A图示了第二阶段中的去噪网络600的示例。在一些实施方式中,去噪网络600可以包括多任务时间或时空网络。多任务时间或时空网络可以包括用于预测跳跃权重图611的积分组件610。多任务时间或时空网络可以是用于同时训练预测跳跃权重图的组件和用于执行时间去噪的组件的集成网络。

在替代实施方式中,第二阶段中的网络可以包括被训练以预测跳跃权重图的单独网络(未示出)和网络610,网络610至少部分地基于跳跃权重图执行时间(或去噪网络)去噪并生成最终输出。图6B图示了第二阶段中的去噪网络620的示例。可以训练去噪网络620以基于由单独的网络预测的跳跃权重图对多个中间输入帧应用时间或时空去噪,并输出最终输出帧。第二阶段中的去噪网络可以具有与上述U-net架构基本相同的U-net架构。

可以训练去噪网络以执行时间(或去噪网络)去噪以及预测跳跃权重或跳跃权重图。跳跃权重图可以指示或对应于输入帧序列中的运动区域。图7图示了在第二阶段中由去噪网络生成的跳跃权重图的示例。如示例中所示,跳跃权重图可以具有与输入图像帧相同的空间分辨率,并且每个像素的值可以指示对应于该像素的运动。在一些情况下,像素的值/权重可以指示是否对像素执行时间去噪。例如,如图所示,零的值/权重可以指示对输入的n个图像帧进行时间和时空去噪,1的值/权重可以指示对每个单独的图像帧仅进行空间去噪而不进行时间去噪。跳跃权重图可以是任何形式(除了二进制)。例如,像素的值/权重可以是零和一之间的任何值或指示用于执行时间去噪的滑动窗口大小的任何数字。

用于时间或时空去噪的去噪网络600、620可以基于输入帧的序列(例如,网络的n通道输入)来分类各个像素是否包含运动。去噪网络可以预测目标移动的位置,并确保在这些区域中存在最小的时间去噪,从而防止由于运动引起的模糊。跳跃权重图可以用于时空去噪阶段的局部跳跃。当运动仅在图像帧/视频的一部分中发生时,这是有利的。

在一些实施方式中,跳跃权重图可以用于生成最终输出图像帧。在一些实施方式中,跳跃权重(或跳跃权重图)可以用于使用线性组合相对于第二阶段中的时空去噪输出对中间输出(即,作为第一阶段的输出的空间去噪图像帧)进行加权。下面是结合第一阶段的输出和第二阶段的输出以生成最终输出图像帧的示例:

I

其中I

深度学习模型可以采用任何类型的神经网络模型,诸如前馈神经网络、径向基函数网络、递归神经网络、卷积神经网络、深度残差学习网络等。在一些实施方式中,深度学习算法可以是卷积神经网络(CNN)。模型网络可以是深度学习网络,诸如可以包括多个层的CNN。例如,CNN模型可以至少包括一个输入层、多个隐藏层和一个输出层。CNN模型可以包含任意总层数和任意数量的隐藏层。神经网络最简单的架构从输入层开始,然后是一系列中间层或隐藏层,最后是输出层。隐藏层或中间层可以充当可学习的特征提取器,而输出层可以输出改进的图像帧。神经网络的每一层可以包括多个神经元(或节点)。神经元接收直接来自输入数据(例如,低质量图像数据等)或其他神经元输出的输入,并执行特定操作,例如求和。在一些情况下,从输入到神经元的连接与权重(或加权因子)相关联。在一些情况下,神经元可能会将所有输入对及其相关权重的乘积求和。在一些情况下,加权和会被偏差抵消。在一些情况下,可以使用阈值或激活函数对神经元的输出进行门控。激活函数可以是线性的或非线性的。激活函数可以是例如整流线性单元(ReLU)激活函数或其他函数,诸如饱和双曲正切、恒等式、二进制步进、逻辑、arcTan、softsign、参数整流线性单元、指数线性单元、softPlus、弯曲恒等式、softExponential、Sinusoid、Sinc、Gaussian、sigmoid函数或其任何组合。在训练过程中,CNN的权重或参数被调整以逼近真实数据,从而学习从低质量视频(例如,低剂量视频)到高质量视频(例如,真实视频)的映射。

模型训练和开发

在一些实施方式中,可以使用监督学习来训练深度学习模型。例如,为了训练深度学习网络,系统的训练模块可以生成具有低质量和作为真实值的高质量视频的视频对作为训练数据集。在一些实施方式中,训练数据集可以包括模拟的低质量视频和/或视频中具有运动的高质量视频。低质量视频可以包括在较低辐射剂量、较短获取时间或视频中运动引起的模糊下获取的视频。在一些实施方式中,低质量视频可以包括从如上所述以标准辐射剂量拍摄的视频生成的模拟低质量视频。例如,以标准辐射剂量拍摄的视频可用于模拟高质量视频和一个或多个低质量视频(例如,通过添加以不同或选定级别缩放的噪声,或引入不同类型的伪影)。在一些情况下,可以处理在标准辐射剂量(例如,来自临床数据库)或标准采集时间下拍摄的视频数据,以生成模拟高辐射剂量的高质量视频数据(例如,通过对标准视频数据应用时间平均和去噪)。还可以处理相同的标准视频数据,以通过将选定类型的伪影引入视频数据和/或在不同级别添加噪声(例如,在不同级别添加缩放的噪声)到视频数据来生成模拟低辐射剂量的低质量视频数据。

用于训练第一阶段中的模型(例如,空间去噪器)和第二阶段中的模型(例如,时间/时空去噪器)的训练数据集可能不同。例如,用于训练空间去噪器的低质量视频可以模拟空间伪影,而用于时间或时空去噪器的低质量视频可以模拟时间或时空域中的伪影(例如,可见闪烁、运动模糊等)。

在一些实施方式中,估计跳跃权重或跳跃权重图的第二阶段去噪网络的部分或组件可以以监督方式进行训练。例如,可以使用真实权重图和损失函数来训练网络。真实权重图可以由存在运动的区域的图组成。例如,具有或不具有运动的区域可以由诸如二进制门的权重或零到一之间的任何值来表示。时空去噪器网络可以充当运动检测器网络并且可以以执行时空去噪和预测跳跃权重图两者的多任务方式进行训练,诸如图6B所示。或者,用于预测跳跃权重图的网络可以被训练为单独的网络,诸如图6A所示。

在一些实施方式中,可以使用监督学习来训练用于实时改进视频质量的深度学习模型。通过上述方法生成的训练数据集可用于训练深度学习模型或深度学习模型的各个组件。例如,训练数据集可以包括如上所述的成对的真实帧和小组的噪声帧(对应于滑动窗口大小)。模型训练的损失函数示例如下:

其中

在一些实施方式中,可以使用可能不需要大量标记数据的无监督学习或半监督学习来训练深度学习模型。高质量的医学图像数据集或成对数据集可能很难收集。在一些情况下,所提供的方法可以利用无监督训练方法,从而允许深度学习方法执行持续训练并应用于临床数据库中已经可用的现有数据集(例如,未成对数据集)。在一些实施方式中,深度学习模型的训练过程可以采用残差学习方法。在一些情况下,网络结构可以是U-net结构和残差网络的组合。

在一些实施方式中,模型训练过程还可以包括诸如模型修剪和压缩的操作以改进推理速度。模型调整可以包括删除可能不影响网络输出的经过训练的神经网络的节点。模型压缩可以包括使用较低精度的网络权重,诸如使用浮点16而不是32。这可以有利地允许实时推理(例如,以高推理速度)同时保持模型性能。

示例

图8图示了来自具有低视频质量的现场视频的图像帧801,和由深度学习增强系统产生的改进的图像帧803的示例。

在该示例中,来自输入视频的单个帧801由深度学习模型处理。当使用在输入数据中没有运动的情况下训练的去噪器处理输入图像帧并且利用跳跃权重图(即模型检测到在该帧序列中存在运动)时,输出图像帧804被生成为空间去噪视频帧(来自第一阶段)和时空阶段(第二阶段)的线性组合。与在输入数据上没有运动训练的时空去噪器802或有运动但没有跳跃权重图训练的时空去噪器803相比,最终输出图像帧804表现出显着减少的模糊。使用非二进制跳跃权重图生成输出图像帧804。当利用二进制跳跃权重图时,最终输出图像显示为805,其也证明了减少的模糊。

虽然在此显示和描述了本发明的优选实施方式,但是对于本领域技术人员来说显而易见的是,这些实施方式仅作为示例提供。在不背离本发明的情况下,本领域技术人员现在将想到许多变化、改变和替换。应当理解,在实施本发明时可以采用对这里描述的本发明实施方式的各种替代方案。所附权利要求旨在定义本发明的范围,并且这些权利要求范围内的方法和结构及其等同物由此被覆盖。

技术分类

06120115928347