基于语义对齐和时间一致性的视频分割方法、系统和装置
文献发布时间:2024-04-18 19:58:26
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于语义对齐和时间一致性的视频分割方法、系统和装置。
背景技术
视频分割是一项基本的视觉任务,基于深度学习的方法在该领域取得了巨大的成功。然而,目前的视频分割方法严重依赖于大量耗时耗力的密集标注,为了减少对人工标注的需求,小样本视频分割引起了越来越多的关注,其定义是在只有少量有标注图像(称作支撑集)的情况下,在未标注的视频序列(称作质询集)中预测具有未见类别的目标掩膜。
尽管小样本图像分割取得了巨大的进展,但是由于视频有着更复杂的时间维度结构,小样本视频分割是一个更加具有挑战性的任务。此外,小样本学习的核心是建立从支撑集到质询集的信息传递,然而在小样本视频分割任务中,支撑图像和质询视频之间通常在尺度、姿态和背景变化等方面存在显著差异,增大了有效信息聚合的难度,降低对应目标分割的准确性。现有的小样本视频分割方法主要分为两类,一类是通过学习支撑集和质询集之间的密集相关性来传递支撑信息,另一类方法在少样本推理过程中对质询视频帧施加隐式的时间约束。前一类方法只关注质询和支撑集之间的匹配,忽略了视频中蕴含的时序信息的利用,而后一类方法恰恰相反,这两类方法都不能达到很好的性能。
发明内容
针对现有技术的不足,本发明提出了一种基于语义对齐和时间一致性的视频分割方法及装置,同时考虑支撑集引导的目标语义信息聚合和视频时序信息的建模,这两方面对于小样本视频分割任务都是至关重要的,从而能够在小样本的前提下为视频中的移动目标预测更加准确的分割预测。
本发明的目的可以通过以下技术方案实现:
第一方面,本申请提出基于语义对齐和时间一致性的视频分割方法,包括:
接收支撑图像、目标掩膜标注和待分割的质询视频帧;
从支撑图像和待分割的质询视频帧中提取支撑特征和质询特征;
将支撑特征中的目标信息压缩得到粗糙表征,计算粗糙表征的前景概率得到粗粒度对齐的结果;计算支撑特征和质询特征的注意力大小,得到支撑特征和质询特征的逐点相似性;
基于目标掩膜标注确定支撑特征的分布,基于粗粒度对齐的结果确定质询特征的分布;以逐点相似性作为代价矩阵,以支撑特征的分布和质询特征的分布作为边缘分布,得到最优传输矩阵;将最优传输矩阵施加到注意力上完成信息传递,得到最终质询集的聚合特征;
提取质询视频的上一帧的时序信息,基于时序信息调制质询视频的特征矩阵得到前景激活图和背景激活图;将前景激活图和背景激活图融合得到时序引导图,通过时序引导图调制聚合特征;通过解码器处理调制后的聚合特征,得视频分割结果。
在一些实施例中,所述粗粒度对齐的结果的获取,具体包括以下步骤:
将支撑特征中的目标信息压缩为一个全局的表征
其中
通过目标的粗糙表征p
其中i∈1,2,…,hw是质询特征点的索引,得到的e
在一些实施例中,所述逐点相似性的获取,具体包括以下步骤:
通过线性映射得到查询q
其中
计算每个“查询-键”对的注意力大小:
其中d(·)表示距离度量,一般采用点积相似性,
支撑特征和质询特征的逐点相似性S满足:
在一些实施例中,所述最优传输矩阵的构建,具体包括以下步骤:
定义质询特征和支撑特征的分布:
其中质询特征的分布μ
将支撑特征和质询特征的逐点相似性
s.t.T1=μ
其中T为传输矩阵,T
在一些实施例中,所述最终质询集的聚合特征的获取,具体包括以下步骤:
将最优传输矩阵施加到原本的注意力图s
其中i,j∈1,2,…,hw分别是质询特征点和支撑特征点的索引,
所有的hw个支撑特征的值v
在一些实施例中,所述前景激活图和背景激活图的构建,具体包括以下步骤:
按30%前景点和50%背景点的比例从质询视频的上一帧的特征F
使用稀疏采样算法从两个集合中选取正交距离最大的N个点分别作为前景的表征p
前景表征p
其中
背景表征p
表示背景激活图,x,y,k,n分别是高、宽、通道和前景表征的索引。
在一些实施例中,所述将前景激活图和背景激活图融合得到时序引导图,通过时序引导图调制聚合特征,具体包括以下步骤:
前景激活图
通过时序引导图调制聚合特征:
其中
在一些实施例中,采用包含两个卷积层和两个上采样层的解码器对特征
第二方面,本申请提出一种基于语义对齐和时间一致性的视频分割系统,包括:
接收模块:接收支撑图像、目标掩膜标注和待分割的质询视频帧;
提取模块:从支撑图像和待分割的质询视频帧中提取支撑特征和质询特征;
特征对齐模块:将支撑特征中的目标信息压缩得到粗糙表征,计算粗糙表征的前景概率得到粗粒度对齐的结果;计算支撑特征和质询特征的注意力大小,得到支撑特征和质询特征的逐点相似性;基于目标掩膜标注确定支撑特征的分布,基于粗粒度对齐的结果确定质询特征的分布;以逐点相似性作为代价矩阵,以支撑特征的分布和质询特征的分布作为边缘分布,得到最优传输矩阵;将最优传输矩阵施加到注意力上完成信息传递,得到最终质询集的聚合特征;
时序一致性调制模块:提取质询视频的上一帧的时序信息,基于时序信息调制质询视频的特征矩阵得到前景激活图和背景激活图;将前景激活图和背景激活图融合得到时序引导图,通过时序引导图调制聚合特征;
输出模块:通过解码器处理调制后的聚合特征,得视频分割结果。
第三方面,本申请提出一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了第一方面所述的一种基于语义对齐和时间一致性的视频分割方法。
本发明的有益效果:
与现有方法相比,该方法通过联合探索支撑引导下的目标信息聚合和时序信息建模来实现小样本视频分割。设计的由粗到细的特征对齐模块可以提取全局目标表示作为粗粒度引导,引入最优传输算法实现精确的细粒度对齐;提出的时序一致性调制模块分别利用历史前景和背景表征激活当前帧的目标相关区域。通过同时考虑支撑和时序信息,该方法可以显著提高小样本前提下的视频分割性能。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本申请的小样本视频分割模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
本发明提出了一种基于由粗到细对齐和时序一致性调制的小样本视频分割方法。该方法由两部分构成:(1)由粗到细的特征对齐;(2)时序一致性调制。总体技术如图1所示,具体方法如下:
(1)由粗到细的特征对齐。接收预处理后得到的支撑图像I
为了实现F
其中
其中i∈1,2,…,hw是质询特征点的索引,得到的e
细粒度引导主要是计算支撑特征
其中
其中d(·)表示距离度量,一般采用点积相似性,
其中质询特征的分布μ
s.t.T1=μ
其中T为传输矩阵,T
其中i,j∈1,2,…,hw分别是质询特征点和支撑特征点的索引,
(2)时序一致性调制。在小样本视频分割任务中,仅使用支撑集中的信息是不够的,还需要联合建模蕴含在质询视频中的时序一致性信息。给定视频上一帧的特征
从历史帧获取的前景和背景表征可以充分建模视频中的时序信息,使用一种前景和背景注意力机制将这种时序信息进行提取并用于调制当前视频帧的特征矩阵。前景表征p
其中
表示背景激活图,x,y,k,n分别是高、宽、通道和前景表征的索引,在这里表示坐标。将得到的前景激活图/>
其中
本发明可应用于视频分割相关的应用系统中,系统仅需预设少量支撑图像,即可对大量输入视频中的同类目标进行分割,广泛应用于自动驾驶、视频编辑、增强现实等场景。在实施上,可以以软件形式嵌入到移动设备中,提供实时视频的目标分割结果;也可以安装在后台服务器中,批量化处理请求的视频。
通过DAN、TTI和本专利提出的方法在YouTube-VIS数据测试,本专利所提出的方法在小样本视频分割数据集YouTube-VIS上的准确度性能达到了业界最高水平。
表1:在YouTube-VIS数据集上的实验结果对比。
本申请实施例公开一种基于语义对齐和时间一致性的视频分割系统,包括:
接收模块:接收支撑图像、目标掩膜标注和待分割的质询视频帧;
提取模块:从支撑图像和待分割的质询视频帧中提取支撑特征和质询特征;
特征对齐模块:将支撑特征中的目标信息压缩得到粗糙表征,计算粗糙表征的前景概率得到粗粒度对齐的结果;计算支撑特征和质询特征的注意力大小,得到支撑特征和质询特征的逐点相似性;基于目标掩膜标注确定支撑特征的分布,基于粗粒度对齐的结果确定质询特征的分布;以逐点相似性作为代价矩阵,以支撑特征的分布和质询特征的分布作为边缘分布,得到最优传输矩阵;将最优传输矩阵施加到注意力上完成信息传递,得到最终质询集的聚合特征;
时序一致性调制模块:提取质询视频的上一帧的时序信息,基于时序信息调制质询视频的特征矩阵得到前景激活图和背景激活图;将前景激活图和背景激活图融合得到时序引导图,通过时序引导图调制聚合特征;
输出模块:通过解码器处理调制后的聚合特征,得视频分割结果;
本申请实施例还公开一种终端设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,其中,处理器执行计算机程序时,采用了上述实施例中的任意一种基于语义对齐和时间一致性的视频分割方法。
其中,终端设备可以采用台式电脑、笔记本电脑或者云端服务器等计算机设备,并且,终端设备包括但不限于处理器以及存储器,例如,终端设备还可以包括输入输出设备、网络接入设备以及总线等。
其中,处理器可以采用中央处理单元(CPU),当然,根据实际的使用情况,也可以采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以采用微处理器或者任何常规的处理器等,本申请对此不做限制。
其中,存储器可以为终端设备的内部存储单元,例如,终端设备的硬盘或者内存,也可以为终端设备的外部存储设备,例如,终端设备上配备的插接式硬盘、智能存储卡(SMC)、安全数字卡(SD)或者闪存卡(FC)等,并且,存储器还可以为终端设备的内部存储单元与外部存储设备的组合,存储器用于存储计算机程序以及终端设备所需的其他程序和数据,存储器还可以用于暂时地存储已经输出或者将要输出的数据,本申请对此不做限制。
其中,通过本终端设备,将上述实施例中的任意一种基于语义对齐和时间一致性的视频分割方法存储于终端设备的存储器中,并且,被加载并执行于终端设备的处理器上,方便使用。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
- 基于视频时序信息的视频语义分析方法和装置
- 一种视频语义分割装置、训练方法以及视频语义分割方法
- 一种基于阶段性特征语义对齐的实时街景图像语义分割方法