掌桥专利:专业的专利平台
掌桥专利
首页

运动分割方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:30:30


运动分割方法、装置、电子设备及存储介质

技术领域

本发明涉及视频数据处理技术领域,尤其涉及一种运动分割方法、装置、电子设备及存储介质。

背景技术

视频压缩算法及应用的快速发展,带来了海量的视频数据。视频中蕴含了丰富的信息,然而,由于视频数据巨大,不像文字直接表示出了抽象概念,因此视频信息的提取及结构化相对复杂。

目前,视频信息的提取主要是对视频中运动或静止的目标对象进行分类,因此需要对视频进行运动分割。而基于非深度学习的运动分割方法大多采用人工启发的方式,普遍误分类率较高,难以突破分类精度的瓶颈。基于传统的卷积神经网络架构实现的运动分割方法则只能对运动对象的局部信息进行学习,无法针对运动对象的全局信息进行有效学习,进而无法保证运动分割结果的准确性。

发明内容

本发明提供一种运动分割方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。

本发明提供一种运动分割方法,包括:

获取视频片段的各视频帧中的目标关键点信息;

将所述目标关键点信息输入至运动分割模型,得到所述运动分割模型输出的所述目标关键点信息所属的目标对象的目标类别;

其中,所述运动分割模型基于视频样本的各视频帧样本中样本对象的样本关键点信息以及所述样本对象的类别标签训练得到;

所述运动分割模型用于对所述目标关键点信息顺次进行多层注意力特征提取,得到目标点特征;对所述目标点特征进行池化操作,得到第一全局特征;将所述目标点特征与所述第一全局特征进行特征融合,得到第二全局特征;对所述第二全局特征进行解码,得到所述目标类别。

根据本发明提供的一种运动分割方法,所述将所述目标关键点信息输入至运动分割模型,得到所述运动分割模型输出的所述目标关键点信息所属的目标对象的目标类别,包括:

将所述目标关键点信息输入至所述运动分割模型的点嵌入模块,利用所述点嵌入模块对所述目标关键点信息进行维度转换、线性变换、归一化以及非线性变换,得到所述点嵌入模块输出的初始点特征;

将所述初始点特征输入至所述运动分割模型的注意力模块,利用所述注意力模块对所述初始点特征迭代进行多层注意力特征提取,并基于最后一层提取的注意力特征以及所述初始点特征,得到所述注意力模块输出的所述目标点特征;

将所述目标点特征输入至所述运动分割模型的特征融合模块,利用所述特征融合模块对所述目标点特征进行池化操作,得到第一全局特征,并将所述目标点特征与所述第一全局特征进行特征融合,得到所述特征融合模块输出的所述第二全局特征;

将所述第二全局特征输入至所述运动分割模型的分类头模块,利用所述分类头模块对所述第二全局特征进行解码,得到所述目标类别。

根据本发明提供的一种运动分割方法,所述基于最后一层提取的注意力特征以及所述初始点特征,得到所述注意力模块输出的所述目标点特征,包括:

确定所述初始点特征与所述最后一层提取的注意力特征之间的偏移特征;

将所述偏移特征进行维度转换、线性变换、归一化以及非线性变换,并基于所述最后一层提取的注意力特征,得到所述目标点特征。

根据本发明提供的一种运动分割方法,所述利用所述特征融合模块对所述目标点特征进行池化操作,得到第一全局特征,包括:

利用所述特征融合模块对所述目标点特征分别进行最大池化操作和平均池化操作,得到最大池化结果以及平均池化结果;

将所述最大池化结果与所述平均池化结果进行融合,得到所述第一全局特征。

根据本发明提供的一种运动分割方法,所述利用所述分类头模块对所述第二全局特征进行解码,得到所述目标类别,包括:

利用所述分类头模块对所述第二全局特征进行维度转换、线性变换、归一化以及非线性变换,得到备选特征;

将所述备选特征进行线性变换,得到所述目标类别。

根据本发明提供的一种运动分割方法,所述线性变换基于卷积操作实现。

根据本发明提供的一种运动分割方法,所述运动分割模型基于如下步骤训练得到:

将所述样本关键点信息输入至初始分割模型,得到所述初始分割模型的输出结果;

基于所述输出结果以及所述类别标签,采用BCEWithLogitsLoss函数,计算模型损失;

以最小化所述模型损失为优化目标,对所述初始分割模型的模型参数进行迭代优化,得到所述运动分割模型。

本发明还提供一种运动分割装置,包括:

获取模块,用于获取视频片段的各视频帧中的目标关键点信息;

分割模块,用于将所述目标关键点信息输入至运动分割模型,得到所述运动分割模型输出的所述目标关键点信息所属的目标对象的目标类别;

其中,所述运动分割模型基于视频样本的各视频帧样本中样本对象的样本关键点信息以及所述样本对象的类别标签训练得到;

所述运动分割模型用于对所述目标关键点信息顺次进行多层注意力特征提取,得到目标点特征;对所述目标点特征进行池化操作,得到第一全局特征;将所述目标点特征与所述第一全局特征进行特征融合,得到第二全局特征;对所述第二全局特征进行解码,得到所述目标类别。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的运动分割方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的运动分割方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的运动分割方法。

与现有技术相比,本发明具有如下有益效果:

本发明提供的运动分割方法、装置、电子设备及存储介质,该方法首先获取视频片段的各视频帧中的目标关键点信息;然后将目标关键点信息输入至运动分割模型,得到运动分割模型输出的目标关键点信息所属的目标对象的目标类别。该方法采用的运动分割模型基于视频样本的各视频帧样本中样本对象的样本关键点信息以及所述样本对象的类别标签训练得到。该运动分割模型用于对目标关键点信息顺次进行多层注意力特征提取,得到目标点特征;对目标点特征进行池化操作,得到第一全局特征;将目标点特征与第一全局特征进行特征融合,得到第二全局特征;对第二全局特征进行解码,得到目标类别。通过引入运动分割模型,可以代替人工启示的实现方式,降低误分类率,使分类结果更准确,可以有效突破非深度学习运动分割的精度瓶颈。而且,运动分割模型通过引入多层注意力特征提取,可以增加感受野,从传统卷积结构的局部感受野扩展到整个视频帧。通过引入全局特征,可以增加运动分割模型的特征学习维度,进一步提升分类结果的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的运动分割方法的流程示意图之一;

图2是本发明提供的运动分割方法的流程示意图之二;

图3为本发明提供的运动分割方法中采用的运动分割模型中注意力模块的结构示意图;

图4是本发明提供的运动分割方法的流程示意图之三;

图5是本发明提供的运动分割装置的结构示意图;

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

由于现有技术中在对视频进行运动分割时所采用的基于非深度学习的运动分割方法,普遍误分类率较高,难以突破分类精度的瓶颈。而基于传统的卷积神经网络架构实现的运动分割方法则只能对运动对象的局部信息进行学习,无法针对运动对象的全局信息进行有效学习,进而无法保证运动分割结果的完整性和准确性。

为此,本发明实施例中提供了一种运动分割方法。

图1为本发明实施例中提供的一种运动分割方法的流程示意图,如图1所示,该运动分割方法包括:

S1,获取视频片段的各视频帧中的目标关键点信息;

S2,将所述目标关键点信息输入至运动分割模型,得到所述运动分割模型输出的所述目标关键点信息所属的目标对象的目标类别;

其中,所述运动分割模型基于视频样本的各视频帧样本中样本对象的样本关键点信息以及所述样本对象的类别标签训练得到;

所述运动分割模型用于对所述目标关键点信息顺次进行多层注意力特征提取,得到目标点特征;对所述目标点特征进行池化操作,得到第一全局特征;将所述目标点特征与所述第一全局特征进行特征融合,得到第二全局特征;对所述第二全局特征进行解码,得到所述目标类别。

具体地,本发明实施例中提供的运动分割方法,其执行主体为运动分割装置,该装置可以配置于计算机内,该计算机可以为本地计算机或云计算机,本地计算机可以是电脑、平板等,此处不作具体限定。

首先执行步骤S1,获取视频片段的各视频帧中的目标关键点信息。视频片段的长度可以根据需要进行设置,视频片段中包含的视频帧的个数也可以根据需要进行设置,此处不作具体限定。

从每一视频帧中均可以提取得到目标关键点信息,目标关键点信息可以包括视频帧中的目标关键点的位置信息及其相关信息,相关信息可以包括目标关键点对应的颜色信息、邻域信息等表观信息。此处,视频片段的各视频帧中的目标关键点信息可以组成信息集合。

然后执行步骤S2,将目标关键点信息输入至运动分割模型,即将信息集合输入至运动分割模型,利用该运动分割模型对目标关键点信息进行编码和解码,以对各视频帧中的目标关键点进行分类,进而得到目标关键点信息所属的目标对象的目标类别。

每一视频帧中可以包括一个或多个目标对象,每一视频帧中的目标关键点信息可以覆盖该视频帧中的所有目标对象。进而,通过运动分割模型,可以得到各视频帧中的所有目标对象的目标类别。

此处,运动分割模型的输出结果的形式可以是各视频帧中带有目标类别的目标关键点。

该运动分割模型可以利用视频样本的各视频帧样本中样本对象的样本关键点信息以及样本对象的类别标签,对初始分割模型进行训练得到。

在对初始分割模型进行训练得到运动分割模型时,可以先将样本关键点信息输入至初始分割模型,得到初始分割模型的输出结果,然后通过类别标签以及输出结果计算损失函数,更新初始分割模型的结构参数,重新计算损失函数,当损失函数收敛时即得到训练好的初始分割模型,即运动分割模型。

该运动分割模型可以对目标关键点信息进行编码,即先利用注意力机制,对目标关键点信息顺次进行多层注意力特征提取,得到目标点特征。该目标点特征可以通过特征图的形式进行表征,可以称之为目标点特征图。

其中,多层注意力特征提取可以采用多层自注意力操作实现,通过自注意力操作,可以自动计算出输入数据对输出数据的关联度,并学习目标关键点与目标关键点之间的语义关系,进而得到目标点特征。通过目标关键点与目标关键点之间的语义关系,可以帮助捕捉各目标对象之间的全局信息表征,建立长距离依赖关系,以提取更充分的第二全局特征,解除传统深度神经网络的全局信息访问限制的问题。此处,自注意力操作的层数可以根据需要进行设置,例如可以设置为大于2层,也可以设置为其他层数,此处不作具体限定。

然后,运动分割模型可以对目标点特征进行池化操作,得到第一全局特征。该第一全局特征可以通过特征图的形式进行表征,可以称之为第一全局特征图。池化操作可以是最大池化操作,也可以是平均池化操作,还可以是最大池化操作以及平均池化操作。第一全局特征可以包括多个,每个第一全局特征分别用于表征一个目标对象初步的全局信息。

然后,运动分割模型可以将目标点特征与第一全局特征进行特征融合,得到第二全局特征。第二全局特征可以包括多个,每个第二全局特征分别用于表征一个目标对象更充分的全局信息。该第二全局特征可以通过特征图的形式进行表征,可以称之为第二全局特征图。特征融合的方式可以是将目标点特征与第一全局特征进行拼接,例如可以直接将目标点特征图拼接在第一全局特征图之后,也可以通过其他方式进行拼接,此处不作具体限定。

至此,运动分割模型对目标关键点信息的编码过程结束,得到的编码结果即为第二全局特征。

最后,运动分割模型可以对第二全局特征进行解码,得到目标关键点信息所属的目标对象的目标类别。解码的过程可以理解为是将特征空间映射至类别空间,得到类别空间内的目标对象的目标类别。

本发明实施例中提供的运动分割方法,首先获取视频片段的各视频帧中的目标关键点信息;然后将目标关键点信息输入至运动分割模型,得到运动分割模型输出的目标关键点信息所属的目标对象的目标类别。该方法采用的运动分割模型基于视频样本的各视频帧样本中样本对象的样本关键点信息以及所述样本对象的类别标签训练得到。该运动分割模型用于对目标关键点信息顺次进行多层注意力特征提取,得到目标点特征;对目标点特征进行池化操作,得到第一全局特征;将目标点特征与第一全局特征进行特征融合,得到第二全局特征;对第二全局特征进行解码,得到目标类别。通过引入运动分割模型,可以代替人工启示的实现方式,降低误分类率,使分类结果更准确,可以有效突破非深度学习运动分割的精度瓶颈。而且,运动分割模型通过引入多层注意力特征提取,可以增加感受野,从传统卷积结构的局部感受野扩展到整个视频帧。通过引入全局特征,可以增加运动分割模型的特征学习维度,进一步提升分类结果的准确性。

在上述实施例的基础上,本发明实施例中提供的运动分割方法,所述将所述目标关键点信息输入至运动分割模型,得到所述运动分割模型输出的所述目标关键点信息所属的目标对象的目标类别,包括:

将所述目标关键点信息输入至所述运动分割模型的点嵌入模块,利用所述点嵌入模块对所述目标关键点信息进行维度转换、线性变换、归一化以及非线性变换,得到所述点嵌入模块输出的初始点特征;

将所述初始点特征输入至所述运动分割模型的注意力模块,利用所述注意力模块对所述初始点特征迭代进行多层注意力特征提取,并基于最后一层提取的注意力特征以及所述初始点特征,得到所述注意力模块输出的所述目标点特征;

将所述目标点特征输入至所述运动分割模型的特征融合模块,利用所述特征融合模块对所述目标点特征进行池化操作,得到第一全局特征,并将所述目标点特征与所述第一全局特征进行特征融合,得到所述特征融合模块输出的所述第二全局特征;

将所述第二全局特征输入至所述运动分割模型的分类头模块,利用所述分类头模块对所述第二全局特征进行解码,得到所述目标类别。

具体地,本发明实施例中采用的运动分割模型可以包括顺次连接的点嵌入模块、注意力模块、特征融合模块以及分类头模块。

在利用运动分割模型时,可以先将目标关键点信息输入至点嵌入模块,利用点嵌入模块对目标关键点信息进行维度转换、线性(Linear)变换、归一化(Batch-Norm)以及非线性变换,得到点嵌入模块输出的初始点特征。该点嵌入模块可以为两级级联的前馈神经网络(Linear Batch-Norm Relu,LBR),它可以类似于自然语言处理中的词嵌入。每个目标关键点除了以其独特的位置信息驻留在空间之外,还可能是各自目标对象的一个组成部分。该点嵌入模块可以将目标关键点信息由低维稀疏的特征空间映射到高维的特征空间,然后对目标关键点信息进行线性和非线性运算,使其更容易拟合到目标函数。

该点嵌入模块的嵌入维度可以为128,线性变换层的数量可以为2,该该点嵌入模块已在真实的自动驾驶数据集KT3DMoSeg上取得了优异的误分类率。另外,线性转换过程完全由卷积操作实现,有效避免全连接操作带来的巨额参数量。非线性变换由激活函数(Relu)实现。

此后,可以将点嵌入模块输出的初始点特征输入至注意力模块,利用注意力模块可以对初始点特征迭代进行多层注意力特征提取,并结合最后一层提取的注意力特征以及初始点特征,可以得到注意力模块输出的目标点特征。

注意力模块可以将初始点特征

通过Q×K可以得到与目标对象相关的所有目标关键点的分数,通过分数的大小,将所有的目标关键点的特征分解为与目标对象相关性较强的部分和相关性较弱的部分,注意力模块将关注相关性较强的内容。详细的数学过程如下:

其中,

此后,在每层注意力特征提取时,均使用查询矩阵Q和关键矩阵K,通过矩阵点积得到属于目标对象内点的注意力权重:

每层提取的注意力特征

在得到最后一层提取的注意力特征之后,可以先确定初始点特征与最后一层提取的注意力特征之间的偏移特征,该偏移特征可以表示为

然后可以将偏移特征进行维度转换、线性变换、归一化以及非线性变换,并结合最后一层提取的注意力特征,得到目标点特征。此处,可以将偏移特征经过一级级联的LBR实现维度转换、线性变换、归一化以及非线性变换。一级级联的LBR类似于点嵌入,使用共享神经网络将坐标点嵌入另一个维度空间以显示语义亲和力。类似地,这里的线性变换也是使用卷积操作。

至此,注意力模块输出的目标点特征

注意力模块可以输出各视频帧中每个目标对象的目标点特征。

此后,可以将注意力模块输出的目标点特征输入至特征融合模块,利用特征融合模块对目标点特征进行池化操作,得到第一全局特征。

特征融合模块可以先对目标点特征分别进行最大池化操作和平均池化操作,得到最大池化结果以及平均池化结果。池化的主要目的是集成目标点特征并获得更好的特征响应。

然后,可以将最大池化结果与平均池化结果进行融合,得到第一全局特征。

此后,将目标点特征与第一全局特征进行特征融合,得到特征融合模块输出的第二全局特征。

最后,将第二全局特征输入至运动分割模型的分类头模块,利用分类头模块对第二全局特征进行解码,得到目标类别。

分类头模块可以采用两级级联的LBR和一级通用线性变换操作实现,即先对第二全局特征进行维度转换、线性变换、归一化以及非线性变换,得到备选特征;然后将备选特征进行线性变换,得到目标类别。

两级LBR通过将每个目标对象的第二全局特征嵌入到低维空间中来操作,表示空间当中多个目标对象之间的语义亲和力。此外,线性和非线性操作的组合使得学习到的关于目标对象的信息能更好地拟合目标函数。然后,通过线性变换将每个目标对象的点特征的类别信息嵌入到类别空间中。此处,线性变换也是使用卷积操作。

分类头模块中线性变换层数可以为4,在KT3DMoSeg上获得的结果证明,分类头模块已取得了不错的增益。

本发明实施例中,运动分割模型可以高度并行化训练,在保证优秀性能的同时,还可以展现高效的运动分割速度,提高运动分割效率。

在上述实施例的基础上,本发明实施例中提供的运动分割方法,所述运动分割模型基于如下步骤训练得到:

将所述样本关键点信息输入至初始分割模型,得到所述初始分割模型的输出结果;

基于所述输出结果以及所述类别标签,采用BCEWithLogitsLoss函数,计算模型损失;

以最小化所述模型损失为优化目标,对所述初始分割模型的模型参数进行迭代优化,得到所述运动分割模型。

具体地,本发明实施例中,在对初始分割模型进行训练得到运动分割模型的过程中,可以将BCEWithLogitsLoss函数作为初始分割模型的损失函数(L),它由Sigmoid和BCELoss组合而成。该损失函数在数值上比普通的BCELoss更稳定,Sigmoid将操作组合在一个层中,并利用对数和指数的特性提高数值稳定性。

BCEWithLogitsLoss函数可以表示为:

其中,

本发明实施例中采用Adam优化器最小化模型损失。

本发明实施例中,为验证上述运动分割方法是否可以适用于多类分割问题,在测试过程中,对运动分割模型的输出结果应用标准的K-means算法。在测试过程中,不需要指定要分割的目标对象的类别。如果需要估计的目标对象的类别数量为

其中,

已经证明,对

如图2所示,在上述实施例的基础上,本发明实施例中提供的运动分割方法包括:

对于输入的视频片段的各视频帧中的目标关键点信息X(N×D),D为各视频帧中的目标关键点信息的维度,先经过运动分割模型的点嵌入模块得到初始点特征

初始点特征

目标点特征

第二全局特征经运动分割模型的分类头的两级级联的LBR以及一级通用线性变换操作后得到输出的目标类别Z(N×K)。其中,两级级联的LBR中第一级级联的LBR的维度是384,第二级级联的LBR的维度是128,目标类别的个数为K。

图3为本发明实施例中提供的运动分割方法中采用的运动分割模型中注意力模块的结构示意图。

如图3所示,注意力模块的输入为初始点特征

图3中,T表示转置,SS表示

综上所述,如图4所示,运动分割模型在得到目标类别的过程中,首先对输入的目标关键点信息顺次进行多层注意力特征提取,计算关键点的权重信息,重点关注属于目标对象内部的目标关键点的复杂关系,得到目标点特征。并基于运动分割模型的多层结构,建立起长距离的依赖,大大提升运动分割模型对目标对象的描述能力。其次,对目标点特征进行池化操作,得到第一全局特征;将目标点特征与第一全局特征进行特征融合,得到第二全局特征,通过充分融合高低层的关键点特征来提升对目标对象的分割精度;然后,通过分类头模块,对第二全局特征进行解码,将其映射到低维的分类空间,表达目标关键点之间的语义亲和性,并将特征点解码为目标类别;最后输出带有所属目标对象的目标类别的目标关键点。

本发明实施例中的运动分割模型是用PyTorch实现的,并在A100 PCIE-40GB-GPU设备上运行。该运动分割模型没有使用任何预先训练的模型,而是使用随机模型权重开始训练。另外,对于本发明实施例中提及的所有运动分割任务,都是训练300次,保持学习率始终为1×10

表1给出了本发明实施例中的运动分割模型在KT3DMoSeg数据集上的实验结果,并与现有主流运动分割算法在误分类率上做了比较。无论是普通设置还是增强设置,本发明实施例中的运动分割模型在22个KT3DMoSeg序列中实现了比现有方法更先进的性能。具体而言,本发明实施例中的运动分割模型在普通设置中达到了7.23%的误分类率均值,在增强设置中实现了5.22%的误分类率均值。该识别率充分证明了本发明实施例中的运动分割模型的注意力模块在学习多个目标对象复杂关系方面的优势。

表1 本发明实施例中的运动分割模型与主流运动分割算法在在KT3DMoSeg上的性能对比表

表1中将普通设置和增强设置的性能用“/”分隔。

表2给出了本发明实施例中的运动分割模型在AdelaideRMF数据集上的实验结果,并与现有优异方法进行了比较,就误分类率而言,本发明实施例中的运动分割模型得到了4.76%的误分类率均值,对运动目标的分割效果优异,远高于现有优异方法,这也是得益于运动分割模型中的注意力模块能够捕捉到运动目标的多尺度信息,充分学习到它们更全面的特征表征。

表2 本发明实施例中的运动分割模型与现有优异方法在AdelaideRMF上的性能对比表

如图5所示,在上述实施例的基础上,本发明实施例中提供了一种运动分割装置,包括:

获取模块51,用于获取视频片段的各视频帧中的目标关键点信息;

分割模块52,用于将所述目标关键点信息输入至运动分割模型,得到所述运动分割模型输出的所述目标关键点信息所属的目标对象的目标类别;

其中,所述运动分割模型基于视频样本的各视频帧样本中样本对象的样本关键点信息以及所述样本对象的类别标签训练得到;

所述运动分割模型用于对所述目标关键点信息顺次进行多层注意力特征提取,得到目标点特征;对所述目标点特征进行池化操作,得到第一全局特征;将所述目标点特征与所述第一全局特征进行特征融合,得到第二全局特征;对所述第二全局特征进行解码,得到所述目标类别。

在上述实施例的基础上,本发明实施例中提供的运动分割装置,所述分割模块,具体用于:

将所述目标关键点信息输入至所述运动分割模型的点嵌入模块,利用所述点嵌入模块对所述目标关键点信息进行维度转换、线性变换、归一化以及非线性变换,得到所述点嵌入模块输出的初始点特征;

将所述初始点特征输入至所述运动分割模型的注意力模块,利用所述注意力模块对所述初始点特征迭代进行多层注意力特征提取,并基于最后一层提取的注意力特征以及所述初始点特征,得到所述注意力模块输出的所述目标点特征;

将所述目标点特征输入至所述运动分割模型的特征融合模块,利用所述特征融合模块对所述目标点特征进行池化操作,得到第一全局特征,并将所述目标点特征与所述第一全局特征进行特征融合,得到所述特征融合模块输出的所述第二全局特征;

将所述第二全局特征输入至所述运动分割模型的分类头模块,利用所述分类头模块对所述第二全局特征进行解码,得到所述目标类别。

在上述实施例的基础上,本发明实施例中提供的运动分割装置,所述分割模块,具体用于:

确定所述初始点特征与所述最后一层提取的注意力特征之间的偏移特征;

将所述偏移特征进行维度转换、线性变换、归一化以及非线性变换,并基于所述最后一层提取的注意力特征,得到所述目标点特征。

在上述实施例的基础上,本发明实施例中提供的运动分割装置,所述分割模块,具体用于:

利用所述特征融合模块对所述目标点特征分别进行最大池化操作和平均池化操作,得到最大池化结果以及平均池化结果;

将所述最大池化结果与所述平均池化结果进行融合,得到所述第一全局特征。

在上述实施例的基础上,本发明实施例中提供的运动分割装置,所述分割模块,具体用于:

利用所述分类头模块对所述第二全局特征进行维度转换、线性变换、归一化以及非线性变换,得到备选特征;

将所述备选特征进行线性变换,得到所述目标类别。

在上述实施例的基础上,本发明实施例中提供的运动分割装置,所述线性变换基于卷积操作实现。

在上述实施例的基础上,本发明实施例中提供的运动分割装置,还包括训练模块,用于:

将所述样本关键点信息输入至初始分割模型,得到所述初始分割模型的输出结果;

基于所述输出结果以及所述类别标签,采用BCEWithLogitsLoss函数,计算模型损失;

以最小化所述模型损失为优化目标,对所述初始分割模型的模型参数进行迭代优化,得到所述运动分割模型。

具体地,本发明实施例中提供的运动分割装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。

图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(Processor)610、通信接口(Communications Interface)620、存储器(Memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述各实施例中提供的运动分割方法,该方法包括:获取视频片段的各视频帧中的目标关键点信息;将所述目标关键点信息输入至运动分割模型,得到所述运动分割模型输出的所述目标关键点信息所属的目标对象的目标类别;其中,所述运动分割模型基于视频样本的各视频帧样本中样本对象的样本关键点信息以及所述样本对象的类别标签训练得到;所述运动分割模型用于对所述目标关键点信息顺次进行多层注意力特征提取,得到目标点特征;对所述目标点特征进行池化操作,得到第一全局特征;将所述目标点特征与所述第一全局特征进行特征融合,得到第二全局特征;对所述第二全局特征进行解码,得到所述目标类别。

此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例中提供的运动分割方法,该方法包括:获取视频片段的各视频帧中的目标关键点信息;将所述目标关键点信息输入至运动分割模型,得到所述运动分割模型输出的所述目标关键点信息所属的目标对象的目标类别;其中,所述运动分割模型基于视频样本的各视频帧样本中样本对象的样本关键点信息以及所述样本对象的类别标签训练得到;所述运动分割模型用于对所述目标关键点信息顺次进行多层注意力特征提取,得到目标点特征;对所述目标点特征进行池化操作,得到第一全局特征;将所述目标点特征与所述第一全局特征进行特征融合,得到第二全局特征;对所述第二全局特征进行解码,得到所述目标类别。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例中提供的运动分割方法,该方法包括:获取视频片段的各视频帧中的目标关键点信息;将所述目标关键点信息输入至运动分割模型,得到所述运动分割模型输出的所述目标关键点信息所属的目标对象的目标类别;其中,所述运动分割模型基于视频样本的各视频帧样本中样本对象的样本关键点信息以及所述样本对象的类别标签训练得到;所述运动分割模型用于对所述目标关键点信息顺次进行多层注意力特征提取,得到目标点特征;对所述目标点特征进行池化操作,得到第一全局特征;将所述目标点特征与所述第一全局特征进行特征融合,得到第二全局特征;对所述第二全局特征进行解码,得到所述目标类别。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种医学图像分割方法及装置、电子设备和存储介质
  • 电子设备的显示控制方法、装置、电子设备和存储介质
  • 电子设备控制方法及装置、电子设备及存储介质
  • 数据分布存储方法、装置、存储介质及电子设备
  • 存储清理方法、装置、电子设备及存储介质
  • 图像分割方法、图像分割装置、电子设备和存储介质
  • 图像分割方法、图像分割装置、存储介质及电子设备
技术分类

06120115936383