一种基于最优传输聚类的弱监督视频动作检测方法

文献发布时间：2024-05-31 01:29:11

技术领域

本公开涉及人工智能、动作检测、计算机视觉技术领域，具体涉及一种基于最优传输聚类的弱监督视频动作检测方法。

背景技术

视频动作检测的目的是准确识别视频中动作的类别并定位动作的开始和结束时间，在异常检测、智能监控、视频问答、视频摘要等领域有着广泛的应用。

传统的视频动作检测方法通常是基于全监督的，即首先利用动作类别标注以及有动作开始和结束时间的标注数据来训练模型，然后进行动作识别和定位。然而，全监督的方式依赖大量具有时域边界标注的视频数据，严重耗费时间和人力，从而限制了视频动作检测的拓展性和实用性。

为了减轻对已标注视频数据的依赖，可以基于弱监督的方式，利用较少的已标注视频数据训练模型以完成视频动作检测。然而，利用视频级别的动作类别标签进行弱监督训练时，训练的模型倾向于关注到动作的最核心片段且容易受到背景视频片段的干扰，导致存在动作定位不完整以及定位失败的问题。

发明内容

鉴于上述问题，本公开提供了一种基于最优传输聚类的弱监督视频动作检测方法。

根据本公开的第一个方面，提供了一种视频动作检测方法，包括：对待检测的输入视频进行特征提取，得到目标视频特征，其中，输入视频包括动作信息和背景信息；基于初始类心对目标视频特征进行聚类，得到目标类心，其中，初始类心包括初始动作类心和初始背景类心，目标类心表征聚类后的动作类心和背景类心；基于交叉注意力机制，确定目标类心与目标视频特征之间的注意力权重，其中，注意力权重用于表征目标类心与目标视频特征之间的相似程度；以及根据注意力权重和类别标签，确定针对输入视频的类别激活序列，其中，类别激活序列包括多个动作类别和一个背景类别；以及根据类别激活序列，确定动作信息的目标动作类别。

根据本公开的实施例，基于交叉注意力机制，确定目标类心与目标视频特征之间的注意力权重，包括：将目标类心输入第一全连接层，输出第一视频矩阵；将目标视频特征输入第二全连接层，输出第二视频矩阵；以及根据第一视频矩阵、第二视频矩阵的转置矩阵和目标视频特征的特征维度，确定注意力权重。

根据本公开的实施例，其中，该方法还包括：在对待检测的输入视频进行特征提取，得到目标视频特征之后，将目标视频特征输入分类器，输出类别标签。

根据本公开的实施例，输入视频包括以目标帧数为单位的M个视频片段，M个视频片段按照视频的播放顺序排列，M为大于等于1的正整数；类别激活序列包括针对每个视频片段的多个动作类别及其类别参数；根据类别激活序列，确定动作信息的目标动作类别，包括：针对每个动作类别，将M个视频片段对应的类别参数进行平均池化，得到针对每个动作类别的类别参数；以及基于类别参数，确定动作信息的目标动作类别。

根据本公开的实施例，该方法还包括：根据预设阈值和注意力权重，确定动作信息的开始时刻和结束时刻，以定位动作信息。

根据本公开的实施例，基于初始类心对目标视频特征进行聚类，得到目标类心，包括：将初始类心输入第三全连接层，输出第三视频矩阵；将目标视频特征输入第四全连接层，输出第四视频矩阵；以及根据第三视频矩阵、第四视频矩阵的转置矩阵、目标视频特征的特征维度和目标视频特征，确定目标类心。

本公开的第二方面，还提供了一种视频动作检测模型的训练方法，包括：将样本视频输入特征提取模块，输出样本视频特征，其中，样本视频包括动作信息和背景信息；将样本初始类心和样本视频特征输入动态聚类模块，输出样本类心，其中，样本初始类心包括样本初始动作类心和样本初始背景类心；将样本类心和样本视频特征输入动作检测模块，输出目标样本动作类别；其中，动作检测模块用于：基于交叉注意力机制，确定样本类心与样本视频特征之间的注意力权重，其中，注意力权重用于表征样本类心与样本视频特征之间的相似程度；以及根据注意力权重和类别标签，确定针对样本视频的类别激活序列，其中，类别激活序列包括多个动作类别和一个背景类别；根据类别激活序列，确定动作信息的目标样本动作类别；在目标损失函数的函数值满足预定条件的情况下，得到训练好的视频动作检测模型，其中，目标损失函数包括最优传输损失和分类损失，最优传输损失用于约束注意力权重；分类损失用于表征目标样本动作类别与标准标签之间的差异。

根据本公开的实施例，确定最优传输损失包括：利用目标迭代算法求解最优传输问题，得到最优传输规划参数；以及根据最优传输规划参数和注意力权重，确定最优传输损失。

本公开的第二方面提供了一种视频动作检测装置，用于实现上述视频动作检测方法。

本公开的第三方面提供了一种视频动作检测模型的训练装置，用于实现上述视频动作检测模型的训练方法。

本公开的第四方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述视频动作检测方法或视频动作检测模型的训练方法。

本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述视频动作检测方法或视频动作检测模型的训练方法。

本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述视频动作检测方法或视频动作检测模型的训练方法。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的视频动作检测方法或视频动作检测模型的训练方法的应用场景；

图2示意性示出了根据本公开实施例的视频动作检测方法的流程图；

图3示意性示出了根据本公开实施例的确定类别激活序列的流程图；

图4示意性示出了根据本公开实施例的确定目标类心的流程图；

图5示意性示出了根据本公开实施例视频动作检测模型的训练方法的数据流图；

图6示意性示出了根据本公开实施例的视频动作检测装置的结构框图；

图7示意性示出了根据本公开实施例的视频动作检测模型的训练装置的结构框图；以及

图8示意性示出了根据本公开实施例的适于视频动作检测方法或视频动作检测模型的训练方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本发明的技术方案中，所涉及的用户信息(包括但不限于用户个人信息、用户图像信息、用户设备信息，例如位置信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理，均遵守相关国家和地区的相关法律法规和标准，采取了必要保密措施，不违背公序良俗，并提供有相应的操作入口，供用户选择授权或者拒绝。

针对利用视频级别的动作类别标签进行弱监督训练导致的动作定位不精准以及动作定位不完成的问题，本公开提出了一种基于最优传输聚类的弱监督视频动作检测方法。在模型训练和动作检测时，利用最优传输算法对视频中的动作和背景片段进行聚类，从而实现对视频片段进行动态处理，进而提高动作检测的鲁棒性、动作定位准确性、完整性。

图1示意性示出了根据本公开实施例的视频动作检测方法或视频动作检测模型的训练方法的应用场景。

如图1所示，根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

例如，本公开提供的视频动作检测方法可以由第一终端设备101、第二终端设备102、第三终端设备103执行，例如，以软件、端到端网络模型的方式执行，以便用户在终端设备本地实现实时视频动作识别和定位。

服务器105可以是提供各种服务的服务器，例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。

例如，本公开提供的视频动作检测方法可以由服务器105执行。用户通过第一终端设备101、第二终端设备102、第三终端设备103向服务器105发送待检测的输入视频，由服务器105执行视频动作检测方法并向第一终端设备101、第二终端设备102、第三终端设备103返回确定的目标动作类别，实现批量视频数据的识别和定位。再例如，视频动作检测模型的训练方法也可以由服务器105执行。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的视频动作检测方法的流程图。

如图2所示，该方法200包括操作S210～S250。

在操作S210，对待检测的输入视频进行特征提取，得到目标视频特征，其中，输入视频包括动作信息和背景信息；

在操作S220，基于初始类心对目标视频特征进行聚类，得到目标类心，其中，初始类心包括初始动作类心和初始背景类心，目标类心表征聚类后的动作类心和背景类心；

在操作S230，基于交叉注意力机制，确定目标类心与目标视频特征之间的注意力权重，其中，注意力权重用于表征目标类心与目标视频特征之间的相似程度；以及

在操作S240，根据注意力权重和类别标签，确定针对输入视频的类别激活序列，其中，类别激活序列包括多个动作类别和一个背景类别；以及

在操作S250，根据类别激活序列，确定动作信息的目标动作类别。

根据本公开的实施例，对于待检测的输入视频，输入视频的每帧至少包括背景信息；对于存在视频动作的视频帧，该视频帧中同时存在动作信息和背景信息。

根据本公开的实施例，对待检测的输入视频进行特征提取时，不区分动作信息和背景信息，提取后的目标视频特征也同时包括动作信息和背景信息。

根据本公开的实施例，可以通过图像特征提取算法或网络实现特征提取操作。例如，可以将输入视频输入经过预训练的Inflated 3D ConvNet(I3D网络)，以便从输入视频中提取特征。

作为一个具体实施例，还可以在I3D网络后增加一个卷积层，以便对I3D网络输出的特征进行卷积，得到目标视频特征。

在本公开的实施例中，在对输入视频进行特征提取之前，可以按照目标帧数为单位对输入视频进行切分，得到多个视频片段。之后，再对多个视频片段的每个视频片段进行特征提取。

根据本公开的实施例，由于目标视频特征中并未区分背景信息和动作信息，因此，可以通过聚类操作将目标视频特征中的背景信息和动作信息区分开。

根据本公开的实施例，初始类心包括初始动作类心和初始背景类心，分别用于建模动作信息和背景信息。初始动作类心和初始背景类心的形式可以为向量。初始动作类心和初始背景类心可以是随机确定的。例如，初始动作类心和初始背景类心可以为0。

在本公开的实施例中，通过将初始动作类心和初始背景类心分别与目标视频特征进行聚类，可以将目标视频特征中表征动作信息的特征汇聚至以目标动作类心为类心的一簇中，同时将目标视频特征中表征背景信息的特征汇聚至以目标背景类心为类心的一簇中，实现背景信息和动作信息的区分。

根据本公开的实施例，目标类心包括目标动作类心和目标背景类心，由此，在通过交叉注意力机制确定目标类心与目标视频特征之间的注意力权重时，可以通过注意力权重表征目标动作类心和目标背景类心分别与目标视频特征的相似程度，从而实现动作分类和背景分类。

在存在多个输入视频的情况下，每个输入视频的动作信息可能不同于其他输入视频的动作信息，背景信息也可能不同于其他输入视频的背景信息。对于同一个输入视频中多个视频片段，每个视频片段的动作信息和背景信息也可能不同于其他视频片段的动作信息和背景信息，即目标类心是动态变化的，并非是固定不变的，由此，目标类心也称为动态类心。

根据本公开的实施例，为了有效利用类别标签表征的信息，将类别标签与注意力权重进行融合。类别标签可以是通过分类器对目标视频特征进行分类后得到的初始动作类别。

类别标签的形式可以为向量形式。类别标签中包括针对每个动作类型、背景类别的初始分类分数。对于将注意力权重和类别标签融合得到的类别激活序列，类别激活序列中也包括每个动作类别、背景类别的分类分数。由此，根据每个动作类型、背景类别的分类分数，可以确定与输入视频包含的动作信息对应的目标动作类别。例如，可以将分类分数最高的动作类别确定为目标动作类别。

本公开的实施例通过引入动态聚类过程，不仅能够实现动态处理多样化的视频数据，还能够根据聚类后的目标类心有效去除视频动作检测过程中由背景导致的模糊性问题。此外，由于注意力权重能够表征目标类心与目标视频特征之间的相似程度，因此，将注意力权重与类别标签进行融合后，能够确定更准确的动作识别结果，最终实现视频级别的精确、鲁棒动作检测。

根据本公开的实施例，第一全连接层和第二全连接层的结构可以相同也可以不同，用于分别对目标类心和目标视频特征进行卷积、特征提取等操作。

根据本公开的实施例，计算注意力权重的一个示例参见下述公式(1)：

其中，C

图3示意性示出了根据本公开实施例的确定类别激活序列的流程图。

如图3所示，将目标类心输入第一全连接层，输出第一视频矩阵；将目标视频特征输入第二全连接层，输出第二视频矩阵，可以结合目标视频特征的特征维度将第一视频矩阵和第二视频矩阵融合，得到注意力权重。

之后，还可以结合注意力权重和类别标签，确定类别激活序列。

根据本公开的实施例，对初始类心和目标视频特征进行聚类，得到目标类心，包括：将初始类心输入第三全连接层，输出第三视频矩阵；将目标视频特征输入第四全连接层，输出第四视频矩阵；以及根据第三视频矩阵、第四视频矩阵的转置矩阵、目标视频特征的特征维度和目标视频特征，确定目标类心。

图4示意性示出了根据本公开实施例的确定目标类心的流程图。

如图4所示，将初始类心输入第三全连接层，输出第三视频矩阵；将目标视频特征输入第四全连接层，输出第四视频矩阵。之后，将第三视频矩阵、第四视频矩阵融合得到目标类心。

根据本公开的实施例，第三全连接层和第四全连接层的结构可以相同也可以不同，用于分别对初始类心和目标视频特征进行卷积、特征提取等操作。需要说明的是，由于目标类心包括与动作信息和背景信息对应的类心，如目标动作类心和目标背景类心，因此，对目标类心的操作可以理解为对与动作信息和背景信息对应的类心进行相同的操作，为了避免重复，之后仅描述对目标类心的操作。

根据本公开的实施例，第一全连接层、第二全连接层、第三全连接层和第四全连接层的结构可以相同也可以不同。

根据本公开的实施例，确定动态类心的一个示例参见下述公式(2)：

其中，初始类心C

根据本公开的实施例，输入视频包括以目标帧数为单位的M个视频片段，M个视频片段按照视频的播放顺序排列，M为大于等于1的正整数。类别激活序列包括针对每个视频片段的多个动作类别及其类别参数。

根据类别激活序列，确定动作信息的目标动作类别，包括：针对每个动作类别，将M个视频片段对应的类别参数进行平均池化，得到针对每个动作类别的类别参数；以及基于类别参数，确定动作信息的目标动作类别。例如，目标帧数可以为16帧。

作为本公开的另一个具体实施例，在对输入视频进行切分时，如果最后一个视频片段的帧数小于目标帧数，可以删除最后一个视频片段。

根据本公开的实施例，将输入视频划分为M个视频片段后，M个视频片段按照时间顺序依次排列。对于类别激活序列，针对每个视频片段均存在对应的多个动作类别及其类别参数，类别参数可以为分类分数。

需要说明的是，由于本公开中目标类心包括针对动作信息的目标动作类心和针对背景信息的目标背景类心，因此，确定的类别激活序列包括第一类别激活序列和第二类别激活序列，分别用于表征针对目标动作类心的类别激活序列和针对目标背景类心的类别激活序列。

例如，以3个动作类别，输入视频包括3个视频片段为例，针对目标动作类心的第一类别激活序列可以为{[0.1，0.7，0.1，0.1]，[0.7，0.1，0.1，0.1]，[0.7，0.1，0.2，0]}。其中，[0.1，0.7，0.1，0.1]，[0.7，0.1，0.1，0.1]，[0.7，0.1，0.2，0]分别表征三个视频片段对应的类别及其类别参数。还需要说明的是，第一类别激活序列不仅包括动作类别及其类别参数，还包括一个背景类别及其类别参数。对于针对目标动作类心的第一类别激活序列，由于聚类操作已经对视频的背景信息和动作信息进行了区分，因此，第一类别激活序列中背景类别的类别参数比至少一个动作类别的类别参数低。

以[0.1，0.7，0.1，0.1]为例，基于从左到右的顺序，0.1可以表征动作类别1对应的类别参数，0.7表征动作类别2对应的类别参数，0.1可以表征动作类别3，0.1表征背景类别对应的类别参数。再例如，针对目标背景类心的第二类别激活序列可以为{[0.1，0.1，0.1，0.7]，[0，0.1，0.1，0.8]，[0，0，0.1，0.9]}，具体池化处理参见第一类别激活序列，在此不再赘述。

根据本公开的实施例，可以通过综合M个视频片段的类别参数，综合得到输入视频的目标动作类别和目标背景类别。具体地，针对每个动作类别，将M个视频片段对应的类别参数进行平均池化，得到针对每个动作类别的类别参数。如，对于动作类别1，平均池化后的得到的类别参数为：(0.1+0.7+0.7)/3＝0.5；对于动作类别2，平均池化后的得到的类别参数为：(0.7+0.1+0.1)/3＝0.3；对于动作类别3，平均池化后的得到的类别参数为：(0.1+0.1+0.2)/3＝0.13；对于背景类别，平均池化后的得到的类别参数为：(0.1+0.1+0)/3＝0.07。池化后的第一类别激活序列为[0.5，0.3，0.13，0]，池化后的第二类别激活序列为[0.03，0.07，0.1，0.8]。

在确定针对每个动作类别的类别参数后，可以将类别参数最大的动作类别确定为目标动作类别，如动作类别1。

根据本公开的实施例，视频动作检测方法还包括：根据预设阈值和注意力权重，确定动作信息的开始时刻和结束时刻，以定位动作信息。

在本公开实施例中，在确定目标动作类别的同时，还可以根据注意力权重与预设阈值的比较关系，确定动作信息的开始时刻和结束时刻。例如，针对时间维度，从第1个视频片段中第2个视频帧开始，到最后一个视频片段的第2个视频帧结束，此时间段内的注意力权重均大于等于预设阈值，由此，可以将第1个视频片段中第2个视频帧确定为动作的开始时刻，将最后一个视频片段的第2个视频帧确定为动作的结束时刻，完成从输入视频中定位到动作。

根据本公开的一个具体实施例，上述视频动作检测方法可以通过端到端的视频动作检测模型实现。

本公开还提供了一种视频动作检测模型的训练方法，包括：将样本视频输入特征提取模块，输出样本视频特征，其中，样本视频包括动作信息和背景信息；基于样本初始类心对样本视频特征输入动态聚类模块，输出样本类心，其中，样本初始类心包括样本初始动作类心和样本初始背景类心；将样本类心和样本视频特征输入动作检测模块，输出目标样本动作类别；其中，动作检测模块用于：基于交叉注意力机制，确定样本类心与样本视频特征之间的注意力权重，其中，注意力权重用于表征样本类心与样本视频特征之间的相似程度；以及根据注意力权重和类别标签，确定针对样本视频的类别激活序列，其中，类别激活序列包括多个动作类别和一个背景类别；根据类别激活序列，确定动作信息的目标样本动作类别。

在目标损失函数的函数值满足预定条件的情况下，得到训练好的视频动作检测模型，其中，目标损失函数包括最优传输损失和分类损失，最优传输损失用于约束注意力权重；分类损失用于表征目标样本动作类别与标准标签之间的差异。

根据本公开的实施例，视频动作检测模型包括视频特征提取模块、动态聚类模块和动作检测模块。视频动作检测模型确定样本视频对应的目标样本动作类别的操作与上述视频动作检测方法类似，在此不再赘述。

根据本公开的实施例，样本视频为已标注的视频数据，标准标签包括标准动作标签和标准背景标签，分别表征样本视频所属的样本动作类别和样本背景类别。

本公开的实施例以弱监督的方式训练视频动作检测模型。考虑到弱监督的训练方式也一定程度上依赖已标注视频数据，且动作检测的结果精度不理想，因此，本公开的实施例引入了最优传输算法对注意力权重进行监督。具体地，在训练视频动作检测模型时，在目标损失函数中引入了最优传输损失项。

由此，目标损失函数包括新增的最优传输损失项和原有的分类损失。在目标损失函数的函数值满足预定条件的情况下，得到训练好的视频动作检测模型。预定条件可以是预定的训练次数，还可以是目标损失函数收敛。

本公开的实施例通过在训练的过程中同时引入最优传输算法约束注意力权重、引入动态聚类区分背景和动作，使得只需要少量、视频级别的类别标签进行训练，不需要对帧级别的视频进行打标，也不需要对大量视频数据进行打标，即可得到动作检测精度高的视频动作检测模型，大大减少了人力和时间耗费。

图5示意性示出了根据本公开实施例视频动作检测模型的训练方法的数据流图。

如图5所示，与对上述输入视频的操作处理类似，对于样本视频，通过特征提取后得到样本视频特征，在动作聚类模块基于初始类心对样本视频特征进行聚类，得到样本类心。在动作检测模块对样本类心和样本视频特征进行处理，确定样本类心与样本视频特征之间的注意力权重，进而根据注意力权重和类别标签，确定针对样本视频的类别激活序列。

图5中动作检测模块的操作参见图3，动态聚类模块的操作参见图4，在此不再赘述。

在训练视频动作检测模型时，在对样本视频进行特征提取之间，可以先将样本视频以预设帧数为单位划分为N

在引入最优传输算法时，根据注意力权重的特点首先定义最优传输规划P应当满足下述公式(3)和(4)：

其中Tr表示为矩阵的迹，H(P)为最优传输规划P的熵，N

然后，我们采用目标迭代算法，如Sinkhorn算法，求解以上最优传输问题，得到最优传输规划参数P

其中，L

此外，分类损失的形式如下：

其中，L

由此，目标损失函数的形式如下：

L＝L

其中，L

在网络训练完成之后，对注意力权重A进行阈值截断可以得到预测的动作起始、截止时间，并结合类别激活序列确定动作的类别，从而同时实现时域动作的识别和定位。

图6示意性示出了根据本公开实施例的视频动作检测装置的结构框图。

如图6所示，视频动作检测装置600包括第一检测模块610、第二检测模块620、第三检测模块630、第四检测模块640、第五检测模块650。

第一检测模块610，用于对待检测的输入视频进行特征提取，得到目标视频特征，其中，输入视频包括动作信息和背景信息。

第二检测模块620，用于基于初始类心对目标视频特征进行聚类，得到目标类心，其中，初始类心包括初始动作类心和初始背景类心，目标类心表征聚类后的动作类心和背景类心。

第三检测模块630，用于基于交叉注意力机制，确定目标类心与目标视频特征之间的注意力权重，其中，注意力权重用于表征目标类心与目标视频特征之间的相似程度。

第四检测模块640，用于根据注意力权重和类别标签，确定针对输入视频的类别激活序列，其中，类别激活序列包括多个动作类别和一个背景类别。

第五检测模块650，用于根据类别激活序列，确定动作信息的目标动作类别。

图7示意性示出了根据本公开实施例的视频动作检测模型的训练装置的结构框图。

如图7所示，视频动作检测模型的训练装置700包括第一训练模块710、第二训练模块720、第三训练模块730、第四训练模块740。

第一训练模块710，用于将样本视频输入特征提取模块，输出样本视频特征，其中，样本视频包括动作信息和背景信息。

第二训练模块720，用于基于样本初始类心对样本视频特征输入动态聚类模块，输出样本类心，其中，样本初始类心包括样本初始动作类心和样本初始背景类心。

第三训练模块730，用于将样本类心和样本视频特征输入动作检测模块，输出目标样本动作类别；其中，动作检测模块用于：基于交叉注意力机制，确定样本类心与样本视频特征之间的注意力权重，其中，注意力权重用于表征样本类心与样本视频特征之间的相似程度；以及根据注意力权重和类别标签，确定针对样本视频的类别激活序列，其中，类别激活序列包括多个动作类别和一个背景类别；根据类别激活序列，确定动作信息的目标样本动作类别。

第四训练模块740，用于在目标损失函数的函数值满足预定条件的情况下，得到训练好的视频动作检测模型，其中，目标损失函数包括最优传输损失和分类损失，最优传输损失用于约束注意力权重；分类损失用于表征目标样本动作类别与标准标签之间的差异。

根据本公开的实施例，视频动作检测装置600和视频动作检测模型的训练装置700的操作与上述视频动作检测方法和视频动作检测模型的训练方法类似，在此不再赘述。

根据本公开的实施例，第一检测模块610、第二检测模块620、第三检测模块630、第四检测模块640、第五检测模块650中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。第一训练模块710、第二训练模块720、第三训练模块730、第四训练模块740类似，在此不再赘述。

根据本公开的实施例，第一检测模块610、第二检测模块620、第三检测模块630、第四检测模块640、第五检测模块650中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一检测模块610、第二检测模块620、第三检测模块630、第四检测模块640、第五检测模块650中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。第一训练模块710、第二训练模块720、第三训练模块730、第四训练模块740类似，在此不再赘述。

图8示意性示出了根据本公开实施例的适于视频动作检测方法或视频动作检测模型的训练方法的电子设备的方框图

如图8所示，根据本公开实施例的电子设备800包括处理器801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备800还可以包括输入/输出(I/O)接口805，输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至输入/输出I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供上述方法。

在该计算机程序被处理器801执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分809被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器801执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国科学技术大学;

上一篇：数据中心网络运维评估方法、装置及存储介质
下一篇：一种流量管理模块、方法、设备及存储介质