基于视频特征的动作时段定位方法与计算机设备

文献发布时间：2023-06-19 10:05:17

技术领域

本申请属于视频动作时段定位技术领域，尤其涉及一种基于视频特征的动作时段定位方法、动作时段定位动作时段识别装置、计算机设备及计算机可读存储介质。

背景技术

动作时段识别是视频内容分析过程中的重要步骤，目的在于从具有动作类别和时间边界的未裁剪视频中定位动作时段实例。

目前，对视频内容进行动作时段识别时段定位，可以利用基于边界的时序动作提名生成方法实现。通过该方法，可以评估视频序列中每个时间点的特征，这样的局部信息有助于生成具有精确边界和准确时序的动作提名。但此方法，往往只使用时间点的特征信息，识别过程所考虑的语义信息较为单一，使得边界概率预测不够准确。由此可见，现有的动作时段识别时段定位方案存在效率较低的技术问题。

发明内容

有鉴于此，本申请实施例提供了一种基于视频特征的动作时段定位方法、装置、计算机设备及计算机可读存储介质，以解决现有的动作时段定位方案存在效率较低的技术问题。

本申请实施例的第一方面提供了一种基于视频特征的动作时段定位方法，包括：

利用训练后的识别模型基于目标视频的特征文件进行动作时段识别，得到置信度分布集合；其中，所述置信度分布集合包括不同动作阶段的阶段置信度分布；

基于所述置信度分布集合中全部所述阶段置信度分布的融合结果，确定目标置信度分布；

基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。

上述方案中，所述利用训练后的识别模型基于目标视频的特征文件进行动作时段识别，得到置信度分布集合，包括：

对所述特征文件进行编码卷积，得到二维矩阵；

利用所述训练后的识别模型中的卷积网络组，根据所述二维矩阵进行动作时段识别，得到阶段特征图集合；其中，所述卷积网络组中的每个卷积网络与所述动作阶段一一对应；

基于所述阶段特征图集合得到置信度分布集合。

上述方案中，所述对所述特征文件进行编码卷积，得到二维矩阵，包括：

利用所述训练后的识别模型中的编码卷积层，对所述特征文件进行编码卷积，得到二维矩阵。

上述方案中，所述利用所述训练后的识别模型中的卷积网络组，根据所述二维矩阵进行动作时段识别，得到阶段特征图集合，包括：

利用所述卷积网络组中每个所述卷积网络，基于预设的采样矩阵对所述二维矩阵进行阶段特征采样，输出阶段特征图；

将所述卷积网络组中全部所述卷积网络输出的所述阶段特征图，作为所述阶段特征图集合。

上述方案中，所述利用所述卷积网络组中每个所述卷积网络，基于预设的采样矩阵对所述二维矩阵进行阶段特征采样，输出阶段特征图，包括：

将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘，得到四维矩阵；

对所述四维矩阵进行降维处理，得到特征矩阵；

将所述特征矩阵作为所述阶段特征图。

上述方案中，所述第一元素用于描述所述第二元素的采样时长；

所述将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘，得到四维矩阵，包括：

基于所述预设的采样矩阵与所述二维矩阵之间的元素对应关系，确定所述二维矩阵中每个所述第二元素的目标采样时长；

根据每个所述目标采样时长测算每个所述第二元素各自的权重值；

将所述二维矩阵中全部所述第二元素的权重值组成的矩阵，作为四维矩阵。

上述方案中，所述第一元素用于描述所述第二元素的采样时长；

所述将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘，得到特征矩阵，包括：

基于所述预设的采样矩阵与所述二维矩阵之间的元素对应关系，确定所述二维矩阵中每个所述第二元素的目标采样时长；

根据每个所述目标采样时长测算每个所述第二元素各自的权重值；

将所述二维矩阵中全部所述第二元素的权重值组成的矩阵，作为特征矩阵。

上述方案中，所述第二元素用于表征持续时长(t

所述目标采样时长包括第一补偿时长((t

上述方案中，所述根据每个所述目标采样时长测算每个所述第二元素各自的权重值，包括：

根据所述目标采样时长，确定所述第二元素的N个采样时间点特征；N为大于0的整数；

通过以下公式测算每个所述采样时间点特征的权重值；

其中，

将N个所述采样时间点特征的权重值，作为所述第二元素的权重值。

上述方案中，所述阶段特征图集合包括：动作起始特征图、动作持续特征图以及动作结束特征图；

所述基于所述阶段特征图集合得到置信度分布集合，包括：

将所述动作起始特征图、所述动作持续特征图以及所述动作结束特征图，分别输入三个置信度分析网络进行处理，输出动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布；

将所述动作起始置信度分布、所述动作持续置信度分布以及所述动作结束置信度分布，作为所述置信度分布集合。

上述方案中，所述基于所述置信度分布集合中全部所述阶段置信度分布的融合结果，确定目标置信度分布，包括：

根据所述动作起始置信度分布与所述动作结束置信度分布，分别测算出每个所述第二元素的起始标签概率值与结束标签概率值；

基于每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作持续置信度分布进行置信度融合，得到融合结果；

对所述融合结果进行非极大化抑制处理，得到目标置信度分布。

上述方案中，所述动作持续置信度分布用于表征每个所述第二元素的动作标签概率值；

所述基于每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作持续置信度分布进行置信度融合，得到融合结果，包括：

测算每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作标签概率值的乘积，得到每个所述第二元素的置信度融合元素；

将全部所述第二元素的置信度融合元素组成的矩阵作为所述融合结果。

上述方案中，所述对所述融合结果进行非极大化抑制处理，得到目标置信度分布，包括：

从所述融合结果中确定出最大概率值；

对所述最大概率值对应的目标概率值进行非极大化抑制处理，得到目标置信度分布。

上述方案中，在所述利用训练后的识别模型基于目标视频的特征文件，输出置信度分布集合的步骤之前，还包括：

对所述目标视频进行特征序列提取，得到特征文件。

本申请实施例的第二方面提供了一种基于视频特征的动作时段定位装置，包括：

输出单元，用于利用训练后的识别模型基于目标视频的特征文件进行动作时段识别，得到置信度分布集合；其中，所述置信度分布集合包括不同动作阶段的阶段置信度分布；

第一确定单元，用于基于所述置信度分布集合中全部所述阶段置信度分布的融合结果，确定目标置信度分布；

第二确定单元，用于基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。

本申请实施例的第三方面提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述计算机设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方案提供的基于视频特征的动作时段定位方法的各步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方案提供的基于视频特征的动作时段定位方法的各步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行上述第一方面中任一项所述的基于视频特征的动作时段定位方法的各步骤。

实施本申请实施例提供的一种基于视频特征的动作时段定位方法、装置、计算机设备及计算机可读存储介质具有以下有益效果：

本申请实施例提供的一种基于视频特征的动作时段定位方法，利用训练后的识别模型基于目标视频的特征文件进行动作时段识别，得到置信度分布集合，由于置信度分布集合包括不同动作阶段的阶段置信度分布，将置信度分布集合中全部阶段置信度分布进行融合，使得基于该融合结果能够得到更准确的目标置信度分布，因此基于该目标置信度分布能够在目标视频中更准确地进行动作时段定位操作，提高了动作时段定位的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于视频特征的动作时段定位方法的实现流程图；

图2是本申请实施例中步骤S11的具体实现流程图；

图3是本申请实施例中二维矩阵的示意图；

图4是本申请实施例每个第一元素与每个第二元素点乘的示意图；

图5是本申请实施例中步骤S12的具体实现流程图；

图6是本申请另一实施例提供的一种基于视频特征的动作时段定位方法的实现流程图；

图7是本申请实施例提供的一种基于视频特征的动作时段定位装置的结构框图；

图8是本申请实施例提供的一种计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例所涉及的方法，可以由服务器或终端(以下称“计算机设备”)执行。本申请实施例的技术方案适用于在对目标视频进行动作时段识别，通过计算机设备执行本实施例提供的基于视频特征的动作时段定位方法，从目标视频中确定出动作时段，该动作时段可以是目标视频中任一动作体的动作时段。

在本申请的所有实施例中，从目标视频中确定出动作时段，并非是直接对目标视频的视频文件进行动作时段识别，也不是直接对目标视频的图像进行动作时段识别，而是基于目标视频的特征文件作为输入，实现对目标视频的内容进行动作时段的识别与定位。这里，目标视频的特征文件是个二维编码的矩阵，例如，该目标视频的特征文件可以是文件名后缀为“.npy”的文件。计算机设备在基于视频特征文件进行动作时段识别或定位的过程中，可以根据需求选择对不同内容的视频进行动作时段识别，或者对视频中的所有动作体进行动作时段识别，而识别每一种动作体在目标视频中的动作时段的方式是相同的，其无需区分视频内容中的动作体类型，因此本申请实施例以对一个目标视频进行动作时段识别为例进行描述。

请参阅图1，图1是本申请实施例提供的一种基于视频特征的动作时段定位方法的实现流程图。

如图1所示的基于视频特征的动作时段定位方法包括以下步骤：

S11：利用训练后的识别模型基于目标视频的特征文件进行动作时段识别，得到置信度分布集合；其中，所述置信度分布集合包括不同动作阶段的阶段置信度分布。

在步骤S11中，目标视频为待进行动作时段识别的视频，该目标视频的画面内容具有动作体的动作内容，也即该目标视频的时序连续的画面内容中能够体现至少一个动作体的动作内容。这里，动作内容可以被分为不同的动作阶段，动作阶段泛指动作内容的全部阶段，例如，动作阶段可以包括动作开始阶段、动作持续阶段以及动作结束阶段。

在本申请的所有实施例中，训练后的识别模型用于描述目标视频的特征文件所表征的动作阶段，与阶段置信度分布之间的对应关系。这里，目标视频的特征文件作为训练后的识别模型的输入，训练后的识别模型对该目标视频的特征文件进行识别处理，也即对目标视频的特征文件所表征的内容进行不同动作阶段的识别，进而输出与不同动作阶段一一对应的阶段置信度分布，得到阶段置信度分布集合。

需要说明的是，特征文件是通过对目标视频进行特征编码得到，特征文件中的数据是由多个特征编码向量组成的特征序列。训练后的识别模型基于该特征文件中的特征序列进行动作时段识别，进而输出置信度分布集合。

应当理解的是，由于实际应用中训练后的识别模型是基于目标视频的特征文件进行动作时段识别，进而得到置信度分布集合，至于如何配置或者如何制备目标视频的特征文件并非本步骤需要考虑的内容，因此目标视频的特征文件如何制备，可以是利用已有的配置方案对目标视频进行处理得到，此处不再对如何得到目标视频的特征文件进行赘述。

图2示出了本申请实施例中步骤S11的具体实现流程图，图如2所示，作为本申请一实施例，步骤S11具体包括：

S111：对所述特征文件进行编码卷积，得到二维矩阵。

S112：利用所述训练后的识别模型中的卷积网络组，根据所述二维矩阵进行动作时段识别，得到阶段特征图集合；其中，所述卷积网络组中的每个卷积网络与所述动作阶段一一对应。

S113：基于所述阶段特征图集合得到置信度分布集合。

在本实施例中，二维矩阵用于描述目标视频的特征文件内容，也即该二维矩阵是特征文件中特征序列的另一种数据形式。这里，由于特征文件中的数据是由多个特征编码向量组成的特征序列，利用训练后的识别模型进行动作时段识别时，需要用到采样窗口对特征文件的内容进行特征采样，而特征窗口是以采样矩阵的方式体现，且采样矩阵是关于时间维度的矩阵，也即采样矩阵中需要考虑被采样特征在目标视频中的持续时长或者时间位置，因此为了实现训练后的识别模型能够基于特征文件进行特征采集与特征分析，进而实现动作时段识别，需要对该特征序列进行转换，得到具有与采样矩阵相同时间维度的二维矩阵，使得二维矩阵能够满足采样矩阵的采样条件。

可以理解的是，在实际应用中可以通过在训练后的识别模型中，调用已有的特征序列转换工具对特征文件进行编码卷积，或者是通过在训练后的识别模型中配置相应的编码卷积层对训练后的识别模型中的卷积。这里，无论是调用特征序列转换工具还是配置编码卷积层对特征文件进行编码卷积，都是以特征文件作为输入，且输出的是该特征文件对应的二维矩阵，通过对特征序列转换工具或编码卷积层配置相应的通道参数，进而限定二维矩阵大小，使输出的二维矩阵能够满足采样矩阵的采样条件。

作为本实施例一种实现的方式，上述步骤S111具体包括：

利用所述训练后的识别模型中的编码卷积层，对所述特征文件进行编码卷积，得到二维矩阵。

在本实施例中，以特征文件作为输入数据，输入至训练后的识别模型的编码卷积层，编码卷积层以输出二维矩阵为目的，对特征文件进行二维矩阵转换处理。这里，编码卷积层预设有用于描述二维矩阵大小的通道个数，也即该通道个数能与二维矩阵的矩阵大小有关。利用编码卷积层以特征文件作为输入，通过编码卷积通道对特征文件的特征序列进行编码卷积，得到相应的二维矩阵。在实际应用中，可以通过对编码卷积层的通道个数进行不同的配置，进而调整编码卷积层根据特征文件输出的二维矩阵的大小，使二维矩阵能够被训练后的识别模型中的其他层级，如卷积网络组中的全部卷积网络作为输入数据。

在本申请的所有实施例中，由于特征文件是通过对目标视频进行特征编码得到，特征文件中的数据是由多个特征编码向量组成的特征序列，同时该特征文件还表征了目标视频在完整时长内的特征内容。在对特征文件进行编码卷积得到二维矩阵时，可以是基于预设的阶段模板对特征文件进行编码卷积。这里，预设的阶段模板用于描述目标视频总时长、单位时长与单位时长特征之间的对应关系。基于预设的阶段模板对特征文件进行编码卷积时，将目标视频的特征文件中的特征序列映射到预设的阶段模板中。

具体地，由于预设的阶段模板用于描述目标视频总时长、单位时长与单位时长特征之间的对应关系，因此将特征文件中的特征序列映射到预设的阶段模板中，实际是构建特征序列中的特征编码向量，与阶段模板中的元素之间在时间维度上的对应关系。

图3示出了本实施例中二维矩阵的示意图。在图3所示的二维矩阵10中，二维矩阵10的竖直方向为持续时长方向Y，二维矩阵10的水平方向为起始时间点变化方向X。在该二维矩阵10中，每个小方格为二维矩阵10的元素，处于同一列的元素具有相同的起始时间点x，处于同一行的元素具有相同的持续时长y。这里，二维矩阵10中的所有元素也可以抽象为点元素，例如，点元素11与点元素12。如图3所示，分界线L用于表征目标视频的总时长位置，也即目标视频的结束边界。该分界线L的右下角区域101表征目标视频以外的无内容区域，也即在进行特征采集过程中，该右下角区域101中的所有原始将不被考虑。

如图3所示，点元素11与点元素12位于同一行，具有相同的持续时长，这里可以用点元素11与点元素12于在持续时长方向Y上的坐标y3表示，相应地，点元素11的起始时间点可以用点元素11在起始时间点变化方向X上的坐标x2表示，点元素12的起始时间点可以用点元素12在起始时间点变化方向X上的坐标x7表示，进而得到点元素11的坐标为(x2、y3)，点元素12的坐标为(x7、y3)。相应地，作为二维矩阵10中的元素之一，点元素11表征起始时间为x2持续时长为y3的特征内容，点元素12表征起始时间为x7持续时长为y3的特征内容。

可以理解的是，本实施例中利用训练后的识别模型中的编码卷积层，对特征文件进行编码卷积，进而得到具有时间维度的二维矩阵，并以该二维矩阵用于描述特征文件的特征序列内容。

作为本实施例一种实现的方式，上述步骤S112具体包括：

利用所述卷积网络组中每个所述卷积网络，基于预设的采样矩阵对所述二维矩阵进行阶段特征采样，输出阶段特征图；将所述卷积网络组中全部所述卷积网络输出的所述阶段特征图，作为所述阶段特征图集合。

在本实施例中，在训练后的识别模型中，还包括卷积网络组，该卷积网络组包括与动作阶段一一对应卷积网络。这里，卷积网络组包含的卷积网络个数与动作阶段相关，在实际应用中，若对动作内容的划分越细，则动作阶段就越多，相应地卷积网络组中包含的卷积网络个数就越多。

需要说明的是，每个卷积网络中都预先设置有相应的采样矩阵，不同卷积网络中配置的采样矩阵可以不同。在实际应用中，可以基于不同卷积网络对应的不同动作阶段，配置不同的采样矩阵，进而基于不同的采样矩阵对二维矩阵进行阶段特征采样，输出不同的阶段特征图。

以动作阶段包括动作开始阶段、动作持续阶段以及动作结束阶段为例，卷积网络组包含与动作开始阶段、动作次序阶段以及动作结束阶段，分别对应的第一卷积网络、第二卷积网络以及第三卷积网络。第一卷积网络、第二卷积网络以及第三卷积网络中，分别预先设置有相应的采样矩阵，第一卷积网络、第二卷积网络以及第三卷积网络，分别基于预设的采样矩阵对二维矩阵进行阶段特征采样进而输出阶段特征图，也即输出动作开始阶段特征图、动作持续阶段特征图以及作结束阶段特征图。将动作开始阶段特征图、动作持续阶段特征图以及作结束阶段特征图，作为阶段特征图集合。

作为本实施例一种实现方式，上述步骤：利用所述卷积网络组中每个所述卷积网络，基于预设的采样矩阵对所述二维矩阵进行阶段特征采样，输出阶段特征图，包括：

将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘，得到四维矩阵；对所述四维矩阵进行降维处理，得到特征矩阵；将所述特征矩阵作为所述阶段特征图。

在本实施例中，第一元素是采样矩阵中的元素，第二元素为二维矩阵中的元素。在采样矩阵中的第一元素与二维矩阵中的第二元素之间一一对应，卷积网络基于预设的采样矩阵对二维矩阵进行阶段特征采样，实际上是将采样矩阵中的第一元素与二维矩阵中的第二元素对应点乘，得到两个矩阵之间元素对应点乘的结果矩阵，也即得到一个四维矩阵。通过对该四维矩阵进行降维卷积处理，得到特征矩阵，该特征矩阵为二维矩阵。

在本实施例中，可以将采样矩阵中的每个第一元素，用于表征二维矩阵中每个第二元素的特征采样参考范围，也即在采样矩阵与二维矩阵之间，两个矩阵在结构上存在元素对应关系。具体地，采样矩阵中的全部第一元素与二维矩阵中的全部第二元素之间一一对应。通过第一元素表征第二矩阵中的第二元素的采样范围，将采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘，实际上是基于二维矩阵中规定每个第二元素的采样范围，将二维矩阵中的全部第二元素进行单独划分并进行特征采样，而不同的卷积网络可以根据采样特征的不同，配置不同的采样范围，进而输出不同动作阶段对应的阶段特征图。

基于上述实施例，作为本一种实现方式，第一元素用于描述第二元素的采样时长。上述步骤：将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘，得到四维矩阵，包括：

基于所述预设的采样矩阵与所述二维矩阵之间的元素对应关系，确定所述二维矩阵中每个所述第二元素的目标采样时长；根据每个所述目标采样时长测算每个所述第二元素各自的权重值；将所述二维矩阵中全部所述第二元素的权重值组成的矩阵，作为四维矩阵。

在本实施例中，预设的采样矩阵与二维矩阵之间的元素对应关系为一一对应关系，也即预设的采样矩阵中的第一元素与二维矩阵中的第二元素一一对应，且第一元素还用于描述第二元素的采样时长。在将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘时，基于第一元素与第二元素之间一一对应的关系，能够确定每个第二元素对应的第一元素，将该第一元素所描述的采样时长作为该第二元素的目标采样时长。在二维矩阵中所有第二元素的目标采样时长，可以是通过确定与其对应的第一元素，将该第一元素所描述的采样时长作为第二元素的目标采样时长，进而测算每个第二元素各自的权重值，由于二维矩阵与预设的采样矩阵均为二维矩阵，因此最后将二维矩阵中全部第二元素的权重值组成的矩阵为四维矩阵。

可以理解的是，在实际应用中，因为能够确定预设的采样矩阵中的第一元素与二维矩阵中的第二元素一一对应，且第一元素还用于描述第二元素的采样时长，所以在将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘时，还可以是通过建立预设的采样矩阵与二维矩阵之间的映射关系，如按照第一元素与第二元素一一对应的关系建立元素坐标映射列表，进而基于该元素坐标映射列表实现预设的采样矩阵中的每个第一元素，与二维矩阵中的每个第二元素对应点乘。

进一步地，在上述实施例的基础上，作为一种实现方式，第二元素用于表征持续时长(t

在本实施例中，第二元素用于表征持续时长(t

图4示出了本实施例中每个第一元素与每个第二元素点乘的示意图。如图4所示，二维矩阵10与预设的采样矩阵20进行元素对应点乘，也即将预设的采样矩阵20中的每个第一元素与二维矩阵10中的每个第二元素，于时间T维度上进行点乘，得到四维矩阵。这里，二维矩阵10能够表征为矩阵R

需要说明的是，由于对第二元素进行特征采样时，不仅需要考虑该第二元素表征的持续时长(t

在本实施例中，基于预设的采样矩阵对二维矩阵进行阶段特征采样，具体是将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘，得到四维矩阵，且第一元素表征第二元素的目标采样时长，该目标采样时长包括第一补偿时长((t

应当理解的是，由于在根据每个目标采样时长测算每个第二元素各自的权重值时，不仅测算的是第二元素所表征的持续时长(t

基于上述实施例，将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘，得到四维矩阵后，还需要将该四维矩阵进行降维处理，这里，四维矩阵可以表征为矩阵R

在实际应用中，将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘，得到四维矩阵后，通过对四维矩阵进行降维处理，得到特征矩阵时，其中特征矩阵为二维矩阵，因此仅需要对思维矩阵进行两个维度的降维即可。具体可以是利用降维语句指令进行降维处理，例如，消除用于表征采样点个数N的维度。或者，通过配置相应的降维卷积层，例如，通过设置相应的通道卷积层将用于对表征通道数量的C进行通道降维，进而实现对思维矩阵的降维处理，得到特征矩阵。

以特征矩阵为四维矩阵R

结合上一实施例，作为本实施例一种实现的方式，上述步骤：根据每个所述目标采样时长测算每个所述第二元素各自的权重值，包括：

根据所述目标采样时长，确定所述第二元素的N个采样时间点特征；N为大于0的整数；

通过以下公式测算每个所述采样时间点特征的权重值；

其中，

将N个所述采样时间点特征的权重值，作为所述第二元素的权重值。

在本实施例中，由于第二元素用于表征持续时长(t

在本实施例中，因为第一元素用于描述第二元素的采样时长，且该目标采样时长包括第一补偿时长((t

如图4所示，对于表征持续时长(t

例如，图4中的采样时间点特征P

再例如，图4中的采样时间点特征P

可以理解的是，当采样时间点特征不在第二元素的N个采样时间点特征(P

需要说明的是，二维矩阵中的所有第二元素的权重值均是以相同的方式测算得到，二维矩阵中全部第二元素的权重值组成的矩阵为特征矩阵，且该特征矩阵能够作为阶段特征图。不同动作阶段对应的不同阶段特征图是由不同的卷积网络基于预设的采样矩阵对二维矩阵进行阶段特征采样得到，对于每一个卷积网络而言，在基于预设的采样矩阵对二维矩阵进行阶段特征采样的过程中，测算二维矩阵中第二元素的权重值的方式是相同的。

基于上述实施例，作为一种实现的方式，阶段特征图集合包括：动作起始特征图、动作持续特征图以及动作结束特征图；S113具体包括：

将所述动作起始特征图、所述动作持续特征图以及所述动作结束特征图，分别输入三个置信度分析网络进行处理，输出动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布；将所述动作起始置信度分布、所述动作持续置信度分布以及所述动作结束置信度分布，作为所述置信度分布集合。

在本实施例中，置信度分析网络用于对阶段特征图集合中的每个阶段特征图进行处理，由于阶段特征图集合中包括动作起始特征图、动作持续特征图以及动作结束特征图，因此三个置信度分析网络分别与动作起始特征图、动作持续特征图以及动作结束特征图相应配置，也即三个置信度分析网络中分配置了不同的置信度分析策略。

需要说明的是，由于动作起始特征图、动作持续特征图以及动作结束特征图，分别具有不同的语义信息，因此在生成置信度分布集合时，需要针对不同动作阶段特征图配置不同的语义信息识别策略。对应动作起始特征图与动作结束特征图而言，动作的起始与动作的结束较容易识别，而在确定了动作起始与动作结束后，确保识别的动作持续阶段连贯于该两个动作阶段之间即可。

在实际应用中，将动作起始特征图、动作持续特征图以及动作结束特征图，分别输入三个置信度分析网络进行处理时，由于动作起始特征图和动作结束特征图具有较为明显的语义信息，因此在动作起始特征图和动作结束特征图分别对应的置信度分析网络中设置相同的最大持续时长，也即λ1×T，其中，λ1∈(0,1]。由于动作阶段特征图需要通过全局语义信息来进行置信度识别，进而给出置信度分数，因此可以设置动作阶段的最大持续时长为λ2×T，其中，λ2∈(0,1]，且λ2>λ1。

应当理解的是，通过三个置信度分析网络分别对动作起始特征图、动作持续特征图以及动作结束特征图进行处理，进而输出动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布，得到相应的置信度分布集合，也即细化了目标视频中的动作特征识别，便于后续将不同动作阶段的特征置信度图进行结合。

S12：基于所述置信度分布集合中全部所述阶段置信度分布的融合结果，确定目标置信度分布。

在步骤S12中，置信度分布集合包括多个阶段置信度分布图，例如，可以将动作划分为动作起始阶段、动作持续阶段以及动作结束阶段，相应地，每个动作阶段对应不同的置信度分布，也即动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布。相应地，置信度分布集合中全部阶段置信度分布的融合结果，即为动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布的置信度分布融合结果。

在本申请的所有实施例中，置信度分布集合中全部阶段置信度分布的融合结果，并非最终的置信度分布，而是各个单位时间段或单位时长属于动作起始阶段概率、属于动作持续阶段概率以及属于动作结束阶段概率的分布情况，因此需要基于该融合结果确定目标置信度分布。

在实际应用中，在得到置信度分布集合中全部阶段置信度分布后，可以利用已有的置信度融合方式进行融合处理，例如，先对全部阶段置信度分布进行修正，并利用一致性原理来剔除错误点、补偿修正或填补空洞，然后通过相应规则去除置信度冗余，得到目标置信度。

图5示出了本申请实施例中步骤S12的具体实现流程图。如图5所示，结合步骤S11涉及二维矩阵与第二元素的全部实施例，作为本申请一实施例，步骤S12具体包括S121至S123。

S121：根据所述动作起始置信度分布与所述动作结束置信度分布，分别测算出每个所述第二元素的起始标签概率值与结束标签概率值。

在步骤S121中，第二元素为二维矩阵中的元素，由于第二元素用于表征持续时长(t

在本实施例中，第二元素的起始标签概率值与结束标签概率值，只能够用于表征某个第二元素所表征的持续时长(t

作为一种可能实现的方式，根据动作起始置信度分布测算出每个所述第二元素的起始标签概率值，与根据动作结束置信度分布测算出每个所述第二元素的结束标签概率值的方式可以是相同的。

以动作起始置信度分布为M

其中，d为持续时长，γ1，γ2，γ3，γ4均为补偿系数，且γ1，γ2，γ3，γ4∈[0,1]。

相应地，任一第二元素中包含的时间点t来说，其属于结束标签概率值可以通过以下方式测算得到：

其中，d为预设持续时长，γ1，γ2，γ3，γ4均为补偿系数，且γ1，γ2，γ3，γ4∈[0,1]。

需要说明的是，预设持续时长与补偿系数都可以根据实际情况自定义得到。在通过上述公式测算起始标签概率值与结束标签概率值的过程中，均考虑了起始置信度分布为M

S122：基于每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作持续置信度分布进行置信度融合，得到融合结果。

在步骤S122中，动作持续置信度分布用于表征每个所述第二元素的动作标签概率值，还可以用于表征目标视频中单位持续时长的视频内容属于一个完整动作的概率分布。

在本实施例中，基于每个第二元素的起始标签概率值、结束标签概率值以及所述动作持续置信度分布进行置信度融合，实际上是测算每个第二元素的起始标签概率值、结束标签概率值以及动作标签概率值的乘积，进而得到每个第二元素的置信度融合元素，将全部第二元素的置信度融合元素组成的矩阵作为融合结果。

S123：对所述融合结果进行非极大化抑制处理，得到目标置信度分布。

在步骤S123中，对融合结果进行非极大化抑制处理，是为了避免在进行动作时段识别中，因为动作对象过多，导致动作内容的特征遗漏现象。例如，当目标视频中同时出现了两个或两个以上的运动体，若只对其中第一运动体的动作识别较为熟练，对第二运动体的动作识别较为生疏，则容易导致第二运动体的运动特征概率因为低于第一运动体的运动特征概率而被省略，因此通过对融合结果进行非极大化抑制处理，得到目标置信度分布，能够有效地避免动作时段识别中出现识别遗漏现象。

在本实施例中，对融合结果进行非极大化抑制处理可以是从融合结果中确定出最大概率值，然后对最大概率值对应的目标概率值进行非极大化抑制处理，进而得到目标置信度分布。这里，对最大概率值对应的目标概率值进行非极大化抑制处理，可以是按照预设的抑制次数，对目标概率值乘上一个小于1的系数，缩小其概率值。

可以理解的是，在实际应用中，还可以根据实际需求配置相应的非极大化抑制处理策略，例如，根据目标视频中运动体的种类设置抑制次数，再例如，根据实际的融合结果配置抑制过程中的系数大小等。

S13：基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。

在步骤S13中，目标置信度分布表征了目标视频中各持续时长属于动作内容的概率值。

在本实施例中，基于目标置信度分布在目标视频中确定出动作时段，具体是根据目标置信度分布中，对每个持续时长的概率值大小确定相应的持续时长是否为动作内容。例如，当目标置信度分布中第一持续时长的概率值大于预设阈值，则确定该目标视频中与该第一持续时长对应的内容中包含动作内容。

可以理解的是，由于目标置信度分布表征了目标视频中各个时段属于动作内容的概率值，因此基于该目标置信度分布，能够在目标视频的播放时长内识别出哪些持续时长内存在动作内容，也即根据目标置信度分布即可在目标视频中标记出相应的动作出现时段，实现对目标视频的动作时段识别。置于以何种方式进行标记，可以是以标记时间戳，或者标记目标视频帧集合的方式，此处不设限制。

以上可以看出，本实施例提供的一种基于视频特征的动作时段定位方法，利用训练后的识别模型基于目标视频的特征文件进行动作时段识别，得到置信度分布集合，由于置信度分布集合包括不同动作阶段的阶段置信度分布，将置信度分布集合中全部阶段置信度分布进行融合，使得基于该融合结果能够得到更准确的目标置信度分布，因此基于该目标置信度分布能够在目标视频中更准确地进行动作时段定位操作，提高了动作时段定位的效率。

请参阅图6，图6是本申请另一实施例提供的一种基于视频特征的动作时段定位方法的实现流程图。相对于图1对应的实施例，本实施例提供的基于视频特征的动作时段定位方法在步骤S11之前还包括S21。详述如下：

S21：对所述目标视频进行特征序列提取，得到特征文件。

在步骤S21中，对目标视频进行特征序列提取，可以是对目标视频进行特征编码。例如，对目标视频的连续帧进行片段序列划分，再对划分得到的每个片段序列进行特征编码，得到相应的特征编码向量，进而组成特征序列作为目标视频的特征文件。其中，在对划分得到的每个片段序列进行特征编码，可以是利用已有的特征编码网络对片段序列进行特征编码，通过特征编码网络中的空间网络层与时间网络层分别输出与片段序列对应的两组数据，将两组数据进行拼接得到特征编码向量。

以目标视频为RGB视频为例，假设目标视频是由T帧RGB图像组成的RGB视频X，则RGB视频X的表达式可以为：

请参阅图7，图7是本申请实施例提供的一种基于视频特征的动作时段定位装置的结构框图。本实施例中该基于视频特征的动作时段定位装置包括的各单元用于执行图1和图6对应的实施例中的各步骤。具体请参阅图1和图6以及图1至图6所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图7，基于视频特征的动作时段定位装置70包括：输出单元71、第一确定单元72以及第二确定单元73。其中：

输出单元71，用于利用训练后的识别模型基于目标视频的特征文件进行动作时段识别，得到置信度分布集合；其中，所述置信度分布集合包括不同动作阶段的阶段置信度分布。

第一确定单元72，用于基于所述置信度分布集合中全部所述阶段置信度分布的融合结果，确定目标置信度分布。

第二确定单元73，用于基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。

作为本申请一实施例，基于视频特征的动作时段定位装置70，还包括：提取单元74。具体地，

提取单元74，用于对所述目标视频进行特征序列提取，得到特征文件。

应当理解的是，图7示出的基于视频特征的动作时段定位装置的结构框图中，各单元用于执行图1至图6对应的实施例中的各步骤，而对于图1至图6对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述，此处不再赘述。

图8是本申请实施例提供的一种计算机设备的结构框图。如图8所示，该实施例的计算机设备8包括：处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82，例如基于视频特征的动作时段定位方法的程序。处理器80执行所述计算机程序82时实现上述各个基于视频特征的动作时段定位方法各实施例中的步骤，例如图1所示的S11至S13。或者，所述处理器80执行所述计算机程序82时实现上述图7对应的实施例中各单元的功能，例如，图7所示的单元71至74的功能，具体请参阅图7对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序82可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器81中，并由所述处理器80执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序82在所述计算机设备8中的执行过程。例如，所述计算机程序82可以被分割成输出单元、第一确定单元以及第二确定单元，各单元具体功能如上所述。

所述计算机设备可包括，但不仅限于，处理器80、存储器81。本领域技术人员可以理解，图8仅仅是计算机设备8的示例，并不构成对计算机设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述计算机设备8的内部存储单元，例如计算机设备8的硬盘或内存。所述存储器81也可以是所述计算机设备8的外部存储设备，例如所述计算机设备8上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述计算机设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述计算机设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：孙士杰;程俊;任子良;张锲石;张能波;李强;
专利申请人：中国科学院深圳先进技术研究院;

上一篇：一种易于拆卸清理的键盘
下一篇：前臂运动姿态识别方法、界面交互的控制方法及装置