一种人物社交关系演化捕捉的方法、装置及相关产品

文献发布时间：2023-06-19 19:28:50

技术领域

本申请涉及计算机视觉和自然语言处理领域，尤其涉及一种人物社交关系演化捕捉的方法、装置及相关产品。

背景技术

随着在线视频媒体平台提供的智能服务日渐增多，比如语义驱动的视频检索和推荐等，研究视频人物之间的社会关系，以获得更好的观看体验日渐重要。

现有研究视频人物之间的社会关系的技术，旨在研究短视频中的人物社会关系识别。然而对于完整视频，由于视频输入长度较长，现有技术难以将多模态线索总结为整个视频的整体语义表示，且没有考虑时序演化因素，这导致现有技术难以完全总结出人物社交关系演变线索，从而导致捕捉的人物社交演化关系准确度低。

发明内容

有鉴于此，本申请实施例提供了一种人物社交关系演化捕捉的方法、装置及相关产品，旨在完全总结出人物社交关系演变线索，从而提高捕捉的人物社交演化关系的准确度。

第一方面，本申请实施例提供了一种人物社交关系演化捕捉的方法，所述方法包括：

响应于获取的目标视频，生成具有关联关系的视频剪辑帧序列；所述视频剪辑帧序列包含人物角色；

根据预设算法，提取所述视频剪辑帧序列中每个视频剪辑帧的多视角视觉特征，构建每个视频剪辑的剪辑级图；所述剪辑级图用于表示人物社交关系的状态；

基于第一预设注意力机制处理所述剪辑级图，确定场景级人物特征和人物对特征；其中，所述第一预设注意力机制为包含各时段的历史信息演变趋势，用于使所述场景级人物特征和人物对特征包含时间维度信息；

根据所述场景级人物特征和人物对特征，确定所述人物角色的场景级社交关系图，以捕捉所述目标视频的人物社交关系演化。

可选的，所述根据预设算法，提取所述视频剪辑帧序列中每个视频剪辑帧的多视角视觉特征，构建每个视频剪辑的剪辑级图，包括：

基于第一预设算法从所述视频剪辑帧序列中提取人物特征、人物对特征和片段视频特征；所述片段视频特征包含场景信息；

基于第二预设算法从所述视频剪辑帧序列中的对话文件中提取对话特征；其中，所述人物特征、人物对特征、片段视频特征和对话特征组成所述多视角视觉特征；

根据所述多视角视觉特征和第二预设注意力机制，构建所述每个视频剪辑的剪辑级图；所述剪辑级图由所述多视角视觉特征组成；所述第二预设注意力机制为图注意力机制，用于构建所述剪辑级图。

可选的，所述根据所述多视角视觉特征和第二预设注意力机制，构建所述每个视频剪辑的剪辑级图，包括：

将所述多视角视觉特征作为所述剪辑级图的不同节点，利用第二预设注意力机制传播所述不同节点的信息；

对所述不同节点分配不同权重，并对相邻节点传递信息，生成所述每个视频剪辑的剪辑级图。

可选的，所述根据所述场景级人物特征和人物对特征，确定所述人物角色的场景级社交关系图，包括：

将所述场景级人物特征和人物对特征输入至预设的第三预设注意力机制，调整所述场景级人物对特征；

将调整后的所述场景级人物对特征发送至全连接层，对人物对的社交关系进行分类，获取人物角色的场景级社交关系图。

可选的，所述方法还包括：

根据确定的所述人物角色的场景级社交关系和时间维度滑动窗口，生成不同视频剪辑帧序列的人物角色的场景级的社交关系图；

依照时间演化顺序合并所述人物角色的场景级的社交关系图，生成全局演化社交关系图。

可选的，所述响应于获取的目标视频，生成具有关联关系的视频剪辑帧序列，包括：

获取所述目标视频；

根据情节和场景将所述目标视频分割成多个视频剪辑片段；

对所述多个视频剪辑片段进行等间距采样，获取视频剪辑帧序列；

对所述视频剪辑帧序列进行人物角色定位和重识别，确定视频剪辑帧之间的关联关系，生成具有关联关系的视频剪辑帧序列。

可选的，所述对所述视频剪辑帧序列进行人物角色检测和重识别，确定视频剪辑帧之间的关联关系，包括：

基于预训练的人物检测器检测所述视频剪辑帧，获取人物框和人物框对应的置信度；

响应于所述置信度大于第一预设阈值，确定所述人物框包含人物角色；

利用带有标识符标记的人脸框匹配所述包含人物角色的人物框，对人物框进行重识别；

基于第三预设算法对所述包含人物角色的所有人物框进行体特征提取，确定人物框特征；

基于余弦相似度计算所述人物框特征与已标注人物框特征的相似度；

响应于所述相似度大于预设阈值，所述人物框与所述已标注人物框为同一人物角色。

第二方面，本申请实施例提供了一种人物社交关系演化捕捉的装置，所述装置包括：

响应单元，用于响应于获取的目标视频，生成具有关联关系的视频剪辑帧序列；所述视频剪辑帧序列包含人物角色；

剪辑级图生成单元，用于根据预设算法，提取所述视频剪辑帧序列中每个视频剪辑帧的多视角视觉特征，构建每个视频剪辑的剪辑级图；所述剪辑级图用于表示人物社交关系的状态；

确定单元，用于基于第一预设注意力机制处理所述剪辑级图，确定场景级人物特征和人物对特征；其中，所述第一预设注意力机制为包含各时段的历史信息演变趋势，用于使所述场景级人物特征和人物对特征包含时间维度信息；

捕捉单元，用于根据所述场景级人物特征和人物对特征，确定所述人物角色的场景级社交关系图，以捕捉所述目标视频的人物社交关系演化。

第三方面，本申请实施例提供了一种人物社交关系演化捕捉的方法的生成设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如前述第一方面任一项所述的人物社交关系演化捕捉的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有程序或代码，所述程序或代码被处理器执行时实现如前述第一方面所述人物社交关系演化捕捉的方法的的步骤。

本申请公开了一种视频人物社交关系演化捕捉的方法、装置及相关产品。在执行所述方法时，首先响应于获取的目标视频，生成具有关联关系的视频剪辑帧序列。接着根据预设算法，提取视频剪辑帧序列中每个视频剪辑帧的多视角特征，生成剪辑级图。然后基于第一预设注意力机制处理剪辑级图，确定场景级人物特征和人物对特征。利用场景级人物特征和人物对特征确定人物角色的场景级社交关系图。如此，通过视频剪辑帧序列，结合预设算法和第一预设注意力机制处理，使得获取的场景级人物特征和人物对特征包含多视角和多模态信息，且所述特征捕捉到了时间维度的变化。由此，克服了现有技术只考虑短视频的人物关系识别而忽略时序演化因素带来的技术问题，提高了社交关系演化捕捉的准确度。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种人物关系演化捕捉的方法流程图；

图2为本申请实施例提供的另一种人物关系演化捕捉的方法流程图；

图3为本申请实施例提供的第三种人物关系演化捕捉的方法流程图；

图4为本申请实施例提供的视频剪辑帧序列到获取全局演化社交关系的示例图；

图5为本申请实施例提供的第三种人物关系演化捕捉的装置结构示意图。

具体实施方式

正如前文所述，现有研究视频人物之间的社会关系技术，旨在研究短视频中的人物社会关系识别。然而对于完整视频，视频长度较长。现有技术难以将多模态线索总结为整个视频对人物间关系的整体语义表示，且没有考虑时序演化因素。这导致现有技术难以完全总结出人物社交关系演变线索，从而导致捕捉的人物社交演化关系准确度低。

基于此，本申请提出了一种人物关系演化捕捉的方法，通过将整个视频处理生成包括多个视频剪辑帧的视频剪辑帧序列，并通过预设算法和第一预设注意力机制对视频剪辑帧序列处理，生成具有多视角信息和时序演变关系的场景级人物特征和人物对特征。利用获取的场景级人物特征和人物对特征生成人物间的场景级社交关系图，可以准确捕捉到人物社会演化关系。

为了使本领域技术人员更好理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得所有其他实施例，都属于本申请保护的范围。

参见图1，为本申请实施例提供的一种人物关系演化捕捉的方法流程图，可应用于视频分析系统。该方法至少包括以下步骤：

S101：响应于获取的目标视频，生成具有关联关系的视频剪辑帧序列。

在本申请实施例中的目标视频可以是需要进行角色分析的影视剧内容。具体可以通过视频剪辑或其他方式从在线视频媒体上获取目标视频。在本申请实施例中，目标视频可以是长视频。

在本申请实施例中，视频分析系统获取目标视频后，需要将目标视频进行处理，生成具有多个视频剪辑帧的视频剪辑帧序列。在本申请实施例中，视频剪辑帧系列包括人物角色，且各视频剪辑帧具有的关联关系。

在本申请实施例中，为保证内容独立性和独立完整性，且确保各视频剪辑帧具有关联性，可以采用分割和采样，且对人物角色进行定位和重识别。具体实现方式在图2中进行详细描述。这里不再论述。

S102：根据预设算法，提取所述视频剪辑帧序列中每个视频剪辑帧的多视角视觉特征，构建每个视频剪辑的剪辑级图。

对于生成的视频剪辑帧序列，可以通过预设算法，提取各视频剪辑帧的多视角视觉特征。然后基于多视角视觉特征，构建每个视频剪辑帧的剪辑级图。其中，剪辑级图用于对视频剪辑帧的社会状态进行结构性表示。在本申请实施例中，多视角视觉特征包括人物特征、人物对特征、对话特征和片段视频特征。其中片段视频特征用于表示片段中含有的场景信息。

在本申请实施例中，根据预设算法提取多视角视觉特征，可以为根据人物角色框和联合框的视觉特征表征人物和人物对。在本申请实施例中，人物对表示人物之间的联系。具体的：

基于第一预设算法从所述视频剪辑帧序列中提取人物特征、人物对特征和片段视频特征。基于第二预设算法从视频剪辑帧序列中的对话文件中提取对话特征。根据多视角视觉特征和第二预设注意力机制，构建每个视频剪辑的剪辑级图。其中，剪辑级图由所述多视角视觉特征组成。在本申请实施例中，第二预设注意力机制为图注意力机制，用于构建所述剪辑级图。

可选的，可将多视角视觉特征作为剪辑级图的不同节点，利用第二预设注意力机制传播所述不同节点的信息。并对不同节点分配不同权重，并对相邻节点传递信息，生成每个视频剪辑的剪辑级图。在本申请实施例中，第二预设注意力机制可以为图注意力网络机制。

示例性说明：

在本申请实施例中，可以采用在Kinetics-400数据集上预训练的膨胀3D卷积残差网络来处理人物框和人物联合框，提取人物特征C

汇总剪辑级图综合信息，采用图注意力网络传播节点信息。在本申请实施例中，可以为不同节点分配不同权重，并对相邻节点对进行信息传递。如此，增强人物特征和人物对特征。具体来讲，给定一个相同维度的图节点嵌入，对视频剪辑帧操作，可以表述为：

其中，z代表剪辑级图中任一节点，l代表模型的第l层，H代表模型的多头关注的注意头数量，exp代表指数函数，W是一个可学习的矩阵。α

最后，将多视角视觉特征利用图注意力网络获得剪辑级图。以实现对视频剪辑帧的人物和人物对增强。具体增强公式如下所述：

其中，GAT为图注意力网络。

S103：基于第一预设注意力机制处理所述剪辑级图，确定场景级人物特征和人物对特征。

将确定的剪辑级图中增强表示的人物特征和人物对特征，输入至第一预设注意力机制进行处理。在本申请实施例中，第一预设注意力机制为包含各时段的历史信息演变趋势，用于使所述场景级人物特征和人物对特征包含时间维度信息。即第一预设注意力机制可以聚合各时段的历史信息的演变趋势，并捕捉到时间的依赖性。使得获取的场景级人物特征和人物对特征包括多视角信息，且具有时间维度的变化。

S104：根据场景级人物特征和人物对特征，确定所述人物角色的场景级社交关系图，以捕捉所述目标视频的人物社交关系演化。

根据场景级人物特征和人物对特征，确定人物角色的场景级社交关系图。在本申请实施例中，可以将场景级人物特征和人物对特征输入至预设的第三预设注意力机制，调整所述场景级人物对特征。将调整后的所述场景级人物对特征发送至全连接层，对人物对的社交关系进行分类，获取人物角色的场景级社交关系图。

示例性说明：假设场景级人物特征S

其中，场景级图临界矩阵A为：

最后，将增强后的人物对特征S

本申请公开了一种视频人物社交关系演化捕捉的方法，首先响应于获取的目标视频，生成具有关联关系的视频剪辑帧序列。接着根据预设算法，提取视频剪辑帧序列中每个视频剪辑帧的多视角特征，生成剪辑级图。然后基于第一预设注意力机制处理剪辑级图，确定场景级人物特征和人物对特征。利用场景级人物特征和人物对特征确定人物角色的场景级社交关系图。如此，通过视频剪辑帧序列，结合预设算法和第一预设注意力机制处理，使得获取的场景级人物特征和人物对特征包含多视角和多模态信息，且所述特征捕捉到了时间维度的变化。由此，克服了现有技术只考虑人物关系识别而忽略时序演化因素带来的技术问题，提高了社交关系演化捕捉的准确度。

参见图2，为本申请实施例提供的另一种人物关系演化捕捉的方法流程图。该方法在生成视频剪辑帧序列时，充分考虑内容独立和语义完整性，以及充分考虑到片段之间的关联关系，使得利用该该方法流程图捕捉的人物关系准确度进一步提升。该方法以电影数据集为例进行说明。该方法至少包括一下步骤：

S201：获取目标视频。

S202：根据情节和场景将目标视频分割成多个视频剪辑片段。

在本申请实施例中，将完整视频根据情节和场景被分割成多个时间剪辑片段，能够保证内容的独立性和视频的完整性。

S203：对多个视频剪辑片段进行等间距采样，获取视频剪辑帧序列。

对S202获取的多个视频剪辑片段进行等间距采样，可以得到视频剪辑帧序列。示例性说明：多每个视频剪辑片段以1帧/秒的采样频率对每个视频剪辑片段进行采样，获得多个视频剪辑帧，由这些视频剪辑这组成的序列即为视频剪辑帧序列。

S204：对视频剪辑帧序列进行人物角色定位和重识别，生成具有关联关系的视频剪辑帧序列。

在本申请实施例中，可以对视频剪辑帧序列进行人物角色定位和重识别，建立各个视频剪辑帧之间的关联关系。如此使得各视频剪辑帧序列具有人物假设之间的关联关系。

在本申请实施例中，可以通过以下方式实现人物角色定位和重识别：

基于预训练的人物检测器检测视频剪辑帧，获取人物框和人物框对应的置信度。当人物框对应的置信度大于第一预设阈值时，确定人物框包含人物角色。接着利用带有标识符标记的人脸框匹配所述包含人物角色的人物框，对人物框进行重识别。基于第三预设算法对包含人物角色的所有人物框进行体特征提取，确定人物框特征。最后基于余弦相似度计算所述人物框特征与已标注人物框特征的相似度。并当相似度大于预设阈值，人物框与已标注人物框为同一人物角色，完成对人物角色的定位。

S205：根据预设算法，提取所述视频剪辑帧序列中每个视频剪辑帧的多视角视觉特征，构建每个视频剪辑的剪辑级图。

S206：基于时序自注意力机制处理剪辑级图，确定场景级人物特征和人物对特征。

S207：将场景级人物特征和人物对特征输入至场景级图图注意力网络，增强场景级人物特征和人物对特征。

S208：将人物对特征输入至全连接层，通过监督方式对相应人物对的社交关系分类，生成人物间的场景级社交关系图。

S205～S208与图1中S102～S104相同。这里不再论述。

参见图3，为本申请实施例提供的第三种人物关系演化捕捉的方法流程图。该方法可以生成全局演化社交关系图，且可以实现关系演化的可视化。该方法以具体电影数据集为例进行说明。该方法至少包括以下步骤：

S301：将完整视频根据情节和场景和等间距采样，得到视频剪辑帧序列。

在本申请实施例中，完整视频来自于在线视频平台的电影数据集。等间距采样为以1帧/秒的采样频率进行采样得到由视频剪辑帧组成的视频剪辑帧序列。

S302：进行视频剪辑帧序列中人物角色进行定位及重识别。

在本申请实施例中，可以基于Faster R-CNN的人物检测器来检测视频剪辑帧中的人物，选取置信度大于0.8的检测框作为检测出来的人物角色框。在得到人物角色框以后，利用带有ID标记的人脸框与人物框进行重合匹配，对一部分人物框进行重识别。接着利用基于残差网络的特征提取网络对所有人物角色框进行特征抽取，再对人物框特征之间进行余弦相似度的计算，与已标注人物框相似度大于阈值0.8的未标注人物框被视作同一个人物角色。

S303：将视频剪辑帧序列中视频剪辑帧，通过图注意力网络机制，构建剪辑级图，增强人物特征和人物对特征。

S304：将增强后的人物特征和人物对特征输入至时序自注意力网络，生成场景级人物特征和人物对特征。

S305：将场景级人物特征和人物对特征输入至场景级图卷积网络，进一步增强场景级人物特征和人物对特征。

S306：将增强后的场景级人物对输入至全连接层，确定人物间的场景级社交关系图SG

S303～S306与图1中S102～S104相同。这里不再论述。

S307：根据确定的SGS和时间维度滑动窗口，生成不同视频剪辑帧序列的人物角色的场景级的社交关系图。

S308：依照时间演化顺序合并人物角色的场景级的社交关系图，生成全局演化社交关系图。

S309：将人物间场景级社交关系图和全局演化社交关系图进行可视化。

示例性说明：

参见图4，为本申请实施例提供的视频剪辑帧序列到获取全局演化社交关系的示例图。其中视频剪辑序列(Clipt-L，Clipt-L+1，……，Clipt)，每个视频剪辑均可以形成一个图注意力网络，这些图注意力网络形成剪辑级图。其中，V和D分布用于表示片段视频特征C

本申请实施例还提供了一种人物关系演化捕捉的装置。参见图5，为本申请实施例提供的一种人物关系演化捕捉的装置结构示意图500。该装置500至少包括以下部分：

响应单元501，用于响应于获取的目标视频，生成具有关联关系的视频剪辑帧序列。其中，视频剪辑帧序列包含人物角色。

剪辑级图生成单元502，用于根据预设算法，提取所述视频剪辑帧序列中每个视频剪辑帧的多视角视觉特征，构建每个视频剪辑的剪辑级图；所述剪辑级图用于表示人物社交关系的状态；

确定单元503，用于基于第一预设注意力机制处理所述剪辑级图，确定场景级人物特征和人物对特征；其中，所述第一预设注意力机制为包含各时段的历史信息演变趋势，用于使所述场景级人物特征和人物对特征包含时间维度信息；

捕捉单元504，用于根据所述场景级人物特征和人物对特征，确定所述人物角色的场景级社交关系图，以捕捉所述目标视频的人物社交关系演化。

在本申请实施例中，响应单元501响应于获取的目标视频，生成具有关联关系的视频剪辑帧序列。剪辑级图生成单元502根据预设算法，提取视频剪辑帧序列中每个视频剪辑帧的多视角特征，生成剪辑级图。确定单元503基于第一预设注意力机制处理剪辑级图，确定场景级人物特征和人物对特征。捕捉单元504利用场景级人物特征和人物对特征确定人物角色的场景级社交关系图。如此，通过视频剪辑帧序列，结合预设算法和第一预设注意力机制处理，使得获取的场景级人物特征和人物对特征包含多视角和多模态信息，且所述特征捕捉到了时间维度的变化。由此，克服了现有技术只考虑人物关系识别而忽略时序演化因素带来的技术问题，提高了社交关系演化捕捉的准确度。

本申请实施例还提供了对应的设备以及计算机存储介质，用于实现本申请实施例提供的方案。

其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本申请任一实施例所述的人物关系演化捕捉的方法。

所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现本申请任一实施例所述的人物关系演化捕捉的方法。

本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请示例性的实施方式，并非用于限定本申请的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐童;陈恩红;秦鹏刚;吴世伟;郝艳宾;冯福利;
专利申请人：中国科学技术大学;

上一篇：音频处理方法、装置、电子设备和计算机可读存储介质
下一篇：一种基于内窥镜图像的深度融合的肠息肉分割方法及装置