掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度矩阵分解的短视频多标签分类方法

文献发布时间:2023-06-19 18:37:28


一种基于深度矩阵分解的短视频多标签分类方法

技术领域

本发明涉及短视频多标签分类领域,尤其涉及一种基于深度矩阵分解的短视频多标签分类方法。

背景技术

随着信息化时代的到来,短视频逐渐取代传统的图像和文字,成为越来越多的用户在社交媒体上的表达载体。作为机器学习领域的重要研究方向之一,短视频多标签分类目前尚处于初期阶段。其主要挑战在于短视频的各个低级特征与高级标签语义之间巨大的语义鸿沟以及标签的多样性。针对第一个挑战,当前大多数算法关注于通用特征提取的设计,利用矩阵分解或注意力机制提取通用特征;针对第二个挑战,利用标签相关性的图神经网络学习成为新的学习范式。图神经网络学习是一种更宽泛的学习范式,能够更有效地表达标签的内在关系和重要程度。

尽管如此,如何有效跨越低级特征与高级标签语义之间的语义鸿沟以及如何充分利用多标签之间的关联性仍然是有价值的研究方向。因此提出一种有效提取通用特征和个性特征和充分发掘多标签之间关联性的短视频多标签分类算法是有意义的。

发明内容

本发明提供了一种基于深度矩阵分解的短视频多标签分类方法,本发明针对目前短视频多标签分类算法存在的不足,提出了一种基于深度矩阵分解的短视频多标签分类方法,充分挖掘视频、音频和光流的通用语义特征和个性语义特征,补充样本和标签的潜在相关信息,获取更加完备的短视频特征表示,从而更加精准地对短视频进行多标签分类,详见下文描述:

一种基于深度矩阵分解的短视频多标签分类方法,该方法包括以下步骤:

将短视频数据集划分为训练集、验证集和测试集,通过特征提取分别提取输入短视频的视频特征、音频特征和光流特征;

利用索引矩阵、样本关系矩阵、标签编码矩阵和标签关系矩阵对样本和标签的潜在相关信息进行编码,对视频特征、音频特征和光流特征分别进行深度矩阵分解,得到通用编码矩阵;

利用通用编码矩阵,通过深度分解,分别得到视频特征、音频特征和光流特征的个性解码矩阵;

将视频特征、音频特征和光流特征的个性解码矩阵拼接后,输入到多标签分类器中得到最终的多标签分类结果。

其中,所述提取输入短视频的视频特征、音频特征和光流特征分别为:

输入短视频的视频特征提取方法是Inception v2,音频特征提取方法是MFCC,光流特征提取方法是在Lucas-Kanade光流算法得到的结果上,再使用Inception v2。

进一步地,所述利用索引矩阵、样本关系矩阵、标签编码矩阵和标签关系矩阵对样本和标签的潜在相关信息进行编码具体为:

Q

其中,R表示实数域,C表示标签类别,N表示数据集的样本数量,每个样本至少有一个标签,索引矩阵Q

其中,所述利用通用编码矩阵,通过深度分解,分别得到视频特征、音频特征和光流特征的个性解码矩阵为:

其中,

本发明提供的技术方案的有益效果是:

1、本发明利用索引矩阵、样本关系矩阵、标签编码矩阵和标签关系矩阵对样本和标签的潜在相关信息进行编码,学习样本和标签各自的深层次的关系;对视频特征、音频特征和光流特征分别进行深度矩阵分解,挖掘更多潜在表示,得到通用编码矩阵;

2、本发明利用深度矩阵分解获取通用编码矩阵中的各个特征的个性编码信息,区别于直接拼接各个特征仅能片面地从某一维度表征短视频,这种对编码后矩阵进行解码的机制可以在多个维度上使最终得到的特征兼顾各个特征的通用信息和个性信息,学习到短视频中更完备的内容特征;

3、本发明区别于传统的矩阵分解方法,基于样本和标签双向集成学习的深度矩阵分解方法可以自适应的生成通用矩阵和个性矩阵,能很好的捕获视频特征、音频特征和光流特征之间的共性和个性。

4、本发明该方法通过融合视频特征、音频特征和光流特征,以及多标签之间的相关信息,增强拼接后特征的表征能力,为解决短视频多标签分类提供新的方法思路。

附图说明

图1为本发明的基于深度矩阵分解的短视频多标签分类方法整体流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

图1为本发明实施例的基于深度矩阵分解的短视频多标签分类方法整体流程图,该流程具体包括以下步骤:

步骤1:提取输入短视频的视频特征、音频特征和光流特征。使用Inception v2(初始网络第二代)提取输入短视频的视频特征,使用MFCC(梅尔倒谱系数)算法提取音频特征,使用Lucas-Kanade光流算法得到中间特征,再使用Inception v2基于中间特征提取光流特征;

步骤2:数据集样本和标签之间存在潜在相关结构,利用索引矩阵、样本关系矩阵、标签编码矩阵和标签关系矩阵对样本和标签的潜在相关信息进行编码;对视频特征、音频特征和光流特征分别进行深度矩阵分解,挖掘更多潜在表示,得到通用编码矩阵。

对于步骤1得到的视频、音频和光流三个视图的特征表示为

实现样本和标签信息的双向集成学习,学习样本和标签的潜在相关结构,分别引入索引矩阵Q

其中索引矩阵Q

为了增强样本和标签的关系可辨别性,引入标签编码矩阵P

步骤3:短视频的多标签分类不仅取决于样本和标签的潜在相关结构,还与短视频的视频特征、音频特征和光流特征之间存在的通用语义特征和个性语义特征密切相关。利用通用编码矩阵,通过深度分解,分别得到视频特征、音频特征和光流特征的个性解码矩阵;用于挖掘通用语义特征和个性语义特征的深度矩阵分解方法,计算公式如下:

其中,

本发明实施例描述如下:

使用来自美拍挑战赛的125368个短视频作为数据集,每个短视频由美图官方标记好标签,标签类别总计63类。将该数据集划分为训练集、验证集和测试集,分别用D

网络模型的搭建基于TensorFlow深度学习框架,使用Inception v2提取输入短视频的视频特征,使用MFCC算法提取音频特征,使用Lucas-Kanade光流算法得到中间特征,再使用Inception v2基于中间特征提取光流特征。其余采用随机初始化参数。利用Adam优化器对视频特征、音频特征和光流特征进行分解和融合直至收敛,利用训练好的模型在验证集上进行参数调整,将测试集数据送入调整好的模型得到最终的多标签分类结果。

对于多标签分类效果的评价,目前常用的有5个指标,其表达式如下:

其中,N表示样本数量,l

实验结果如表1所示,Precision、HammingLoss、Coverage、RankingLoss均优于其他方法,OneError稍差,总体来看,综合效果优于其他方法。

表1不同方法对比

综上所述,本发明实施例通过联合深度矩阵分解和编解码提取更深层次的通用特征和个性特征表示,极大丰富了通用特征和个性特征,有效地增强了短视频的视频、音频和光流特征的融合能力,保证了特征的完备性和独特性,提高了短视频多标签分类的准确性。本发明将深度矩阵分解、编解码、样本与标签内在关系学习等多种思想结合在一起,尤其适合低功耗场景下的大规模短视频多标签分类。

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120115629981