掌桥专利:专业的专利平台
掌桥专利
首页

视频数据处理方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 19:07:35


视频数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及视频数据处理的技术领域,尤其涉及一种视频数据处理方法、装置、计算机设备和存储介质。

背景技术

随着大量视频应用的涌现,对视频数据进行处理的手段也越来越丰富,其中,就包括对视频数据进行分类的处理,以通过所分类的视频数据向用户推送其所感兴趣类型的视频数据。

现有应用中,通常是由用户在上传视频数据时,就为所上传的视频数据选择类型标签,或者是在用户上传视频数据后,由后台的技术人员手动地为视频数据添加类型标签,这不仅耗费大量人力,而且对视频进行分类的标准也并不统一,导致对视频的分类并不准确。

发明内容

本申请提供了一种视频数据处理方法、装置、计算机设备和存储介质,可提高所确定的视频数据的视频类型的准确性。

本申请一方面提供了一种视频数据处理方法,该方法包括:

从视频数据中抽取目标图像帧;

获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;

获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;

分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;

根据每个特征位置处的融合特征信息确定视频数据的视频类型。

本申请一方面提供了一种视频数据处理装置,该装置包括:

抽取模块,用于从视频数据中抽取目标图像帧;

获取模块,用于获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;

获取模块,用于获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;

融合模块,用于分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;

确定模块,用于根据每个特征位置处的融合特征信息确定视频数据的视频类型。

可选的,图像特征图是调用预测网络获取得到;预测网络包括图像特征提取网络和类型预测网络;

获取模块获取目标图像帧对应的图像特征图的方式,包括:

调用预测网络中的图像特征提取网络提取目标图像帧的图像特征,得到图像特征图;

确定模块根据每个特征位置处的融合特征信息确定视频数据的视频类型的方式,包括:

调用预测网络中的类型预测网络根据每个特征位置处的融合特征信息确定视频数据的视频类型。

可选的,获取模块获取图像特征图中每个特征位置处的位置特征嵌入参数的方式,包括:

从图像特征提取网络中获取位置特征嵌入矩阵;

从位置特征嵌入矩阵中提取每个特征位置处的位置特征嵌入参数。

可选的,预测网络还包括文本特征提取网络;上述装置还用于:

获取视频数据的关联文本数据;

调用文本特征提取网络提取关联文本数据的文本特征,得到关联文本数据的文本特征矩阵;

确定模块调用预测网络中的类型预测网络根据每个特征位置处的融合特征信息确定视频数据的视频类型的方式,包括:

根据每个特征位置处的融合特征信息生成融合特征矩阵;

对文本特征矩阵和融合特征矩阵进行拼接处理,得到拼接特征矩阵;

调用类型预测网络根据拼接特征矩阵确定视频数据的视频类型。

可选的,上述装置还用于:

获取样本视频数据及样本视频数据的样本关联文本数据;样本视频数据携带视频类型标签;

从样本视频数据中抽取样本图像帧,并调用初始预测网络中待训练的图像特征提取网络提取样本图像帧的图像特征,得到样本图像帧对应的样本图像特征图;

调用待训练的图像特征提取网络根据样本图像特征图和初始位置特征嵌入矩阵,生成针对样本图像帧的样本融合特征矩阵;初始位置特征嵌入矩阵是根据每个特征位置得到;

调用初始预测网络中待训练的文本特征提取网络提取样本关联文本数据的文本特征,得到样本关联文本数据的样本文本特征矩阵;

根据样本融合特征矩阵和样本文本特征矩阵预测样本视频数据的视频类型;

根据所预测的样本视频数据的视频类型及视频类型标签所指示的样本视频数据的实际视频类型更新初始预测网络的网络参数,得到预测网络;初始位置特征嵌入矩阵属于初始预测网络的网络参数;

其中,预测网络包括位置特征嵌入矩阵,位置特征嵌入矩阵是更新后的初始位置特征嵌入矩阵,位置特征嵌入矩阵包括每个特征位置处的位置特征嵌入参数。

可选的,初始位置特征嵌入矩阵包括每个特征位置处的初始位置嵌入参数;上述装置还用于:

对样本图像特征图的每个特征位置进行行编码,得到每个特征位置处的行编码值;

对样本图像特征图的每个特征位置进行列编码,得到每个特征位置处的列编码值;

分别对每个特征位置处的行编码值和列编码值进行求和处理,得到每个特征位置处的初始位置嵌入参数。

可选的,融合模块分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息的方式,包括:

分别对每个特征位置处的特征参数和位置特征嵌入参数进行加和融合处理,得到每个特征位置处的融合特征参数;

根据每个特征位置处的融合特征参数,生成每个特征位置处的融合特征信息。

可选的,图像特征图的数量为N个,N为正整数;多个特征位置中的任一个特征位置表示为第i个特征位置,i为小于或等于多个特征位置的位置总数量的正整数;

融合模块根据每个特征位置处的融合特征参数,生成每个特征位置处的融合特征信息的方式,包括:

对每个图像特征图中第i个特征位置处的融合特征参数进行展平处理,得到第i个特征位置处的融合特征信息;

其中,第i个特征位置处的融合特征信息包含第i个特征位置处的N个融合特征参数。

可选的,目标图像帧的数量为多个;

获取模块获取目标图像帧对应的图像特征图,包括:

生成每个目标图像帧分别对应的特征图;

对每个目标图像帧分别对应的特征图进行平均融合处理,得到图像特征图。

可选的,抽取模块从视频数据中抽取目标图像帧的方式,包括:

对视频数据进行分段,得到多个分段视频数据;

从每个分段视频数据中分别抽取图像帧,并将从每个分段视频数据中所抽取的图像帧均确定为目标图像帧。

可选的,上述装置还用于:

获取目标对象的视频偏好类型;

若所预测的视频数据的视频类型属于视频偏好类型,则将视频数据推送给目标对象。

本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请中一方面中的方法。

本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器执行上述一方面中的方法。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面等各种可选方式中提供的方法。

本申请可以从视频数据中抽取目标图像帧;获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;根据每个特征位置处的融合特征信息确定视频数据的视频类型。由此可见,本申请提出的方法可以通过视频数据中的图像帧来确定视频数据的视频类型,并且,在通过图像帧确定视频类型时,是通过图像特征图中各个特征位置处的融合特征信息进行确定,从而保留了图像特征图中的特征空间信息(通过各个特征位置体现),因此,使得所确定的视频数据的视频类型会更加准确。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图;

图2是本申请提供的一种视频类型预测的场景示意图;

图3是本申请提供的一种视频数据处理方法的流程示意图;

图4a是本申请提供的一种获取各个特征位置处的融合特征参数的场景示意图;

图4b是本申请提供的一种生成融合特征矩阵的场景示意图;

图5是本申请提供的一种视频推送的场景示意图;

图6是本申请提供的一种视频类型预测的场景示意图;

图7是本申请提供的一种视频数据处理方法的流程示意图;

图8是本申请提供的一种生成初始位置特征嵌入矩阵的场景示意图;

图9是本申请提供的一种模型训练的场景示意图;

图10是本申请提供的一种视频数据处理装置的结构示意图;

图11是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请涉及到人工智能相关技术。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请中主要涉及到了人工智能中的机器学习。其中,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请中所涉及到的机器学习主要指,如何训练得到预测模型,以通过所训练的预测模型预测视频数据的视频类型,具体可以参见下述图3对应的实施例中的描述。

请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,网络架构可以包括服务器200和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、…、终端设备103a;如图1所示,终端设备100a、终端设备101a、终端设备102a、…、终端设备103a均可以与服务器200进行网络连接,以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。

如图1所示的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、车载终端等智能终端。下面以终端设备100a与服务器200之间的通信为例,进行本申请实施例的具体描述。

请一并参见图2,图2是本申请提供的一种视频类型预测的场景示意图。其中,终端设备100a可以是目标对象的终端设备,目标对象可以是视频客户端的一个用户,服务器200可以是该视频客户端的后台服务器,服务器200可以对数据库中各种视频数据进行分类,服务器还可以获知目标对象的视频偏好类型,该视频偏好类型即目标对象更喜欢观看的视频的类型,该视频偏好类型可以是用户自己设置的,也可以是服务器200根据用户观看视频的行为测算出来的。因此,服务器200可以将分类出来的属于目标对象的视频偏好类型的视频数据推送给目标对象,即发送给终端设备100a,终端设备100a就可以在视频客户端的客户端页面中显示服务器200所推送的视频数据,以供目标对象浏览观看。

因此,可以知道的是,服务器200对各种视频数据进行分类之前,就需要确定各个视频数据的视频类型。此处,以服务器200确定视频数据s的过程为例来具体说明服务器确定各个视频数据的视频类型的原理。

如图2所示,首先服务器200可以从视频数据s中抽取图像帧,进而将所抽取的图像帧输入预测网络,该预测网络是训练好的可以用于预测视频数据的视频类型的网络,该预测网络的具体训练过程可以参见下述图7对应实施例中的描述。在视频数据s中抽取图像帧的方式可以参见下述图3对应实施例中从视频数据中抽取目标图像帧的描述。

因此,在预测网络中可以生成所输入的图像帧对应的图像特征图。该图像特征图中可以包含预测网络从所输入的图像帧上所学习到的多个特征参数,该多个特征参数属于图像特征图中的多个特征值(即多个特征元素),此处该多个特征参数具体可以包括特征参数1、特征参数2、特征参数3、特征参数4、特征参数5、特征参数6、特征参数7、特征参数8、特征参数9。其中,图像特征图的生成方式可以参见下述图3对应实施例中生成目标图像帧对应的图像特征图的描述。

其中,一个特征参数可以对应一个特征位置,如特征参数1可以对应特征位置1,特征参数2可以对应特征位置2,特征参数3可以对应特征位置3,特征参数4可以对应特征位置4,特征参数5可以对应特征位置5,特征参数6可以对应特征位置6,特征参数7可以对应特征位置7,特征参数8可以对应特征位置8,特征参数9可以对应特征位置9。

因此,服务器200可以按照各个特征位置来获取图像帧的图像特征,这可以保留图像特征的空间信息,如可以获取特征位置1处的图像特征,获取特征位置2处的图像特征,获取特征位置3处的图像特征,获取特征位置4处的图像特征,获取特征位置5处的图像特征,获取特征位置6处的图像特征,获取特征位置7处的图像特征,获取特征位置8处的图像特征,获取特征位置9处的图像特征。其中,服务器200获取各个特征位置处的图像特征的过程可以参见下述图3对应实施例中的描述,此处各个特征位置处的图像特征就是下述图像特征图中各个特征位置处的融合特征信息。进而,服务器可以通过在图像特征图中各个特征位置上的图像特征就可以确定视频数据s的视频类型。

采用本申请所提供的方法,以图像特征图中各个特征位置为单位来获取对应特征位置上的图像特征,保留了图像特征之间的空间信息,进而通过各个特征位置处的图像特征来预测视频数据的视频类型可以更加准确。

请参见图3,图3是本申请提供的一种视频数据处理方法的流程示意图。本申请实施例中的执行主体可以是一个计算机设备或者多个计算机设备所构成的计算机设备集群。该计算机设备可以是服务器,也可以终端设备等。下述统一将本申请实施例中的执行主体称呼为计算机设备为例进行说明。如图3所示,该方法可以包括:

步骤S101,从视频数据中抽取目标图像帧。

可选的,视频数据可以是任意一个需要确定视频类型的视频,视频数据可以是用户上传的,也可以是从网页上获取的,如视频数据的视频类型可以是健康、体育、娱乐、游戏或电影等类型。

其中,从视频数据中抽取目标图像帧的方式可以是:

计算机设备可以对视频数据进行分段,进而将视频数据分为多段,分段得到的每段均可以称之为分段视频数据,一个分段视频数据可以包含多个图像帧。进而,计算机设备可以从每个分段视频数据中分别抽取图像帧,进而可以将从每个分段视频数据中所抽取得到的图像帧均作为目标图像帧。

例如,对视频数据进行分段可以得到16个分段视频数据,进而可以从16个分段视频数据中每个分段视频数据中各自随机抽取1个图像帧,即1个分段视频数据抽取1个图像帧,进而可以将从各个分段视频数据中抽取得到的16个图像帧均作为目标图像帧,得到共16个目标图像帧。

步骤S102,获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置。

可选的,本申请中可以调用训练好的预测网络来生成目标图像帧对应的图像特征图,该预测网络的训练过程可以参见下述图7对应实施例中的具体描述。

其中,预测网络可以包括图像特征提取网络(训练好的图像特征提取网络),该图像特征提取网络可以用于对图像数据中的图像特征进行提取(即学习)。

由于目标图像帧可以有多个,计算机设备可以调用图像特征提取网络提取每个目标图像帧的图像特征,进而得到每个目标图像帧的特征图,一个目标图像帧的特征图就包含图像特征提取网络从该目标图像帧中提取得到的特征参数(如特征值)。其中,目标图像帧的特征图在预测网络中表现为是特征矩阵,一个特征图可以是一个特征矩阵,该特征矩阵中的每个元素(即每个数值)都可以称之为是特征图中的特征参数,一个特征参数可以对应一个特征位置,如一个特征位置可以是特征矩阵中第1行第1列处的位置,再如,一个特征位置可以是特征矩阵中第2行第3列处的位置。

进而,计算机设备可以对每个目标图像帧分别对应的特征图进行平均融合处理,即可得到多个目标图像帧对应的图像特征图。其中,各个目标图像帧的特征图的大小(即维度)相同,对多个目标图像帧分别对应的特征图进行平均融合处理可以指对多个目标图像帧分别对应的特征图中处于相同特征位置处的特征参数求平均值,进而通过各个特征位置处所求取的平均值就可以得到图像特征图。

其中,需要进行说明的是,若是有多个特征通道,则每个目标图像帧在每个特征通道下均可以对应有特征图,因此,一个特征通道可以对应有一个图像特征图,一个特征通道对应的图像特征图就是对该特征通道下各个目标图像帧的特征图进行平均融合处理得到。换句话说,图像特征图可以1有多个,图像特征图与各个目标图像帧的特征图的维度(即大小)相同。其中,特征通道也就是深度学习中的通道(channel),一个特征通道可以对应于对图像的一个维度上的特征的提取,因此,特征通道越多,表明提取图像特征时所提取的图像特征的维度也就越多。

图像特征图中可以包含针对目标图像帧的多个特征参数,一个特征参数各自对应图像特征图中的一个特征位置,图像特征图中各个特征位置处的特征参数,是对各个目标图像帧的特征图中相同特征位置上的特征参数进行平均运算得到(即计算平均值,也就是平均参数)。例如,若图像特征图的维度是3*3,则图像特征图中可以包含9个特征参数(即9个特征元素),9个特征参数对应有9个特征位置。

步骤S103,获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度。

可选的,其中,图像特征图中各个特征位置处的位置特征嵌入参数用于指示图像特征图中各个特征参数的位置,各个特征位置处的位置特征嵌入参数还用于指示各个特征位置处的特征参数之间的关联程度,例如,由于通过各个特征位置处的位置特征嵌入参数可以知道图像特征图中各个特征参数的位置,因此,通过各个特征位置处的位置特征嵌入参数可以知道图像特征图中各个特征参数之间的距离远近,因此,若两个特征参数之间的距离越远,则该两个特征参数之间的关联程度就越小,反之,若两个特征参数之间的距离越近,则该两个特征参数之间的关联程度就越大。由于各个特征位置处的特征参数之间会进行交互学习和预测(如对视频类型进行预测时),因此,可以理解的是,关联程度较小的特征参数之间的交互对对方所带来的影响就越小,关联程度较大的特征参数之间的交互对对方所带来的影响就越大。因此,通过在图像特征图中各个特征位置处的特征参数融入对应的位置特征嵌入参数,可以使得预测时考虑到了特征参数之间的空间信息(如位置信息),通过该空间信息就考虑到了各个特征参数之间的关联程度,因此,通过将位置特征嵌入参数和图像特征图进行融合,可以在后续提高对视频数据的视频类型的预测准确性。

其中,计算机设备获取图像特征图中各个特征位置处的位置特征嵌入参数的方式可以是:计算机设备可以从预测网络(如从预测网络中的图像特征提取网络)中获取位置特征嵌入矩阵,该位置特征嵌入矩阵属于预测网络的网络参数,该位置特征嵌入矩阵是在训练得到预测网络的过程中所更新得到的,该位置特征嵌入矩阵的具体更新获取的方式也可以参见下述图7对应实施例中训练初始预测网络以得到预测网络的过程。该位置特征嵌入矩阵是训练得到预测网络时所确定的一个通用嵌入矩阵,即对于任意视频数据的类型的预测,都可以使用该位置特征嵌入矩阵。

该位置特征嵌入矩阵的大小与图像特征图的大小相同(实际上,图像特征图也可以表示为矩阵),位置特征嵌入矩阵中的特征位置与图像特征图中的特征位置一一对应,因此,计算机设备可以从位置特征嵌入矩阵中提取得到各个特征位置处的位置特征嵌入参数,该位置特征嵌入参数属于位置特征嵌入矩阵中的特征参数(即特征值)。

步骤S104,分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息。

可选的,计算机设备可以对图像特征图中各个特征位置处的特征参数与位置特征嵌入参数进行融合处理,进而就可以得到各个特征位置处的融合特征信息。其中,计算机设备对图像特征图中各个特征位置处的特征参数与位置特征嵌入参数进行融合处理,可以是指计算机设备分别对图像特征图中各个特征位置处的特征参数与位置特征嵌入参数进行加和融合处理,就可以得到各个特征位置处的融合特征参数,即一个特征位置处的融合特征参数就可以是图像特征图中该特征位置处的特征参数以及该特征位置处的位置特征嵌入参数之和。

进而,计算机设备就可以通过各个特征位置上的融合特征参数,生成各个特征位置处的融合特征信息,具体如下内容描述:

其中,图像特征图的数量可以是N个,N为正整数,N的具体取值根据实际应用场景决定。其中,可以知道的是,每个图像特征图中各个特征位置上的特征参数都可以与对应的位置特征嵌入参数进行加和融合处理,得到对应图像特征图中对应特征位置处的融合特征参数。换句话说,一个图像特征图中各个特征位置处均可以计算出对应的融合特征参数。

本申请中所涉及到的关于图像的特征位置在任意一个图像特征图上或者位置特征嵌入矩阵上都适用,所有图像特征图和位置特征嵌入矩阵的大小都是相同的,图像特征图或者位置特征嵌入中一个元素所在的位置就可以是一个特征位置,各个图像特征图或位置特征嵌入矩阵中的特征位置的数量相同,且都是一一对应的。可以将上述多个特征位置中的任意一个特征位置表示为第i个特征位置,i为小于或者等于多个特征位置的位置总数量的正整数。

计算机设备可以对每个图像特征图中第i个特征位置处的融合特征参数进行展平处理,得到第i个特征位置处的融合特征信息。其中,对每个图像特征图中第i个特征位置处的融合特征参数进行展平处理可以是指通过每个图像特征图中第i个特征位置处的融合特征参数生成所对应的一个特征向量,该特征向量就是第i个特征位置处的融合特征信息。一个图像特征图中可以包含第i个特征位置处的一个融合特征参数。因此,可以理解的是,第i个特征位置处的融合特征信息就包含第i个特征位置处的N个融合特征参数,该N个融合特征参数分布在N个图像特征图中。

步骤S105,根据每个特征位置处的融合特征信息确定视频数据的视频类型。

可选的,上述预测网络还包括训练好的类型预测网络,计算机设备可以调用该类型预测网络根据各个特征位置处的融合特征信息来确定视频数据的视频类型,该类型预测网络的训练过程也可以参见下述图7对应实施例中的具体描述。

其中,计算机设备还可以根据图像特征图的每个特征位置处的融合特征信息生成融合特征矩阵:由于图像特征图的一个特征位置处的融合特征信息可以是一个特征向量(横向的),因此,融合特征矩阵就是由图像特征图的每个特征位置处的融合特征信息所构成的,融合特征矩阵的行数就是图像特征图中的多个特征位置的位置总数量,如一个图像特征图的维度是3*3,则融合特征矩阵的行数就等于9,融合特征矩阵的列数就等于图像特征图的个数(即通道数),如通道数等于768,则融合特征矩阵的列数就等于768,也就是图像特征图的一个特征位置处的融合特征信息是维度为1*768的特征向量。

计算机设备可以只通过根据目标图像帧所生成的融合特征矩阵来预测视频数据的视频类型,因此,计算机设备可以将融合特征矩阵输入类型预测网络,进而调用该类型预测网络根据该融合特征矩阵来预测视频数据的视频类型。此处所调用的类型预测网络可以是下述图7中结合样本视频数据和样本关联文本数据一起进行训练得到的,而下述输入待训练的类型预测网络的是对样本融合特征矩阵和样本文本特征矩阵进行拼接得到的样本拼接特征矩阵,因此,此处若只采用融合特征矩阵来预测视频数据的视频类型,则可以对融合特征矩阵拼接一个填充了0元素的与样本文本特征矩阵相同大小的矩阵(可以称之为零矩阵,该零矩阵中的特征参数可以全部为0),再将拼接得到的矩阵(保证该矩阵和训练时的样本拼接特征矩阵的维度大小相同)输入类型预测网络来预测视频数据的视频类型。

请参见图4a-图4b,图4a是本申请提供的一种获取各个特征位置处的融合特征参数的场景示意图,图4b是本申请提供的一种生成融合特征矩阵的场景示意图。如图4a所示,假设图像特征图一共有3个,该3个图像特征图包括图像特征图t1、图像特征图t2和图像特征图t3。

其中,此处,各个图像特征图的维度是2*2,图像特征图t1、图像特征图t2和图像特征图t3均包含4个特征位置(假设该4个特征位置分别为特征位置1、特征位置2、特征位置3、特征位置4)上的特征参数,具体的,特征位置1上的特征参数可以包括图像特征图t1中的特征参数1、图像特征图t2中的特征参数11、图像特征图t3中的特征参数111;特征位置2上的特征参数可以包括图像特征图t1中的特征参数2、图像特征图t2中的特征参数22、图像特征图t3中的特征参数222;特征位置3上的特征参数可以包括图像特征图t1中的特征参数3、图像特征图t2中的特征参数33、图像特征图t3中的特征参数333;特征位置4上的特征参数可以包括图像特征图t1中的特征参数4、图像特征图t2中的特征参数44、图像特征图t3中的特征参数444。

针对图像的位置特征嵌入矩阵也可以包括上述4个特征位置处的位置特征嵌入参数,如特征位置1处可以有位置特征嵌入参数1,特征位置2处可以有位置特征嵌入参数2,特征位置3处可以有位置特征嵌入参数3,特征位置4处可以有位置特征嵌入参数4。

因此,可以将各个图像特征图中的特征参数与位置特征嵌入矩阵中相同特征位置上的位置特征嵌入参数相加,得到对应图像特征图中的对应特征位置上的融合特征参数。

如图4a所示,对于图像特征图t1,特征位置1处的融合特征参数可以是特征参数1和位置特征嵌入参数1之和(可以记为融合特征参数1),特征位置2处的融合特征参数可以是特征参数2和位置特征嵌入参数2之和(可以记为融合特征参数2),特征位置3处的融合特征参数可以是特征参数3和位置特征嵌入参数3之和(可以记为融合特征参数3),特征位置4处的融合特征参数可以是特征参数4和位置特征嵌入参数4之和(可以记为融合特征参数4)。

对于图像特征图t2,特征位置1处的融合特征参数可以是特征参数11和位置特征嵌入参数1之和(可以记为融合特征参数11),特征位置2处的融合特征参数可以是特征参数22和位置特征嵌入参数2之和(可以记为融合特征参数22),特征位置3处的融合特征参数可以是特征参数33和位置特征嵌入参数3之和(可以记为融合特征参数33),特征位置4处的融合特征参数可以是特征参数44和位置特征嵌入参数4之和(可以记为融合特征参数44)。

对于图像特征图t3,特征位置1处的融合特征参数可以是特征参数111和位置特征嵌入参数1之和(可以记为融合特征参数111),特征位置2处的融合特征参数可以是特征参数222和位置特征嵌入参数2之和(可以记为融合特征参数222),特征位置3处的融合特征参数可以是特征参数333和位置特征嵌入参数3之和(可以记为融合特征参数333),特征位置4处的融合特征参数可以是特征参数444和位置特征嵌入参数4之和(可以记为融合特征参数444)。

因此,如图4b所示,特征位置1处的融合特征信息就可以是融合特征参数1、融合特征参数11、融合特征参数111所构成的特征向量;特征位置2处的融合特征信息就可以是融合特征参数2、融合特征参数22、融合特征参数222所构成的特征向量;特征位置3处的融合特征信息就可以是融合特征参数3、融合特征参数33、融合特征参数333所构成的特征向量;特征位置4处的融合特征信息就可以是融合特征参数4、融合特征参数44、融合特征参数444所构成的特征向量。融合特征矩阵就可以包括融合特征参数1、融合特征参数11、融合特征参数111、融合特征参数2、融合特征参数22、融合特征参数222、融合特征参数3、融合特征参数33、融合特征参数333、融合特征参数4、融合特征参数44、融合特征参数444。

可选的,计算机设备还可以结合视频数据的关联文本数据一起来确定视频数据的视频类型。其中,该关联文本数据可以是视频数据的标题信息,或者该关联文本数据还可以是对视频数据中的音频进行识别后,所得到的文本数据,该文本数据也就是对视频数据的音频进行文本转换后所得到的文本,或者关联文本数据还可以是对视频数据的音频进行文本转后在所得到的文本中选取的部分文本,该部分文本可以是包含视频关键词的文本,该视频关键词可以是预先构建的关键词库中的词语。再或者,该关联文本数据还可以是对视频数据的目标图像帧进行文本识别,进而从目标图像帧上所识别得到的文本内容。

因此,计算机设备可以获取到视频数据的关联文本数据。上述预测网络还可以包含训练好的文本特征提取网络,该文本特征提取网络的训练过程也可以参见下述图7对应实施例中的描述。

因此,计算机设备可以调用该文本特征提取网络提取关联文本数据的文本特征,进而得到关联文本数据的文本特征矩阵,该过程可以是:

计算机设备首先可以调用文本特征提取网络提取关联文本数据的文本特征,得到关联文本数据的特征矩阵。该特征矩阵的行数可以是设定的从关联文本数据中需要获取的分词的最大数量,该特征矩阵的列数可以是文本特征提取的通道数,该通道数与上述针对图像的通道数(即等于图像特征图的个数)相同,如都等于768。

进而,计算机设备还可以从预测网络(如从文本特征提取网络)中获取针对文本的文本位置特征嵌入矩阵,该文本位置特征嵌入矩阵也属于预测网络的网络参数,该文本位置特征嵌入矩阵是在训练得到预测网络的过程中所更新得到的,该文本位置特征嵌入矩阵的具体更新获取的方式也可以参见下述图7对应实施例中训练初始预测网络以得到预测网络的过程。该文本位置特征嵌入矩阵是训练得到预测网络时所确定的一个通用嵌入矩阵,即对于任意结合文本数据来预测视频数据的类型的场景,都可以融合该文本位置特征嵌入矩阵。

具体的,该文本位置特征嵌入矩阵的大小与关联文本数据的特征矩阵的大小相同,文本位置特征嵌入矩阵中的特征位置与关联文本数据的特征矩阵中的特征位置一一对应,因此,计算机设备可以从文本位置特征嵌入矩阵中提取得到关联文本数据的特征矩阵中各个特征位置处的文本位置特征嵌入参数,该文本位置特征嵌入参数属于文本位置特征嵌入矩阵中的特征参数(即特征值),与上述图像特征图中各个特征位置处的位置特征嵌入参数的概念相同,关联文本数据的特征矩阵中各个特征位置处的文本位置特征嵌入参数也可以用于指示关联文本数据的特征矩阵中各个特征参数之间的关联程度。

因此,计算机设备可以将关联文本数据的特征矩阵与文本位置特征嵌入矩阵进行加和,即可以将关联文本数据的特征矩阵中各个特征位置处的特征参数(即元素,也就是特征值)与对应的文本位置特征嵌入参数分别进行求和,即可得到关联文本数据的文本特征矩阵。其中,文本位置特征嵌入矩阵与上述针对图像的位置特征嵌入矩阵的大小可以不同,但是文本位置特征嵌入矩阵与上述针对图像的位置特征嵌入矩阵的列数需要是一样的,即行的维度可以不同,但是列的维度相同。即图像特征图的个数(即通道数)与文本特征矩阵的列数相同。

进而,计算机设备可以将文本特征矩阵和融合特征矩阵进行拼接,如进行上下拼接(因为列数相同),可以将拼接得到的特征矩阵称之为拼接特征矩阵,该拼接特征矩阵的行数就等于文本特征矩阵的行数和融合特征矩阵的行数之和。进而,计算机设备可以将该拼接特征矩阵输入类型预测网络,调用类型预测网络根据该拼接特征矩阵来确定(即预测)视频数据的视频类型。计算机设备可以通过上述过程确定大量的视频数据的视频类型,继而根据所确定的视频数据的视频类型对视频数据进行分类(如归类)或者确定对视频数据进行推送的策略。

例如,计算机设备可以是视频客户端的后台服务器,该视频客户端具有目标对象,该目标对象可以是视频客户端的任意一个用户。因此,计算机设备可以获取到该目标对象针对视频的视频偏好类型,该视频偏好类型也就是目标对象更喜欢看的视频的类型,若该视频偏好类型包含上述所确定的视频数据的视频类型,则可以将该视频数据推送给该目标对象,如将该视频数据发送给该目标对象的终端设备上的视频客户端。

请参见图5,图5是本申请提供的一种视频推送的场景示意图。如图5所示,可以通过预测网络中的图像特征提取网络生成视频数据的融合特征矩阵,可以通过预测网络中的文本特征提取网络生成视频数据的关联文本数据的文本特征矩阵,进而将该文本特征矩阵和融合特征矩阵进行拼接输入预测网络中的类型预测网络,即可预测得到视频数据的视频类型。若目标对象的视频偏好类型包含所预测得到的视频数据的视频类型,就可以将该视频数据推送给目标对象的终端设备。

请参见图6,图6是本申请提供的一种视频类型预测的场景示意图。如图6所示,可以在文本特征提取网络100c中对关联文本数据进行文本特征的提取,得到文本特征矩阵103c:视频数据的该关联文本数据可以是“过度焦虑可能导致失眠,你是否有失眠症状”,通过文本特征提取网络可以对该关联文本数据“过度焦虑可能导致失眠,你是否有失眠症状”进行编码(编码后得到CLS过度…症状SEP),进而通过对编码后的关联文本数据进行语义学习,即可得到关联文本数据的词嵌入(token embedding,该词嵌入也就是上述关联文本数据的特征矩阵),此处的文本位置嵌入可以是上述文本位置特征嵌入矩阵,进而将关联文本数据的词嵌入和文本位置嵌入进行融合,即可得到上述文本特征矩阵103c。此处的文本标签用于告知预测网络输入的关联文本数据是文本的数据类型。其中,CLS是添加的编码的标识位(表示首位),SEP是一种句子分隔符号。

图像特征提取网络101c可以是通过resnet50(一种残差网络)构成。计算机设备可以将从视频数据中抽取得到的目标图像帧输入resnet50网络进行图像特征的提取,进而通过对学习到的图像特征作卷积和池化(此处的卷积和池化用于降低特征维度),就可以得到目标图像帧的图像嵌入,该图像嵌入可以是上述目标图像帧对应的图像特征图,此处的图像位置嵌入可以是上述针对图像的位置特征嵌入矩阵,通过对目标图像帧的图像嵌入和图像位置嵌入作卷积,即可得到上述融合特征矩阵104c。此处的视频标签用于告知预测网络输入的视频数据是视频的数据类型。

进而计算机设备可以对上述得到的融合特征矩阵104c和文本特征矩阵103c作拼接得到拼接特征矩阵105c,通过将该拼接特征矩阵105c输入类型预测网络102c(通过Transformer网络构成,Transformer是一种语言网络),在类型预测网络102c中就可以根据该拼接特征矩阵105c预测视频数据的视频类型(即此处的分类结果)。如该分类结果可以包含类型预测网络102c所预测到的视频数据为各种视频类型的概率,该各种视频类型可以是类型预测网络102c预先所学习到的多种视频类型,如该多种视频类型可以包括健康的视频类型、娱乐的视频类型、教育的视频类型以及科技的视频类型,因此该分类结果可以包括类型预测网络102c所预测到的视频数据为健康的视频类型的概率0.7、为娱乐的视频类型的概率0.1、为教育的视频类型的概率0.1以及为科技的视频类型的概率0.1,因此,计算机设备可以将对应概率最大的视频类型(即健康的视频类型)作为最终预测得到的视频数据的视频类型。

其中,需要进行说明的是,现有应用中在生成目标图像帧对应的多个图像特征图之后,通常是对每个图像特征图中的特征参数进行筛选,进而从一个图像特征图中筛选保留一个特征参数,例如只保留各个图像特征图中数值最大的那个特征参数,进而通过各个图像特征图中数值最大的那个特征参数即可生成对应的一个特征向量,即该特征向量包含各个图像特征图中数值最大的那个特征参数,继而现有应用中,是通过该特征向量来预测视频数据的视频类型,该特征向量的作用类似于本申请实施例中的融合特征矩阵的作用。

可见,现有应用中,通常是在一个图像特征图中筛选保留一个特征参数,这样会使得所得到的特征向量会缺失图像特征图中各个特征位置处的特征参数之间的空间信息。而本申请在获取到目标图像帧对应的多个图像特征图之后,是以图像特征图中各个特征位置为单位,来获取图像特征图中各个特征位置处的特征,一个特征位置处的特征可以是该特征位置处的融合特征信息,而该融合特征信息又可以是一个特征向量,因此本申请是一个特征位置对应一个特征向量,本申请中的融合特征矩阵就包含图像特征图的各个特征位置处的特征向量,可知,本申请实施例中的融合特征矩阵保留了各个特征位置上的特征,考虑到了各个特征位置处的特征(如融合特征信息)之间的空间信息,因此通过本申请实施例中的融合特征矩阵来预测视频数据的视频类型的准确率,会比现有应用中仅通过所有特征位置对应的一个特征向量来预测视频数据的视频类型的准确率要大大提高。

此外,本申请实施例中,各个特征位置处的融合特征信息不仅包含图像特征图中的特征参数,并且还对各个特征位置处的特征参数融合有对应的位置特征嵌入参数,使得各个特征位置处的特征参数之间的位置关系更加准确,进而使得各个特征位置处的融合特征信息也更准确,因此通过包含各个特征位置处的融合特征信息来预测视频数据的视频类型也要更加准确。

本申请可以从视频数据中抽取目标图像帧;获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;根据每个特征位置处的融合特征信息确定视频数据的视频类型。由此可见,本申请提出的方法可以通过视频数据中的图像帧来确定视频数据的视频类型,并且,在通过图像帧确定视频类型时,是通过图像特征图中各个特征位置处的融合特征信息进行确定,从而保留了图像特征图中的特征空间信息(通过各个特征位置体现),因此,使得所确定的视频数据的视频类型会更加准确。

请参见图7,图7是本申请提供的一种视频数据处理方法的流程示意图。本申请实施例中的执行主体也可以是计算机设备,本申请实施例描述了对初始预测网络进行训练以得到预测网络的过程。如图7所示,该方法可以包括:

步骤S201,获取样本视频数据及样本视频数据的样本关联文本数据;样本视频数据携带视频类型标签。

可选的,计算机设备可以获取到样本视频数据和样本视频数据的样本关联文本数据,该样本视频数据和样本关联文本数据是用于对初始预测网络进行训练的数据,该样本视频数据可以是任意的视频数据,该样本视频数据携带视频类型标签,该视频类型标签指示了样本视频数据的实际类型(即实际视频类型),如养生、娱乐或者财经等类型。该样本关联文本数据可以是样本视频数据的标题信息,或者可以是对样本视频数据的音频进行识别,所得到的文本数据。

步骤S202,从样本视频数据中抽取样本图像帧,并调用初始预测网络中待训练的图像特征提取网络提取样本图像帧的图像特征,得到样本图像帧对应的样本图像特征图。

可选的,计算机设备可以从样本视频数据中抽取样本图像帧,其中,计算机设备从样本视频数据中抽取样本图像帧的方式与上述计算机设备从视频数据中抽取目标图像帧的方式相同,具体可以参见上述图3对应实施例中的描述。

其中,初始预测网络包括待训练的图像特征提取网络、文本特征提取网络和类型预测网络。该图像特征提取网络可以是resnet50网络(一种残差网络),通过该图像特征提取网络可以对每个样本图像帧进行图像特征的提取,以得到每个样本图像帧的特征图,其中,该图像特征提取网络可以包含多个卷积块(用于对图像特征进行提取),在通过图像特征提取网络对每个样本图像帧进行图像特征的提取时,可以通过该多个卷积块中第5个卷积块输出各个样本图像帧的特征图,此处通常通过图像特征提取网络中第5个卷积块来输出各个样本图像帧的特征图,可以使得图像特征提取时的网络深度适中,所输出的特征图更准确。其中,具体通过第几个卷积块来输出各个样本图像帧的特征图也可以根据实际应用场景决定,对此不做限制。文本特征提取网络可以是BERT网络(Bidirectional EncoderRepresentations from Transformers,一种语言网络),类型预测网络可以是transformer网络(一种图神经网络)。其中,本申请中的类型预测网络可以是对3个transformer layer(transformer网络层)进行串联得到,通过采用3个transformer网络层作为类型预测网络可以使得在对特征作全面的学习预测的基础上,也不会让网络深度太大不容易训练。其中,构成类型预测网络的transformer网络的数量也可以根据实际应用场景决定,对此不作限制。

计算机设备可以调用初始预测网络中待训练的图像特征提取网络提取样本图像帧的图像特征,进而得到样本图像帧对应的样本图像特征图,其中获取样本图像帧对应的样本图像特征图的原理与上述获取目标图像帧对应的图像特征图的原理相同。

步骤S203,调用待训练的图像特征提取网络根据样本图像特征图和初始位置特征嵌入矩阵,生成针对样本图像帧的样本融合特征矩阵;初始位置特征嵌入矩阵是根据每个特征位置得到。

可选的,初始位置特征嵌入矩阵就是待更新的用于获取图像特征图中各个特征位置处的位置特征嵌入参数的矩阵,该初始位置特征嵌入矩阵也属于初始预测网络的网络参数,需要进行训练更新。

计算机设备可以调用待训练的图像特征提取网络根据样本图像特征图和初始位置特征嵌入矩阵,生成针对样本图像帧的样本融合特征矩阵,其中,初始位置特征嵌入矩阵对应于上述图3对应实施例中针对图像的位置特征嵌入矩阵(两者大小相同),样本图像特征图对应于上述途3对应实施例中的图像特征图(两者大小相同),样本融合特征矩阵对应于上述图3对应实施例中的融合特征矩阵(两者大小相同),因此可以理解的是,此处根据样本图像特征图和初始位置特征嵌入矩阵生成针对样本图像帧的样本融合特征矩阵的原理,与上述图3对应实施例中根据图像特征图和位置特征嵌入矩阵生成针对目标图像帧的融合特征矩阵的原理相同,此处不再进行赘述。样本图像特征图中的多个特征位置与上述图像特征图中的多个特征位置相同,一一对应。

其中,初始位置特征嵌入矩阵只需要在对初始预测网络开始进行训练时用到,后续,在对初始预测网络进行训练的过程中,会对初始位置特征嵌入矩阵不断进行迭代更新。对于图像的上述初始位置特征嵌入矩阵的获取方式可以是:

计算机设备可以对样本图像特征图的各个特征位置进行行编码,得到该各个特征位置的行编码值,如对第1行进行编码所得到的行编码值为0,对第2行进行编码所得到的行编码值为1,对第3行进行编码所得到的行编码值为2,……,以此类推。

计算机设备还可以对样本图像特征图的各个特征位置进行列编码,得到该各个特征位置的列编码值,如对第1列进行编码所得到的列编码值为0,对第2列进行编码所得到的列编码值为1,对第3列进行编码所得到的列编码值为2,……,以此类推。

因此,样本图像特征图中一个特征位置对应1个行编码值和1个列编码值,进而,计算机设备可以分别对样本图像特征图中各个特征位置处的行编码值和列编码值进行求和,并将求和的结果分别作为该各个特征位置处的初始位置嵌入参数,通过各个特征位置处的初始位置嵌入参数即可生成上述初始位置特征嵌入矩阵,该初始位置特征嵌入矩阵就包含该各个特征位置处的初始位置嵌入参数,后续更新完成的初始位置嵌入参数就是位置特征嵌入参数,请参见下述内容描述。

请参见图8,图8是本申请提供的一种生成初始位置特征嵌入矩阵的场景示意图。如图8所示,样本图像特征图中可以有9个特征位置,该9个特征位置包括特征位置1、特征位置2、特征位置3、特征位置4、特征位置5、特征位置6、特征位置7、特征位置8、特征位置9。

处于样本图像特征图的第1行的特征位置处的行编码值可以是0,处于样本图像特征图的第2行的特征位置处的行编码值可以是1,处于样本图像特征图的第3行的特征位置处的行编码值可以是2。同理,处于样本图像特征图的第1列的特征位置处的列编码值可以是0,处于样本图像特征图的第2列的特征位置处的列编码值可以是1,处于样本图像特征图的第3列的特征位置处的列编码值可以是2。因此,特征位置1处的初始位置特征嵌入参数等于特征位置1处的行编码值0和列编码值0之和0,特征位置2处的初始位置特征嵌入参数等于特征位置2处的行编码值0和列编码值1之和1,特征位置3处的初始位置特征嵌入参数等于特征位置3处的行编码值0和列编码值2之和2,特征位置4处的初始位置特征嵌入参数等于特征位置4处的行编码值1和列编码值0之和1,特征位置5处的初始位置特征嵌入参数等于特征位置5处的行编码值1和列编码值1之和2,特征位置6处的初始位置特征嵌入参数等于特征位置6处的行编码值1和列编码值2之和3,特征位置7处的初始位置特征嵌入参数等于特征位置7处的行编码值2和列编码值0之和2,特征位置8处的初始位置特征嵌入参数等于特征位置8处的行编码值2和列编码值1之和3,特征位置9处的初始位置特征嵌入参数等于特征位置9处的行编码值2和列编码值2之和4。

进而,如图8所示,通过样本图像特征图中各个特征位置处的初始位置特征嵌入参数即可生成初始位置特征嵌入矩阵。

步骤S204,调用初始预测网络中待训练的文本特征提取网络提取样本关联文本数据的文本特征,得到样本关联文本数据的样本文本特征矩阵。

可选的,计算机设备可以对样本关联文本数据中的分词进行编码后输入到待训练的文本特征提取网络,以调用待训练的文本特征提取网络提取样本关联文本数据的文本特征,得到样本特征矩阵,进而计算机设备可以调用待训练的文本特征提取网络根据该样本特征矩阵和初始文本位置特征嵌入矩阵,生成针对样本关联文本数据的样本文本特征矩阵。其中,样本关联文本数据对应于上述关联文本数据,样本关联文本数据的样本特征矩阵对应于上述图3对应实施例中关联文本数据的特征矩阵(两者大小相同),初始文本位置特征嵌入矩阵对应于上述文本位置特征嵌入矩阵(两者大小相同),因此可以理解的是,此处根据样本关联文本数据的样本特征矩阵和初始文本位置特征嵌入矩阵生成样本文本特征矩阵的原理,与上述根据关联文本数据的特征矩阵和文本位置特征嵌入矩阵生成文本特征矩阵的原理相同,此处不再进行赘述。此处样本文本特征矩阵中的多个特征位置与文本特征矩阵中的多个特征位置相同,一一对应。

其中,初始文本位置特征嵌入矩阵的获取方式可以是:初始文本位置特征嵌入矩阵的行数可以是所使用的样本关联文本数据中的分词数,各个分词之间按照在样本关联文本数据中的位置依次进行排列,一个分词对应一行,因此,可以对各个分词所在的位置进行编码,得到初始文本特征位置矩阵,具体可以表现为初始文本特征位置矩阵中第1行可以是0,第2行可以是1,第3行可以是2,……,以此类推。

步骤S205,根据样本融合特征矩阵和样本文本特征矩阵预测样本视频数据的视频类型。

可选的,计算机设备可以对该样本融合特征矩阵和样本文本特征矩阵进行拼接,得到样本拼接特征矩阵,该样本拼接特征矩阵对应于上述图3对应实施例中的拼接特征矩阵。计算机设备可以调用初始预测网络中待训练的类型预测网络根据该样本拼接特征矩阵来预测样本视频数据的视频类型。

其中,由于类型预测网络可以是由3个transformer layer进行串联构成,因此,在每个transformer layer中对于输入均可以有以下操作:首先,需要进行说明的是,对于第1个transformer layer,其输入可以是样本拼接特征矩阵,对于第2个transformer layer,其输入的就是第1个transformer layer的输出,对于第3个transformer layer,其输入就是第2个transformer layer的输出。

在一个transformer layer里,首先,可以采用self-attention(自注意力机制)对输入进行学习,再对学习的结果进行dropout(指在深度学习网络的训练过程中,对于神经网络单元按照一定的概率将其暂时从网络中丢弃,可以防止过拟合),即可得到在该transformer layer里的output 1(输出1);接着,可以采用shortcut机制(直连机制)将output1与输入进行加和,并对加和后的结果进行layer norm(即归一化),可以得到在该transformer layer里的output 2(输出2);再接着,可以对output 2通过两个全连接层进行前向传播后再进行dropout,可以得到在该transformer layer里的output3(输出3);最后,采用shortcut机制对output 2和output3进行加和,并对加和后的结果进行layernorm,就可以得到该transformer layer里的最终输出。可以理解的是,在每个transformerlayer里,都可以进行上述一系列操作。

最后,可以取3个transformer layer中最后一层所输出的结果作为最终对视频数据进行类型预测的特征,类型预测网络通过将该预测特征映射到预先学习到的各种视频类型上,得到样本视频数据针对各种视频类型的概率(即初始预测网络的最终输出),最终就可以将对应概率最大的视频类型作为所预测的样本视频数据的视频类型。

举个例子,类型预测网络可以对3种视频类型进行识别,该3种视频类型可以包括视频类型1、视频类型2和视频类型3,在对类型预测网络进行训练的过程中,类型预测网络可以不断更新所学习到的对于各种视频类型的视频特征,因此,当获取到针对样本视频数据的预测特征时,该预测特征也就是类型预测网络最终识别到的样本视频数据的特征,由于类型预测网络已经知道各种视频类型的视频特征,因此,通过所获取到的样本视频数据的预测特征,类型预测网络就可以预测该预测特征分别是每种视频类型的视频特征的概率,如是视频类型1的视频特征的概率0.1,是视频类型2的视频特征的概率0.4,是视频类型3的视频特征的概率0.5,可见,视频类型3对应的概率最大为0.5,因此可以将视频类型3作为所预测的样本视频数据的视频类型。

步骤S206,根据所预测的样本视频数据的视频类型及视频类型标签所指示的样本视频数据的实际视频类型更新初始预测网络的网络参数,得到预测网络。

可选的,计算机设备可以根据所预测的样本视频数据的视频类型以及视频类型标签所指示的样本视频数据的实际视频类型,生成对样本视频数据进行类型预测的预测损失,该预测损失loss可以是交叉熵损失,如下述公式(1)和公式(2)所示:

其中,样本视频数据可以有多个,M表示样本视频数据的总数量,i为小于或等于M的正整数,y

继而通过上述所确定的预测损失就可以更新初始预测网络的网络参数,更新的目标就是使得预测损失趋近于最小值,网络参数更新完成的初始预测网络就可以作为上述图3对应实施例中的预测网络。

其中,初始预测网络的网络参数可以包括图像特征提取网络的网络参数、文本特征提取网络的网络参数、类型预测网络的网络参数、上述针对图像的初始位置特征嵌入矩阵以及上述针对文本的初始文本位置特征嵌入矩阵。

因此,训练好的预测网络中可以包括更新完成的针对图像的初始位置特征嵌入矩阵,该更新完成的针对图像的初始位置特征嵌入矩阵就为上述位置特征嵌入矩阵。训练好的预测网络中还可以包括更新完成的针对文本的初始文本位置特征嵌入矩阵,该更新完成的针对文本的初始文本位置特征嵌入矩阵就为上述文本位置特征嵌入矩阵。其中,针对图像的位置特征嵌入矩阵就包含针对图像的各个特征位置处(如针对图像特征图的各个特征位置处)的位置特征嵌入参数,针对文本的文本位置特征嵌入矩阵就包含针对文本的各个特征位置处(如针对样本关联文本数据的特征矩阵的各个特征位置处)的文本位置特征嵌入参数。

请参见图9,图9是本申请提供的一种模型训练的场景示意图。如图9所示,计算机设备可以从样本视频数据中抽取样本图像帧,该样本视频数据携带视频类型标签,进而计算机设备可以将样本图像帧和样本关联文本数据输入初始预测网络,在初始预测网络中通过该样本图像帧和样本关联文本数据预测样本视频数据的视频类型,进而通过所预测的该视频类型以及视频类型标签所指示的实际视频类型可以得到预测损失,通过在初始预测网络中对该预测损失进行反向传播,即可通过该预测损失更新(即修正)初始预测网络的网络参数,进而可以将网络参数更新完成的初始预测网络作为训练好的预测网络。

本申请中,当对视频数据进行多模态(如可以包含文本的模态和图像帧的模态)的类型预测时,可以对多个网络(包括上述文本特征提取网络、图像特征提取网络以及类型预测网络)进行端到端的训练,使得训练好的多个网络之间的特征可以更好的作交互,进而通过训练好的多个网络可以实现对视频数据的类型的更好预测。

请参见下述表1,表1中罗列了采用本申请所提供的预测模型(即预测网络)对视频数据的类型进行预测的准确率、以及采用现有其他模型对视频数据的类型进行预测的准确率的实验数据,如表1所示:

表1

其中,Resnet50是一种残差网络,netvlad(是一种图像特征提取网络),通过表1可知,采用本申请所提供的预测网络对视频数据的类型进行预测的准确率,要明显高于采用其他网络(如采用Late fusion的Resnet50+netvlad、以及采用加和平均进行特征融合的Resnet50+netvlad)对视频数据进行类型预测的准确率。

请参见图10,图10是本申请提供的一种视频数据处理装置的结构示意图。该视频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该视频数据处理装置为一个应用软件,该视频数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该视频数据处理装置1可以包括:抽取模块11、获取模块12、融合模块13和确定模块14;

抽取模块11,用于从视频数据中抽取目标图像帧;

获取模块12,用于获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;

获取模块12,用于获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;

融合模块13,用于分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;

确定模块14,用于根据每个特征位置处的融合特征信息确定视频数据的视频类型。

可选的,图像特征图是调用预测网络获取得到;预测网络包括图像特征提取网络和类型预测网络;

获取模块12获取目标图像帧对应的图像特征图的方式,包括:

调用预测网络中的图像特征提取网络提取目标图像帧的图像特征,得到图像特征图;

确定模块14根据每个特征位置处的融合特征信息确定视频数据的视频类型的方式,包括:

调用预测网络中的类型预测网络根据每个特征位置处的融合特征信息确定视频数据的视频类型。

可选的,获取模块12获取图像特征图中每个特征位置处的位置特征嵌入参数的方式,包括:

从图像特征提取网络中获取位置特征嵌入矩阵;

从位置特征嵌入矩阵中提取每个特征位置处的位置特征嵌入参数。

可选的,预测网络还包括文本特征提取网络;上述装置1还用于:

获取视频数据的关联文本数据;

调用文本特征提取网络提取关联文本数据的文本特征,得到关联文本数据的文本特征矩阵;

确定模块调用预测网络中的类型预测网络根据每个特征位置处的融合特征信息确定视频数据的视频类型的方式,包括:

根据每个特征位置处的融合特征信息生成融合特征矩阵;

对文本特征矩阵和融合特征矩阵进行拼接处理,得到拼接特征矩阵;

调用类型预测网络根据拼接特征矩阵确定视频数据的视频类型。

可选的,上述装置1还用于:

获取样本视频数据及样本视频数据的样本关联文本数据;样本视频数据携带视频类型标签;

从样本视频数据中抽取样本图像帧,并调用初始预测网络中待训练的图像特征提取网络提取样本图像帧的图像特征,得到样本图像帧对应的样本图像特征图;

调用待训练的图像特征提取网络根据样本图像特征图和初始位置特征嵌入矩阵,生成针对样本图像帧的样本融合特征矩阵;初始位置特征嵌入矩阵是根据每个特征位置得到;

调用初始预测网络中待训练的文本特征提取网络提取样本关联文本数据的文本特征,得到样本关联文本数据的样本文本特征矩阵;

根据样本融合特征矩阵和样本文本特征矩阵预测样本视频数据的视频类型;

根据所预测的样本视频数据的视频类型及视频类型标签所指示的样本视频数据的实际视频类型更新初始预测网络的网络参数,得到预测网络;初始位置特征嵌入矩阵属于初始预测网络的网络参数;

其中,预测网络包括位置特征嵌入矩阵,位置特征嵌入矩阵是更新后的初始位置特征嵌入矩阵,位置特征嵌入矩阵包括每个特征位置处的位置特征嵌入参数。

可选的,初始位置特征嵌入矩阵包括每个特征位置处的初始位置嵌入参数;上述装置1还用于:

对样本图像特征图的每个特征位置进行行编码,得到每个特征位置处的行编码值;

对样本图像特征图的每个特征位置进行列编码,得到每个特征位置处的列编码值;

分别对每个特征位置处的行编码值和列编码值进行求和处理,得到每个特征位置处的初始位置嵌入参数。

可选的,融合模块13分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息的方式,包括:

分别对每个特征位置处的特征参数和位置特征嵌入参数进行加和融合处理,得到每个特征位置处的融合特征参数;

根据每个特征位置处的融合特征参数,生成每个特征位置处的融合特征信息。

可选的,图像特征图的数量为N个,N为正整数;多个特征位置中的任一个特征位置表示为第i个特征位置,i为小于或等于多个特征位置的位置总数量的正整数;

融合模块13根据每个特征位置处的融合特征参数,生成每个特征位置处的融合特征信息的方式,包括:

对每个图像特征图中第i个特征位置处的融合特征参数进行展平处理,得到第i个特征位置处的融合特征信息;

其中,第i个特征位置处的融合特征信息包含第i个特征位置处的N个融合特征参数。

可选的,目标图像帧的数量为多个;

获取模块12获取目标图像帧对应的图像特征图,包括:

生成每个目标图像帧分别对应的特征图;

对每个目标图像帧分别对应的特征图进行平均融合处理,得到图像特征图。

可选的,抽取模块11从视频数据中抽取目标图像帧的方式,包括:

对视频数据进行分段,得到多个分段视频数据;

从每个分段视频数据中分别抽取图像帧,并将从每个分段视频数据中所抽取的图像帧均确定为目标图像帧。

可选的,上述装置1还用于:

获取目标对象的视频偏好类型;

若所预测的视频数据的视频类型属于视频偏好类型,则将视频数据推送给目标对象。

根据本申请的一个实施例,图3所示的视频数据处理方法所涉及的步骤可由图10所示的视频数据处理装置1中的各个模块来执行。例如,图3中所示的步骤S101可由图10中的抽取模块11来执行,图3中所示的步骤S102-步骤S103可由图10中的获取模块12来执行;图3中所示的步骤S104可由图10中的融合模块13来执行,图3中所示的步骤S105可由图10中的确定模块14来执行。

本申请可以从视频数据中抽取目标图像帧;获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;根据每个特征位置处的融合特征信息确定视频数据的视频类型。由此可见,本申请提出的装置可以通过视频数据中的图像帧来确定视频数据的视频类型,并且,在通过图像帧确定视频类型时,是通过图像特征图中各个特征位置处的融合特征信息进行确定,从而保留了图像特征图中的特征空间信息(通过各个特征位置体现),因此,使得所确定的视频数据的视频类型会更加准确。

根据本申请的一个实施例,图10所示的视频数据处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,视频数据处理装置1也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。

根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图10中所示的视频数据处理装置1,以及来实现本申请实施例的视频数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。

请参见图11,图11是本申请提供的一种计算机设备的结构示意图。如图11所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:

从视频数据中抽取目标图像帧;

获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;

获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;

分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;

根据每个特征位置处的融合特征信息确定视频数据的视频类型。

图像特征图是调用预测网络获取得到;预测网络包括图像特征提取网络和类型预测网络;

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

调用预测网络中的图像特征提取网络提取目标图像帧的图像特征,得到图像特征图;

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

调用预测网络中的类型预测网络根据每个特征位置处的融合特征信息确定视频数据的视频类型。

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

从图像特征提取网络中获取位置特征嵌入矩阵;

从位置特征嵌入矩阵中提取每个特征位置处的位置特征嵌入参数。

预测网络还包括文本特征提取网络;

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

获取视频数据的关联文本数据;

调用文本特征提取网络提取关联文本数据的文本特征,得到关联文本数据的文本特征矩阵;

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

根据每个特征位置处的融合特征信息生成融合特征矩阵;

对文本特征矩阵和融合特征矩阵进行拼接处理,得到拼接特征矩阵;

调用类型预测网络根据拼接特征矩阵确定视频数据的视频类型。

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

获取样本视频数据及样本视频数据的样本关联文本数据;样本视频数据携带视频类型标签;

从样本视频数据中抽取样本图像帧,并调用初始预测网络中待训练的图像特征提取网络提取样本图像帧的图像特征,得到样本图像帧对应的样本图像特征图;

调用待训练的图像特征提取网络根据样本图像特征图和初始位置特征嵌入矩阵,生成针对样本图像帧的样本融合特征矩阵;初始位置特征嵌入矩阵是根据每个特征位置得到;

调用初始预测网络中待训练的文本特征提取网络提取样本关联文本数据的文本特征,得到样本关联文本数据的样本文本特征矩阵;

根据样本融合特征矩阵和样本文本特征矩阵预测样本视频数据的视频类型;

根据所预测的样本视频数据的视频类型及视频类型标签所指示的样本视频数据的实际视频类型更新初始预测网络的网络参数,得到预测网络;初始位置特征嵌入矩阵属于初始预测网络的网络参数;

其中,预测网络包括位置特征嵌入矩阵,位置特征嵌入矩阵是更新后的初始位置特征嵌入矩阵,位置特征嵌入矩阵包括每个特征位置处的位置特征嵌入参数。

初始位置特征嵌入矩阵包括每个特征位置处的初始位置嵌入参数;

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

对样本图像特征图的每个特征位置进行行编码,得到每个特征位置处的行编码值;

对样本图像特征图的每个特征位置进行列编码,得到每个特征位置处的列编码值;

分别对每个特征位置处的行编码值和列编码值进行求和处理,得到每个特征位置处的初始位置嵌入参数。

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

分别对每个特征位置处的特征参数和位置特征嵌入参数进行加和融合处理,得到每个特征位置处的融合特征参数;

根据每个特征位置处的融合特征参数,生成每个特征位置处的融合特征信息。

图像特征图的数量为N个,N为正整数;多个特征位置中的任一个特征位置表示为第i个特征位置,i为小于或等于多个特征位置的位置总数量的正整数;

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

对每个图像特征图中第i个特征位置处的融合特征参数进行展平处理,得到第i个特征位置处的融合特征信息;

其中,第i个特征位置处的融合特征信息包含第i个特征位置处的N个融合特征参数。

目标图像帧的数量为多个;

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

生成每个目标图像帧分别对应的特征图;

对每个目标图像帧分别对应的特征图进行平均融合处理,得到图像特征图。

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

对视频数据进行分段,得到多个分段视频数据;

从每个分段视频数据中分别抽取图像帧,并将从每个分段视频数据中所抽取的图像帧均确定为目标图像帧。

在一种可行的实施方式中,处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:

获取目标对象的视频偏好类型;

若所预测的视频数据的视频类型属于视频偏好类型,则将视频数据推送给目标对象。

应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3对应实施例中对上述视频数据处理方法的描述,也可执行前文图10所对应实施例中对上述视频数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的视频数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3所对应实施例中对视频数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。

作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

上述计算机可读存储介质可以是前述任一实施例提供的视频数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文图3对应实施例中对上述视频数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

相关技术
  • 数据处理方法、装置、计算机设备及计算机可读存储介质
  • 视频处理方法、装置、计算机设备和存储介质
  • 数据仓库内数据处理方法、装置、计算机设备和存储介质
  • 一种数据处理方法、数据处理装置、计算机设备及可读存储介质
  • 视频数据处理方法、装置、终端及计算机可读存储介质
  • 视频编码、视频数据处理方法、装置、计算机设备和存储介质
  • 视频编码、视频数据处理方法、装置、计算机设备和存储介质
技术分类

06120115802902