掌桥专利:专业的专利平台
掌桥专利
首页

视频判别方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:59:31


视频判别方法、装置、设备及存储介质

技术领域

本申请属于数据处理领域,尤其涉及一种视频判别方法、装置、设备及存储介质。

背景技术

随着互联网的迅速发展,网络内容呈海量爆发,短视频、直播、信息流等视频方式成为了新兴的内容形式。在视频大量产出的情况下,需要对视频内容进行审核判别,以保证视频内容安全、健康。

现阶段,可将视频拆分为图像帧、音频和文本三种模态分别进行内容的审核判别,若其中一种模态下内容的审核判别确定存在违规信息,则将该视频判别为违规视频。但由于图像帧、音频和文本三种模态已经将视频拆分,容易出现误判或漏判的情况,降低了视频整体的审核判别的精确性。

发明内容

本申请实施例提供一种视频判别方法、装置、设备及存储介质,能够提高对视频的审核判别的精确度。

第一方面,本申请实施例提供一种视频判别方法,包括:获取目标视频的主模态特征和辅模态特征,主模态特征由目标视频分离出的主模态数据通过主模态判别模型得到,辅模态特征由目标视频分离出的辅模态数据通过辅模态判别模型得到;将主模态特征和辅模态特征输入多模态判别模型进行多层处理,得到多模态分类结果,其中,在每一层处理中,根据输入的辅模态特征与主模态特征进行交叉注意力机制处理、门控机制处理和自注意力机制处理;基于多模态分类结果、主模态判别模型输出的主模态分类结果、辅模态判别模型输出的辅模态分类结果和预设的结果分类规则,得到目标视频的判别分类结果。

第二方面,本申请实施例提供一种视频判别装置,包括:特征获取模块,用于获取目标视频的主模态特征和辅模态特征,主模态特征由目标视频分离出的主模态数据通过主模态判别模型得到,辅模态特征由目标视频分离出的辅模态数据通过辅模态判别模型得到;融合处理模块,用于将主模态特征和辅模态特征输入多模态判别模型进行多层处理,得到多模态分类结果,其中,在每一层处理中,根据输入的辅模态特征与主模态特征进行交叉注意力机制处理、门控机制处理和自注意力机制处理;判别模块,用于基于多模态分类结果、主模态判别模型输出的主模态分类结果、辅模态判别模型输出的辅模态分类结果和预设的结果分类规则,得到目标视频的判别分类结果。

第三方面,本申请实施例提供一种视频判别设备,其特征在于,包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面的视频判别方法。

第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的视频判别方法。

本申请实施例提供一种视频判别方法、装置、设备及存储介质,可从主模态判别模型和辅模态判别模型分别获取目标视频的主模态特征和辅模态特征,将主模态特征和辅模态特征输入多模态判别模型,多模态判别模型可进行多层处理,每一层处理中会根据输入本层的主模态特征和辅模态特征进行交叉注意力机制处理、门控机制处理和自注意力机制处理,将主模态特征和辅模态特征融合,得到多模态融合对应的多模态分类结果。通过多模态分类结果与主模态判别模型输出的主模态分类结果以及辅模态判别模型输出的辅模态分类结果互补,得到判别分类结果,从目标视频整体进行审核判别,减少漏判、误判的情况,提高对视频的审核判别的精确度。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的视频判别方法的流程图;

图2为本申请另一实施例提供的视频判别方法的流程图;

图3为本申请实施例提供的多模态判别模型中第i层处理的一示例的逻辑示意图;

图4为本申请实施例提供的多模态门控交叉注意力融合的处理过程的一示例的示意图;

图5为本申请实施例提供的异步回调推理框架的一示例的示意图;

图6为本申请实施例提供的分布式节点系统的一示例的示意图;

图7为本申请实施例提供的判别模型与规则节点通信的一示例的示意图;

图8为本申请一实施例提供的视频判别装置的结构示意图;

图9为本申请一实施例提供的视频判别设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

随着互联网的迅速发展,网络内容呈海量爆发,短视频、直播、信息流等视频方式成为了新兴的内容形式。在视频大量产出的情况下,需要对视频内容进行审核判别,以保证视频内容安全、健康。现阶段,可将视频拆分为图像帧、音频和文本三种模态分别进行内容的审核判别,若其中一种模态下内容的审核判别确定存在违规信息,则将该视频判别为违规视频。但由于图像帧、音频和文本三种模态已经将视频拆分,容易出现误判或漏判的情况,降低了视频整体的审核判别的精确性。

本申请提供一种视频判别方法、装置、设备及存储介质,能够将视频的单种模态特征输入多模态判别模型进行多层处理,每一层处理中都会对作为本层输入的单种模态特征进行交叉注意力机制处理、门控机制处理和自注意力机制处理,将多种模态融合,得到多种模态融合对应的多模态分类结果。通过多模态分类结果与单模态判别模型输出的单模态分类结果互补,得到判别分类结果,减少漏判、误判的情况,提高对视频的审核判别的精确度。

下面对本申请提供的视频判别方法、装置、设备及存储介质分别进行说明。

本申请第一方面提供一种视频判别方法,该视频判别方法可由视频判别装置、设备、系统等执行,在此并不限定。图1为本申请一实施例提供的视频判别方法的流程图,如图1所示,该视频判别方法可包括步骤S101至步骤S103。

在步骤S101中,获取目标视频的主模态特征和辅模态特征。

目标视频为待审核判别的视频。目标视频的内容可分为两个以上的模态的内容。可在两个以上的模态的内容中选取一部分模态的内容作为主模态的内容,将另一部分模态的内容作为辅模态的内容,例如,目标视频的内容可分离为图像帧、音频和文本,其中,图像帧是相对处于主导地位的模态,可将图像帧的内容作为主模态的内容,将音频和文本的内容作为辅模态的内容,对应地,主模态特征可包括图像帧特征,辅模态特征可包括音频特征和/或文本特征。

主模态特征由目标视频分离出的主模态数据通过主模态判别模型得到。从目标视频分离得到主模态数据,将主模态数据输入主模态判别模型,主模态判别模型可根据主模态数据输出主模态特征,主模态特征可实现为特征向量,能够表征目标视频在主模态下的特征。主模态判别模型还可根据主模态数据输出主模态判别结果,主模态判别结果可表征主模态数据是否违规。在一些示例中,主模态判别结果还可包括主模态数据的违规类型、主模态数据中具体的违规数据等,在此并不限定。

辅模态特征由目标视频分离出的辅模态数据通过辅模态判别模型得到。从目标视频分离得到辅模态数据,将辅模态数据输入辅模态判别模型,辅模态判别模型可根据辅模态数据输出辅模态特征,辅模态特征可实现为特征向量,能够表征目标视频在辅模态下的特征。辅模态判别模型还可根据辅模态数据输出辅模态判别结果,辅模态判别结果可表征辅模态数据是否违规。在一些示例中,辅模态判别结果还可包括辅模态数据的违规类型、辅模态数据中具体的违规数据等,在此并不限定。

在一些示例中,主模态特征由主模态数据通过主模态判别模型并通过一维卷积得到,辅模态特征由辅模态数据通过辅模态判别模型并通过一维卷积得到。即,主模态数据输入主模态判别模型,主模态判别模型输出特征向量,对该特征向量进行一维卷积,得到主模态特征,主模态特征的维度是通过一维卷积设定的,能够得到主模态数据的时序信息。辅模态数据输入辅模态判别模型,辅模态判别模型输出特征向量,对该特征向量进行一维卷积,得到辅模态特征,辅模态特征的维度是通过一维卷积设定的,能够得到辅模态数据的时序信息。其中,主模态特征的维度与辅模态特征的维度是相同的,例如,主模态特征的维度与辅模态特征的维度可为32。

在步骤S102中,将主模态特征和辅模态特征输入多模态判别模型进行多层处理,得到多模态分类结果。

多模态判别模型的输入包括主模态特征和辅模态特征,多模态判别模型的输出包括多模态分类结果。多模态判别模型可包括多个处理层,以进行多层处理,每个处理层的处理方法基本一致。上一层处理的输出可作为下一层处理的输入,实现多层处理的迭代,多模态判别模型中处理层的数量可根据场景、需求、经验等设定,例如,多模态判别模型可包括六个处理层,即,多模态判别模型可进行六层处理。

在每一层处理中,可根据输入的辅模态特征与主模态特征进行交叉注意力机制处理、门控机制处理和自注意力机制处理。交叉注意力机制处理能够将辅模态特征与主模态特征进行融合。辅模态特征和主模态特征都来源自目标视频,不同的模态特征中也会存在相同或相似的内容,门控机制处理可降低甚至消除不同的模态特征融合所产生的冗余。自注意力机制处理可关注输入中不同部分的相关性。通过多层处理的迭代,可得到基于主模态特征和辅模态特征的融合特征,根据融合特征进行分类处理,可得到多模态分类结果。多模态分类结果用于表征多个模态特征融合后从目标视频整体进行判别的结果。多模态分类结果可表征多模态融合角度下目标视频是否违规。在一些示例中,多模态分类结果还可包括多模态下目标视频的违规类型、多模态下目标视频中具体的违规数据等,在此并不限定。

在步骤S103中,基于多模态分类结果、主模态判别模型输出的主模态分类结果、辅模态判别模型输出的辅模态分类结果和预设的结果分类规则,得到目标视频的判别分类结果。

结果分类规则可实现为规则包的形式,不同的判别模型可对应不同的规则包,每个规则包可包括至少一条结果分类规则。例如,多模态分类结果由多模态判别模型得到,需要获取与多模态判别模型对应的规则包,利用规则包与多模态判别结果进行匹配;主模态分类结果由主模态判别模型得到,需要获取与主模态判别模型对应的规则包与主模态分类结果进行匹配,需要说明的是,在具有两个以上的主模态判别模型的情况下,不同主模态判别模型对应的规则包也可不同;辅模态分类结果由辅模态判别模型得到,需要获取与辅模态判别模型对应的规则包与辅模态分类结果进行匹配,需要说明的是,在具有两个以上的辅模态判别模型的情况下,不同辅模态判别模型对应的规则包也可不同;根据匹配结果得到目标视频的判别分类结果。判别分类结果可表征目标视频是否违规,在一些示例中,判别分类结果还可包括目标视频的违规类型、目标视频中的具体违规数据等,在此并不限定。

在本申请实施例中,可从主模态判别模型和辅模态判别模型分别获取目标视频的主模态特征和辅模态特征,将主模态特征和辅模态特征输入多模态判别模型,多模态判别模型可进行多层处理,每一层处理中会根据输入本层的主模态特征和辅模态特征进行交叉注意力机制处理、门控机制处理和自注意力机制处理,将主模态特征和辅模态特征融合,得到多模态融合对应的多模态分类结果。通过多模态分类结果与主模态判别模型输出的主模态分类结果以及辅模态判别模型输出的辅模态分类结果互补,得到判别分类结果,从目标视频整体进行审核判别,减少漏判、误判的情况,提高对视频的审核判别的精确度。

在一些实施例中,每层处理中基于本层输入的辅模态特征和主模态特征进行交叉注意力机制处理和门控机制处理,基于本层输入的主模态特征进行自注意力机制处理。图2为本申请另一实施例提供的视频判别方法的流程图,图2与图1的不同之处在于,图1中的步骤S102可具体细化为图2中的步骤S1021至步骤S1023。

在步骤S1021中,在一层处理中,基于本层输入的辅模态特征和主模态特征进行交叉注意力机制处理和门控机制处理,得到第一处理结果作为下一层处理输入的辅模态特征,直至到达最后一层处理,将得到的第一处理结果确定为辅模态融合特征。

第一层处理的输入包括步骤S101中获取的主模态特征和辅模态特征,在第二层处理至最后一层处理的情况下,每层处理的输入包括上一层处理的输出,将上一层处理的输出作为更新后的主模态特征和更新后的辅模态特征输入下一层处理,更新后的主模态特征和更新后的辅模态特征实质上已经具有主模态特征和辅模态特征融合下的特性。

可设置交叉注意力子模型来实现交叉注意力机制处理,设置门控子模型来实现门控机制处理。具体地,可将本层输入的辅模态特征和主模态特征输入预设的交叉注意力子模型,得到第一中间特征;将本层输入的辅模态特征和主模态特征拼接得到的拼接特征输入预先训练得到的两个相互独立的门控子模型,分别进行权重过滤处理,得到两个门控子模型输出的第一权重向量和第二权重向量;根据第一中间特征、第一权重向量、本层输入的辅模态特征、第二权重向量和多模态判别模型中的前馈神经网络(Feed-forward Network,FFN),得到第一处理结果作为下一层处理输入的辅模态特征,直至到达最后一层处理,将得到的第一处理结果确定为辅模态融合特征。

交叉注意力子模型可预先训练得到,交叉注意力子模型输出的第一中间特征具有本层输入的辅模态特征和主模态特征的融合特性。可将本层输入的辅模态特征与主模态特征拼接,得到拼接特征,将拼接特征分别输入两个门控子模型。需要说明的是,这里辅模态特征与主模态特征的拼接是指单种辅模态特征与主模态特征的拼接,例如,若目标视频具有两种辅模态特征,则第一种辅模态特征与主模态特征拼接,得到一个拼接特征,第二种辅模态特征与主模态特征拼接,得到另一个拼接特征。两个门控子模型相互独立,各自的全连接层并不共享权重。拼接特征输入门控子模型,门控子模型可输出权重向量,其中一个门控子模型输入第一权重向量,另一个门控子模型输出第二权重向量。第一权重向量包括与第一中间特征中各元素对应的权重,第一权重向量可增强第一中间特征中侧重的内容的占比,减轻甚至消除第一中间特征中主模态特征与辅模态特征融合产生的冗余内容的占比,从而提高主模态特征与辅模态特征融合的有效性和精确性。第二权重向量包括与本层输入的辅模态特征中各元素对应的权重,第二权重向量可增强本层输入的辅模态特征中侧重的内容的占比,减轻甚至消除本层输入的辅模态特征中主模态特征与辅模态特征融合产生的冗余内容的占比。可利用第一权重向量对第一中间特征进行处理,利用第二权重向量对本层输入的辅模态特征进行处理,以过滤主模态特征与辅模态特征融合产生的冗余内容。过滤主模态特征与辅模态特征融合产生的冗余内容后,可再通过残差连接、前馈神经网络进行进一步处理,得到本层处理输出的第一处理结果,若本层处理不是最后一层处理,则将第一处理结果作为下一层处理输入的辅模态特征;若本层处理是最后一层处理,则将第一处理结果确定为辅模态融合特征。辅模态融合特征包含辅模态特征与主模态特征融合的特性。

在一些示例中,可根据第一中间特征和第一权重向量,得到第一过滤特征;根据本层输入的辅模态特征和第二权重向量,得到第二过滤特征;基于第一过滤特征和第二过滤特征进行残差连接处理,得到第一中间处理结果;将第一中间处理结果输入前馈神经网络,将前馈神经网络输出的第一处理结果作为下一层处理输入的辅模态特征。

可计算第一中间特征和第一权重向量的哈达玛积,得到第一过滤特征,第一过滤特征可视为利用第一权重向量对第一中间特征中主模态特征与辅模态特征融合的冗余内容进行过滤后得到的特征。可计算本层输入的辅模态特征和第二权重向量的哈达玛积,得到第二过滤特征。第二过滤特征可视为利用第二权重向量对本层输入的辅模态特征中主模态特征与辅模态特征融合的冗余内容进行过滤后得到的特征。第一处理结果能够较好地体现主模态特征与辅模态特征融合的特性。

在步骤S1022中,在一层处理中,基于本层输入的主模态特征进行自注意力机制处理,得到第二处理结果作为下一层处理输入的主模态特征,直至到达最后一层处理,将得到的第二处理结果确定为主模态融合特征。

可预设自注意力子模型来实现自注意力机制处理。具体地,可将本层输入的主模态特征输入预设的自注意力子模型,得到第二中间特征;根据第二中间特征进行残差连接处理,得到第二中间处理结果;将第二中间处理结果输入前馈神经网络,将前馈神经网络输出的第二处理结果作为下一层处理输入的主模态特征,直至到达最后一层处理,将得到的第二处理结果确定为主模态融合特征。

自注意力子模型可预先训练得到。第二中间特征为自注意力子模型基于本层输入的主模态特征的输出。第二中间处理结果为第二中间特征进行残差连接处理后的输出。在一些实施例中,在残差连接处理后还可进行正则化处理,得到第二中间处理结果。第二处理结果为前馈神经网络基于输入的第二中间处理结果的输出。若本层处理不是最后一层处理,则将第二处理结果作为下一层处理输入的主模态特征;若本层处理是最后一层处理,则将第二处理结果确定为主模态融合特征。主模态融合特征能够较好地体现主模态特征的特性。

为了便于理解,这里以第i层处理来说明上述实施例中交叉注意力机制处理、门控机制处理和自注意力机制处理的内容。图3为本申请实施例提供的多模态判别模型中第i层处理的一示例的逻辑示意图,如图3所示,第i层处理的输入包括第i-1层处理输出的更新后的辅模态特征

上述示例中的层正则化处理可通过下式(1)和(2)实现:

其中,式(1)中等号左侧的

上述示例中交叉注意力子模型的处理可通过下式(3)实现:

其中,

上述示例中自注意力子模型的处理可通过下式(4)实现:

其中,

上述示例中门控子模型的处理、残差连接、正则化处理以及前馈神经网络的处理可通过下式(5)至(9)实现:

其中,

本申请实施例中的交叉注意力机制处理和门控机制处理能够有效地降低不同模态融合的冗余性,使得融合后的模态特征更关注与目标视频内容相关的特征,也能够减少噪声特征的影响,从而提高了不同模态融合的效率。

在步骤S1023中,根据辅模态融合特征、主模态融合特征以及多模态判别模型中的多层感知器,得到多模态分类结果。

多层感知器(Multi-Layer Perceptions,MLP)包括输入层、隐藏层和输出层。可拼接主模态融合特征和辅模态融合特征,得到综合融合特征;将综合融合特征输入多层感知器,得到多层感知器输出的多模态分类结果。需要说明的是,主模态融合特征和辅模态融合特征的拼接,是指将所有辅模态融合特征和主模态融合特征相互拼接,例如,若得到两个辅模态融合特征,则得到的一个综合融合特征是两个辅模态融合特征与主模态融合特征拼接得到的。步骤S1023可通过多模态判别模型中设置的分类层实现。例如,在具有两个辅模态融合特征的情况下,上述主模态融合特征和辅模态融合特征的拼接以及多层感知器的分类可通过下式(10)和(11)实现:

F

y

其中,F

上述实施例中的核心部分为多模态门控交叉注意力融合的处理过程,该过程可包括目标视频的预处理、融合和分类三个部分。图4为本申请实施例提供的多模态门控交叉注意力融合的处理过程的一示例的示意图,如图4所示,目标视频可经过预处理,利用ffmpeg技术得到目标视频的图像帧,再通过主模态判别模型对图像帧进行处理,得到图像帧特征,对图像帧特征进行一维卷积,将一维卷积后的图像帧特征作为融合处理的输入;利用自动语音识别(Automatic Speech Recognition,ASR)技术得到目标视频的音频,再通过音频对应的辅模态判别模型对音频进行处理,得到音频特征,对音频特征进行一维卷积,将一维卷积后的音频特征作为融合处理的输入;利用光学字符识别(Optical CharacterRecognition,OCR)技术得到目标音频的文本,再通过文本对应的辅模态判别模型对文本进行处理,得到文本特征,对文本特征进行一维卷积,将一维卷积后的文本特征作为融合处理的输入。根据一维卷积后的图像帧特征、音频特征和文本特征进行融合处理,得到图像帧融合特征、音频融合特征和文本融合特征。对图像帧融合特征、音频融合特征和文本融合特征进行拼接,根据拼接得到的综合融合特征进行分类处理,得到多模态分类结果。

本申请实施例引入了多模态判别模型,会增长得到目标视频的判别分类结果所需的推理时间,为了在提高视频审核判别的精确度的基础上尽量减少推理时间,可通过对图形处理单元的调度、对处理过程中任务的并行设置等,提高本申请实施例的推理效率,减少推理时间。

在一些实施例中,可调度图形处理单元(Graph Processing Unit,GPU)并行主模态判别模型对主模态数据的处理以及辅模态判别模型对辅模态数据的处理,得到主模态特征、主模态分类结果、辅模态特征和辅模态分类结果,并在图形处理单元存储。主模态判别模型和辅模态判别模型在图形处理单元中并行运行,且得到的主模态特征、主模态分类结果、辅模态特征和辅模态分类结果等均存储在图形处理单元中。具体可通过统一计算设备架构(Compute Unified Device Architecture,CUDA)线程(即Stream)并行运行主模态判别模型和辅模态判别模型,不同的辅模态判别模型也可并行运行,使得图形处理单元可同时进行内容拷贝和内容计算。例如,图形处理单元中的线程1运行主模态判别模型,线程2运行第一个辅模态判别模型,线程3运行第二个辅模态判别模型。多模态判别模型也可运行于图形处理单元,如,图形处理单元中的线程4运行多模态判别模型。对应地,多模态判别模型可直接在图形处理单元中获取主模态特征和辅模态特征。即,上述实施例中的步骤S101可细化为在图形处理单元中获取主模态特征和辅模态特征。在该过程中减少了图形处理单元与中央处理器(Central Processing Unit,CPU)之间的交互次数,缩短了多模态判别模型读取特征所需的时间,从而缩短了推理时间。

在一些实施例中,可设置两个以上的图像处理单元来实现主模态判别模型、辅模态判别模型和多模态判别模型的运行。主模态判别模型、辅模态判别模型可与多模态判别模型在同一图像处理单元中,也可分布在不同的图像处理单元中。

在主模态判别模型和/或辅模态判别模型运行于第一图形处理单元,多模态判别模型运行于第二图形处理单元的情况下,存储于第一图形处理单元的主模态特征和/或辅模态特征通过点对点通信传输至第二图形处理单元。在主模态判别模型和/或辅模态判别模型与多模态判别模型运行于不同的图形处理单元的情况下,主模态判别模型输出的主模态特征和/或辅模态判别模型输出的辅模态特征可通过图形处理单元之间直接的点对点(Peer to Peer,P2P)通信传输至另一图形处理单元中的多模态判别模型。点对点通信所需的时间要短于图形处理单元与中央处理器中间的通信传输所需的时间。

在主模态判别模型和/或辅模态判别模型与多模态判别模型运行于同一图形处理单元的情况下,同一图形处理单元中存储的主模态特征和/或辅模态特征直接输入至多模态判别模型,可节约传输开支,效率显著高于中央处理器侧调度方式的效率。

在一些实施例中,在有多个目标视频或目标视频分离得到的主模态特征、辅模态特征有多批的情况下,需要主模态判别模型、辅模态判别模型分批次处理主模态特征和辅模态特征。为了进一步缩短推理时间,基于多模态分类结果、主模态分类结果、辅模态分类和结果分类规则进行规则计算的过程可与主模态判别模型的运行、辅模态判别模型的运行并行进行,从而进一步缩短推理时间。即,可在基于多模态分类结果、主模态分类结果、辅模态分类结果和预设的结果分类规则,得到判别分类结果的过程中,并行利用主模态判别模型和辅模态判别模型分别处理主模态数据和辅模态数据。此外,主模态分类结果与对应的结果分类规则的规则计算、辅模态分类结果与对应的结果分类规则的规则计算、多模态分类结果与对应的结果分类规则的规则计算可并行进行,以进一步缩短推理时间。

为了便于理解,下面以主模态判别模型、辅模态判别模型、多模态判别模型的运行由模型节点处理,规则计算由规则节点处理为例对视频判别方法的异步回调推理框架进行说明。图5为本申请实施例提供的异步回调推理框架的一示例的示意图,如图5所示,规则节点中的中央处理器具有规则引擎,规则引擎进行规则运算1、规则运算2和规则运算3,每个规则运算中可涉及结果分类规则中的至少一条子规则。模型节点中具有中央处理器、图形处理单元1和图形处理单元2,中央处理器具有调度器即Schedule,图形处理单元1中具有线程1、线程2和线程3,图形处理单元2中具有线程4、线程5和线程6。其中,线程1至线程5各自运行一个主模态判别模型或一个辅模态判别模型,线程6运行多模态判别模型。线程中的H2D(即Host to Device),表示将数据从中央处理器拷贝到图形处理单元。线程中的推理即Inference,表示判别模型的推理处理。线程中的D2H(即Device to Host),表示将数据从图形处理单元拷贝到中央处理器。线程中的P2P为点对点通信。由图5可得,主模态判别模型的推理处理与辅模态判别模型的推理处理是可并行的,不同的辅模态判别模型的推理处理是可并行的。主模态判别模型的推理处理、辅模态判别模型的推理处理、多模态判别模型的推理处理是可以与规则计算中子规则的计算并行的。与多模态判别模型不在同一图形处理单元的主模态判别模型、辅模态判别模型产生的主模态特征和辅模态特征可通过P2P通信传输给多模态判别模型。

本申请实施例中将推理框架中可能涉及到串行处理的部分改进为并行处理,并采用图形处理单元中的点对点通信,极大地缩短了视频判别过程的推理时间,提高了视频判别过程的推理速度,提高了整个视频判别过程的时效性。

本申请实施例提供的视频判别方法可应用于分布式节点系统,该分布式节点系统也可实现为分布式节点装置,分布式节点系统中的节点可实现为装置也可实现为模块,在此并不限定。图6为本申请实施例提供的分布式节点系统的一示例的示意图,如图6所示,该分布式节点系统可包括接入层节点21(即hub node)、业务逻辑节点22(即onl node)、基础服务节点23(即base node)、规则节点24(即rule node)和模型节点25(即model node)。

联机系统31可通过自身的调用服务功能,通过Magpie binary协议向接入层节点21传输视频判别请求。接入层节点21具有权限控制、流量控制、请求转发等功能。接入层节点21可对视频判别请求进行校验,校验发起请求方的权限,将符合要求的视频判别请求转发至业务逻辑节点22。在分布式节点系统存在高负载情况下,接入层节点21可对视频判别请求进行逆行流控。业务逻辑节点22具有视频预处理、规则包选取、模型调度策略生成、判别结果生成等功能。业务逻辑节点22可对目标视频进行预处理,可并行调用基础服务节点23中的多种预处理服务。基础服务节点23具有名单过滤、视频截帧、音轨提取、内容压缩、音频转文本、文本预处理等功能,内容压缩可包括图像压缩、音频压缩等。预处理可降低得到的数据的噪声,并减少了数据量,便于后续的模型根据数据进行推理。业务逻辑节点22根据目标视频的场景信息,选取与场景信息对应的规则包,并生成匹配的模型调度策略,将规则包和模型调度策略一并发送给规则节点24。规则节点24具有规则引擎,规则节点24具有模型请求、并行规则计算、合并规则计算结果、返回规则包计算结果等功能。规则节点24可按照模型调度策略向模型节点25发送模型推理请求。模型节点25具有模型调度、并行模型推理、异步返回推理结果等功能。模型节点25可调度的模型包括本申请实施例中的主模态判别模型、辅模态判别模型、多模态判别模型等。模型节点25可异步多次将推理结果(即分类结果)进行返回。每收到模型节点25的一次返回,规则节点24会分配一个线程进行处理,遍历本次返回的推理结果对应的规则包中的子规则。其中,多个推理结果的处理可并行。例如,模型调度策略指示分为6个批次进行调用,6个批次的数据分别为A:32帧图像、B:32帧图像、C:32帧图像、D:1条音频、E:一条文本、F:多模态输入;若收到的推理结果顺序依次为E、A、B、D、C、F,收到数据E时规则节点24分配一个线程遍历对应的文本规则包中的子规则,收到数据A时规则节点24分配一个线程遍历对应的图像帧规则包中的子规则,收到数据B时规则节点24分配一个线程遍历对应的图像帧规则包中的子规则,收到数据D时规则节点24分配一个线程遍历对应的音频规则包中的子规则,收到数据C时规则节点24分配一个线程遍历对应的图像帧规则包中的子规则,收到数据F时规则节点24分配一个线程遍历对应的多模态规则包中的子规则。在所有的规则包计算完成后,规则节点24合并规则计算结果,并将规则结算结果返回给业务逻辑节点22。上述各节点之间可通信交互,例如,各节点之间可通过Magpie RPC协议进行通信。

上述示例中的模型节点25可调用系统模型库中的各种判别模型,系统模型库可包括多个主模态判别模型和多个辅模态判别模型,模型节点中可设置多模态判别模型。同一主模态可对应多个主模态判别模型,同一辅模态可对应多个辅模态判别模型。例如,图7为本申请实施例提供的判别模型与规则节点通信的一示例的示意图,如图7所示,目标视频可分离得到多批次图像帧、音频、文本,模型节点25的系统模型库251中可包括6个图像判别模型、2个音频判别模型和2个文本判别模型。音频判别模型可包括COVAREP模型或其他模型,在此并不限定。文本判别模型可包括bert模型、GloVe模型等,在此并不限定。可将目标视频的图像帧裁剪为224*224的大小,并输入图像判别模型,得到图像帧特征(即主模态特征);将音频输入COVAREP模型,得到维度为74的音频特征(即辅模态特征);将文本分别输入bert模型和GloVe模型,分别得到维度为768的文本特征(即辅模态特征)和维度为300的文本特征(即辅模态特征)。由于不同判别模型输出的特征的维度不同,可将得到的主模态特征、辅模态特征进行一维卷积,以控制特征的维度一致,例如,可设置一维卷积的输出维度为32。目标视频分离得到的多批次图像帧、音频、文本可输入模型节点25中对应的判别模型。判别模型处理完本批次数据后,可并行处理下一批次的数据。系统模型库251中判别模型输出的主模态特征和辅模态特征传输给多模态判别模型,多模态判别模型输出的多模态分类结果传输至规则节点24。系统模型库251中判别模型输出的主模态分类结果和辅模态分类结果也会传输至规则节点24。规则节点根据多模态分类结果、主模态分类结果和辅模态分类结果,进行规则计算,综合判断目标视频是否违规、违规类型、违规内容等,输出目标视频的判别分类结果。

本申请第二方面提供一种视频判别装置。图8为本申请一实施例提供的视频判别装置的结构示意图,如图8所示,该视频判别装置400可包括特征获取模块401、融合处理模块402和判别模块403。

特征获取模块401可用于获取目标视频的主模态特征和辅模态特征。

在一些示例中,主模态特征包括图像帧特征。辅模态特征包括音频特征和/或文本特征。

主模态特征由目标视频分离出的主模态数据通过主模态判别模型得到。辅模态特征由目标视频分离出的辅模态数据通过辅模态判别模型得到。

融合处理模块402可用于将主模态特征和辅模态特征输入多模态判别模型进行多层处理,得到多模态分类结果。

其中,在每一层处理中,根据输入的辅模态特征与主模态特征进行交叉注意力机制处理、门控机制处理和自注意力机制处理。

判别模块403可用于基于多模态分类结果、主模态判别模型输出的主模态分类结果、辅模态判别模型输出的辅模态分类结果和预设的结果分类规则,得到目标视频的判别分类结果。

在本申请实施例中,可从主模态判别模型和辅模态判别模型分别获取目标视频的主模态特征和辅模态特征,将主模态特征和辅模态特征输入多模态判别模型,多模态判别模型可进行多层处理,每一层处理中会根据输入本层的主模态特征和辅模态特征进行交叉注意力机制处理、门控机制处理和自注意力机制处理,将主模态特征和辅模态特征融合,得到多模态融合对应的多模态分类结果。通过多模态分类结果与主模态判别模型输出的主模态分类结果以及辅模态判别模型输出的辅模态分类结果互补,得到判别分类结果,从目标视频整体进行审核判别,减少漏判、误判的情况,提高对视频的审核判别的精确度。

在一些实施例中,融合处理模块402可具体用于:在一层处理中,基于本层输入的辅模态特征和主模态特征进行交叉注意力机制处理和门控机制处理,得到第一处理结果作为下一层处理输入的辅模态特征,直至到达最后一层处理,将得到的第一处理结果确定为辅模态融合特征;在一层处理中,基于本层输入的主模态特征进行自注意力机制处理,得到第二处理结果作为下一层处理输入的主模态特征,直至到达最后一层处理,将得到的第二处理结果确定为主模态融合特征;根据辅模态融合特征、主模态融合特征以及多模态判别模型中的多层感知器,得到多模态分类结果。

在一些实施例中,融合处理模块402可具体用于:将本层输入的辅模态特征和主模态特征输入预设的交叉注意力子模型,得到第一中间特征;将本层输入的辅模态特征和主模态特征拼接得到的拼接特征输入预先训练得到的两个相互独立的门控子模型,分别进行权重过滤处理,得到两个门控子模型输出的第一权重向量和第二权重向量;根据第一中间特征、第一权重向量、本层输入的辅模态特征、第二权重向量和多模态判别模型中的前馈神经网络,得到第一处理结果作为下一层处理输入的辅模态特征,直至到达最后一层处理,将得到的第一处理结果确定为辅模态融合特征。

在一些示例中,融合处理模块402可具体用于:根据第一中间特征和第一权重向量,得到第一过滤特征;根据本层输入的辅模态特征和第二权重向量,得到第二过滤特征;基于第一过滤特征和第二过滤特征进行残差连接处理,得到第一中间处理结果;将第一中间处理结果输入前馈神经网络,将前馈神经网络输出的第一处理结果作为下一层处理输入的辅模态特征。

在一些实施例中,融合处理模块402可具体用于:将本层输入的主模态特征输入预设的自注意力子模型,得到第二中间特征;根据第二中间特征进行残差连接处理,得到第二中间处理结果;将第二中间处理结果输入前馈神经网络,将前馈神经网络输出的第二处理结果作为下一层处理输入的主模态特征,直至到达最后一层处理,将得到的第二处理结果确定为主模态融合特征。

在一些实施例中,融合处理模块402可具体用于:拼接主模态融合特征和辅模态融合特征,得到综合融合特征;将综合融合特征输入多层感知器,得到多层感知器输出的多模态分类结果。

在一些示例中,主模态特征由主模态数据通过主模态判别模型并通过一维卷积得到。辅模态特征由辅模态数据通过辅模态判别模型并通过一维卷积得到。

在一些实施例中,视频判别装置400还可包括并行调度模块。并行调度模块可用于:调度图形处理单元并行主模态判别模型对主模态数据的处理以及辅模态判别模型对辅模态数据的处理,得到主模态特征、主模态分类结果、辅模态特征和辅模态分类结果,并在图形处理单元存储。

对应地,特征获取模块401可用于:在图形处理单元中获取主模态特征和辅模态特征。

在一些实施例中,在主模态判别模型和/或辅模态判别模型运行于第一图形处理单元,多模态判别模型运行于第二图形处理单元的情况下,存储于第一图形处理单元的主模态特征和/或辅模态特征通过点对点通信传输至第二图形处理单元。

在主模态判别模型和/或辅模态判别模型与多模态判别模型运行于同一图形处理单元的情况下,同一图形处理单元中存储的主模态特征和/或辅模态特征直接输入至多模态判别模型。

在一些实施例中,行调度模块还可用于:在基于多模态分类结果、主模态分类结果、辅模态分类结果和预设的结果分类规则,得到判别分类结果的过程中,并行利用主模态判别模型和辅模态判别模型分别处理主模态数据和辅模态数据。

本申请第三方面提供一种视频判别设备。图9为本申请一实施例提供的视频判别设备的结构示意图。如图9所示,视频判别设备500包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

在一些示例中,上述处理器502可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器501可包括只读存储器(Read-Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请实施例中视频判别方法所描述的操作。

处理器502通过读取存储器501中存储的可执行程序代码来运行与可执行程序代码对应的计算机程序,以用于实现上述实施例中的视频判别方法。

在一些示例中,视频判别设备500还可包括通信接口503和总线504。其中,如图9所示,存储器501、处理器502、通信接口503通过总线504连接并完成相互间的通信。

通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。也可通过通信接口503接入输入设备和/或输出设备。

总线504包括硬件、软件或两者,将视频判别设备500的部件彼此耦接在一起。举例来说而非限制,总线504可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Enhanced Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low pin count,LPC)总线、存储器总线、微信道架构(Micro Channel Architecture,MCA)总线、外围组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-E)总线、串行高级技术附件(Serial Advanced Technology Attachment,SATA)总线、视频电子标准协会局部(Video Electronics Standards Association Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线504可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

本申请第四方面还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被处理器执行时可实现上述实施例中的视频判别方法,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,上述计算机可读存储介质可包括非暂态计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等,在此并不限定。

本申请实施例提供一种计算机程序产品,该计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行上述实施例中的视频判别方法,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例、设备实施例、计算机可读存储介质实施例、计算机程序产品实施例而言,相关之处可以参见方法实施例的说明部分。本申请并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本申请的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。并且,为了简明起见,这里省略对已知方法技术的详细描述。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。

本领域技术人员应能理解,上述实施例均是示例性而非限制性的。在不同实施例中出现的不同技术特征可以进行组合,以取得有益效果。本领域技术人员在研究附图、说明书及权利要求书的基础上,应能理解并实现所揭示的实施例的其他变化的实施例。在权利要求书中,术语“包括”并不排除其他装置或步骤;数量词“一个”不排除多个;术语“第一”、“第二”用于标示名称而非用于表示任何特定的顺序。权利要求中的任何附图标记均不应被理解为对保护范围的限制。权利要求中出现的多个部分的功能可以由一个单独的硬件或软件模块来实现。某些技术特征出现在不同的从属权利要求中并不意味着不能将这些技术特征进行组合以取得有益效果。

技术分类

06120116525204