一种基于深度学习的信息定位方法及相关设备

文献发布时间：2023-06-19 09:47:53

技术领域

本发明涉及显示控制技术领域，尤其涉及的是一种基于深度学习的信息定位方法及相关设备。

背景技术

随着网络技术的发展，网络越来越多的被普及，其中，通过网络分享拍摄视频也日益受到用户的喜爱。

面对网络中大量的视频信息，若用户想从中定位出想要观看的视频片段，比如喜爱的相声或小品的片段，或者用户想要过滤掉某些不喜欢的片段，则一般是通过识别视频标签对视频片段进行定位。而采用视频标签对视频进行定位的方法，由于每个视频可能会有几十个甚至上百个标签，根据标签进行视频定位，可能会导致大量人力资源的消耗，且由于很多视频并未设置有相应的标签，因此通过标签的定位方式并不能满足对信息准确定位的要求。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明提供了一种基于深度学习的信息定位方法及相关设备，克服现有技术中仅仅通过视频标签对视频进行目标信息查找定位或过滤时，存在的定位出的或者过滤出的目标信息准确性低和消耗大量人力资源的缺陷。

第一方面，本发明实施例提供了一种基于深度学习的信息定位方法，其中，所述方法包括步骤：

获取待处理视频文件的音频信息和视频图像信息，其中，所述视频图像信息在所述待处理视频文件中的时间序列与所述音频信息在所述待处理视频文件中的时间序列相同；

根据所述音频信息和所述视频图像信息，确定第一文字信息；

将所述第一文字信息输入已训练的文字整合模型中，得到提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息；所述文字整合模型为基于已标记目标信息的样本文字信息与未标记目标信息的所述样本文字信息之间的对应关系训练而成的。

可选的，所述根据所述音频信息和所述视频图像信息，确定第一文字信息，包括：

根据所述音频信息确定所述音频信息对应的音频特征向量，并根据所述视频图像信息确定所述视频图像信息对应的图像特征向量；

将所述音频特征向量和所述图像特征向量转换成第一文字信息。

可选的，所述将所述音频特征向量和所述图像特征向量转换成第一文字信息的步骤包括：

将所述音频特征向量和所述图像特征向量拼接为视频向量矩阵；

将所述视频向量矩阵中含有的视频向量翻译成第一文字信息。

可选的，所述将所述视频向量矩阵中含有的视频向量翻译成第一文字信息步骤包括：

将所述视频向量矩阵输入已训练的内容识别模型，所述内容识别模型输出所述第一文字信息，所述内容识别模型是基于已标记文字信息的视频向量与未标记文字信息的视频向量之间的对应关系训练而成的。

可选的，所述根据所述音频信息确定所述音频信息对应的音频特征向量的步骤包括：

按照预设采样点，对所述音频信息的频谱进行采样，得到采样频谱；

将采样频谱编码为所述音频特征向量。

可选的，所述根据所述视频图像信息确定所述视频图像信息对应的图像特征向量的步骤包括：

截取所述视频图像信息的图像帧；

提取所述视频图像信息中各图像帧分别对应的特征图，并根据各图像帧分别对应的特征图得到各图像帧分别对应的图像特征向量。

可选的，所述截取所述视频图像信息的图像帧的步骤包括：

按照预设视频帧长度将所述视频图像信息切割为多个视频图像帧片段；

截取各个视频图像帧片段的图像帧，得到各个视频图像帧片段分别对应的图像帧集，其中，每个视频图像帧片段对应的图像帧集中均包括视频图像帧片段中的各图像帧；

所述提取所述视频图像信息中各图像帧分别对应的特征图的步骤包括：

提取各个图像帧集中的各个图像帧分别对应的特征图。

可选的，所述根据各图像帧分别对应的特征图得到各图像帧分别对应的图像特征向量的步骤包括：

将所述各图像帧分别对应的图像特征输入已训练的卷积神经网络中，得到各个图像帧分别对应的图像特征向量，所述卷积神经网络基于已标记图像特征向量与输入特征图之间的对应关系训练而成的。

可选的，所述将所述特征图输入已训练的卷积神经网络中，得到各个图像帧的图像特征向量的步骤包括：

通过卷积和池化操作，将各个特征图所对应的二维图像特征向量转换成所述各个特征图所对应的一维图像特征向量。

可选的，所述将所述音频特征向量和所述图像特征向量拼接成视频向量矩阵的步骤包括：

将所述各个特征图所对应的一维图像特征矩阵以列向量的方式合并添加到所述音频特征向量所对应的二维矩阵中，得到二维的视频向量矩阵。

可选的，

所述文字整合模型为编码-解码模型，所述编码-解码模型包括：编码层、注意力层和解码层；

所述将所述第一文字信息输入已训练的文字整合模型中，得到提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息的步骤包括：

将所述第一文字信息转化为文字序列，并将所述文字序列输入至所述编码层，输出对所述文字序列进行隐藏编码后的隐藏层序列；

将所述隐藏层序列输入所述注意力层，输出所述隐藏层序列所含有的关键信息；

将识别出的关键信息和所述隐藏层序列输入至所述解码层，提取出所述隐藏层序列的主题和基于所述主题分析出的目标信息；

根据所述目标信息处于所述第一文字信息的位置信息，得到所述目标信息的定位信息。

可选的，所述提取出所述隐藏层序列的主题和基于所述主题分析出的目标信息步骤之后，还包括：

将提取出的所述目标信息进行显示，并输出所述目标信息的分析信息。

可选的，所述信息定位方法，还包括：

利用所述的信息定位方法提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息；

根据所述目标信息及所述定位信息，对所述音频信息和视频图像信息进行过滤，并根据过滤后的所述音频信息和视频图像信息生成已过滤的视频文件。

可选的，所述根据所述目标信息及所述定位信息，对所述音频信息和视频图像信息进行过滤，并根据过滤后的所述音频信息和视频图像信息生成已过滤的视频文件的步骤包括：

分别将所述音频信息中所包含的多个音频特征向量与所述多个音频特征向量相对应的多个图像特征向量拼接成多个视频向量；

根据提取出的所述目标信息及所述定位信息依次对多个视频向量进行过滤；

根据过滤后得到的各个视频向量所对应的时间序列，对所述各个视频向量进行排序，将排序完成的各个视频向量整合为已过滤的视频文件。

第二方面，本实施例还提供了一种基于深度学习的信息定位装置，其中，包括：

视频信息提取模块，用于获取待处理视频文件的音频信息和视频图像信息，其中，所述视频图像信息在所述待处理视频文件中的时间序列与所述音频信息在所述待处理视频文件中的时间序列相同；

描述转换模块，用于根据所述音频信息和所述视频图像信息，确定第一文字信息；

文字整合模块，用于将所述第一文字信息输入已训练的文字整合模型中，得到提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息；所述文字整合模型为基于已标记为目标信息的文字信息与未标记目标信息的所述样本文字信息之间的对应关系训练而成的。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述的方法的步骤。

与现有技术相比，本发明实施例具有以下优点：

根据本发明实施方式提供的方法，获取待处理视频文件的音频信息和与所述音频信息具有相同时间序列的视频图像信息，并根据所述音频信息和所述视频图像信息，确定第一文字信息；将所述第一文字信息输入已训练的文字整合模型中，得到提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息。可见，本发明所述方法在进行信息定位时，在对视频图像进行信息定位的同时，添加了对视频文件所对应音频信息的信息定位，因此充分的考虑到了视频的全部内容，提高了视频内容识别的准确度和提高了对视频文件中目标信息进行定位查找效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种基于深度学习的信息方法的步骤流程图；

图2是本发明实施例中音频信息识别的实现原理图；

图3是本发明实施例中图像特征向量识别的实现原理图；

图4是本发明所述方法中关键信息和目标信息识别的实现原理图；

图5a是现有技术中未考虑音频过滤的过滤效果示意图；

图5b是本发明实施例中考虑音频与图像特征的过滤效果示意图；

图6是本发明实施例中一种装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

发明人经过研究发现，对于现有技术中存在的信息定位方法中，均只是对视频文件的视频图像信息进行信息定位，而未将视频文件的音频信息与视频图像信息相结合考虑，而一个完整的视频文件所含内容包含音频信息和视频图像信息两个部分，由于现有技术中所使用的信息定位方法缺少对音频信息的考虑，因此无法实现对视频文件中信息的精确定位。

为了解决上述问题，在本发明实施例中，综合考虑了对视频文件中音频信息和视频图像信息的均过滤，从而获取到精准过滤后的视频文件。本发明实施例中，当用户想要过滤一份视频文件时，首先获取该视频文件的音频信息，再获取与该音频信息相对应处于同一时间序列上的视频图像信息，分别获取音频信息的音频特征向量和视频图像信息的图像特征向量，将所述音频特征向量和图像特征向量转换成文字表述的文字信息，对转换成的文字信息中含有的目标信息进行定位，再将定位出的目标信息从视频文件中删除，从而实现对视频文件中目标信息的精确定位。

举例说明，本实施例可以应用到如下所描述的场景。该场景中包括：用户和设备，该终端设备可以是手机、IPAD、台式电脑等任一具有视频文件输入功能的设备，用户可以将待处理视频文件输入到终端设备上，终端设备可以响应用户对所述待处理视频文件进行信息定位的操作，以开启对其进行信息定位。当终端设备开启对该待处理视频文件进行信息定位时，则首先获取该视频文件的音频信息，基于音频信息得到音频特征向量，在获取该视频文件的视频图像信息，得到该视频文件的图像特征向量，此处得到图像特征向量所在视频文件中的时间序列与音频特征向量所处于视频文件中的时间序列相同，因此保证了本次信息定位是针对同视频帧片段进行，保证了信息定位的准确性。其次，再将音频特征向量和图像特征向量相结合转换成文字描述，将其作为一个整体进行文字识别，识别出其中含有的目标信息，从而实现了对目标信息进行定位。其中，目标信息可以为在信息定位过程中所需要定位出的字符(例如字、词、句)信息，举例来说，目标信息可以包括至少一种类型信息，比如，可以包括违法内容、色情、暴力等可能带来不良影响的任何一种或者多种信息，当然，目标信息也可以包括预先设置的关键词，比如，音乐、猪肉等等。

示例性方法

参见图1，示出了本实施例为一种基于深度学习的信息定位方法，所述方法实施例可以包括步骤：

步骤S1、获取待处理视频文件的音频信息和视频图像信息，其中，所述视频图像信息在所述待处理视频文件中的时间序列与所述音频信息在所述待处理视频文件中的时间序列相同。

所述时间序列为音频信息或视频图像信息所对应的片段处于所述待处理视频文件的播放时间轴的时间段，比如说：音频信息所对应在所述待处理视频文件的播放时间轴的时间段为：从第10秒到第200秒，则其时间序列为第10秒至第200秒，而相应的相同时间序列的视频图像信息所对应的时间序列也同样为该待处理视频文件中的第10秒至第200秒。

由于本发明实施例中是通过将音频信息和视频图像信息两个部分综合过滤，实现对视频文件中信息的精准定位，因此在需要对视频文件进行信息定位时，本步骤中首先需要分别提取出所述待处理视频文件的音频信息和视频图像信息。

第一步，先提取所述待处理视频文件的音频信息。

本步骤中提取视频文件中音频信息的方法现有技术中已经有很多种方法，例如：可以使用音频提取工具，比如：影音应用程序中含有的提取视频文件中音频信息的功能进行音频信息的提取，或者通过转换视频文件的格式，将其转换成MP3或MP4格式，或者通过对视频文件中的音频信息进行重新录制等等。

第二步，获取与所述音频信息同时间序列的视频图像信息。

获取与所述音频信息在所述待处理视频文件中的时间序列相同的视频图像信息的方法，现有技术中也已经有很多方式，例如：可以使用视频编辑工具获取，例如：视频剪辑APP、快剪辑APP或者拍大师APP等应用软件，还可以通过具有视频录制功能的工具对待处理视频文件中相对应的视频信息进行重新录制等等。

上述第一步和第二步也可以互换，也即是，可以先获取视频图像信息，再获取与所述视频图像信息具有相同时间序列的音频信息。

步骤S2、根据所述音频信息和所述视频图像信息，确定第一文字信息。

本步骤中通过将上述步骤S1中获取到的待处理视频文件的音频信息和视频图像信息转换成文字描述，通过对音频信息和视频图像信息转换成的文字描述进行分析，从而达到对音频信息和视频图像信息中是否含有目标信息的识别，具体的步骤S2含有如下两个步骤：

步骤S21、根据所述音频信息确定所述音频信息对应的音频特征向量，并根据所述视频图像信息确定所述视频图像信息对应的图像特征向量。

步骤S22、将所述音频特征向量和所述图像特征向量转换成第一文字信息。

由于要将音频信息转换成文字描述，因此本步骤中需要提取所述音频信息的音频特征向量，根据所述音频特征向量得到音频信息的文字描述，以及由于要将视频图像信息转换成文字描述，因此本步骤中需要提取所述视频图像信息的图像特征向量，并根据所述图像特征向量得到视频图像信息的文字描述。

具体的，步骤S21中所述根据所述音频信息确定所述音频信息对应的音频特征向量的方法包括以下两种方式：

第一种，通过采样编码的方式实现，具体的，结合图2所示，包括以下步骤：

按照预设采样点，对所述音频信息的频谱进行采样，得到采样频谱；

将采样频谱编码为所述音频特征向量。

第二种，通过深度学习模型实现，包括以下步骤：

当将音频信息中含有的语言信息转换为文字信息后，利用预设的自编码模型将文字信息转换为特征向量的表达，也即是转换成音频特征向量。

所述自编码模型可以选择使用基于深度学习的自动编码器，通过调节输入其中的文字信息及所述文字信息中各个分词或短语或短句所占的权重，将其转换成特征向量的表达，从而得到所述自编码模型中输出的音频特征向量。

另外，步骤S21中所述根据所述视频图像信息确定所述视频图像信息对应的图像特征向量的步骤包括：

截取所述视频图像信息的图像帧；

提取所述视频图像信息中各图像帧分别对应的特征图，并根据各图像帧分别对应的特征图得到各图像帧分别对应的图像特征向量。

所述截取所述视频图像信息的图像帧的步骤包括：

按照预设视频帧长度将所述视频图像信息切割为多个视频图像帧片段；

所述提取所述视频图像信息中各图像帧分别对应的特征图的步骤包括：

提取各个图像帧集中的各个图像帧分别对应的特征图。

所述特征图主要为含有图像的颜色特征、纹理特征、形状特征和空间关系特征的图像，是一种全局特征，描述了图像或图像区域所对应景物的表面性质。本实施例中主要考虑图像的形状特征。基于特征图得到图像特征向量的主要思想是将原始样本投影到一个低维特征空间，得到最能反应特征图本质或进行特征图区分的低维图像特征。

上述步骤中通过获取所述视频图像信息中每一帧的图像帧或者采样获取视频图像信息中的图像帧，并提取图像帧所对应的特征图，基于所述特征图提取到最能反应该特征图本质的图像特征向量。

具体的，所述根据各图像帧分别对应的特征图得到各图像帧分别对应的图像特征向量的步骤包括：

在进行卷积神经网络的训练中，将已标记图像特征向量为卷积核，利用所述已标记图像特征向量来对输入特征图对卷积，得到各个图像帧的图像特征向量。所述卷积神经网络通过已知的特征图中的图像特征向量，对未知特征图中含有的图像特征向量进行修改标记，最终输出全部对图像特征向量均标记出的图像帧，基于卷积神经网络中输出已经标记出图像特征向量的特征图，得到所述特征图的图像特征向量。

可选的，所述将所述特征图输入已训练的卷积神经网络中，得到各个图像帧的图像特征向量的步骤包括：

通过卷积和池化操作，将各个特征图所对应的二维图像特征向量转换成所述各个特征图所对应的一维图像特征向量。

具体的，所述文字信息通过所述自编码模型进行特征向量转换后，转换成M行N列的词向量矩阵，其中M行代表词向量，而N行代表词向量矩阵所在文字信息中所占的权重。而视频文件中分割出的视频图像帧转换而成的图像特征向量，而将视频图像帧转换成图像特征向量的方法为利用卷积神经网络模型，也即是通过对从图像中提取出的特征进行卷积、池化操作，将每一帧图像对应的二维矩阵转换成与其对应的低维图像特征向量，也即是比二维更低维度的一维图像特征向量。

卷积神经网络是由输入层、卷积层、激活函数、池化层和全连接层组成，其中，卷积层用于进行输入图像的特征提取，池化层是对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度，另一方面进行特征压缩，提取主要特征。将所述视频图像帧通过卷积神经网络模型对其二维矩阵转换成一维图像特征向量。

上述内容对步骤S21中根据所述音频信息确定所述音频特征向量，以及根据所述视频图像信息确定所述视频图像信息对应的图像特征向量的步骤进行了详细说明，接下来，对步骤S22中将所述音频特征向量和所述图像特征向量转换成第一文字信息的步骤进行详细说明。

由于将音频特征向量和图像特征向量整合为文字信息，则可以实现更为准确识别出视频文件中是否含有目标信息，因此需要将音频特征向量和图像特征向量转换成文字信息，本实施例中将该文字信息称为第一文字信息。

步骤S22、将音频特征向量和所述图像特征向量转换成第一文字信息的步骤具体包括：

步骤S221、将所述音频特征向量和所述图像特征向量拼接为视频向量矩阵。

为了实现将音频特征向量和图像特征向量整合在一起，本实施例中采用将两种向量相拼接的方式，将图像特征向量添加到音频特征向量中，形成视频向量矩阵，对拼接出的视频向量矩阵中含有的由图像特征向量和音频特征向量拼接出的视频向量进行转换，得到第一文字信息。

由于音频特征向量为二维向量，图像特征向量为一维向量，因此将音频特征向量和图像特征向量拼接在一起，形成一个二维矩阵。若音频特征向量和图像特征向量所属的矩阵维度不同，则通过添加默认设置的缺省值实现两个特征向量为相同行和相同列的二维矩阵，则通过将行数据添加到另一特征向量行数据上方或者下方，实现音频特征向量和图像特征向量之间的拼接，拼接得到的二维矩阵为含有整个视频文件信息的视频向量矩阵。

在本实施例中，若采取分别对音频特征向量和图像特征向量进行转换，再分别获取两种向量的文字翻译结果，由于未考虑音频信息与视频图像信息之间的相关性，导致可能产生的误判断。

为了避免未考虑音频信息与视频图像信息之间的相关性，而导致的误判断，本实施例中，采用将音频特征向量和图像特征向量拼接在一起的视频向量进行转换，得到所述第一文字信息。本实施例中由于将图像特征向量和其相对应相同时间序列的音频特征向量拼接为一个整体进行处理，充分考虑了音频信息与视频图像信息之间的相关性，因此可以取得更加准确识别出是否含有目标信息的效果。

例如：当目标信息为定位出视频中含有“暴力”相关的内容，若某一视频文件所对应的视频图像画面为军事新闻，音频播放的信息为：与暴力相关的恐怖袭击事件的相关音频(例如轰炸伊拉克)，若仅仅只是对该军事新闻的画面进行分析，分析得到该视频图像画面属于新闻的画面，不属于“暴力”相关的内容，因此会出该视频文件中不含有“暴力”相关内容的错误判断，而若采用本实施例中所给出的方法，对视频文件的音频信息和图像视频信息均进行分析，当对该视频文件的音频信息进行分析时，得到该视频文件的音频信息为恐怖袭击事件的相关音频，而由于恐怖袭击事件的音频中含有“暴力”相关的内容，则可以判定出该视频文件含有与“暴力”相关的内容，视频文件中含有恐怖袭击事件的音频片段以及该音频片段对应的视频片段均属于需要定位的目标信息，因此本实施例给出的方法分析出的结果更加的准确。

步骤S222、将所述视频向量矩阵中含有的视频向量转换成第一文字信息。

在进行内容识别模型的训练中，将已标记文字信息的视频向量作为卷积核，利用所述已标记文字信息的视频向量对输入未标记文字信息的视频向量卷积，得到输出的对输入视频向量的文字信息。例如:某一条视频向量所标记的文字信息为：风景、山、河流和树木，则内容识别模型根据该条视频向量所标记出的文字信息，对输入内容识别模型中未标记文字信息的视频向量做识别，将其中同样含有风景、山、河流和树木的视频向量进行标记，基于同样的标记方法，实现对输入的全部视频向量进行标记的目标。

通过已训练的内容识别模型对所述视频向量矩阵进行文字信息的识别，从而得到该视频向量矩阵中各个视频向量所对应的文字信息。

步骤S3、将所述第一文字信息输入已训练的文字整合模型中，得到提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息；所述文字整合模型为基于已标记为目标信息的样本文字信息与未标记目标信息的所述样本文字信息之间的对应关系训练而成的。

所述定位信息为所述目标信息处于所述第一文字信息中的位置信息。可以理解的是，所述定位信息能够体现所述目标信息分别在所述视频图像信息和所述音频信息中的位置。例如：若目标信息处于第一文字信息的第二段第二行至第三行和第三段第一行，并且所述第一文字信息中的第二段第二行至第三行的内容对应图像视频帧的第30帧至第50帧的位置，所述第一文字信息中的第二段第二行至第三行的内容对应音频信息的第3秒至第5秒的位置，所述第一文字信息中的第三段第一行的内容对应图像视频帧的第100帧至第120帧的位置，所述第一文字信息中的第三段第一行的内容对应音频信息的第10秒至第12秒；则所述目标信息的定位信息为第一文字信息的第二段第二行至第三行和第三段第一行，且所述目标信息的定位信息体现了所述目标信息位于图像视频信息中的第30帧至第50帧以及第100帧至第120帧，以及所述目标信息位于音频信息中的第3秒至第5秒，以及第10秒至第12秒。

在一种可能的实现方式中，本实施例中所使用的所述文字整合模型为编码-解码模型，所述编码-解码模型包括：编码层、注意力层和解码层；

具体的，所述将所述第一文字信息输入已训练的文字整合模型中，得到提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息的步骤包括：

将所述第一文字信息转化为文字序列，并将所述文字序列输入至所述编码层，输出对所述文字序列进行隐藏编码后的隐藏层序列；

将所述隐藏层序列输入所述注意力层，输出所述隐藏层序列所含有的关键信息；

将识别出的关键信息和所述隐藏层序列输入至所述解码层，提取出所述隐藏层序列的主题和基于所述主题分析定位出的目标信息；

根据基于所述目标信息得到所述目标信息在所述第一文字信息中的定位信息。

为了实现用户更方面的获取到视频文件中被识别出的目标信息位于视频文件中的位置，和将其判定为目标信息的原因，在所述提取出所述隐藏层序列的主题和基于所述主题分析定位出的目标信息步骤之后，还包括：

将提取出的所述主题定位出的所述目标信息进行显示，并输出所述目标信息的分析信息。

举例说明，比如说在对视频向量所翻译出的文字信息进行分析时，若发现主题为“与小鸟有关的儿歌”中出现“打架”的画面和与“吵架”有关的词语，则将该暴力画面及其相对应的音频信息对对应时间序列进行定位，并该暴力画面及其相对应的音频信息进行输出显示，并给出过滤原因为：暴力相关。例如：当分析出主题为：“打架”的画面，则首先确定出现该暴力画面的时间序列，若该时间序列为：10秒至200秒，则根据该时间序列对处于相同时间序列的音频信息进行定位，也即获取时间序列为：10秒至200秒的音频信息，并将该暴力画面和获取到的相同时间序列的音频信息同步输出显示，以及给出定位该时间序列所对应视频的理由为：暴力相关。

在一种实现方式中，在根据视频图像信息确定所述视频信息所对应图像特征向量时，在为了便于更好的根据图像帧的定位信息将其快速识别并删除，步骤S21中采用了按照预设视频帧长度将所述视频图像信息切割为多个视频图像帧片段；截取各个视频图像帧片段的图像帧，得到各个视频图像帧片段分别对应的图像帧集，其中，每个视频图像帧片段对应的图像帧集中均包括视频图像帧片段中的各图像帧；所述提取所述视频图像信息中各图像帧分别对应的特征图的步骤包括：提取各个图像帧集中的各个图像帧分别对应的特征图，并根据所述特征图得到所述各个图像帧所对应的特征向量。例如:一个十分钟的视频，先把它分为一分钟一个的片段，然后再对这一分钟的片段采集帧的信息。由于本步骤中图像帧为处于不同的视频图像帧片段的图像帧，因此可以同步分别对各个图像帧片段所对应的图像帧进行查找，快速的实现对图像帧所在位置进行定位。

具体的，以本方法具体应用实施例为例，结合图2至图5对本发明所述方法做更进一步的说明。

首先，如图2所示，首先需要从视频文件中提取出该视频文件的音频信息，并将所述音频信息通过采样编码，得到所述音频信息所对应的音频特征向量。

具体的，如图3所示，按照视频文件中视频图像帧集筛选的时间跨度，将视频图像帧集对应的文字信息通过自编码模型转换为向量表示，实现音频特征向量与接下来的帧集在进行拼接等操作生成新的特征向量矩阵来完成神经网络的训练。

由于视频文件中所包含的信息量太大，需要对视频文件进行预处理，因此需要将其切割为一定长度的视频片段，在片段内每隔K帧取一帧，剪切为长度J帧的帧集，该帧集合包含视频片段中K*J帧的信息，帧集中的每一帧在神经网络中配置相应的权重映射为一个包含帧图像信息的二维矩阵，该模型的主要框架是一个CNN网络(卷积神经网络)，其主要作用是通过卷积、池化操作，将每一帧对应的二维矩阵转换成与其对应的图像特征向量，并将音频特征向量添加到图像特征向量中，由于本方法中在图像特征向量中添加了音频特征向量，而真正的视频所要表达的信息有很大一部分是由音频信息提供的，因此本方法与传统方式上仅对图像内容进行分析，忽略了音频内容相比，实现了更全面的对视频文件所含信息进行识别，提高了视频文件中目标信息定位的准确性。

其次，需要对拼接出的特征向量矩阵中含有的图像特征向量进行转换，得到其所对应的文字表述。具有应用中，本步骤中所使用的神经网络模型为基于transformer神经网络上基础上进行训练得到的，在得到完整的视频信息的特征向量表示后，将其中含有的图像特征向量翻译成文字描述，但是图像特征向量的表示比单独的文字表示要长很多，而该模型比以RNN为基础的翻译模型无论是计算的复杂度上还是长序列的翻译上，更适合我们任务，因此使用该模型来获得更加快速且准确的进行视频内容的识别。

再次，需要从上述步骤中翻译出的文字信息进行信息整合，识别出其中含有的关键词和目标信息。

具体的，如图4所示，本步骤中所使用的文字信息整合模块为NLP领域常用的编码-解码模型，该模型由编码层，注意力层和解码层组成。

所述将所述第一文字信息输入已训练的文字整合模型中，得到提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息的步骤包括：

K1、将所述第一文字信息转化为文字序列，并将所述文字序列输入至所述编码层，所述编码层经过计算输出对所述文字序列进行隐藏编码后的隐藏层序列；

K2、将所述隐藏层序列输入所述注意力层，输出所述隐藏层序列所含有的关键信息；所述注意力层是理解整个第一文字信息内容的关键部分，因为该层中的注意力机制可以很好的保存整个序列的信息，不会忽略句子最开始的信息。

K3、将识别出的关键信息和所述隐藏层序列输入至所述解码层，提取出所述隐藏层序列的主题和基于所述主题分析出的目标信息；

K4、根据所述目标信息处于所述第一文字信息的位置信息，得到所述目标信息的定位信息。

为了便于用户获取到视频文件中定位出的目标信息的具体内容，在上述步骤K3所述提取出所述隐藏层序列的主题和基于所述主题分析定位出的目标信息步骤之后，还包括：

K31、将提取出的所述目标信息进行显示，并输出所述目标信息的分析信息。

用户通过显示出的目标信息和分析信息可以方便的知晓该段内容被定位出的原因，从而对该定位出的信息有更加充分的了解。

本实施例所公开的信息定位方法，由于在对信息进行定位时，在对图像视频信息进行分析的基础上，添加了对视频文件所对应音频信息的分析，并且将图像视频信息与音频信息相结合，实现了对整个视频文件的全面分析，提高了视频内容识别的准确度，为准确的识别出视频文件中某一类型的信息，或者某一个或多个字符信息提供了技术上的保证。

由于随着网络技术的发展，网络越来越多的被普及，其中，通过网络分享拍摄视频也日益受到用户的喜爱。但是由于通过网络进行视频信息的传播并未受到该有的限制，导致大量带有不良问题的视频也在网络上传播，此类视频的传播会给用户带来困扰，尤其对于没有分辨能力的青少年来说，由于视频中不良信息的引导，可能会导致更加严重的影响。

为了实现对网络中视频信息中不良信息的过滤，在上述实施例中的步骤S3之后，还包括步骤：

根据提取出的所述目标信息及所述定位信息，对所述音频信息和视频图像信息进行过滤，并根据过滤后的所述音频信息和视频图像信息生成已过滤的视频文件。

利用上述实施例中对目标信息的定位方法，对视频文件中的目标信息进行定位，得到目标信息的所在视频文件中的位置信息，然后再根据定位出的目标信息的定位信息对所述目标信息进行过滤，从而得到对目标信息进行过滤后的视频文件。

例如：当目标信息为不良信息时，通过本实施例的定位方法先定位出视频文件中不良信息所在的位置信息，再根据定位出的位置信息将视频文件中含有的不良信息进行过滤，得到过滤后的视频文件，为网络视频提供了干净的视听环境。

为了实现将视频文件中的目标信息全部过滤，实现过滤的准确性，利用上述实施例中的定位方法将视频文件中音频信息中含有的目标信息和视频图像信息中含有的目标信息均进行定位，并根据定位出的目标信息所在位置，对音频信息和视频图像信息中含有的目标信息均进行过滤。

具体的，所述提取出的所述目标信息及所述定位信息，对所述音频信息和视频图像信息进行过滤，并根据过滤后的所述音频信息和视频图像信息生成已过滤的视频文件的步骤包括：

分别将所述音频信息和视频图像信息中所包含的多个音频特征向量和相对应的多个图像特征向量拼接成的多个视频向量；

根据提取出的所述目标信息及所述定位信息依次对多个视频向量进行过滤；

根据过滤后得到的各个视频向量所对应的时间序列，对所述各个视频向量进行排序，将排序完成的各个视频向量整合为已过滤的视频文件。

分别将音频信息和视频图像信息中分别含有的音频特征向量和图像特征向量进行拼接，在拼接时可以将音频特征向量与其所对应同时间序列的图像特征向量直接拼接，也可以通过将一维的图像特征向量以列的形式插入到音频特征向量所在矩阵中，拼接得到一个视频向量矩阵，而该视频向量矩阵中的每一列向量均称为视频向量。

根据上述步骤中分析出的目标信息及其所在定位信息，从视频向量依次将相对应位置对应的目标信息删除，得到过滤后的多个视频向量。例如：当目标信息为：暴力画面，其所在位置在第20帧到第100帧所在画面，则根据该目标信息所在的画面所在位置，对其进行过滤删除。

将删除目标信息后的视频向量按照其所在的时间序列，整合为一个完整的视频文件。

为了便于用户知晓过滤的目标信息，在所述根据提取出的所述目标信息及所述定位信息，对所述音频信息和视频图像信息进行过滤的步骤包括：

将提取出的所述主题和过滤出的所述目标信息进行显示，并输出所述目标信息的过滤分析信息。

用户根据显示出的过滤信息的主题和过滤除的目标信息的内容，可以知晓本次视频文件中含有的目标信息所对应的主题及详细内容，便于用户对该视频文件有个更加详细的了解。

本步骤中所使用的神经网络模型为一个以LSTM神经网络为基础的模型，其输入为视频文件的帧集所对应的图像特征向量和音频文件所对应的音频特征向量结合后的视频向量矩阵，输出为定位后的视频文件，使用该神经网络模型是因为该网络有着良好的时间连续性，因为其训练对应的结果为视频形式，视频本身就有很强的时序性，可以很好的学习到视频筛选帧的规律，准确性会大大的高于其他的神经网络，而且还可以减少很多计算资源。通过该模块可以获得尽量保存视频完整内容且过滤掉少部分不良信息的视频，而不是将整个视频完全删掉。

本实施例所采用的视频过滤方法，通过对视频文件中含有的目标信息进行过滤，实现了过滤后视频文件中不含有违法内容、色情、暴力等可能带来负面影响的信息，给视频用户一个健康的观看环境，为视频文件的正常传播提供了技术支持。

本实施例所采用的过滤方法，由于与现有技术相比，增加对视频文件中音频信息中目标信息的过滤，并且采用将音频信息与视频图像信息相结合同步进行识别并过滤，从而可以取得更加精确的过滤效果。如图5a和图5b所示，当输入视频文件中出现的画面是两个人时，若仅仅只是对视频图像画面进行识别，则仅仅能识别出两个人在谈论，但于无法识别出其谈论的具体内容，而且画面中并不含有相关的目标信息，则使用现有技术中的过滤方法则对其分析后，采取不过滤的方式。而若采用本实施例中所采用的过滤方法，不仅仅基于画面分析出是两个人在谈论什么，而且可以分析出两个人在谈论目标信息，比如：语言内容中含有脏话，则对其进行分析后，得到的结论是过滤该两个人谈论且谈论内容含有脏话的视频帧，给出的过滤理由是：谈论内容中含有目标信息。因此本发明所述公开的过滤方法与现有技术相比，具有更加准确的过滤效果。

本发明还提供了另一种实施例为一种基于深度学习的信息定位装置，如图6所示，包括：

视频信息提取模块610，用于获取待处理视频文件的音频信息和视频图像信息，所述视频图像信息在所述待处理视频文件中的时间序列与所述音频信息在所述待处理视频文件中的时间序列相同；其功能如步骤S1所述。

描述转换模块620，用于描述转换模块，用于根据所述音频信息和所述视频图像信息，确定第一文字信息；其功能如步骤S2所述。

文字整合模块630，用于将所述第一文字信息输入已训练的文字整合模型中，得到提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息；所述文字整合模型为基于已标记为目标信息的样本文字信息与未标记目标信息的所述样本文字信息之间的对应关系训练而成的；其功能如步骤S3所述。

本发明还提供了另一种实施例为一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现所述方法的步骤。

本发明还提供了另一种实施例为一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法的步骤。

本发明提供了一种基于深度学习的信息定位方法及相关设备，通过获取待处理视频文件的音频信息和与所述音频信息具有相同时间序列的视频图像信息，并根据所述音频信息和所述视频图像信息，确定第一文字信息；将所述第一文字信息输入已训练的文字整合模型中，得到提取出的目标信息及所述目标信息在所述第一文字信息中的定位信息。可见，本发明所述方法在进行信息定位时，在对视频图像中所含信息进行定位的同时，添加了对视频文件所对应音频信息中所含信息进行定位，由于充分考虑了视频文件中视频图像中所含信息和音频信息，因此本实施例的信息定位方法考虑了视频文件的全部内容，提高了视频内容中信息定位的准确度。另由于本实施所述方法可以实现对目标信息的准确定位，从而可以实现对视频文件中相对应不良信息的准确过滤，为得到创建良好的网络视频环境提供了技术支持。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：苏建;蔡云龙;
专利申请人：TCL集团股份有限公司;

上一篇：手持式手术设备的控制装置及手持式手术设备
下一篇：数据导入方法、装置、存储介质及处理器