导航：首页> 染料；涂料；抛光剂；天然树脂；黏合剂；其他类目不包含的组合物；其他类目不包含的材料的应用>视频搜索方法及装置、索引构建方法及装置

视频搜索方法及装置、索引构建方法及装置

文献发布时间：2023-06-19 11:52:33

技术领域

本说明书实施例涉及计算机技术领域，特别涉及两种视频搜索方法以及一种索引构建方法。本说明书一个或者多个实施例同时涉及两种视频搜索装置，一种索引构建装置，三种计算设备，以及一种计算机可读存储介质。

背景技术

随着视频网络的普及和发展，涌现出很多视频网站，方便用户在视频网站上搜索视频进行观看，极大的丰富了用户的生活。

目前，视频搜索大多使用视频文本信息实现对视频的搜索，例如在某视频网站输入视频名称实现对视频的搜索，但是很多视频存在名称相同的情况，输入一个视频名称会出现若干个视频结果，用户需要对每个搜索结果点击观看才可以获得自己想要观看的视频。由此可见，现有搜索方式准确率较低，从而降低了用户体验。

因此，如何提高视频搜索的准确率是目前急需解决的技术问题。

发明内容

有鉴于此，本说明书施例提供了两种视频搜索方法以及一种索引构建方法。本说明书一个或者多个实施例同时涉及两种视频搜索装置，一种索引构建装置，三种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种视频搜索方法，包括：

接收用户输入的对目标视频的搜索请求，其中，所述搜索请求中携带有针对所述目标视频的多模态搜索数据；

基于预设算法对所述多模态搜索数据进行处理，得到所述多模态搜索数据的处理结果；

将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频。

可选的，所述多模态搜索数据包括文本数据；

所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果包括：

基于预设的文本算法对所述文本数据进行处理，得到所述文本数据的文本语意标签。

可选的，所述多模态搜索数据包括图像数据；

所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果包括：

基于预设的图像算法对所述图像数据进行处理，得到所述图像数据的图像语意标签；

基于预设的向量化模型对所述图像数据进行处理，得到所述图像数据的向量化描述。

可选的，所述多模态搜索数据包括视频数据；

所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果之前，还包括：

将所述视频数据拆分为视频元数据和视频流数据，并基于预设的分割方式将所述视频流数据分割为视频帧序列。

可选的，所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果包括：

基于所述文本算法对所述视频元数据进行处理，得到所述视频元数据的文本语意标签；

基于预设的视频算法对所述视频帧序列中的视频帧进行处理，得到所述视频帧的视频语意标签；

基于所述向量化模型对所述视频帧进行处理，得到所述视频帧的向量化描述。

可选的，所述将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频包括：

将所述文本数据的文本语意标签输入至对应的预先构建的倒排索引中，搜索得到所述目标视频。

可选的，所述将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频包括：

将所述图像语意标签输入至对应的预先构建的倒排索引中，搜索得到第一初始视频；

将所述图像数据的向量化描述输入至对应的预先构建的向量索引中，搜索得到第二初始视频；

基于所述第一初始视频和所述第二初始视频获得所述目标视频。

可选的，所述将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频包括：

将所述视频元数据的文本语意标签输入至对应的预先构建的倒排索引中，搜索得到第三初始视频；

将所述视频帧的向量化描述输入至对应的预先构建的向量索引中，搜索得到第四初始视频；

基于所述第三初始视频和所述第四初始视频获得所述目标视频。

可选的，所述将所述图像语意标签输入至对应的预先构建的倒排索引中，搜索得到第一初始视频包括：

将所述图像语意标签和所述文本数据的文本语意标签合并后，输入至对应的预先构建的倒排索引中，搜索得到第一初始视频。

可选的，所述将所述视频元数据的文本语意标签输入至对应的预先构建的倒排索引中，搜索得到第三初始视频包括：

将所述视频元数据的文本语意标签和所述文本数据的文本语意标签合并后，输入至对应的预先构建的倒排索引中，搜索得到第三初始视频。

可选的，所述基于所述第一初始视频和所述第二初始视频获得所述目标视频包括：

将所述第一初始视频和所述第二初始视频进行比较去重；

对去重后的第一初始视频和第二初始视频进行重新计算，以得到去重后的第一初始视频和第二初始视频的目标分值；

基于所述目标分值对去重后的第一初始视频和第二初始视频排序后获得所述目标视频。

可选的，所述基于所述第三初始视频和所述第四初始视频获得所述目标视频包括：

将所述第三初始视频和所述第四初始视频进行比较去重；

对去重后的第三初始视频和第四初始视频进行重新计算，以得到去重后的第三初始视频和第四初始视频的目标分值；

基于所述目标分值对去重后的第三初始视频和第四初始视频排序后获得所述目标视频。

可选的，所述索引的构建方法包括：

获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

根据本说明书实施例的第二方面，提供了一种视频搜索方法，包括：

接收用户输入的多模态搜索数据，其中，所述多模态搜索数据包括文本数据、图像数据、视频数据和/或音频数据；

基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果；

将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到与所述多模态搜索数据关联的目标视频。

根据本说明书实施例的第三方面，提供了一种索引构建方法，包括：

获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

可选的，所述基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果包括：

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本语意标签。

可选的，所述基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本语意标签之前，还包括：

基于预设的分割方式将所述视频流数据分割为视频帧序列。

可选的，所述基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果包括：

基于预设的视频算法对所述视频帧序列中的视频帧进行处理，得到所述视频帧的视频语意标签；

基于预设的向量化模型对所述视频帧进行处理，得到所述视频帧的向量化描述。

可选的，所述根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引包括：

根据所述文本语意标签以及所述视频语意标签构建倒排索引，且根据所述向量化描述构建向量索引。

根据本说明书实施例的第四方面，提供了一种视频搜索装置，包括：

搜索请求接收模块，被配置为接收用户输入的对目标视频的搜索请求，其中，所述搜索请求中携带有针对所述目标视频的多模态搜索数据；

多模态搜索数据处理模块，被配置为基于预设算法对所述多模态搜索数据进行处理，得到所述多模态搜索数据的处理结果；

目标视频搜索模块，被配置为将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频。

根据本说明书实施例的第五方面，提供了一种视频搜索装置，包括：

搜索数据接收模块，被配置为接收用户输入的多模态搜索数据，其中，所述多模态搜索数据包括文本数据、图像数据、视频数据和/或音频数据；

数据处理结果获取模块，被配置为基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果；

关联视频获取模块，被配置为将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到与所述多模态搜索数据关联的目标视频。

根据本说明书实施例的第六方面，提供了一种索引构建装置，包括：

视频数据获取模块，被配置为获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

视频元处理模块，被配置为基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

视频流处理模块，被配置为基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

异构索引构建模块，被配置为根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

根据本说明书实施例的第七方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

接收用户输入的对目标视频的搜索请求，其中，所述搜索请求中携带有针对所述目标视频的多模态搜索数据；

基于预设算法对所述多模态搜索数据进行处理，得到所述多模态搜索数据的处理结果；

将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频。

根据本说明书实施例的第八方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

接收用户输入的多模态搜索数据，其中，所述多模态搜索数据包括文本数据、图像数据、视频数据和/或音频数据；

基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果；

将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到与所述多模态搜索数据关联的目标视频。

根据本说明书实施例的第九方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

根据本说明书实施例的第十方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述视频搜索方法或者实现所述索引构建方法的步骤。

本说明书一个或多个实施例实现了一种视频搜索方法及装置，其中，所述视频搜索方法包括在接收用户输入的对目标视频的搜索请求后，基于预设算法对所述搜索请求中携带有针对所述目标视频的多模态搜索数据进行处理，然后将该多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到该目标视频；使得视频搜索方法该基于该多模态搜索数据快速、准确的得到该目标视频，提升用户体验。

附图说明

图1a是本说明书一个实施例提供的一种视频搜索方法的应用场景的示意图；

图1b是本说明书一个实施例提供的另一种视频搜索方法的应用场景的示意图；

图2a是本说明书一个实施例提供的一种视频搜索方法的流程图；

图2b是本说明书一个实施例提供的另一种视频搜索方法的流程图；

图3是本说明书一个实施例提供的一种视频搜索方法的具体处理过程流程示意图；

图4是本说明书一个实施例提供的一种索引构建方法的流程图；

图5是本说明书一个实施例提供的一种索引构建方法的处理过程流程图；

图6a是本说明书一个实施例提供的一种视频搜索装置的结构示意图；

图6b是本说明书一个实施例提供的一种视频搜索装置的结构示意图；

图7是本说明书一个实施例提供的一种索引构建装置的结构示意图；

图8是本说明书一个实施例提供的第一种计算设备的结构框图；

图9是本说明书一个实施例提供的第二种计算设备的结构框图；

图10是本说明书一个实施例提供的第三种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

异构搜索引擎：倒排索引(文本检索)与向量索引(视频图像检索)共同存在的搜索引擎。

多模态搜索数据：不同模式的内容表示形式，如文字，图像，视频等。

在本说明书中，提供了两种视频搜索方法以及一种索引构建方法。本说明书一个或者多个实施例同时涉及两种视频搜索装置，一种索引构建装置，三种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1a、1b和图2a，图1示出了根据本说明书一个实施例提供的一种视频搜索方法的具体应用场景的示例性说明；图2a示出了根据本说明书一个实施例提供的一种视频搜索方法的流程图，包括步骤202至步骤206。

参见图1a和1b，应用场景中包括终端和服务器，具体的，用户通过终端的视频搜索框向服务器发送输入的携带有针对目标视频的文本、图片和/或视频的多模态搜索数据，服务器在接收到该多模态搜索数据之后，通过数据分析模块对多模态搜索数据进行分析，获得可以实现索引搜索的分析结果，然后将该分析结果通过预先构建好的倒排索引以及向量索引形成的异构索引实现目标视频的搜索，并将该目标视频返回给终端，在终端页面上展示给用户，具体处理过程可参见图2a。

步骤202：接收用户输入的对目标视频的搜索请求，其中，所述搜索请求中携带有针对所述目标视频的多模态搜索数据。

其中，目标视频包括但不限于任何格式的自媒体短视频、电视剧集、新闻节目等；而用户输入的对目标视频的搜索请求可以是用户基于PC端或者是移动终端的视频搜索界面通过任意一种可实现搜索请求生成的方式实现，在此不做任何限定。例如，用户在PC端或者是移动终端的视频搜索界面输入多模态搜索数据后，点击搜索按钮生成的搜索请求；或者用户通过PC端或者是移动终端的视频搜索界面通过语音指令的方式录入多模态搜索数据后实现的搜索请求。

具体的，多模态搜索数据包括但不限于文字、图像以及视频等形态的搜索数据。

具体实施时，接收用户输入的对目标视频的搜索请求，可以理解为接收用户输入的携带有针对目标视频的多模态搜索数据的搜索请求；其中，该多模态搜索数据可以是一段文本、一张图像和/或一段视频。

步骤204：基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果。

其中，多模态搜索数据的形态不同，对多模态搜索数据进行处理的方式也不同。

具体的，在多模态搜索数据的形态为文本形态，即多模态搜索数据为文本数据的情况下，所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果具体包括：

所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果包括：

基于预设的文本算法对所述文本数据进行处理，得到所述文本数据的文本语意标签。

其中，预设的文本算法可以为任意一种可以实现对所述文本数据进行处理，以便理解文本数据中的语意，通过文本数据的语意为文本数据设置文本语意标签，例如预设的文本算法可以为NLP(Natural Language Processing)算法，实际使用中，将文本数据通过NLP算法处理后，理解出文本数据的语意，通过该文本数据的语意为文本数据设置合适的文本语意标签。

举例说明，若文本数据为“明星A在办公室喝咖啡”，通过预设的文本算法对所述文本数据进行处理后，以获得该文本数据的语意为：想要获得包含有明星A在办公室喝咖啡的目标视频，此时根据所述文本数据的语意为所述文本数据设置文本语意标签可以为：明星A+喝咖啡+办公室。

而在多模态搜索数据的形态为图像形态，即多模态搜索数据为图像数据的情况下，所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果具体包括：

基于预设的图像算法对所述图像数据进行处理，得到所述图像数据的图像语意标签；

基于预设的向量化模型对所述图像数据进行处理，得到所述图像数据的向量化描述。

其中，预设的图像算法可以为任意一种可以实现对所述图像数据进行处理，以处理结果对所述图像数据设置图像语意标签的算法，例如预设的图像算法可以为预先训练的图像识别模型，实际使用中，将图像数据输入该图像识别模型中即可识别出该图像数据中的人脸、动作、场景等等。

举例说明，图像数据包含的图像内容为“小C在操场打篮球”，通过图像识别模型对所述图像数据进行处理后，可以识别出该图像数据中的图像内容为人物：小C、动作：打篮球、场景：操场，此时基于所述图像数据的图像内容为所述图像数据的图像语意标签可以为：小C+打篮球+操场。

实际应用中，预设的向量化模型为机器学习模型，可以对输入的图像数据进行处理，以获得该图像数据的向量化描述，也可以理解为图像数据的向量化表示，即通过多维向量空间的一个点来表示一个图的特征。

因此，在多模态搜索数据为图像数据的情况下，基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果包括：图像数据的图像语意标签和图像数据的向量化描述。

而在具体实施时，多模态搜索数据可以为文本数据以及图像数据的结合，此种情况下，所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果具体包括：

基于预设的文本算法对所述文本数据进行处理，得到所述文本数据的文本语意标签；

基于预设的图像算法对所述图像数据进行处理，得到所述图像数据的图像语意标签；

基于预设的向量化模型对所述图像数据进行处理，得到所述图像数据的向量化描述。

即在多模态搜索数据为文本数据以及图像数据的结合的情况下，基于预设算法对所述多模态搜索数据进行处理，得到所述多模态搜索数据的处理结果包括：文本数据的文本语意标签、图像数据的图像语意标签和图像数据的向量化描述。

本说明书一个或多个实施例中，在多模态搜索数据为文本数据以及图像数据的结合的情况下，可以在对目标视频搜索时输入文本、图像等较多的搜索信息实现对该目标视频更为准确的搜索，以获得更好的目标视频搜索结果。

另一种情况下，所述多模态搜索数据包括视频数据，而在多模态搜索数据的形态为视频形态，即多模态搜索数据为视频数据的情况下，首先需要对视频数据进行拆分，然后分别对拆分后的视频数据进行处理，以得到该视频数据的处理结果；具体如下所述：

所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果之前，还包括：

将所述视频数据拆分为视频元数据和视频流数据，并基于预设的分割方式将所述视频流数据分割为视频帧序列。

其中，视频元数据包括但不限于视频的发布时间、作者、标题以及描述信息等；而视频流数据则为具体的视频内容。

具体的，将视频数据拆分为视频元数据和视频流数据之后，还要基于预设的分割方式将所述视频流数据分割为视频帧序列，其中，预设的分割方式可以基于实际需求进行设置，例如将视频流数据以每秒分割为一个视频帧的方式进行分割。实际应用中，将所述视频流数据分割为视频帧序列可以理解为通过解码与采样的方式将视频流数据转换为视频帧序列。

具体实施时，将视频数据拆分为视频元数据和视频流数据之后，分别对视频元数据和视频流数据进行处理，以得到视频数据的处理结果，具体实施方式如下：

基于所述文本算法对所述视频元数据进行处理，得到所述视频元数据的文本语意标签；

基于预设的视频算法对所述视频帧序列中的视频帧进行处理，得到所述视频帧的视频语意标签；

基于所述向量化模型对所述视频帧进行处理，得到所述视频帧的向量化描述。

实际应用中，由于视频元数据也属于文本数据，因此可采用上述文本算法对视频元数据进行处理，得到所述视频元数据的文本语意标签，其中，视频元数据的文本语意标签中包括但不限于人脸、动作以及场景等内容。

而预设的视频算法对视频帧序列中的视频帧进行处理，则是对通过视频解码与采样逻辑获得的视频帧序列中的视频帧经图像内容分析，产出每个视频帧的语意标签；其中，通过预设的视频算法可以为任意一种可以实现对所述视频帧进行处理，以得到所述视频帧的视频语意标签的算法，例如预设的视频算法可以为预先训练的图像识别模型，实际使用中，将视频帧输入该图像识别模型中即可识别出该视频帧的人脸、动作以及场景等，然后基于识别出的视频帧的内容为视频帧设置视频语意标签。

实际应用中，采用图像识别模型获得视频帧的内容或者是获得图像数据的内容的处理方式是不同的，由于图像数据为单独的图像，因此在采用图像识别模型获得图像数据的内容时，仅考虑该图像数据中的自身的图像特征即可，而视频帧是连续的，采用图像识别模型获得每个视频帧的内容时，均需要考虑该视频帧的前后两个视频帧的语意，以实现为每个视频帧设置合适的视频语意标签。

而预设的向量化模型为机器学习模型，可以对输入的视频帧进行处理，以获得每个视频帧的向量化描述，具体处理过程可参见向量化模型对图像数据的处理方式，在此不再赘述。

因此，在多模态搜索数据为视频数据的情况下，基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果包括：视频元数据的文本语意标签、视频帧的视频语意标签以及视频帧的向量化描述。

而在具体实施时，多模态搜索数据也可以为文本数据以及视频数据的结合，此种情况下，所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果具体包括：

基于预设的文本算法对所述文本数据进行处理，得到所述文本数据的文本语意标签；

基于所述文本算法对所述视频元数据进行处理，得到所述视频元数据的文本语意标签；

基于预设的视频算法对所述视频帧序列中的视频帧进行处理，得到所述视频帧的视频语意标签；

基于所述向量化模型对所述视频帧进行处理，得到所述视频帧的向量化描述。

即在多模态搜索数据为文本数据以及视频数据的结合的情况下，基于预设算法对所述多模态搜索数据进行处理，得到所述多模态搜索数据的处理结果包括：文本数据的文本语意标签、视频元数据的文本语意标签、视频帧的视频语意标签以及视频帧的向量化描述。

本说明书一个或多个实施例中，在多模态搜索数据为文本数据以及视频数据的结合的情况下，可以在对目标视频搜索时输入文本、视频等较多的搜索信息实现对该目标视频更为准确的搜索，以获得更为精确的目标视频搜索结果。

步骤206：将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频。

具体的，在多模态搜索数据为文本数据的情况下，将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频包括：

将所述文本数据的文本语意标签输入至对应的预先构建的倒排索引中，搜索得到所述目标视频。

其中，在将所述文本数据的文本语意标签输入至对应的预先构建的倒排索引中，搜索得到所述目标视频之前，还需要对所述文本数据的文本语意标签进行意图分析，然后将经过意图分析后的文本语意标签的分析结果输入至对应的预先构建的倒排索引中，搜索得到所述目标视频。

而在多模态搜索数据为图像数据的情况下，将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频包括：

将所述图像语意标签输入至对应的预先构建的倒排索引中，搜索得到第一初始视频；

将所述图像数据的向量化描述输入至对应的预先构建的向量索引中，搜索得到第二初始视频；

基于所述第一初始视频和所述第二初始视频获得所述目标视频。

具体的，所述索引的构建方法包括：

获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

其中，基于向量化模型对所述视频流数据进行处理，在得到视频流数据的向量化处理结果的同时，还可以得到该视频中音频数据的向量化处理结果，以实现后续可以基于音频数据进行目标视频的搜索。

具体的，倒排索引和向量索引构成异构搜索引擎，具体的异构搜索引擎的构建也可参见下述实施例；实际应用中，通过异构搜索引擎搜索得到目标视频获取，即为通过倒排索引获得第一初始视频，以及通过向量索引获得第二初始视频，再将第一初始视频和第二初始视频得到目标视频。

实际应用中，在将所述图像语意标签输入至对应的预先构建的倒排索引中，搜索得到第一初始视频之前，还需要对所述图像语意标签进行意图分析，然后将经过意图分析后的图像语意标签的分析结果输入至对应的预先构建的倒排索引中，搜索得到第一初始视频。

具体实施时，在多模态搜索数据为文本数据和图像数据的情况下，将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频包括：

将所述图像语意标签和所述文本数据的文本语意标签合并后，输入至对应的预先构建的倒排索引中，搜索得到第一初始视频；

将所述图像数据的向量化描述输入至对应的预先构建的向量索引中，搜索得到第二初始视频；

基于所述第一初始视频和所述第二初始视频获得所述目标视频。

实际应用中，第一初始视频为将所述图像语意标签和所述文本数据的文本语意标签合并后经过意图分析，然后将意图分析处理结果输入至对应的预先构建的倒排索引中，搜索得到的与目标视频的相似度较高的topN个视频，其中，N为正整数；

第二初始视频为将所述图像数据的向量化描述输入至对应的预先构建的向量索引中，搜索得到与目标视频的相似度较高的topM个视频，其中，M为正整数。

具体的，在获得第一初始视频和第二初始视频之后，基于第一初始视频和第二初始视频获得目标视频具体包括：

将所述第一初始视频和所述第二初始视频进行比较去重；

对去重后的第一初始视频和第二初始视频进行重新计算，以得到去重后的第一初始视频和第二初始视频的目标分值；

基于所述目标分值对去重后的第一初始视频和第二初始视频排序后获得所述目标视频。

举例说明，若第一初始视频包括视频A、视频B、视频C，第二初始视频包括视频A、视频D、视频E，基于所述第一初始视频和所述第二初始视频获得所述目标视频包括：

将所述第一初始视频和所述第二初始视频进行比较去重，得到视频A、视频B、视频C、视频D、视频E；

对去重后的视频A、视频B、视频C、视频D、视频E进行重新计算，以得到去重后的视频A、视频B、视频C、视频D、视频E的目标分值，例如视频A的目标分值为80％、视频B的目标分值为90％、视频C的目标分值为87％、视频D的目标分值为96％、视频E的目标分值为79％；

然后基于视频A、视频B、视频C、视频D、视频E的目标分值对其进行排序后，将排序后的视频D、视频B、视频C、视频A、视频E作为目标视频，实际应用中，还可以确定视频D的目标分值最高，因此也可以单独将视频D作为目标视频。

另一实施例中，在多模态搜索数据为视频数据的情况下，将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频包括：

将所述视频元数据的文本语意标签输入至对应的预先构建的倒排索引中，搜索得到第三初始视频；

将所述视频帧的向量化描述输入至对应的预先构建的向量索引中，搜索得到第四初始视频；

基于所述第三初始视频和所述第四初始视频获得所述目标视频。

其中，倒排索引和向量索引构成异构搜索引擎，通过倒排索引获得第三初始视频，同时通过向量索引获得第四初始视频，再将第三初始视频和第四初始视频得到目标视频。

实际应用中，在将所述视频元数据的文本语意标签输入至对应的预先构建的倒排索引中，搜索得到第三初始视频之前，还需要对所述视频元数据的文本语意标签进行意图分析，然后将经过意图分析后的视频元数据的文本语意标签的分析结果输入至对应的预先构建的倒排索引中，搜索得到第三初始视频。

具体实施时，在多模态搜索数据为文本数据和视频数据的情况下，将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频包括：

将所述视频元数据的文本语意标签和所述文本数据的文本语意标签合并后，输入至对应的预先构建的倒排索引中，搜索得到第三初始视频；

将所述视频帧的向量化描述输入至对应的预先构建的向量索引中，搜索得到第四初始视频；

基于所述第三初始视频和所述第四初始视频获得所述目标视频。

其中，将所述视频帧的向量化描述输入至对应的预先构建的向量索引中，搜索得到第四初始视频进行举例说明。

例如视频流数据分割为两个视频帧，将视频帧1的向量化描述输入至对应的预先构建的向量索引中，召回10个与视频帧1的相似度较高的视频帧，将视频帧2的向量化描述输入至对应的预先构建的向量索引中，召回10个与视频帧2相似度较高的视频帧，然后根据这20个视频帧确定该20个视频来自15个视频，此时可以基于这15个视频的置信度对这15个视频进行排序，而视频的置信度基于视频帧1和视频帧2得到，例如将这15个视频中既包括视频帧1又包括视频帧2的视频，且视频帧1和视频帧2在视频中连续的视频的置信度设置的较高，将这15个视频中只包括视频帧1或视频帧2的视频的置信度设置的较低等，其中，排序后的15个视频则为第四初始视频。

实际应用中，第三初始视频为将所述视频元数据的文本语意标签和所述文本数据的文本语意标签合并后经过意图分析，然后将意图分析处理结果输入至对应的预先构建的倒排索引中，搜索得到的与目标视频的相似度较高的topE个视频，其中，E为正整数；

第四初始视频为将所述视频帧的向量化描述输入至对应的预先构建的向量索引中，搜索得到与目标视频的相似度较高的topF个视频，其中，F为正整数。

具体的，在获得第三初始视频和第四初始视频之后，基于第三初始视频和第四初始视频获得目标视频具体包括：

将所述第三初始视频和所述第四初始视频进行比较去重；

对去重后的第三初始视频和第四初始视频进行重新计算，以得到去重后的第三初始视频和第四初始视频的目标分值；

基于所述目标分值对去重后的第三初始视频和第四初始视频排序后获得所述目标视频。

实际应用中，基于第三初始视频和第四初始视频获得目标视频的具体描述可以参见上述实施例中基于第一初始视频和第二初始视频获得目标视频的方式，在此不再赘述。

本说明书实施例中，所述视频搜索方法基于视频理解技术以及异构搜索引擎的使用，使得搜索引擎查询的模态得到了扩展，在进行目标视频搜索时，不仅可以输入文本数据，还可以输入图像数据或视频数据等实现对目标视频的检索，从而得到更多、更精确的目标视频搜索效果。

参见图3，图3示出了根据本说明书一个实施例提供的一种视频搜索方法的具体处理过程流程示意图。

召回逻辑一：当输入的搜索请求中携带的多模态搜索数据包括文本数据，将该文本数据通过自然语言处理进行文本内容分析，产出文本语意标签，然后将文本语意标签经query意图分析模块处理，根据处理结果查询倒排索引后，产出倒排索引召回结果；

召回逻辑二：当输入的搜索请求中携带的多模态搜索数据包括图像数据，首先对该图像数据通过图像识别模型进行图像内容分析，产出图像语意标签，然后将图像语意标签经query意图分析模块处理，根据处理结果查询倒排索引后，产出倒排索引召回结果；

召回逻辑三：当输入的搜索请求中携带的多模态搜索数据包括文本数据和图像数据，首先将该文本数据通过自然语言处理进行文本内容分析，产出文本语意标签；再对该图像数据通过图像识别模型进行图像内容分析，产出图像语意标签，然后将文本语意标签和图像语意标签合并后，经query意图分析模块处理，根据处理结果查询倒排索引后，产出倒排索引召回结果；

召回逻辑四：当输入的搜索请求中携带的多模态搜索数据包括视频数据，首先将视频数据拆分为视频元数据(对视频元数据的处理逻辑可参见图2中对文本数据的处理逻辑)以及视频流数据，通过视频流数据的解码与采样逻辑将视频流数据转化成视频帧序列，对每个视频帧经图像内容分析，产出视频语意标签，然后将视频语意标签经query意图分析模块处理，查询倒排索引后产出倒排索引召回结果；同时会将视频帧序列中的视频帧通过向量化模型向量化，经过向量搜索+时序校验的方式产出向量索引召回结果，其中，时序校验即是每个视频帧在向量索引召回结果中的排列顺序；

召回逻辑五：当输入的搜索请求中携带的多模态搜索数据包括文本数据和视频数据，将该文本数据通过自然语言处理进行文本内容分析，产出文本语意标签；

将视频数据拆分为视频元数据(对视频元数据的处理逻辑可参见图2中对文本数据的处理逻辑)以及视频流数据，将视频元数据通过自然语言处理进行文本内容分析，产出文本语意标签；

通过视频流数据的解码与采样逻辑将视频流数据转化成视频帧序列，对每个视频帧经图像内容分析，产出视频语意标签；

然后将两个文本语意标签和视频语意标签合并后，经query意图分析模块处理，查询倒排索引后产出倒排索引召回结果；同时会将视频帧序列中的视频帧通过向量化模型向量化，经过向量搜索+时序校验的方式产出向量索引召回结果，其中，时序校验即是每个视频帧在向量索引召回结果中的排列顺序；

最后将倒排索引召回结果和向量化索引召回结果通过精排逻辑重新排列后，输出针对目标视频的搜索结果。

实际应用中，在预先构建的异构索引可以实现音频搜索的情况下，所述视频搜索方法还可以基于音频数据实现对目标视频的搜索，在此不做任何限定。

本说明书实施例中，所述视频搜索方法支持多模态搜索请求，不仅支持文本数据、图像数据、视频数据三个模态的单独输入，并且支持文本数据和图像数据、文本数据和视频数据的复合输入，可以达到更好的目标视频搜索效果，并且极大程度的满足了用户可以依据多模态搜索数据通过异构搜索引擎获取更多更精确的目标视频，提升用户体验。

图2b示出了根据本说明书一个实施例提供的一种视频搜索方法的流程图，包括步骤2002至步骤2006。

步骤2002：接收用户输入的多模态搜索数据，其中，所述多模态搜索数据包括文本数据、图像数据、视频数据和/或音频数据。

其中，所述多模态搜索数据可以为单独的文本数据、图像数据、视频数据或音频数据，也可是文本数据、图像数据、视频数据和音频数据的任意两者、三者或四者的结合。

步骤2004：基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果。

具体的，所述基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果包括：

基于预设算法对所述多模态搜索数据进行处理，获取所述多模态搜索数据的数据标签；

相应的，所述将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到与所述多模态搜索数据关联的目标视频包括：

将所述多模态搜索数据的数据标签输入至对应的预先构建的索引中，搜索得到与所述多模态搜索数据关联的目标视频。

实际应用中，基于预设算法对所述多模态搜索数据进行处理，获取所述多模态搜索数据的数据标签的具体处理过程可以参见上述实施例中基于预设的文本算法、图像算法以及视频算法等对多模态搜索数据进行处理，获得文本语意标签、图像语意标签以及视频语意标签的方式，在此不再赘述。

而对于音频数据的处理，可以先将音频数据转换为文本数据后，参照文本数据的处理方式，也可以是基于音频中的声波、声纹等对音频数据进行特征提取，以实现为音频数据增加音频语意标签，以实现后续在预先构建的索引中实现搜索过程。

步骤2006：将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到与所述多模态搜索数据关联的目标视频。

本说明书另一实施例中，所述索引的构建方法包括：

获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

此外，基于向量化模型对所述视频流数据进行处理，在得到视频流数据的向量化处理结果的同时，可以得到该视频中音频数据的向量化处理结果，以实现后续可以基于音频数据进行目标视频的搜索。

具体实施时，所述多模态搜索数据的数据标签输入至对应的支持文本、图像、视频和音频搜索的异构索引(倒排索引和向量索引构成异构索引)中，搜索得到与该多模态搜索数据关联的目标视频。

其中，所述目标视频即为多模态数据关联的相似度较高的一个或多个视频，例如多模态搜索数据为：文本数据：某个电视剧中的主演a，音频：该主演a的声音，将该多模态搜索数据输入对应的预先构建的异构索引中，搜索得到则是与所述多模态搜索数据关联的包含主演a的一个或多个目标视频。

此外，若输入的文本数据非明确的目标的情况下，还需要针对文本数据进行语意分析之后，基于分析后的文本语意内容做二级检索，以实现通过异构索引搜索得到与输入的文本数据关联的目标视频。例如用户输入的是某电视剧的某剧集的剧情，实际应用中，则需要先基于输入的剧情通过一级索引实现对对应的电视剧剧名的检索，然后基于检索得到的电视剧剧名通过二级检索实现对与该电视剧剧集关联的一个或多个目标视频。

本说明书实施例中，所述视频搜索方法通过用户输入的多模态搜索数据，基于预先构建的异构索引获得与该多模态搜索数据关联的一个或多个目标视频，实现批量的相关联的视频搜索，使得用户可以获得一个或多个与多模态搜索数据相似度较高的相关联视频，得到模糊搜索的准确结果，以增强用户体验。

参见图4和图5，图4示出了根据本说明书一个实施例提供的一种索引构建方法的流程图，包括步骤402至步骤408，而图5示出了本说明书一个实施例提供的一种索引构建方法的处理过程流程图。

步骤402：获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据。

其中，视频数据包括但不限于任何格式的自媒体短视频、电视剧集、新闻节目等。

参见图5，将视频数据拆分为视频元数据和视频流数据，其中，视频元数据包括但不限于视频的发布时间、发布用户、视频标题以及描述等；而视频流数据则为具体的视频内容。

步骤404：基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果。

具体的，所述基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果包括：

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本语意标签。

具体实施时，基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果可以参见上述实施例，在此不再赘述。

参见图5，根据所述视频元数据的意图为所述视频元数据设置包括人脸、动作以及场景等内容的文本语意标签。

步骤406：基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果。

具体实施时，所述基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本语意标签之前，还包括：

基于预设的分割方式将所述视频流数据分割为视频帧序列。

参见图5，图5中对视频流数据进行解码与采样后将视频流数据转换为视频帧1、视频帧2...视频帧n。

而基于预设的分割方式将所述视频流数据分割为视频帧序列的具体方式可参见上述实施例中将视频流数据分割为视频帧序列的方式，在此不再赘述。

此外，在将所述视频流数据分割为视频帧序列之后，所述基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果具体包括：

基于预设的视频算法对所述视频帧序列中的视频帧进行处理，得到所述视频帧的视频语意标签；

基于预设的向量化模型对所述视频帧进行处理，得到所述视频帧的向量化描述。

其中，预设的视频算法以及预设的向量化模型对视频帧的具体处理方式可参见上述实施例；具体的，参见图5，在预设的视频算法为预先训练的图像识别模型的情况下，通过图像识别模型对视频帧1至视频帧n分别进行处理，以获得视频帧1至视频帧n中每个视频帧的意图，并根据每个视频帧的意图以及其前后视频帧的语意为视频帧1至视频帧n中每个视频帧设置包括人脸、动作以及场景等内容的视频语意标签，以及通过向量化模型对视频帧1至视频帧n中每个视频帧进行处理，以获得视频帧1至视频帧n中每个视频帧的向量化表示。

步骤408：根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

具体的，在得到对视频元数据以及视频流数据的处理结果之后，可以根据处理结果实现索引构建。

具体实施时，所述根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引包括：

根据所述文本语意标签以及所述视频语意标签构建倒排索引，且根据所述向量化描述构建向量索引。

具体构建向量索引时，参见图5，将视频元数据的文本语意标签以及视频帧1至视频帧n中每个视频帧的视频语意标签放入倒排索引，实现倒排索引的构建，具体应用时，可以将构建好的倒排索引用于文本搜索；将视频帧1至视频帧n中每个视频帧的向量化描述放入向量索引，实现向量化索引的构建，具体应用时，可以将构建好的向量索引用于视频帧以及图像特征的搜索，而构建的倒排索引以及向量索引形成了异构搜索引擎，使得该搜索引擎在后续进行检索功能时，不仅可以基于文本数据进行检索，还可以基于图像以及视频数据进行检索。

本说明书实施例中，所述索引构建方法通过将每个进入索引库的视频数据拆分为视频元数据以及视频流数据，然后将视频元数据经过自然语言算法处理后进入倒排索引，以及将视频流数据通过解码与采样转换成视频帧，使得视频帧经过视频理解算法后得到视频帧中的人脸、场景以及动作等标签信息，再将这部分语意化的标签信息放入倒排索引，实现倒排索引的构建；此外，通过向量化模型对视频帧进行处理后，将得到的视频帧的向量化描述放入向量索引，以便后续可以用于视频内容的向量化搜索，实现向量索引的构建；最后根据构建的倒排索引和向量索引形成异构搜索引擎，使得在多模态视频搜索系统中，用户使用该异构搜索引擎不仅可以输入文本，同时还可以输入图像与视频达到对目标视频的更精确的检索。

与上述方法实施例相对应，本说明书还提供了视频搜索装置实施例，图6a示出了本说明书一个实施例提供的一种视频搜索装置的结构示意图。如图6a所示，该装置包括：

搜索请求接收模块602，被配置为接收用户输入的对目标视频的搜索请求，其中，所述搜索请求中携带有针对所述目标视频的多模态搜索数据；

多模态搜索数据处理模块604，被配置为基于预设算法对所述多模态搜索数据进行处理，得到所述多模态搜索数据的处理结果；

目标视频搜索模块606，被配置为将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频。

可选的，所述多模态搜索数据包括文本数据；

所述多模态搜索数据处理模块604，进一步被配置为：

基于预设的文本算法对所述文本数据进行处理，得到所述文本数据的文本语意标签。

可选的，所述多模态搜索数据包括图像数据；

所述多模态搜索数据处理模块604，进一步被配置为：

基于预设的图像算法对所述图像数据进行处理，得到所述图像数据的图像语意标签；

基于预设的向量化模型对所述图像数据进行处理，得到所述图像数据的向量化描述。

可选的，所述多模态搜索数据包括视频数据；

所述装置，还包括：

分割模块，被配置为将所述视频数据拆分为视频元数据和视频流数据，并基于预设的分割方式将所述视频流数据分割为视频帧序列。

可选的，所述多模态搜索数据处理模块604，进一步被配置为：

基于所述文本算法对所述视频元数据进行处理，得到所述视频元数据的文本语意标签；

基于预设的视频算法对所述视频帧序列中的视频帧进行处理，得到所述视频帧的视频语意标签；

基于所述向量化模型对所述视频帧进行处理，得到所述视频帧的向量化描述。

可选的，所述目标视频搜索模块606，进一步被配置为：

将所述文本数据的文本语意标签输入至对应的预先构建的倒排索引中，搜索得到所述目标视频。

可选的，所述目标视频搜索模块606，进一步被配置为：

将所述图像语意标签输入至对应的预先构建的倒排索引中，搜索得到第一初始视频；

将所述图像数据的向量化描述输入至对应的预先构建的向量索引中，搜索得到第二初始视频；

基于所述第一初始视频和所述第二初始视频获得所述目标视频。

可选的，所述目标视频搜索模块606，进一步被配置为：

将所述视频元数据的文本语意标签输入至对应的预先构建的倒排索引中，搜索得到第三初始视频；

将所述视频帧的向量化描述输入至对应的预先构建的向量索引中，搜索得到第四初始视频；

基于所述第三初始视频和所述第四初始视频获得所述目标视频。

可选的，所述目标视频搜索模块606包括：

第一合并子模块，被配置为将所述图像语意标签和所述文本数据的文本语意标签合并后，输入至对应的预先构建的倒排索引中，搜索得到第一初始视频。

可选的，所述目标视频搜索模块606包括：

第二合并子模块，被配置为将所述视频元数据的文本语意标签、所述文本数据的文本语意标签以及所述视频帧的视频语意标签合并后，输入至对应的预先构建的倒排索引中，搜索得到第三初始视频。

可选的，所述目标视频搜索模块606，进一步被配置为：

将所述第一初始视频和所述第二初始视频进行比较去重；

对去重后的第一初始视频和第二初始视频进行重新计算，以得到去重后的第一初始视频和第二初始视频的目标分值；

基于所述目标分值对去重后的第一初始视频和第二初始视频排序后获得所述目标视频。

可选的，所述目标视频搜索模块606，进一步被配置为：

将所述第三初始视频和所述第四初始视频进行比较去重；

对去重后的第三初始视频和第四初始视频进行重新计算，以得到去重后的第三初始视频和第四初始视频的目标分值；

基于所述目标分值对去重后的第三初始视频和第四初始视频排序后获得所述目标视频。

可选的，所述索引的构建方法包括：

获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

上述为本实施例的一种视频搜索装置的示意性方案。需要说明的是，该视频搜索装置的技术方案与上述的视频搜索方法的技术方案属于同一构思，视频搜索装置的技术方案未详细描述的细节内容，均可以参见上述视频搜索方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了视频搜索装置实施例，图6b示出了本说明书一个实施例提供的一种视频搜索装置的结构示意图。如图6b所示，该装置包括：

搜索数据接收模块6002，被配置为接收用户输入的多模态搜索数据，其中，所述多模态搜索数据包括文本数据、图像数据、视频数据和/或音频数据；

数据处理结果获取模块6004，被配置为基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果；

关联视频获取模块6006，被配置为将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到与所述多模态搜索数据关联的目标视频。

可选的，所述数据处理结果获取模块6004，进一步被配置为：

基于预设算法对所述多模态搜索数据进行处理，获取所述多模态搜索数据的数据标签；

相应的，所述关联视频获取模块6006，进一步被配置为：

将所述多模态搜索数据的数据标签输入至对应的预先构建的索引中，搜索得到与所述多模态搜索数据关联的目标视频。

可选的，所述索引的构建方法包括：

获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

与上述方法实施例相对应，本说明书还提供了索引构建装置实施例，图7示出了本说明书一个实施例提供的一种索引构建装置的结构示意图。如图7所示，该装置包括：

视频数据获取模块702，被配置为获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

视频元处理模块704，被配置为基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

视频流处理模块706，被配置为基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

异构索引构建模块708，被配置为根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

可选的，所述视频元处理模块704，进一步被配置为：

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本语意标签。

可选的，所述装置，还包括：视频分割模块，被配置为基于预设的分割方式将所述视频流数据分割为视频帧序列。

可选的，所述视频流处理模块706，进一步被配置为：

基于预设的视频算法对所述视频帧序列中的视频帧进行处理，得到所述视频帧的视频语意标签；

基于预设的向量化模型对所述视频帧进行处理，得到所述视频帧的向量化描述。

可选的，所述异构索引构建模块708，进一步被配置为：

根据所述文本语意标签以及所述视频语意标签构建倒排索引，且根据所述向量化描述构建向量索引。

上述为本实施例的一种索引构建装置的示意性方案。需要说明的是，该索引构建装置的技术方案与上述的索引构建方法的技术方案属于同一构思，索引构建装置的技术方案未详细描述的细节内容，均可以参见上述索引构建方法的技术方案的描述。

图8示出了根据本说明书一个实施例提供的第一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令：

接收用户输入的对目标视频的搜索请求，其中，所述搜索请求中携带有针对所述目标视频的多模态搜索数据；

基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果；

将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到所述目标视频。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频搜索方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频搜索方法的技术方案的描述。

图9示出了根据本说明书一个实施例提供的第二种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。

其中，处理器920用于执行如下计算机可执行指令：

接收用户输入的多模态搜索数据，其中，所述多模态搜索数据包括文本数据、图像数据、视频数据和/或音频数据；

基于所述多模态搜索数据，获取所述多模态搜索数据的处理结果；

将所述多模态搜索数据的处理结果输入至对应的预先构建的索引中，搜索得到与所述多模态搜索数据关联的目标视频。

图10示出了根据本说明书一个实施例提供的第三种计算设备1000的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接，数据库1050用于保存数据。

计算设备1000还包括接入设备1040，接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图10所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1000可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。

其中，处理器1020用于执行如下计算机可执行指令：

获取视频数据，并将所述视频数据拆分为视频元数据和视频流数据；

基于预设的文本算法对所述视频元数据进行处理，得到所述视频元数据的文本处理结果；

基于预设的视频算法以及向量化模型分别对所述视频流数据进行处理，得到所述视频流数据的视频处理结果以及向量化处理结果；

根据所述文本处理结果以及所述视频处理结果构建倒排索引，且根据所述向量化处理结果构建向量索引。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的索引构建方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述索引构建方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述视频搜索方法或者实现所述索引构建方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的所述视频搜索方法或所述索引构建方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述所述视频搜索方法或者所述索引构建方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：吕逸良;唐铭谦;韩振;潘玉霖;
专利申请人：阿里巴巴集团控股有限公司;

上一篇：基于磺化埃洛石纳米管的钻井液用页岩地层纳微米封堵剂及制备方法
下一篇：数据处理方法及装置、视频处理方法及装置