掌桥专利:专业的专利平台
掌桥专利
首页

视频关键词的处理方法及装置

文献发布时间:2023-06-19 11:39:06


视频关键词的处理方法及装置

技术领域

本发明涉及计算机技术领域,具体涉及一种视频关键词的处理方法及装置。

背景技术

现如今,互联网行业发展如火如荼,各式各样的互联网产品已渗透到当代社会经济生活的各个领域,为人们日常工作、学习和生活提供了极大便利。随着互联网的迅猛发展,网络内容极大丰富,催生了各类视频集合平台,视频平台结合了大量的视频资源,但在使用时却造成了人们对目标视频搜寻的困难。现有技术中,通过视频标题,视频分类等简单方式对视频进行检索,用户主要是通过标题关键词和视频分类对需要的目标视频进行分类。

但是,发明人在实现本发明的过程中发现现有技术至少存在以下不足:但是,面对海量的视频,特别是许多类似的视频,视频标题和视频分类往往无法准确地表达视频的关键信息,就很难通过视频标题、视频分类让用户进行较为精准的检索,比如JAVA开发的培训视频,由于不同的培训机构,不同的讲师,讲解的知识点有所侧重,基于现有技术,通过标题、分类搜索很难将他们进行区分,用户搜索标题或者分类很难找到合适的视频。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频关键词的处理方法及装置。

根据本发明的一个方面,提供了一种视频关键词的处理方法,包括:

将视频进行转换处理,得到至少一个视频帧图像;

对至少一个视频帧图像的字幕区域进行文字识别处理,得到至少一个视频帧图像所包含的字幕文本;

对字幕文本进行分词处理,得到至少一个文本词条;

根据至少一个文本词条的位置属性信息及其词频信息,确定至少一个文本词条的排序权重;

根据至少一个文本词条的排序权重,从至少一个文本词条中筛选出至少一个目标词条,并将至少一个目标词条作为视频的关键词存入数据库中。

可选地,根据至少一个文本词条的排序权重,从至少一个文本词条中筛选出至少一个目标词条具体包括:

按照排序权重的高低对至少一个文本词条进行排序,筛选出其排序位于前N位的文本词条作为目标词条,其中,N不小于1。

可选地,根据至少一个文本词条的排序权重,从至少一个文本词条中筛选出至少一个目标词条进一步包括:

根据至少一个文本词条的排序权重,筛选出其排序权重大于预设阈值的文本词条作为目标词条。

可选地,方法执行之前,进一步包括:

构建图像文字集合,根据图像文字集合构建文字识别模型;

对至少一个视频帧图像的字幕区域进行文字识别处理,得到至少一个视频帧图像所包含的字幕文本具体包括:

基于文字识别模型,识别至少一个视频帧图像的字幕区域所包含的字幕文本。

可选地,构建图像文字集合具体包括:

根据至少一个字体的字体文件,利用文字生成函数,生成至少一个字体的图像文字。

根据本发明的另一方面,提供了一种视频关键词的处理装置,包括:

转换处理模块,适于将视频进行转换处理,得到至少一个视频帧图像;

识别处理模块,适于对至少一个视频帧图像的字幕区域进行文字识别处理,得到至少一个视频帧图像所包含的字幕文本;

分词处理模块,适于对字幕文本进行分词处理,得到至少一个文本词条;

筛选模块,适于根据至少一个文本词条的位置属性信息及其词频信息,确定至少一个文本词条的排序权重;根据至少一个文本词条的排序权重,从至少一个文本词条中筛选出至少一个目标词条,并将至少一个目标词条作为视频的关键词存入数据库中。

可选地,筛选模块进一步适于:

筛选模块进一步适于:按照排序权重的高低对至少一个文本词条进行排序,筛选出其排序位于前N位的文本词条作为目标词条,其中,N不小于1。

可选地,筛选模块进一步适于:

根据至少一个文本词条的排序权重,筛选出其排序权重大于预设阈值的文本词条作为目标词条。

可选地,装置进一步包括:

模型构建模块,适于构建图像文字集合,根据图像文字集合构建文字识别模型;

则识别处理模块进一步适于:基于文字识别模型,识别至少一个视频帧图像的字幕区域所包含的字幕文本。

可选地,模型构建模块进一步适于:

根据至少一个字体的字体文件,利用文字生成函数,生成至少一个字体的图像文字。

根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述视频关键词的处理方法对应的操作。

根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述视频关键词的处理方法对应的操作。

根据本发明的提供的视频关键词的处理方法及装置,将视频进行转换处理,得到至少一个视频帧图像;对至少一个视频帧图像的字幕区域进行文字识别处理,得到至少一个视频帧图像所包含的字幕文本;对字幕文本进行分词处理,得到至少一个文本词条;根据至少一个文本词条的位置属性信息及其词频信息,确定至少一个文本词条的排序权重;根据至少一个文本词条的排序权重,从至少一个文本词条中筛选出至少一个目标词条,并将至少一个目标词条作为视频的关键词存入数据库中。通过这种方式,抽取字幕进行语义分析、分词,筛选出关键词提供给用户进行检索查询,相当于是从视频的字幕中提取了视频的关键词,提升了视频关键词的精准度,并且丰富了视频的关键词,并且使得用户能够通过更精准的关键词搜索到视频,能够解决现有技术通过简单的视频标题或者视频分类导致的搜索不精准的问题,有助于提升视频搜索的准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的视频关键词的处理方法的流程图;

图2示出了本发明另一实施例提供的视频关键词的处理方法的流程图;

图3示出了本发明一个实施例中模型训练过程中数据流图的示意图;

图4示出了本发明实施例提供的视频关键词的处理装置的结构图;

图5示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

为视频设置关键词有助于提升视频检索的精准性,现有的解决方式是通过人工总结的方式提取关键词,但是需要消耗大量的人力物力,且观看视频的人能力高低不一,总结的关键字也存在不准确的问题。基于此,本发明实施例提出了一种从视频的字幕中提取视频关键词的方法。

图1示出了本发明实施例提供的视频关键词的处理方法的流程图,如图1所示,该方法包括以下步骤:

步骤S101,将视频进行转换处理,得到至少一个视频帧图像。

视频是连续的图片,由一帧一帧的图片构成。例如,常见的视频为每秒25帧,对视频进行转换,可以将视频分成每秒25张的视频帧图像。

步骤S102,对至少一个视频帧图像的字幕区域进行文字识别处理,得到至少一个视频帧图像所包含的字幕文本。

为了帮助用户理解,视频都添加了字幕,对视频帧图像的字幕区域进行文字识别处理,得到视频帧图像所包含的字幕文本。通常情况下,字幕区域位于视频帧图像的下方。通过这种方式,能够获取到视频的字幕文字。

步骤S103,对字幕文本进行分词处理,得到至少一个文本词条。

对字幕文本进行分词,得到多个文本词条。

步骤S104,根据至少一个文本词条的位置属性信息及其词频信息,确定至少一个文本词条的排序权重。

词条在文本中的位置不同,对于文本主题意义贡献的重要性不同,因此有必要根据词条在文本中的位置进行权重分配。同时,词条的在字幕文本中的词频也能够表征词条的重要性,词条的词频越高,表明该词条越能表征视频的主题,基于此,本实施例的方法中,根据文本词条根据位置属性以及词频进行权重分配。

具体地,设定字幕标题的位置权重设置为第一权重,设定字幕正文的位置权重设置为第二权重。文本词条的排序权重根据文本词条的位置权重及其词频确定,例如,文本词条的排序权重等于其位置权重与词频的乘积。

步骤S105,根据至少一个文本词条的排序权重,从至少一个文本词条中筛选出至少一个目标词条,将至少一个目标词条作为视频的关键词存入数据库中。

确定了每个文本词条的排序权重之后,从文本词条中筛选出至少一个目标词条作为视频的关键词,并将视频的关键词存入数据库中,例如,可以筛选排序在前N位的词条作为目标词条。

其中,视频的关键词也就是视频的索引词,从提取出来的文本词条中,筛选出至少一个目标词条作为视频的关键,并将关键词存入数据库中,那么,用户就可以采用更加精准的搜索词搜索到更加精准的视频,在后续过程中,也能够形成知识图谱对用户进行智能推荐。

根据本发明实施例所提供的视频关键词的处理方法,该方法通过将视频转换图像,识别图像中的字幕文本,对字幕文本进行分词得到多个词条,从提取的多个词条中筛选出一部分词条作为视频的关键词,并存在数据库中。通过这种方式,抽取字幕进行语义分析、分词,筛选出关键词提供给用户进行检索查询,相当于是从视频的字幕中提取了视频的关键词,提升了视频关键词的精准度,并且丰富了视频的关键词,并且使得用户能够通过更精准的关键词搜索到视频,能够解决现有技术通过简单的视频标题或者视频分类导致的搜索不精准的问题,有助于提升视频搜索的准确性。

图2示出了本发明另一实施例提供的视频关键词的处理方法的流程图,如图2所示,该方法包括以下步骤:

步骤S201,构建图像文字集合,根据图像文字集合构建文字识别模型。

本实施例中,图像文字识别采取的是OCR(Optical Character Recognition,光学字符识别)方式,OCR图像文字识别的核心为单字识别,计算机识别文字,需要先将文字的特征等信息存储到计算机内,因此要实现图像的文字识别,首先需要构建一个图像文字集合。

本发明实施例中,构建图像文字集合包括以下步骤:

(1)生成记录有汉字与label的对应表。例如,以GB2312-80国标的常用一级字作为依据,约3755个常用汉字。采用pickel模块生成映射表,其中,映射表记录了ID与汉字之间的映射关系,然后,将映射表进行存储。

(2)收集字体文件。例如,收集使用了10种汉字字体作为汉字数据集用到的字体。

(3)生成字体图像,并存储在规定的目录下。首先是定义好输入参数,其中包括输出目录、字体目录、测试集大小、图像尺寸、图像旋转幅度等等。将第一步得到的一个映射表读入内存,因为这个表表示的是ID到汉字的映射,对其进行转换,改成汉字到ID的映射,用于后面的字体生成。字体图像的生成使用的工具是PIL,利用PIL里面的汉字生成函数结合前面的字体文件,就可以生成数字化的汉字了。

(4)数据增强处理,通过数据增加处理以增加文字的识别率,具体包括:文字扭曲、背景噪声(椒盐)、文字位置(设置文字的中心点)、笔画粘连(膨胀来模拟)、笔画断裂(腐蚀来模拟)、文字倾斜(文字旋转)、多种字体等。

最终生成了对应于每一个汉字的图像集合文件。本发明实施例中,一个文字对应有多个图像文字,并且同一个文字的图像文字存储在同一个图像文件内。

本发明实施例中,图像文字生成代码流程如下:(1)设定背景、字体的颜色和尺寸,以及使用的字体文件,(2)字体生成,(3)转换为np array,(4)找字体的最小包围矩形,(4)调整图像文字,(5)返回生成的图像。

构建图像文字集合完成之后,基于深度学习技术构建文字识别模型,具体地:首先是搭建网络。文字识别就是一个多分类任务,3755文字识别就是3755个类别的分类任务。在本发明一种可选的实施方式中,用深度学习做文字识别,定义的网络使用了比较简单的LeNet的改进版,损失函数选择sparse_softmax_cross_entropy_with_logits,优化器选择了Adam,学习率设为0.1。

其次是模型训练。需设计好数据怎么样才能高效地喂给网络训练。创建数据流图,这个数据流图由一些流水线的阶段组成,阶段间用队列连接在一起。图3示出了本发明一个实施例中模型训练过程中数据流图的示意图,如图3所示,第一阶段将生成文件名(Filenames),读取这些文件名并且把他们排到(RandomShuffle)文件名队列(FilenameQueue)中。第二阶段使用Reader从文件中读取数据,进行解码(Decoder)产生样本,而且把样本放在一个样本队列(ExampleQueue)中。根据设置,实际上也可以拷贝第二阶段的样本,使得他们相互独立,这样就可以从多个文件中并行读取。在第二阶段的最后是一个排队操作,就是入队到队列中去,在下一阶段出队。因为是要开始运行这些入队操作的线程,所以训练循环会使得样本队列中的样本不断地出队。

入队操作都在主线程中进行,Session中可以多个线程一起运行。在数据输入的应用场景中,入队操作是从硬盘中读取输入,放到内存当中,速度较慢。使用QueueRunner可以创建一系列新的线程进行入队操作,让主线程继续使用数据。如果在训练神经网络的场景中,就是训练网络和读取数据是异步的,主线程在训练网络,另一个线程在将数据从硬盘读入内存。

步骤S202,将视频进行转换处理,得到至少一个视频帧图像。

以下为视频转换处理的代码:

步骤S203,基于文字识别模型,识别至少一个视频帧图像的字幕区域所包含的字幕文本。

基于上述步骤S201所构建的文字识别模型,识别出每一个视频帧图像的字幕区域所包含的字幕文本。

步骤S204,对字幕文本进行分词处理,得到至少一个文本词条。

首先采用分词工具HanLP对文本进行分词,分词工具HanLP是开源的工具包。可选地,分词处理完成之后,对分词处理结果进行过滤处理,过滤掉一些停用词,停用词具体指的是不能反映主题的功能词,例如,比如“的”、“地”、“得”、“然而”、“因此”等。它们不能反映文本的主题,而且还会对关键词的抽取造成干扰,有必要将其滤除。

步骤S205,根据至少一个文本词条的位置属性信息及其词频信息,确定至少一个文本词条的排序权重。

词条在文本中的位置不同,对于文本主题意义贡献的重要性不同,因此有必要根据词条在文本中的位置进行权重分配。同时,词条的在字幕文本中的词频也能够表征词条的重要性,词条的词频越高,表明该词条越能表征视频的主题,基于此,本实施例的方法中,根据文本词条根据位置属性以及词频进行权重分配。

具体地,设定字幕标题的位置权重设置为第一权重,设定字幕正文的位置权重设置为第二权重。文本词条的排序权重根据文本词条的位置权重及其词频确定,例如,文本词条的排序权重等于其位置权重与词频的乘积。

举例来说,设定标题的位置权重为5,字幕正文为1。确定了文本各个部分的位置权重之后,就用数字标签对每个位置做一个标记。当逐词扫描统计词频时,同时记录每个词条的位置信息。这样就可以确定本文中每个词条对整个文本的贡献度。具体的计算公式如下:

W=n*w

其中,W是文本词条排序权重,也即在字幕文本中的总体权重;w是每个词条在字幕文本中的位置权重,其中,标题位置权重为5,字幕正文为1;n为词频,指的是文本词条在字幕文本中出现的次数。

步骤S206,按照排序权重的高低对至少一个文本词条进行排序,筛选出其排序位于前N位的文本词条作为目标词条,其中,N不小于1。

确定了每个文本词条的排序权重之后,从文本词条中筛选出至少一个目标词条作为视频的关键词,并将视频的关键词存入数据库中。

具体地,按照排序权重的高低对至少一个文本词条进行排序,筛选出其排序位于前N位的文本词条作为目标词条,其中,N不小于1。按照排序权重进行排序,取前N个结果作为视频的关键词,具体实施时,可以提取前15个文本词条作为视频的关键词。

除此之外,还可以根据至少一个文本词条的排序权重,筛选出其排序权重大于预设阈值的文本词条作为目标词条。设定一个权重阈值,取排序权重大于该权重阈值的文本词条作为视频的关键词。

由此可见,本发明实施例的方法将机器深度学习应用于视频的字幕提取,将提取的字幕文本进行分词和词义分析,并根据词条出现的位置和出现的词频计算词条的排序权重,根据权重形成词条排行,选取出视频的关键词,实现视频重要关键词的提取,通过抽取视频的字幕内容,能够提升字幕关键词的精准性,使得用户可以通过更加精准的关键词查找到视频,提升了视频搜索的精准性,基于视频关键词也可以为建设精准的知识图谱提供基础数据,实现为用户进行精准内容推荐。

图4示出了本发明实施例提供的视频关键词的处理装置的结构图,如图4所示,该装置包括:

转换处理模块41,适于将视频进行转换处理,得到至少一个视频帧图像;

识别处理模块42,适于对至少一个视频帧图像的字幕区域进行文字识别处理,得到至少一个视频帧图像所包含的字幕文本;

分词处理模块43,适于对字幕文本进行分词处理,得到至少一个文本词条;

筛选模块44,适于根据至少一个文本词条的位置属性信息及其词频信息,确定所述至少一个文本词条的排序权重;根据至少一个文本词条的排序权重,从至少一个文本词条中筛选出至少一个目标词条,将至少一个目标词条作为所述视频的关键词存入数据库中。

在一种可选的方式中,筛选模块44进一步适于:

筛选模块进一步适于:按照排序权重的高低对至少一个文本词条进行排序,筛选出其排序位于前N位的文本词条作为目标词条,其中,N不小于1。

在一种可选的方式中,筛选模块44进一步适于:

根据至少一个文本词条的排序权重,筛选出其排序权重大于预设阈值的文本词条作为目标词条。

在一种可选的方式中,装置进一步包括:

模型构建模块,适于构建图像文字集合,根据图像文字集合构建文字识别模型;

则识别处理模块42进一步适于:基于文字识别模型,识别至少一个视频帧图像的字幕区域所包含的字幕文本。

在一种可选的方式中,模型构建模块进一步适于:

根据至少一个字体的字体文件,利用文字生成函数,生成至少一个字体的图像文字。

由此可见,本发明实施例的装置将机器深度学习应用于视频的字幕提取,将提取的字幕文本进行分词和词义分析,并根据词条出现的位置和出现的词频计算词条的排序权重,根据权重形成词条排行,选取出视频的关键词,实现重要关键词的提取,通过抽取视频的字幕内容,能够提升字幕关键词的精准性,使得用户可以通过更加精准的关键词查找到视频,提升了视频搜索的精准性,基于视频关键词也可以为建设精准的知识图谱提供基础数据,实现为用户进行精准内容推荐。

本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的视频关键词的处理方法。

可执行指令具体可以用于使得处理器执行以下操作:

将视频进行转换处理,得到至少一个视频帧图像;

对至少一个视频帧图像的字幕区域进行文字识别处理,得到至少一个视频帧图像所包含的字幕文本;

对字幕文本进行分词处理,得到至少一个文本词条;

根据至少一个文本词条的位置属性信息及其词频信息,确定至少一个文本词条的排序权重;

根据至少一个文本词条的排序权重,从至少一个文本词条中筛选出至少一个目标词条,将至少一个目标词条作为视频的关键词存入数据库中。

在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:

按照排序权重的高低对至少一个文本词条进行排序,筛选出其排序位于前N位的文本词条作为目标词条,其中,N不小于1。

在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:

根据至少一个文本词条的排序权重,筛选出其排序权重大于预设阈值的文本词条作为目标词条。

在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:

构建图像文字集合,根据图像文字集合构建文字识别模型;

基于文字识别模型,识别至少一个视频帧图像的字幕区域所包含的字幕文本。

在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:

根据至少一个字体的字体文件,利用文字生成函数,生成至少一个字体的图像文字。

由此可见,该方式将机器深度学习应用于视频的字幕提取,将提取的字幕文本进行分词和词义分析,并根据词条出现的位置和出现的词频计算词条的排序权重,根据权重形成词条排行,选取出视频的关键词,实现重要关键词的提取,通过抽取视频的字幕内容,能够提升字幕关键词的精准性,使得用户可以通过更加精准的关键词查找到视频,提升了视频搜索的精准性,基于视频关键词也可以为建设精准的知识图谱提供基础数据,实现为用户进行精准内容推荐。

图5示出了本发明计算设备实施例的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。

如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述用于计算设备的视频关键词的处理方法实施例中的相关步骤。

具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作:

将视频进行转换处理,得到至少一个视频帧图像;

对至少一个视频帧图像的字幕区域进行文字识别处理,得到至少一个视频帧图像所包含的字幕文本;

对字幕文本进行分词处理,得到至少一个文本词条;

根据至少一个文本词条的位置属性信息及其词频信息,确定至少一个文本词条的排序权重;

根据至少一个文本词条的排序权重,从至少一个文本词条中筛选出至少一个目标词条,将至少一个目标词条作为视频的关键词存入数据库中。

在一种可选的方式中,所述程序510使所述处理器502执行以下操作:

按照排序权重的高低对至少一个文本词条进行排序,筛选出其排序位于前N位的文本词条作为目标词条,其中,N不小于1。

在一种可选的方式中,所述程序510使所述处理器502执行以下操作:

根据至少一个文本词条的排序权重,筛选出其排序权重大于预设阈值的文本词条作为目标词条。

在一种可选的方式中,所述程序510使所述处理器502执行以下操作:构建图像文字集合,根据图像文字集合构建文字识别模型;

对至少一个视频帧图像的字幕区域进行文字识别处理,得到至少一个视频帧图像所包含的字幕文本具体包括:

基于文字识别模型,识别至少一个视频帧图像的字幕区域所包含的字幕文本。

在一种可选的方式中,所述程序510使所述处理器502执行以下操作:根据至少一个字体的字体文件,利用文字生成函数,生成至少一个字体的图像文字。

由此可见,该方式将机器深度学习应用于视频的字幕提取,将提取的字幕文本进行分词和词义分析,并根据词条出现的位置和出现的词频计算词条的排序权重,根据权重形成词条排行,选取出视频的关键词,实现重要关键词的提取,通过抽取视频的字幕内容,能够提升字幕关键词的精准性,使得用户可以通过更加精准的关键词查找到视频,提升了视频搜索的精准性,基于视频关键词也可以为建设精准的知识图谱提供基础数据,实现为用户进行精准内容推荐。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

相关技术
  • 视频关键词的处理方法及装置
  • 一种视频与视频关键词相关度的确定方法及装置
技术分类

06120113007490