掌桥专利:专业的专利平台
掌桥专利
首页

标题生成方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 11:02:01


标题生成方法、装置、电子设备和存储介质

技术领域

本发明涉及视频技术领域,特别是涉及一种标题生成方法、一种标题生成装置、一种电子设备和一种计算机可读存储介质。

背景技术

目前,各个地方的众多本地频道都有新闻报道节目。对于当今快节奏的生活方式,将新闻报道逐条拆成多段新闻视频,成为用户观看网络视频的一大需求。

为了让用户能够在众多的新闻视频中快速找到自己感兴趣的内容进行了解,在将新闻报道拆成多段的过程中,有一个很重要的工作就是给每段新闻视频配上合适的标题。

由于每天的新闻报道很多,为每段新闻视频都生成合适的标题是一件工作量很大的工作,视频中会出现字幕、画面内容中的文字等众多混淆信息,从众多混淆信息中找出标题,从而导致从视频中找出标题耗时耗力的问题。

发明内容

本发明实施例的目的在于提供一种标题生成方法、一种标题生成装置、一种电子设备和一种计算机可读存储介质,从而解决视频中会出现字幕、画面内容中的文字等众多混淆信息,从众多混淆信息中找出标题,从而导致从视频中找出标题耗时耗力的技术问题。

为了解决上述问题,在本发明实施的第一方面,首先提供了一种标题生成方法,包括:

获取目标视频;

从所述目标视频的多个图像帧中,分别检测具有标题特性的区域,得到区域位置;

根据所述多个图像帧对应的所述区域位置,确定标题候选区域在所述图像帧中的位置;

对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题。

可选地,所述从所述目标视频的多个图像帧中,分别检测具有标题特性的区域,得到区域位置包括以下至少一种:

通过对比不同图像帧,得到所述不同图像帧中像素值的差值小于预设阈值的区域位置;

分别检测所述多个图像帧中包含文本的区域,得到所述多个图像帧中包含文本的区域位置;

分别对所述多个图像帧进行边缘检测,得到所述多个图像帧中被边缘所围绕的区域的区域位置。

可选地,所述根据所述多个图像帧对应的所述区域位置,确定标题候选区域在所述图像帧中的位置包括:

对所述多个图像帧对应的区域位置进行统计,生成所述区域位置的次数分布数据;

对所述次数分布数据进行梯度运算,得到梯度运算结果;

根据所述梯度运算结果,确定所述标题候选区域在所述图像帧中的位置。

可选地,在所述对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题之前,所述方法还包括:

针对各个图像帧,分别检测所述标题候选区域的图像变化率是否小于预设阈值;

剔除所述图像变化率大于预设阈值的所述标题候选区域。

可选地,所述对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题包括:

分别对所述多个图像帧中的所述标题候选区域进行文本识别,得到候选文本;

根据所述候选文本,选取所述目标视频的目标标题。

可选地,所述分别对所述多个图像帧中的所述标题候选区域进行文本识别,得到候选文本包括:

在对所述标题候选区域进行文本识别时,根据识别到所述候选文本的图像帧,生成所述候选文本在所述目标视频中的出现时长和/或时间分布;

在所述根据所述候选文本,选取所述目标视频的目标标题之前,所述方法还包括:

剔除所述出现时长和/或时间分布不符合预设时间条件的候选文本。

可选地,在所述根据所述候选文本,选取所述目标视频的目标标题之前,所述方法还包括:

检测所述候选文本中文本元素的属性信息、所述候选文本的文本长度、所述候选文本中包含的字符类别中至少一种;

剔除所述属性信息、所述文本长度、字符类别中至少一种不符合预设规则的候选文本。

可选地,所述根据所述候选文本,选取所述目标视频的目标标题包括:

将所述候选文本输入标题检测网络;所述标题检测网络用于检测文本能否作为标题,所述标题检测网络采用标题文本样本和非标题文本样本训练得到;

由所述标题检测网络检测所述候选文本能否作为标题,输出标题置信度;

选取所述标题置信度最高的候选文本,作为目标标题。

依据本发明实施的第二方面,还提供了一种标题生成装置,包括:

视频获取模块,用于获取目标视频;

位置检测模块,用于从所述目标视频的多个图像帧中,分别检测具有标题特性的区域,得到区域位置;

区域确定模块,用于根据所述多个图像帧对应的所述区域位置,确定所述标题候选区域在所述图像帧中的位置;

标题生成模块,用于对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题。

可选地,所述位置检测模块包括以下至少一种:

对比子模块,用于通过对比不同图像帧,得到所述不同图像帧之间像素值的差值小于预设阈值的区域位置;

文本检测子模块,用于分别检测所述多个图像帧中包含文本的区域,得到所述多个图像帧中包含文本的区域位置;

边缘检测子模块,用于分别对所述多个图像帧进行边缘检测,得到所述多个图像帧中被边缘所围绕的区域的区域位置。

可选地,所述区域确定模块包括:

数据生成子模块,用于对所述多个图像帧对应的区域位置进行统计,生成所述区域位置的次数分布数据;

梯度运算子模块,用于对所述次数分布数据进行梯度运算,得到梯度运算结果;

区域确定子模块,用于根据所述梯度运算结果,确定所述标题候选区域在所述图像帧中的位置。

可选地,所述装置还包括:

检测模块,用于在所述对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题之前,针对各个图像帧,分别检测所述标题候选区域的图像变化率是否小于预设阈值;

区域剔除模块,用于剔除所述图像变化率大于预设阈值的所述标题候选区域。

可选地,所述标题生成模块包括:

文本识别子模块,用于分别对所述多个图像帧中的所述标题候选区域进行文本识别,得到候选文本;

标题选取子模块,用于根据所述候选文本,选取所述目标视频的目标标题。

可选地,所述文本识别子模块包括:

时间生成单元,用于在对所述标题候选区域进行文本识别时,根据识别到所述候选文本的图像帧,生成所述候选文本在所述目标视频中的出现时长和/或时间分布;

所述标题选取子模块包括:

第一剔除单元,用于在所述根据所述候选文本,选取所述目标视频的目标标题之前,剔除所述出现时长和/或时间分布不符合预设时间条件的候选文本。

可选地,所述标题选取子模块包括:

属性检测单元,用于在所述根据所述候选文本,选取所述目标视频的目标标题之前,检测所述候选文本中文本元素的属性信息、所述候选文本的文本长度、所述候选文本中包含的字符类别中至少一种;

第二剔除单元,用于剔除所述属性信息、所述文本长度、字符类别中至少一种不符合预设规则的候选文本。

可选地,所述标题选取子模块包括:

输入单元,用于将所述候选文本输入标题检测网络;所述标题检测网络用于检测文本能否作为标题,所述标题检测网络采用标题文本样本和非标题文本样本训练得到;

输出单元,用于由所述标题检测网络检测所述候选文本能否作为标题,输出标题置信度;

选取单元,用于选取所述标题置信度最高的候选文本,作为目标标题。

在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述任一所述的方法步骤。

在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的方法。

在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的方法。

综上所述,依据本发明实施例,通过获取目标视频,从所述目标视频的多个图像帧中,分别检测具有标题特性的区域,得到区域位置,根据所述多个图像帧对应的所述区域位置,确定标题候选区域在所述图像帧中的位置,对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题,使得根据目标视频的多个图像帧,分析得到视频的标题可能出现的标题候选区域,排除了视频中众多的混淆信息,提高了标题确定时的准确性,然后对标题候选区域进行文本识别,从而自动生成目标视频的目标标题,降低了生成标题时的人工干预程度,提高了为视频生成标题的效率。

附图说明

图1示出了本发明的一种标题生成方法实施例的步骤流程图;

图2示出了本发明的另一种标题生成方法实施例的步骤流程图;

图3示出了标题热区特征图;

图4示出了截断点热区特征图;

图5示出了本发明的一种标题生成装置实施例的结构框图;

图6示出了本发明的一种电子设备的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1,示出了本发明的一种标题生成方法实施例的步骤流程图,具体可以包括如下步骤:

步骤101,获取目标视频。

在本发明实施例中,目标视频包括用户提交的视频、由一个视频拆分成的多个视频片段等,例如,一个新闻报道的视频中可以包括多个新闻事件,可以将该视频拆分成多个新闻事件对应的视频片段,各个视频片段作为目标视频。

步骤102,从所述目标视频的多个图像帧中,分别检测具有标题特性的区域,得到区域位置。

在本发明实施例中,视频中出现标题的区域相对集中,但不同视频中具体的区域却又各不相同,例如,很多新闻报道的视频中,标题通常会出现在视频中的下半部分区域,但不同的视频中标题所在区域与视频图像的下边缘的距离又各不相同。

在本发明实施例中,视频的各个区域中,存在具有标题特性的区域。视频中的某个区域具有标题特性,并非代表该区域一定存在标题,而是指该区域具有特定的特性,可能是存在标题的区域。例如,因为标题在视频播放过程中通常不会变化,若某个区域中的图像内容一直不变,则该区域具有标题特性,或者检测到某个区域中存在文字,则该区域具有标题特性,或者因为一些视频中会设计专门的标题框,若在某个区域中检测到直线或整齐的边缘,则该区域具有标题特性,具体还可以包括任意适用的标题特性,本发明实施例对此不做限制。

在本发明实施例中,视频由图像帧组成,若图像帧中某个区域具有标题特性,则获取该区域在图像帧中的区域位置。在检测具有标题特性的区域,得到区域位置时,可以通过目标视频中的同一图像帧,检测具有标题特性的区域,得到区域位置,也可以通过目标视频中的不同图像帧,检测具有标题特性的区域,得到区域位置。具体实现方式可以包括多种,例如,通过对比不同图像帧,得到不同图像帧之间像素值的差值小于预设阈值的区域位置,或者分别检测多个图像帧中包含文本的区域,得到多个图像帧中包含文本的区域位置,或者分别对多个图像帧进行边缘检测,得到多个图像帧中边缘的区域位置,或者其他任意适用的方式,本发明实施例对此不做限制。

例如,新闻视频中,标题通常出现在视频图像的下半部分中,为了减少检测具有标题特性的区域位置的工作量,仅对目标视频中多个图像帧的下半部分进行检测,具体可以通过帧差法检测不同图像帧中内容不变的稳定区域,检测稳定区域的区域位置,以及对图像帧进行文字区域的检测,检测包含文字的区域位置,以及利用Canny边缘检测算法对图像帧进行边缘检测,检测边缘的区域位置等。

步骤103,根据所述多个图像帧对应的所述区域位置,确定标题候选区域在所述图像帧中的位置。

在本发明实施例中,从目标视频的不同图像帧中,分别检测的区域位置,有的相同,有的不相同。在越多的图像帧中检测到某一区域位置,则该区域位置越可能是标题所在的区域。因此,根据多个图像帧对应的区域位置,利用统计分析的原理可以确定一个或多个区域在图像帧中的位置,将该一个或多个区域记为标题候选区域。

在本发明实施例中,根据多个图像帧对应的区域位置,确定标题候选区域在图像帧中的位置的实现方式可以包括多种,例如,对多个图像帧对应的区域位置进行统计,生成区域位置的次数分布数据,对次数分布数据进行梯度运算,根据梯度运算结果,确定标题候选区域在图像帧中的位置,或者其他任意适用的实现方式,本发明实施例对此不做限制。

在本发明实施例中,可选地,在所述对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题之前,还可以包括:针对各个图像帧,分别检测所述标题候选区域的图像变化率是否小于预设阈值;剔除所述图像变化率大于预设阈值的所述标题候选区域。

通常在视频中,标题所在的区域仅包括文本和背景色,相对于视频的其他图像来说,标题所在的区域的图像变化率应该是较低的。在对各个图像帧进行文本识别前,先分别检测标题候选区域的图像变化率是否小于预设阈值,例如,计算标题候选区域中的图像的方差,方差可以表示出图像变化率。若图像变化率小于预设阈值,则表示标题候选区域符合标题一般具有的背景特征,可以保留该标题候选区域,若图像变化率不小于预设阈值,则表示标题候选区域不符合标题一般具有的背景特征,可以剔除该标题候选区域,从而过滤掉了很可能不含标题的候选区域,减少了不必要的文本识别的工作量,减小了识别出不是标题的候选文本的概率,提高了生成标题的效率。

步骤104,对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题。

在本发明实施例中,对各个图像帧中的标题候选区域进行文本识别,得到标题候选区域中的文本,然后将识别到的文本直接作为目标视频的标题,或者先判断识别到的文本是否可以作为目标视频的标题,或者对识别到的文本进行处理后,将处理后得到的文本作为目标视频的标题。将最终得到的目标视频的标题,记为目标标题。

在一种情况下,多个图像帧中的标题候选区域中识别到相同的文本,可以直接将识别到的文本作为目标视频的目标标题,或可以先根据预设的规则,判断识别到的文本是否可以作为目标视频的目标标题,最后得到目标视频的目标标题,或者其他任意适用的方式,本发明实施例对此不做限制。

在另一种情况下,多个图像帧中标题候选区域中识别到不同的文本,需要在多个候选文本中,选取能作为目标标题的文本。选取目标标题的具体实现方式可以包括多种,例如,先剔除部分不符合预设的规则的候选文本,再将剩余的候选文本输入标题检测网络,标题检测网络用于检测文本能否作为标题,标题检测网络采用标题文本样本和非标题文本样本训练得到,由标题检测网络检测候选文本能否作为标题,输出标题置信度,选取标题置信度最高的候选文本,作为目标标题,或者其他任意适用的方式,本发明实施例对此不做限制。

综上所述,依据本发明实施例,通过获取目标视频,从所述目标视频的多个图像帧中,分别检测具有标题特性的区域,得到区域位置,根据所述多个图像帧对应的所述区域位置,确定标题候选区域在图像帧中的位置,对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题,使得根据目标视频的多个图像帧,分析得到视频的标题可能出现的标题候选区域,排除了视频中众多的混淆信息,提高了标题确定时的准确性,然后对标题候选区域进行文本识别,从而自动生成目标视频的目标标题,降低了生成标题时的人工干预程度,提高了为视频生成标题的效率。

参照图2,示出了本发明的一种标题生成方法实施例的步骤流程图,具体可以包括如下步骤:

步骤201,获取目标视频。

步骤202,通过对比不同图像帧,得到所述不同图像帧之间像素值的差值小于预设阈值的区域位置。

在本发明实施例中,视频中标题所在的区域在一段时间内图像不会变化,因此,一种检测具有标题特性的区域位置的方法是通过对比不同图像帧得到像素值的差值小于预设阈值的区域位置。对于目标视频,可以从目标视频中每隔设定时长取一个图像帧,分别对比每个取出的图像帧与上一个取出的图像帧,得到每个图像帧对应的像素值的差值小于预设阈值的区域位置。

例如,利用帧差法,对两帧图像进行差分运算,不同图像帧对应的像素点相减,判断灰度差的绝对值,当绝对值小于一定阈值时,即可判断为图像不变的静止目标,从而实现图像不变的区域的检测。具体可以采用任意适用的方式对比不同图像帧,本发明实施例对此不做限制。

步骤203,分别检测所述多个图像帧中包含文本的区域,得到所述多个图像帧中包含文本的区域位置。

在本发明实施例中,另一种检测具有标题特性的区域位置的方法是检测图像帧中包含文本的区域,得到图像帧中包含文本的区域位置。对于目标视频,可以从目标视频中每隔设定时长取一个图像帧,分别检测每个图像帧中包含文本的区域,得到每个图像帧中包含文本的区域位置。例如,通过MSER(Maximally Stable Extremal Regions,最大稳定极值区域)算法可以粗略地寻找图像中包含文本的区域位置。具体可以采用任意适用的文本检测方式,本发明实施例对此不做限制。

步骤204,分别对所述多个图像帧进行边缘检测,得到所述多个图像帧中被边缘所围绕的区域的区域位置。

在本发明实施例中,视频中标题所在的区域会有直线或整齐的边缘,因此,另一种检测具有标题特性的区域位置的方法是对图像帧进行边缘检测,得到图像帧中边缘,继而可以得到被边缘所围绕的区域的区域位置。对于目标视频,可以从目标视频中每隔设定时长取一个图像帧,分别对每个图像帧进行边缘检测,得到每个图像帧中被边缘所围绕的区域的区域位置。具体可以采用任意适用的边缘检测方法,例如,Canny边缘检测算法、Sobel边缘检测算法等,本发明实施例对此不做限制。

步骤205,对所述多个图像帧对应的区域位置进行统计,生成所述区域位置的次数分布数据。

在本发明实施例中,对于不同图像帧,检测到的区域位置也可能各不相同。在从多个图像帧中,分别检测到区域位置后,对区域位置进行统计,生成区域位置的次数分布数据。次数分布数据可以表征区域位置的次数分布,例如,如图3所示的标题热区特征图,次数分布数据可以展示为标题热区特征图的形式,图中区域的亮度越高,表示统计次数越高,也就是说,该区域是标题区域的可能性越大。又例如,如图4所示的截断点热区特征图,次数分布数据可以展示为截断点热区特征图的形式,图中竖线的亮度越高,表示统计次数越高,也就是说,该区域是标题框边缘的可能性越大。

步骤206,对所述次数分布数据进行梯度运算,得到梯度运算结果。

在本发明实施例中,在像素点的梯度是一个具有大小和方向的矢量,对于次数分布数据来说,梯度的方向是在一个像素点的次数变化最快的方向,梯度的大小是在一个像素点的次数的变化率。对次数分布数据进行梯度运算,得到的梯度运算结果包括与图像帧上的像素点对应的各个位置上的梯度。

步骤207,根据所述梯度运算结果,确定所述标题候选区域在所述图像帧中的位置。

在本发明实施例中,根据梯度运算结果,确定标题候选区域在图像帧中位置的方式可以包括多种,例如,以梯度最大的像素点为边缘,划分出标题候选区域;或者选取在预设第一梯度阈值和第二梯度阈值之间的梯度的像素点为边缘,划分出标题候选区域,或者其他任意适用的方式,本发明实施例对此不做限制。

步骤208,分别对所述多个图像帧中的所述标题候选区域进行文本识别,得到候选文本。

在本发明实施例中,分别对各个图像帧中的标题候选区域进行文本识别,得到各个图像帧对应的候选文本。例如,利用OCR(Optical Character Recognition,光学字符识别)技术对标题候选区域内的文本进行识别,得到候选文本。

步骤209,根据所述候选文本,选取所述目标视频的目标标题。

在本发明实施例中,多个图像帧中得到的候选文本如果都相同,则可以直接将候选文本作为目标标题,或者也可以先对候选文本是否可以作为目标标题进行判断。多个图像帧中得到的候选文本如果不都相同,则需要从多个候选文本中选取一个作为目标标题。

在本发明实施例中,可选地,分别对所述多个图像帧中的所述标题候选区域进行文本识别,得到候选文本的一种实现方式可以包括:在对所述标题候选区域进行文本识别时,根据识别到所述候选文本的图像帧,生成所述候选文本在所述目标视频中的出现时长和/或时间分布;相应的,在根据所述候选文本,选取所述目标视频的目标标题之前,还可以包括:剔除所述出现时长和/或时间分布不符合预设时间条件的候选文本。

对图像帧进行文本识别时,提取该图像帧的时间戳,根据识别到候选文本的图像帧,可以生成候选文本在目标视频中的出现时长和/或时间分布,例如,首先候选文本A在第1~x个图像帧被识别到,然后候选文本B在第(x+1)~y个图像帧被识别到,之后候选文本A又在第(y+1)~z个图像帧被识别到,那么,根据第1~x个图像帧的时间戳,以及第(y+1)~z个图像帧的时间戳,可以生成候选文本A的出现时长和时间分布,根据第(x+1)~y个图像帧的时间戳,可以生成候选文本B的出现时长和时间分布。

视频中标题的出现时长和/或时间分布需要符合预设时间条件,其中,预设时间条件可以根据实际情况进行设置,本发明实施例对此不做限制。将不符合预设时间条件的候选文本剔除,将剩余的候选文本作为目标标题,或者从剩余的候选文本中进一步选取出目标标题。依据出现时长和/或时间分布,可以将很多不是标题的候选文本过滤掉,提高了标题生成的准确率。

例如,对多个候选文本进行标题精选,对候选文本进行跟踪,记录该候选文本的出现时长以及时间分布,对候选文本进行时序分析,预设时间条件包括备选标题的出现时长需高于预设时长,将不高于预设时长的候选文本剔除,预设时间条件还可以包括备选标题的时间分布需要满足间断的时长不能高于预设间断时长,将高于预设间断时长的候选文本剔除。

在本发明实施例中,可选地,在根据所述候选文本,选取所述目标视频的目标标题之前,还可以包括:检测所述候选文本中文本元素的属性信息、所述候选文本的文本长度、所述候选文本中包含的字符类别中至少一种;剔除所述属性信息、所述文本长度、字符类别中至少一种不符合预设规则的候选文本。

文本元素包括字、词、短语、句子等,文本元素的属性信息包括词性、语义等,或者其他任意适用的属性信息,本发明实施例对此不做限制。字符类别包括数字类别、语种类别、标点符号类别等,或者其他任意适用的字符类别,本发明实施例对此不做限制。

视频中标题的文本元素的属性信息、文本长度、字符类别等需要符合预设规则,其中,预设规则可以根据实际情况进行设置,本发明实施例对此不做限制。将不符合预设规则的候选文本剔除,将剩余的候选文本作为目标标题,或者从剩余的候选文本中进一步选取出目标标题。依据预设规则,可以将很多不是标题的候选文本过滤掉,提高了标题生成的准确率。

例如,在文本识别得到候选文本后,可以先根据文本长度、字符类别初步滤除部分大概率不是标题的候选文本,将剩余的候选文本作为备选。预设规则包括字数在预设字数范围之内,字符类别不能包括预设的几种类别等。对多个候选文本进行标题精选,对根据出现时长以及时间分布过滤后的候选文本进行进一步滤除。对备选标题进行语义分析,检测其词性、语义等,对不满足预设规则的候选文本进行滤除。预设规则包括文本中不能包括动词、不能包括人名等。

在本发明实施例中,可选地,根据所述候选文本,选取所述目标视频的目标标题的一种实现方式可以包括:将所述候选文本输入标题检测网络;由所述标题检测网络检测所述候选文本能否作为标题,输出标题置信度;选取所述标题置信度最高的候选文本,作为目标标题。

标题检测网络用于检测文本能否作为标题,标题检测网络采用标题文本样本和非标题文本样本训练得到。例如,根据大量的新闻标题语料和非标题语料,采用有监督学习方式,训练二分类网络模型,即标题检测网络。训练好的标题检测网络可以对候选文本能否作为标题进行检测,将候选文本输入标题检测网络,由标题检测网络输出标题置信度,标题置信度可以表征候选文本作为标题的概率,按照标题置信度对候选文本进行排序,选取标题置信度最高的候选文本,作为目标标题。

综上所述,依据本发明实施例,通过获取目标视频,通过对比不同图像帧,得到所述不同图像帧中像素值的差值小于预设阈值的区域位置,分别检测所述多个图像帧中包含文本的区域,得到所述多个图像帧中包含文本的区域位置,分别对所述多个图像帧进行边缘检测,得到所述多个图像帧中被边缘所围绕的区域的区域位置,对所述多个图像帧对应的区域位置进行统计,生成所述区域位置的次数分布数据,对所述次数分布数据进行梯度运算,得到梯度运算结果,根据所述梯度运算结果,确定所述标题候选区域在图像帧中的位置,分别对所述多个图像帧中的所述标题候选区域进行文本识别,得到候选文本,根据所述候选文本,选取所述目标视频的目标标题,使得根据目标视频的多个图像帧,分析得到视频的标题可能出现的标题候选区域,排除了视频中众多的混淆信息,提高了标题确定时的准确性,然后对标题候选区域进行文本识别,从而自动生成目标视频的目标标题,降低了生成标题时的人工干预程度,提高了为视频生成标题的效率。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图5,示出了本发明一种标题生成装置实施例的结构框图,具体可以包括如下模块:

视频获取模块301,用于获取目标视频;

位置检测模块302,用于从所述目标视频的多个图像帧中,分别检测具有标题特性的区域,得到区域位置;

区域确定模块303,用于根据所述多个图像帧对应的所述区域位置,确定标题候选区域在所述图像帧中的位置;

标题生成模块304,用于对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题。

可选地,所述位置检测模块包括以下至少一种:

对比子模块,用于通过对比不同图像帧,得到所述不同图像帧之间像素值的差值小于预设阈值的区域位置;

文本检测子模块,用于分别检测所述多个图像帧中包含文本的区域,得到所述多个图像帧中包含文本的区域位置;

边缘检测子模块,用于分别对所述多个图像帧进行边缘检测,得到所述多个图像帧中被边缘所围绕的区域的区域位置。

可选地,所述区域确定模块包括:

数据生成子模块,用于对所述多个图像帧对应的区域位置进行统计,生成所述区域位置的次数分布数据;

梯度运算子模块,用于对所述次数分布数据进行梯度运算,得到梯度运算结果;

区域确定子模块,用于根据所述梯度运算结果,确定所述标题候选区域在所述图像帧中的位置。

可选地,所述装置还包括:

检测模块,用于在所述对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题之前,针对各个图像帧,分别检测所述标题候选区域的图像变化率是否小于预设阈值;

区域剔除模块,用于剔除所述图像变化率大于预设阈值的所述标题候选区域。

可选地,所述标题生成模块包括:

文本识别子模块,用于分别对所述多个图像帧中的所述标题候选区域进行文本识别,得到候选文本;

标题选取子模块,用于根据所述候选文本,选取所述目标视频的目标标题。

可选地,所述文本识别子模块包括:

时间生成单元,用于在对所述标题候选区域进行文本识别时,根据识别到所述候选文本的图像帧,生成所述候选文本在所述目标视频中的出现时长和/或时间分布;

所述标题选取子模块包括:

第一剔除单元,用于在所述根据所述候选文本,选取所述目标视频的目标标题之前,剔除所述出现时长和/或时间分布不符合预设时间条件的候选文本。

可选地,所述标题选取子模块包括:

属性检测单元,用于在所述根据所述候选文本,选取所述目标视频的目标标题之前,检测所述候选文本中文本元素的属性信息、所述候选文本的文本长度、所述候选文本中包含的字符类别中至少一种;

第二剔除单元,用于剔除所述属性信息、所述文本长度、字符类别中至少一种不符合预设规则的候选文本。

可选地,所述标题选取子模块包括:

输入单元,用于将所述候选文本输入标题检测网络;所述标题检测网络用于检测文本能否作为标题,所述标题检测网络采用标题文本样本和非标题文本样本训练得到;

输出单元,用于由所述标题检测网络检测所述候选文本能否作为标题,输出标题置信度;

选取单元,用于选取所述标题置信度最高的候选文本,作为目标标题。

综上所述,依据本发明实施例,通过获取目标视频,从所述目标视频的多个图像帧中,分别检测具有标题特性的区域,得到区域位置,根据所述多个图像帧对应的所述区域位置,确定标题候选区域在所述图像帧中的位置,对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题,使得根据目标视频的多个图像帧,分析得到视频的标题可能出现的标题候选区域,排除了视频中众多的混淆信息,提高了标题确定时的准确性,然后对标题候选区域进行文本识别,从而自动生成目标视频的目标标题,降低了生成标题时的人工干预程度,提高了为视频生成标题的效率。

本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,

存储器603,用于存放计算机程序;

处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:

获取目标视频;

从所述目标视频的多个图像帧中,分别检测具有标题特性的区域,得到区域位置;

根据所述多个图像帧对应的所述区域位置,确定标题候选区域在所述图像帧中的位置;

对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题。

可选地,所述从所述目标视频的多个图像帧中,检测具有标题特性的区域,得到区域位置包括以下至少一种:

通过对比不同图像帧,得到所述不同图像帧之间像素值的差值小于预设阈值的区域位置;

分别检测所述多个图像帧中包含文本的区域,得到所述多个图像帧中包含文本的区域位置;

分别对所述多个图像帧进行边缘检测,得到所述多个图像帧中被边缘所围绕的区域的区域位置。

可选地,所述根据所述多个图像帧对应的所述区域位置,生成所述标题候选区域包括:

对所述多个图像帧对应的区域位置进行统计,生成所述区域位置的次数分布数据;

对所述次数分布数据进行梯度运算,得到梯度运算结果;

根据所述梯度运算结果,确定所述标题候选区域在所述图像帧中的位置。

可选地,在所述对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题之前,所述方法还包括:

针对各个图像帧,分别检测所述标题候选区域的图像变化率是否小于预设阈值;

剔除所述图像变化率大于预设阈值的所述标题候选区域。

可选地,所述对所述多个图像帧中的所述标题候选区域进行文本识别,得到所述目标视频的目标标题包括:

分别对所述多个图像帧中的所述标题候选区域进行文本识别,得到候选文本;

根据所述候选文本,选取所述目标视频的目标标题。

可选地,所述分别对所述多个图像帧中的所述标题候选区域进行文本识别,得到候选文本包括:

在对所述标题候选区域进行文本识别时,根据识别到所述候选文本的图像帧,生成所述候选文本在所述目标视频中的出现时长和/或时间分布;

在所述根据所述候选文本,选取所述目标视频的目标标题之前,所述方法还包括:

剔除所述出现时长和/或时间分布不符合预设时间条件的候选文本。

可选地,在所述根据所述候选文本,选取所述目标视频的目标标题之前,所述方法还包括:

检测所述候选文本中文本元素的属性信息、所述候选文本的文本长度、所述候选文本中包含的字符类别中至少一种;

剔除所述属性信息、所述文本长度、字符类别中至少一种不符合预设规则的候选文本。

可选地,所述根据所述候选文本,选取所述目标视频的目标标题包括:

将所述候选文本输入标题检测网络;所述标题检测网络用于检测文本能否作为标题,所述标题检测网络采用标题文本样本和非标题文本样本训练得到;

由所述标题检测网络检测所述候选文本能否作为标题,输出标题置信度;

选取所述标题置信度最高的候选文本,作为目标标题。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的方法。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

相关技术
  • 标题生成方法、训练方法、装置、电子设备和存储介质
  • 一种标题生成方法、装置、电子设备和存储介质
技术分类

06120112773313