掌桥专利:专业的专利平台
掌桥专利
首页

MV视频字幕逐字生成方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:58:21


MV视频字幕逐字生成方法、装置、设备及存储介质

技术领域

本发明涉及视频技术领域,尤其涉及一种MV视频字幕逐字生成方法、装置、设备及存储介质。

背景技术

在KTV演唱领域,可以在MV视频中根据演唱进度生成逐字歌词文本,为演唱者进行演唱提示,现有的逐字歌词文本都是人工进行矫正和修改的,或者只基于颜色提取进行OCR识别,第一种方案成本高,第二种因为只保留颜色部分导致文字特征会被大大简化,所以OCR识别非常不准,因此生成的逐字歌词准确率不高。

发明内容

本发明的主要目的在于提供一种MV视频字幕逐字生成方法、装置、设备及存储介质,旨在解决现有技术中根据MV视频中的歌词字幕生成逐字歌词文本时,存在成本高、准确率低的技术问题。

为实现上述目的,本发明提供一种MV视频字幕逐字生成方法,所述方法包括以下步骤:

根据预设YOLO模型对源MV视频进行字幕识别,获得所述源MV视频中当前显示的歌词的歌词识别结果集合,所述歌词识别结果集合包括字符、字符时间戳和位置信息的对应关系;

根据所述字符、所述字符时间戳和所述位置信息确定所述字符的演唱时长;

根据所述演唱时长和所述位置信息将所述字符逐个生成到目标视频中。

可选地,所述根据所述字符、所述字符时间戳和所述位置信息确定所述字符的演唱时长,包括:

依次确定所述歌词识别结果集合中的任一字符为当前字符;

根据所述位置信息和所述字符时间戳确定所述当前字符的前一个字符;

根据所述当前字符对应的字符时间戳和所述前一个字符对应的字符时间戳之间的差值确定所述当前字符的演唱时长。

可选地,所述根据预设YOLO模型对源MV视频进行字幕识别,获得所述源MV视频中当前显示的歌词的歌词识别结果集合,所述歌词识别结果集合包括字符、字符时间戳和位置信息的对应关系,包括:

根据预设YOLO模型对源MV视频进行字幕识别,获得所述源MV视频中当前显示的歌词的歌词识别结果,所述歌词识别结果包括当前显示歌词文本、文本时间戳和文本长度的对应关系,所述文本时间戳为所述当前显示歌词文本对应的时间戳;

根据所述文本时间戳和所述文本长度对所述当前显示歌词文本进行聚合,生成每句歌词对应的歌词识别结果集合,所述歌词识别结果集合包括字符、字符时间戳和位置信息的对应关系,所述字符时间戳为所述字符对应的时间戳。

可选地,所述根据所述文本时间戳和所述文本长度对所述当前显示歌词文本进行聚合,生成每句歌词对应的歌词识别结果集合,所述歌词识别结果集合包括字符、字符时间戳和位置信息的对应关系,所述字符时间戳为所述字符对应的时间戳,包括:

根据所述文本时间戳和所述文本长度判断本句歌词是否结束;

若未结束,则创建本句歌词对应的歌词识别结果集合为第一歌词识别结果集合;

根据所述歌词识别结果生成字符、字符时间戳和位置信息的对应关系,并将当前生成的字符、字符时间戳和位置信息的对应关系添加至所述第一歌词识别结果集合。

可选地,所述根据所述文本时间戳和所述文本长度判断本句歌词是否结束,包括:

根据所述文本时间戳确定所述歌词识别结果的前一个歌词识别结果;

若所述歌词识别结果对应的文本长度大于或等于所述前一个歌词识别结果对应的文本长度,则表示本句歌词未结束。

可选地,所述根据所述歌词识别结果生成字符、字符时间戳和位置信息的对应关系,并将当前生成的字符、字符时间戳和位置信息的对应关系添加至所述第一歌词识别结果集合的步骤之后,还包括:

若已结束,则创建下句歌词对应的歌词识别结果集合为第二歌词识别结果集合;

根据所述歌词识别结果生成字符、字符时间戳和位置信息的对应关系,并将当前生成的字符、字符时间戳和位置信息的对应关系添加至所述第二歌词识别结果集合。

可选地,所述根据预设YOLO模型对源MV视频进行字幕识别,获得所述源MV视频中当前显示的歌词的歌词识别结果集合的步骤之前,还包括:

获取MV视频样本,所述MV视频样本中包含用于标示所述MV视频样本中当前显示的歌词的标注;

根据所述MV视频样本对初始的YOLO模型进行训练,得到能够用于实现字幕识别的预设YOLO模型。

此外,为实现上述目的,本发明还提出一种MV视频字幕逐字生成装置,所述MV视频字幕逐字生成装置包括:

歌词提取模块,用于根据预设YOLO模型对源MV视频进行字幕识别,获得所述源MV视频中当前显示的歌词的歌词识别结果集合,所述歌词识别结果集合包括字符、字符时间戳和位置信息的对应关系;

时长确定模块,用于根据所述演唱时长和所述位置信息将所述字符逐个生成到目标视频中;

字幕生成模块,用于根据所述演唱时长和所述位置信息将所述字符逐个生成到目标视频中。

此外,为实现上述目的,本发明还提出一种MV视频字幕逐字生成设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的MV视频字幕逐字生成程序,所述MV视频字幕逐字生成程序配置为实现如上文所述的MV视频字幕逐字生成方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有MV视频字幕逐字生成程序,所述MV视频字幕逐字生成程序被处理器执行时实现如上文所述的MV视频字幕逐字生成方法的步骤。

本发明基于YOLO模型对源MV视频进行字幕识别,得到其中字符、字符时间戳及字符位置等信息,基于这些信息确定出字符的演唱时长,进而基于演唱时长及字符位置将字符逐个生成到目标视频中。很明显,本发明方案无需人工参与歌词矫正和修改等,而是全自动化实现,因此有效降低了制作逐字歌词的成本;同时,不同于现有技术中只根据颜色提取进行OCR识别,本发明基于YOLO模型进行字幕识别时并不局限于颜色,而是能够充分识别到视频中可能存在的全部文字特征,包括字符、字符时间戳及字符位置等,基于此确定字符演唱时长后按照字符的位置及演唱时长将其逐个生成到目标视频中,能够大大提高逐字歌词生成的准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的MV视频字幕逐字生成设备的结构示意图;

图2为本发明MV视频字幕逐字生成方法第一实施例的流程示意图;

图3为本发明MV视频字幕逐字生成方法第二实施例的流程示意图;

图4为本发明MV视频字幕逐字生成方法第三实施例的流程示意图;

图5为本发明MV视频字幕逐字生成装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的MV视频字幕逐字生成设备结构示意图。

如图1所示,该MV视频字幕逐字生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对MV视频字幕逐字生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及MV视频字幕逐字生成程序。

在图1所示的MV视频字幕逐字生成设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明MV视频字幕逐字生成设备中的处理器1001、存储器1005可以设置在MV视频字幕逐字生成设备中,所述MV视频字幕逐字生成设备通过处理器1001调用存储器1005中存储的MV视频字幕逐字生成程序,并执行本发明实施例提供的MV视频字幕逐字生成方法。

本发明实施例提供了一种MV视频字幕逐字生成方法,参照图2,图2为本发明MV视频字幕逐字生成方法第一实施例的流程示意图。

本实施例中,所述MV视频字幕逐字生成方法包括以下步骤:

步骤S10:根据预设YOLO模型对源MV视频进行字幕识别,获得所述源MV视频中当前显示的歌词的歌词识别结果集合,所述歌词识别结果集合包括字符、字符时间戳和位置信息的对应关系。

需要说明的是,本实施例方法的执行主体可以是具有字幕逐字生成、网络通信以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等;也可以是具有相同或相似功能的上述MV视频字幕逐字生成设备。本实施例及下述各实施例将以MV视频字幕逐字生成设备为例进行说明。

可以理解的是,YOLO模型是一种目标检测模型,目标检测是计算机视觉中的任务,用来在一张图篇中找到某些特定的物体,目标检测不仅需要识别这些物体的种类,同时需要标出这些物体的位置。YOLO模型以其快速、准确的特点在目标检测领域得到了广泛的应用。因此,在本实施例中,可以使用YOLO模型检测MV中的字幕区域,识别字幕中的歌词。为了识别更加的准确,在识别之前可以先对YOLO模型进行训练或者相应的改进。

应当理解的是,在KTV演唱领域,可以在MV视频中按照时间戳的逐字歌词文本为演唱者的最基本的演唱进行矫正,可以显示整句歌词,并将已经演唱过的字幕显示为彩色字;也可以是只显示演唱过的歌词部分。可以使用预设YOLO模型定位到源MV视频中的演唱字幕区域,若MV视频中是显示整句歌词,并将已经演唱过的字幕显示为彩色字的方式进行演唱矫正,则输出彩色字幕的四个顶点坐标;若MV视频中是只显示演唱过的歌词部分,则可以输出显示字幕的四个顶点坐标;然后可以在图像中找出这个矩形,并识别矩阵中的歌词,获得包括当前显示的歌词的字符、字符时间戳和位置信息的歌词识别结果集合。为了使得识别结果更加的精准,可以使用更小的视频帧截取的粒度(即截取每一帧的时间间隔尽可能地小)对源MV视频中的演唱字幕区域进行截取,获得初步识别到的歌词,包括每一帧截取时的时间戳。然后对初步识别到的歌词进行拆分,拆分为由每一个字符组成的歌词识别结果集合,还包括每一个字符、时间戳和位置信息的对应关系,其中,位置信息可以表示每一个字符是本句歌词中的第几个字符,例如,在歌词“我和我的祖国”中,“的”这个字符的位置信息可以是“第4个”。

进一步地,由于YOLO模型具有快速、准确的特点,因此可以对模型进行训练,更加精准的检测MV中的字幕区域。可以预先将MV中当前显示的歌词的位置标出具体坐标,获得MV视频样本,然后根据MV视频样本训练YOLO模型,使其可以识别出视频中字幕的位置,也就是指的只识别演唱过的歌词。因此,所述步骤S10之前,还包括:获取MV视频样本,所述MV视频样本中包含用于标示所述MV视频样本中当前显示的歌词的标注;根据所述MV视频样本对初始的YOLO模型进行训练,得到能够用于实现字幕识别的预设YOLO模型。

应当理解的是,在使用YOLO模型进行MV视频字幕识别之前,可以先对模型进行训练,使其可以识别出演唱中带颜色的字幕的位置,也就是指的只识别演唱过的歌词。

在具体实现中,可以通过人工标注的方式,将MV中演唱过的歌词的位置标出,因为在传统MV中,显示歌词的演唱过的歌词可以是标注颜色,或者只显示演唱过的歌词,所以可以选取一些已经演唱过歌词标注出具体坐标,然后训练YOLO模型,使其可以识别出演唱过的歌词字幕的位置,也就是指的只识别演唱过的歌词。通过这种方式,可以训练出一个精确的YOLO模型,该模型可以有效地识别出MV中的演唱字幕区域,并输出演唱过字幕的四个顶点坐标,可以在图像中找出这个矩形,为后续的处理提供了便利。

步骤S20:根据所述字符、所述字符时间戳和所述位置信息确定所述字符的演唱时长。

应当理解的是,可以根据每个字符对应的字符时间戳或者位置信息将所有字符进行先后顺序排列,然后根据相邻字符的字符时间戳确定每个字符的演唱时间。

步骤S30:根据所述演唱时长和所述位置信息将所述字符逐个生成到目标视频中。

在实际场景中,在KTV中,可以根据源MV视频制作可用于提示用户演唱进度的演唱视频(即目标视频),在演唱视频中,可以根据演唱的进度逐字逐句的显示歌词。在演唱视频制作时,由于可以根据每个字符的位置信息确定在歌词中每个字符的先后顺序,因此,可以根据位置信息在演唱视频中逐个生成对应的字符,并且每个字符的显示时长即为对应的演唱时长,保证了逐字歌词的准确性和流畅性。

在本实施例中,公开了根据预设YOLO模型对源MV视频进行字幕识别,获得已演唱的歌词识别结果集合,所述歌词识别结果集合包括字符、时间戳和位置信息的对应关系;根据字符、时间戳和位置信息确定字符的演唱时长;根据演唱时长和位置信息将字符逐个生成到目标视频中。由于本实施例通过对源MV视频进行字幕识别并检测演唱区域的歌词,获得字符、时间戳和位置信息,再确定每个字符的演唱时长,保证逐字歌词的准确性和流畅性,再根据位置信息将字符逐个生成到目标视频中,从而能够高效且准确地提取和生成有时间戳的逐字歌词,大大降低了制作逐字歌词的成本,提高了制作效率。

参考图3,图3为本发明MV视频字幕逐字生成方法第二实施例的流程示意图。

进一步地,为了保证逐字歌词的准确性和流畅性,可以精确的计算每个字符的演唱时间长度,具体的,可以计算邻近的两个字符的时间戳之差,即获得每个字符的演唱时长,根据演唱时长生成歌词,可以更加准确和流畅。故基于上述第一实施例,在本实施例中,所述步骤S20包括:

步骤S201:依次确定所述歌词识别结果集合中的任一字符为当前字符。

步骤S202:根据所述位置信息和所述字符时间戳确定所述当前字符的前一个字符;

步骤S203:根据所述当前字符对应的字符时间戳和所述前一个字符对应的字符时间戳之间的差值确定所述当前字符的演唱时长。

应当理解的是,可以将歌词识别结果集合中除了第一个字符外的任一字符依次确定为当前字符,然后根据位置信息和字符时间戳找到当前字符的前一个字符,可以计算二者的时间戳的差值,由此可以计算出每个字符的演唱时长。

在本实施例中,公开了基于YOLO模型对源MV视频进行字幕识别,得到其中字符、字符时间戳及字符位置等信息,依次确定歌词识别结果集合中的任一字符为当前字符,根据位置信息和字符时间戳确定当前字符的前一个字符;根据所述当前字符对应的字符时间戳和所述前一个字符对应的字符时间戳之间的差值确定所述当前字符的演唱时长,进而基于演唱时长及字符位置将字符逐个生成到目标视频中。由于本实施例中通过计算每个字符和前一个字符的时间戳的差值,从而确定出每个字符的演唱时长,根据演唱时长生成歌词,从而可以使得生成的逐字歌词更加准确和流畅。

参考图4,图4为本发明MV视频字幕逐字生成方法第三实施例的流程示意图。

进一步地,由于字幕识别后获得的是每一帧视频画面,对应着当前已演唱的歌词进度,同一句歌词对应多个视频画面帧,识别后的歌词是散乱的,因此,可以将同一句歌词的歌词识别结果进行聚合,生成每句歌词对应的歌词识别结果集合,便于逐句显示,还可以避免造成所有字幕全部显示在视频中的问题。故基于上述第一实施例,在本实施例中,所述步骤S10包括:

步骤S101:根据预设YOLO模型对源MV视频进行字幕识别,获得所述源MV视频中当前显示的歌词的歌词识别结果,所述歌词识别结果包括当前显示歌词文本、文本时间戳和文本长度的对应关系,所述文本时间戳为所述当前显示歌词文本对应的时间戳。

应当理解的是,为了将同一句歌词的歌词识别结果进行聚合,可以根据预设YOLO模型对源MV视频进行字幕识别时,同时获取当前歌词的文本长度。例如,当前显示的歌词识别结果的实例为:歌词识别结果1:“我和我”,文本时间戳x,3;歌词识别结果2:“我和我的祖国”,文本时间戳y,6;歌词识别结果3:“一刻都”,文本时间戳z,3。其中,文本时间戳的大小关系为x

步骤S102:根据所述文本时间戳和所述文本长度对所述当前显示歌词文本进行聚合,生成每句歌词对应的歌词识别结果集合,所述歌词识别结果集合包括字符、字符时间戳和位置信息的对应关系,所述字符时间戳为所述字符对应的时间戳。

应当理解的是,可以根据文本时间戳和文本长度对歌词识别结果进行聚合,生成每句歌词对应的歌词识别结果集合,并对每个歌词识别结果集合中的当前显示歌词文本进行拆分,获得组成本句歌词的一个个字符和对应的位置信息,例如,根据上述例子中的歌词识别结果1和2可以生成一个歌词识别结果集合,歌词识别结果3可以生成另一个歌词识别结果集合。

值得说明的是,还可以根据文本时间戳计算出每个字符的字符时间戳。若视频帧截取的粒度足够大,可以在截取到的相邻两帧中,当前显示歌词文本的字符数量最多增加一个字符,则根据文本时间戳就可以确定每个字符的时间戳。

在实际情况中,考虑到视频帧截取的粒度可能不够小,或者歌词太快导致邻近两次截取的歌词文本中相差多个字符,为了使得每个字符的时间戳更加的精确,还可以通过计算平均时间的方式确定每个字符的时间戳。例如,在时间x时,识别的歌词识别结果为“我和我”,在时间y时,识别的歌词识别结果为“我和我的祖国”,在时间y-x内唱的三个字“的祖国”,则每个字符的时间戳之间相差为(y-x)/3,由此即可得出每个字的精确时间戳。

值得说明的是,歌词识别结果可以包含所有的歌词截取结果,而每个歌词识别结果集合中只包含一句歌词中每个字符和对应的时间戳还有位置信息的对应关系。

进一步地,为了便于逐句逐字的生成字幕,可以根据文本长度判断一句歌词是否结束,从而将同一句歌词的歌词识别结果生成每一个字符,并将相关的信息添加至同一个识别结果集合中。因此,所述步骤S102,还包括:根据所述文本时间戳和所述文本长度判断本句歌词是否结束;若未结束,则创建本句歌词对应的歌词识别结果集合为第一歌词识别结果集合;根据所述歌词识别结果生成字符、字符时间戳和位置信息的对应关系,并将当前生成的字符、字符时间戳和位置信息的对应关系添加至所述第一歌词识别结果集合。

可以理解的是,为了便于将属于一句歌词的歌词识别结果聚合到一个歌词识别结果集合中,可以根据文本时间戳和文本长度判断本句歌词是否结束,若未结束,则表示属于同一句歌词,则创建本句歌词对应的歌词识别结果集合为第一歌词识别结果集合,因此将歌词识别结果中的字符、字符时间戳和位置信息的对应关系添加至第一歌词识别结果集合中。

值得说明的是,为了提高结果聚合的效率,可以确定每个歌词识别结果集合中文本长度最长的歌词识别结果,然后只根据文本长度最长的歌词识别结果生成字符、时间戳和位置信息的对应关系,仅生成一次,可以避免重复生成字符、时间戳和位置信息的对应关系,同时也可以提高处理效率。

进一步地,由于一句歌词在唱完之前,文本长度是逐步变长的,若当前文本长度不小于前一帧视频图像的文本长度,则表示本句歌词未结束,应该将歌词识别结果添加至同一个识别结果集合中。因此,所述步骤S102,还包括:根据所述文本时间戳确定所述歌词识别结果的前一个歌词识别结果;若所述歌词识别结果对应的文本长度大于或等于所述前一个歌词识别结果对应的文本长度,则表示本句歌词未结束。

可以理解的是,由于随着时间推移,针对同一句歌词,每次截取到的歌词是变长或者不变的,因此,可以比较歌词识别结果和前一个歌词识别结果的文本长度,若大于或等于所述前一个歌词识别结果的文本长度,则可以表示本句歌词未结束。

进一步地,考虑到一句歌词在唱完之前,文本长度是逐步变长的,若当前文本长度小于前一帧视频图像的文本长度,则表示上句歌词已经结束,从而将同一句歌词的歌词识别结果生成每一个字符,并将相关的信息添加至同一个识别结果集合中。因此,所述步骤S101之后,还包括:若已结束,则创建下句歌词对应的歌词识别结果集合为第二歌词识别结果集合;根据所述歌词识别结果生成字符、字符时间戳和位置信息的对应关系,并将当前生成的字符、字符时间戳和位置信息的对应关系添加至所述第二歌词识别结果集合。

应当理解的是,可以比较歌词识别结果和前一个歌词识别结果的文本长度,若小于所述前一个歌词识别结果的文本长度,则可以表示一句歌词已经结束,本次的歌词识别结果属于新一句歌词,因此,可以创建第二歌词识别结果集合,并将生成对应的字符对应关系添加至第二歌词识别结果集合中。

在本实施例中,公开了先基于预设YOLO模型对源MV视频进行字幕识别,获得当前显示歌词文本、文本时间戳和文本长度等文本信息,根据所述文本时间戳和所述文本长度对所述当前显示歌词文本进行聚合,生成每句歌词对应的歌词识别结果集合,包括字符、字符时间戳和位置信息等字符信息。由于本实施例先通过字幕识别获得当前显示歌词文本相关的信息,由于字幕识别后获得的是每一帧视频画面,对应着当前已演唱的歌词进度,同一句歌词对应多个视频画面帧,识别后的歌词是散乱的,因此,可以将同一句歌词的歌词识别结果进行聚合,生成每句歌词对应的一个个集合,便于逐句显示,还可以避免造成所有字幕全部显示在视频中的问题。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有MV视频字幕逐字生成程序,所述MV视频字幕逐字生成程序被处理器执行时实现如上文所述的MV视频字幕逐字生成方法的步骤。

参照图5,图5为本发明MV视频字幕逐字生成装置第一实施例的结构框图。

如图5所示,本发明实施例提出的MV视频字幕逐字生成装置包括:

歌词提取模块501,用于根据预设YOLO模型对源MV视频进行字幕识别,获得所述源MV视频中当前显示的歌词的歌词识别结果集合,所述歌词识别结果集合包括字符、字符时间戳和位置信息的对应关系;

时长确定模块502,用于根据所述字符、所述字符时间戳和所述位置信息确定所述字符的演唱时长;

字幕生成模块503,用于根据所述演唱时长和所述位置信息将所述字符逐个生成到目标视频中。

本实施例通过基于YOLO模型对源MV视频进行字幕识别,得到其中字符、字符时间戳及字符位置等信息,基于这些信息确定出字符的演唱时长,进而基于演唱时长及字符位置将字符逐个生成到目标视频中。很明显,本发明方案无需人工参与矫正和修改等,而是全自动化实现,因此有效降低了制作逐字歌词的成本;同时,不同于现有技术中只根据颜色提取进行OCR识别,本发明基于YOLO模型进行字幕识别时并不局限于颜色,而是能够充分识别到视频中可能存在的全部文字特征,包括字符、字符时间戳及字符位置等,基于此确定字符演唱时长后按照字符的位置及演唱时长将其逐个生成到目标视频中,能够大大提高逐字歌词生成的准确率。

基于本发明上述MV视频字幕逐字生成装置第一实施例,提出本发明MV视频字幕逐字生成装置的第二实施例。

在本实施例中,所述时长确定模块502,还用于依次确定所述歌词识别结果集合中的任一字符为当前字符;根据所述位置信息和所述字符时间戳确定所述当前字符的前一个字符;根据所述当前字符对应的字符时间戳和所述前一个字符对应的字符时间戳之间的差值确定所述当前字符的演唱时长。

作为一种实施方式,所述歌词提取模块501,还用于根据预设YOLO模型对源MV视频进行字幕识别,获得所述源MV视频中当前显示的歌词的歌词识别结果,所述歌词识别结果包括当前显示歌词文本、文本时间戳和文本长度的对应关系,所述文本时间戳为所述当前显示歌词文本对应的时间戳;根据所述文本时间戳和所述文本长度对所述当前显示歌词文本进行聚合,生成每句歌词对应的歌词识别结果集合,所述歌词识别结果集合包括字符、字符时间戳和位置信息的对应关系,所述字符时间戳为所述字符对应的时间戳。

作为一种实施方式,所述歌词提取模块501,还用于根据所述文本时间戳和所述文本长度判断本句歌词是否结束;若未结束,则创建本句歌词对应的歌词识别结果集合为第一歌词识别结果集合;根据所述歌词识别结果生成字符、字符时间戳和位置信息的对应关系,并将当前生成的字符、字符时间戳和位置信息的对应关系添加至所述第一歌词识别结果集合。

作为一种实施方式,所述歌词提取模块501,还用于根据所述文本时间戳确定所述歌词识别结果的前一个歌词识别结果;若所述歌词识别结果对应的文本长度大于或等于所述前一个歌词识别结果对应的文本长度,则表示本句歌词未结束。

作为一种实施方式,所述歌词提取模块501,还用于若已结束,则创建下句歌词对应的歌词识别结果集合为第二歌词识别结果集合;根据所述歌词识别结果生成字符、字符时间戳和位置信息的对应关系,并将当前生成的字符、字符时间戳和位置信息的对应关系添加至所述第二歌词识别结果集合。

作为一种实施方式,所述歌词提取模块501,还用于获取MV视频样本,所述MV视频样本中包含用于标示所述MV视频样本中当前显示的歌词的标注;根据所述MV视频样本对初始的YOLO模型进行训练,得到能够用于实现字幕识别的预设YOLO模型。

本发明MV视频字幕逐字生成装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 视频生成、视频播放方法、装置、电子设备及存储介质
  • 视频摘要生成方法、装置、存储介质和电子设备
  • 视频内容生成方法、装置、计算机设备和存储介质
  • 视频配音生成方法、装置、设备及存储介质
  • 一种视频集锦的生成方法、装置、电子设备及存储介质
  • 视频字幕的生成方法、装置、设备和存储介质
  • 视频动态字幕生成方法、装置、电子设备及存储介质
技术分类

06120116485686