掌桥专利:专业的专利平台
掌桥专利
首页

基于人工智能的视频精彩片段剪辑方法、系统及存储介质

文献发布时间:2024-04-18 19:58:26


基于人工智能的视频精彩片段剪辑方法、系统及存储介质

技术领域

本申请涉及视频剪辑技术领域,具体而言,涉及一种基于人工智能的视频精彩片段剪辑方法、系统及存储介质。

背景技术

随着移动互联网的发展,视频已经作为目前最主流的媒体传播方式,而近年来短视频的出现更是成为了人们观看视频的主要方式之一。而在各大视频网站、新媒体行业、电视大屏等终端,通过短视频引流也成为了各个传媒行业促进用户增长的重要手段。针对引流需要,短视频生产的内容质量也对用户引流的效果起决定性的作用,而如何通过技术手段,快速的实现视频中精彩片段的识别,成为了视频行业积极探索的重要技术手段。因此视频行业对高效、智能化的视频精彩片段剪辑方案需求日益增长。而对于视频中精彩片段的分析,一般的处理方法有如下几种类型:

1)对于视频精彩片段智能识别通常的做法是视频画面分析,首先对视频进行设定时长的多段拆分,分析视频画面中的图像信息,根据预设的美学评价(即通过构图、光照、色彩等维度标准数据所构建的数据集,是精彩片段能力实现的重要参考标准),将该部分片段识别为精彩片段,是以视频画面分析为核心的方案。

但视频画面图像分析方案,通常以视频画面图像分析的方案,需要对视频进行分段,而分段的数量越多,对精彩片段分析的精细度越高。因此为了精准识别视频精彩片段,往往需要对视频进行大量的分段,之后对截取的视频片段进行画面分析,这也往往需要根据预设的视频画面美学评价来判定画面的精彩程度,比如预设有人物和动物出现的画面,或者有人物大笑表情的画面被优先设别为精彩画面截取在精彩片段中。这种方案需要对视频进行大量的分片,对服务器性能消耗较大,并且需要根据用户需求预先设定精彩画面的评价标准,造成精彩片段截取的限制较多且形式比较单一。

2)对于视频精彩片段智能识别另一种通常的做法是提取视频关键帧,首先获将视频流切分为多段,得到多个视频片段,对每个片段进行关键帧提取,针对提取的关键帧,识别每个关键帧的图像特征向量,基于所述的特征向量,通过深度学习视频模型筛选出与所述深度学习模型中的某个分类相匹配的目标视频片段,是以视频画面关键帧画面分析为核心的方案。

但视频画面关键帧分析方案,与第一种方案类似,通常也需要对视频进行分段,且在视频分段后,对分段的视频进行大量关键帧的截取,而分段的数量越多,截取的关键帧越多,对精彩片段分析的精细度越高,因此为了精准识别视频精彩片段,往往需要对视频进行大量的分段以及大量的关键帧提取,之后分析各个关键帧图像特征向量,根据特征向量判定该画面是否符合需要的精彩片段标准。这种方案也同样需要对视频进行大量的分片,以及大量的关键帧提取,对服务器性能消耗也很大。

因此,如何实现对精彩视频的高效剪辑,是本领域需要解决的问题之一。

发明内容

本申请实施例的目的在于提供一种基于人工智能的视频精彩片段剪辑方法、系统及存储介质,以视频码率参数为基础,使用人工智能技术构建视频精彩片段识别模型,智能高效的完成大批量视频精彩片段的提取工作。

为了实现上述目的,本申请的实施例通过如下方式实现:

第一方面,本申请实施例提供一种基于人工智能的视频精彩片段剪辑方法,包括:获取视频数据,其中,视频数据采用H264编码模式,VBR码率控制模式,且为设定帧率,以及,视频数据包含视频时间戳;对所述视频数据进行特征提取,确定出所述视频数据的文件综合码率、视频平均码率、音频平均码率、每个时刻的视频码率与其前一时刻的视频码率的参数比值、每个时刻的音频码率与其前一时刻的音频码率的参数比值、每个时刻的视频码率与其后一时刻的视频码率的参数比值、每个时刻的音频码率与其后一时刻的音频码率的参数比值,并据此形成输入特征,其中,文件综合码率包含所述视频数据在每一时刻的视频码率和音频码率;将所述视频数据的输入特征输入至预设的视频精彩片段识别模型中,确定出所述视频数据中的精彩片段和非精彩片段,并剪辑出所述精彩片段。

结合第一方面,在第一方面的第一种可能的实现方式中,视频精彩片段识别模型的构建方式为:获取至少一种类型的视频素材集,其中,每种类型的视频素材集中每个视频素材采用H264编码模式,VBR码率控制模式,且为设定帧率,以及,每个视频素材至少包含标注的精彩片段时间戳和非精彩片段时间戳,每个精彩片段的时长不低于设定时长;针对每种类型的视频素材集中的每个视频素材,基于视频素材的精彩片段时间戳和非精彩片段时间戳,裁剪出此视频素材的I类片段和II类片段,其中,每个I类片段包含精彩片段所在时段、精彩片段前置时段、精彩片段后置时段,每个II类片段包含非精彩片段所在时段、非精彩片段前置时段、非精彩片段后置时段;针对每个视频素材的每个I类片段:对所述I类片段进行特征提取,确定出精彩片段所在时段的文件综合码率、视频平均码率、音频平均码率,以及精彩片段所在时段内起始时刻的视频码率与精彩片段前置时段内相邻时刻的视频码率的参数比值、精彩片段所在时段内起始时刻的音频码率与精彩片段前置时段内相邻时刻的音频码率的参数比值、精彩片段所在时段内结束时刻的视频码率与精彩片段后置时段内相邻时刻的视频码率的参数比值、精彩片段所在时段内结束时刻的音频码率与精彩片段后置时段内相邻时刻的音频码率的参数比值,并据此形成所述I类片段中精彩片段对应的输入特征,其中,文件综合码率包含精彩片段所在时段内每一时刻的视频码率和音频码率;针对每个视频素材的每个II类片段:对所述II类片段进行特征提取,确定出非精彩片段所在时段的文件综合码率、视频平均码率、音频平均码率,以及非精彩片段所在时段内起始时刻的视频码率与非精彩片段前置时段内相邻时刻的视频码率的参数比值、非精彩片段所在时段内起始时刻的音频码率与非精彩片段前置时段内相邻时刻的音频码率的参数比值、非精彩片段所在时段内结束时刻的视频码率与非精彩片段后置时段内相邻时刻的视频码率的参数比值、非精彩片段所在时段内结束时刻的音频码率与非精彩片段后置时段内相邻时刻的音频码率的参数比值,并据此形成所述II类片段中非精彩片段对应的输入特征,其中,文件综合码率包含非精彩片段所在时段内每一时刻的视频码率和音频码率;基于每种类型的视频素材集中每个视频素材的每个I类片段中精彩片段对应的输入特征和每个II类片段中非精彩片段对应的输入特征,对深度学习数据模型进行训练和测试,最终得到训练好的视频精彩片段识别模型。

结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,视频素材集的类型为一种时,基于每种类型的视频素材集中每个视频素材的每个I类片段中精彩片段对应的输入特征和每个II类片段中非精彩片段对应的输入特征,对深度学习数据模型进行训练和测试,最终得到训练好的视频精彩片段识别模型,包括:将视频素材集中每个视频素材的每个I类片段中精彩片段对应的输入特征和每个II类片段中非精彩片段对应的输入特征,划分为训练集和测试集,其中,每个输入特征对应有标签,标签揭示该输入特征对应精彩片段或非精彩片段;搭建AIGC深度学习数据模型;利用训练集对AIGC深度学习数据模型进行训练,利用测试集对训练后的AIGC深度学习数据模型进行测试,最终得到训练好的视频精彩片段识别模型。

结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,视频素材集的类型为多种时,基于每种类型的视频素材集中每个视频素材的每个I类片段中精彩片段对应的输入特征和每个II类片段中非精彩片段对应的输入特征,对深度学习数据模型进行训练和测试,最终得到训练好的视频精彩片段识别模型,包括:针对每种类型的视频素材集:将视频素材集中每个视频素材的每个I类片段中精彩片段对应的输入特征和每个II类片段中非精彩片段对应的输入特征,划分为训练集和测试集,其中,每个输入特征对应有标签,标签揭示该输入特征对应精彩片段或非精彩片段;搭建多个AIGC深度学习子模型,其中,AIGC深度学习子模型的数量与视频素材集的类型数量一致;分别利用每种类型的视频素材集对应的训练集和测试集各自对一个AIGC深度学习子模型进行训练和测试,得到训练好的AIGC深度学习子模型;将所有AIGC深度学习子模型“并联”合并为一个大模型,作为视频精彩片段识别模型。

结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,分别利用每种类型的视频素材集对应的训练集和测试集各自对一个AIGC深度学习子模型进行训练和测试,得到训练好的AIGC深度学习子模型,包括:针对每个AIGC深度学习子模型:利用相应类型的视频素材集对应的训练集对AIGC深度学习子模型进行训练;利用相应类型的视频素材集对应的测试集对AIGC深度学习子模型进行测试;对测试结果进行人工校准后,加入到训练集中进行二次训练,直到满足准确率要求,完成AIGC深度学习子模型的训练。

结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,利用相应类型的视频素材集对应的训练集对AIGC深度学习子模型进行训练,包括:将相应类型的视频素材集对应的训练集中的输入特征按照标签进行分组,得到精彩片段训练数据和非精彩片段训练数据;将精彩片段训练数据和非精彩片段训练数据采用“先独立后交叉”的训练模式对AIGC深度学习子模型进行训练,其中,“先独立后交叉”的训练模式表示先用精彩片段训练数据对AIGC深度学习子模型进行训练,再用非精彩片段训练数据对AIGC深度学习子模型进行训练,最后混合精彩片段训练数据和非精彩片段训练数据对AIGC深度学习子模型进行训练。

结合第一方面的第四种可能的实现方式,在第一方面的第六种可能的实现方式中,AIGC深度学习子模型为LSTM模型、BERT模型或GRU模型。

第二方面,本申请实施例提供一种基于人工智能的视频精彩片段剪辑系统,包括:数据获取单元,用于获取视频数据,其中,视频数据采用H264编码模式,VBR码率控制模式,且为设定帧率,以及,视频数据包含视频时间戳;特征提取单元,用于对所述视频数据进行特征提取,确定出所述视频数据的文件综合码率、视频平均码率、音频平均码率、每个时刻的视频码率与其前一时刻的视频码率的参数比值、每个时刻的音频码率与其前一时刻的音频码率的参数比值、每个时刻的视频码率与其后一时刻的视频码率的参数比值、每个时刻的音频码率与其后一时刻的音频码率的参数比值,并据此形成输入特征,其中,文件综合码率包含所述视频数据在每一时刻的视频码率和音频码率;片段剪辑单元,用于将所述视频数据的输入特征输入至预设的视频精彩片段识别模型中,确定出所述视频数据中的精彩片段和非精彩片段,并剪辑出所述精彩片段。

第三方面,本申请实施例提供一种存储介质,所述存储介质设置在电子设备内,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在电子设备执行第一方面或第一方面的可能的实现方式中任一项所述的基于人工智能的视频精彩片段剪辑方法。

第四方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现第一方面或第一方面的可能的实现方式中任一项所述的基于人工智能的视频精彩片段剪辑方法。

有益效果:

1.本方案通过获取视频数据(采用H264编码模式,VBR码率控制模式,且为设定帧率,包含视频时间戳);对视频数据进行特征提取,确定出视频数据的文件综合码率(包含视频数据在每一时刻的视频码率和音频码率)、视频平均码率、音频平均码率、每个时刻的视频码率与其前一时刻的视频码率的参数比值、每个时刻的音频码率与其前一时刻的音频码率的参数比值、每个时刻的视频码率与其后一时刻的视频码率的参数比值、每个时刻的音频码率与其后一时刻的音频码率的参数比值,并据此形成输入特征;将视频数据的输入特征输入至预设的视频精彩片段识别模型中,确定出视频数据中的精彩片段和非精彩片段,并剪辑出精彩片段。利用视频码率的相关参数变化对视频精彩片段进行分析并建立视频精彩片段识别模型,能够快速准确地对视频中精彩片段智能分析,使用的服务器资源消耗更少,部署更加轻量便捷。相较于视频剪辑人员采用人工分析的方式提取精彩片段,本方案能够极大程度地减少视频剪辑人员的工作量,智能高效地完成大批量视频精彩片段的提取工作。

2.本方案是基于视频码率参数的分析以实现视频精彩片段的智能识别和剪辑处理,相较于图像分析的技术,所剪辑的精彩片段在场景形式上更加丰富,避免了现有方式场景形式单一的缺点。而在各种差别较大的图像场景下均能够识别精彩片段,同时结合了音频码率参数,与图像识别技术相比参照纬度更全面,所剪辑出的精彩片段场景更加丰富。以及,本方案可针对不同类型的视频进行差异化的精彩片段识别(通过不同的子模型对不同类型的视频进行精彩片段识别),具有更强的实用性。而基于码率参数分析,读取视频码率参数计算,相较于使用图像识别的技术,对设备GPU性能要求大大降低,节省设备成本。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于人工智能的视频精彩片段剪辑方法的流程图。

图2为本申请实施例提供的一种电子设备的结构框图。

图3为本申请实施例提供的一种基于人工智能的视频精彩片段剪辑系统的示意图。

图标:10-基于人工智能的视频精彩片段剪辑系统;11-数据获取单元;12-特征提取单元;13-片段剪辑单元;20-电子设备;21-存储器;22-通信模块;23-总线;24-处理器。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

请参阅图1,图1为本申请实施例提供的一种基于人工智能的视频精彩片段剪辑方法的流程图。基于人工智能的视频精彩片段剪辑方法可以包括步骤S10、步骤S20和步骤S30。

而基于人工智能的视频精彩片段剪辑方法可以应用于电子设备20,请参阅图2,图2为本申请实施例提供的一种电子设备20的结构框图。电子设备20可以为电脑或服务器,此处不作限定。

示例性的,电子设备20可以包括:通过网络与外界连接的通信模块22、用于执行程序指令的一个或多个处理器24、总线23和不同形式的存储器21,例如,磁盘、ROM、或RAM,或其任意组合。存储器21、通信模块22、处理器24之间可以通过总线23连接。

示例性的,存储器21中存储有程序。处理器24可以从存储器21调用并运行这些程序,从而便可以通过运行程序而实现基于人工智能的视频精彩片段剪辑方法。

为了便于对本方案的理解,在介绍基于人工智能的视频精彩片段剪辑方法之前,此处先对视频精彩片段识别模型进行介绍。

首先,电子设备20可以获取至少一种类型的视频素材集,其中,每种类型的视频素材集中每个视频素材采用H264编码模式,VBR码率控制模式,且为设定帧率,以及,每个视频素材至少包含标注的精彩片段时间戳和非精彩片段时间戳,每个精彩片段的时长不低于设定时长。

示例性的,视频素材集中的每个原始视频素材可能存在模式、帧率等不一致的情况,因此可以对视频素材集中的每个原始视频素材进行批量预处理,将每个视频素材设定编码模式为H264,视频码率控制模式为VBR、音频频码率控制模式为VBR,并统一帧率(例如25帧每秒),由此得到符合要求的视频素材,以确保后续分析的一致性和准确性。

而每个视频素材至少包含标注的精彩片段时间戳(用于确定精彩片段)和非精彩片段时间戳(用于确定非精彩片段),而每个精彩片段的时长不低于设定时长(这个设定时长可以根据不同类型的视频素材设置为不同的值,具体值根据需要设定)。至于每个视频素材中标注的精彩片段和非精彩片段数量,一般是多个。

那么,针对每种类型的视频素材集中的每个视频素材:

电子设备20可以基于视频素材的精彩片段时间戳和非精彩片段时间戳,裁剪出此视频素材的I类片段和II类片段,其中,每个I类片段包含精彩片段所在时段、精彩片段前置时段、精彩片段后置时段,每个II类片段包含非精彩片段所在时段、非精彩片段前置时段、非精彩片段后置时段。

例如,以精彩片段时间戳可以裁剪出精彩片段所在时段,以此精彩片段所在时段的起始时刻向前推一定时长(例如3秒),可以裁剪出精彩片段前置时段,以此精彩片段所在时段的结束时刻向后推一定时长(例如3秒),可以裁剪出精彩片段后置时段。以精彩片段所在时段、精彩片段前置时段、精彩片段后置时段组成的片段即I类片段。

同理,以非精彩片段时间戳可以裁剪出非精彩片段所在时段,以此非精彩片段所在时段的起始时刻向前推一定时长(例如3秒),可以裁剪出非精彩片段前置时段,以此非精彩片段所在时段的结束时刻向后推一定时长(例如3秒),可以裁剪出非精彩片段后置时段。以非精彩片段所在时段、非精彩片段前置时段、非精彩片段后置时段组成的片段即II类片段。

由此可以确定出每种类型的视频素材集中的每个视频素材对应的I类片段和II类片段。

那么,针对每个视频素材的每个I类片段:

电子设备20可以对I类片段进行特征提取,确定出精彩片段所在时段的文件综合码率(包含精彩片段所在时段内每一时刻的视频码率和音频码率)、视频平均码率、音频平均码率,以及精彩片段所在时段内起始时刻的视频码率与精彩片段前置时段内相邻时刻的视频码率的参数比值(即精彩片段所在时段内起始时刻与其前一时刻的视频码率的参数比值,此前一时刻是位于该I类片段中精彩片段前置时段内的)、精彩片段所在时段内起始时刻的音频码率与精彩片段前置时段内相邻时刻的音频码率的参数比值(即精彩片段所在时段内起始时刻与其前一时刻的音频码率的参数比值,此前一时刻是位于该I类片段中精彩片段前置时段内的)、精彩片段所在时段内结束时刻的视频码率与精彩片段后置时段内相邻时刻的视频码率的参数比值(即精彩片段所在时段内结束时刻与其后一时刻的视频码率的参数比值,此后一时刻是位于该I类片段中精彩片段后置时段内的)、精彩片段所在时段内结束时刻的音频码率与精彩片段后置时段内相邻时刻的音频码率的参数比值(即精彩片段所在时段内结束时刻与其后一时刻的音频码率的参数比值,此后一时刻是位于该I类片段中精彩片段后置时段内的)。而后,电子设备20即可据此形成I类片段中精彩片段对应的输入特征。

当然,为了丰富精彩片段对应的输入特征,还可以提取更加具体的一些参数,例如精彩片段前置时段内每一时刻与其前一时刻的视频码率的参数比值和音频码率的参数比值,精彩片段后置时段内每一时刻与其后一时刻的视频码率的参数比值和音频码率的参数比值等。

以及,针对每个视频素材的每个II类片段:

电子设备20可以对II类片段进行特征提取,确定出非精彩片段所在时段的文件综合码率(包含非精彩片段所在时段内每一时刻的视频码率和音频码率)、视频平均码率、音频平均码率,以及非精彩片段所在时段内起始时刻的视频码率与非精彩片段前置时段内相邻时刻的视频码率的参数比值(即非精彩片段所在时段内起始时刻与其前一时刻的视频码率的参数比值,此前一时刻是位于该II类片段中非精彩片段前置时段内的)、非精彩片段所在时段内起始时刻的音频码率与非精彩片段前置时段内相邻时刻的音频码率的参数比值(即非精彩片段所在时段内起始时刻与其前一时刻的音频码率的参数比值,此前一时刻是位于该II类片段中非精彩片段前置时段内的)、非精彩片段所在时段内结束时刻的视频码率与非精彩片段后置时段内相邻时刻的视频码率的参数比值(即非精彩片段所在时段内起始时刻与其后一时刻的视频码率的参数比值,此后一时刻是位于该II类片段中非精彩片段后置时段内的)、非精彩片段所在时段内结束时刻的音频码率与非精彩片段后置时段内相邻时刻的音频码率的参数比值(即非精彩片段所在时段内起始时刻与其后一时刻的音频码率的参数比值,此后一时刻是位于该II类片段中非精彩片段后置时段内的)。而后,电子设备20即可据此形成所述II类片段中非精彩片段对应的输入特征。

类似的,为了丰富非精彩片段对应的输入特征,还可以提取更加具体的一些参数,例如非精彩片段前置时段内每一时刻与其前一时刻的视频码率的参数比值和音频码率的参数比值,非精彩片段后置时段内每一时刻与其后一时刻的视频码率的参数比值和音频码率的参数比值等。

确定出每种类型的视频素材集中每个视频素材的每个I类片段中精彩片段对应的输入特征和每个II类片段中非精彩片段对应的输入特征后,电子设备20可以据此对深度学习数据模型进行训练和测试,最终得到训练好的视频精彩片段识别模型。

示例性的,视频素材集的类型为一种时,电子设备20可以将视频素材集中每个视频素材的每个I类片段中精彩片段对应的输入特征和每个II类片段中非精彩片段对应的输入特征,划分为训练集和测试集(例如按照7:3的比例划分),其中,每个输入特征对应有标签,标签揭示该输入特征对应精彩片段或非精彩片段。

而后,搭建AIGC(Artificial Intelligence GPT-3.5Container,是一个用于深度学习的工具和平台,它基于GPT-3.5模型,并提供了一系列的功能和接口,可以用于各种深度学习任务)深度学习数据模型(例如LSTM模型、BERT模型或GRU模型等)。然后利用训练集对AIGC深度学习数据模型进行训练,利用测试集对训练后的AIGC深度学习数据模型进行测试,最终得到训练好的视频精彩片段识别模型。

训练的策略可以是,先利用训练集中的精彩片段的训练样本(即I类片段对应的输入特征),对AIGC深度学习数据模型进行训练,对精彩片段的识别达到设定的准确率后,再利用训练集中的非精彩片段的训练样本(即II类片段对应的输入特征),对AIGC深度学习数据模型进行训练,对非精彩片段的识别达到设定的准确率后,再利用训练集中的训练样本(即I类片段对应的输入特征和II类片段对应的输入特征)对AIGC深度学习数据模型进行训练交叉训练,使得AIGC深度学习数据模型对精彩片段和非精彩片段的识别达到设定的准确率,即完成对AIGC深度学习数据模型的训练。而后即可利用测试集对训练后的AIGC深度学习数据模型进行测试,并对测试结果进行人工核定校准,然后作为训练样本加入到训练集中进行二次训练,直到达到训练要求。由此即可完成对AIGC深度学习数据模型的训练和测试,得到训练好的视频精彩片段识别模型。

示例性的,视频素材集的类型为多种时,针对每种类型的视频素材集:

电子设备20可以将视频素材集中每个视频素材的每个I类片段中精彩片段对应的输入特征和每个II类片段中非精彩片段对应的输入特征,划分为训练集和测试集(例如按照7:3的比例划分),其中,每个输入特征对应有标签,标签揭示该输入特征对应精彩片段或非精彩片段。

而后,搭建多个AIGC深度学习子模型(例如LSTM模型、BERT模型或GRU模型等),其中,AIGC深度学习子模型的数量与视频素材集的类型数量一致。

然后分别利用每种类型的视频素材集对应的训练集和测试集各自对一个AIGC深度学习子模型进行训练和测试,得到训练好的AIGC深度学习子模型。

针对每个AIGC深度学习子模型:

电子设备20可以利用相应类型的视频素材集对应的训练集对AIGC深度学习子模型进行训练。训练的策略可以是,将相应类型的视频素材集对应的训练集中的输入特征按照标签进行分组,得到精彩片段训练数据和非精彩片段训练数据。将精彩片段训练数据和非精彩片段训练数据采用“先独立后交叉”的训练模式对AIGC深度学习子模型进行训练,其中,“先独立后交叉”的训练模式表示先用精彩片段训练数据对AIGC深度学习子模型进行训练,再用非精彩片段训练数据对AIGC深度学习子模型进行训练,最后混合精彩片段训练数据和非精彩片段训练数据对AIGC深度学习子模型进行训练。具体过程可参阅前文针对视频素材集的类型为一种时介绍的训练策略,此处不做赘述。

之后可以利用相应类型的视频素材集对应的测试集对AIGC深度学习子模型进行测试,然后对测试结果进行人工校准(例如核对和校正精彩片段时间戳、非精彩片段时间戳等)后,加入到训练集中进行二次训练,直到满足准确率要求,完成AIGC深度学习子模型的训练。

训练完所有的AIGC深度学习子模型后,可以将所有AIGC深度学习子模型“并联”合并为一个大模型,作为视频精彩片段识别模型。

得到频精彩片段识别模型后,可以将频精彩片段识别模型内置在电子设备20内,以便运行基于人工智能的视频精彩片段剪辑方法。

为了实现对视频精彩片段的智能剪辑,电子设备20可以运行步骤S10。

步骤S10:获取视频数据,其中,视频数据采用H264编码模式,VBR码率控制模式,且为设定帧率,以及,视频数据包含视频时间戳。

在本实施例中,电子设备20可以获取视频数据(或多个视频数据的集合),由于视频数据可能存在模式、帧率等不一致的情况,因此可以先对视频数据进行预处理,将视频数据设定编码模式为H264,视频码率控制模式为VBR、音频频码率控制模式为VBR,并统一帧率(例如25帧每秒),由此得到符合要求的视频数据。并且,每个视频数据具有对应的类型标签,例如电视剧、电影、综艺、动漫、体育赛事、纪录片等常见媒资类型,视频数据的类型标签属于视频精彩片段识别模型中AIGC深度学习子模型的类型标签中的一种。

得到视频数据后,电子设备20可以运行步骤S20。

步骤S20:对所述视频数据进行特征提取,确定出所述视频数据的文件综合码率、视频平均码率、音频平均码率、每个时刻的视频码率与其前一时刻的视频码率的参数比值、每个时刻的音频码率与其前一时刻的音频码率的参数比值、每个时刻的视频码率与其后一时刻的视频码率的参数比值、每个时刻的音频码率与其后一时刻的音频码率的参数比值,并据此形成输入特征,其中,文件综合码率包含所述视频数据在每一时刻的视频码率和音频码率。

在本实施例中,电子设备20可以对视频数据进行特征提取,确定出视频数据的文件综合码率(包含视频数据在每一时刻的视频码率和音频码率)、视频平均码率、音频平均码率、每个时刻的视频码率与其前一时刻的视频码率的参数比值、每个时刻的音频码率与其前一时刻的音频码率的参数比值、每个时刻的视频码率与其后一时刻的视频码率的参数比值、每个时刻的音频码率与其后一时刻的音频码率的参数比值,并据此形成输入特征。

需要说明的是,对于批量处理的情况,即可对每个视频数据进行特征提取,得到对应的输入特征(每个输入特征有相应的类型标签),以便后续利用视频精彩片段识别模型进行批量处理。

得到视频数据对应的输入特征后,电子设备20可以运行步骤S30。

步骤S30:将所述视频数据的输入特征输入至预设的视频精彩片段识别模型中,确定出所述视频数据中的精彩片段和非精彩片段,并剪辑出所述精彩片段。

在本实施例中,电子设备20可以将视频数据的输入特征输入至预设的视频精彩片段识别模型中,以便视频精彩片段识别模型基于输入特征进行精彩片段、非精彩片段的识别,从而实现对精彩片段的剪辑。

对于批量处理的情况,可以依据输入特征的类型标签(揭示视频数据的所属类型,例如电视剧、电影、综艺、动漫、体育赛事、纪录片中的一种),使得视频精彩片段识别模型能够利用其中相应类型的子模型对此类型的输入特征进行精彩片段和非精彩片段的识别(确定出精彩片段时间戳、非精彩片段时间戳),以便基于精彩片段时间戳、非精彩片段时间戳剪辑出相应的精彩片段和非精彩片段。

需要说明的是,本方案中利用视频精彩片段识别模型确定视频数据中的精彩片段和非精彩片段,是一种示例性的方案。在本方案的思路下,可以不只是识别精彩片段和非精彩片段,还可以实现更加具体的分类,例如,识别出多种不同精彩等级的片段(例如精彩片段、正常片段、不精彩片段;或者,S级精彩片段、A级精彩片段、B级精彩片段、C级精彩片段、D级精彩片段等),当然,在模型训练阶段,就需要进行相应片段分级的标注,以便训练模型,从而实现对不同精彩等级的片段识别和剪辑。因此,本实施例中介绍的识别精彩片段和非精彩片段,不能视为本方案仅能识别精彩片段和非精彩片段,只要是依照本方案的思路进行精彩视频片段的识别和剪辑,也应当属于本方案的保护范围内。

请参阅图3,基于同一发明构思,本申请实施例还提供一种基于人工智能的视频精彩片段剪辑系统10,包括:

数据获取单元11,用于获取视频数据,其中,视频数据采用H264编码模式,VBR码率控制模式,且为设定帧率,以及,视频数据包含视频时间戳。

特征提取单元12,用于对所述视频数据进行特征提取,确定出所述视频数据的文件综合码率、视频平均码率、音频平均码率、每个时刻的视频码率与其前一时刻的视频码率的参数比值、每个时刻的音频码率与其前一时刻的音频码率的参数比值、每个时刻的视频码率与其后一时刻的视频码率的参数比值、每个时刻的音频码率与其后一时刻的音频码率的参数比值,并据此形成输入特征,其中,文件综合码率包含所述视频数据在每一时刻的视频码率和音频码率。

片段剪辑单元13,用于将所述视频数据的输入特征输入至预设的视频精彩片段识别模型中,确定出所述视频数据中的精彩片段和非精彩片段,并剪辑出所述精彩片段。

以及,本申请实施例还提供一种存储介质,所述存储介质设置在电子设备20内,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在电子设备20执行基于人工智能的视频精彩片段剪辑方法。

综上所述,本申请实施例提供一种基于人工智能的视频精彩片段剪辑方法、系统及存储介质,通过获取视频数据(采用H264编码模式,VBR码率控制模式,且为设定帧率,包含视频时间戳);对视频数据进行特征提取,确定出视频数据的文件综合码率(包含视频数据在每一时刻的视频码率和音频码率)、视频平均码率、音频平均码率、每个时刻的视频码率与其前一时刻的视频码率的参数比值、每个时刻的音频码率与其前一时刻的音频码率的参数比值、每个时刻的视频码率与其后一时刻的视频码率的参数比值、每个时刻的音频码率与其后一时刻的音频码率的参数比值,并据此形成输入特征;将视频数据的输入特征输入至预设的视频精彩片段识别模型中,确定出视频数据中的精彩片段和非精彩片段,并剪辑出精彩片段。利用视频码率的相关参数变化对视频精彩片段进行分析并建立视频精彩片段识别模型,能够快速准确地对视频中精彩片段智能分析,使用的服务器资源消耗更少,部署更加轻量便捷。相较于视频剪辑人员采用人工分析的方式提取精彩片段,本方案能够极大程度地减少视频剪辑人员的工作量,智能高效地完成大批量视频精彩片段的提取工作。

本方案是基于视频码率参数的分析以实现视频精彩片段的智能识别和剪辑处理,相较于图像分析的技术,所剪辑的精彩片段在场景形式上更加丰富,避免了现有方式场景形式单一的缺点。而在各种差别较大的图像场景下均能够识别精彩片段,同时结合了音频码率参数,与图像识别技术相比参照纬度更全面,所剪辑出的精彩片段场景更加丰富。以及,本方案可针对不同类型的视频进行差异化的精彩片段识别(通过不同的子模型对不同类型的视频进行精彩片段识别),具有更强的实用性。而基于码率参数分析,读取视频码率参数计算,相较于使用图像识别的技术,对设备GPU性能要求大大降低,节省设备成本。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 一种多源视频剪辑方法、装置及存储介质
  • 视频片段的定位方法、计算设备及存储介质
  • 基于视频处理方法及装置、视频设备及存储介质
  • 一种人工智能辅助诊疗系统及其构建方法、设备和存储介质
  • 基于人工智能的防撞库方法、设备、存储介质及装置
  • 娃娃机精彩片段的剪辑方法、装置、终端设备及存储介质
  • 一种视频精彩片段提取方法、系统和存储介质
技术分类

06120116495802