掌桥专利:专业的专利平台
掌桥专利
首页

基于分液视频的智能剪辑方法

文献发布时间:2024-07-23 01:35:21


基于分液视频的智能剪辑方法

技术领域

本申请涉及化学视频剪辑技术领域,特别涉及为一种基于分液视频的智能剪辑方法。

背景技术

随着5G物联网时代的到来,工业互联在我们的日常生产经营中变得尤为重要,其中生产实验的自动化逐步向智能化进行转变;

特别是在自动化实验平台,依靠大量的视频设备采集实验数据,为自动化系统提供信号,尽可能地减少实验人员的直接参与,提升实验的准确性,并最大程度保证实验科研人员的安全;

由于视频设备的广泛使用,产生了海量的实验视频数据,其中很大一部分视频数据存在冗余的现象,为我们的数据存储带来很大的风险与挑战,因此如何对实验场景下的冗余视频进行智能化裁剪保存变得尤为重要;

为解决视频冗余的问题,王霞、李岳楠等人提取基于监控平台的视频智能剪辑方法,该方法主要通过对视频的前后帧根据运动前景特征进行对比,大于阈值进行帧的裁剪;潘晓英、王红玉等人提出一种基于电子内窥镜的自动去除无效视频的剪辑方法,该方法是将视频帧通过密集连接卷积神经网络中,通过网络对手术视频的关键帧进行预判,再通过自我修复模块,进一步获取精确结果;

上述的方法中,识别与剪辑出来的视频并不能与音频相适配,若化学反应在声音层面上具有变化,而视频中忽略了这方面的变化,则会让相关的化学实验工作者出现误判的可能性,并且变化前后的视频需要进行对比,否则会遗漏一些关键数据,完整性较差。

发明内容

本申请旨在解决识别与剪辑出来的视频并不能与音频相适配,若化学反应在声音层面上具有变化,而视频中忽略了这方面的变化,则会让相关的化学实验工作者出现误判的可能性,并且变化前后的视频需要进行对比,否则会遗漏一些关键数据,完整性较差的技术问题,提供一种基于分液视频的智能剪辑方法。

本申请为解决技术问题采用如下技术手段:一种基于分液视频的智能剪辑方法,

一种基于分液视频的智能剪辑方法,所述方法包括:

将输入的长视频1~10秒的视频片段,并提取视频的音频数据;

按帧切分小视频片段,将提取每帧的图像作为空间流的输入,通过卷积层对图像特征进行提取,通过多轮卷积、池化和全连接层,通过最后SoftMax进行分类形成第一视频库;

将多帧的视频数据作为时间流的输入,通过卷积层提取视频帧之间的运动信息,通过五个卷积层,两个全连接层,最后通过SoftMax进行分类形成第二视频库;

将第一视频库和第二视频库通过平均法或SVM进行结合作为视频图像的分类结果;

根据二分类的结果获取原视频中对应的时间戳,通过K-mean对时间戳数据进行聚类;

将音频数据进行提取并对应时间戳进行聚类;

将视频分类的聚类结果和音频分类的聚类结果进行合并处理;

对合并的结果按照时间戳对视频前后召回K秒;

按照最后的时间戳进行视频的裁剪与合并。

进一步地,在所述将输入的长视频1~10秒的视频片段,并提取视频的音频数据的步骤之中,

将提取的音频数据进行预处理,进行数据增强,降噪等操作。

进一步地,在所述将输入的长视频1~10秒的视频片段,并提取视频的音频数据的步骤之中,

提取音频数据的MFCC(梅尔频谱倒谱系数)和根据STFT(短时傅里叶变换)提取频谱特征。

进一步地,在所述提取音频数据的MFCC(梅尔频谱倒谱系数)和根据STFT(短时傅里叶变换)提取频谱特征的步骤之后,

将提取的特征输入给LSTM进行音频分类。

进一步地,在所述将提取的特征输入给LSTM进行音频分类的步骤之后,

根据二分类的结果获取原视频中对应的时间戳,然后通过k-mean对时间戳数据进行聚类。

本申请提供了基于分液视频的智能剪辑方法,具有以下有益效果:通过视频分类和音频分类相结合的方式,判定视频是否属于分液状态,从而将不属于实验的无关视频进行裁剪,该方法包含三部分,一是通过双流法分别提取视频的每帧的图像特征和多帧视频数据的时间流特征,通过卷积神经网络进行特征提取,进行模型分类;二是提取视频数据中的音频,提取音频的频谱特性,通过循环神经网络进行音频分类;第三步分别对两组模型的分类结果对应的时间轴进行分析聚类,减少少数分类错误片段导致的裁剪误差,对两组时间轴的聚类结果进行合并处理,最终召回需要截取视频前后K秒的数据,确保裁剪实验数据的完整性。

附图说明

图1为本申请基于分液视频的智能剪辑方法一个实施例的流程图。

本申请为目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

下面将结合本申请的实施例中的附图,对本申请的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。

参考附图1,为本申请一实施例中的基于分液视频的智能剪辑方法的流程图;

实施例一

一种基于分液视频的智能剪辑方法,所述方法包括:

将输入的长视频1~10秒的视频片段,并提取视频的音频数据;

按帧切分小视频片段,将提取每帧的图像作为空间流的输入,通过卷积层对图像特征进行提取,通过多轮卷积、池化和全连接层,通过最后SoftMax进行分类形成第一视频库;

将多帧的视频数据作为时间流的输入,通过卷积层提取视频帧之间的运动信息,通过五个卷积层,两个全连接层,最后通过SoftMax进行分类形成第二视频库;

将第一视频库和第二视频库通过平均法或SVM进行结合作为视频图像的分类结果;

根据二分类的结果获取原视频中对应的时间戳,通过K-mean对时间戳数据进行聚类;

将音频数据进行提取并对应时间戳进行聚类;

将视频分类的聚类结果和音频分类的聚类结果进行合并处理;

对合并的结果按照时间戳对视频前后召回K秒;

按照最后的时间戳进行视频的裁剪与合并。

具体的,在形成第一视频库和第二视频库中,SoftMax是深度学习算法中的一个分类函数,就是把前面输出的结果以概率的分布表现出来,举个例子:如果是一个分类模型,要做猫、狗、鸡三种动物的分类,前面的卷积池化全连接层都是抽取特征进行计算,SoftMax将最后的结果分成三类,猫的概率0.8,狗的概率0.1,鸡的概率0.1;

其中,k-mean算法是一种常用的聚类算法,主要是将种类相似的数据聚合到一起,从而进行分类。

在本实施例中,在所述将输入的长视频1~10秒的视频片段,并提取视频的音频数据的步骤之中,

将提取的音频数据进行预处理,进行数据增强,降噪等操作。

在所述将输入的长视频1~10秒的视频片段,并提取视频的音频数据的步骤之中,

提取音频数据的MFCC(梅尔频谱倒谱系数)和根据STFT(短时傅里叶变换)提取频谱特征。

具体的,MFCC它其实就是一种语音特征提取的算法,将音频信号分析为不同频段的梅尔频谱,进而提取频率特征;

其中,STFT是一种对信号进行时频分析的方法,将语音信号分割成一系列短的时间窗口,并在每个窗口上进行傅里叶变换,得到该时间窗口内的频谱;

公式为:

在本实施例中,在所述提取音频数据的MFCC(梅尔频谱倒谱系数)和根据STFT(短时傅里叶变换)提取频谱特征的步骤之后,

将提取的特征输入给LSTM进行音频分类。

在所述将提取的特征输入给LSTM进行音频分类的步骤之后,

根据二分类的结果获取原视频中对应的时间戳,然后通过k-mean对时间戳数据进行聚类。

具体的,LSTM(Long Short-Term Memory,长短期记忆网络)主要是用来提取时间序列数据上的特征,这里用于提取音频上的特征,进行分类;

实施例二

一种基于分液视频的智能剪辑方法,所述方法包括:

将输入的长视频1~10秒的视频片段,并提取视频的音频数据;

按帧切分小视频片段,将提取每帧的图像作为空间流的输入,通过卷积层对图像特征进行提取,通过多轮卷积、池化和全连接层,通过最后SoftMax进行分类形成第一视频库;

将多帧的视频数据作为时间流的输入,通过卷积层提取视频帧之间的运动信息,通过五个卷积层,两个全连接层,最后通过SoftMax进行分类形成第二视频库;

将第一视频库和第二视频库通过平均法或SVM进行结合作为视频图像的分类结果;

根据二分类的结果获取原视频中对应的时间戳,通过K-mean对时间戳数据进行聚类;

将音频数据进行提取并对应时间戳进行聚类;

将视频分类的聚类结果和音频分类的聚类结果进行合并处理;

对合并的结果按照时间戳对视频前后召回K秒;

按照最后的时间戳进行视频的裁剪与合并。

在所述将输入的长视频1~10秒的视频片段,并提取视频的音频数据的步骤之中,

将提取的音频数据进行预处理,进行数据增强,降噪等操作。

在本实施例中,在所述将输入的长视频1~10秒的视频片段,并提取视频的音频数据的步骤之中,

提取音频数据的MFCC(梅尔频谱倒谱系数)和根据STFT(短时傅里叶变换)提取频谱特征。

在所述提取音频数据的MFCC(梅尔频谱倒谱系数)和根据STFT(短时傅里叶变换)提取频谱特征的步骤之后,

将提取的特征输入给LSTM进行音频分类。

在所述将提取的特征输入给LSTM进行音频分类的步骤之后,

根据二分类的结果获取原视频中对应的时间戳,然后通过k-mean对时间戳数据进行聚类。

具体的,在工厂化学反应实验中,需要对最后的有机相进行提纯,因此中间会进行多轮的去除杂质的环节;

因此导致每一轮去除杂质都需要进行不同的分液环节,包括分酸、分碱、分水等操作,相机会完整的录制整个分液管的视频;

由于视频量过大,我们需要对重点片段的视频进行保存归档,所以需要对视频进行智能裁剪的操作;

一般分液整个过程大概有3-4个小时,首先将视频切割成10秒左右的视频小片段,然后按帧抽取视频片段的图片,输入给卷积神经网络分别提取图像特征,通过Resnet50对抽取的图片进行分类,判定分液状态类别;

对每个视频片段的所有图片进行分类,当某类的阈值大于0.9,就会对视频片段打上对应的类别标签,并获取视频的时间范围进行保留;

另一部分,是将视频片段中的语音提取出来,首先对语音中的噪音数据进行去噪,然后通过MCFF和STFT提取频谱和频率特征,最后输入到LSTM对语音数据进行分类,并获取视频片段的时间范围进行保留;

第三步就是将图片的分类结果和语音分类的结果在时间序列维度上进行聚类,将小的时间片段通过类别在时间维度上合并在一起,最终的结果类似于:00:00-00:40分酸00:40-01:30空闲1:30-2:06分碱2:06-2:55空闲2:55-3:18分水3:18-4:00空闲;

第四步就是根据最后的结果在时间维度上前后延长1分钟的时间,然后对原视频进行剪辑并打标;

两个算法模型的分类准确率分别是91.4%和96.3%,最终的分类效果整体上准确率可以达到94.92%。

实施例三

一种基于分液视频的智能剪辑方法,所述方法包括:

将输入的长视频1~10秒的视频片段,并提取视频的音频数据;

按帧切分小视频片段,将提取每帧的图像作为空间流的输入,通过卷积层对图像特征进行提取,通过多轮卷积、池化和全连接层,通过最后SoftMax进行分类形成第一视频库;

将多帧的视频数据作为时间流的输入,通过卷积层提取视频帧之间的运动信息,通过五个卷积层,两个全连接层,最后通过SoftMax进行分类形成第二视频库;

将第一视频库和第二视频库通过平均法或SVM进行结合作为视频图像的分类结果;

根据二分类的结果获取原视频中对应的时间戳,通过K-mean对时间戳数据进行聚类;

将音频数据进行提取并对应时间戳进行聚类;

将视频分类的聚类结果和音频分类的聚类结果进行合并处理;

对合并的结果按照时间戳对视频前后召回K秒;

按照最后的时间戳进行视频的裁剪与合并。

在所述将输入的长视频1~10秒的视频片段,并提取视频的音频数据的步骤之中,

将提取的音频数据进行预处理,进行数据增强,降噪等操作。

在本实施例中,在所述将输入的长视频1~10秒的视频片段,并提取视频的音频数据的步骤之中,

提取音频数据的MFCC(梅尔频谱倒谱系数)和根据STFT(短时傅里叶变换)提取频谱特征。

在所述提取音频数据的MFCC(梅尔频谱倒谱系数)和根据STFT(短时傅里叶变换)提取频谱特征的步骤之后,

将提取的特征输入给LSTM进行音频分类。

在所述将提取的特征输入给LSTM进行音频分类的步骤之后,

根据二分类的结果获取原视频中对应的时间戳,然后通过k-mean对时间戳数据进行聚类。

具体的,一般分液整个过程大概有3-4个小时,首先将视频切割成10秒左右的视频小片段,然后按帧抽取视频片段的图片,输入给卷积神经网络分别提取图像特征,通过Resnet50对抽取的图片进行二分类(实验中、非实验两种lable),判定当前时刻图片的类别;

因为每个视频片段我们会对每秒抽取5帧图片,10秒的视频片段会抽取(10*5)50张图像通过模型进行分类打标,然后对这50张图像的类别进行统计,分别计算“实验中”、“非实验”这两种类别的占比,当某一类(“实验中”或“非实验”)的占比大于0.9(人为设定的阈值),就会对视频片段打上对应的类别标签,并获取视频的时间范围进行保留;

另一部分,是将视频片段中的语音提取出来,首先对语音中的噪音数据进行去噪,然后通过MCFF和STFT提取频谱和频率特征,最后输入到LSTM网络中对语音数据进行二分类(“实验中”,“非实验”),对每个语音片段进行模型分类打标,并获取语音片段的时间范围进行保留;

第三步就是将视频分类结果和语音分类的结果在时间序列维度上进行聚类,将小的时间片段根据类别在时间维度上合并在一起,最终的结果类似于:00:00-00:40(实验中-分酸)00:40-01:30(非实验)1:30-2:06(实验中-分碱)2:06-2:55(非实验)2:55-3:18(实验中-分水)3:18-4:00(非实验);第四步就是根据最后的结果在时间维度上将实验中的视频前后延长1分钟的时间(前后延长一分钟的原因是,模型分类的结果或多或少会把一些边缘的片段识别有误,前后延长一分钟可以避免边缘视频片段识别错误导致剪辑后的整个实验视频不完整的现象),然后对原视频进行剪辑并打标;

两个算法模型的分类准确率分别是91.4%和96.3%,最终的分类效果整体上准确率可以达到94.92%。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经示出和描述了本申请的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由所附权利要求及其等同物限定。

相关技术
  • 基于母婴喂食行为识别的视频智能剪辑方法、装置及设备
  • 一种基于人工智能的体育赛事视频剪辑方法和系统
技术分类

06120116679659