掌桥专利:专业的专利平台
掌桥专利
首页

音视频的同步方法、系统、电子设备及存储介质

文献发布时间:2024-04-18 19:58:30


音视频的同步方法、系统、电子设备及存储介质

技术领域

本申请实施例涉及多媒体技术领域,具体而言,涉及一种音视频的同步方法、系统、电子设备及存储介质。

背景技术

音视频同步尤其长音视频(例如超过一定时长的视频)同步是一种常见的视频编辑需求。在日常拍摄视频中,往往会因为录制设备的问题,拍摄者会把声音的录制跟视频的录制分开收集,但是视频本身带有的音频,如何跟单独录制的声音匹配就成为了一个问题。长音视频同步可以帮助用户在超过一个小时甚至更久的视频片段上快速精准定位单独录制的音频片段。相关技术中,主要是利用频谱相似性来计算单独录制音频和视频音频的相似性值,进而定位音频同步的时间点,帮助用户解决后期剪辑中的音频视频时间片段对齐问题。然而,现有长音视频算法在同步方面的效率效果不佳,主要存在以下技术问题:

当前使用频谱相似性逻辑的待同步音频和视频音频,因为算法在频谱上进行比较,一小时以上的音频转换为频谱的内容占用很大,例如超过10GB,这对一般的用户来说是难以接受的,并且会导致音视频无法完成同步。

此外,如果待同步的音频和视频音频响度相差过大时,频谱相似性值会锐减,导致同一声源的音频无法完成相似性判断,进而导致同步不准确或者无法同步等问题。

发明内容

针对上述现有技术中存在的问题,本申请实施例提供了一种音视频的同步方法、系统、电子设备及存储介质,可以快速地使录制的音频和视频内容保持同步一致,具有同步速度快且资源消耗低的优点。

第一方面,本申请实施例提供了一种音视频的同步方法,包括:

获得采样率一致的同步音频和视频音频,其中,所述同步音频通过待同步到视频中的录制音频得到,所述视频音频由所述视频包含的音频得到;

从所述同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段;

根据所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数,确定音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点,其中,所述相关系数用于表征音频相似性;

对所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点进行校正,得到真实起始时间点;

对所述真实起始时间点进行优化处理,确定所述同步音频在所述视频音频中的同步位置。

进一步地,所述获得采样率一致的同步音频和视频音频,包括:

检测所述录制音频和所述视频包含的音频的长度;

如果所述视频包含的音频的长度小于所述录制音频的长度,则退出所述同步方法,否则,以预设的第一采样率分别对所述录制音频和所述视频包含的音频进行重采样,得到所述同步音频和视频音频,

其中,在所述录制音频的长度不是所述第一采样率的倍数时,对所述录制音频的长度进行补齐操作。

进一步地,在从所述同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段之前,还包括:对所述同步音频和视频音频进行预加重操作,具体为:

根据所述同步音频中当前采样点的前一采样点的值、所述当前采样点的值和预设的预加重系数,得到预加重操作后所述同步音频中当前采样点的值;

根据所述视频音频中当前采样点的前一采样点的值、所述当前采样点的值和预设的预加重系数,得到预加重操作后所述视频音频中当前采样点的值。

进一步地,所述从所述同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段,包括:

获得第一窗口的长度和窗口帧移;

根据所述同步音频中各第一窗口中各采样点的值,计算所述同步音频中各第一窗口中各采样点的响度;

根据所述同步音频中各第一窗口中各采样点的响度,得到各第一窗口的平均响度;

根据所述各第一窗口的平均响度得到所述音频响度最高窗口片段,并将各第一窗口中的首个第一窗口作为所述音频起始窗口片段,将所述第一窗口中的最后一个第一窗口作为所述音频终止窗口片段。

进一步地,所述根据所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数,确定音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点,包括:

分别对所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段进行快速傅里叶变化;

根据所述视频音频中各窗口片段分别与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的快速傅里叶变化的结果,得到所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数;

对于所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段中任一目标片段,获得所述目标片段对应的三个最大相关系数;

根据所述三个最大相关系数,确定所述目标片段在所述视频音频中的起始时间点。

进一步地,所述对所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点进行校正,得到真实起始时间点,包括:

对于所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段中任一目标片段,根据所述目标片段在所述视频音频中的起始时间点,得到重组视频音频片段;

获得所述目标片段中前N个采样点的值和所述重组视频音频片段中各新窗口的相关系数;

根据所述目标片段中前N个采样点的值和所述重组视频音频片段中各新窗口的相关系数,对所述目标片段在所述视频音频中的起始时间点进行校正,得到所述目标片段在所述视频音频中的真实起始时间点。

进一步地,所述对所述真实起始时间点进行优化处理,确定所述同步音频在所述视频音频中的同步位置,包括:

获得各所述真实起始时间点和所述各所述真实起始时间点对应的前置时间片段之间的差值;

根据所述差值对对所述真实起始时间点进行优化处理,以确定所述同步音频在所述视频音频中的同步位置。

第二方面,本申请实施例提供了一种音视频的同步系统,包括:

获取模块,用于获得采样率一致的同步音频和视频音频,其中,所述同步音频通过待同步到视频中的录制音频得到,所述视频音频由所述视频包含的音频得到;

窗口确定模块,用于从所述同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段;

时间点确定模块,用于根据所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数,确定音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点,其中,所述相关系数用于表征音频相似性;

校正模块,用于对所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点进行校正,得到真实起始时间点;

同步模块,用于对所述真实起始时间点进行优化处理,确定所述同步音频在所述视频音频中的同步位置。

第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现根据上述的第一方面所述的音视频的同步方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现根据上述的第一方面所述的音视频的同步方法。

第五方面,本申请实施例还提供了一种计算机程序产品,其上存储有计算机程序,所述计算机程序用于实现根据上述的第一方面所述的音视频的同步方法。

本申请实施例带来了以下有益效果:

本申请的实施例,从同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段,便可以根据这几个窗口片段和音频终止窗口片段的相关系数确定出这几个窗口片段在视频音频中的起始时间点,进而快速且准确地实现同步音频在视频音频中的同步。由此,可以快速地使录制的音频和视频内容保持同步一致,具有同步速度快且资源消耗低的优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本申请实施例提供的一种音视频的同步方法的流程图;

图2为本申请实施例提供的一种音视频的同步系统的结构框图;

图3为本申请实施例提供的一种电子设备的一个实施例示意图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分所述的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

以下结合附图描述根据本申请实施例的音视频的同步方法、系统、电子设备及存储介质。

图1是根据本申请一个实施例的音视频的同步方法的流程图。如图1所示,本申请实施例的音视频的同步方法,包括如下步骤:

S101:获得采样率一致的同步音频和视频音频,其中,同步音频通过待同步到视频中的录制音频得到,视频音频由视频包含的音频得到。

具体地,检测所述录制音频和所述视频包含的音频的长度;如果所述视频包含的音频的长度小于所述录制音频的长度,则退出所述同步方法,否则,以预设的第一采样率分别对所述录制音频和所述视频包含的音频进行重采样,得到所述同步音频和视频音频,其中,在所述录制音频的长度不是所述第一采样率的倍数时,对所述录制音频的长度进行补齐操作。

举例来说,第一采样率例如为16khz,则检测需要同步的音频长度,即:把所有音频(待同步到视频中的录制音频即需要同步的单独录制音频,视频中包含的音频即视频包含的音频)重采样到16khz。如果视频中包含的音频比单独录制音频短,则不进行音视频的同步操作,直接返回结果说明为无法完成音视频同步,此外,如果单独录制音频的长度不能整除一个采样率16khz,对单独录制音频的长度进行填零补齐,使单独录制音频至少满足一个采样率单位。

S102:从同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段。

其中,窗口片段指音频中连续的一段音频片段。音频起始窗口片段指音频中开始的一段音频片段,同样地,音频终止窗口片段指音频中最后的一段音频片段。音频片段的长度由窗口的长度决定。音频响度最高窗口片段是由每个音频片段的响度决定,其中,响度最高的音频片段为音频响度最高窗口片段。

在本申请的一个实施例中,从同步音频中确定出音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段,通过如下方式实现:获得第一窗口的长度和窗口帧移;根据所述同步音频中各第一窗口中各采样点的值,计算所述同步音频中各第一窗口中各采样点的响度;根据所述同步音频中各第一窗口中各采样点的响度,得到各第一窗口的平均响度;根据所述各第一窗口的平均响度得到所述音频响度最高窗口片段,并将各第一窗口中的首个第一窗口作为所述音频起始窗口片段,将所述第一窗口中的最后一个第一窗口作为所述音频终止窗口片段。

该实例中,第一窗口例如为窗口win长8000,窗口帧移inc为4000。具体而言,取窗口win长8000,窗口帧移inc为4000,设同步音频的长度为audio_length,则同步音频的总帧数为audio_num=(audio_length-win+inc)/inc,使用响度计算公式x_db=20lgx计算响度,其中x为同步音频的采样的值。通过上述的响度计算公式,计算出同步音频中每一个窗口中的每一个音频采样的值的响度,进而,根据每一个窗口中的每一个音频采样的值的响度,求其平均值,作为对应的窗口的平均响度。

进而,在确定出每个窗口的平均响度之后,便可以选定三个片段来进行音频相似性计算,即选定出:音频起始窗口片段,音频响度最高窗口片段和音频终止窗口片段。该示例中,使用三段窗口音频片段来代替同步音频的视频音频每一段之间的同步,从而,可以有效的提升计算速度,并且,可以有效地降低因大量的音频信号进行时频转换时的内存占用,达到内存占用空间小,对硬件要求低的目的。

进一步地,在从所述同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段之前,还包括:对所述同步音频和视频音频进行预加重操作,具体为:根据所述同步音频中当前采样点的前一采样点的值、所述当前采样点的值和预设的预加重系数,得到预加重操作后所述同步音频中当前采样点的值;根据所述视频音频中当前采样点的前一采样点的值、所述当前采样点的值和预设的预加重系数,得到预加重操作后所述视频音频中当前采样点的值。

具体来说,对两个音频(即:同步音频和视频音频)进行预加重操作,通过如下公式实现,即:y(n)=x(n)-a*x(n-1),其中,x(n-1)为当前采样点前一个点的采样值,x(n)为当前的采样点值,a为预加重系数,一般来说,可设置为0.97,y(n)为预加重后当前采样点的值。其中,预加重操作可以增强因为降采样影响的高频信息丢失的问题,使降采样以后频谱相似性计算时的下降幅度变化可以保持的相对平稳。

S103:根据所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数,确定音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点,其中,所述相关系数用于表征音频相似性。

例如:分别对所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段进行快速傅里叶变化;根据所述视频音频中各窗口片段分别与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的快速傅里叶变化的结果,得到所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数;对于所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段中任一目标片段,获得所述目标片段对应的三个最大相关系数;根据所述三个最大相关系数,确定所述目标片段在所述视频音频中的起始时间点。

上述示例中,目标片段为音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段中的任意一个窗口片段。音频相似性计算具体如下:计算视频音频的总音频帧数video_num,其计算方式与同步音频的音频帧数计算方式相同。每次取一个窗口的长度与同步音频的起始窗口片段,各做相同长度的快速傅里叶变化,再把傅里叶变化得到的两个结果做皮尔逊相关系数计算,例如可以但不限于使用matlab的coef直接计算,输入两个傅里叶变化的结果,输出相关系数的值。计算得到每一个0.5秒级别的相关系数值,记录相关片段记录矩阵,例如[0,0.5,0.5612],[0.25,0.75,0.4916](即:三个值依次为视频音频的窗口对应的起始时间点,结束时间点,相关系数值),当计算完成之后,取相关系数最高的三个区间值,每个区间取相邻两个区间(包含该点)计算三点的平均值,对这三个区间的相关系数平均值排序,取最高相关系数的区间起点为同步音频在视频音频的起始时间点。

同样地,采用同样的方式计算音频响度最高窗口片段和音频终止窗口片段在视频音频中的起始时间点。

S104:对所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点进行校正,得到真实起始时间点。

具体地,对所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点进行校正,得到真实起始时间点,包括:对于所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段中任一目标片段,根据所述目标片段在所述视频音频中的起始时间点,得到重组视频音频片段;获得所述目标片段中前N个采样点的值和所述重组视频音频片段中各新窗口的相关系数;根据所述目标片段中前N个采样点的值和所述重组视频音频片段中各新窗口的相关系数,对所述目标片段在所述视频音频中的起始时间点进行校正,得到所述目标片段在所述视频音频中的真实起始时间点。

例如:对三个起始时间点的信息,进行0.1sec级别的校正。假设当前得到的三个时间点分别是[1.25,3.5,5],以1.25为例,取前后各0.5秒的长度重新组成新的视频音频片段,以新窗口长度320,窗口帧移160为单位,取同步音频起始窗口前320采样点的值,与新视频音频每一段320做皮尔逊相关系数计算,同样取相关系数最高的三个区间值,每个区间取相邻两个区间(包含该点)计算三点的平均值,对这三个区间的相关系数平均值排序,取最高相关系数的区间起点为同步音频在视频音频的真实起始时间点,对3.5和5两个时间窗口的音频做相同类似操作,取前后各0.5sec组成新的视频音频片段计算音频响度最高窗口片段和音频终止窗口片段的真实起始时间点。

S105:对所述真实起始时间点进行优化处理,确定所述同步音频在所述视频音频中的同步位置。

其中,对所述真实起始时间点进行优化处理,确定所述同步音频在所述视频音频中的同步位置,包括:获得各所述真实起始时间点和所述各所述真实起始时间点对应的前置时间片段之间的差值;根据所述差值对对所述真实起始时间点进行优化处理,以确定所述同步音频在所述视频音频中的同步位置。

作为一个具体的示例,对三个起始时间点进行优化,确定真同步音频在视频音频的起始点,如果三个起始点减去对应的前置时间片段(例如:同步音频总长度为6sec,三个片段分别对应的窗口在0sec,3sec,5.5sec,那么前置时间片段即为0,3,5.5,当在视频音频得到的三个起始时间点为6sec,9.2sec,11.3sec,即三个片段认为的同步音频在真实视频音频的起始点为6sec,6.2sec,5.8sec)误差在1sec以内,即为同步,如果三者的误差都在1sec以上,则认为此同步音频和视频音频不是一个内容,无法完成同步,如果有两者的误差在1sec,则表示有一个片段出现了震荡,取其他两个的起始点计算的最小值为同步音频在真实视频音频的起始点。

根据本申请实施例的音视频的同步方法,从同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段,便可以根据这几个窗口片段和音频终止窗口片段的相关系数确定出这几个窗口片段在视频音频中的起始时间点,进而快速且准确地实现同步音频在视频音频中的同步。由此,可以快速地使录制的音频和视频内容保持同步一致,具有同步速度快且资源消耗低的优点。

图2是本申请实施例的音视频的同步系统的结构框图。如图2所示,本申请实施例的音视频的同步系统,包括:获取模块210、窗口确定模块220、时间点确定模块230、校正模块240和同步模块250,其中:

获取模块210,用于获得采样率一致的同步音频和视频音频,其中,所述同步音频通过待同步到视频中的录制音频得到,所述视频音频由所述视频包含的音频得到;

窗口确定模块220,用于从所述同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段;

时间点确定模块230,用于根据所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数,确定音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点,其中,所述相关系数用于表征音频相似性;

校正模块240,用于对所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点进行校正,得到真实起始时间点;

同步模块250,用于对所述真实起始时间点进行优化处理,确定所述同步音频在所述视频音频中的同步位置。

根据本申请实施例的音视频的同步系统,从同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段,便可以根据这几个窗口片段和音频终止窗口片段的相关系数确定出这几个窗口片段在视频音频中的起始时间点,进而快速且准确地实现同步音频在视频音频中的同步。由此,可以快速地使录制的音频和视频内容保持同步一致,具有同步速度快且资源消耗低的优点。

需要说明的是,本申请实施例的音视频的同步系统的具体实现方式与本申请实施例的音视频的同步方法的具体实现方式类似,具体请参见方法部分的描述,此处不做赘述。

图3为本申请实施例的电子设备的结构示意图。

如图3所示,电子设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分702加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的电子设备中限定的上述功能。

需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的电子设备、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行电子设备、系统或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行电子设备、系统或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的处理接收设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的电子设备来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,处理器用于执行所述程序时实现音视频的同步方法:获得采样率一致的同步音频和视频音频,其中,所述同步音频通过待同步到视频中的录制音频得到,所述视频音频由所述视频包含的音频得到;

从所述同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段;

根据所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数,确定音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点,其中,所述相关系数用于表征音频相似性;

对所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点进行校正,得到真实起始时间点;

对所述真实起始时间点进行优化处理,确定所述同步音频在所述视频音频中的同步位置。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的音视频的同步方法:获得采样率一致的同步音频和视频音频,其中,所述同步音频通过待同步到视频中的录制音频得到,所述视频音频由所述视频包含的音频得到;

从所述同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段;

根据所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数,确定音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点,其中,所述相关系数用于表征音频相似性;

对所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点进行校正,得到真实起始时间点;

对所述真实起始时间点进行优化处理,确定所述同步音频在所述视频音频中的同步位置。

作为另一方面,本申请还提供了一种计算机程序产品,该计算机程序产品可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机程序产品存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的音视频的同步方法:获得采样率一致的同步音频和视频音频,其中,所述同步音频通过待同步到视频中的录制音频得到,所述视频音频由所述视频包含的音频得到;

从所述同步音频中获得音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段;

根据所述视频音频中各窗口片段与所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段的相关系数,确定音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点,其中,所述相关系数用于表征音频相似性;

对所述音频起始窗口片段、音频响度最高窗口片段和音频终止窗口片段在所述视频音频中的起始时间点进行校正,得到真实起始时间点;

对所述真实起始时间点进行优化处理,确定所述同步音频在所述视频音频中的同步位置。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是在本申请的申请构思下,利用本申请说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本申请的专利保护范围内。

相关技术
  • 数据同步方法、系统、电子设备及计算机可读存储介质
  • 实时数据库同步方法、装置、电子设备及存储介质
  • 存储方法、存储系统、电子设备及存储介质
  • 引导电子设备系统开机的方法,电子设备,可读存储介质
  • 同步环结构、同步方法、医学成像系统、设备和存储介质
  • 直播时的音视频同步方法、存储介质、电子设备及系统
  • 直播时的音视频同步方法、存储介质、电子设备及系统
技术分类

06120116501611