导航：首页> 电通信技术>一种基于复合传输策略的音视频同步方法、系统及装置

一种基于复合传输策略的音视频同步方法、系统及装置

文献发布时间：2024-04-18 19:59:31

技术领域

本发明属于视频编解码技术领域，更具体地，涉及一种基于复合传输策略的音视频同步方法、系统及装置。

背景技术

在流媒体应用中，音视频编码、网络多级传输等过程中都可能引入系统延迟，破坏音、视频同步关系，降低媒体质量。所以在流媒体系统中建立一种有效保证音、视频同步关系的解决方案是十分必要的。

现有的音、视频大多采用异步传输的方式，若需要同步播放，则是等异步传输最后一环结束后再进行同步播放，这样的方式可能会导致延迟较大，不能满足实时性的需求；现有技术中还有另外一些同步方法，则是会增加不小的网络带宽，也不利于使用。

鉴于此，如何克服上述现有技术所存在的技术问题是本技术领域亟待解决的难题。

发明内容

本发明的目的之一在于克服上述现有技术中存在的技术问题，为了解决现有音视频流异步传输的不足，提供一种基于复合传输策略的音视频同步方法、系统及装置，将音、视频编码数据合并复用在同一个音视频流中，保证了网络流中的音视频合流，同时在解析音视频帧时，将音视频帧分离出音频帧和视频帧，实时解析并同步解码，保证了播放端的音视频合流，两者结合，实现了流媒体传输系统中的音视频同步方法。此方法区别于传统音视频流异步传输和播放，在传输和播放过程中可以防止不同延迟导致音视频异步问题。本发明的方法实现简单，不增加网络带宽，在实现音视频合流的同时，兼顾了安全性和实时性的要求。

为实现上述目的，按照本发明的第一方面，提供了一种基于复合传输策略的音视频同步方法，包括：

获取实时的音频编码数据和视频编码数据，并按照复用合成策略将实时的音频编码数据和视频编码数据进行合成，组合为音视频帧；

按照复用传输策略对音视频帧进行传输；

按照复用传输解析策略对音视频帧进行解析处理；

按照复用合成解析策略将音视频帧分离为音频帧和视频帧，并分别解码，以输出同步的音频信号和视频信号。

进一步的，所述音视频帧的标识包括仅音频帧、仅视频帧以及音视频合帧，当为音视频合帧时，音视频合帧中的视频帧和音频帧之间用固定数据区分开。

进一步的，所述复用合成策略包括：

若每秒钟生成的音频帧数大于视频帧数，则以音频帧为基准，每生成一个音频帧，等候预设时间间隔；若期间有新视频帧生成，则将音频帧、视频帧数据组合，中间用固定字段的特征数据隔开作为区分，并将组合后的帧数据标识为音视频合帧；若期间没有新视频帧生成，则将该音频帧标识为仅音频帧；

若每秒钟生成的视频帧数大于音频帧数，则以视频帧为基准，每生成一个视频帧，等候预设时间间隔；若期间有新音频帧生成，则将音频帧、视频帧数据组合，中间用固定字段的特征数据隔开作为区分，并将组合后的帧数据标识为音视频合帧；若期间没有新音频帧生成，则将该视频帧标识为仅视频帧。

进一步的，所述预设时间间隔小于80ms。

进一步的，所述复用传输策略包括：

读取音视频帧的标识，根据不同标识采用不同约定的字段进行体现，并将音视频帧以网络包为单位通过网络进行传输。

进一步的，所述复用传输解析策略包括：

根据约定的字段对接收到的音视频帧进行解析，完成标识的备注，同时将若干个属于同一个帧的网络包合成为一个完整的音视频帧。

进一步的，所述复用合成解析策略包括：

按照标识对音视频帧进行解析，对于仅音频帧直接解析为音频帧；对于仅视频帧直接解析为视频帧；对于音视频合帧，按照固定字段特征数据来寻找间隔，分离出音频帧和视频帧。

第二方面，本发明提供一种基于复合传输策略的音视频同步系统，应用如第一方面所述的基于复合传输策略的音视频同步方法，包括发送端音视频合流模块、发送端网络发送模块、接收端网络接收模块以及接收端音视频流解析模块，其中：

所述发送端音视频合流模块用于获取实时的音频编码数据和视频编码数据，并按照复用合成策略将实时的音频编码数据和视频编码数据进行合成，组合为音视频帧；

所述发送端网络发送模块用于按照复用传输策略对音视频帧进行传输；

所述接收端网络接收模块用于按照复用传输解析策略对音视频帧进行解析处理；

所述接收端音视频流解析模块用于按照复用合成解析策略将音视频帧分离为音频帧和视频帧，并分别解码，以输出同步的音频信号和视频信号。

进一步的，还包括发送端音视频采集模块、发送端音视频编码模块、接收端音视频解码模块以及接收端音视频输出模块，其中：

所述发送端音视频采集模块用于对音频信号、视频信号进行采集；

所述发送端音视频编码模块用于分别对音频信号、视频信号进行编码，以得到音频编码数据和视频编码数据；

所述接收端音视频解码模块用于分别对音频编码数据、视频编码数据进行解码，以得到音频信号、视频信号；

所述接收端音视频输出模块用于将音频信号、视频信号输出。

第三方面，本发明提供一种基于复合传输策略的音视频同步装置，装置包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器设置为执行如第一方面所述的基于复合传输策略的音视频同步方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：将音、视频编码数据合并复用在同一个音视频流中，保证了网络流中的音视频合流，同时在解析音视频帧时，将音视频帧分离出音频帧和视频帧，实时解析并同步解码，保证了播放端的音视频合流，两者结合，实现了流媒体传输系统中的音视频同步方法。此方法区别于传统音视频流异步传输和播放，在传输和播放过程中可以防止不同延迟导致音视频异步问题。本方法实现简单，不增加网络带宽，在实现音视频合流的同时，兼顾了安全性和实时性的要求。

附图说明

图1为本发明实施例1提供的一种基于复合传输策略的音视频同步方法流程图；

图2为本发明实施例2提供的一种基于复合传输策略的音视频同步系统的模块流程示意图；

图3为本发明实施例2提供的音视频复用合成、复用传输策略流程图；

图4为本发明实施例2提供的常见音、视频编码组合及对应PAYLOAD TYPE约定图；

图5为本发明实施例2提供的音视频复用传输解析、合成解析策略流程图；

图6为本发明实施例3提供的一种基于复合传输策略的音视频同步装置的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以作出若干变形和改进。这些都属于本发明的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本发明。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

下面就参考附图和实施例结合来详细说明本发明。

实施例1：

如图1所示，本发明提供了一种基于复合传输策略的音视频同步方法，包括如下步骤。

步骤100：获取实时的音频编码数据和视频编码数据，并按照复用合成策略将实时的音频编码数据和视频编码数据进行合成，组合为音视频帧。该步骤为发送端的音视频合流步骤，首先需要对音频、视频信号进行采集，然后对音频、视频进行编码得到实时的音频编码数据和视频编码数据，然后才按照复用合成策略将实时音频编码数据或视频编码数据进行合成，组合为音视频帧并对帧内音视频数据进行标识。

步骤200：按照复用传输策略对音视频帧进行传输。该步骤为发送端的网络发送步骤，需要读取音视频帧以及数据标识，按照复用传输策略将音视频帧通过网络输出。

步骤300：按照复用传输解析策略对音视频帧进行解析处理。该步骤为接收端的网络接收步骤，需要接收音视频帧数据，按照复用传输解析策略将音视频网络包读取、合并、标识。

步骤400：按照复用合成解析策略将音视频帧分离为音频帧和视频帧，并分别解码，以输出同步的音频信号和视频信号。该步骤为接收端的音视频流解析步骤，需要读取音视频帧，按照复用合成解析策略将音视频帧分离为音频帧和视频帧，分别送入解码模块，以对编码数据进行解码，然后将解码的音频、视频信号输出，完成同步。

通过上述步骤，本实施例将音、视频编码数据合并复用在同一个音视频流中，保证了网络流中的音视频合流，同时在解析音视频帧时，将音视频帧分离出音频帧和视频帧，实时解析并同步解码，保证了播放端的音视频合流，两者结合，实现了流媒体传输系统中的音视频同步方法。

在一个具体的实施方式中，所述音视频帧的标识包括仅音频帧、仅视频帧以及音视频合帧，当为音视频合帧时，音视频合帧中的视频帧和音频帧之间用固定数据区分开。

在一个具体的实施方式中，所述复用合成策略包括：若每秒钟生成的音频帧数大于视频帧数，则以音频帧为基准，每生成一个音频帧，等候预设时间间隔；若期间有新视频帧生成，则将音频帧、视频帧数据组合，中间用固定字段的特征数据隔开作为区分，并将组合后的帧数据标识为音视频合帧；若期间没有新视频帧生成，则将该音频帧标识为仅音频帧；若每秒钟生成的视频帧数大于音频帧数，则以视频帧为基准，每生成一个视频帧，等候预设时间间隔；若期间有新音频帧生成，则将音频帧、视频帧数据组合，中间用固定字段的特征数据隔开作为区分，并将组合后的帧数据标识为音视频合帧；若期间没有新音频帧生成，则将该视频帧标识为仅视频帧。在一个具体的实施方式中，所述预设时间间隔小于80ms。

在一个具体的实施方式中，所述复用传输策略包括：读取音视频帧的标识，根据不同标识采用不同约定的字段进行体现，并将音视频帧以网络包为单位通过网络进行传输。

在一个具体的实施方式中，所述复用传输解析策略包括：根据约定的字段对接收到的音视频帧进行解析，完成标识的备注，同时将若干个属于同一个帧的网络包合成为一个完整的音视频帧。

在一个具体的实施方式中，所述复用合成解析策略包括：按照标识对音视频帧进行解析，对于仅音频帧直接解析为音频帧；对于仅视频帧直接解析为视频帧；对于音视频合帧，按照固定字段特征数据来寻找间隔，分离出音频帧和视频帧。

综上所述，本发明提出了一种基于复合传输策略的音视频同步方法，该方法将音、视频编码数据合并复用在同一个音视频流中，保证了网络流中的音视频合流，同时在解析音视频帧时，将音视频帧分离出音频帧和视频帧，实时解析并同步解码，保证了播放端的音视频合流，两者结合，实现了流媒体传输系统中的音视频同步方法。此方法区别于传统音视频流异步传输和播放，在传输和播放过程中可以防止不同延迟导致音视频异步问题。本方法实现简单，不增加网络带宽，在实现音视频合流的同时，兼顾了安全性和实时性的要求。

实施例2：

本发明实施例还提供一种基于复合传输策略的音视频同步系统，应用如上实施例提供的基于复合传输策略的音视频同步方法，如图2所示，为本实施例提供的一种基于复合传输策略的音视频同步系统的模块流程示意图。本实施例的系统包括发送端音视频合流模块（图中简写为音视频合流模块）、发送端网络发送模块（图中简写为网络发送模块）、接收端网络接收模块（图中简写为网络接收模块）以及接收端音视频流解析模块（图中简写为音视频流解析模块），其中：所述发送端音视频合流模块用于获取实时的音频编码数据和视频编码数据，并按照复用合成策略将实时的音频编码数据和视频编码数据进行合成，组合为音视频帧；所述发送端网络发送模块用于按照复用传输策略对音视频帧进行传输；所述接收端网络接收模块用于按照复用传输解析策略对音视频帧进行解析处理；所述接收端音视频流解析模块用于按照复用合成解析策略将音视频帧分离为音频帧和视频帧，并分别解码，以输出同步的音频信号和视频信号。

另外，系统还可以包括发送端音视频采集模块（图中简写为音视频采集）、发送端音视频编码模块（可分为图中的音频编码模块、视频编码模块）、接收端音视频解码模块（可分为图中的音频解码模块、视频解码模块）以及接收端音视频输出模块（图中简写为音视频输出），其中：所述发送端音视频采集模块用于对音频信号、视频信号进行采集；所述发送端音视频编码模块用于分别对音频信号、视频信号进行编码，以得到音频编码数据和视频编码数据；所述接收端音视频解码模块用于分别对音频编码数据、视频编码数据进行解码，以得到音频信号、视频信号；所述接收端音视频输出模块用于将音频信号、视频信号输出。

在一个具体的实施方式中，发送端音视频采集模块对音频、视频信号进行采集时，将各种模拟、数字视频信号、音频信号接入到发送端系统中，进行采集。发送端音视频编码模块分别对音频、视频进行编码时，按照通用的编码算法，如H264、H265视频编码算法，G711、AAC音频编码算法分别对视频、音频进行编码。

在一个具体的实施方式中，发送端音视频合流模块按照复用合成策略将实时音频编码数据或视频编码数据进行合成，组合为音视频帧并对帧内音视频数据进行标识，音视频帧标识分为三种，仅音频帧、仅视频帧和音视频合帧。音、视频编码参数设置不同，每秒钟生成的视频帧数M和音频帧数N可能不同，在音视频合流模块按照M和N的关系会生成仅音频帧、仅视频帧和音视频合帧三种帧，对应三种标识。当为音视频合帧时，视频帧和音频帧之间用固定数据区分开。

在一个具体的实施方式中，发送端网络发送模块按照复用传输策略将音视频帧发送到网络流中。模块读取音视频帧标识，根据标识信息和音、视频编码信息，修改网络流包头中的类型字段，并按照流媒体传输协议将帧数据拆分为若干个包数据，进行网络发送。

在一个具体的实施方式中，接收端网络接收模块按照对应的网络协议，接收音视频流数据；使用复用传输解析策略将分散的网络包合并为一个完整的音视频帧，读取类型字段，给音视频帧标注标识。

在一个具体的实施方式中，接收端音视频流解析模块读取音视频帧标识，根据标识分为仅音频帧、仅视频帧和音视频合帧三种帧，使用复用合成解析策略将音视频合帧拆分为音频帧和视频帧，将音、视频帧同步送入音频解码模块、视频解码模块。

在一个具体的实施方式中，接收端音视频解码模块分别对编码数据进行解码时，采用与编码对应的解码算法对编码数据进行解码。在一个具体的实施方式中，接收端音视频输出模块将音频、视频信号输出时，将解码后的音视频信号同步输出。

本实施例的上述过程中，复用合成策略主要完成音视频数据标识和音视频合帧功能。复用传输策略主要将音视频帧拆分为网络包，并根据标识在网络包头中标识类型。复用传输解析策略主要将音视频帧网络包合并形成一个完整音视频帧，并根据网络包头中标识类型完成标识备注。复用合成解析策略将音视频合帧拆分为音频帧和视频帧，将音、视频帧同步送入音频解码模块、视频解码模块。

参考图3所示的音视频复用合成、复用传输策略流程图所示，音视频分别采集、编码后，进行音视频合成，通过网络输出。其中，复用合成策略为假定音频编码参数设定后输出为Mfps，视频编码参数设定后输出为Nfps。如果M>N,则每秒钟生成的音频帧数大于视频帧数，那么就以音频帧为基准，每生成一个音频帧，等候Tms。如果有新视频帧生成，则将音、视频帧数据组合，中间用固定字段的特征数据隔开作为区分。将生成的音视频帧标识置为3，代表音视频合帧；如果没有新视频帧生成，则将此音频帧标识置为1，代表仅音频帧。如果M≤N,则每秒钟生成的音频帧数小于等于视频帧数，那么就以视频帧为基准，每生成一个视频帧，等候Tms。如果有新音频帧生成，则将音、视频帧数据组合，中间用固定字段的特征数据隔开作为区分。将生成的音视频帧标识置为3，代表音视频合帧；如果没有新音频帧生成，则将此视频帧标识置为2，代表仅视频帧。

研究机构和学者结合国际电联无线电通信部门ITU-R提出的音视频媒体单元时间固有特性，将这种主观感受量化为多媒体同步容限，根据视频与不同媒体间的偏移容限，总结出音视频合流的主观容限标准为±80ms，因此将T设定必须小于80ms，同时T也要兼顾音视频帧M和N的大小间隔，确保尽量多的帧标识为3的音视频合帧合成。

复用传输策略为读取音视频帧标识，合成音视频帧，通过网络输出。在流媒体传输系统中，音、视频流以RTP网络协议输出较多。通用的RTSP协议，在双方握手成功后，依然是以RTP协议传输音、视频流。因此，以RTP协议为例，根据标识信息修改RTP包包头PAYLOADTYPE类型信息，并将音视频帧数据拆分为若干个RTP包数据，通过网络发送到接收端。

RTP包的PAYLOAD TYPE字段用于说明报文中有效载荷的类型，如GSM音频、JPEM图像等，在流媒体中大部分是用来区分音频流和视频流的，便于客户端进行解析，在RFC3550、RFC 3551中有详细描述。由于协议定义较早，而有些负载类型诞生的较晚，所以没有具体的PAYLOAD TYPE值，只能使用动态（dynamic）PT值，即96-127字段，这个段没有具体规范，由用户自己定义。常见为约定H.264的PT值为96。当音视频帧标识为含音频、视频时，将音频编码信息和视频编码信息均要体现在PAYLOAD TYPE字段中，在本实施例的设计中，常见音、视频编码组合及对应PAYLOAD TYPE描述约定如图4所示。此图为自定义，可增删范围，也可修改定义值。

参考图5所示的音视频复用传输解析、合成解析策略流程图所示，接收端按照复用传输解析策略完成网络包的接收和合并，然后按照复用合成解析策略拆分为音频帧和视频帧，分别送入音频解码模块、视频解码模块，解码后播放。复用传输解析策略按照图4的约定进行解析，完成标识的备注，同时将若干个属于同一个帧的网络包合成为一个完整音视频帧，将音视频帧和标识备注一起传递给音视频流解析模块。音频帧标识为1代表仅音频帧。音频帧标识为2，代表仅视频帧。生成的音视频帧标识置为3，代表音视频合帧。音视频流解析模块按照标识解析，当既有音频又有视频时，也即为音视频合帧时，按照固定字段特征数据来需寻找间隔，分离出音频帧和视频帧。

综上所述，本发明提出了一种基于复合传输策略的音视频同步系统，该系统将音、视频编码数据合并复用在同一个音视频流中，保证了网络流中的音视频合流，同时在解析音视频帧时，将音视频帧分离出音频帧和视频帧，实时解析并同步解码，保证了播放端的音视频合流，两者结合，实现了流媒体传输系统中的音视频同步方法。此系统区别于传统音视频流异步传输和播放，在传输和播放过程中可以防止不同延迟导致音视频异步问题。本系统实现简单，不增加网络带宽，在实现音视频合流的同时，兼顾了安全性和实时性的要求。

实施例3：

在上述实施例提供的基于复合传输策略的音视频同步方法的基础上，本发明还提供了一种可用于实现上述方法的基于复合传输策略的音视频同步装置，如图6所示，是本发明实施例的装置架构示意图。本实施例的基于复合传输策略的音视频同步装置包括一个或多个处理器21以及存储器22。其中，图6中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如实施例2中的基于复合传输策略的音视频同步方法。处理器21通过运行存储在存储器22中的非易失性软件程序、指令以及模块，从而执行基于复合传输策略的音视频同步装置的各种功能应用以及数据处理，即实现本发明实施例的基于复合传输策略的音视频同步方法。

存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

程序指令/模块存储在存储器22中，当被一个或者多个处理器21执行时，执行上述实施例中的基于复合传输策略的音视频同步方法，例如，执行以上描述的图1所示的各个步骤。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（Read Only Memory，简写为：ROM）、随机存取存储器（Random AccessMemory，简写为：RAM）、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国船舶集团有限公司第七〇九研究所;

上一篇：用于视频编码帧间预测的分像素运动估计方法及装置
下一篇：同步方法、系统及电子设备