掌桥专利:专业的专利平台
掌桥专利
首页

音频处理方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 16:12:48



技术领域

本公开涉及数据处理技术领域,尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

在实时语音会议的场景中,房间内的客户端会将产生的音频发送给服务器,并从服务器接收房间内其他客户端传输的音频,在相关技术中,服务器会无差别地将房间内的所有音频转发给客户端,增加了客户端处理压力。

发明内容

本公开提供了一种音频处理方法、装置、电子设备及存储介质。

根据本公开的一方面,提供了一种音频处理方法,包括:

获取隶属目标服务器的客户端发送的至少一路第一音频实时传输协议RTP包;

接收目标服务器所属分布式网络中剩余服务器发送的至少一路第二音频RTP包;

从第一音频RTP包和第二音频RTP包中,选取至少一路候选音频RTP包;

将至少一路候选音频RTP包发送给客户端。

本公开实施例中对音频RTP包进行过滤和选择,过滤掉环境底噪,选择出真实说话音频发送给客户端,提高了音频质量,减少了不必要的带宽传输。

根据本公开的另一方面,提供了一种音频处理装置,包括:

获取模块,用于获取隶属目标服务器的客户端发送的至少一路第一音频实时传输协议RTP包;

接收模块,用于接收目标服务器所属分布式网络中剩余服务器发送的至少一路第二音频RTP包;

选取模块,用于从第一音频RTP包和第二音频RTP包中,选取至少一路候选音频RTP包;

发送模块,用于将至少一路候选音频RTP包发送给客户端。

根据本公开的另一方面,提供了一种电子设备,包括存储器、处理器;

其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现本公开第一个方面实施例的音频处理方法。

根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一个方面实施例的音频处理方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开第一个方面实施例的音频处理方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

图1是根据本公开一个实施例的音频处理方法的流程图;

图2是基于实时传输协议RTP的实时语音通信系统的示意图;

图3是根据本公开一个实施例的音频处理方法的流程图;

图4是根据本公开一个实施例的音频处理方法的流程图;

图5是根据本公开一个实施例的音频处理方法的流程图;

图6是根据本公开一个实施例的音频处理方法的流程图;

图7是根据本公开一个实施例的音频处理方法的流程图;

图8是根据本公开一个实施例的音频处理方法的流程图;

图9是根据本公开一个实施例的音频处理方法的流程图;

图10是根据本公开一个实施例的音频处理方法的流程图;

图11是根据本公开一个实施例的音频处理装置的结构图;

图12是根据本公开一个实施例的音频处理装置的结构图;

图13是用来实现本公开实施例的音频处理方法的电子设备的框图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面结合参考附图描述本公开的音频处理方法、装置、电子设备及存储介质。

图1是根据本公开一个实施例的音频处理方法的流程图,该方法应用于目标服务器,如图1所示,该方法包括以下步骤:

S101,获取隶属目标服务器的客户端发送的至少一路第一音频实时传输协议RTP包。

实时传输协议(Real-time Transport Protocol,RTP)是一个网络传输协议,常用于流媒体相关的通讯和娱乐,包括电话、视频会议、电视和基于网络的一键通话业务。本公开实施例中构建了基于RTP的分布式网络,包括多个服务器,服务器之间可以相互传输音频,每个服务器对应多个客户端,客户端与对应的服务器可以相互传输音频,如图2所示,通过音频RTP包传输生成的音频数据。

在本公开实施例构建的分布式网络中,存在多个服务器,用于对传输的音频RTP包进行收集、转发、编码等处理,目标服务器为多个服务器中的其中一个,下面以目标服务器为例,对本公开的音频处理方法进行解释说明。

目标服务器可以对应有一个或多个客户端,在音频传输时,每个客户端采集产生的音频信号,并向对应的服务器发送一路音频RTP包。相应地,目标服务器获取隶属于自己的所有客户端发送的音频RTP包,作为第一音频RTP包,第一音频RTP包的数量与对应的客户端的数量相同,至少有一路。

可选地,客户端可以为手机客户端、电脑客户端等。

S102,接收目标服务器所属分布式网络中剩余服务器发送的至少一路第二音频RTP包。

分布式网络中的每个服务器获取隶属于自己的客户端发送的第一音频RTP包,并可以将获取的第一音频RTP包根据情况发送给剩余服务器。相应地,目标服务器可以接收所属分布式网络中剩余服务器发送的音频RTP包,作为第二音频RTP包,需要说明的是,第二音频RTP包至少有一路。

可选地,目标服务器对获取的第一音频RTP包进行筛选,将筛选后的第一音频RTP包发送给剩余服务器。

S103,从第一音频RTP包和第二音频RTP包中,选取至少一路候选音频RTP包。

为了减少不必要的带宽传输,节省资源,可以对第一音频RTP包和第二音频RTP包进行筛选,选取出部分音频RTP包作为候选音频RTP包。

可选地,选取服务器优先级高的音频RTP包作为候选音频RTP包。

可选地,选取到达时间早的音频RTP包作为候选音频RTP包。

可选地,选取音量大的音频RTP包作为候选音频RTP包。

需要说明的是,选取的候选音频RTP包至少有一路。

S104,将至少一路候选音频RTP包发送给客户端。

对候选音频RTP包进行进一步处理,生成目标音频RTP包,并将目标音频RTP包发送给客户端进行播放。

本公开实施例中,目标服务器获取隶属目标服务器的客户端发送的至少一路第一音频实时传输协议RTP包,接收目标服务器所属分布式网络中剩余服务器发送的至少一路第二音频RTP包,从第一音频RTP包和第二音频RTP包中,选取至少一路候选音频RTP包,将至少一路候选音频RTP包发送给客户端。本公开实施例中对音频RTP包进行过滤和选择,过滤掉环境底噪,选择出真实说话音频发送给客户端,提高了音频质量,减少了不必要的带宽传输。

图3是根据本公开一个实施例的音频处理方法的流程图,在上述实施例的基础上,进一步结合图3,对从第一音频RTP包和第二音频RTP包中,选取至少一路候选音频RTP包的过程进行解释说明,包括以下步骤:

S301,获取第一音频RTP包和第二音频RTP包在设定周期内各采样时刻的声强表征值,其中,声强表征值表征所采样到的声音的大小。

为了过滤掉音频RTP包中的环境噪音,可以根据音量大小,从第一音频RTP包和第二音频RTP包中,选取音量较大的音频RTP包,作为候选音频RTP包。

目标服务器中包括RTP采样器,可以定时对收到的第一音频RTP包和第二音频RTP包进行采样,获取此时音频RTP包的声强表征值。其中,声强表征值为音频RTP包中包含的扩展标识符,可以表征所采样到的声音的大小,取值范围为[0,127]。

RTP采样器的采样周期可以根据需要进行调整,可选地,可以设置为100ms。

S302,基于声强表征值,从第一音频RTP包和第二音频RTP包中,选取候选音频RTP包。

基于声强表征值,从第一音频RTP包和第二音频RTP包中选取预设数量的音频RTP包,作为候选音频RTP包。

在一些实现中,目标服务器识别候选音频RTP包中是否存在来源于剩余服务器下属客户端的第一候选音频RTP包,即将从第二音频RTP包中筛选出的候选音频RTP包作为第一候选音频RTP包。从候选音频RTP包中剔除第一候选音频RTP包,得到剩余的第二候选音频RTP包。将剩余的第二候选音频RTP包发送给剩余服务器。此时,对于任一剩余服务器来说,目标服务器发送的第二候选音频RTP包即为剩余服务器接收到的第二音频RTP包。

本公开实施例中,获取第一音频RTP包和第二音频RTP包在设定周期内各采样时刻的声强表征值,其中,声强表征值表征所采样到的声音的大小,基于声强表征值,从第一音频RTP包和第二音频RTP包中,选取候选音频RTP包。本公开实施例中基于声强表征值,选取固定数量的音频RTP包作为候选音频RTP包,从而过滤掉大部分环境底噪,提高了音频质量,减少了不必要的带宽传输。

图4是根据本公开一个实施例的音频处理方法的流程图,在上述实施例的基础上,进一步结合图4,对基于声强表征值,从第一音频RTP包和第二音频RTP包中,选取候选音频RTP包的过程进行解释说明,包括以下步骤:

S401,针对第一音频RTP包和第二音频RTP包中的任一音频RTP包,根据任一音频RTP包在各采样时刻的声强表征值,获取任一音频RTP包的平均声强表征值。

获取任一音频RTP包在各采样时刻的声强表征值L

S402,基于平均声强表征值,从第一音频RTP包和第二音频RTP包中选取预设数量的音频RTP包,作为候选音频RTP包。

在一些实现中,声强表征值与声音大小成负相关,按照平均声强表征值,对第一音频RTP包和第二音频RTP包按照从小到大进行排序。从第一音频RTP包和第二音频RTP包中,按照顺序选取预设数量的音频RTP包,作为候选音频RTP包。

在另一些实现中,声强表征值与声音大小成正相关,按照平均声强表征值,对第一音频RTP包和第二音频RTP包按照从大到小进行排序。从第一音频RTP包和第二音频RTP包中,按照顺序选取预设数量的音频RTP包,作为候选音频RTP包。

其中,候选音频RTP包的数量可以根据第一音频RTP包和第二音频RTP包的总数量而决定,并可根据实际情况进行调整。

本公开实施例中,针对第一音频RTP包和第二音频RTP包中的任一音频RTP包,根据任一音频RTP包在各采样时刻的声强表征值,获取任一音频RTP包的平均声强表征值,基于平均声强表征值,从第一音频RTP包和第二音频RTP包中选取预设数量的音频RTP包,作为候选音频RTP包。本公开实施例中基于平均声强表征值选取候选音频RTP包,避免了因真实说话音频RTP包在某些采样时刻音量较低而导致的误筛现象,提高了候选音频RTP包选取的准确性。

图5是根据本公开一个实施例的音频处理方法的流程图,在上述实施例的基础上,进一步结合图5,对将至少一路候选音频RTP包发送给客户端进行混音处理的过程进行解释说明,包括以下步骤:

S501,针对任一候选音频RTP包,提取任一候选音频RTP包的属性信息,将属性信息向对应订阅通道进行映射,以生成对应订阅通道的目标音频RTP包。

提取任一候选音频RTP包的属性信息,属性信息包括同步源标识、RTP的荷载类型和包序号。

同步源标识用于标注某一路音频RTP包的源客户端,可以根据同步源标识找出音频RTP包是由哪个客户端产生的。

RTP的荷载类型用于判断传输的是音频还是视频。

RTP的包序号是音频RTP包的序号标识,可以根据包序号判断音频RTP包的传输过程中有没有发生丢包现象。

目标服务器基于任一候选音频RTP包对应的订阅通道的配置信息,对同步源标识和荷载类型进行赋值。其中,订阅通道为服务端创建房间时预先创建的,客户端加入房间后,订阅目标服务器的N个订阅通道。

需要说明的是,订阅通道的个数与选取的候选音频RTP包的个数相同。

目标服务器获取首次映射的候选音频RTP包的第一包序号和订阅通道当前的第二包序号之间的偏移量,针对后续的候选音频RTP包,将后续的候选音频RTP包的第一包序号与偏移量相加,得到后续的候选音频RTP包对应的第二包序号。

将属性信息向对应订阅通道进行映射后,生成对应订阅通道的目标音频RTP包。

S502,将目标音频RTP包发送给客户端。

服务器将目标音频RTP包发送给客户端进行播放。

本公开实施例中,针对任一候选音频RTP包,提取任一候选音频RTP包的属性信息,将属性信息向对应订阅通道进行映射,以生成对应订阅通道的目标音频RTP包,将目标音频RTP包发送给客户端。本公开实施例中通过RTP包映射,生成了发送给客户端的目标音频RTP包。

图6是根据本公开一个实施例的音频处理方法的流程图,在上述实施例的基础上,进一步结合图6,对生成目标音频RTP包的过程进行解释说明,还包括以下步骤:

S601,响应于存在来源于客户端自身的音频RTP包,将来源于客户端自身的音频RTP包进行剔除。

为了进一步节约带宽资源,并防止接收的音频中包含回音,需要将来源于客户端自身的音频RTP包进行剔除,可选地,可以在映射前剔除,也可以在映射后剔除。

在一些实现中,获取到至少一路候选音频RTP包后,可以先识别至少一路候选音频RTP包中是否存在来源于客户端自身的目标候选音频RTP包,若候选音频RTP包存在目标候选音频RTP包,为了节省资源可以将目标候选音频RTP包进行剔除,进一步地,将剩余的候选音频RTP包映射成目标音频RTP包。

在另一些实现中,获取到至少一路候选音频RTP包后,可以先对候选音频RTP包进行映射,然后识别映射后的目标音频RTP包中是否存在来源于客户端自身的目标音频RTP包,若存在来源于客户端自身的目标音频RTP包,为了节省资源可以将来源于客户端自身的目标音频RTP包进行剔除。

S602,将剩余的音频RTP包发送给客户端。

针对任一客户端,服务器获取将来源于客户端自身的音频RTP包剔除后的目标音频RTP包,并将其发送给对应的客户端进行播放。

本公开实施例中,响应于存在来源于客户端自身的音频RTP包,将来源于客户端自身的音频RTP包进行剔除,将剩余的音频RTP包发送给客户端。本公开实施例中将客户端自身发送的音频RTP包剔除,避免了接收到的音频中存在自己声音的回音的现象。

图7是根据本公开一个实施例的音频处理方法的流程图,该方法应用于客户端,如图7所示,该方法包括以下步骤:

S701,向所隶属的目标服务器发送至少一路第一音频RTP包。

任一客户端对当前环境下的音频数据进行采集,生成第一音频RTP包,并发送给所隶属的目标服务器。

S702,接收目标服务器发送的至少一路的候选音频RTP包,其中,候选音频RTP包为目标服务器从第一音频RTP包和来源于剩余服务器的第二音频RTP包中选取出的,目标服务器和剩余服务器属于同一个分布式网络。

需要说明的是,为了避免客户端接收到的音频中存在自己声音的回音,目标服务器需要将来源于客户端自身的音频RTP包进行剔除,也就是说,候选音频RTP包中未包括客户端自身采集的第一音频RTP包。

本公开实施例中,客户端向所隶属的目标服务器发送至少一路第一音频RTP包,接收目标服务器发送的至少一路的候选音频RTP包,其中,候选音频RTP包为目标服务器从第一音频RTP包和来源于剩余服务器的第二音频RTP包中选取出的,目标服务器和剩余服务器属于同一个分布式网络。本公开实施例中客户端接收的目标音频RTP包经过筛选,大大降低了接收音频中的环境底噪,提高了音频质量。

图8是根据本公开一个实施例的音频处理方法的流程图,在上述实施例的基础上,还包括:

S801,从目标服务器订阅预设数量的订阅通道。

目标服务器在创建房间时,预先创建N个虚拟音频流,作为订阅通道。客户端加入房间后,订阅目标服务器的N个订阅通道。需要说明的是,订阅通道的数量N即为从第一音频RTP包和第二音频RTP包中选取的候选音频RTP包的数量。

S802,从订阅通道上接收每个订阅通道传输的目标音频RTP包,其中,目标音频RTP包的属性信息由目标服务器将候选音频RTP包的属性信息向对应订阅通道进行映射后得到。

目标服务器获取候选音频RTP包的属性信息,并将属性信息向对应订阅通道进行映射,以生成对应订阅通道的目标音频RTP包。相应地,客户端可以从订阅通道上接收每个订阅通道传输的目标音频RTP包。

关于将属性信息向对应订阅通道进行映射的具体实现可以参见本公开各实施例中相关介绍,此处不再赘述。

本公开实施例中,客户端从目标服务器订阅预设数量的订阅通道,并从订阅通道上接收每个订阅通道传输的目标音频RTP包,其中,目标音频RTP包的属性信息由目标服务器将候选音频RTP包的属性信息向对应订阅通道进行映射后得到。本公开实施例中通过订阅通道,可以将多个真实流的音频RTP包动态映射为固定N个虚拟流的音频RTP包。

图9是根据本公开一个实施例的音频处理方法的流程图,在上述实施例的基础上,向所隶属的目标服务器发送至少一路第一音频RTP包之前,还包括:

S901,在设定周期内的各采样时刻进行音频采集,并基于采集的音频的声音大小,生成音频的声音表征值。

在设定周期内的各采样时刻进行音频采集,获取采样时刻音频的分贝值,基于分贝值生成音频的声音表征值。

其中,声强表征值与分贝值可以成负相关或正相关。

S902,基于各个采样时刻采集的音频和音频对应的声音表征值,生成第一音频RTP包。

基于采集的音频生成音频RTP包,基于声音表征值生成音频RTP包的扩展报头,生成第一音频RTP包。

本公开实施例中,在设定周期内的各采样时刻进行音频采集,并基于采集的音频的声音大小,生成音频的声音表征值,基于各个采样时刻采集的音频和音频对应的声音表征值,生成第一音频RTP包。本公开实施例中基于声音表征值生成第一音频RTP包,使服务器可以通过识别声音表征值轻松获取音频RTP包的采样声音大小。

图10是根据本公开一个实施例的音频处理方法的流程图,如图10所示,基于本公开提供的音频处理方法,在实际应用场景下音频处理的过程包括以下步骤:

图10所示的分布式网络中包括服务器1和服务器2,以这两个服务器为例,对音频处理的过程解释说明。

在音频传输时,服务器1对应的客户端向服务器1发送客户端音频,作为第一音频RTP包,同时,服务器2向服务器1发送服务器2对应的客户端音频,作为第二音频RTP包。其中,服务器2向服务器1发送的第二音频RTP包为经过选择器筛选的音频。

相应地,服务器2对应的客户端向服务器2发送客户端音频,作为第一音频RTP包,同时,服务器1向服务器2发送服务器1对应的客户端音频,作为第二音频RTP包。其中,服务器1向服务器2发送的第二音频RTP包为经过选择器筛选的音频。

服务器中可以包括RTP采样器、选择器和包映射,对接收的音频RTP包进行处理。

其中,RTP采样器获取第一音频RTP包和第二音频RTP包在设定周期内各采样时刻的声强表征值,其中,声强表征值表征所采样到的声音的大小。

选择器基于声强表征值,从第一音频RTP包和第二音频RTP包中,选取候选音频RTP包。若候选音频RTP包中包括来源于服务器本地客户端所传输的音频RTP包,则将其发送给另一服务器。

包映射提取任一候选音频RTP包的属性信息,将属性信息向对应订阅通道进行映射,以生成对应订阅通道的目标音频RTP包。

响应于存在来源于客户端自身的目标音频RTP包,将来源于客户端自身的目标音频RTP包进行剔除,将剩余的目标音频RTP包发送给客户端进行混音处理。

关于本实施例的具体实现可以参见本公开各实施例中相关介绍,此处不再赘述。

本公开实施例中对音频RTP包进行过滤和选择,过滤掉环境底噪,选择出真实说话音频发送给客户端,提高了音频质量,减少了不必要的带宽传输。

图11是根据本公开一个实施例的音频处理装置的结构图,如图11所示,音频处理装置1100包括:

获取模块1110,用于获取隶属目标服务器的客户端发送的至少一路第一音频实时传输协议RTP包;

接收模块1120,用于接收目标服务器所属分布式网络中剩余服务器发送的至少一路第二音频RTP包;

选取模块1130,用于从第一音频RTP包和第二音频RTP包中,选取至少一路候选音频RTP包;

发送模块1140,用于将至少一路候选音频RTP包发送给客户端。

需要说明的是,前述对音频处理方法实施例的解释说明也适用于该实施例的音频处理装置,此处不再赘述。

本公开实施例中对音频RTP包进行过滤和选择,过滤掉环境底噪,选择出真实说话音频发送给客户端,提高了音频质量,减少了不必要的带宽传输。

进一步地,在本公开实施例一种可能的实现方式中,选取模块1130,还用于:获取第一音频RTP包和第二音频RTP包在设定周期内各采样时刻的声强表征值,其中,声强表征值表征所采样到的声音的大小;基于声强表征值,从第一音频RTP包和第二音频RTP包中,选取候选音频RTP包。

进一步地,在本公开实施例一种可能的实现方式中,选取模块1130,还用于:针对第一音频RTP包和第二音频RTP包中的任一音频RTP包,根据任一音频RTP包在各采样时刻的声强表征值,获取任一音频RTP包的平均声强表征值;基于平均声强表征值,从第一音频RTP包和第二音频RTP包中选取预设数量的音频RTP包,作为候选音频RTP包。

进一步地,在本公开实施例一种可能的实现方式中,选取模块1130,还用于:响应于声强表征值与声音大小成负相关,按照平均声强表征值,对第一音频RTP包和第二音频RTP包按照从小到大进行排序;从第一音频RTP包和第二音频RTP包中,按照顺序选取预设数量的音频RTP包,作为候选音频RTP包。

进一步地,在本公开实施例一种可能的实现方式中,选取模块1130,还用于:响应于声强表征值与声音大小成正相关,按照平均声强表征值,对第一音频RTP包和第二音频RTP包按照从大到小进行排序;从第一音频RTP包和第二音频RTP包中,按照顺序选取预设数量的音频RTP包,作为候选音频RTP包。

进一步地,在本公开实施例一种可能的实现方式中,发送模块1140,还用于:针对任一候选音频RTP包,提取任一候选音频RTP包的属性信息,将属性信息向对应订阅通道进行映射,以生成对应订阅通道的目标音频RTP包;将目标音频RTP包发送给客户端。

进一步地,在本公开实施例一种可能的实现方式中,属性信息包括同步源标识、RTP的荷载类型和包序号,发送模块1140,还用于:基于任一候选音频RTP包对应的订阅通道的配置信息,对同步源标识和荷载类型进行赋值;获取首次映射的候选音频RTP包的第一包序号和订阅通道当前的第二包序号之间的偏移量;针对后续的候选音频RTP包,将后续的候选音频RTP包的第一包序号与偏移量相加,得到后续的候选音频RTP包对应的第二包序号。

进一步地,在本公开实施例一种可能的实现方式中,发送模块1140,还用于:识别至少一路候选音频RTP包中是否存在来源于客户端自身的目标候选音频RTP包;响应于存在目标候选音频RTP包,将目标候选音频RTP包进行剔除;将剩余的候选音频RTP包映射成目标音频RTP包发送给客户端。

进一步地,在本公开实施例一种可能的实现方式中,发送模块1140,还用于:识别目标音频RTP包中是否存在来源于客户端自身的目标音频RTP包;响应于存在来源于客户端自身的目标音频RTP包,将来源于客户端自身的目标音频RTP包进行剔除;将剩余的目标音频RTP包发送给客户端。

进一步地,在本公开实施例一种可能的实现方式中,获取模块1110,还用于:识别候选音频RTP包中是否存在来源于剩余服务器下属客户端的第一候选音频RTP包;从候选音频RTP包中剔除第一候选音频RTP包,得到剩余的第二候选音频RTP包;将剩余的第二候选音频RTP包发送给剩余服务器。。

图12是根据本公开一个实施例的音频处理装置的结构图,如图12所示,音频处理装置1200包括:

发送模块1210,用于向所隶属的目标服务器发送至少一路第一音频RTP包;

接收模块1220,用于接收目标服务器发送的至少一路的候选音频RTP包,其中,候选音频RTP包为目标服务器从第一音频RTP包和来源于剩余服务器的第二音频RTP包中选取出的,目标服务器和剩余服务器属于同一个分布式网络。

需要说明的是,前述对音频处理方法实施例的解释说明也适用于该实施例的音频处理装置,此处不再赘述。

本公开实施例中客户端接收的目标音频RTP包经过筛选,大大降低了接收音频中的环境底噪,提高了音频质量。

进一步地,在本公开实施例一种可能的实现方式中,至少一路候选音频RTP包中未包括客户端自身采集的第一音频RTP包。

进一步地,在本公开实施例一种可能的实现方式中,发送模块1210,还用于:在设定周期内的各采样时刻进行音频采集,并基于采集的音频的声音大小,生成音频的声音表征值;基于各个采样时刻采集的音频和音频对应的声音表征值,生成第一音频RTP包。

进一步地,在本公开实施例一种可能的实现方式中,发送模块1210,还用于:从目标服务器订阅预设数量的订阅通道。

进一步地,在本公开实施例一种可能的实现方式中,接收模块1220,还用于:从订阅通道上接收每个订阅通道传输的目标音频RTP包,其中,目标音频RTP包的属性信息由目标服务器将候选音频RTP包的属性信息向对应订阅通道进行映射后得到。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本公开的实施例的示例电子设备130的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示,包括存储器131、处理器132及存储在存储器131上并可在处理器132上运行的计算机程序,处理器132执行程序时,实现前述的音频处理方法。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质
  • 音频数据处理方法和装置、通话方法、音频处理芯片、电子设备以及计算机可读存储介质
技术分类

06120114744139