掌桥专利:专业的专利平台
掌桥专利
首页

一种音频处理方法、装置、设备及可读存储介质

文献发布时间:2024-04-18 20:00:50


一种音频处理方法、装置、设备及可读存储介质

技术领域

本申请涉及音频处理技术领域,尤其涉及一种音频处理方法、装置、设备及可读存储介质。

背景技术

在多种场景下均涉及音频文件下发,音频文件下发后用户可以播放该音频文件。由于在音频获取的过程中,例如每个音频文件的上传用户可以根据需求设置背景音、以及设置背景音的音量,或者在音频录制或者采集的过程中可能存在噪音,或者由于音频录制设备的性能问题,可能导致获取的音频文件的音频效果不理想。若直接对这些音频文件进行下发,同一用户在依次播放多个不同的音频文件时,可能会存在一些音频文件声音较大,用户播放该音频文件时会感到刺耳,一些音频文件声音较小,用户难以听清,降低用户体验。目前的方法一般是直接下发该音频文件,因此该种方式下发的音频文件的效果不理想,容易造成用户对相关音频的投诉,用户体验较差。

发明内容

本申请实施例提供一种音频处理方法、装置、设备及可读存储介质,可以提升音频文件的质量,减少音频刺耳的情况,减少用户投诉,进而提升用户体验。

第一方面,本申请提供一种音频处理方法,包括:

获取初始音频文件,分别采用算法集合中的N种响度处理算法对该初始音频文件进行音频处理,得到N个待选音频文件;一种响度处理算法对应一个待选音频文件,N为正整数;

分别获取该N个待选音频文件的音频特征参数;该音频特征参数用于指示待选音频文件的音频质量;

基于该N个待选音频文件的音频特征参数从该N个待选音频文件或该初始音频文件中确定目标音频文件,向终端设备下发该目标音频文件。

第二方面,本申请提供了一种音频处理装置,其特征在于,该装置包括:

音频处理单元,用于获取初始音频文件,分别采用算法集合中的N种响度处理算法对该初始音频文件进行音频处理,得到N个待选音频文件;一种响度处理算法对应一个待选音频文件,N为正整数;

参数获取单元,用于分别获取该N个待选音频文件的音频特征参数;该音频特征参数用于指示待选音频文件的音频质量;

文件确定单元,用于基于该N个待选音频文件的音频特征参数从该N个待选音频文件或该初始音频文件中确定目标音频文件,向终端设备下发该目标音频文件。

第三方面,本申请提供了一种计算机设备,包括:处理器、存储器、网络接口;

上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储计算机程序代码,上述处理器用于调用上述计算机程序代码,以使包含该处理器的计算机设备执行上述音频处理方法。

第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行上述音频处理方法。

第五方面,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请第一方面中的各种可选方式中提供的音频处理方法。

本申请实施例中,通过采用多种响度处理算法对初始音频文件进行音频处理,得到多个待选音频文件;进而可以基于多个待选音频文件的音频特征参数从多个待选音频文件或初始音频文件中确定目标音频文件,向终端设备下发目标音频文件。通过响度处理算法可以将音频文件的响度调整到合适范围,由于对多种响度处理算法对应的待选音频文件进行效果评估,可以确定每种待选音频文件的效果,从而可以从中选择效果较好的音频文件进行下发,相当于在初始音频文件的基础上提升了音频文件的质量,可以减少音频刺耳的情况,进而减少对人耳的损伤,减少用户投诉,进而提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频处理系统的网络架构图;

图2是本申请实施例提供的一种音频处理方法的流程示意图;

图3是本申请实施例提供的另一种音频处理方法的流程示意图;

图4是本申请实施例提供的一种音频处理装置的组成结构示意图;

图5是本申请实施例提供的一种计算机设备的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请技术方案可以适用于音频文件下发的场景中,例如可以适用于点播、直播等场景中的音频文件下发。通过对初始音频文件进行音频处理,并对处理后的音频文件进行参数分析,从而确定处理后的音频文件的效果,进而选择效果较好的音频文件进行下发,相当于在初始音频文件的基础上提升了音频文件的质量,可以减少音频刺耳的情况,减少对人耳的损伤,从而减少用户投诉,进而提升用户体验。本申请技术方案还可以应用于多媒体短视频平台中的音频响度控制技术领域,也可以用于通话场景中,本申请实施例对此不作限定。

请参考图1,图1是本申请实施例提供的一种音频处理系统的网络架构图,如图1所示,计算机设备可以与终端设备进行数据交互,终端设备的数量可以为一个或者至少两个。例如,当终端设备的数量为多个时,终端设备可以包括图1中的终端设备101a、终端设备101b及终端设备101c等。其中,以终端设备101a为例,计算机设备102可以获取初始音频文件,采用多种响度处理算法对初始音频文件进行音频处理,得到多个待选音频文件;进一步地,计算机设备102可以基于多个待选音频文件的音频特征参数从多个待选音频文件或初始音频文件中确定目标音频文件。进一步地,计算机设备102还可以向终端设备101a下发目标音频文件,则用户可以通过终端设备101a播放目标音频文件。由于通过多种响度处理算法对初始音频文件进行音频处理,从处理后的音频文件中选择效果较好的音频文件进行下发,相当于在初始音频文件的基础上提升了音频文件的质量,可以减少音频刺耳的情况,减少对人耳的损伤,从而减少用户投诉,进而提升用户体验。

本申请实施例中所提及的计算机设备可以是指服务器或者终端设备,或者也可以是服务器和终端设备组成的系统,本申请实施例对此不做限定。终端设备可以是一种电子设备,包括但不限于手机、平板电脑、笔记本电脑、车载设备等。以上所提及的服务器可以是独立的一个物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。当服务器为独立的一个物理服务器时,该服务器可以独立进行音频处理。当服务器为多个物理服务器时,可以由多个物理服务器协同合作进行音频处理。

进一步地,请参见图2,图2是本申请实施例提供的一种音频处理方法的流程示意图;如图2所示,该音频处理方法可以应用于计算机设备,该音频处理方法包括但不限于以下步骤:

S101,获取初始音频文件,分别采用算法集合中的N种响度处理算法对初始音频文件进行音频处理,得到N个待选音频文件。

本申请实施例中,可以通过声音录制设备实时录制得到初始音频文件,或者通过用户使用的终端设备上传初始音频文件,或者可以获取本地存储中的初始音频文件,或者获取其他计算机设备发送的初始音频文件,本申请实施例对获取初始音频文件的方式不做限定。初始音频文件可以是指对用户说话的声音进行录制得到的音频文件、或者唱歌的声音进行录制得到的音频文件、或者对自然界中其他生物发出的声音进行录制得到的音频文件、或者对音频文件进行转录得到的音频文件,等等。本申请实施例中的待选音频文件例如还可以是指视频中的音频文件,例如短视频中的音频文件,等等。

可选地,可以获取传输的音频流,对音频流进行分帧处理,得到每帧音频数据,还可以进一步对每帧音频数据进行转换,将时域的音频信号转换为频域的音频信号,后续可以对频域的音频信号进行分析,确定音频文件的效果。

本申请实施例中,由于在音频获取的过程中,例如每个音频文件的上传用户可以根据需求设置背景音、以及设置背景音的音量,或者在音频录制或者采集的过程中可能存在噪音,或者由于音频录制设备的性能问题,可能导致获取的音频文件的音频效果不理想。若直接对这些音频文件进行下发,同一用户在依次播放多个不同的音频文件时,可能会存在一些音频文件声音较大,一些音频文件声音较小,若将该音频文件直接下发,可能会导致用户播放该音频文件时感到刺耳,增加对人耳的损伤,容易造成用户对相关音频以及相关平台的投诉。

因此,本申请实施例中可以采用响度处理算法对初始音频文件进行音频处理,针对于多个不同的初始音频文件,即用户上传的原始音频文件,尽可能将多个初始音频文件中的响度都调整到一定的范围,从而在用户依次播放多个调整后的音频文件时,不会存在一些音频文件中声音很大,一些声音很小的情况,可以减少音频刺耳的情况,进而减少对人耳的损伤。本申请实施例中是针对多个初始音频文件中的每个初始音频文件,分别采用多种响度处理算法进行处理,每个初始音频文件的处理方法之间互不影响。本申请实施例中是针对一个初始音频文件进行的说明,针对于多个初始音频文件中的其他音频文件的处理方式可以参考该音频文件的处理方式。具体地,本申请实施例中可以采用N种响度处理算法对初始音频文件进行音频处理,可以得到N个待选音频文件。一种响度处理算法对应一个待选音频文件,N为正整数。也就是说,通过使用多种响度处理算法对初始音频文件进行音频处理,得到多个待选音频文件后,可以分别对每个音频文件对应的多个待选音频文件进行效果评估,确定每个待选音频文件的音频效果,从而从多个待选音频文件中选择效果较优的音频文件下发至用户,减少人耳的损伤,减少用户投诉。

其中,算法集合中可以包括N种不同的响度处理算法,响度处理算法可以包括但不限于响度均衡算法和其他可以对音频文件的响度或其他方面的效果进行提升的算法。其中,响度均衡算法可以包括多种,每种响度均衡算法的计算参数可以不同。响度均衡算法可以对音频文件处理过程中参数的增益进行统计,从而对处理后的音频文件的效果进行评估。响度均衡算法可以是指目前的多个企业使用的可以实现对音频文件进行处理的方法。不同企业的响度均衡算法对音频文件处理产生的效果不同,一些企业在响度均衡算法处理的效果不足的基础上提出了多种新的响度均衡算法。然而,这些响度均衡算法处理后的音频文件在效果上都存在各种不足,例如有的音频文件会存在噪声过度放大,有的音频文件会存在声音忽大忽小等问题。

在一个实施例中,可以对初始音频文件进行分帧处理,得到初始音频文件对应的M帧音频数据,则采用N种响度处理算法对初始音频文件进行音频处理时,可以采用N种响度处理算法对初始音频文件对应的M帧音频数据分别进行音频处理,得到每种响度处理算法对M帧音频数据的处理结果,从而根据每种响度处理算法对M帧音频数据的处理结果对每种算法对应的待选音频文件进行效果评估。M为正整数。

通过对初始音频文件进行分帧处理,可以得到多帧音频数据,则可以采用响度处理算法对每帧音频数据进行处理,在后续确定待选音频文件的特征参数时,可以提高参数确定准确性。

在另一个实施例中,初始音频文件可以包括M帧音频数据。例如在获取到初始音频文件时,可以预先对初始音频文件进行分帧处理,得到M帧音频数据并存储在本地数据库中,则后续可以直接获取本地数据库中的初始音频文件包括的M帧音频数据,后续可以采用每种算法分别对M帧音频数据进行音频处理。

可选地,为了降低服务器压力,终端设备关联的录制装置在获取到初始音频文件时,可以对初始音频文件进行分帧处理,得到初始音频文件对应的M帧音频数据,在上传初始音频文件时,可以直接将M帧音频数据上传至计算机设备,可以采用N种响度处理算法分别对M帧音频数据进行处理,进而根据处理结果进行后续的效果评估。由终端设备执行对初始音频文件进行分帧处理的过程,则服务器无需对初始音频文件进行分帧处理,可以在一定程度上减少服务器压力,提升服务器处理效率。本申请实施例对获取M帧音频数据的方式不做限定。

在一种可能的情况下,若N为1,即算法集合中包括一种响度处理算法,则可以采用该种响度处理算法对初始音频文件进行音频处理,得到一个待选音频文件。后续可以进一步对该待选音频文件进行效果评估,若评估结果指示该待选音频文件满足要求,则可以将该待选音频文件下发至终端设备。若评估结果指示该待选音频文件不满足要求,则表示该种响度处理算法处理后的待选音频文件中存在较严重的问题,即通过算法处理后的音频文件的效果比初始音频文件差,则可以将初始音频文件下发至终端设备。

在一种可能的实现方式中,可以使用算法集合中的多种响度处理算法依次对初始音频文件进行处理,并对处理后的待选音频文件进行效果分析。当使用某种响度处理算法对初始音频文件进行处理,得到的待选音频文件的效果较好时,可以将该待选音频文件确定为目标音频文件,向终端设备下发。无需使用算法集合中剩下的响度处理算法对初始音频文件进行处理,可以提升音频处理效率。

在另一种可能的实现方式中,可以从算法集合中获取与历史响度处理算法匹配的响度处理算法,使用该响度处理算法对初始音频文件进行处理,得到的待选音频文件,并对该待选音频文件进行效果评估,若效果较好,则将该待选音频文件确定为目标音频文件,向终端设备下发。其中,历史响度处理算法可以是指在获取初始音频文件之前的历史时间段采用算法集合中的多种算法对音频文件进行处理,并评估出算法效果高于效果阈值的算法,则后续可以直接使用历史响度处理算法对初始音频文件进行处理,减少数据量。可以理解的是,若采用与历史响度处理算法匹配的响度处理算法对初始音频文件进行处理,得到的待选音频文件的效果较差时,还可以使用算法集合中的其他算法对初始音频文件进行处理,以获取效果较好的算法处理后的音频文件,并向终端设备下发。

S102,分别获取N个待选音频文件的音频特征参数。

本申请实施例中,由于采用N种响度处理算法分别对初始音频文件进行处理,得到N个待选音频文件,因此可以分别获取N个待选音频文件的音频特征参数,从而可以基于音频特征参数来评估待选音频文件的音频效果。其中,音频特征参数用于指示待选音频文件的音频质量。音频特征参数可以包括但不限于待选音频文件的最大增益值、待选音频文件的增益值变化率、待选音频文件的增益峰值数、待选音频文件的增益方差、待选音频文件的增益峰值、待选音频文件的响度值、待选音频文件的动态范围中的一种或多种。本申请实施例对于待选音频文件的音频特征参数的数量和类型不进行限定,即音频特征参数可以包括上述列举出的其中的一种,或者多种特征参数的组合,也可以包括其他更多的参数类型。在后续基于N个待选音频文件的音频特征参数从N个待选音频文件或初始音频文件中确定目标音频文件时,可以基于上述提到的音频特征参数中的任意一种来确定目标音频文件,或者基于上述提到的多种特征参数组合来确定目标音频文件,又或者基于更多的特征参数以及参数之间的组合来确定目标音频文件,本申请实施例对此不作限定。

在一个实施例中,可以分别采用N种响度处理算法中每种响度处理算法对初始音频文件中的M帧音频数据进行处理,得到每种响度处理算法对应的M帧音频数据的增益值;基于N种响度处理算法分别对应的M帧音频数据的增益值确定N个待选音频文件;则可以基于N种响度处理算法分别对应的M帧音频数据的增益值,确定N个待选音频文件的音频特征参数。其中,一帧音频数据对应一个增益值,音频数据的增益值用于反映音频数据的音量。

其中,响度均衡算法在对初始音频文件中的M帧音频数据进行处理时,实质是对每帧音频数据(即音频信号)或者每一个采样点乘以增益进行幅度调整,从而得到算法处理后的待选音频文件。在对每帧音频信号进行幅度调整后,可以获取到每帧音频数据的增益值。由于使用一种响度处理算法对一帧音频数据进行处理,可以得到该帧音频数据对应的增益值,因此采用该种响度处理算法对M帧音频数据进行处理,可以得到M帧音频数据分别对应的增益值,即M个增益值。当存在多种响度处理算法时,每种响度处理算法处理后均可以得到M帧音频数据分别对应的增益值,即N种响度处理算法分别对M帧音频数据进行音频处理后,可以得到M*N个增益值。

本申请实施例中,通过计算N种响度处理算法分别对应的M帧音频数据的增益值,可以分别确定N个待选音频文件的音频特征参数。例如,针对于N个待选音频文件中任意待选音频文件来说,若该待选音频文件的音频特征参数包括该待选音频文件的最大增益值,则可以通过比较每个待选音频文件对应的M帧音频数据的增益值大小,从而将M帧音频数据的增益值中最大的增益值确定为该待选音频文件的最大增益值。若该待选音频文件的音频特征参数包括待选音频文件的增益值变化率时,可以通过比较任一帧音频数据的增益值与该帧音频数据相邻的一帧音频数据的增益值,确定该帧音频数据的增益值变化率。通过该种方式可以确定出M帧音频数据中每两帧音频数据的增益值变化率,则可以确定出待选音频文件包括的多个增益值变化率。若该待选音频文件的音频特征参数包括待选音频文件的增益峰值数时,例如可以统计M帧音频数据中大于设定阈值的增益值的个数,作为待选音频文件的增益峰值数。若该待选音频文件的音频特征参数包括待选音频文件的增益方差时,则可以基于M帧音频数据的增益值计算M帧音频数据的平均值,再基于M帧音频数据的平均值和M帧音频数据的增益值计算得到待选音频文件的增益方差。若该待选音频文件的音频特征参数包括待选音频文件的增益峰值时,例如可以将M帧音频数据中大于设定阈值的增益值确定为待选音频文件的增益峰值,则待选音频文件的增益峰值的数量可以为多个。若该待选音频文件的音频特征参数包括待选音频文件的响度值,则可以分别获取每帧音频数据对应的响度值,从而得到待选音频文件的响度值。若该待选音频文件的音频特征参数包括待选音频文件的动态范围,则可以通过对M帧音频数据的响度值进行统计确定待选音频文件的动态范围。可以理解的是,本申请实施例中还可以通过其他方式分别获取音频文件中的音频特征参数,本申请实施例中对获取音频特征参数的方式不作限定。

可选地,本申请实施例中可以对多个初始音频文件进行处理,针对于每个初始音频文件可以采用相同的方式进行处理,由于每个初始音频文件的音频长度可能不相等,因此在计算待选音频文件的增益平均值和增益方差时,可以采用直方图的方式统计计算待选音频文件的增益平均值和增益方差。采用直方图进行特征统计时,由于直方图中的数据是分段的,一段时间对应一段数据。因此可以获取到待选音频文件中的每段数据,从而可以计算得到待选音频文件的增益平均值和增益方差。对于待选音频文件中每一帧音频数据,可以通过响度均衡算法计算得到本帧音频数据的增益值,从而可以统计当前帧音频数据与上一帧音频数据的变化率。进一步地,可以依次将当前帧增益值与历史帧增益值进行比较,找到待选音频文件中的最大增益值,还可以存储最大增益值,便于后续对音频文件进行效果分析时使用。此外,还可以将当前帧增益值存放到直方图中,判断当前帧增益值是否超过增益变化率。通过上述方式可以对多个待选音频文件中的每个待选音频文件的音频特征参数进行统计。增益峰值数例如可以等于超过增益平均值的增益的数量,或者也可以设定一个绝对值来衡量超过该绝对值的增益的数量。通过获取这些统计值,例如音频特征参数,后续可以对统计值进行效果评估,从而确定每种响度处理算法的优劣,以及确定每个待选音频文件的效果。

S103,基于N个待选音频文件的音频特征参数从N个待选音频文件或初始音频文件中确定目标音频文件,向终端设备下发目标音频文件。

本申请实施例中,由于通过对N个待选音频文件的音频特征参数进行分析,可以分别确定出N个待选音频文件的效果,若N个待选音频文件中存在效果较好的音频文件,则可以将该待选音频文件作为目标音频文件,向终端设备下发该目标音频文件。若N个待选音频文件的效果都不好,则可以将初始音频文件作为目标音频文件,向终端设备下发该目标音频文件。其中,音频文件的效果不好可以包括音频中的底噪被过度放大、噪声忽大忽小、声音忽大忽小,存在截幅失真、响度不符合输出要求、响度的动态范围过大,等等。其中,底噪是指录音过程中与被录音主体不相干的一系列背景噪声。例如底噪可以指录制设备本身在信号转化、传输过程中产生的噪音,例如底噪可以来源于麦克风、话筒放大器、声卡、电脑、音频线,等等。

在一个实施例中,可以对N个待选音频文件进行分级,从而根据N个待选音频文件的等级向客户端下发音频文件。具体地,可以获取目标策略,基于目标策略和N个待选音频文件的音频特征参数,确定N个待选音频文件的音频等级;基于N个待选音频文件的音频等级,从N个待选音频文件或初始音频文件中确定目标音频文件。

其中,目标策略可以包括待选音频文件的音频特征参数对应的参数阈值,音频等级用于反映待选音频文件的音频质量,目标音频文件为N个待选音频文件和初始音频文件中的一个。若音频特征参数满足目标策略中的参数阈值,则待选音频文件的音频等级大于等级阈值,表示待选音频文件的效果较好。若音频特征参数不满足目标策略中的参数阈值,则待选音频文件的音频等级小于或等于等级阈值,表示待选音频文件的效果较差。

可选地,若目标策略包括一种音频特征参数对应的参数阈值,当待选音频文件的该种音频特征参数满足该种参数阈值时,则待选音频文件的音频等级大于等级阈值。当待选音频文件的该种音频特征参数不满足该种参数阈值时,则待选音频文件的音频等级小于或等于等级阈值。

可选地,若目标策略包括多种音频特征参数对应的参数阈值,当待选音频文件中的多种音频特征参数中的每种音频特征参数均满足目标策略中音频特征参数对应的参数阈值时,则待选音频文件的音频等级大于等级阈值。当待选音频文件中的多种音频特征参数中的每种音频特征参数均不满足目标策略中对应的参数阈值时,则待选音频文件的音频等级小于等级阈值。当多种音频特征参数中存在部分音频特征参数满足对应的参数阈值时,则可以进一步判断待选音频文件的音频等级。

在一个实施例中,目标策略可以包括至少一种音频特征参数中的任意一种音频特征参数对应的参数阈值,例如可以包括音频文件的最大增益值Gmax、增益值变化率RGmax、增益峰值数NGmax、增益方差SA、增益峰值TP、响度值I、动态范围LRA中的任意一种对应的参数阈值。当待选音频文件包括的该种音频特征参数满足目标策略种该种音频特征参数对应的参数阈值时,则表示该待选音频文件的音频等级大于等级阈值,则可以将该待选音频文件确定为目标音频文件,进而后续可以向客户端下发该目标音频文件。

在另一个实施例中,目标策略可以包括多种音频特征参数对应的参数阈值,例如多种音频特征参数可以包括音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值、动态范围,则目标策略可以包括例如可以包括音频文件的最大增益值对应的参数阈值、增益值变化率对应的参数阈值、增益峰值数对应的参数阈值、增益方差对应的参数阈值、增益峰值对应的参数阈值、响度值对应的参数阈值、动态范围对应的参数阈值。其中,最大增益值对应的参数阈值可以为第一阈值,增益值变化率对应的参数阈值可以为第二阈值、增益峰值数对应的参数阈值可以为第三阈值、增益方差对应的参数阈值可以为第四阈值、增益峰值对应的参数阈值可以为第五阈值、响度值对应的参数阈值可以为第六阈值、动态范围对应的参数阈值可以为第七阈值。第七阈值可以是指一个阈值范围,即表示一个范围,第七阈值表示的范围可以指示响度值处于舒适区的范围,当待选音频文件的响度处于范围内,人耳提到音频文件不会觉得刺耳。

也就是说,当存在任一音频文件的最大增益值满足第一阈值,该任一音频文件的增益值变化率满足第二阈值、该任一音频文件的增益峰值数满足第三阈值、该任一音频文件的增益方差满足第四阈值、该任一音频文件的增益峰值满足第五阈值、该任一音频文件的响度值满足第六阈值、且该任一音频文件的动态范围满足第七阈值时,该任一音频文件的音频等级大于等级阈值,则表示该任一音频文件的效果较好。例如不存在底噪被过度放大、噪声忽大忽小、声音忽大忽小,存在截幅失真、响度不符合输出要求、响度的动态范围过大等问题,则可以将该任一音频文件确定为目标音频文件进而先终端设备下发,提升用户体验。

可选地,可以获取目标策略,基于目标策略对N个待选音频文件的音频特征参数进行判断,得到参数判断结果,基于参数判断结果确定N个待选音频文件的音频等级。其中,基于目标策略对N个待选音频文件的音频特征参数进行判断可以是指判断待选音频文件的音频特征参数是否满足目标策略中包括的音频特征参数对应的参数阈值。参数判断结果可以用于指示待选音频文件的音频特征参数是否满足目标策略中包括的音频特征参数对应的参数阈值。若参数判断结果用于指示满足目标策略对应的参数阈值,则待选音频文件的音频等级高于质量阈值。若参数判断结果用于指示满足目标策略对应的参数阈值,则待选音频文件的音频等级低于质量阈值。例如目标策略包括音频文件的最大增益值对应的第一阈值、增益值变化率对应的第二阈值、增益峰值数对应的第三阈值、增益方差对应的第四阈值时,若待选音频文件的最大增益值大于第一阈值、待选音频文件的增益值变化率大于第二阈值、待选音频文件的增益峰值数大于第三阈值、待选音频文件的增益方差大于第四阈值,则参数判断结果可以用于指示待选音频文件的音频特征参数满足目标策略中包括的音频特征参数对应的参数阈值。

本申请实施例中,目标策略可以包括多种音频特征参数中的任意几种音频特征参数对应的参数阈值,目标策略中的音频特征参数对应的参数阈值的数量可以根据具体需求设置,在后续基于目标策略判断待选音频文件的音频特征参数时,针对多个音频特征参数的判断顺序也不做限定,即先判断待选音频文件中的哪些音频特征参数后判断哪些音频特征参数对最终的音频效果不会产生影响。

可以理解的是,对每种响度处理算法处理后的音频文件进行音频效果分析,也即对每种响度处理算法进行分析,当确定出某种响度处理算法处理后的待选音频文件的效果较好时,表示该种响度处理算法较好,则可以选择该种响度处理算法。进一步地,后续在对音频文件进行音频处理时,可以优先选择该种响度处理算法进行音频处理。本申请技术方案主要是通过响度处理算法将待选音频文件的响度达到一定的范围内,减少对人耳的损伤。由于对响度均衡算法本身会产生较多badcase(坏案例,如问题),因此通过对每种响度均衡算法进行评估是为了减少badcase产生,从而使得下发音频文件后,提升用户体验,减少用户投诉。

在一个实施例中,在向终端设备下发目标音频文件时,可以在接收到终端设备发送的音频获取请求时,向终端设备下发目标音频文件。或者,还可以获取终端设备关联的用户标签,以及获取目标音频文件的音频标签,若终端设备关联的用户标签与目标音频文件的音频标签相匹配,则向终端设备下发目标音频文件。其中,用户标签可以用于反映用户的偏好。此处的用户可以是终端设备的使用者。音频标签可以用于反映目标音频文件的类别,例如可以包括但不限于教育类别、体育类别、音乐类别、游戏类别、电影类别,等等。通过获取用户标签,可以了解用户的偏好,从而确定用户对哪些类别的音频文件比较感兴趣,从而可以实现针对性下发音频文件,提升用户体验。可选地,还可以获取终端设备在历史时间段内获取的历史音频文件的类别,若历史音频文件的类别与目标音频文件的类别,则向终端设备下发目标音频文件。由于终端设备在历史时间段内获取的音频文件与目标音频文件的类别相匹配,则可以表示终端设备的使用者对该类别的音频文件感兴趣,则可以向终端设备下发目标音频文件,提升用户体验。

可以理解的是,本申请实施例中在涉及到用户信息相关的数据(例如用户标签),当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例中,通过采用多种响度处理算法对初始音频文件进行音频处理,得到多个待选音频文件;进而可以基于多个待选音频文件的音频特征参数从多个待选音频文件或初始音频文件中确定目标音频文件,向终端设备下发目标音频文件。通过响度处理算法可以将音频文件的响度调整到合适范围,由于对多种响度处理算法对应的待选音频文件进行效果评估,可以确定每种待选音频文件的效果,从而可以从中选择效果较好的音频文件进行下发,相当于在初始音频文件的基础上提升了音频文件的质量,可以减少音频刺耳的情况,进而减少对人耳的损伤,减少用户投诉,进而提升用户体验。

进一步地,请参见图3,图3是本申请实施例提供的另一种音频处理方法的流程示意图;如图3所示,该音频处理方法可以应用于计算机设备,该音频处理方法包括但不限于以下步骤:

S201,获取初始音频文件,采用响度处理算法对初始音频文件进行音频处理,得到待选音频文件。

本申请实施例中,在获取到初始音频文件后,可以进一步对初始音频文件进行分帧处理,得到多帧音频数据,采用响度处理算法对初始音频数据进行音频处理是指采用响度处理算法对多帧音频数据进行处理,从而可以得到每帧音频数据的增益值。进而可以获取到待选音频文件的音频特征参数,例如待选音频文件的音频特征参数可以包括但不限于待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值、动态范围。

本申请实施例是以采用一种响度处理算法对初始音频文件进行音频处理,得到一个待选音频文件,从而对该一个待选音频文件进行效果分析为例进行说明。当存在多种响度处理算法时,分别采用每种响度处理算法对初始音频文件进行处理,得到每种响度处理算法对应的待选音频文件,从而对每种待选音频文件进行效果分析,一种响度处理算法对应一个待选音频文件。针对于采用多种响度处理算法对初始音频文件进行音频处理及效果分析的方法可以参考该种响度处理算法对初始音频文件进行音频处理及效果分析的方法,本申请实施例对此不做过多说明。

S202,获取待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值、动态范围。

本申请实施例中的待选音频文件可以为N个待选音频文件中的任意一个。这里获取待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值、动态范围的方法可以参考上述步骤S102中的描述,此处不再赘述。

S203,判断最大增益值是否大于第一阈值。

在一种情况下,若待选音频文件的最大增益值大于第一阈值,则表示待选音频文件中存在底噪被过度放大的问题,则可以表示该待选音频文件的效果不好,可以不对该待选音频文件进行后续处理,即不将该待选音频文件下发至终端设备。进一步地,若待选音频文件的最大增益值大于第一阈值,还可以执行步骤S210,确定待选音频文件的音频等级。例如可以确定待选音频文件的音频等级为第五等级,第五等级对应的待选音频文件的音频质量低于质量阈值。也就是说,当待选音频文件的音频等级为第五等级时,表示该种问题如底噪被过度放大的问题是不能容忍的,即待选音频文件中存在这种问题,则不向终端设备下发该待选音频文件。

在另一种情况下,若待选音频文件的最大增益值小于或等于第一阈值,则执行步骤S204,判断增益值变化率是否大于第二阈值。其中,若待选音频文件的最大增益值小于或等于第一阈值,则表示待选音频文件中不存在底噪过度放大的问题,则可以进一步判断待选音频文件的其他音频特征参数确定待选音频文件是否存在其他问题,进一步判断是否向终端设备下发该待选音频文件。

S204,判断增益值变化率是否大于第二阈值。

在一种情况下,若待选音频文件的增益值变化率大于第二阈值,则表示待选音频文件中存在声音忽大忽小的问题,则可以表示该待选音频文件的效果不好,可以不对该待选音频文件进行后续处理,即不将该待选音频文件下发至终端设备。进一步地,若待选音频文件的增益值变化率大于第二阈值,还可以执行步骤S210,确定待选音频文件的音频等级。例如可以确定待选音频文件的音频等级为第五等级。也就是说,表示待选音频文件中存在声音忽大忽小的问题是不能容忍的,即待选音频文件中存在这种问题,则不向终端设备下发该待选音频文件。

在另一种情况下,若待选音频文件的增益值变化率小于或等于第二阈值,则执行步骤S205,判断增益峰值数是否大于第三阈值。其中,若待选音频文件的增益值变化率小于或等于第二阈值,则表示待选音频文件中不存在声音忽大忽小的问题,则可以进一步判断待选音频文件的其他音频特征参数,进一步判断是否向终端设备下发该待选音频文件。

S205,判断增益峰值数是否大于第三阈值。

在一种情况下,若待选音频文件的增益峰值数大于第三阈值,则表示待选音频文件中存在声音忽大忽小的问题,例如存在底噪忽大忽小的问题,则可以表示该待选音频文件的效果不好,可以不对该待选音频文件进行后续处理,即不将该待选音频文件下发至终端设备。进一步地,若待选音频文件的增益峰值数大于第三阈值,还可以执行步骤S210,确定待选音频文件的音频等级。例如可以确定待选音频文件的音频等级为第五等级。也就是说,表示待选音频文件中存在底噪忽大忽小的问题是不能容忍的,即待选音频文件中存在这种问题,则不向终端设备下发该待选音频文件。

在另一种情况下,若待选音频文件的增益峰值数小于或等于第三阈值,则执行步骤S206,判断增益方差是否大于第四阈值。其中,若待选音频文件的增益峰值数小于或等于第三阈值,则表示待选音频文件中不存在声音忽大忽小的问题,例如不存在底噪忽大忽小的问题,则可以进一步判断待选音频文件的其他音频特征参数,进一步判断是否向终端设备下发该待选音频文件。

S206,判断增益方差是否大于第四阈值。

在一种情况下,若待选音频文件的增益方差大于第四阈值,则表示待选音频文件中存在声音忽大忽小的问题,则可以表示该待选音频文件的效果不好,可以不对该待选音频文件进行后续处理,即不将该待选音频文件下发至终端设备。进一步地,若待选音频文件的增益方差大于第四阈值,还可以执行步骤S210,确定待选音频文件的音频等级。例如可以确定待选音频文件的音频等级为第五等级。也就是说,表示待选音频文件中存在声音忽大忽小的问题是不能容忍的,即待选音频文件中存在这种问题,则不向终端设备下发该待选音频文件。

在另一种情况下,若待选音频文件的增益方差小于或等于第四阈值,则执行步骤S207,判断增益峰值是否大于第五阈值。其中,若待选音频文件的增益方差小于或等于第四阈值,则表示待选音频文件中不存在声音忽大忽小的问题,则可以进一步判断待选音频文件的其他音频特征参数,进一步判断是否向终端设备下发该待选音频文件。

可选地,还可以进一步结合增益平均值和增益方差确定是否存在声音忽大忽小的问题。例如当增益平均值大于平均阈值时,增益方差小于第四阈值,则可能不存在忽大忽小的问题。当增益平均值小于或等于平均阈值,增益方差大于第四阈值,则表示存在忽大忽小的问题。

S207,判断增益峰值是否大于第五阈值。

在一种情况下,若待选音频文件的增益峰值大于第五阈值,则表示待选音频文件中存在截幅失真的问题,但是不存在底噪被过度放大、声音忽大忽小、底噪忽大忽小的问题,截幅失真可以是指音频的信号幅度过大时,会在峰值点处产生截幅。则表示存在截幅失真的问题可以通过进一步判断是否是可容忍的,则可以对进一步对该待选音频文件进行判断,确定是否下发至终端设备。进一步地,若待选音频文件的增益峰值大于第五阈值,还可以执行步骤S210,确定待选音频文件的音频等级。例如可以确定待选音频文件的音频等级为第四等级。第四等级的音频质量高于质量阈值,后续可以根据需求确定是否下发该待选音频文件至终端设备。

在另一种情况下,若待选音频文件的增益峰值小于或等于第五阈值,则执行步骤S208,判断增益响度值是否属于第六阈值。其中,若待选音频文件的增益峰值小于或等于第五阈值,则表示待选音频文件中不存在截幅失真的问题,则可以进一步判断待选音频文件的其他音频特征参数确定是否存在其他方面的问题,进一步判断是否向终端设备下发该待选音频文件。

S208,判断响度值是否属于第六阈值。

在一种情况下,若待选音频文件的响度值不属于第六阈值,则表示待选音频文件中存在响度不符合输出要求的问题,但是不存在截幅失真、底噪被过度放大、声音忽大忽小、底噪忽大忽小的问题。则表示存在响度不符合输出要求的问题可以通过进一步判断是否是可容忍的,则可以对进一步对该待选音频文件进行判断确定是否下发至终端设备。进一步地,若待选音频文件的响度值不属于第六阈值,还可以执行步骤S210,确定待选音频文件的音频等级。例如可以确定待选音频文件的音频等级为第三等级。第三等级高于第四等级,后续可以根据需求确定是否下发该待选音频文件至终端设备。其中,第六阈值可以是指一个范围阈值,即第六阈值是指一个范围,若响度值属于第六阈值,即表示响度符合输出要求,则进一步判断响度范围。若响度值不属于第六阈值,即表示响度不符合输出要求,则表示待选音频文件存在响度不符合输出要求的问题,则可以确定为第三等级。

在另一种情况下,若待选音频文件的响度值属于第六阈值,则执行步骤S209,判断动态范围是否大于第七阈值。其中,若待选音频文件的响度值属于第六阈值,则表示待选音频文件中不存在响度不符合输出要求的问题,即音频文件的响度符合输出要求,则可以进一步判断待选音频文件的其他音频特征参数确定是否存在其他方面的问题,进一步判断是否向终端设备下发该待选音频文件。

S209,判断动态范围是否大于第七阈值。

在一种情况下,若待选音频文件的动态范围大于第七阈值,则表示待选音频文件中存在动态范围过大的问题,但是不存在响度不符合输出要求、截幅失真、底噪被过度放大、声音忽大忽小、底噪忽大忽小的问题。第七阈值可以是指范围阈值,即第七阈值可以表示一个范围。则表示存在动态范围过大的问题可以通过进一步判断是否是可容忍的,则可以对进一步对该待选音频文件进行判断确定是否下发至终端设备。进一步地,若待选音频文件的动态范围大于第七阈值,还可以执行步骤S210,确定待选音频文件的音频等级。若待选音频文件的动态范围大于第七阈值,则可以确定待选音频文件的音频等级为第二等级。第二等级高于第三等级,后续可以根据需求确定是否下发该待选音频文件至终端设备。

在另一种情况下,若待选音频文件的动态范围小于或等于第七阈值,则执行步骤S210,确定待选音频文件的音频等级。其中,由于是通过前述步骤逐步确定该待选音频文件中是否存在动态范围过大、响度不符合输出要求、截幅失真、底噪被过度放大、声音忽大忽小、底噪忽大忽小等问题,当动态范围大于第七阈值,表示待选音频文件中均不存在上述问题,则表示该待选音频文件的效果较好,则可以向终端设备下发该待选音频文件。进一步地,若待选音频文件的动态范围小于或等于第七阈值,则可以确定待选音频文件的音频等级为第一等级,第一等级高于第二等级。

S210,确定待选音频文件的音频等级。

这里,音频等级可以用于反映待选音频文件的音频质量,音频等级越高,对应的待选音频文件的音频质量越高。音频等级越低,对应的待选音频文件的音频质量越低。

S211,若待选音频文件的音频等级为第一等级,则将待选音频文件确定为目标音频文件,并向终端设备下发目标音频文件。

其中,当待选音频文件的音频等级为第一等级时,表示待选音频文件中不存在上述的问题,表示该待选音频文件的效果较好,则可以将该待选音频文件确定为目标音频文件,向终端设备下发目标音频文件。

S212,若待选音频文件的音频等级为第二等级、第三等级、第四等级中的任意一种,则获取需求数据,基于需求数据确定目标音频文件,向终端设备下发目标音频文件。

其中,当待选音频文件的音频等级高于质量阈值时,可以表示该待选音频文件中存在部分问题,则可以进一步根据需求数据判断是否下发该待选音频文件。其中,需求数据可以用于指示对多种问题的容忍度。容忍度大于容忍度阈值,表示该种问题是可以容忍的。容忍度小于或等于容忍度阈值,表示该种问题是不可以容忍的。例如,待选音频文件的音频等级为第二等级时,需求数据用于指示针对待选音频文件中的动态范围过大的问题的容忍度大于容忍度阈值,则可以将该待选音频文件确定为目标音频文件。

在一个实施例中,N个待选音频文件中包括多个等级的待选音频文件;则可以结合需求数据确定目标音频文件。具体地,若N个待选音频文件中不包括第一等级的待选音频文件,则获取需求数据;基于需求数据从多个等级的待选音频文件中选择与需求数据匹配的待选音频文件;将与需求数据匹配的待选音频文件确定为目标音频文件。

其中,需求数据还可以用于反映对音频文件的多种音频特征参数的关注度。关注度大于关注度阈值,则表示该种问题不能容忍,出现这种问题则不将包含该种问题的待选音频文件确定为目标音频文件。关注度小于或等于关注度阈值,则表示该种问题可以容忍,出现这种问题时可以将包含该种问题的待选音频文件确定为目标音频文件。与需求数据匹配的待选音频文件可以是指关注度小于关注度阈值的待选音频文件,即不包含该种需求数据对应的问题的待选音频文件。例如需求数据用于反映对音频文件的动态范围的关注度大于关注度阈值,表示待选音频文件中动态范围过大,与需求数据匹配的待选音频文件可以是指不包含动态范围过大的待选音频文件,则不将该待选音频文件确定为目标音频文件。

可以理解的是,N个待选音频文件中也不包括第五等级的待选音频文件。若N个待选音频文件中包括第五等级的待选音频文件,表示该待选音频文件的音频质量低于质量阈值,则不将该待选音频文件确定为目标音频文件,则对N个待选音频文件中除了第五等级以外的待选音频文件进行后续处理,例如基于需求数据从多个等级的待选音频文件中选择与需求数据匹配的待选音频文件。若N个待选音频文件中包括第一等级的待选音频文件,则表示该音频文件的质量较高,可以直接将第一等级的待选音频文件确定为目标音频文件,无需对N个待选音频文件中的其他音频文件进行后续处理。

S213,若待选音频文件的音频等级为第五等级,则将初始音频文件确定为目标音频文件,向终端设备下发目标音频文件。

当待选音频文件的音频等级低于质量阈值时,表示该待选音频文件中存在较多问题,则可以不向终端设备下发该待选音频文件,并向终端设备下发初始音频文件。

也就是说,本申请实施例通过对响度处理算法的效果进行衡量,如果不产生严重的效果问题则可以下发处理后的音频文件,如果预测推断产生严重的效果问题则利用备选的其他响度处理算法进行处理在下发。响度处理算法如响度均衡算法在音频处理过程中也是对每一帧音频信号(音频数据)或者对每一个采样点乘以增益进行幅度调整。则音频信号的特征值如音频特征参数统计环节则是对响度均衡效果推断的重要环节。通过响度均衡算法对信号处理过程中参数的增益进行统计对效果进行评估,可以确定每种算法的效果,从而确定下发至终端设备的音频文件。

在一个实施例中,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值、动态范围;若任一待选音频文件的最大增益值小于或等于第一阈值,该任一待选音频文件的增益变化率小于或等于第二阈值,该任一待选音频文件的增益峰值数小于或等于第三阈值,该任一待选音频文件的增益方差小于或等于第四阈值,该任一待选音频文件的增益峰值小于或等于第五阈值,该任一待选音频文件的响度值不属于第六阈值,且该任一待选音频文件的动态范围小于或等于第七阈值,则确定该任一待选音频文件的音频等级属于第一等级;将该任一待选音频文件确定为该目标音频文件。

在一个实施例中,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值、动态范围;若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,该任一待选音频文件的增益峰值数小于或等于该第三阈值,该任一待选音频文件的增益方差小于或等于该第四阈值,该任一待选音频文件的增益峰值小于或等于该第五阈值,该任一待选音频文件的响度值不属于该第六阈值,且该任一待选音频文件的动态范围大于第七阈值,则确定该任一待选音频文件的音频等级为第二等级;将该任一待选音频文件确定为该目标音频文件。

在一个实施例中,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值;若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,该任一待选音频文件的增益峰值数小于或等于该第三阈值,该任一待选音频文件的增益方差小于或等于该第四阈值,该任一待选音频文件的增益峰值小于或等于该第五阈值,且该任一待选音频文件的响度值属于该第六阈值,则确定该任一待选音频文件的音频等级为第三等级;该第三等级对应的待选音频文件的音频质量低于该第一等级对应的待选音频文件;将该任一待选音频文件确定为该目标音频文件。

在一个实施例中,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值;若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,该任一待选音频文件的增益峰值数小于或等于该第三阈值,该任一待选音频文件的增益方差小于或等于该第四阈值,且该任一待选音频文件的增益峰值大于该第五阈值,则确定该任一待选音频文件的音频等级为第四等级;将该任一待选音频文件确定为该目标音频文件。

在一个实施例中,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差;若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,该任一待选音频文件的增益峰值数小于或等于该第三阈值,且该任一待选音频文件的增益方差大于该第四阈值,则确定该任一待选音频文件的音频等级为第五等级。

在一个实施例中,若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,且该任一待选音频文件的增益峰值数大于该第三阈值,则确定该任一待选音频文件的音频等级为该第五等级。

在一个实施例中,若该任一待选音频文件的最大增益值小于或等于该第一阈值,且该任一待选音频文件的增益变化率大于第二阈值,则确定该任一待选音频文件的音频等级为该第五等级。

在一个实施例中,若该任一待选音频文件的最大增益值大于第一阈值,则确定该任一待选音频文件的音频等级为该第五等级;该第五等级对应的待选音频文件的音频质量低于质量阈值。进一步可选地,若该任一待选音频文件的音频等级属于该第五等级,则将该初始音频文件确定为该目标音频文件。

在本申请实施例中,可以对响度处理算法如响度均衡算法处理产生的增益值进行统计,计算量少。通过利用增益的多种统计量(即音频特征参数)对响度均衡的效果进行映射,可以从多个维度结合判断响度均衡算法的效果,准确性较高。通过利用直方图的形式对每帧音频数据的增益值进行存储,对不同长度的音频文件均具有兼容性。进一步地,利用相邻帧音频数据的帧间增益变化可以衡量音频文件是否会产生忽大忽小的问题。进一步地,利用最大增益值可以推测是否存在对底噪进行过度放大的问题;并且根据对不同问题的容忍度,进行衡量音频特征参数的判定,可以针对性输出音频文件。如果存在一个待选音频文件符合要求,即满足其对应的参数阈值,则可以将该待选音频文件作为最优结果输出。由于该种音频处理方式全过程无需统计全局音频信号或未来音频信号,也不需要知道参考音频信号,只需要统计算法计算的过程值就可以实现对效果的评估,并且可以对初始音频文件进行流式处理。因此对响度均衡效果进行评估时,计算量少,计算流程简单,延迟低,可以适用于多种场景。例如在点播平台中,可以根据效果选择整体较理想的处理效果(例如第一等级的待选音频文件)进行下发,进而减少用户投诉,提升用户体验度,同时实现对点播平台音频质量的控制。

本申请实施例中,通过采用多种响度处理算法对初始音频文件进行音频处理,得到多个待选音频文件;进而可以基于多个待选音频文件的音频特征参数从多个待选音频文件或初始音频文件中确定目标音频文件,向终端设备下发目标音频文件。通过响度处理算法可以将音频文件的响度调整到合适范围,由于对多种响度处理算法对应的待选音频文件进行效果评估,可以确定每种待选音频文件的效果,从而可以从中选择效果较好的音频文件进行下发,相当于在初始音频文件的基础上提升了音频文件的质量,可以减少音频刺耳的情况,进而减少对人耳的损伤,减少用户投诉,进而提升用户体验。

上面介绍了本申请实施例的方法,下面介绍本申请实施例的装置。

参见图4,图4是本申请实施例提供的一种音频处理装置的组成结构示意图,上述音频处理装置可以部署于计算机设备上;该音频处理装置可以用于执行本申请实施例提供的音频处理方法中的相应步骤,该音频处理装置40包括:

音频处理单元401,用于获取初始音频文件,分别采用算法集合中的N种响度处理算法对该初始音频文件进行音频处理,得到N个待选音频文件;一种响度处理算法对应一个待选音频文件,N为正整数;

参数获取单元402,用于分别获取该N个待选音频文件的音频特征参数;该音频特征参数用于指示待选音频文件的音频质量;

文件确定单元403,用于基于该N个待选音频文件的音频特征参数从该N个待选音频文件或该初始音频文件中确定目标音频文件,向终端设备下发该目标音频文件。

可选地,该初始音频文件包括M帧音频数据;该音频处理单元401,具体用于:

分别采用该N种响度处理算法中每种响度处理算法对该初始音频文件中的M帧音频数据进行处理,得到该每种响度处理算法对应的M帧音频数据的增益值;一帧音频数据对应一个增益值,音频数据的增益值用于反映音频数据的音量;

基于该N种响度处理算法分别对应的M帧音频数据的增益值确定该N个待选音频文件;

该参数获取单元402,具体用于:

基于该N种响度处理算法分别对应的M帧音频数据的增益值,确定该N个待选音频文件的音频特征参数。

可选地,该文件确定单元403,具体用于:

获取目标策略,基于该目标策略和该N个待选音频文件的音频特征参数,确定该N个待选音频文件的音频等级;该目标策略包括待选音频文件的音频特征参数对应的参数阈值,该音频等级用于反映待选音频文件的音频质量;

基于该N个待选音频文件的音频等级,从该N个待选音频文件或该初始音频文件中确定该目标音频文件;该目标音频文件为该N个待选音频文件和该初始音频文件中的一个。

可选地,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值、动态范围;该文件确定单元403,具体用于:

若该任一待选音频文件的最大增益值小于或等于第一阈值,该任一待选音频文件的增益变化率小于或等于第二阈值,该任一待选音频文件的增益峰值数小于或等于第三阈值,该任一待选音频文件的增益方差小于或等于第四阈值,该任一待选音频文件的增益峰值小于或等于第五阈值,该任一待选音频文件的响度值不属于第六阈值,且该任一待选音频文件的动态范围小于或等于第七阈值,则确定该任一待选音频文件的音频等级属于第一等级;该第一等级对应的待选音频文件的音频质量高于质量阈值;

若该任一待选音频文件的音频等级属于该第一等级,则将该任一待选音频文件确定为该目标音频文件。

可选地,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值、动态范围;该文件确定单元403,具体用于:

若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,该任一待选音频文件的增益峰值数小于或等于该第三阈值,该任一待选音频文件的增益方差小于或等于该第四阈值,该任一待选音频文件的增益峰值小于或等于该第五阈值,该任一待选音频文件的响度值不属于该第六阈值,且该任一待选音频文件的动态范围大于第七阈值,则确定该任一待选音频文件的音频等级为第二等级;该第二等级对应的待选音频文件的音频质量低于该第一等级对应的待选音频文件;

若该任一待选音频文件的音频等级属于该第二等级,则将该任一待选音频文件确定为该目标音频文件。

可选地,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值、响度值;该文件确定单元403,具体用于:

若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,该任一待选音频文件的增益峰值数小于或等于该第三阈值,该任一待选音频文件的增益方差小于或等于该第四阈值,该任一待选音频文件的增益峰值小于或等于该第五阈值,且该任一待选音频文件的响度值属于该第六阈值,则确定该任一待选音频文件的音频等级为第三等级;该第三等级对应的待选音频文件的音频质量低于该第一等级对应的待选音频文件;

若该任一待选音频文件的音频等级属于该第三等级,则将该任一待选音频文件确定为该目标音频文件。

可选地,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差、增益峰值;该文件确定单元403,具体用于:

若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,该任一待选音频文件的增益峰值数小于或等于该第三阈值,该任一待选音频文件的增益方差小于或等于该第四阈值,且该任一待选音频文件的增益峰值大于该第五阈值,则确定该任一待选音频文件的音频等级为第四等级;该第四等级对应的待选音频文件的音频质量低于该第一等级对应的待选音频文件;

若该任一待选音频文件的音频等级属于该第四等级,则将该任一待选音频文件确定为该目标音频文件。

可选地,该N个待选音频文件中包括多个等级的待选音频文件;该文件确定单元403,具体用于:

若该N个待选音频文件中不包括第一等级的待选音频文件,则获取需求数据;该需求数据用于反映对音频文件的多种音频特征参数的关注度;

基于该需求数据从该多个等级的待选音频文件中选择与该需求数据匹配的待选音频文件;

将与该需求数据匹配的待选音频文件确定为该目标音频文件。

可选地,针对该N个待选音频文件中的任一待选音频文件,该任一待选音频文件的音频特征参数包括该任一待选音频文件的最大增益值、增益值变化率、增益峰值数、增益方差;该文件确定单元403,具体用于:

若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,该任一待选音频文件的增益峰值数小于或等于该第三阈值,且该任一待选音频文件的增益方差大于该第四阈值,则确定该任一待选音频文件的音频等级为第五等级;或者,

若该任一待选音频文件的最大增益值小于或等于该第一阈值,该任一待选音频文件的增益变化率小于或等于该第二阈值,且该任一待选音频文件的增益峰值数大于该第三阈值,则确定该任一待选音频文件的音频等级为该第五等级;或者,

若该任一待选音频文件的最大增益值小于或等于该第一阈值,且该任一待选音频文件的增益变化率大于第二阈值,则确定该任一待选音频文件的音频等级为该第五等级;或者,

若该任一待选音频文件的最大增益值大于第一阈值,则确定该任一待选音频文件的音频等级为该第五等级;该第五等级对应的待选音频文件的音频质量低于质量阈值;

若该任一待选音频文件的音频等级属于该第五等级,则将该初始音频文件确定为该目标音频文件。

需要说明的是,图4对应的实施例中未提及的内容可参见方法实施例的描述,这里不再赘述。

本申请实施例中,通过采用多种响度处理算法对初始音频文件进行音频处理,得到多个待选音频文件;进而可以基于多个待选音频文件的音频特征参数从多个待选音频文件或初始音频文件中确定目标音频文件,向终端设备下发目标音频文件。通过响度处理算法可以将音频文件的响度调整到合适范围,由于对多种响度处理算法对应的待选音频文件进行效果评估,可以确定每种待选音频文件的效果,从而可以从中选择效果较好的音频文件进行下发,相当于在初始音频文件的基础上提升了音频文件的质量,可以减少音频刺耳的情况,进而减少对人耳的损伤,减少用户投诉,进而提升用户体验。

参见图5,图5是本申请实施例提供的一种计算机设备的组成结构示意图。如图5所示,上述计算机设备50可以包括:处理器501,网络接口504和存储器505,此外,上述计算机设备50还可以包括:用户接口503,和至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,用户接口503可以包括显示屏(Display)、键盘(Keyboard),可选用户接口503还可以包括标准的有线接口、无线接口。网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器505可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示,作为一种计算机可读存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图5所示的计算机设备50中,网络接口504可提供网络通讯功能;而用户接口503主要用于为用户提供输入的接口;而处理器501可以用于调用存储器505中存储的设备控制应用程序,以实现:

获取初始音频文件,分别采用算法集合中的N种响度处理算法对该初始音频文件进行音频处理,得到N个待选音频文件;一种响度处理算法对应一个待选音频文件,N为正整数;

分别获取该N个待选音频文件的音频特征参数;该音频特征参数用于指示待选音频文件的音频质量;

基于该N个待选音频文件的音频特征参数从该N个待选音频文件或该初始音频文件中确定目标音频文件,向终端设备下发该目标音频文件。

应当理解,本申请实施例中所描述的计算机设备50可执行前文图2和图3所对应实施例中对上述音频处理方法的描述,也可执行前文图4所对应实施例中对上述音频处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被计算机执行时使该计算机执行如前述实施例的方法,该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器501。作为示例,程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

相关技术
  • 一种用于生产玻纤天花板的喷胶机构
  • 一种装配式设计的玻纤纸蜂窝大模块天花吊顶
  • 一种装配式设计的玻纤纸蜂窝大模块天花吊顶
技术分类

06120116545541