掌桥专利:专业的专利平台
掌桥专利
首页

一种音频处理方法、装置及存储介质

文献发布时间:2023-06-19 19:23:34


一种音频处理方法、装置及存储介质

技术领域

本发明涉及音频处理技术领域,尤其涉及一种音频处理方法、装置及存储介质。

背景技术

声学回声是指系统播放出来的声音又被麦克风采集后发送给远端,使远端用户听到了自己声音的一种现象。这在语音通信系统中是一种非常常见的现象,所以消除回声就是通信系统不可缺少的部分了。

通话包括“远端”和“近端”,有语音表示为1,没有语音表示为0,则可以归类出4种状态,分别是:(0,0),(0,1),(1,0),(1,1)。(0,0)表示双方都没有语音,所以不需要回声消除,而其他3种状态都需要做回声消除。然而,现有方法假定(1,1)这种状态不存在,在通信的双方都在讲话的时候,目前无法准确的判断近端音频是否有回声,仅直接使用前面计算出的时延数据进行回声消除,造成的结果就是有可能误消除,即近端音频本身没有回声,却进行回声消除,导致正常的音频受到了抑制,或者,消除的不干净,例如,出现“漏字”现象,即一句话的开头或者结尾就个别字词没有消除掉。

发明内容

为解决上述技术问题,本申请提供了一种音频处理方法、装置及存储介质,使用高精度的特征提取方式进行音频特征提取,从而提高判断近端音频中是否包含回声的准确性,此外,在有回声的情况下,可以进一步准确的计算出回声时延,以提高回声消除质量。

本申请的技术方案是这样实现的:

本申请提供了一种音频处理方法,包括:

针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列;

针对所述当前近端音频帧和所述多个远端音频帧中每个音频帧,分别对对应的能量序列进行非等比压缩,得到对应的压缩后的能量序列;

分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,并将所述当前近端音频帧对应的特征数据确定为近端特征,所述多个远端音频帧对应的多个特征数据确定为多个远端特征;

利用所述近端特征与所述多个远端特征,对所述当前近端音频帧进行回声判断。

在上述方法中,所述针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列之前,所述方法还包括:

获取当前近端音频帧,以及远端音频序列;

对所述远端音频序列加窗分帧,得到所述多个远端音频帧。

在上述方法中,所述针对所述当前近端音频帧和所述多个远端音频帧中每个音频帧,分别对对应的能量序列进行非等比压缩,得到对应的压缩后的能量序列之前,所述方法还包括:

针对所述当前近端音频帧和所述多个远端音频帧中每个音频帧,分别对对应的能量序列进行滤波处理。

在上述方法中,所述分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,包括:

对目标能量序列进行能量子带划分,得到顺序排列的多个能量子带;其中,所述目标能量序列为目标音频帧对应的压缩后的能量序列,所述目标音频帧为所述当前近端音频帧和所述多个远端音频帧中任意一个音频帧;

利用所述预设滑动窗口在所述多个能量子带上顺序滑动,并将所述预设滑动窗口每一次滑动选取到的能量子带确定为一个能量窗口,得到能量窗口序列;

针对所述能量窗口序列中每个能量窗口,基于窗口包含的能量子带确定对应的特征值;

利用所述能量窗口序列中不同能量窗口对应的特征值,组成所述目标音频帧对应的特征数据。

在上述方法中,所述针对所述能量窗口序列中每个能量窗口,基于窗口包含的能量子带确定对应的特征值,包括:

将目标窗口中预设位置处的能量子带,确定为标准子带;所述目标窗口为所述能量窗口序列中任意一个能量窗口;

在所述标准子带的能量值,大于所述目标窗口中与所述标准子带不同的每个能量子带的能量值,确定所述目标窗口对应的特征值为1;

在所述标准子带的能量值,不大于所述目标窗口中与所述标准子带不同的每个能量子带的能量值,确定所述目标窗口对应的特征值为0。

在上述方法中,所述利用所述近端特征与所述多个远端特征,对所述当前近端音频帧进行回声判断,包括:

依次计算所述近端特征与所述多个远端特征中每个远端特征的汉明距离;

在计算出小于预设距离阈值的汉明距离的情况下,判定所述当前近端音频帧中包含回声。

在上述方法中,所述利用所述近端特征与所述多个远端特征,对所述当前近端音频帧进行回声判断之后,所述方法还包括:

在判定所述当前近端音频帧中包含回声的情况下,获取相似特征的时序信息;所述相似特征为所述多个远端特征中,与所述近端特征的汉明距离小于预设距离阈值的远端特征;

利用所述时序信息计算回声时延。

本申请提供了一种音频处理装置,包括:

生成模块,用于针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列;

处理模块,用于针对所述当前近端音频帧和所述多个远端音频帧中每个音频帧,分别对对应的能量序列进行非等比压缩,得到对应的压缩后的能量序列;

提取模块,用于分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,并将所述当前近端音频帧对应的特征数据确定为近端特征,所述多个远端音频帧对应的多个特征数据确定为多个远端特征;

判断模块,用于利用所述近端特征与所述多个远端特征,对所述当前近端音频帧进行回声判断。

在上述装置中,所述生成模块,还用于获取当前近端音频帧,以及远端音频序列;对所述远端音频序列加窗分帧,得到所述多个远端音频帧。

在上述装置中,所述处理模块,还用于针对所述当前近端音频帧和所述多个远端音频帧中每个音频帧,分别对对应的能量序列进行滤波处理。

在上述装置中,所述提取模块,具体用于:

对目标能量序列进行能量子带划分,得到顺序排列的多个能量子带;其中,所述目标能量序列为目标音频帧对应的压缩后的能量序列,所述目标音频帧为所述当前近端音频帧和所述多个远端音频帧中任意一个音频帧;

利用所述预设滑动窗口在所述多个能量子带上顺序滑动,并将所述预设滑动窗口每一次滑动选取到的能量子带确定为一个能量窗口,得到能量窗口序列;

针对所述能量窗口序列中每个能量窗口,基于窗口包含的能量子带确定对应的特征值;

利用所述能量窗口序列中不同能量窗口对应的特征值,组成所述目标音频帧对应的特征数据。

在上述装置中,所述提取模块,具体用于:

将目标窗口中预设位置处的能量子带,确定为标准子带;所述目标窗口为所述能量窗口序列中任意一个能量窗口;

在所述标准子带的能量值,大于所述目标窗口中与所述标准子带不同的每个能量子带的能量值,确定所述目标窗口对应的特征值为1;

在所述标准子带的能量值,不大于所述目标窗口中与所述标准子带不同的每个能量子带的能量值,确定所述目标窗口对应的特征值为0。

在上述装置中,所述判断模块,具体用于:

依次计算所述近端特征与所述多个远端特征中每个远端特征的汉明距离;

在计算出小于预设距离阈值的汉明距离的情况下,判定所述当前近端音频帧中包含回声。

在上述装置中,所述处理模块,还用于:

在所述判断模块判定所述当前近端音频帧中包含回声的情况下,获取相似特征的时序信息;所述相似特征为所述多个远端特征中,与所述近端特征的汉明距离小于预设距离阈值的远端特征;

利用所述时序信息计算回声时延。

本申请提供了一种音频处理装置,包括:处理器、存储器和通信总线;

所述通信总线,用于实现所述处理器和所述存储器之间的通信连接;

所述处理器,用于执行所述存储器中存储的一个或者多个程序,以实现上述音频处理方法。

本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可以被一个或者多个处理器执行,以实现上述音频处理方法。

本申请提供了一种音频处理方法、装置及存储介质,方法包括:针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列;针对当前近端音频帧和多个远端音频帧中每个音频帧,分别对对应的能量序列进行非等比压缩,得到对应的压缩后的能量序列;分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,并将当前近端音频帧对应的特征数据确定为近端特征,多个远端音频帧对应的多个特征数据确定为多个远端特征;利用近端特征与多个远端特征,对当前近端音频帧进行回声判断。本申请提供的技术方案,使用高精度的特征提取方式进行音频特征提取,从而提高判断近端音频中是否包含回声的准确性,此外,在有回声的情况下,可以进一步准确的计算出回声时延,以提高回声消除质量。

附图说明

图1为本申请实施例提供的一种音频处理方法的流程示意图;

图2为本申请实施例提供的一种示例性的特征提取的示意图;

图3为本申请实施例提供的一种示例性的时延确定的过程示意图;

图4为本申请实施例提供的一种音频处理装置的结构示意图一;

图5为本申请实施例提供的一种音频处理装置的结构示意图二。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供了一种音频处理方法,应用于音频处理装置。图1为本申请实施例提供的一种音频处理方法的流程示意图。如图1所示,在本申请的实施例中,音频处理方法主要包括以下步骤:

S101、针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列。

在本申请的实施例中,音频处理装置针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列。

需要说明的是,在本申请的实施例中,音频处理装置可以直接获取到当前近端音频帧,以及多个远端音频帧,其中,远端音频帧的数量可以根据实际需求设定,本申请实施例不作限定。

需要说明的是,在本申请的实施例中,音频处理装置针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列之前,还可以执行以下步骤:获取当前近端音频帧,以及远端音频序列;对远端音频序列加窗分帧,得到多个远端音频帧。

可以理解的是,在本申请的实施例中,音频处理装置可以直接获取当前近端音频帧,而对于多个远端音频帧,实际上是先获取到一个远端音频序列,从而可以对远端音频序列加汉宁窗并分帧,得到多个远端音频帧。

需要说明的是,在本申请的实施例中,音频处理装置利用当前近端音频帧和多个远端音频帧中每个音频帧生成一个能量序列,具体可以是对每个音频帧进行频域变换,例如,进行短时傅里叶变换,从而对变换后的虚数取其模值作为能量值,形成对应的一个能量序列。

S102、针对当前近端音频帧和多个远端音频帧中每个音频帧,分别对对应的能量序列进行非等比压缩,得到对应的压缩后的能量序列。

在本申请的实施例中,音频处理装置在针对每个音频帧生成对应的能量序列之后,进一步的,可以针对每个音频帧,对对应的每个能量序列进行非等比压缩,得到对应的压缩后的能量序列。

在本申请的实施例中,音频处理装置针对当前近端音频帧和多个远端音频帧中每个音频帧,分别对对应的能量序列进行非等比压缩,得到对应的压缩后的能量序列之前,还可以执行以下不走:针对当前近端音频帧和多个远端音频帧中每个音频帧,分别对对应的能量序列进行滤波处理。

需要说明的是,在本申请的实施例中,音频处理装置针对每个音频帧对应的能量序列进行非等比压缩之前,可以先对能量序列进行滤波处理,例如,可以采用模板[1,2,3,2,1]对能量序列进行一维高斯滤波,从而去除掉能量序列中的噪声等干扰信息。音频处理装置对能量序列进行滤波处理的具体方式可以根据实际需求和应用场景设定,本申请实施例不作限定。

需要说明的是,在本申请的实施例中,音频处理装置在针对每个音频帧对应的能量序列滤波处理后,进一步的,对能量序列进行非等比压缩,例如,可以对滤波后的能量序列取10为底的对数,做log映射,将滤波后的能量序列映射到log域上。Log映射能对序列做非等比压缩,可以增加中低频权重而减小高频权重。

需要说明的是,在本申请的实施例中,可以根据实际需求和应用场景设定非等比压缩的方式,本申请实施例不作限定。

S103、分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,并将当前近端音频帧对应的特征数据确定为近端特征,多个远端音频帧对应的多个特征数据确定为多个远端特征。

在本申请的实施例中,音频处理装置在得到当前近端音频帧和多个远端音频帧中每个音频帧对应的压缩后的能量序列的情况下,即可分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,得到当前近端音频帧对应的近端特征,以及多个远端音频帧对应的多个远端特征。

需要说明的是,在本申请的实施例中,音频处理装置实现每个音频帧的特征数据的提取,均是利用其对应的压缩后的能量序列,不同音频帧的特征数据的提取方式相同。音频处理装置提取出的当前近端音频帧的特征数据,即近端特征,提取出的每个远端音频帧的特征数据,即远端特征。

需要说明的是,在本申请的实施例中,设定有预设滑动窗口,预设滑动窗口的尺寸可以根据实际需求和应用场景设定,本申请实施例不作限定。

具体的,在本申请的实施例中,所述分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,包括:对目标能量序列进行能量子带划分,得到顺序排列的多个能量子带;其中,目标能量序列为目标音频帧对应的压缩后的能量序列,目标音频帧为当前近端音频帧和多个远端音频帧中任意一个音频帧;利用预设滑动窗口在多个能量子带上顺序滑动,并将预设滑动窗口每一次滑动选取到的能量子带确定为一个能量窗口,得到能量窗口序列;针对能量窗口序列中每个能量窗口,基于窗口包含的能量子带确定对应的特征值;利用能量窗口序列中不同能量窗口对应的特征值,组成目标音频帧对应的特征数据。

示例性的,在本申请的实施例中,音频处理装置针对目标音频帧对应的压缩后的能量序列,即目标能量序列,可以将其等分为36个子带,预设滑动窗口可以为一个可以覆盖5个子带的窗口,音频处理装置利用预设滑动窗口,从多个能量子带中第一个能量子带开始,向后顺序滑动,每次滑动一个子带的长度,这样,实际上可以依次选取到32个能量窗口,形成能量窗口序列。

具体的,在本申请的实施例中,音频处理装置针对能量窗口序列中每个能量窗口,基于窗口包含的能量子带确定对应的特征值,包括:将目标窗口中预设位置处的能量子带,确定为标准子带;目标窗口为能量窗口序列中任意一个能量窗口;在标准子带的能量值,大于目标窗口中与标准子带不同的每个能量子带的能量值,确定目标窗口对应的特征值为1;在标准子带的能量值,不大于目标窗口中与标准子带不同的每个能量子带的能量值,确定目标窗口对应的特征值为0。

需要说明的是,在本申请的实施例中,音频处理装置针对得到的能量窗口序列中每个能量窗口,可以基于其中包含的能量子带确定对应的特征值,其中,对于任意一个能量窗口,音频处理装置可以将其中预设位置处的能量子带的能量值,与其它位置的能量子带的能量值进行比较,从而确定对应的特征值。具体的预设位置可以根据实际需求和应用场景设定,本申请实施例不作限定。

图2为本申请实施例提供的一种示例性的特征提取的示意图。如图2所示,预设滑动窗口可以覆盖5个能量子带,对于每个能量窗口,其包含5个能量子带,预设位置可以为中心位置,因此,音频处理装置针对每个能量窗口,可以将其中间的能量子带确定为对应的标准子带,如果该标准子带的能量值是窗口内最大的值,则输出的特征值为1,如果该标准子带的能量值不是窗口内最大的值,则输出的特征值为0。具体的,如图2所示,其中虚线所示能量窗口输出的均为1,其它图中未示出的能量窗口输出的均为0,这一系列的0和1的特征值即组成特征数据。

可以理解的是,在本申请的实施例中,不同能量窗口对应的特征值,即可以组成目标音频帧对应的特征数据,即目标音频帧对应的特征数据,实际上是由一系列1和0组成的数组。

S104、利用近端特征与多个远端特征,对当前近端音频帧进行回声判断。

在本申请的实施例中,音频处理装置在获得当前近端音频帧对应的近端特征,以及多个远端音频帧对应的多个远端特征的情况下,即可利用近端特征与多个远端特征,对当前近端音频帧进行回声判断。

具体的,在本申请的实施例中,音频处理装置利用近端特征与多个远端特征,对当前近端音频帧进行回声判断,包括:依次计算近端特征与多个远端特征中每个远端特征的汉明距离;在计算出小于预设距离阈值的汉明距离的情况下,判定当前近端音频帧中包含回声。

需要说明的是,在本申请的实施例中,音频处理装置依次计算近端特征与多个远端特征中每个远端特征的汉明距离,即针对每个远端特征,将近端特征与其每一位进行异或运算,从而统计运算结果中1的数量,作为相应的汉明距离。其中,对于近端特征与一个远端特征的汉明距离而言,如果1的数量越少,则表征两个特征越接近,即相似度越高。

需要说明的是,在本申请的实施例中,音频处理装置中设定有预设距离阈值,用于实现不同汉明距离的比较,如果计算出小于预设距离阈值的汉明距离,即表征多个远端特征中存在与近端特征相似的特征,因此,可以判定出当前近端音频帧中包含回声,相应的,如果未计算出小于预设距离阈值的汉明距离,即表征多个远端特征中不存在与近端特征相似的特征,因此,可以判定出当前近端音频帧中不包含回声。

可以理解的是,在本申请的实施例中,音频处理装置可以依次计算近端特征与多个远端特征中每个远端特征的汉明距离,例如,包括5个远端特征,可以按照时序关系依次计算近端特征与5个远端特征中各个远端特征的汉明距离,在此期间,如果针对某次计算得到的汉明距离,例如,计算出近端特征与第3个远端特征的汉明距离小于预设距离阈值,则可以停止后续计算汉明距离,直接判定出当前近端音频帧中包含回声。

在本申请的实施例中,音频处理装置在利用近端特征与多个远端特征,对当前近端音频帧进行回声判断之后,还可以执行以下步骤:在判定当前近端音频帧中包含回声的情况下,获取相似特征的时序信息;相似特征为多个远端特征中,与近端特征的汉明距离小于预设距离阈值的远端特征;利用时序信息计算回声时延。

可以理解的是,在本申请的实施例中,音频处理装置在判定出当前近端音频帧中包含回声的情况下,可以利用作为判定依据的相似特征,即与近端特征的汉明距离小于预设距离阈值的远端特征,其自身的时序信息,进行回声时延的计算。

具体的,在本申请的实施例中,相似特征的时序信息就是其对应的远端音频帧的时序信息,具体是可以是表征其在时间上产生顺序的标号,从而可以按照以下公式(1)计算回声时延:

t=(i+1)×10                        (1)

其中,t为回声时延,i为时序信息,即标号,10为设定的单位时长,单位为毫秒,其可以根据实际情况调整。例如,相似特征对应的远端音频帧是第12个音频帧,标号为11,即相似特征的时序信息为11,根据公式(1)计算得到的回声时延就是120毫秒。

可以理解的是,在本申请的实施例中,音频处理装置在计算出回声时延的情况下,可以利用回声时延进行回声的消除,以提高声音质量和效果。

图3为本申请实施例提供的一种示例性的时延确定的过程示意图,如图3所示,音频处理装置先对远端音频序列进行加窗分帧之后,对每一音频帧(包括每个远端音频帧和当前近端音频帧)进行频域变换、一维高斯滤波、频谱Log映射和特征提取,之后,进行特征比对,从而在判定当前近端音频帧中包含回声时,进行回声时延计算。

可以理解的是,在本申请的实施例中,不用做语音检测,即,不管远端与近端是否有人在讲话,也不管是否同时在讲话,直接对远端和近端声音提取特征进行比对,即可以知道近端采集的声音中是否有回声。使用高精度的相关性算法,使近端数据与远端数据可以准确对齐,从而使回声消除可以达到一个更好的效果。

本申请提供了一种音频处理方法,包括:针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列;针对当前近端音频帧和多个远端音频帧中每个音频帧,分别对对应的能量序列进行非等比压缩,得到对应的压缩后的能量序列;分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,并将当前近端音频帧对应的特征数据确定为近端特征,多个远端音频帧对应的多个特征数据确定为多个远端特征;利用近端特征与多个远端特征,对当前近端音频帧进行回声判断。本申请提供的音频处理方法,使用高精度的特征提取方式进行音频特征提取,从而提高判断近端音频中是否包含回声的准确性,此外,在有回声的情况下,可以进一步准确的计算出回声时延,以提高回声消除质量。

本申请还提供了一种音频处理装置。图4为本申请实施例提供的一种音频处理装置的结构示意图一。如图4所示,音频处理装置包括:

生成模块401,用于针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列;

处理模块402,用于针对所述当前近端音频帧和所述多个远端音频帧中每个音频帧,分别对对应的能量序列进行非等比压缩,得到对应的压缩后的能量序列;

提取模块403,用于分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,并将所述当前近端音频帧对应的特征数据确定为近端特征,所述多个远端音频帧对应的多个特征数据确定为多个远端特征;

判断模块404,用于利用所述近端特征与所述多个远端特征,对所述当前近端音频帧进行回声判断。

在本申请一实施例中,所述生成模块401,还用于获取当前近端音频帧,以及远端音频序列;对所述远端音频序列加窗分帧,得到所述多个远端音频帧。

在本申请一实施例中,所述处理模块402,还用于针对所述当前近端音频帧和所述多个远端音频帧中每个音频帧,分别对对应的能量序列进行滤波处理。

在本申请一实施例中,所述提取模块403,具体用于:

对目标能量序列进行能量子带划分,得到顺序排列的多个能量子带;其中,所述目标能量序列为目标音频帧对应的压缩后的能量序列,所述目标音频帧为所述当前近端音频帧和所述多个远端音频帧中任意一个音频帧;

利用所述预设滑动窗口在所述多个能量子带上顺序滑动,并将所述预设滑动窗口每一次滑动选取到的能量子带确定为一个能量窗口,得到能量窗口序列;

针对所述能量窗口序列中每个能量窗口,基于窗口包含的能量子带确定对应的特征值;

利用所述能量窗口序列中不同能量窗口对应的特征值,组成所述目标音频帧对应的特征数据。

在本申请一实施例中,所述提取模块403,具体用于:

将目标窗口中预设位置处的能量子带,确定为标准子带;所述目标窗口为所述能量窗口序列中任意一个能量窗口;

在所述标准子带的能量值,大于所述目标窗口中与所述标准子带不同的每个能量子带的能量值,确定所述目标窗口对应的特征值为1;

在所述标准子带的能量值,不大于所述目标窗口中与所述标准子带不同的每个能量子带的能量值,确定所述目标窗口对应的特征值为0。

在本申请一实施例中,所述判断模块404,具体用于:

依次计算所述近端特征与所述多个远端特征中每个远端特征的汉明距离;

在计算出小于预设距离阈值的汉明距离的情况下,判定所述当前近端音频帧中包含回声。

在本申请一实施例中,所述处理模块402,还用于:

在所述判断模块判定所述当前近端音频帧中包含回声的情况下,获取相似特征的时序信息;所述相似特征为所述多个远端特征中,与所述近端特征的汉明距离小于预设距离阈值的远端特征;

利用所述时序信息计算回声时延。

本申请提供了一种音频处理装置,针对当前近端音频帧和多个远端音频帧中每个音频帧,利用帧内包含的音频数据生成对应的能量序列;针对当前近端音频帧和多个远端音频帧中每个音频帧,分别对对应的能量序列进行非等比压缩,得到对应的压缩后的能量序列;分别对每个压缩后的能量序列利用预设滑动窗口进行遍历,提取对应音频帧的特征数据,并将当前近端音频帧对应的特征数据确定为近端特征,多个远端音频帧对应的多个特征数据确定为多个远端特征;利用近端特征与多个远端特征,对当前近端音频帧进行回声判断。本申请提供的音频处理装置,使用高精度的特征提取方式进行音频特征提取,从而提高判断近端音频中是否包含回声的准确性,此外,在有回声的情况下,可以进一步准确的计算出回声时延,以提高回声消除质量。

图5为本申请实施例提供的一种音频处理装置的结构示意图二。如图5所示,在本申请的实施例中,音频处理装置包括:处理器501、存储器502和通信总线503;

所述通信总线503,用于实现所述处理器501和所述存储器502之间的通信连接;

所述处理器501,用于执行所述存储器502中存储的一个或者多个程序,以实现上述音频处理方法。

本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可以被一个或者多个处理器执行,以实现上述音频处理方法。计算机可读存储介质可以是易失性存储器(volatile memory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatile memory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);也可以是包括上述存储器之一或任意组合的各自设备,如移动电话、计算机、平板设备、个人数字助理等。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本实用申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 音频数据的处理方法及装置、存储介质、电子装置
  • 音频处理方法、装置及存储介质
  • 音频信号处理方法、装置、设备和存储介质
  • 音频处理方法、装置及存储介质
  • 音频数据的处理方法、装置、设备及存储介质
  • 一种音频处理方法、音频处理装置及可读存储介质
  • 音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质
技术分类

06120115892211