掌桥专利:专业的专利平台
掌桥专利
首页

音频信号的处理方法、装置、设备及存储介质

文献发布时间:2023-06-19 12:02:28


音频信号的处理方法、装置、设备及存储介质

技术领域

本申请涉及音频信号处理技术领域,特别涉及一种音频信号的处理方法、装置、设备及存储介质。

背景技术

随着时代的发展,用户越来越喜欢在移动终端上观看影视。音视频的制作方往往会提供具有高清格式多声道的母带级音视频。常见的,音频可以采用5.1或7.1声道来播放。例如,5.1声道包括了中央声道、前置左声道、前置右声道、后置左声道、后置右声道、以及重低音声道(也即0.1声道),其模拟了在用户前方左中右、用户后方左右五个位置上配备5个音箱,以及额外设置一个低音音箱的环境。

但由于移动终端上可能存在网络带宽的限制,因此,在绝大部分情况下视频媒体推送音视频时会优先采用双声道(立体声)对音频进行播放,然后将节省的流量用于提高视频的清晰度。即便是提供了多声道的音频,也会将其转换为双声道。这也导致用户在欣赏视频的同时,便只能体验到立体声带来的较弱的环绕感,远远达不到多声道的视频声源带来的听觉沉浸感。

尤其是,音视频中的音频从多声道转换为双声道之后,往往无法再次转换回原声道。

发明内容

本申请实施例提供了一种音频信号的处理方法、装置、设备及存储介质,该方法能够将双声道的音频信号转换为多声道的音频信号,增强在听觉上立体声的环绕感。所述技术方案如下。

根据本申请的一个方面,提供了一种音频信号的处理方法,该方法包括:

获取双声道的音频信号,双声道的音频信号包括左声道的音频信号和右声道的音频信号;

从左声道的音频信号和右声道的音频信号的合并后音频信号中,提取低于频率阈值的低音信号,得到N.1声道中低声道的音频信号;

剔除左声道的音频信号中的低音信号,得到第一音频信号;以及剔除右声道的音频信号中的低音信号,得到第二音频信号;

计算第一音频信号和第二音频信号在频域上的相似度,按照相似度从第一音频信号和第二音频信号中提取N组音频信号,分别作为N.1声道中N个环绕声道的音频信号,N为大于1的正整数。

根据本申请的另一个方面,提供了一种音频信号的处理装置,该装置包括:

获取模块,用于获取双声道的音频信号,双声道的音频信号包括左声道的音频信号和右声道的音频信号;

提取模块,用于从左声道的音频信号和右声道的音频信号的合并后音频信号中,提取低于频率阈值的低音信号,得到N.1声道中低声道的音频信号;

剔除模块,用于剔除左声道的音频信号中的低音信号,得到第一音频信号;以及剔除右声道的音频信号中的低音信号,得到第二音频信号;

提取模块,用于计算第一音频信号和第二音频信号在频域上的相似度,按照相似度从第一音频信号和第二音频信号中提取N组音频信号,分别作为N.1声道中N个环绕声道的音频信号,N为大于1的正整数。

根据本申请的另一方面,提供了一种终端,上述终端包括:处理器和存储器,上述存储器存储有计算机程序,上述计算机程序由上述处理器加载并执行以实现如上所述的音频信号的处理方法。

根据本申请的另一方面,提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序由处理器加载并执行以实现如上所述的音频信号的处理方法。

根据本申请的另一个方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上所述的音频信号的处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括如下。

本申请提供的音频信号的处理方法,针对双声道的音频信号,首先将其左右声道的音频信号进行合并,从合并后音频信号中提取低音信号,来作为低声道的音频信号,上述低声道也即N.1声道中的.1声道;然后分别剔除左声道的音频信号和右声道的音频信号中的低音信号,获得第一音频信号和第二音频信号,之后按照第一音频信号和第二音频信号在频域上的相似度,从第一音频信号和第二音频信号中提取N组音频信号,作为N.1声道中N个环绕声道的音频信号,实现了双声道的音频信号至多声道的音频信号的转换。

且此种音频信号的转换方式,对双声道的音频信号的生成方式没有特定要求,因此,可以广泛地应用于对双声道的音频信号至多声道的音频信号的转换,示例性的,此种音频信号的转换方式可以应用于对任意的双声道的音频信号的处理,以在音频播放过程中,首先将双声道的音频信号转换为多声道的音频信号,进而为用户播放多声道的音频信号,从而在听觉上给用户带来更强的环绕感,获得沉浸式体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的终端的结构示意图;

图2示出了本申请一个示例性实施例提供的音频信号的处理方法的流程图;

图3示出了本申请另一个示例性实施例提供的音频信号的处理方法的流程图;

图4示出了本申请另一个示例性实施例提供的音频信号的处理方法的流程图;

图5示出了本申请一个示例性实施例提供的音频信号的处理装置的框图;

图6示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍。

头部相关传输函数(Head Related Transfer Functions,HRTF),是一种声音定位算法,用于表征人耳从空间中的声源点接收声音的方式。每个人都有自己独特的HRTF,可以将HRTF视为一个人的听音指纹。

HRTF是构建虚拟听觉声像的基础。利用空间声技术或者双耳技术对HRTF进行处理,可以准确的构建出所需的双耳声压信号,通过耳机或扬声器等设备进行播放,可获得预期的声源位置信息。

其中,HRTF是声源传输到双耳的频域传输函数,自由声场情况下其定义为:

式中,

声场,是指媒介中有声波存在的区域。声源在均匀、各向同性的媒质中,边界的影响可以不计的声场,称为自由声场。在自由声场中,声波按声源的辐射特性向各个方向不受阻碍和干扰地传播。

单声道,是指将来自不同方位的音频信号混合后统一由录音器材记录下来,再由一只音箱进行重放。

双声道,是指在空间位置放置两个互相成一定角度的扬声器,每个扬声器单独由一个声道提供音频信号。双声道包括左声道和右声道,而每个声道的音频信号在录制的时候就经过了处理:处理的原则是模仿人耳在自然界听到声音时的生物学原理(人具备双耳,听到声音时可以根据左耳和右耳对应声音相位差来判断声源的具体位置),表现在电路上基本也就是两个声道的音频信号在相位上有所差别,这样当站到两个扬声器的轴心线相交点上听声音时就可以感受到立体声的效果。

多声道,多于两个声道;比如5.1声道,其包括5个全频域声道和1个超低音声道,5个声道分别是左前、右前、前中置、左环绕和右环绕;又比如6.1声道,其是在5.1声道的基础上增加了1个后中置;又比如7.1声道,其是在5.1声道的基础上增加了一对侧后置声道。

其中,多声道的音频信号可以转换为双声道的音频信号,这一处理手段的应用比较常见,比如,由于移动终端上可能存在网络带宽的限制,在绝大部分情况下视频媒体推送视频时会优先采用双声道对音频进行播放,因此,即便是音视频中提供的是多声道的音频信号,移动终端也会首先将多声道的音频信号转换为双声道的音频信号,之后采用双声道对转换得到的音频信号进行播放,进而将节省的流量用于提高视频的清晰度。

而一般情况下,双声道的音频信号往往是无法转换回原来多声道的音频信号,双声道的音频信号也丢失了原多声道的音频信号中的环绕信息,降低了音频信号播放时的环绕感,使用户在观看音视频时无法体验到听觉上的沉浸感。为了解决这一技术问题,本申请提出了一种音频信号的处理方法,该方法的详细描述如下实施例所示。

本申请提出的一种音频信号的处理方法,可以应用于终端中,该终端可以是台式计算机、膝上型便携计算机、智能手机、平板电脑、电子书阅读器、电子游戏机、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III,MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV,MP4)播放器、以及动态影像专家压缩标准音频层面5(Moving Picture Experts GroupAudio Layer V,MP5)播放器等等。

关于硬件结构,上述终端包括了压力触控屏120、存储器140和处理器160,请参考图1所示的终端的结构框图。

压力触控屏120可以是电容屏或者电阻屏。压力触控屏120用于实现终端与用户之间的交互。在本申请的实施例中,终端通过压力触控屏120获得用户触发的音频和音视频播放的相关操作,比如,声道切换操作、音频切换操作、音频播放操作、音频停止播放操作、音视频切换操作、音视频播放操作、音视频停止播放操作等。

还存在一种情况,上述终端还包括物理按键,该物理按键也用于实现终端与用户之间的交互。在本申请的实施例中,终端也可以通过物理按键获得用户触发的音频和音视频播放的相关操作。

存储器140可以包括一个或者多个计算机可读存储介质。上述计算机可读存储介质包括随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、闪存(Flash)中的至少一种。存储器140中安装有操作系统12和应用程序14。

操作系统12是为应用程序14提供对计算机硬件的安全访问的基础软件。示例性的,操作系统12可以是安卓系统(Android)、或者苹果系统(IOS)、或者鸿蒙系统(HarmonyOS)。应用程序14包括支持音频和音视频播放功能的应用程序。

处理器160可以包括一个或者多个处理核心,比如4核心处理器、8核心处理器。示例性的,处理器160用于根据压力触控屏120或者物理按键上接收到的音频和音视频播放的相关操作,执行不同操作对应的不同命令。

请参考图2,示出了本申请一个示例性实施例提供的音频信号的处理方法的流程图,以该方法应用于图1所示的终端中为例,该方法包括如下步骤。

步骤201,获取双声道的音频信号,双声道的音频信号包括左声道的音频信号和右声道的音频信号。

终端获取音频,得到双声道的音频信号;或者,终端获取音视频,从音视频中提取音频,得到双声道的音频信号。

在应用程序中开始播放音频时,终端首先确定应用程序的播放模式,该播放模式用于指示音频播放采用双声道或者N.1声道;若该播放模式指示音频播放采用N.1声道,终端在获取得到双声道的音频信号之后,执行步骤202至步骤205。

示例性的,上述应用程序具备播放模式的切换功能;比如,应用程序中设置有双声道对应的第一播放模式和N.1声道对应的第二播放模式;终端运行应用程序,在应用程序的设置界面上显示第一播放模式和第二播放模式的选择控件;终端接收选择控件上对第二播放模式的选择操作,确定采用N.1声道播放音频。示例性的,设置界面上可以显示至少两个第二播放模式的选择控件,不同的第二播放模式对应不同的N.1声道;比如,存在两个第二播放模式,分别为第二播放模式1和第二播放模式2,第二播放模式1用于指示采用5.1声道播放音频,第二播放模式2用于指示采用7.1声道播放音频。

步骤202,从左声道的音频信号和右声道的音频信号的合并后音频信号中,提取低于频率阈值的低音信号,得到N.1声道中低声道的音频信号。

终端在获得双声道的音频信号之后,合并左声道的音频信号和右声道的音频信号,得到合并后音频信号,也即是单声道的音频信号;从合并后音频信号中提取低于频率阈值的低音信号,作为N.1声道中的低声道的音频信号。其中,低声道也可以称为低音声道或者重低音声道。

示例性的,终端对左声道的音频信号和右声道的音频信号进行线性相加,即得到合并后音频信号。

可选地,终端中设置有低通滤波器,低通滤波器容许低于截止频率的信号通过,但高于截止频率的信号不能通过。终端调用截止频率为频率阈值的低通滤波器,对合并后音频信号进行滤波,从合并后音频信号中过滤出低于频率阈值的低音信号。示例性的,上述低通滤波器可以是应用程序中设置的。

步骤203,剔除左声道的音频信号中的低音信号,得到第一音频信号。

终端在得到低音信号之后,剔除左声道的音频信号中的低音信号,得到第一音频信号。

示例性的,终端对左声道的音频信号和低音信号做线性减法,即得到第一音频信号。

步骤204,剔除右声道的音频信号中的低音信号,得到第二音频信号。

终端在得到低音信号之后,剔除右声道的音频信号中的低音信号,得到第二音频信号。

示例性的,终端对右声道的音频信号和低音信号做线性减法,即得到第二音频信号。

步骤205,计算第一音频信号和第二音频信号在频域上的相似度,按照相似度从第一音频信号和第二音频信号中提取N组音频信号,分别作为N.1声道中N个环绕声道的音频信号。

其中,N为大于1的正整数。终端在获得剔除了低音信号的第一音频信号和第二音频信号之后,以预设频率长度为步进,计算每一个步进上第一音频信号和第二音频信号在频域上的相似度。

示例性的,预设频率长度(也即步进长度)为1000赫兹(Hz),且第一音频信号和第二音频信号所在频域为200Hz~20200Hz,对于同一帧上的第一音频信号和第二音频信号,终端按照1000Hz的步进长度来计算第一音频信号和第二音频信号的相似度,计算200Hz~1200Hz上第一音频信号与第二音频信号的相似度,计算1200Hz~2200Hz上第一音频信号与第二音频信号的相似度,计算2200Hz~3200Hz上第一音频信号和第二音频信号的相似度,以此类推。需要说明的是,上述预设频率长度的取值为示例性说明,本实施例对预设频率长度不加以限定。

在计算得到相似度之后,终端按照相似度对第一音频信号和第二音频信号进行划分,以获得N个环绕声道对应的N组音频信号。

示例性的,终端从第一音频信号中提取出相似度大于或等于90%的音频信号,从第一音频信号中提取出相似度大于或等于10%且小于90%的音频信号,从第一音频信号中提取出相似度小于10%的音频信号,得到3个左侧环绕声道对应的3组音频信号;从第二音频信号中提取出相似度大于或等于90%的音频信号,从第二音频信号中提取出相似度大于或等于10%且小于90%的音频信号,从第二音频信号中提取出相似度小于10%的音频信号,得到3个右侧环绕声道对应的3组音频信号;最终,经过上述音频信号的提取过程,终端得到6个环绕声道对应的6组音频信号。

示例性的,终端在得到N.1声道的音频信号之后,可以采用具备N.1声道的音箱设备来播放上述N.1声道的音频信号;或者,终端在得到N.1声道的音频信号之后,还可以采用耳机来播放上述N.1声道的音频信号。

综上所述,本实施例提供的音频信号的处理方法,针对双声道的音频信号,首先将其左右声道的音频信号进行合并,从合并后音频信号中提取低音信号,来作为低声道的音频信号,也即N.1声道中的.1声道;然后分别剔除左声道的音频信号和右声道的音频信号中的低音信号,获得第一音频信号和第二音频信号,之后按照第一音频信号和第二音频信号在频域上的相似度,从第一音频信号和第二音频信号中提取N组音频信号,作为N.1声道中N个环绕声道的音频信号,实现了双声道的音频信号至多声道的音频信号的转换。

且此种音频信号的转换方式,对双声道的音频信号的生成方式没有特定要求,因此,可以广泛地应用于对双声道的音频信号至多声道的音频信号的转换,示例性的,此种音频信号的转换方式可以应用于对任意的双声道的音频信号的处理,以在音频播放过程中,首先将双声道的音频信号转换为多声道的音频信号,进而为用户播放多声道的音频信号,从而在听觉上给用户带来更强的环绕感,获得沉浸式体验。

在音频信号的处理初始,终端首先需要对音频信号进行分帧,本申请提供的音频信号的处理方法的流程还可以如图4所示,步骤如下。

步骤301,获取双声道的音频信号,双声道的音频信号包括左声道的音频信号和右声道的音频信号。

终端在采用N.1声道播放音频时,在获得双声道的音频信号之后,或者,从音视频中提取得到双声道的音频信号之后,执行步骤302至步骤308,以将双声道的音频信号转换为N.1声道的音频信号。

步骤302,按照预设时长对左声道的音频信号进行分帧,得到分帧后的第一音频信号。

终端中设置有预设时长,该预设时长用于指示对音频信号分帧时每一帧的时长。预设时长为经验值。终端按照预设时长对左声道的音频信号进行分帧,得到分帧后的第一音频信号。示例性的,预设时长的取值范围为0.1秒至3.0秒。比如,终端按照2.0秒对左声道的音频信号进行分帧,分帧后的第一音频信号中每一帧的时长为2.0秒。

步骤303,按照预设时长对右声道的音频信号进行分帧,得到分帧后的第二音频信号。

右声道的音频信号与左声道的音频信号是同一时域上的音频信号。终端按照预设时长对右声道的音频信号进行分帧,每一个分帧时刻与左声道的音频信号在时域上的分帧时刻一一对应,得到分帧后的第二音频信号。比如,左声道的音频信号和右声道的音频信号均是0~120秒这一时域上的,按照3.0秒的时长对左声道的音频信号进行分帧,得到0~3.0秒、3.0~6.0秒、……、117.0~120.0秒共40帧的分帧后的第一音频信号;按照3.0秒的时长对右声道的音频信号进行分帧,得到0~3.0秒、3.0~6.0秒、……、117.0~120.0秒共40帧的分帧后的第二音频信号。

步骤304,对分帧后的第一音频信号和分帧后的第二音频信号进行线性相加,得到合并后音频信号。

终端对每一帧上的分帧后的第一音频信号和分帧后的第二音频信号进行线性相加,比如,对0~3.0秒这一帧上分帧后的第一音频信号和分帧后的第二音频信号进行线性相加,对3.0~6.0秒这一帧上分帧后的第一音频信号和分帧后的第二音频信号进行线性相加,对6.0~9.0秒这一帧上分帧后的第一音频信号和分帧后的第二音频信号进行线性相加,以此类推,完成0~120秒这一时域上分帧后的第一音频信号和分帧后的第二音频信号的合并,得到合并后音频信号。

步骤305,从合并后音频信号中提取低于频率阈值的低音信号,得到N.1声道中低声道的音频信号。

示例性的,终端中设置有低通滤波器,低通滤波器的截止频率为频率阈值;终端将合并后音频信号输入低通滤波器,由低通滤波器将合并后音频信号中高于频率阈值的音频信号滤除,得到低于频率阈值的低音信号,作为N.1声道中低声道的音频信号。

示例性的,频率阈值可以为200Hz,终端通过低通滤波器从合并后音频信号中过滤出低于200Hz的音频信号,作为低声道的音频信号。需要说明的是,上述频率阈值取值200Hz为示例性说明,本实施例中不对频率阈值的取值加以限定。

步骤306,剔除分帧后的第一音频信号中的低音信号,得到第一音频信号。

示例性的,终端对分帧后的第一音频信号和低音信号做线性减法,即得到第一音频信号;采用公式表达如下:

L’=L-B;

其中,L表示分帧后的第一音频信号,B表示低音信号;L’表示第一音频信号。

步骤307,剔除分帧后的第二音频信号中的低音信号,得到第二音频信号。

示例性的,终端对分帧后的第二音频信号和低音信号做线性减法,即得到第二音频信号;采用公式表达如下:

R’=R-B;

其中,R表示分帧后的第二音频信号,B表示低音信号;R’表示第二音频信号。

步骤308,计算第一音频信号和第二音频信号在频域上的相似度,按照相似度从第一音频信号和第二音频信号中提取N组音频信号,分别作为N.1声道中N个环绕声道的音频信号。

其中,N为大于1的正整数。终端在获得第一音频信号和第二音频信号之后,以预设频率长度为步进,计算每一个步进上第一音频信号和第二音频信号在频域上的相似度;按照相似度对第一音频信号和第二音频信号划分,得到N组音频信号。其中,N组音频信号中每一组音频信号在时域上是连续的。

综上所述,本实施例提供的音频信号的处理方法,对双声道的音频信号分帧后,再进行双声道的音频信号至N.1声道的音频信号的转换,可以实现对音频信号更细致的划分,从而更精准地提取出各个环绕声道的音频信号,进一步地提高N.1声道播放音频时听觉上的环绕感。

示例性的,上述步骤205和步骤308中N组音频信号的提取可以通过对频谱的切分来实现,如图4,以步骤308的实现为例,对N组音频信号的提取进行详细说明,步骤如下所示。

步骤401,将第一音频信号从时域转换至频域,生成第一频谱。

示例性的,终端采用快速傅立叶变换(Fast Fourier Transform,FFT)将第一音频信号从时域转换至频域,生成第一频谱。

可选地,终端对时域上的第一音频信号L’进行加窗处理,得到加窗后的第一音频信号L’’;采用FFT将加窗后的第一音频信号L’’从时域转换至频域,生成第一频谱LS。示例性的,终端采用窗函数对时域上的第一音频信号进行加窗处理。上述窗函数用于限制音频信号的时域宽度,上述窗函数可以包括海明窗、汉宁窗、矩形窗中的至少一种,本实施例中对窗函数的类型不加以限定。

步骤402,将第二音频信号从时域转换至频域,生成第二频谱。

示例性的,终端采用FFT将第二音频信号从时域转换至频域,生成第二频谱。

可选地,终端对时域上的第二音频信号R’进行加窗处理,得到加窗后的第二音频信号R’’;采用FFT将加窗后的第二音频信号R’’从时域转换至频域,生成第二频谱RS。示例性的,终端采用窗函数对时域上的第二音频信号进行加窗处理。

步骤403,以预设频率长度为步进,计算第一频谱和第二频谱在每一个步进上的相似度。

示例性的,预设频率长度为Q%频率长度,若终端中设置了音频信号的预设采样率W,根据奈奎斯特采样定理,输入信号的频率范围为0Hz~W/2 Hz,则预设频率长度的值为(W/2)×Q%。比如,预设频率长度为,若输入音频信号的采样率为48000Hz,根据奈奎斯特采样定理,输入信号的频率范围为0Hz~24000Hz,若以5%频率长度为步进,即以1200Hz的频率长度为步进。

示例性的,终端计算第一频谱和第二频谱在每一个步进上频段之间的相似度A。

示例性的,终端计算第一频谱的第一包络,以及计算第二频谱的第二包络;计算每一个步进上第一包络与第二包络之间的相似度,得到每一个步进上第一频谱和第二频谱之间的相似度。比如,终端计算第一包络和第二包络的重叠区域,且确定出第一包络与第二包络之间的最大包络;将重叠区域与最大包络之间的比值作为上述相似度。

步骤404,按照相似度从第一频谱和第二频谱中提取N组频段。

在一些实施例中,N的取值为2K+1,K为正整数;终端从第一频谱中提取相似度属于K+1个相似度范围中每一个相似度范围的频段,得到K+1个相似度范围对应的K+1组第一频段;以及从第二频谱中提取相似度属于K+1个相似度范围中每一个相似度范围的频段,得到K+1个相似度范围对应的K+1组第二频段;合并K+1个相似度范围中最大相似度范围对应的第一频段和第二频段,生成1组合并后频段,作为2K+1个环绕声道的中央声道的频段;以及根据剩余K组第一频段和剩余K组第二频段确定2K组频段,作为2K+1个环绕声道中除中央声道之外的其他2K个环绕声道的频段。其中,剩余K组第一频段是指除最大相似度范围对应的一组第一频段之外的其他K组第一频段,剩余K组第二频段是指除最大相似度范围对应的一组第二频段之外的其他K组第二频段。

可选地,终端针对最大相似度范围对应的第一频段,计算每一个步进上第一频段与相似度的第一乘积;以及针对最大相似度范围对应的第二频段,计算每一个步进上第二频段与相似度的第二乘积;计算每一个步进上第一乘积与第二乘积的平均值,得到中央声道对应的1组合并后频段。

也即是,终端针对最大相似度范围对应的第一频段和第二频段,计算每一个步进上第一频段与第二频段的频段和,计算每一个步进上频段和与相似度的乘积,将乘积除以2即得到中央声道对应的1组合并后频段。

示例性的,针对最大相似度范围对应的第一频段和第二频段,计算中央声道对应的1组合并后频段的公式如下:

C=(LLS×A+RRS×A)/2;

其中,LLS表示最大相似度范围对应的第一频段,RRS表示最大相似度范围对应的第二频段,C表示中央声道对应的合并后频段。

可选地,针对第j个相似度范围对应的第j组第一频段和第j组第二频段,计算每一个步进上第一频段的第一模长,以及计算每一个步进上第二频段的第二模长;

计算每一个步进上第一模长与模长和的第一比值,以及计算每一个步进上第二模长与模长和的第二比值,模长和是每一个步进上第一模长与第二模长的和;

计算每一个步进上第一频段、相似度以及第一比值的乘积,得到处理后的第j组第一频段,作为第j个左侧环绕声道的频段;以及计算每一个步进上第二频段、相似度以及第二比值的乘积,得到处理后的第j组第二频段,作为第j个右侧环绕声道的频段;

重复执行以上三个步骤,完成对剩余K组第一频段与剩余K组第二频段的处理,得到2K组频段;其中,第j个相似度范围属于K+1个相似度范围中除最大相似度范围之外的其他相似度范围,j为小于或者等于K的正整数。

示例性的,针对其他K个相似度范围中每一个相似度范围对应的第一频段,计算一个左侧环绕声道对应的一组频段,公式如下:

LA=MOD(LLS’);

LF=LA/(LA+RA);

RL’=LLS’×(LF×A);

其中,MOD表示计算复数的模长的符号;LA表示第一模长;LF表示第一比值;RL’表示其他K个相似度范围对应的处理后的第一频段;LLS’表示其他K个相似度范围对应的第一频段,其是在从第一频谱中提取出中央声道对应的频段后得到的左声道的残余频谱;示例性的,上述LLS’是对LLS与C做复数线性减法得到的,公式如下:

LLS’=LLS-C;

针对其他K个相似度范围中每一个相似度范围对应的第二频段,计算一个右侧环绕声道对应的一组频段,公式如下:

RA=MOD(RRS’);

RF=RA/(LA+RA);

RR’=RRS’×(RF×A);

其中,RA表示第二模长;RF表示第二比值;RR’表示其他K个相似度范围对应的处理后的第二频段;RRS’表示其他K个相似度范围对应的第二频段,其是在从第一频谱中提取出中央声道对应的频段后得到的右声道的残余频谱;示例性的,上述RRS’是对RRS与C做复数线性减法得到的,公式如下:

RRS’=RRS-C;

其中,其他K个相似度范围是指K+1个相似度范围中除最大相似度范围之外的相似度范围。

可选地,K+1个相似度范围中的最大相似度范围为大于第一相似度,K+1个相似度范围中的最小相似度范围为小于第二相似度,第一相似度与第二相似度的比值大于或者等于2。示例性的,上述第一相似度的取值范围为10%至90%,上述第二相似度的取值范围为10%至90%。比如,K取值为2,三个相似度范围分别大于等于90%、小于90%且大于等于10%、小于10%,其中90%与10%的比值大于2倍。又比如,N取值为2,三个相似度范围分别大于等于70%、小于70%且大于等于35%、小于35%,其中70%是35%的2倍。

在一些实施例中,N的取值为2K,K为正整数;终端从第一频谱中提取相似度属于K个相似度范围中每一个相似度范围的频段,得到K个相似度范围对应的K组第一频段;以及从第二频谱中提取相似度属于K个相似度范围中每一个相似度范围的频段,得到K个相似度范围对应的K组第二频段;根据N组第一频段和N组第二频段确定2K个环绕声道对应的2K组频段。

可选地,针对第j个相似度范围对应的第j组第一频段和第j组第二频段,计算每一个步进上第一频段的第一模长,以及计算每一个步进上第二频段的第二模长;

计算每一个步进上第一模长与模长和的第一比值,以及计算每一个步进上第二模长与模长和的第二比值;模长和是每一个步进上第一模长与第二模长的和;

计算每一个步进上第一频段、相似度以及第一比值的乘积,得到处理后的第j组第一频段,作为第j个左侧环绕声道的频段;以及计算每一个步进上第二频段、相似度以及第二比值的乘积,得到处理后的第j组第二频段,作为第j个右侧环绕声道的频段;

重复执行以上三个步骤,完成对K组第一频段与K组第二频段的处理,得到2K个环绕声道对应的2K组频段;其中,第j个相似度范围属于K个相似度范围,j为小于或者等于K的正整数。

可选地,K个相似度范围中的最大相似度范围为大于第一相似度,N个相似度范围中的最小相似度范围为小于第二相似度,第一相似度与第二相似度的比值大于或者等于2。

步骤405,将N组频段中的每一组频段从频域转换至时域,得到N组音频信号。

终端采用快速傅里叶逆变换(Inverse Fast Fourier Transform,IFFT)对N组频段中的每一组频段从频域转换至时域,得到N组音频信号。

在一些实施例中,存在至少一个相似度范围,不存在对应的频谱,则采用0来填充,在对该相似度范围对应的频段进行频域至时域的转换后,该相似度范围对应的音频信号也为0。也即存在中央声道,或者中央声道和环绕声道上不存在音频信号。

综上所述,本实施例提供的音频信号的处理方法,首先将音频信号从时域转换至频域,然后在频域上按照相似度完成音频信号的划分,从而得到N个环绕声道的音频信号,将双声道的音频信号划分为N.1声道的音频信号,进而为用户播放多声道的音频信号,在听觉上给用户带来更强的环绕感,获得沉浸式体验。

以双声道的音频信号转换为5.1声道的音频信号为例,双声道的音频信号包括左声道的音频信号和右声道的音频信号,终端按照1.5秒的分帧长度对左声道的音频信号进行分帧,得到分帧后的第一音频信号L;以及按照1.5秒的分帧长度对右声道的音频信号进行分帧,得到分帧后的第二音频信号R。终端对L和R进行线性相加,得到合并后音频信号;通过截止频率为230Hz的低通滤波器进行滤波,得到低音信号B。终端对L和B进行线性相减,得到第一音频信号L’(=L-B);以及对R和B进行线性相减,得到第二音频信号R’(=R-B)。终端采用海明窗对L’和R’进行加窗处理,得到加窗后的第一音频信号L’’和加窗后的第二音频信号R’’。终端对L’’和R’’进行快速傅里叶变换,得到第一频谱LS和第二频率RS;本实施例中输入音频信号的采样率为48000Hz,则输入信号的频率范围为0~24000Hz,以5%频率长度为步进,即以1200Hz长度为步进,从230Hz至24000Hz进行每一个环绕声道对应的频段的提取,每一个步进上的第一频段表示为LLS,每一个步进上的第二频段表示为RRS。终端计算每一个步进上LLS与RRS的相似度A。终端提取出相似度大于或者等于90%的LLS和RRS,计算中央声道的频段C=(LLS×A+RRS×A)/2;还得到第一剩余频谱和第二剩余频谱,对第一剩余频谱中的第一频段重新命名为LLS’(=LLS-C),对第二剩余频谱中的第二频段重新命名为RRS’(=RRS-C)。终端从第一剩余频谱中提取出相似度大于或者等于10%且小于90%的LLS’,从第二剩余频谱中提取出相似度大于或者等于10%且小于90%的RRS’,采用如下公式计算左后方声道对应的第一频段RL’:

LA=MOD(LLS’);

LF=LA/(LA+RA);

RL’=LLS’×(LF×A);

采用如下公式计算右后方声道对应的第二频段RR’:

RA=MOD(RRS’);

RF=RA/(LA+RA);

RR’=RRS’×(RF×A);

还得到第三剩余频谱和第四剩余频谱,终端对第三剩余频谱中的第一频段重新命名为LLS’’(=LLS’-RL’),对第四剩余频谱中的第二频段重新命名为RRS’’(=RRS’-RR’)。终端采用如下公式计算左前方声道对应的第一频段RL’’:

LA=MOD(LLS’’);

LF=LA/(LA+RA);

RL’’=LLS’’×(LF×A);

采用如下公式计算右前方声道对应的第二频段RR’’:

RA=MOD(RRS’’);

RF=RA/(LA+RA);

RR’’=RRS’’×(RF×A);

对C、RL’、RR’、RL’’、RR’’分别进行快速傅里叶逆变换,得到同一时域上的5组音频信号,每一组音频信号在时域上是连续的,即得到5个环绕声道对应的音频信号;加之低声道的音频信号,即得到5.1声道的音频信号。

终端在完成双声道的音频信号至N.1声道的音频信号的转换之后,采用HRTF对N.1声道的音频信号进行播放,以充分发挥N.1声道的音频信号给用户带来的听觉上的环绕感。

图5示出了本申请一个示例性实施例提供的音频信号的处理装置的框图,该装置可以通过软件、硬件、或者二者结合实现成为终端的部分或者全部。该装置包括:

获取模块501,用于获取双声道的音频信号,双声道的音频信号包括左声道的音频信号和右声道的音频信号;

提取模块502,用于从左声道的音频信号和右声道的音频信号的合并后音频信号中,提取低于频率阈值的低音信号,得到N.1声道中低声道的音频信号;

剔除模块503,用于剔除左声道的音频信号中的低音信号,得到第一音频信号;以及剔除右声道的音频信号中的低音信号,得到第二音频信号;

提取模块502,用于计算第一音频信号和第二音频信号在频域上的相似度,按照相似度从第一音频信号和第二音频信号中提取N组音频信号,分别作为N.1声道中N个环绕声道的音频信号,N为大于1的正整数。

在一些实施例中,提取模块502,用于:

将第一音频信号从时域转换至频域,生成第一频谱;以及将第二音频信号从时域转换至频域,生成第二频谱;

以预设频率长度为步进,计算第一频谱和第二频谱在每一个步进上的相似度;

按照相似度从第一频谱和第二频谱中提取N组频段;

将N组频段中的每一组频段从频域转换至时域,得到N组音频信号。

在一些实施例中,N的取值为2K+1,K为正整数;提取模块502,用于:

从第一频谱中提取相似度属于K+1个相似度范围中每一个相似度范围的频段,得到K+1个相似度范围对应的K+1组第一频段;以及从第二频谱中提取相似度属于K+1个相似度范围中每一个相似度范围的频段,得到K+1个相似度范围对应的K+1组第二频段;

合并K+1个相似度范围中最大相似度范围对应的第一频段和第二频段,生成1组合并后频段,作为2K+1个环绕声道的中央声道的频段;以及根据剩余K组第一频段和剩余K组第二频段确定2K组频段,作为2K+1个环绕声道中除中央声道之外的其他2K个环绕声道的频段。

在一些实施例中,提取模块502,用于:

针对最大相似度范围对应的第一频段,计算每一个步进上第一频段与相似度的第一乘积;以及针对最大相似度范围对应的第二频段,计算每一个步进上第二频段与相似度的第二乘积;

计算每一个步进上第一乘积与第二乘积的平均值,得到合并后频段。

在一些实施例中,提取模块502,用于:

针对第j个相似度范围对应的第j组第一频段和第j组第二频段,计算每一个步进上第一频段的第一模长,以及计算每一个步进上第二频段的第二模长;

计算每一个步进上第一模长与模长和的第一比值,以及计算每一个步进上第二模长与模长和的第二比值,模长和是每一个步进上第一模长与第二模长的和;

计算每一个步进上第一频段、相似度以及第一比值的乘积,得到处理后的第j组第一频段,作为第j个左侧环绕声道的频段;以及计算每一个步进上第二频段、相似度以及第二比值的乘积,得到处理后的第j组第二频段,作为第j个右侧环绕声道的频段;

重复执行以上三个步骤,完成对剩余K组第一频段和剩余K组第二频段的处理,得到2K组频段;

其中,第j个相似度范围属于K+1个相似度范围中除最大相似度范围之外的其他相似度范围,j为小于或者等于K的正整数。

在一些实施例中,

K+1个相似度范围中的最大相似度范围为大于第一相似度,K+1个相似度范围中的最小相似度范围为小于第二相似度,第一相似度是第二相似度的两倍。

在一些实施例中,提取模块502,用于:

采用截止频率为频率阈值的低通滤波器,对合并后音频信号进行滤波,得到低声道的音频信号。

在一些实施例中,该装置还包括分帧模块504和合并模块505;

分帧模块504,用于按照预设时长对左声道的音频信号进行分帧,得到分帧后的第一音频信号;以及按照预设时长对右声道的音频信号进行分帧,得到分帧后的第二音频信号;

合并模块505,用于对分帧后的第一音频信号和分帧后的第二音频信号进行线性相加,得到合并后音频信号。

在一些实施例中,剔除模块503,用于:

剔除分帧后的第一音频信号中的低音信号,得到第一音频信号;以及剔除分帧后的第二音频信号中的低音信号,得到第二音频信号。

综上所述,本实施例提供的音频信号的处理装置,针对双声道的音频信号,首先将其左右声道的音频信号进行合并,从合并后音频信号中提取低音信号,来作为低声道的音频信号,也即N.1声道中的.1声道;然后分别剔除左声道的音频信号和右声道的音频信号中的低音信号,获得第一音频信号和第二音频信号,之后按照第一音频信号和第二音频信号在频域上的相似度,从第一音频信号和第二音频信号中提取N组音频信号,作为N.1声道中N个环绕声道的音频信号,实现了双声道的音频信号至多声道的音频信号的转换。

且该装置中此种音频信号的转换方式,对双声道的音频信号的生成方式没有特定要求,因此,可以广泛地应用于对双声道的音频信号至多声道的音频信号的转换,示例性的,此种音频信号的转换方式可以应用于对任意的双声道的音频信号的处理,以在音频播放过程中,首先将双声道的音频信号转换为多声道的音频信号,进而为用户播放多声道的音频信号,从而在听觉上给用户带来更强的环绕感,获得沉浸式体验。

图6示出了本申请一个示例性实施例提供的计算机设备的结构示意图。该计算机设备可以是执行如本申请提供的音频信号的处理方法的终端。

计算机设备600包括中央处理单元(CPU,Central Processing Unit)601、包括随机存取存储器(RAM,Random Access Memory)602和只读存储器(ROM,Read Only Memory)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,Input Output System)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说,大容量存储设备607可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM,Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储器技术,CD-ROM、数字通用光盘(DVD,Digital Versatile Disc)或固态硬盘(SSD,Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本申请的各种实施例,计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。

在一个可选的实施例中,提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的音频信号的处理方法。

在一个可选的实施例中,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的音频信号的处理方法。

可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的音频信号的处理方法。

本申请还提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上所述的音频信号的处理方法。

应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 音频信号处理方法、音频信号处理装置及存储介质
  • 音频信号处理装置、音频信号处理方法和存储介质
技术分类

06120113144757