掌桥专利:专业的专利平台
掌桥专利
首页

音频信号的处理方法、装置、音频设备及存储介质

文献发布时间:2024-04-18 20:01:23


音频信号的处理方法、装置、音频设备及存储介质

技术领域

本公开涉及编码技术领域,尤其涉及一种音频信号的处理方法、装置、音频设备及存储介质。

背景技术

随着多媒体技术的发展,沉浸式音频在多媒体通信、消费电子、虚拟现实、人机交互等领域得到了广泛应用,其中,沉浸式音频技术的关键技术之一是三维声音频编码。相对传统声音,三维声可以增加音频的空间感和方位感,再现现实世界中的声音,满足听众对声音高度还原、高度沉浸的体验需求。

发明内容

本公开提供一种音频信号的处理方法、装置、音频设备及存储介质。

第一方面,本公开实施例提供一种音频信号的处理方法,所述方法包括:

获取第一音频信号对应的多个待分配组合的第一参数,所述第一参数用于指示所述多个待分配组合的重要程度;

根据所述第一参数,在编码前基于可用比特为所述多个待分配组合分配编码比特。

第二方面,本公开实施例提供一种音频信号的处理装置,包括:

收发模块,用于获取第一音频信号对应的多个待分配组合的第一参数,所述第一参数用于指示所述多个待分配组合的重要程度;

处理模块,用于根据所述第一参数,在编码前基于可用比特为所述多个待分配组合分配编码比特。

第三方面,本公开实施例提供一种音频设备,包括:

一个或多个处理器;

其中,所述音频设备用于执行第一方面所述的方法。

第四方面,本公开实施例提供一种存储介质,所述存储介质存储有指令,其中,

当所述指令在通信设备上运行时,使得所述通信设备执行第一方面所述的方法。

附图说明

为了更清楚地说明本公开实施例中的技术方案,以下对实施例描述所需的附图进行介绍,以下附图仅仅是本公开的一些实施例,不对本公开的保护范围造成具体限制。

图1是根据本公开实施例提供的架构示意图;

图2a~2c是根据本公开实施例提供的方法的流程示意图;

图3a~3b是根据本公开实施例提供的方法的示意图;

图4a~4b是根据本公开实施例提供的处理流程示意图;

图4c是根据本公开实施例提供的音频信号分类示意图;

图5是根据本公开实施例示出的一种音频设备的结构示意图;

图6a是根据本公开实施例示出的音频设备的示意图;

图6b是根据本公开实施例示出的音频设备的示意图。

具体实施方式

本公开提供一种音频信号的处理方法、装置、音频设备及存储介质。

第一方面,本公开实施例提供一种音频信号的处理方法,方法包括:

获取第一音频信号对应的多个待分配组合的第一参数,所述第一参数用于指示所述多个待分配组合的重要程度;

根据所述第一参数,在编码前基于可用比特为所述多个待分配组合分配编码比特。

在上述实施例中,根据第一音频信号中不同待分配组合的第一参数,在编码前适应性的分配待分配组合的编码比特,从而根据待分配组合的重要性更好的指导编码比特的分配,便于提升信号音质,进而提升编码质量。

结合第一方面的实施例,在一些实施例中,方法还包括:

获取待编码的所述第一音频信号;

对所述第一音频信号预处理获得第二音频信号;

根据信号类型和/或信号的重要性对所述第二音频信号分组,获得重要程度不同的所述多个待分配组合,其中,所述第一音频信号对应的多个待分配组合为对所述第二音频信号分组所得的多个待分配组合。

在上述实施例中,对第一音频信号进行分组,在分组过程中参照信号类型和/或信号重要性,从而可以获得包含不同重要性待分配组合的第一音频信号,便于结合待分配组合的重要性进行比特分配。

结合第一方面的实施例,在一些实施例中,

利用所述编码比特对所述多个待分配组合进行编码获得编码参数;

将所述编码参数写入码流。

结合第一方面的实施例,在一些实施例中,方法还包括:

对于每个待分配组合,根据待分配组合中不同通道信号的重要性,为不同通道信号分配编码比特。

在上述实施例中,根据通道信号的重要性,更优的为待分配组合组内的通道信号进行比特分配,便于提升信号音质。

结合第一方面的实施例,在一些实施例中,第一音频信号为包括至少两种类型音频单元的混合信号,每个待分配组合对应一组音频单元,每组音频单元包括多个通道信号。

在上述实施例中,可以对混合信号进行统一的比特分配,以优化不同音频单元的比特分配方式,提升比特利用率,改善音频数据编码比特的浪费。

结合第一方面的实施例,在一些实施例中,第一音频信号为包括单一类型音频单元的非混合信号,每个待分配组合对应音频单元中的一个多声道信号,每个多声道信号包括多个通道信号。

在上述实施例中,可以对非混合信号进行统一的比特分配,以优化不同多声道信号的比特分配方式,提升比特利用率。

结合第一方面的实施例,在一些实施例中,根据第一参数,在编码前基于可用比特为多个待分配组合分配编码比特,包括:

根据第一参数,确定不同待分配组合对应的加权分配系数;

根据加权分配系数确定不同待分配组合对应的编码比特。

在上述实施例中,结合不同待分配组合的重要性,可依据第一参数计算对应的加权分配系数,从而更准确的进行编码比特分配。

结合第一方面的实施例,在一些实施例中,所述第一参数所指示的重要程度越高,所述第一参数对应的所述待分配组合被分配的编码比特越多。

结合第一方面的实施例,在一些实施例中,获取第一音频信号对应的多个待分配组合的第一参数,包括以下一项:

获取存储位置的参数文件,根据参数文件确定待分配组合对应的第一参数,参数文件包括多个待分配组合与多个第一参数的对应关系;

调用程序获取待分配组合对应的第一参数,程序通过全局变量或局部变量方式存储待分配组合与第一参数的对应关系。

在上述实施例中,可通过不同方式获取第一参数,有利于提升获取第一参数的效率。

结合第一方面的实施例,在一些实施例中,获取第一音频信号对应的多个待分配组合的第一参数,包括以下一项:

获取用户配置的参数文件,根据参数文件确定待分配组合对应的第一参数,参数文件包括多个待分配组合与多个第一参数的对应关系;

根据用户预先配置的命令行,确定命令行对应的第一参数。

在上述实施例中,结合用户的配置或选择,通过不同方式获取第一参数,既可以提升获取第一参数的效率,也可以使第一参数更贴近用户的体验与需求。

结合第一方面的实施例,在一些实施例中,方法还包括:

根据不同待分配组合的特征信息,确定待分配组合与第一参数的对应关系。

在上述实施例中,根据待分配组合的特征信息,从而确定对应关系,便于指导待分配组合的重要性。

结合第一方面的实施例,在一些实施例中,特征信息包括以下至少一项:

元数据;

编码方式;

信号内容;

用户配置信息。

在上述实施例中,结合不同维度下确定合适的第一参数,便于合理确定待分配组合的重要性。

结合第一方面的实施例,在一些实施例中,根据不同待分配组合的特征信息确定对应的第一参数,包括:

根据元数据对应的角度信息,将设定空间划分为多个重要性不同的声道区域;其中,所述设定空间包括水平空间和/或垂直空间;

根据待分配组合所在的声道区域,确定待分配组合对应的第一参数。

在上述实施例中,根据重要性不同的区域,为位于不同区域的待分配组合确定合适的第一参数,以确定其重要性。

结合第一方面的实施例,在一些实施例中,角度信息包括元数据中静态元数据对应的第一角度信息,以及元数据中动态元数据对应的第二角度信息;

其中,第一角度信息包括信号采集或回放位置的方位角或俯仰角,第二角度信息包括信号渲染位置的方位角或俯仰角。

在上述实施例中,结合元数据的不同类型,调整划分声道区域的角度信息,以便合理的区分声道区域。不同类型的元数据,可采用相应的角度信息,以提升元数据对应声道区域划分的合理性。

结合第一方面的实施例,在一些实施例中,所述信号内容的重要性与以下至少一项呈正相关:

所述信号内容中元数据的信号重要性;

所述元数据的信号优先级;

所述元数据的声道重要性;

所述元数据的声道优先级。

结合第一方面的实施例,在一些实施例中,待分配组合对应的编码方式不同,第一参数不同;其中,使用参数化编码方式对应的重要性高于未使用参数化编码方式对应的重要性。

在上述实施例中,示意了编码方式与第一参数的对应关系,便于结合不同编码方式确定对应待分配组合的重要性。

结合第一方面的实施例,在一些实施例中,在使用参数化编码方式中,编码输入声道与编码传输声道的比值越大,或者解码输出通道与编码传输声道的比值越大,对应的重要性越高。

在上述实施例中,示意了参数化编码方式中区分或确定待分配组合重要性的方式,从而可以合理确定对应的第一参数。

结合第一方面的实施例,在一些实施例中,第一参数为以下至少一项:

指示重要性程度的数值;

重要性等级。

在上述实施例中,第一参数可以采用多种形式表征,在应用过程中可以转换为数值形式便于计算编码比特。

结合第一方面的实施例,在一些实施例中,第一参数的数值越大或等级越高,对应的待分配组合的重要程度越高。

在上述实施例中,第一参数与待分配的重要性为正相关,便于结合第一参数直观的确定对应的待分配组合的重要性。

结合第一方面的实施例,在一些实施例中,所述第一音频信号的类型为以下至少一种:

多声道信号;

对象信号;

声场信号;

参数化编码信号;

立体声信号。

第二方面,本公开实施例提供一种音频信号的处理装置,包括:

收发模块,用于获取第一音频信号对应的多个待分配组合的第一参数,所述第一参数用于指示所述多个待分配组合的重要程度

处理模块,用于根据所述第一参数,在编码前基于可用比特为所述多个待分配组合分配编码比特。

第三方面,本公开实施例提供一种音频设备,包括:

一个或多个处理器;

其中,所述音频设备用于执行第一方面所述的方法。

第四方面,本公开实施例提供一种存储介质,所述存储介质存储有指令,其中,

当所述指令在通信设备上运行时,使得所述通信设备执行第一方面所述的方法。

本公开实施例并非穷举,仅为部分实施例的示意,不作为对本公开保护范围的具体限制。在不矛盾的情况下,某一实施例中的每个步骤均可以作为独立实施例来实施,且各步骤之间可以任意组合,例如,在某一实施例中去除部分步骤后的方案也可以作为独立实施例来实施,且在某一实施例中各步骤的顺序可以任意交换,另外,某一实施例中的可选实现方式可以任意组合;此外,各实施例之间可以任意组合,例如,不同实施例的部分或全部步骤可以任意组合,某一实施例可以与其他实施例的可选实现方式任意组合。

在各本公开实施例中,如果没有特殊说明以及逻辑冲突,各实施例之间的术语和/或描述具有一致性,且可以互相引用,不同实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

本公开实施例中所使用的术语只是为了描述特定实施例的目的,而并非作为对本公开的限制。

在本公开实施例中,除非另有说明,以单数形式表示的元素,如“一个”、“一种”、“该”、“上述”、“所述”、“前述”、“这一”等,可以表示“一个且只有一个”,也可以表示“一个或多个”、“至少一个”等。例如,在翻译中使用如英语中的“a”、“an”、“the”等冠词(article)的情况下,冠词之后的名词可以理解为单数表达形式,也可以理解为复数表达形式。

在本公开实施例中,“多个”是指两个或两个以上。

在一些实施例中,“至少一者(至少一项、至少一个)(at least one of)”、“一个或多个(one or more)”、“多个(a plurality of)”、“多个(multiple)等术语可以相互替换。

在一些实施例中,“A、B中的至少一者”、“A和/或B”、“在一情况下A,在另一情况下B”、“响应于一情况A,响应于另一情况B”等记载方式,根据情况可以包括以下技术方案:在一些实施例中A(与B无关地执行A);在一些实施例中B(与A无关地执行B);在一些实施例中从A和B中选择执行(A和B被选择性执行);在一些实施例中A和B(A和B都被执行)。当有A、B、C等更多分支时也类似上述。

在一些实施例中,“A或B”等记载方式,根据情况可以包括以下技术方案:在一些实施例中A(与B无关地执行A);在一些实施例中B(与A无关地执行B);在一些实施例中从A和B中选择执行(A和B被选择性执行)。当有A、B、C等更多分支时也类似上述。

本公开实施例中的“第一”、“第二”等前缀词,仅仅为了区分不同的描述对象,不对描述对象的位置、顺序、优先级、数量或内容等构成限制,对描述对象的陈述参见权利要求或实施例中上下文的描述,不应因为使用前缀词而构成多余的限制。例如,描述对象为“字段”,则“第一字段”和“第二字段”中“字段”之前的序数词并不限制“字段”之间的位置或顺序,“第一”和“第二”并不限制其修饰的“字段”是否在同一个消息中,也不限制“第一字段”和“第二字段”的先后顺序。再如,描述对象为“等级”,则“第一等级”和“第二等级”中“等级”之前的序数词并不限制“等级”之间的优先级。再如,描述对象的数量并不受序数词的限制,可以是一个或者多个,以“第一装置”为例,其中“装置”的数量可以是一个或者多个。此外,不同前缀词修饰的对象可以相同或不同,例如,描述对象为“装置”,则“第一装置”和“第二装置”可以是相同的装置或者不同的装置,其类型可以相同或不同;再如,描述对象为“信息”,则“第一信息”和“第二信息”可以是相同的信息或者不同的信息,其内容可以相同或不同。

在一些实施例中,“包括A”、“包含A”、“用于指示A”、“携带A”,可以解释为直接携带A,也可以解释为间接指示A。

在一些实施例中,“响应于……”、“响应于确定……”、“在……的情况下”、“在……时”、“当……时”、“若……”、“如果……”等术语可以相互替换。

在一些实施例中,“大于”、“大于或等于”、“不小于”、“多于”、“多于或等于”、“不少于”、“高于”、“高于或等于”、“不低于”、“以上”等术语可以相互替换,“小于”、“小于或等于”、“不大于”、“少于”、“少于或等于”、“不多于”、“低于”、“低于或等于”、“不高于”、“以下”等术语可以相互替换。

在一些实施例中,装置和设备可以解释为实体的、也可以解释为虚拟的,其名称不限定于实施例中所记载的名称,在一些情况下也可以被理解为“设备(equipment)”、“设备(device)”、“电路”、“网元”、“节点”、“功能”、“单元”、“部件(section)”、“系统”、“网络”、“芯片”、“芯片系统”、“实体”、“主体”等。

在一些实施例中,获取数据、信息等可以遵照所在地国家的法律法规。

在一些实施例中,可以在得到用户同意后获取数据、信息等。

此外,本公开实施例的表格中的每一元素、每一行、或每一列均可以作为独立实施例来实施,任意元素、任意行、任意列的组合也可以作为独立实施例来实施。

图1是根据本公开实施例提供的架构示意图;如图1所示,系统100可以包括编码端设备101和解码端设备102,其中,音频设备101可以是信号编码端设备,不限定其具体结构,如其可以是终端产品、音响产品等。

本公开实施例中,对于输入至编码器的信号,编码器可以对不同类型的音频信号进行独立地编码和码流复用,用户预先设置每种类型信号的编码比特率,保证各种信号编码比特率之和等于总比特率。一方面,该方式不考虑不同信号之间的比特分配,比特率离散而造成编码比特利用率低,例如总比特率往往和网络链路相关,各类信号的编码比特率又是离散的,会经常出现实际编码比特率之和小于总比特率的情况,导致编码比特利用率低下。另一方面,该方式中由于各类信号的编码比特率是离散的,无法适用用户为不同信号匹配不同比特率的需求。此外,该方式中由于各类信号独立传输,帧同步字、循环冗余校验码(cyclic redundancy check,CRC)等通用的帧头信息需要传输多次,相比于复用传输浪费了音频数据的编码比特。

本公开实施例中,对于输入至编码器的信号,编码器还可以对不同类型的音频信号采用特定算法统一执行比特分配,该特定算法适用于某种类型的音频信号。该方式中,由于不同类型信号之间的特征差异较大,如不同类型信号的通道间的相关程度不同,再如不同类型信号的幅度差异大,因此采用适用于某种类型信号的特定算法,无法适用于全部信号,会导致信号之间相互影响,影响最终的音频质量。此外,该方式的比特分配都是按照某种算法策略自动实现的,仍无法实现用户对某类信号特殊的比特分配需求。

本公开实施例提供一种音频信号的处理方法,以期提供一种提升比特利用率并可以适应用户需求的比特分配方法。

图2a是根据本公开实施例示出的一种音频信号的处理方法的流程示意图。如图2a所示,本公开实施例涉及一种音频信号的处理方法,该方法由编码端设备执行,上述方法包括:

步骤S2101,获取待编码的第一音频信号。

在一些实施例中,编码端设备可以是具备音频编码功能的音频设备或终端设备。

在一些实施例中,第一音频信号可以是原始信号或编码端设备的输入信号。

在一些实施例中,第一音频信号既可以是混合信号,也可以是非混合信号。

在一示例中,混合信号可以是包括至少两种类型音频单元的音频信号。

可选地,混合信号中,音频信号的类型或者说音频单元的类型可以包括以下的至少两种:

基于声道的音频单元(可简称为声道信号);

基于对象的音频单元(可简称为对象信号);

基于声场的音频单元(可简称为声场信号);

立体声音频信号(可简称为立体声信号);

经过编码的音频单元(可简称编码信号);

其中,基于声道的音频单元是一组相互关联的声道,常见的有5.1声道、7.1声道、5.1.4声道、7.1.4声道等,每一种声道格式对应一种扬声器布局,在对应的扬声器布局下可以获得最佳的回放效果。例如,基于声道的音频单元可以是音频通道个数大于2的多声道音频信号。

其中,基于对象的音频单元是一系列单声道音频元素和对应元数据的集合,元数据表示对象的位置、强度或大小等信息。在回放时根据元数据信息,将对象映射到一个或多个扬声器或者双耳化渲染到耳机播放,以达到想要的空间音频效果。

其中,基于声场的音频单元是一种定义在球体表面上的3D声场建模格式。其原理是声音作为压力波进行传递,对于给定时间的声音场景,每个点都需要借助数个压力函数得以体现。倘若获知该空间中每个点的压力值,便可对空间中的声音进行重构。空间中每个点的压力和其邻近的点存在一定的关系,为了使基于声场的音频制作方式的优势得以充分发挥,需要对系数进行准确获取,提高声场空间系数的编码质量。其中,采集到的声场信号称为高保真度立体环绕声(higher order ambisonics,HOA)。HOA系统性能及HOA信号数量随着HOA阶数增加而增加。或者,声场信号还可以包括一阶高保真度立体环绕声(firstorder ambisonics,FOA)。

可选地,基于声道的音频单元、基于对象的音频单元和基于声场的音频单元可认为是音频单元的三种基本信号类型。

其中,经过编码的音频单元可包括基于辅助元数据的空间音频(metadata-assisted spatial audio,MASA)或针对多声道下混产生的下混通道音频,经过编码的音频单元有利于在一些应用场合实现传输方便或解码方便。

例如,混合信号包括经过编码的音频单元与上述三种基本信号类型中任一种两两组合,或者,包括经过编码的音频单元与上述三种基本信号类型中任两种三三组合得到的信号。

可选地,混合信号可以更好地呈现音频沉浸感,比如回放足球比赛现场的声音效果,通过多声道类型或HOA声场类型采集获得主队现场氛围、客队现场氛围,通过对象类型采集获得主持人信号、主队解说员信号、客队解说员信号或多种语种信号,混合信号更清晰更真实地重现了比赛现场的沉浸感。

在另一示例中,非混合信号可以是包括单一类型音频单元的音频信号。例如,包括上述类型中任一类型音频单元。

步骤S2102,对第一音频信号预处理获得第二音频信号。

在一些实施例中,信号预处理包括但不限于以下至少一种操作:高通滤波、暂态分析,时频变换,时域噪声整形,频域噪声整形,频带扩展。

可选地,预处理后的第一音频信号称为第二音频信号,即第二音频信号是对第一音频信号预处理后获得的。可以理解的,第二音频信号是对第一音频信号处理所得的信号,命名仅为实现区分,二者的相关特征可以相同。例如,第一音频信号的第一参数,也可以理解为第二音频信号的第一参数。再例如,第一音频信号为混合信号,第二音频信号为经过预处理后的混合信号。

在一些实施例中,不限定步骤S2101与S2102的执行顺序。例如可以对经过预处理后的第一音频信号进行分组,或者在对第一音频信号分组后再进行预处理。

可选地,信号类型可参见步骤S2101中列举的不同类型。

步骤S2103,根据信号类型和/或信号的重要性对第二音频信号分组,获得重要程度不同的所述多个待分配组合。

在一些实施例中,第一音频信号对应的多个待分配组合为对所述第二音频信号分组所得的多个待分配组合。

可选地,信号的重要性可通过相应的参数表征,例如通过第一参数表征不同类型信号、或不同类型信号中的音频单元的重要程度。再例如,还可以通过第一参数指示分组后待分配组合的重要程度。

可选地,可分别配置信号类型与第一参数的对应关系或映射,音频单元与第一参数的对应关系或映射,待分配组合与第一参数的对应关系或映射,从而根据相应的映射可以获知不同类型信号、不同音频单元或者不同待分配组合的重要性。

可选地,第一参数为以下至少一项:

指示重要性程度的数值;

重要性等级。

其中,数值可以是浮点数值或者整型数值。数值可以在一定范围内,如在范围[a,b],其中a

其中,重要性等级可以包括多个等级,例如包括高、中、低三个等级。

可选地,对于等级类型的信号重要性,在和比特分配系数加权计算前需要转换成数值类型。

可选地,第一参数的数值越大或等级越高,对应的待分配组合的重要程度越高。

在一些实施例中,第一音频信号为包括至少两种类型音频单元的混合信号,每个待分配组合对应一组音频单元,每组音频单元包括多个通道信号。

可选地,若第一音频信号为混合信号,对混合信号分组后获得多组音频单元,每个待分配组合即一组音频单元,从而多个待分配组合分别对应于多组音频单元。

可选地,每组音频单元的类型可以不同,即将同一类型的音频单元分为一组处理。如基于声道的音频单元为一组,基于对象的音频单元为一组,基于声场的音频单元为一组。在一示例中,足球比赛现场的通过多声道录制的多声道信号在同组,现场通过HOA录制的声场信号在同组,现场的各种单麦克风对象录制的声音(包括主持人、嘉宾、评论员等)在同组。

可选地,每组音频单元的重要性也不同,在分组中可按照重要性进行分组,因此可以得到重要性不同的音频单元。

在一些实施例中,第一音频信号为包括单一类型音频单元的非混合信号,每个待分配组合对应音频单元中的一个多声道信号,每个多声道信号包括多个通道信号。

可选地,若第一音频信号为非混合信号,对非混合信号分组后可获得多个多声道信号,每个待分配组合即一个多声道信号,从而多个待分配组合分别对应于音频单元中的多个多声道信号。

可选地,多声道信号可以包括多个通道信号,例如,一多声道信号包括12个声道,每个声道的信号可认为是一个通道信号。

在一些实施例中,编码器待传输通道数量大于2,分组的输出可以是2组或以上的多组信号。若组间信号重要性相同,可以省略此步骤。

步骤S2104,获取第一音频信号对应的多个待分配组合的第一参数。

在一些实施例中,基于对第一音频信号预处理后的第二音频信号,可分组获得多个待分配组合,第一参数用于指示对应的多个待分配组合的重要性。

可选地,若第一音频信号为混合信号,每个待分配组合可以是指一组音频单元,该组音频单元可以是同种类型的信号。不同待分配组合或者说不同组音频单元之间的重要性可以不同。

可选地,若第一音频信号为非混合信号,每个待分配组合可以是指一个多声道信号。不同待分配组合或者说不同多声道信号之间的重要性可以不同。

在一方面实施例中,步骤S2104可以是包括以下步骤S2104-11和S2104-12中的一个,具体的:

步骤S2104-11,获取存储位置的参数文件,根据参数文件确定待分配组合对应的第一参数,参数文件包括多个待分配组合与多个第一参数的对应关系。

可选地,参数文件还可以称为配置信息、配置文件,对应关系还可以称为映射关系或映射等。在参数文件内记载待分配组合与第一参数的映射关系,如记录各种信号类型信号重要性的数值。因此在获取参数文件后,可以查询或确定参数文件中记载的任一待分配组合对应的第一参数。

步骤S2104-12,调用程序获取待分配组合对应的第一参数,程序通过全局变量或局部变量方式存储待分配组合与第一参数的映射或对应关系。

可选地,第一参数保存在程序代码或程序数据内,映射数据可以全局变量或局部变量方式存储,在编码器运行时使用第一参数时映射被调用。

可选地,全局变量的存储位置可以是存储器(random access memory,RAM),局部变量的存储位置可以是只读内存(read-only memory,ROM)

在另一方面实施例中,步骤S2104可以是包括以下步骤S2104-21和S2104-22中的一个,具体的:

步骤S2104-21,获取用户配置的参数文件,根据参数文件确定待分配组合对应的第一参数,参数文件包括多个待分配组合与多个第一参数的对应关系。

可选地,参数文件的实施方式可以参见步骤S2103-11的相关描述,此处不再赘述。

可选地,用户可以在编码前根据所需的信号重要性配置参数文件。

可选地,用户在启动编码前可以修改参数文件或者加载默认的用户参数文件,在编码过程中用户配置的参数文件被载入,信号重要性数据被提取,在比特分配时使用。

步骤S2104-22,根据用户预先配置的命令行,确定命令行对应的第一参数。

可选地,用户在编码前配置命令行,选择第一参数;在编码器运行初始化过程中为第一参数赋值。

可选地,用户可配置多套第一参数,指定或选择本次使用其中一套。

该方面的实施例中,可结合用户的需求配置或选择相应的第一参数,便于更贴近用户的需求。

在一些实施例中,确定不同待分配组合与第一参数的映射或对应关系的方式,或者说确定不同待分配组合重要性的方式可以参见下述图2c对应的实施例,此处不再赘述。

步骤S2105,根据第一参数,在编码前基于可用比特为多个待分配组合分配编码比特。

在一些实施例中,结合前述实施例的描述,多个待分配组合可以是混合信号场景下的多组音频单元,也可以是非混合信号场景下的多个多声道信号。对于分组后的混合信号或非混合信号,可以为分组后形成的多个待分配组合进行比特分配,也即进行组间比特分配。

可选地,组间信号的第一参数即重要性作用于组间比特分配,每个组包括至少一个声道。

可选地,以混合信号为例,定义混合信号的总比特率为bitrate,编码采样率为sampleRate,帧采样点数为frameLength,已用比特数(包括帧头信息和编码边信息)为usedBits,帧级可用总比特数为bits_avail。

其中,帧级可用总比特数按照以下公式计算得到:

bits_avail=bitrate*frameLength/sampleRate–usedBits。

在一些实施例中,步骤S2105可以是包括以下步骤S2105-1~S2105-2,具体的:

步骤S2105-1,根据第一参数,确定不同待分配组合对应的加权分配系数。

可选地,以混合信号为例,假设不同待分配组合对应不同信号类型。如待分配组合1为声道信号(即基于声道的音频单元),待分配组合2为对象信号(即基于对象的音频单元),待分配组合3为声场信号(即基于声场的音频单元)。从静态元数据解析得到待分配组合1的通道数为chNumMC,待分配组合2的通道数为chNumOBJ,待分配组合3的通道数为chNumHOA。

可选地,基于步骤S2104获取的第一参数,其中,待分配组合1的第一参数为ratio_type1,待分配组合2的第一参数为ratio_type2,待分配组合3的第一参数为ratio_type3,设第一参数为浮点型,在范围[a,b]中。

可选地,进一步可获取不同类型信号的加权系数,如待分配组合1的加权系数MC1为ratio_MC,待分配组合2的加权系数OBJ1为ratio_OBJ,待分配组合3的加权系数HOA1为ratio_HOA。

该步骤中,根据第一参数确定加权分配系数例如包括:

待分配组合1的加权分配系数ratio_normalized_MC为:

ratio_normalized_MC=chNumMC*ratio_MC/(chNumMC*ratio_MC+chNumOBJ*ratio_OBJ+chNumHOA*ratio_HOA);

待分配组合2的加权分配系数ratio_normalized_OBJ为:

ratio_normalized_OBJ=chNumOBJ*ratio_OBJ/(chNumMC*ratio_MC+chNumOBJ*ratio_OBJ+chNumHOA*ratio_HOA);

待分配组合3的加权分配系数ratio_normalized_HOA为:

ratio_normalized_HOA=chNumHOA*ratio_HOA/(chNumMC*ratio_MC+chNumOBJ*ratio_OBJ+chNumHOA*ratio_HOA);

可选地,加权分配系数为经过归一化后的系数,用来计算组间信号和组内信号的编码比特数。加权分配系数之和为1,从而基于加权分配系数进行的计算不会产生计算溢出。

步骤S2105-2,根据加权分配系数确定不同待分配组合对应的编码比特。

可选地,基于步骤S2105-1的示例,可确定不同待分配组合之间的编码比特分配:

待分配组合1即组间多声道信号的可用比特数bits_avail_MC为:

bits_avail_MC=bits_avail*ratio_normalized_MC;

待分配组合2即组间对象信号的可用比特数bits_avail_OBJ为:

bits_avail_OBJ=bits_avail*ratio_normalized_OBJ;

待分配组合3即组间声场信号的可用比特数bits_avail_HOA为:

bits_avail_HOA=bits_avail*ratio_normalized_HOA。

在一些实施例中,不同待分配组合被分配比特之和等于总比特率。

在一些实施例中,第一参数不同会影响分配的比特数量,即信号重要性会改变一个或者多个待分配组合的比特分配比例因子,从而影响到一个或者多个待分配组合的比特数。例如,若待分配组合1的信号重要性大于待分配组合2的信号重要性,则待分配组合1分配到的比特数大于等于待分配组合2分配到的比特数。

在一些实施例中,第一参数所指示的重要程度越高,第一参数对应的待分配组合被分配的编码比特越多。

步骤S2106,利用编码比特对多个待分配组合进行编码获得编码参数。

在一些实施例中,可采用不同编码方法对不同待分配组合进行编码。如结合图4a或4b所示,可采用量化熵编码的方式获得编码参数。

步骤S2107,将编码参数写入码流。

在一些实施例中,结合图4a或4b所示,可基于码流复用将编码参数写入码流。

可选地,在码流复用后,可向解码端设备传输码流。

在一些实施例中,信息等的名称不限定于实施例中所记载的名称,“信息(information)”、“消息(message)”、“信号(signal)”、“信令(signaling)”、“报告(report)”、“配置(configuration)”、“指示(indication)”、“指令(instruction)”、“命令(command)”、“信道”、“参数(parameter)”、“域”、“字段”等术语可以相互替换。

在一些实施例中,“获取”“获得”、“得到”、“接收”、“传输”、“双向传输”、“发送和/或接收”可以相互替换,其可以解释为从其他主体接收,从协议中获取,从高层获取,自身处理得到、自主实现等多种含义。

在一些实施例中,“特定(certain)”、“预定(preseted)”、“预设”、“设定”、“指示(indicated)”、“某一”、“任意”、“第一”等术语可以相互替换,“特定A”、“预定A”、“预设A”、“设定A”、“指示A”、“某一A”、“任意A”、“第一A”可以解释为在协议等中预先规定的A,也可以解释为通过设定、配置、或指示等得到的A,也可以解释为特定A、某一A、任意A、或第一A等,但不限于此。

本公开实施例所涉及的方法可以包括步骤S2101~步骤S2107中的至少一者。例如,步骤S2103~S2104可以作为独立实施例来实施,S2102~S2104可以作为独立实施例来实施,但不限于此。

在一些实施例中,步骤S2101、S2102中的至少一者是可选地,在不同实施例中可以对这些步骤中的一个或多个步骤进行省略或替代。

在一些实施例中,可参见图2a所对应的说明书之前或之后记载的其他可选实现方式。

图2b是根据本公开实施例示出的一种音频信号的处理方法的流程示意图。如图2b所示,本公开实施例涉及一种音频信号的处理方法,该方法由编码端设备执行,上述方法包括:

步骤S2201,获取待编码的第一音频信号。

可选地,步骤S2201的可选实施方式可以参见图2a中步骤S2101及图2a所涉及的实施例中其他关联部分,此处不再赘述。

步骤S2202,对第一音频信号预处理获得第二音频信号。

可选地,步骤S2202的可选实施方式可以参见图2a中步骤S2102及图2a所涉及的实施例中其他关联部分,此处不再赘述。

步骤S2203,根据信号类型和/或信号的重要性对第二音频信号分组,获得重要程度不同的所述多个待分配组合。

可选地,步骤S2203的可选实施方式可以参见图2a中步骤S2103及图2a所涉及的实施例中其他关联部分,此处不再赘述。

步骤S2204,对于每个待分配组合,根据待分配组合中不同通道信号的重要性,为不同通道信号分配编码比特。

在一些实施例中,待分配组合可以是混合信号或非混合信号分组后的待分配组合,本实施例中对分组后的组内信号进行比特分配。

可选地,组内信号重要性作用于组内比特分配,组内信号的基本单元可以是声道。

可选地,对混合信号,待分配组合可以是一组音频单元,如一种类型的音频单元。

可选地,对非混合信号,待分配组合可以是一个多声道信号。

在一些实施例中,待分配组合内通道信号重要性的获取可参照步骤S2103的相关实施方式,即可预先配置或定义通道信号与第一参数的映射关系,通过获取或调用获知所需通道信号对应的第一参数即重要性。

在一示例中,假设非混合信号或者混合信号的待分配组合内包括多声道信号,即组内信号为多声道信号。多声道信号包含12个声道(每个声道内的信号可理解为一个通道信号),其中7个水平声道,1个低频效果声道,4个天空声道。

该示例中,假设组内信号的总可用比特数为bit_avail,按照能量/幅度算法对各个声道(即对各个通道信号)进行比特分配,设各个声道的能量或幅度为e[i]。基于获取的第一参数或重要性知:水平声道(或称水平通道信号)的第一参数为1,低频效果声道(或称低频效果通道信号)的第一参数为0.3,天空声道(或称天空通道信号)的第一参数为0.8。

可选地,信号重要性的原则可以参见下述图2c对应的实施例,如原则可以包括:水平声道的信号重要性高于天空声道的信号重要性。

该示例中,获知不同通道信号重要性后,确定归一化的加权分配系数,该方式可以参考步骤S2104-1的描述。可选地,不同通道信号的加权分配系数参照如下方式获得:

水平声道的归一化系数ratio_horizon为:ratio_horizon=1/(1*7+0.3+4*0.8);

低频效果声道的归一化系数ratio_lfe为:ratio_lfe=0.3/(1*7+0.3+4*0.8);

天空声道的归一化系数ratio_top为:ratio_top=0.8/(1*7+0.3+4*0.8);

当i为水平声道,加权分配系数ratio[i]=ratio_horizon;当i为低频效果声道,加权分配系数ratio[i]=ratio_lfe;当i为天空声道,加权分配系数ratio[i]=ratio_top。

该示例中,结合上述重要性及加权分配系数,进行编码比特的分配:

基于某种特定的比特分配算法,如以能量/幅度算法对各个声道进行比特分配为例,各个声道(即各个通道信号)的比特分配数为bits_avail[i],计算过程如下:

e_weight_total=∑e[i]*ratio[i];

bits_avail[i]=bit_avail*e[i]*ratio[i]/e_weight_total;

其中,i表示不同通道信号时,ratio[i]的取值不同,∑e[i]表示将不同通道信号的能量/幅度求和,e_weight_total表示总能量/幅度。

本公开实施例所涉及的方法可以包括步骤S2201~步骤S2204中的至少一者。例如,步骤S2204可以作为独立实施例来实施,S2202~S2204可以作为独立实施例来实施,但不限于此。

在一些实施例中,步骤S2201、S2202中的至少一者是可选地,在不同实施例中可以对这些步骤中的一个或多个步骤进行省略或替代。

在一些实施例中,可参见图2b所对应的说明书之前或之后记载的其他可选实现方式。

在一些实施例中,图2a与图2b的实施方式可以结合,如既进行组间比特分配,也进行组内比特分配。

在一些实施例中,在对每个待分配组合组内比特分配之后,该方法还可以包括图2a中步骤S2105~S2106。

图2c是根据本公开实施例示出的一种音频信号的处理方法的流程示意图。如图2c所示,本公开实施例涉及一种音频信号的处理方法,该方法由编码端设备执行,上述方法包括:

步骤S2301,根据不同待分配组合的特征信息,确定待分配组合与第一参数的对应关系。

可选地,对应关系可以是包括前述实施例的映射或参数文件。

在一些实施例中,图2c的实施例可以在执行图2a或图2b的实施例之前执行或确定。

在一些实施例中,特征信息包括以下至少一项:

元数据;

编码方式;

信号内容;

用户配置信息。

可选地,元数据可以是一种信号的基本单元,或者是对一种信号划分后的单元,元数据还可以对通道信号进行分类。例如,对于对象信号而言,一个对象声道的信号或数据可作为一个元数据。再例如,对于多声道信号而言,多个声道的信号或数据可作为一个元数据。

在第一方面实施例中,若特征信息为元数据,与第一参数即重要性相关的元数据可以包括:静态元数据和动态元数据。其中,静态元数据指在整个音频回放过程中不发生改变的元数据,比如多声道信号回放时的各个声道的位置信息。动态元数据指在整个音频回放过程中可能发生改变的元数据,比如对象信号的渲染位置。

可选地,静态元数据可以包括多声道信号的采集或回放信息,如包括信号采集或回放位置的方位角、俯仰角等。

可选地,动态元数据可以包括对象信号的渲染位置的方位角、俯仰角等。

在一示例中,步骤S2301可以是根据元数据确定对应关系,如包括以下步骤S2301-1~S2301-2,具体的:

步骤S2301-1,根据元数据对应的角度信息,将设定空间划分为多个重要性不同的声道区域。

可选地,设定空间可以是水平空间和/或垂直空间。但不限于此,例如设定空间还可以是三维或多维空间划分方式中的任一空间。

可选地,角度信息包括元数据中静态元数据对应的第一角度信息,以及元数据中动态元数据对应的第二角度信息。其中,第一角度信息包括信号采集或回放位置的方位角或俯仰角,第二角度信息包括信号渲染位置的方位角或俯仰角。

例如,可以根据元数据采集、回放或渲染信息的方位角和俯仰角将水平空间位置划分为重要性不同的两个或者多个区域,位于不同回放位置的声道的信号重要性不同。

再例如,可以根据元数据采集、回放或渲染信息的方位角和俯仰角将垂直空间位置划分为重要性不同的两个或者多个区域,位于不同回放位置的声道的信号重要性不同。

步骤S2301-2,根据待分配组合所在的声道区域,确定待分配组合对应的第一参数。

可选地,位于重要性高的声道区域时,对应的第一参数数值大或等级高。

在第二方面实施例中,若特征信息为编码方式,不同编码方式的重要性不同,同种编码方式中也会存在重要性差异。其中,编码方式包括使用参数化的编码方式和未使用参数化编码方式。

可选地,参数化的编码方式或使用参数化的编码方式是指编码传输声道数小于实际信号声道数的编码方法。比如可以包括:参数立体声、MASA等。

可选地,待分配组合对应的编码方式不同,第一参数不同;其中,使用参数化编码方式对应的重要性高于未使用参数化编码方式对应的重要性。

例如,使用参数化编码方法传输声道的重要性高于未使用参数化编码方法传输声道的重要性。

可选地,在使用参数化编码方式中,编码输入声道与编码传输声道的比值越大,对应的重要性越高;或者,解码输出通道与编码传输声道的比值越大,对应的重要性越高,对应解码输出通道灵活配置的编码方法。

在第三方面实施例中,若特征信息为信号内容,信号内容的重要性和元数据中的信号重要性或优先级,或者声道重要性或优先级有关。可选地,信号内容的重要性与以下至少一项呈正相关:

信号内容中元数据的信号重要性;

元数据的信号优先级;

元数据的声道重要性;

元数据的声道优先级。

其中,信号或声道的重要性或优先级越高,信号内容的重要性越高。

在第四方面实施例中,若特征信息为用户配置信息,重要性与用户在编码前进行的配置相关,即与用户的需求或偏向相关。用户可以在编码前确定信号重要性,如前述实施例中配置参数文件或配置命令行。

可选地,配置信息可以存放在序列头配置信息或者帧头配置信息中。序列头配置信息是作用到一个音频序列数据或者一个音频文件数据的控制信息。帧头配置信息是作用到某帧音频数据的控制信息。

在一些实施例中,重要性越高,对应第一参数的数值越大或者等级越高。

本公开实施例根据元数据信息编码配置信息、用户配置信息和编码方法中的至少一种,采用上述实施例的规则或方式得到信号重要性的对应关系。

在一些实施例中,可参见图2c所对应的说明书之前或之后记载的其他可选实现方式。

图3a是根据本公开实施例示出的一种音频信号的处理方法的流程示意图。如图3a所示,本公开实施例涉及一种音频信号的处理方法,该方法由编码端设备执行,上述方法包括:

步骤S3101,获取第一音频信号对应的多个待分配组合的第一参数。

可选地,第一参数用于指示多个待分配组合的重要程度。

可选地,步骤S3101的可选实施方式可以参见图2a中步骤S2104及图2a所涉及的实施例中其他关联部分,此处不再赘述。

在一些实施例中,第一参数为以下至少一项:

指示重要性程度的数值;

重要性等级。

可选地,第一参数的数值越大或等级越高,对应的待分配组合的重要程度越高。

在一些实施例中,第一音频信号为包括至少两种类型音频单元的混合信号,每个待分配组合对应一组音频单元,每组音频单元包括多个通道信号。

在一些实施例中,第一音频信号为包括单一类型音频单元的非混合信号,每个待分配组合对应音频单元中的一个多声道信号,每个多声道信号包括多个通道信号。

在一些实施例中,第一音频信号的类型为以下至少一种:

多声道信号;

对象信号;

声场信号;

参数化编码信号;

立体声信号。

在一些实施例中,在步骤S3101之前可按照步骤S2103的方式进行分组。如根据信号类型和/或信号的重要性对第一音频信号进行分组,获得重要性不同的多个待分配组合。

在一些实施例中,还可以获取每个待分配组合内不同通道信号的重要性。

在一些实施例中,获取第一音频信号中待分配组合的第一参数,可以包括以下一项:

获取存储位置的参数文件,根据参数文件确定待分配组合对应的第一参数,参数文件包括多个待分配组合与多个第一参数的对应关系;

调用程序获取待分配组合对应的第一参数,程序通过全局变量或局部变量方式存储待分配组合与第一参数的对应关系。

在一些实施例中,获取第一音频信号中待分配组合的第一参数,可以包括以下一项:

获取用户配置的参数文件,根据参数文件确定待分配组合对应的第一参数,参数文件包括多个待分配组合与多个第一参数的对应关系;

根据用户预先配置的命令行,确定命令行对应的第一参数。

在一些实施例中,还可以预先根据不同待分配组合的特征信息,确定待分配组合与第一参数的对应关系,可参见图2c实施例的描述。

步骤S3102,根据第一参数,在编码前基于可用比特为多个待分配组合分配编码比特。

可选地,步骤S3102的可选实施方式可以参见图2a中步骤S2105及图2a所涉及的实施例中其他关联部分,此处不再赘述。

在一些实施例中,对分组后的不同待分配组合分配比特。

在一些实施例中,在每个待分配组合内,还可以根据待分配组合中不同通道信号的重要性,为不同通道信号分配编码比特。可参见图2b实施例的相关描述。

在一些实施例中,根据第一参数,在编码前为不同待分配组合分配编码比特,可以包括:根据第一参数,确定不同待分配组合对应的加权分配系数;根据加权分配系数确定不同待分配组合对应的编码比特。可参见图2a实施例的相关描述。

在一些实施例中,第一参数所指示的重要程度越高,所述第一参数对应的所述待分配组合被分配的编码比特越多。

在一些实施例中,可参见图3a所对应的说明书之前或之后记载的其他可选实现方式。

图3b是根据本公开实施例示出的一种音频信号的处理方法的流程示意图。如图3b所示,本公开实施例涉及一种音频信号的处理方法,该方法由编码端设备执行,上述方法包括:

步骤S3201,根据不同待分配组合的特征信息,确定待分配组合与第一参数的对应关系。

可选地,步骤S3201的可选实施方式可以参见图2c中步骤S2301及图2c所涉及的实施例中其他关联部分,此处不再赘述。

在一些实施例中,特征信息包括以下至少一项:

元数据;

编码方式;

信号内容;

用户配置信息。

在一些实施例中,根据不同待分配组合的特征信息确定对应的第一参数,包括:

根据元数据对应的角度信息,将设定空间划分为多个重要性不同的声道区域;其中,设定空间包括水平空间和/或垂直空间;

根据待分配组合所在的声道区域,确定待分配组合对应的第一参数。

可选地,角度信息包括元数据中静态元数据对应的第一角度信息,以及元数据中动态元数据对应的第二角度信息。

可选地,第一角度信息包括信号采集或回放位置的方位角或俯仰角,第二角度信息包括信号渲染位置的方位角或俯仰角。

在一些实施例中,信号内容的重要性与以下至少一项呈正相关:

信号内容中元数据的信号重要性;

元数据的信号优先级;

元数据的声道重要性;

元数据的声道优先级。

在一些实施例中,待分配组合对应的编码方式不同,第一参数不同;其中,使用参数化编码方式对应的重要性高于未使用参数化编码方式对应的重要性。

在一些实施例中,在使用参数化编码方式中,编码输入声道与编码传输声道的比值越大,或者解码输出通道与编码传输声道的比值越大,对应的重要性越高。

步骤S3202,获取第一音频信号对应的多个待分配组合的第一参数。

可选地,步骤S3202的可选实施方式可以参见图2a中步骤S2104及图3a中步骤S3101的可选实施方式,此处不再赘述。

步骤S3203,根据第一参数,在编码前基于可用比特为多个待分配组合分配编码比特。

可选地,步骤S3203的可选实施方式可以参见图2a中步骤S2105及图3a中步骤S3102的可选实施方式,此处不再赘述。

在一些实施例中,可参见图3b所对应的说明书之前或之后记载的其他可选实现方式。

本公开实施例提供的音频信号处理方法,可以对混合信号比特分配前先进行统一的比特预分配算法,旨在解决混合信号编码比特利用率低,音频数据编码比特浪费等问题。其中,可以采用多种方法获取组间信号的重要性,指导组间信号分配比特,提升混合信号音质。还可以采用多种方法获取组内信号的重要性,指导组内信号更优地分配比特,提升混合信号音质。

为便于理解本公开实施例,以下列举一些具体示例:

示例一:

参考图4a的方式,可对混合信号进行比特分配。

可选地,结合前述实施例的描述,信号重要性可采用第一参数表征。

可选地,编码器设备中的比特预分配模块可执行前述实施例中涉及的进行编码比特分配的方法。例如,比特预分配模块根据组间信号重要性对各组信号分配比特,比特预分配模块的输出是各组信号编码比特数。

可选地,图4a的方式可以结合图2a~2b的实施例实现。

示例二:

参考图4b的方式,可对非混合信号进行比特分配。

可选地,结合前述实施例的描述,信号重要性可采用第一参数表征。

可选地,图4b的方式可以结合图2a~2b的实施例实现。

示例三:

本示例根据元数据获取信号重要性的方法,可参见以下例子:

例1:

定义水平前方通道的重要性高于水平侧方及后方环绕声道的重要性。

水平前方通道指俯仰角为0,方位角的绝对值小于等于90度的多声道回放或待渲染对象信号。其中,俯仰角和方位角指的是多声道信号的回放位置信息或者对象信号的渲染位置信息。例如,左声道Left(方位角=30,俯仰角=0),右声道Right(方位角=-30,俯仰角=0),中间声道Centre(方位角=0,俯仰角=0)。

水平侧方及后方环绕声道指通道俯仰角为0,方位角的绝对值大于90度的多声道回放信号或待渲染对象信号。例如,水平左后方声道Left Rear Surround(方位角=135,俯仰角=0),水平右后方声道Right Rear Surround(方位角=-135,俯仰角=0))。

例2:

定义水平前方通道的重要性最高,水平侧方通道的重要性居中,水平后方通道的重要性最低。

水平前方通道指俯仰角为0,方位角的绝对值小于等于45度的多声道回放/待渲染对象信号。其中,俯仰角和方位角指的是多声道信号的回放位置信息或者对象信号的渲染位置信息。

水平侧方通道指俯仰角为0,方位角的绝对值大于45度,小于等于135度的。

水平后方通道指俯仰角为0,方位角的绝对值大于135度,小于等于180度的声道/对象信号。

例3:

定义水平声道的信号重要性高于天空声道的信号重要性。

水平声道指俯仰角为0的多声道回放信号/待渲染对象信号。

天空声道指俯仰角大于0的多声道回放信号/待渲染对象信号。

例4:

定义水平声道和天空声道的信号重要性高于低频声道的信号重要性。

低频效果声道指俯仰角小于0的多声道信号。

例5:

信号内容的重要性和元数据中的信号重要性或优先级或者声道重要性或优先级有关。信号或声道的重要性或优先级越高,信号内容的重要性越高。

基于上面的原则,根据多声道回放或待渲染对象信号的位置信息得到信号重要性的一套第一参数配置:

abs方位角(azimuth)≤45度,俯仰角elevation=0度:第一参数值为1;

45度<abs(方位角azimuth)≤135度,俯仰角elevation=0度:第一参数值为0.95;

135度<abs(方位角azimuth)≤180度,俯仰角elevation=0度:第一参数值为0.9;

俯仰角elevation>0度:第一参数值为0.8;

俯仰角elevation<0度:第一参数值为0.5;

天空声道的前后可扩展不同的重要性。

可选地,多声道回放水平声道和天空声道的一种分类方法,可以依据俯仰角和方位角进行分类,可参见图4c所示或者已有的多声道信号7.1.4的定义。

示例四:

本示例根据元数据、编码方法,获取信号重要性。

定义使用参数化编码方法传输声道的重要性高于未使用参数化编码方法传输声道的重要性。

其中,编码输入声道/编码传输声道的比值越大,编码传输通道的信号重要性越高。

解码输出通道/编码传输通道的比值越大,编码传输通道的信号重要性越高;对应解码输出通道灵活配置的编码方法。

基于上面的原则,给出一套第一参数的参考配置:

多声道7.1信号(仅水平声道):第一参数为1;

多声道7.1.4信号(包含天空声道):第一参数为0.9;

MASA信号(编码传输通道为2,MASA的编码输入声道是3阶HOA信号):第一参数为2;

7.1信号下混后的立体声信号:第一参数为1.5;

其中,本示例中的MASA信号,编码输入声道/编码传输声道=8;7.1信号下混后的立体声信号,编码输入声道/编码传输声道=4。

示例五:

本示例根据元数据、用户配置,获取信号重要性。

信号内容的重要性和元数据中的信号重要性或优先级、或者声道重要性或优先级有关。信号/声道的重要性/优先级越高,信号内容的重要性越高。例如,元数据里标识了2个对象信号的重要性。其中,对象信号1的重要性为低,对象信号2的重要性为中,则对象信号2的信号重要性高于对象信号2的对象重要性。

用户关心的信号内容的信号重要性高于其他的信号内容的重要性。例如,在音乐会现场场景,3阶HOA信号1是音乐会乐团位置录制的信号,3阶HOA信号2是音乐会观众席位置录制的信号,用户认为音乐会乐团演奏信号内容比音乐会观众席信号内容更重要,因此对3阶HOA信号1给与更高的信号重要性。

对象信号的重要性大于HOA信号的重要性。

基于上面的原则,给出一套第一参数的参考配置:

3阶HOA信号1(音乐会乐团位置录制):第一参数为1;

3阶HOA3信号2(音乐会观众席位置录制):第一参数为0.8;

对象信号1(渲染到水平位置,元数据中标识的重要性=低):第一参数为1.4;

对象信号2(渲染到水平位置,元数据中标识的重要性=中):第一参数为1.5。

示例五:

本示例示意混合信号的组间比特分配流程。

进入比特预分配模块前,编码端已经完成根据元数据对混合信号进行信号分组和音频预处理。

其中,信号分组将同一类型的信号通道放到一起处理。比如足球比赛现场的通过多声道录制的多声道信号在同组,现场通过HOA录制的声场信号在同组,现场的各种单麦克风对象录制的声音(包括主持人、嘉宾、评论员等)在同组。

音频预处理包括但不限于暂态分析、时频变换、时域噪声整形、频域噪声整形、频带扩展等模块。

定义以下变量:混合信号的总比特率为bitrate,编码采样率为sampleRate,帧采样点数为frameLength,已用比特数(包括帧头信息和编码边信息)为usedBits,帧级可用总比特数为bits_avail。

帧级可用总比特数按照以下公式计算得到:

bits_avail=bitrate*frameLength/sampleRate–usedBits。

分配可以包括以下步骤:

步骤S1:从静态元数据解析得到声道信号通道数为chNumMC,对象通道数为chNumOBJ,声场通道数为chNumHOA。

步骤S2:加载用户配置文件来获取各类信号间的加权系数ratio_type

信号类型1:ratio_type1

信号类型2:ratio_type2

信号类型3:ratio_type3

其中,ratio_type为信号间的加权系数,浮点型,范围[a,b],其中a

获取到的加权系数MC1:ratio_MC,OBJ1:ratio_OBJ,HOA1:ratio_HOA。

步骤S3:根据通道数和加权系数计算归一化的加权系数。经过归一化后的加权系数之和为1。经过归一化后的系数不会产生计算溢出。

ratio_normalized_MC=chNumMC*ratio_MC/(chNumMC*ratio_MC+chNumOBJ*ratio_OBJ+chNumHOA*ratio_HOA);

ratio_normalized_OBJ=chNumOBJ*ratio_OBJ/(chNumMC*ratio_MC+chNumOBJ*ratio_OBJ+chNumHOA*ratio_HOA);

ratio_normalized_HOA=chNumHOA*ratio_HOA/(chNumMC*ratio_MC+chNumOBJ*ratio_OBJ+chNumHOA*ratio_HOA);

步骤S4:根据信号间的归一化的加权系数计算各类信号的可用比特数bit_avail_MC、bit_avail_OBJ、bit_avail_HOA:

组间多声道信号的可用比特数bits_avail_MC为:bits_avail_MC=bits_avail*ratio_normalized_MC;

组间对象信号的可用比特数bits_avail_OBJ为:bits_avail_OBJ=bits_avail*ratio_normalized_OBJ;

组间声场信号的可用比特数bits_avail_HOA为:bits_avail_HOA=bits_avail*ratio_normalized_HOA。

示例六:

本示例示意非混合信号或者混合信号的组内比特分配流程。

假设非混合信号或者混合信号的组内信号为多声道信号,包含12个声道,其中7个水平声道,1个低频效果声道,4个天空声道。

假设组内信号的总可用比特数为bit_avail,按照能量或幅度对各个声道进行比特分配,设各个声道的能量或幅度为e[i],结合信号重要性分析,分配可以包括以下步骤:

步骤S1:获取信号重要性;

其中,水平声道重要性(即第一参数)为1,低频效果声道重要性为0.3,天空声道重要性为0.8。

信号重要性的原则1:水平声道的信号重要性高于天空声道的信号重要性。水平声道指俯仰角为0的多声道回放信号/待渲染对象信号。天空声道指俯仰角大于0的多声道回放信号/待渲染对象信号。

信号重要性的原则2:水平声道和天空声道的信号重要性高于低频效果声道的信号重要性。低频声道指俯仰角小于0的多声道信号。

步骤S2:计算归一化加权比特分配系数ratio[i];

水平声道的归一化加权比特分配系数ratio_horizon=1/(1*7+0.3+4*0.8);

低频效果声道的归一化加权比特分配系数ratio_lfe=0.3/(1*7+0.3+4*0.8);

天空声道的归一化加权比特分配系数ratio_top=0.8/(1*7+0.3+4*0.8);

当i为水平声道,ratio[i]=ratio_horizon;当i为低频效果声道,ratio[i]=ratio_lfe;当i为天空声道,ratio[i]=ratio_top。

步骤S3:计算各声道的编码比特数;

基于某种特定的比特分配算法,本实施例按照能量或幅度对各个声道进行比特分配,各个声道的比特分配数为bit_avail[i],计算过程如下:

e_weight_total=∑e[i]*ratio[i];

bits_avail[i]=bit_avail*e[i]*ratio[i]/e_weight_total。

本公开实施例还提出用于实现以上任一方法的装置,例如,提出一装置,上述装置包括用以实现以上任一方法中音频设备所执行的各步骤的单元或模块。

应理解以上装置中各单元或模块的划分仅是一种逻辑功能的划分,在实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。此外,装置中的单元或模块可以以处理器调用软件的形式实现:例如装置包括处理器,处理器与存储器连接,存储器中存储有指令,处理器调用存储器中存储的指令,以实现以上任一方法或实现上述装置各单元或模块的功能,其中处理器例如为通用处理器,例如中央处理单元(Central ProcessingUnit,CPU)或微处理器,存储器为装置内的存储器或装置外的存储器。或者,装置中的单元或模块可以以硬件电路的形式实现,可以通过对硬件电路的设计实现部分或全部单元或模块的功能,上述硬件电路可以理解为一个或多个处理器;例如,在一种实现中,上述硬件电路为专用集成电路(application-specific integrated circuit,ASIC),通过对电路内元件逻辑关系的设计,实现以上部分或全部单元或模块的功能;再如,在另一种实现中,上述硬件电路为可以通过可编程逻辑器件(programmable logic device,PLD)实现,以现场可编程门阵列(Field Programmable Gate Array,FPGA)为例,其可以包括大量逻辑门电路,通过配置文件来配置逻辑门电路之间的连接关系,从而实现以上部分或全部单元或模块的功能。以上装置的所有单元或模块可以全部通过处理器调用软件的形式实现,或全部通过硬件电路的形式实现,或部分通过处理器调用软件的形式实现,剩余部分通过硬件电路的形式实现。

在本公开实施例中,处理器是具有信号处理能力的电路,在一种实现中,处理器可以是具有指令读取与运行能力的电路,例如中央处理单元(Central Processing Unit,CPU)、微处理器、图形处理器(graphics processing unit,GPU)(可以理解为微处理器)、或数字信号处理器(digital signal processor,DSP)等;在另一种实现中,处理器可以通过硬件电路的逻辑关系实现一定功能,上述硬件电路的逻辑关系是固定的或可以重构的,例如处理器为专用集成电路(application-specific integrated circuit,ASIC)或可编程逻辑器件(programmable logic device,PLD)实现的硬件电路,例如FPGA。在可重构的硬件电路中,处理器加载配置文档,实现硬件电路配置的过程,可以理解为处理器加载指令,以实现以上部分或全部单元或模块的功能的过程。此外,还可以是针对人工智能设计的硬件电路,其可以理解为ASIC,例如神经网络处理单元(Neural Network Processing Unit,NPU)、张量处理单元(Tensor Processing Unit,TPU)、深度学习处理单元(Deep learningProcessing Unit,DPU)等。

图5是本公开实施例提出的音频设备的结构示意图。如图5所示,音频设备5100可以包括:收发模块5101、处理模块5102等中的至少一者。在一些实施例中,上述收发模块5101用于获取第一音频信号对应的多个待分配组合的第一参数,所述第一参数用于指示所述多个待分配组合的重要程度。处理模块5102用于根据所述第一参数,在编码前基于可用比特为所述多个待分配组合分配编码比特。

可选地,上述收发模块5101用于执行以上任一方法中音频设备5100执行的发送和/或接收等通信步骤中的至少一者,此处不再赘述。可选地,上述处理模块用于执行以上任一方法中音频设备5100执行的其他步骤中的至少一者,此处不再赘述。

图6a是本公开实施例提出的音频设备6100的结构示意图。音频设备6100可以是终端(例如用户设备等),也可以是支持实现以上任一方法的芯片、芯片系统、或处理器等,还可以是支持实现以上任一方法的芯片、芯片系统、或处理器等。音频设备6100可用于实现上述方法实施例中描述的方法,具体可以参见上述方法实施例中的说明。

如图6a所示,音频设备6100包括一个或多个处理器6101。处理器6101可以是通用处理器或者专用处理器等,例如可以是基带处理器或中央处理器。基带处理器可以用于对通信协议以及通信数据进行处理,中央处理器可以用于对通信装置(如,基站、基带芯片,终端设备、终端设备芯片,DU或CU等)进行控制,执行程序,处理程序的数据。可选地,音频设备6100用于执行以上任一方法。可选地,一个或多个处理器6101用于调用指令以使得通信设备6100执行以上任一方法。

在一些实施例中,音频设备6100还包括一个或多个收发器6102。在音频设备6100包括一个或多个收发器6102时,收发器6102执行上述方法中的发送和/或接收等通信步骤中的至少一者,处理器6101执行其他步骤中的至少一者。在可选的实施例中,收发器可以包括接收器和/或发送器,接收器和发送器可以是分离的,也可以集成在一起。可选地,收发器、收发单元、收发机、收发电路、接口电路、接口等术语可以相互替换,发送器、发送单元、发送机、发送电路等术语可以相互替换,接收器、接收单元、接收机、接收电路等术语可以相互替换。

在一些实施例中,音频设备6100还包括用于存储数据的一个或多个存储器6103。可选地,全部或部分存储器6103也可以处于通信设备6100之外。在可选的实施例中,音频设备6100可以包括一个或多个接口电路6104。可选地,接口电路6104与存储器6102连接,接口电路6104可用于从存储器6102或其他装置接收数据,可用于向存储器6102或其他装置发送数据。例如,接口电路6104可读取存储器6102中存储的数据,并将该数据发送给处理器6101。

通信设备可以是独立的设备或者可以是较大设备的一部分。例如所述通信设备可以是:1)独立的集成电路IC,或芯片,或,芯片系统或子系统;(2)具有一个或多个IC的集合,可选地,上述IC集合也可以包括用于存储数据,程序的存储部件;(3)ASIC,例如调制解调器(Modem);(4)可嵌入在其他设备内的模块;(5)接收机、终端设备、智能终端设备、蜂窝电话、无线设备、手持机、移动单元、车载设备、网络设备、云设备、人工智能设备等等;(6)其他等等。

图6b是本公开实施例提出的芯片6200的结构示意图。对于音频设备6100可以是芯片或芯片系统的情况,可以参见图6b所示的芯片6200的结构示意图,但不限于此。

芯片6200包括一个或多个处理器6201。芯片6200用于执行以上任一方法。

在一些实施例中,芯片6200还包括一个或多个接口电路6202。可选地,接口电路、接口、收发管脚等术语可以相互替换。在一些实施例中,芯片6200还包括用于存储数据的一个或多个存储器6203。可选地,全部或部分存储器6203可以处于芯片6200之外。可选地,接口电路6202与存储器6203连接,接口电路6202可以用于从存储器6203或其他装置接收数据,接口电路6202可用于向存储器6203或其他装置发送数据。例如,接口电路6202可读取存储器6203中存储的数据,并将该数据发送给处理器6201。

在一些实施例中,接口电路6202执行上述方法中的发送和/或接收等通信步骤中的至少一者。接口电路6202执行上述方法中的发送和/或接收等通信步骤例如是指:接口电路6202执行处理器6201、芯片6200、存储器6203或收发器件之间的数据交互。在一些实施例中,处理器6201执行其他步骤中的至少一者。

虚拟装置、实体装置、芯片等各实施例中所描述的各模块和/或器件可以根据情况任意组合或者分离。可选地,部分或全部步骤也可以由多个模块和/或器件协作执行,此处不做限定。

本公开还提出存储介质,上述存储介质上存储有指令,当上述指令在通信设备6100上运行时,使得通信设备6100执行以上任一方法。可选地,上述存储介质是电子存储介质。可选地,上述存储介质是计算机可读存储介质,但不限于此,其也可以是其他装置可读的存储介质。可选地,上述存储介质可以是非暂时性(non-transitory)存储介质,但不限于此,其也可以是暂时性存储介质。

本公开还提出程序产品,上述程序产品被通信设备6100执行时,使得通信设备6100执行以上任一方法。可选地,上述程序产品是计算机程序产品。

本公开还提出计算机程序,当其在计算机上运行时,使得计算机执行以上任一方法。

工业实用性

本公开实施例中,根据第一音频信号中不同待分配组合的第一参数,在编码前适应性的分配待分配组合的编码比特,从而根据待分配组合的重要性更好的指导编码比特的分配,便于提升信号音质,进而提升编码质量。

相关技术
  • 一种氢溴酸加兰他敏中间体及杂质的检测方法
  • 检测丹参中间体中5个酚酸类化合物含量的方法及应用
  • 注射用美罗培南中杂质的检测方法及应用
  • LLTS中间体及其有关杂质的检测方法和应用
  • 替尼类药物中间体中毒性杂质的检测方法与应用
技术分类

06120116548342