掌桥专利:专业的专利平台
掌桥专利
首页

使用不同的渲染器渲染音频数据的不同部分

文献发布时间:2023-06-19 09:44:49


使用不同的渲染器渲染音频数据的不同部分

相关申请的交叉引用

本申请要求于2018年6月25日提交的62/689,605号美国临时申请和于2019年6月24日提交的16/450,660号美国申请的权益,每个申请的全部内容通过引用结合于此,如同在此被完整地阐述一样。

技术领域

本公开涉及音频数据,并且更具体地,涉及对音频数据的渲染。

背景技术

高阶立体混响(higher order ambisonic,HOA)信号(通常由多个球谐系数(spherical harmonic coefficient,SHC)或其他分层(hierarchical)元素表示)是声场(soundfield)的三维(3D)表示。HOA表示可以以独立于用于回放根据该HOA信号渲染的多声道音频信号的本地扬声器几何形状的方式来表示该声场。HOA信号还可以便于后向兼容性,因为HOA信号可以被渲染为众所周知且被高度采用的多声道格式,诸如5.1音频声道格式或7.1音频声道格式。因此,HOA表示可以更好地表示声场,这也适应了后向兼容性。

发明内容

一般地,描述了使用不同的渲染器渲染高阶立体混响音(HOA)音频数据的不同部分的技术。音频编码器可以将HOA音频数据的不同部分与不同的音频渲染器相关联,而不利用单个渲染器来渲染HOA音频数据的所有不同部分。在一个示例中,不同部分可以指表示HOA音频数据的压缩版本的比特流的不同传送声道(transport channel)。

针对不同的传送声道指定不同的渲染器可以允许更少的错误,因为与其他传送声道相比,应用单个渲染器可以更好地渲染某些传送声道,从而增加回放期间发生的错误量,引入可能降低感知到的质量的音频伪迹(artifact)。在这方面,这些技术可以改善感知到的音频质量,获得更准确的音频再现,改善音频编码器和音频解码器本身的操作。

在一个示例中,这些技术的各个方面涉及一种被配置为渲染表示声场的音频数据的设备,该设备包括:被配置为存储多个音频渲染器的一个或多个存储器;一个或多个处理器,其被配置为:获得多个音频渲染器中的第一音频渲染器;针对音频数据的第一部分应用第一音频渲染器,以获得一个或多个第一扬声器馈送;获得多个音频渲染器中的第二音频渲染器;针对音频数据的第二部分应用第二音频渲染器,以获得一个或多个第二扬声器馈送;以及向一个或多个扬声器输出一个或多个第一扬声器馈送和一个或多个第二扬声器馈送。

在另一个示例中,这些技术的各个方面涉及一种渲染表示声场的音频数据的方法,设备包括:获得多个音频渲染器中的第一音频渲染器;针对音频数据的第一部分应用第一音频渲染器,以获得一个或多个第一扬声器馈送;获得多个音频渲染器中的第二音频渲染器;针对音频数据的第二部分应用第二音频渲染器,以获得一个或多个第二扬声器馈送;以及向一个或多个扬声器输出一个或多个第一扬声器馈送和一个或多个第二扬声器馈送。

在另一个示例中,这些技术的各个方面涉及被配置为渲染表示声场的音频数据的设备,该设备包括:用于获得多个音频渲染器中的第一音频渲染器的装置;用于针对音频数据的第一部分应用第一音频渲染器、以获得一个或多个第一扬声器馈送的装置;用于获得多个音频渲染器中的第二音频渲染器的装置;用于针对音频数据的第二部分应用第二音频渲染器、以获得一个或多个第二扬声器馈送的装置;以及用于向一个或多个扬声器输出一个或多个第一扬声器馈送和一个或多个第二扬声器馈送的装置。

在另一个示例中,这些技术的各个方面涉及其上已经存储有指令的非暂时性计算机可读存储介质,当该指令被执行时,使得一个或多个处理器获得多个音频渲染器中的第一音频渲染器;针对音频数据的第一部分应用第一音频渲染器,以获得一个或多个第一扬声器馈送;获得多个音频渲染器中的第二音频渲染器;针对音频数据的第二部分应用第二音频渲染器,以获得一个或多个第二扬声器馈送;并且向一个或多个扬声器输出一个或多个第一扬声器馈送和一个或多个第二扬声器馈送。

在另一个示例中,这些技术的各个方面涉及一种被配置为获得表示描述声场的音频数据的比特流的设备,该设备包括:被配置为存储音频数据的一个或多个存储器;一个或多个处理器,其被配置为:在比特流中指定第一指示,该第一指示标识将被应用于音频数据的第一部分的多个音频渲染器中的第一音频渲染器;在比特流中指定音频数据的第一部分;在比特流中指定第二指示,该第二指示标识将被应用于音频数据的第二部分的多个音频渲染器中的第二音频渲染器;在比特流中指定音频数据的第二部分;并输出比特流。

在另一个示例中,这些技术的各个方面涉及一种获得表示描述声场的音频数据的比特流的方法,该设备包括:在比特流中指定第一指示,该第一指示标识将被应用于音频数据的第一部分的多个音频渲染器中的第一音频渲染器;在比特流中指定音频数据的第一部分;在比特流中指定第二指示,该第二指示标识将被应用于音频数据的第二部分的多个音频渲染器中的第二音频渲染器;在比特流中指定音频数据的第二部分;以及输出比特流。

在另一个示例中,这些技术的各个方面涉及一种被配置为获得表示描述声场的音频数据的比特流的设备,该设备包括:用于在比特流中指定第一指示的装置,该第一指示标识将被应用于音频数据的第一部分的多个音频渲染器中的第一音频渲染器;用于在比特流中指定音频数据的第一部分的装置;用于在比特流中指定第二指示的装置,该第二指示标识将被应用于音频数据的第二部分的多个音频渲染器中的第二音频渲染器;用于在比特流中指定音频数据的第二部分的装置;以及用于输出比特流的装置。

在另一示例中,这些技术的各个方面针对其上已经存储有指令的非暂时性计算机可读存储介质,当执行该指令时,使得一个或多个处理器在表示描述声场的音频数据的压缩版本的比特流中指定第一指示,该第一指示标识将被应用于音频数据的第一部分的多个音频渲染器中的第一音频渲染器;在比特流中指定音频数据的第一部分;在比特流中指定第二指示,该第二指示标识将被应用于音频数据的第二部分的多个音频渲染器中的第二音频渲染器;在比特流中指定音频数据的第二部分;并输出比特流。

在附图和以下描述中阐述这些技术的一个或多个方面的细节。从说明书和附图以及权利要求中,这些技术的其他特征、目的和优点将变得清楚。

附图说明

图1是示出各种阶数和子阶数的球谐基函数(spherical harmonic basisfunction)的图。

图2是示出可以执行本公开中所描述的技术的各个方面的系统的示意图。

图3A-图3D是示出图2的示例中所示的系统的不同示例的图。

图4是示出图2的示例中所示的系统的另一示例的框图。

图5A-图5D是更详细地示出图2-图4所示系统的示例的框图。

图6是示出根据本公开中所描述的技术的各个方面的图2的音频编码设备的示例操作的流程图。

图7是示出图2的音频解码设备在执行本公开中所描述的技术的各个方面时的示例操作的流程图。

具体实施方式

市场上有各种基于“环绕声”声道的格式。例如,它们的范围从5.1家庭影院系统(它在进军起居室超立体声方面是最成功的)到NHK(Nippon Hoso Kyokai或日本广播公司)开发的22.2系统。内容创建者(例如,好莱坞工作室)希望为一部电影制作一次配乐,而不是花费精力为每个扬声器配置重新混音。运动图像专家组(Moving Pictures Expert Group,MPEG)已经发布了标准,该标准允许使用分层元素集(例如,高阶立体混响—HOA—系数)来表示声场,对于大多数扬声器配置(包括5.1配置和22.2配置),无论是在由各种标准定义的位置还是在非统一的位置,都可以将分层元素集渲染到扬声器馈送(speaker feeds)。

MPEG将该标准发布为MPEG-H 3D音频标准,正式名称为“信息技术—异构环境中的高效编码和媒体传送—部分3:3D音频(Information technology–High efficiencycoding and media delivery in heterogeneous environments–Part 3:3D audio)”,其由ISO/IEC JTC 1/SC 29提出,文档标识符为ISO/IEC DIS 23008-3,并且日期为2014年7月25日。MPEG还发布了3D音频标准的第二版,题为“信息技术—异构环境中的高效编码和媒体递送—部分3:3D音频(Information technology–High efficiency coding and mediadelivery in heterogeneous environments–Part 3:3D audio)”,其由ISO/IEC JTC1/SC29提出,文档标识符为ISO/IEC 23008-3:201x(E),并且日期为2016年10月12日。本公开中对“3D音频标准”的引用可以指上述标准中的一个或两个。

如上所述,分层元素集的一个示例是球谐系数(SHC)集。以下表达式示出了使用SHC对声场的描述或表示:

该表达式示出,在时间t,声场的任意点

图1是示出从零阶(n=0)到四阶(n=4)的球谐基函数的图。可以看出,对于每个阶数,都存在子阶数m的扩展,为了便于说明,在图1的示例中示出了子阶数m,但是没有显式标注。

SHC

如上所述,SHC可以从使用麦克风阵列的麦克风记录中导出。Poletti,M.,“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics,”J.AudioEng.Soc.,Vol.53,No.11,2005年11月,pp.1004-1025中描述了如何从麦克风阵列中导出SHC的各种示例。

为了说明如何从基于对象的描述中导出SHC,考虑以下等式。与个体音频对象相对应的声场的系数

其中,i是

图2是示出可以执行本公开中所描述的技术的各个方面的系统10的图。如图2的示例所示,系统10包括内容创建者系统12和内容消费者14。尽管在内容创建者系统12和内容消费者14的上下文中描述了这些技术,但是这些技术可以在声场的SHC(也可以被称为HOA系数)或任何其他分层表示被编码、以形成表示音频数据的比特流的任何上下文中实现。此外,内容创建者系统12可以表示包括能够实现本公开中所描述的技术的任何形式的计算设备中的一个或多个的系统,包括手持式设备(或蜂窝电话,包括所谓的“智能手机”)、平板计算机、膝上型计算机、台式计算机或专用硬件,仅举几个示例。同样,内容消费者14可以表示能够实现本公开中所描述的技术的任何形式的计算设备,包括手持式设备(或蜂窝电话,包括所谓的“智能手机”)、平板计算机、电视、机顶盒、膝上型计算机、游戏系统或控制台、或者台式计算机,仅举几个示例。

内容创建者网络12可以表示可以生成供内容消费者(诸如内容消费者14)消费的多声道音频内容和可能的视频内容的任何实体。内容创建者系统12可以在诸如体育赛事的事件中捕获现场音频数据,同时还将各种其他类型的附加音频数据,诸如评论音频数据、商业音频数据、引入或退出音频数据等插入到现场音频内容中。

内容消费者14表示拥有或能够访问音频回放系统的个体,该音频回放系统可以指能够将高阶立体混响音频数据(其包括高阶音频系数,高阶音频系数也可以被称为球谐系数)渲染到扬声器馈送以作为所谓的“多声道音频内容”来回放的任何形式的音频回放系统。可以在球谐域中定义高阶立体混响音频数据,并且将其从球谐域渲染或转换到空间域,从而产生一个或多个扬声器馈送形式的多声道音频内容。在图2的示例中,内容消费者14包括音频回放系统16。

内容创建者系统12包括麦克风5,其以各种格式(包括直接作为HOA系数和音频对象)记录或以其他方式获得现场记录。当麦克风阵列5(也可以被称为“麦克风5”)获得直接作为HOA系数的现场音频时,麦克风5可以包括HOA转码器,诸如图2的示例中所示的HOA转码器400。

换句话说,尽管被示为与麦克风5分开,但是HOA转码器400的单独实例可以被包括在麦克风5中的每一个内,以便自然地将捕获到的馈送转码为HOA系数11。然而,当不包括在麦克风5内时,HOA转码器400可以将从麦克风5输出的现场馈送转码为HOA系数11。在这方面,HOA转码器400可以表示被配置为将麦克风馈送和/或音频对象转码为HOA系数11的单元。因此,内容创建者系统12包括与麦克风5集成的HOA转码器400、与麦克风5分离的HOA转码器或它们的一些组合。

内容创建者系统12还可以包括空间音频编码设备20、比特率分配单元402和心理声学(psychoacoustic)音频编码设备406。空间音频编码设备20可以表示能够执行本公开中相对于HOA系数11所描述的压缩技术、以获得中间格式化的音频数据15(当内容创建者系统12表示广播网络时,其也可以被称为“夹层(mezzanine)格式化的音频数据15”,如下面更详细描述的)的设备。中间格式化的音频数据15可以表示使用空间音频压缩技术压缩但尚未经历心理声学音频编码的音频数据(例如,诸如高级音频编码(advanced audio coding,AAC),或其他类似类型的心理声学音频编码,包括各种增强型AAC(enhanced AAC,eAA),诸如高效ACC(HE-ACC、HE-AAC v2),其也被称为eAAC+等)。尽管在下面更详细地描述,但是空间音频编码设备20可以被配置为通过至少部分地针对HOA系数11执行分解(诸如下面更详细地描述的线性分解)来针对HOA系数11执行中间压缩。

空间音频编码设备20可以被配置为使用涉及应用线性可逆变换(linearinvertible transform,LIT)的分解来压缩HOA系数11。线性可逆变换的一个示例被称为“奇异值分解(singular value decomposition,SVD)”,其可以表示线性分解的一种形式。在该示例中,空间音频编码设备20可以将SVD应用于HOA系数11,以确定HOA系数11的分解版本。HOA系数11的分解版本可以包括占优势(predominant)音频信号中的一个或多个和一个或多个描述相关联的占优势音频信号的方向、形状和宽度的相应的空间分量。空间音频编码设备20可以分析HOA系数11的分解版本以识别各种参数,这可以便于HOA系数11的分解版本的重新排序。

空间音频编码设备20可以基于所识别的参数、对HOA系数11的分解版本进行重新排序,其中如下面进一步详细描述的,这种重新排序可以提高编码效率,因为变换可以跨HOA系数的帧对HOA系数进行重新排序(其中帧通常包括HOA系数11的分解版本的M个样本,并且在一些示例中,M被设置为1024)。在对HOA系数11的分解版本进行重新排序之后,空间音频编码设备20可以选择表示声场的前景(或者换句话说,不同的、占优势的或者显著的)分量的HOA系数11的分解版本。空间音频编码设备20可以将表示前景分量的HOA系数11的分解版本指定为音频对象(也可以被称为“占优势声音信号”或“占优势声音分量”)和相关联的方向信息(也可以被称为“空间分量”,或者在一些情况下,被称为所谓的“V向量”)。

接下来,空间音频编码设备20可以针对HOA系数11执行声场分析,以便至少部分地识别表示声场的一个或多个背景(或者换句话说,环境)分量的HOA系数11。空间音频编码设备20可以针对背景分量执行能量补偿,因为在一些示例中,背景分量可以仅包括HOA系数11的任何给定样本的子集(例如,诸如与零阶和一阶球面基函数相对应的那些,而不是与二阶或高阶球面基函数相对应的那些)。换句话说,当执行降阶时,空间音频编码设备20可以增强HOA系数11的剩余背景HOA系数(向HOA系数11的剩余背景HOA系数添加能量/从HOA系数11的剩余背景HOA系数减去能量),以补偿由于执行降阶而导致的总能量的改变。

空间音频编码设备20可以针对前景方向信息执行某种形式的插值(interpolation),然后针对插值后的前景方向信息执行降阶,以生成降阶后的前景方向信息。在一些示例中,空间音频编码设备20还可以针对降阶后的前景方向信息执行量化,输出编码的前景方向信息。在一些情况下,量化可以包括标量/熵量化。然后,空间音频编码设备20可以输出中间格式化的音频数据15作为背景分量、前景音频对象和量化后的方向信息。

在一些示例中,背景分量和前景音频对象可以包括脉冲编码调制(pulse codemodulated,PCM)传送声道。也就是说,对于包括背景分量中的相应一个的HOA系数11的每个帧(例如,与零阶或一阶球面基函数相对应的HOA系数11中的一个的M个样本)以及对于前景音频对象的每个帧(例如,从HOA系数11分解出的音频对象的M个样本),空间音频编码设备20可以输出传送声道。空间音频编码设备20还可以输出边信息(也可以被称为“边带信息”),该边信息包括与前景音频对象中的每一个相对应的空间分量。总的来说,传送声道和边信息可以在图1的示例中被表示为中间格式化的音频数据15。换句话说,中间格式化的音频数据15可以包括传送声道和边信息。

然后,空间音频编码设备20可以向心理声学音频编码设备406传输或以其他方式输出中间格式化的音频数据15。心理声学音频编码设备406可以针对中间格式化的音频数据15执行心理声学音频编码,以生成比特流21。然后,内容创建者系统12可以经由传输信道向内容消费者14传输比特流21。

在一些示例中,心理声学音频编码设备406可以表示心理声学音频编码器的多个实例,实例中的每一个用于对中间格式化的音频数据15的传送声道进行编码。在一些实例中,该心理声学音频编码设备406可以表示高级音频编码(AAC)单元的一个或多个实例。在一些情况下,心理声学音频编码单元406可以为中间格式化的音频数据15的每个传送声道调用AAC编码单元的实例。

关于如何使用AAC编码单元对背景球谐系数进行编码的更多信息,可以在EricHellerud等人于2008年5月17-20日在第124届大会上演讲的题为“Encoding Higher OrderAmbisonics with AAC”的会议论文中找到,该论文可在

尽管在图2中被示为直接传输到内容消费者14,但是内容创建者系统12可以将比特流21输出到位于内容创建者系统12和内容消费者14之间的中间设备。中间设备可以存储比特流21,用于稍后到内容消费者14的传送,内容消费者14可以请求该比特流。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能手机或能够存储比特流21以供音频解码器稍后检索的任何其他设备。中间设备可以驻留在能够向请求比特流21的订户(诸如内容消费者14)流式传输比特流21(并且可能与传输相应的视频数据比特流相结合)的内容传送网络中。

可替代地,内容创建者系统12可以将比特流21存储到存储介质,诸如光盘、数字视频盘、高清晰度视频盘或其他存储介质,其中大多数能够被计算机读取,因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在这种上下文中,传输信道可以指那些传输被存储到这些介质的内容的声道(并且可以包括零售店和其他基于商店的传送机制)。无论如何,本公开的技术不应因此在这方面受限于图2的示例。

如图2的示例中进一步所示的,内容消费者14包括音频回放系统16。音频回放系统16可以表示能够回放多声道音频数据的任何音频回放系统。音频回放系统16可以包括多个音频渲染器22中的不同音频渲染器。音频渲染器22可以每个提供不同形式的渲染,其中不同形式的渲染可以包括执行向量基振幅平移(vector-base amplitude panning,VBAP)的各种方式中的一个或多个,和/或执行声场合成的各种方式中的一个或多个。

音频回放系统16还可以包括音频解码设备24。音频解码设备24可以表示被配置为从比特流21解码HOA系数11’的设备,其中HOA系数11’可以类似于HOA系数11,但是由于有损操作(例如,量化)和/或经由传输信道的传输而不同。

也就是说,音频解码设备24可以对比特流21中指定的前景方向信息进行去量化,同时还针对比特流21中指定的前景音频对象和表示背景分量的编码的HOA系数执行心理声学解码。音频解码设备24还可以针对解码的前景方向信息执行插值,然后基于解码的前景音频对象和插值后的前景方向信息来确定表示前景分量的HOA系数。然后,音频解码设备24可以基于所确定的表示前景分量的HOA系数和解码的表示背景分量的HOA系数来确定HOA系数11’。

在对比特流21进行解码以获得HOA系数11’之后,音频回放系统16可以渲染HOA系数11’以输出扬声器馈送25。音频回放系统16可以向扬声器3中的一个或多个输出扬声器馈送25。扬声器馈送25可以驱动扬声器3。扬声器3可以表示扬声器(例如,放置在柜体或其他外壳中的换能器(transducer))、耳机扬声器或能够基于电信号发出声音的任何其他类型的换能器。

为了选择适当的渲染器,或者在一些情况下生成适当的渲染器,音频回放系统16可以获得指示扬声器3的数量和/或扬声器3的空间几何形状的扬声器信息13。在一些情况下,音频回放系统16可以使用参考麦克风来获得扬声器信息13,并以动态确定扬声器信息13这样的方式驱动扬声器3。在其他情况下,或者结合对扬声器信息13的动态确定,音频回放系统16可以提示用户与音频回放系统16交互并输入扬声器信息13。

音频回放系统16可以基于扬声器信息13选择音频渲染器22之一。在一些情况下,当没有音频渲染器22在与扬声器信息13中指定的阈值相似性度量(就扬声器几何形状而言)内时,音频回放系统16可以基于扬声器信息13生成音频渲染器22之一。在一些情况下,音频回放系统16可以基于扬声器信息13生成音频渲染器22中的一个,而无需首先尝试选择现有音频渲染器22之一。

尽管针对扬声器馈送25进行了描述,但是音频回放系统16可以渲染来自扬声器馈送25或者直接来自HOA系数11’的耳机馈送,将耳机馈送输出到耳机扬声器。耳机馈送可以表示双耳音频扬声器馈送,音频回放系统16使用双耳音频渲染器渲染该双耳音频扬声器馈送。

空间音频编码设备20可以将HOA音频数据编码(或者换句话说,压缩)为可变数量的传送声道,使用各种比特率分配机制为传送声道中的每一个分配一定量的比特率。一种示例比特率分配机制向每个传送声道分配相等数量的比特。另一示例比特率分配机制在传送声道中的每一个经历增益控制以归一化传送声道中的每一个的增益之后、基于与每个传送声道相关联的能量将比特分配给传送声道中的每一个。

空间音频编码设备20可以向比特率分配单元402提供传送声道17,使得比特率分配单元402可以执行多个不同的比特率分配机制,这些机制可以保持由传送声道中的每一个表示的声场的保真度。以这种方式,空间音频编码设备20可以潜在地避免对音频伪迹的引入,同时允许对来自各个空间方向的声场的准确感知。

空间音频编码设备20可以在针对传送声道17执行增益控制之前输出传送声道17。可替代地,空间音频编码设备20可以在执行增益控制之后输出传送声道17,比特率分配单元402可以在执行各种比特率分配机制之一之前、通过针对传送声道17应用逆增益控制来撤销增益控制。

在一种示例比特率分配机制中,比特率分配单元402可以在应用增益控制以归一化与传送声道17中的每一个相关联的增益之前、对每个传送声道17执行能量分析。增益归一化可能影响比特率分配,因为这种归一化可能导致传送声道17中的每一个被认为同等重要(因为能量在很大程度上是基于增益来度量的)。这样,针对增益归一化的传送声道17执行基于能量的比特率分配可以导致几乎相同数量的比特被分配给传送声道17中的每一个。在增益控制之前(或在通过对传送声道17应用逆增益控制来对增益控制反向之后),针对传送声道17执行基于能量的比特率分配,由此可以导致改进的比特率分配,其更准确地反映了传送声道17中的每一个在提供与描述声场相关的信息方面的重要性。

在另一比特率分配机制中,比特率分配单元402可以基于传送声道17中的每一个的空间分析将比特分配给传送声道17中的每一个。比特率分配单元402可以将传送声道17中的每一个渲染到一个或多个空间域声道(这可以是指不同空间位置处的相应的一个或多个扬声器的一个或多个扬声器馈送的另一种方式)。

作为能量分析的替代或与能量分析相结合,比特率分配单元402可以对渲染后的空间域声道(对于传送声道17中的每一个)执行基于感知熵的分析,以识别分别向传送声道17中的哪些分配更多或更少数量的比特。

在一些情况下,比特率分配单元402可以用基于方向的加权来补充基于感知熵的分析,其中前述声音被识别并相对于背景声音被分配更多比特。音频编码器可以执行基于方向的加权,然后执行基于感知熵的分析,以进一步细化对传送声道17中的每一个的比特分配。

在这方面,比特率分配单元402可以表示被配置为基于对传送声道17的分析(例如,基于能量的分析、基于感知的分析和/或基于方向的加权分析的任意组合)、并在针对传送声道17执行增益控制之前或者在针对传送声道17执行逆增益控制之后,执行比特率分配,以向传送声道17中的每一个分配比特的单元。作为比特率分配的结果,比特率分配单元402可以确定指示要被分配给传送声道17中的每一个的比特数的比特率分配调度19。比特率分配单元402可以向心理声学音频编码设备406输出比特率分配调度19。

心理声学音频编码设备406可以执行心理声学音频编码以压缩传送声道17中的每一个,直到传送声道17中的每一个达到比特率分配调度19中给出的比特数。然后,心理声学音频编码设备406可以在比特流21中指定传送声道19中的每一个的压缩版本。这样,心理声学音频编码设备406可以生成指定使用所分配的比特数的传送声道17中的每一个的比特流21。

心理声学音频编码设备406可以在比特流21中指定音频解码设备24可以从比特流21解析出的每个传送声道的比特率分配(也可以被称为比特率分配调度19)。然后,音频解码设备24可以基于解析出的比特率调度19从比特流21解析出传送声道17,从而对在传送声道17中的每一个中给出的HOA音频数据进行解码。

音频解码设备24可以在解析传送声道17的压缩版本之后,以两种不同的方式解码传送声道17的压缩版本中的每一个。首先,音频解码设备24可以针对传送声道17中的每一个执行心理声学音频解码,以解压缩传送声道17的压缩版本,并生成HOA音频数据15的空间压缩版本。接下来,音频解码设备24可以针对HOA音频数据15的空间压缩版本执行空间解压缩,以生成(或者换句话说,重构)HOA音频数据11’。HOA音频数据11’的单引号表示由于有损压缩(诸如量化、预测等),HOA音频数据11’可能在某种程度上不同于最初捕获的HOA音频数据11。

关于由音频解码设备24执行的解压缩的更多信息可以在2016年11月8日颁发的第9,489,955号美国专利中找到,该专利题为“Indicating Frame Parameter Reusabilityfor Coding Vectors”,并且其有效申请日为2014年1月30日。关于由音频解码设备24执行的解压缩的附加信息也可以在2016年11月22日颁发的第9,502,044号美国专利中找到,该专利题为“Compression of Decomposed Representations of a Sound Field”,并且其有效申请日为2013年5月29日。此外,音频解码设备24一般可以被配置为如上述3D音频标准中阐述的那样操作。

如上所述,音频回放系统16可以选择最匹配扬声器信息13的音频渲染器22中的单个音频渲染器,或者经由一些其他过程,将音频渲染器22中的单个音频渲染器应用于HOA系数11’。然而,与其他传送声道相比,对音频渲染器22中的单个音频渲染器的应用可以更好地渲染某些传送声道,从而增加回放期间发生的错误量,从而引入可能降低感知到的质量的音频伪迹。

一般,描述了使用音频渲染器22中的不同音频渲染器渲染HOA音频数据11’的不同部分的技术。空间音频编码设备20可以将HOA音频数据11的不同部分与音频渲染器22中的不同音频渲染器相关联,而不是利用单个渲染器来渲染HOA音频数据11’的所有不同部分。在一个示例中,不同部分可以指表示HOA音频数据11的压缩版本的比特流21的不同传送声道。

针对不同的传送声道指定音频渲染器22中的不同音频渲染器可以允许比应用单个音频渲染器22更少的错误。这样,这些技术可以减少回放期间发生的错误量,并且潜在地防止对可能降低感知到的质量的音频伪迹的引入。在这方面,这些技术可以改善感知到的音频质量,获得更准确的音频再现,改善空间音频编码设备20和音频回放系统16本身的操作。

在操作中,空间音频编码设备20可以在比特流15中指定第一指示,该第一指示标识将被应用于音频数据11的第一部分的多个音频渲染器22中的第一音频渲染器。在一些示例中,空间音频编码设备20可以指定渲染器标识符和相应的第一音频渲染器(其可以是渲染器矩阵系数的形式)。

尽管被描述为对渲染器矩阵的每一行和每一列完全指定每个渲染器矩阵系数,但是空间音频编码设备20可以尝试通过应用利用渲染器矩阵中可能出现的稀疏性和/或对称性性质的压缩来减少比特流15中显式指定的矩阵系数的数量。也就是说,第一音频渲染器可以在比特流15中由指示渲染器矩阵稀疏性的稀疏性信息来表示,空间音频编码设备20可以指定该稀疏性信息,以便用信号通知比特流15中没有指定各种矩阵系数。关于空间音频编码设备20可以如何获得稀疏性信息、指定渲染器标识符和相关联的渲染器矩阵系数并由此减少比特流15中指定的矩阵系数的数量的更多信息可以在2017年3月28日颁发的题为“OBTAINING SPARSENESS INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO RENDERERS”的第9,609,452号美国专利和2017年1月16日颁发的题为“OBTAINING SPARSENESSINFORMATION FOR HIGHER ORDER AMBISONIC AUDIO RENDERERS”的第9,870,778号美国专利中找到。

在一些示例中,第一音频渲染器还可以结合稀疏性信息或作为稀疏性信息的替代、使用指示渲染器矩阵的对称性的对称性信息来表示,空间音频编码设备20可以指定该对称性信息,以便用信号通知比特流15中没有指定各种矩阵系数。对称性信息可以包括指示渲染器矩阵的值对称性的值对称性信息和/或指示渲染器矩阵的符号对称性的符号对称性信息。关于空间音频编码设备20可以如何获得稀疏性信息、渲染器标识符和相关联的渲染矩阵系数,从而减少比特流15中指定的矩阵系数的数量的更多信息,可以在2018年1月30日颁发的题为“OBTAINING SYMMETRY INFORMATION FOR HIGHER ORDER AMBISONIC AUDIORENDERERS”的第9,883,310号美国专利中找到。

空间音频编码设备20还可以在比特流15中指定音频数据的第一部分。尽管在图2的示例中针对HOA音频数据11(这是指HOA系数11的另一种方式)进行了描述,但是这些技术可以针对任何类型的音频数据(包括基于声道的音频数据、基于对象的音频数据或任何其他类型的音频数据)来执行。

在图2的示例中,HOA音频数据11的第一部分可以指比特流15的第一传送声道,该第一传送声道在一段时间内指定环境HOA系数的压缩版本或者以上述方式从HOA音频数据11分解出的占优势音频信号的压缩版本。环境HOA系数可以包括与零阶球面基函数或一阶球面基函数相关联的HOA系数11之一—并且通常由变量X、Y、Z或W之一表示。环境HOA系数还可以包括与二阶或高阶球面基函数相关联的HOA系数11之一,该二阶或高阶球面基函数被确定为与描述声场的环境分量相关。

空间音频编码设备20还可以在比特流15中指定第二指示,该第二指示标识将被应用于HOA音频数据11的第二部分的多个音频渲染器22中的第二音频渲染器22。在一些示例中,空间音频编码设备20可以指定渲染器标识符和相应的第二音频渲染器(其可以是渲染器矩阵系数的形式)。

尽管被描述为对渲染器矩阵的每一行和每一列完全指定每个渲染器矩阵系数,但是空间音频编码设备20可以尝试通过应用压缩来减少比特流15中显式指定的矩阵系数的数量,该压缩利用了如上关于第一音频渲染所述的渲染器矩阵中可能出现的稀疏性和/或对称性属性。也就是说,第二音频渲染器可以在比特流15中由指示第二渲染器矩阵的稀疏性的稀疏性信息来表示,空间音频编码设备20可以指定该稀疏性信息,以便用信号通知比特流15中没有指定各种矩阵系数。

在一些示例中,第二音频渲染器还可以结合稀疏性信息或作为稀疏性信息的替代、使用指示第二渲染器矩阵的对称性的对称性信息来表示,空间音频编码设备20可以指定该对称性信息,以便用信号通知比特流15中没有指定各种矩阵系数。此外,对称性信息可以包括指示渲染器矩阵的值对称性的值对称性信息和/或指示渲染器矩阵的符号对称性的符号对称性信息。

空间音频编码设备20还可以在比特流15中指定HOA音频数据11的第二部分。尽管在图2的示例中针对HOA音频数据11(这是指HOA系数11的另一种方式)进行了描述,但是这些技术也可以针对任何类型的音频数据(包括基于声道的音频数据、基于对象的音频数据或任何其他类型的音频数据)来执行。

在图2的示例中,HOA音频数据11的第二部分可以指比特流15的第二传送声道,该第二传送声道在一段时间内指定环境HOA系数的压缩版本或者以上述方式从HOA音频数据11分解出的占优势音频信号的压缩版本。在一些示例中,HOA音频数据11的第二部分可以表示与第一传送声道指定HOA音频数据11的第一部分的时间段同时(concurrent)或相同时间段的声场。

换句话说,第一传送声道可以包括表示HOA音频数据11的第一部分的一个或多个第一帧,并且第二传送声道可以包括表示HOA音频数据11的第二部分的一个或多个第二帧。第一帧中的每一个可以在时间上与第二帧的相应一个近似同步。对第一音频渲染器和第二音频渲染器中的哪一个的指示可以指定第一渲染器和第二渲染器将分别被应用于第一帧和第二帧中的哪一个,导致第一音频渲染器和第二音频渲染器的同时应用或潜在同步应用。

在任何情况下,空间音频编码设备20可以输出比特流15,该比特流15经历如上所述的心理声学音频编码以变换为比特流21。内容创建者系统12可以将比特流21输出到音频解码设备24。

音频解码设备24可以与空间音频编码设备20相反地操作。也就是说,音频解码设备24可以获得多个音频渲染器22中的第一音频渲染器。在一些示例中,音频解码设备24可以从比特流21获得第一音频渲染器(并且将第一音频渲染器存储为音频渲染器22之一)。音频解码设备24可以将第一音频渲染器与比特流21中相对于第一音频渲染器指定的渲染器标识符相关联。此外,音频解码设备24可以基于对称性和/或稀疏性信息、从比特流21中给出的第一渲染器矩阵系数重构第一渲染器矩阵,如在以上引用的美国专利中所述的。在这方面,音频解码设备24可以从比特流21获得标识第一音频渲染器的第一指示(例如,渲染器标识符、渲染器矩阵系数、稀疏性信息和/或对称性信息)。

音频解码设备24可以获得多个音频渲染器22中的第二音频渲染器。在一些示例中,音频解码设备24可以从比特流21获得第二音频渲染器(并且将第一音频渲染器存储为音频渲染器22之一)。音频解码设备24可以将第二音频渲染器与比特流21中相对于第二音频渲染器指定的渲染器标识符相关联。此外,音频解码设备24可以基于对称性和/或稀疏性信息、从比特流21中给出的第二渲染器矩阵系数重构第二渲染器矩阵,如在以上引用的美国专利中所述的。在这方面,音频解码设备24可以从比特流21获得标识第二音频渲染器的第一指示(例如,渲染器标识符、渲染器矩阵系数、稀疏性信息和/或对称性信息)。

音频解码设备24还可以针对(例如,从比特流21中提取和解码/解压缩出的)音频数据的第一部分应用第一音频渲染器,以获得扬声器馈送25的一个或多个第一扬声器馈送。音频解码设备24还可以针对(例如,从比特流21中提取和解码/解压缩出的)音频数据的第二部分应用第二音频渲染器,以获得扬声器馈送25的一个或多个第二扬声器馈送。音频回放系统16可以向扬声器3输出一个或多个第一扬声器馈送和一个或多个第二扬声器馈送。参考图5A-图5D的示例来描述关于将音频渲染器与HOA音频数据11的部分相关联的更多信息。

图5A-图5D是示出图2的示例中所示的系统的不同配置的框图。在图5A的示例中,系统500A表示图2的示例中所示的系统10的第一配置。系统500A可以包括音频编码器502、音频解码器24和不同的音频渲染器22A-22C。

音频编码器502可以表示空间音频编码设备20、比特率分配单元402和心理声学音频编码设备406中的一个或多个。音频解码器24可以是指音频解码设备24的另一种方式。音频渲染器22A-22C可以表示音频渲染器22中的不同音频渲染器。音频渲染器22A可以表示HOA到声道(HOA-to-channel)渲染矩阵。音频渲染器22B可以表示(利用VBAP的)对象到声道(object-to-channel)渲染矩阵。音频渲染器22C可以表示向下混音(downmixing)矩阵,以将基于声道的音频数据向下混音到较少数量的声道中。

音频解码器504可以从比特流21获得指示505A和505B,指示505A和505B将由指示505A指定的传送声道中的一个或多个与由指示505B标识的音频渲染器22A-22C中的一个相关联。在图5A的示例中,指示505A和505B将(在指示505A的标题“音频”下的第一个条目中的、标注为其后跟有数字的“A”的)传送声道1和3与(由其后跟有指示505B中的第一个条目中的字母“A”的“渲染器”标识的)音频渲染器22A相关联,将(在指示505A的标题“音频”下的第二个条目中、标注为其后跟有数字的“A”的)传送声道2、4和6与(由其后跟有指示505B中的第二个条目中的字母“B”的“渲染器”标识的)音频渲染器22B相关联,并且将(在指示505A的标题“音频”下的第三个条目中、标注为其后跟有数字的“A”的)传送声道5和7与(由其后跟有指示505B中的第三个条目中的字母“C”的“渲染器”标识的)音频渲染器22C相关联。

音频解码器504可以从比特流21获得音频渲染器22A和22B(被示为提供音频渲染器22A和22B的音频编码器502)。音频解码器504还可以获得标识音频渲染器22C的指示,音频解码器504可以从预先存在的或先前配置的音频渲染器22获得该指示。音频渲染器22C的指示可以包括渲染器标识符。

回放音频系统16可以将音频渲染器22A-22C应用于由指示505A标识的音频数据11的传送声道。如图5A的示例所示,音频回放系统16可以在应用音频渲染器22A之前执行HOA转换,以将传送声道1和3转换为HOA系数。在任何情况下,在这个示例中应用音频渲染器22A-22C的结果是符合7.1环绕声格式加上提供增加的高度的四个声道(4H)的扬声器馈送25。

在图5B的示例中,系统500B表示图2所示的系统10的第二配置。系统500B类似于系统500A,除了下面所描述的渲染有所不同。

图5B所示的音频解码器504可以从比特流21获得指示505A和505B,指示505A和505B将由指示505A指定的传送声道中的一个或多个与由指示505B标识的音频渲染器22A和22B中的一个相关联。在图5B的示例中,指示505A和505B将(在指示505A的标题“音频”下的第一个条目中、标注为其后跟有数字的“A”的)传送声道1与(由其后跟有指示505B中第一个条目中的字母“A”的“渲染器”标识的)音频渲染器22A相关联,将(在指示505A的标题“音频”下的第二个条目中、标注为其后跟有数字的“A”的)传送声道2与(由其后跟有指示505B中第二个条目中的字母“A”的“渲染器”标识的)音频渲染器22A相关联,并且将(在指示505A的标题“音频”下的第三个条目中、标注为其后跟有数字的“A”的)传送声道N与(由其后跟有指示505B中的第三个条目中的字母“B”的“渲染器”标识的)音频渲染器22B相关联。

音频解码器504可以从比特流21获得音频渲染器22A(被示为提供音频渲染器22A的音频编码器502)。音频解码器504还可以获得标识音频渲染器22B的指示,音频解码器504可以从预先存在的或先前配置的音频渲染器22获得该指示。音频渲染器22B的指示可以包括渲染器标识符。

回放音频系统16可以将音频渲染器22A和22B应用于由指示505A标识的音频数据11的传送声道。如图5B的示例所示,音频回放系统16可以在应用音频渲染器22A和22B之前执行HOA转换,以将传送声道1-N转换为HOA系数。在任何情况下,在这个示例中应用音频渲染器22A和22B的结果是扬声器馈送25。

在图5C的示例中,系统500C表示图2所示的系统10的第三配置。系统500C类似于系统500A,除了下面所描述的渲染有所不同。

音频解码器504可以从比特流21获得指示505A和505B,指示505A和505B将由指示505A指定的传送声道中的一个或多个与由指示505B标识的音频渲染器22A-22C中的一个相关联。在图5C的示例中,指示505A和505B将(在指示505A的标题“音频”下的第一个条目中、标注为其后跟有数字的“A”的)传送声道1和3与(由其后跟有指示505B中的第一个条目中的字母“A”的“渲染器”标识的)音频渲染器22A相关联,将(在指示505A的标题“音频”下的第二个条目中、标注为其后跟有数字的“A”的)传送声道2、4和6与(由其后跟有指示505B中的第二个条目中的字母“B”的“渲染器”标识的)音频渲染器22B相关联,并且将(在指示505A的标题“音频”下的第三个条目中、标注为其后跟有数字的“A”的)传送声道5和7与(由其后跟有指示505B中的第三个条目中的字母“C”的“渲染器”标识的)音频渲染器22C相关联。

音频解码器504可以从比特流21获得音频渲染器22A和22B(被示为提供音频渲染器22A和22B的音频编码器502)。音频解码器504还可以获得标识音频渲染器22C的指示,音频解码器504可以从预先存在的或先前配置的音频渲染器22获得该指示。音频渲染器22C的指示可以包括渲染器标识符。

回放音频系统16可以将音频渲染器22A-22C应用于由指示505A标识的音频数据11的传送声道。如图5A的示例所示,音频回放系统16可以在应用音频渲染器22A-22C之前执行HOA转换,以将传送声道1-7转换为HOA系数。无论如何,在这个示例中应用音频渲染器22A-22C的结果是扬声器馈送25。

在图5D的示例中,系统500D表示图2所示的系统10的第二配置。系统500B类似于系统500A,除了下面所描述的渲染有所不同。

空间音频编码设备20或一些其他单元(诸如HOA转码器400)可以针对基于声道的音频数据511A应用声道到立体混响(channel-to-ambisonic)渲染器522A来获得HOA音频数据11A,而不是简单地如上关于系统500A所述获得音频数据11。空间音频编码设备20或一些其他单元(诸如HOA转码器400)可以针对基于对象的音频数据511B应用对象到立体混响(object-to-ambisonic)渲染器522B来获得HOA音频数据11B。这样,除了HOA音频数据11C之外,音频编码器502可以接收HOA音频数据11A和HOA音频数据11B。

关于空间音频编码设备20如何将基于声道的音频数据511A和基于对象的音频数据511B转换为HOA音频数据11A和11B的更多信息可以在2018年5月1日颁发的题为“CONVERSION FROM CHANNEL-BASED AUDIO TO HOA”的第9,961,467号美国专利、2018年5月1日颁发的题为“CONVERSION FROM OBJECT-BASED AUDIO TO HO”的第9,961,475号美国专利以及2017年4月13日公开的题为“QUANTIZATION OF SPATIAL VECTORS”的第2017/0103766A1号美国公开中找到。

音频编码器502可以编码/压缩HOA音频数据11A-11C,并且还以上述任何方式在比特流21中单独指定立体混响到声道(ambisonic-to-channel)音频渲染器22A和立体混响到对象(ambisonic-to-object)音频渲染器22B。立体混响到声道音频渲染器22A可以表示声道到立体混响音频渲染器522A的逆(应当理解,逆可以指矩阵数学以及其他近似的上下文中的伪逆)。换句话说,立体混响到声道音频渲染器22A可以与声道到立体混响音频渲染器522A相反地操作。立体混响到对象音频渲染器22B可以表示对象到立体混响音频渲染器522B的逆(应当理解,逆可以指矩阵数学以及其他近似的上下文中的伪逆)。换句话说,立体混响到对象音频渲染器22B可以与对象到立体混响音频渲染器522B相反地操作。

音频解码器504可以从比特流21获得指示505A和505B,指示505A和505B将由指示505A指定的传送声道中的一个或多个与由指示505B标识的音频渲染器22A-22C中的一个相关联。在图5D的示例中,指示505A和505B将(在指示505A的标题“音频”下的第一个条目中、标注为其后跟有数字的“A”的)传送声道1和3与(由其后跟有指示505B中的第一个条目中的字母“R_CH”(renderer_channel)的“渲染器”标识的)音频渲染器22A相关联、将(在指示505A的标题“音频”下的第二个条目中、标注为其后跟有数字的“A”的)传送声道2、4和6与(由其后跟有指示505B中的第二个条目中的字母“R_OBJ”(renderer_object)的“渲染器”标识的)音频渲染器22B相关联,并且将(在指示505A的标题“音频”下的第三个条目中、标注为其后跟有数字的“A”的)传送声道5和7与(由其后跟有指示505B中的第三个条目中的字母“R_HOA”(renderer_ambisonic)的“渲染器”标识的)音频渲染器22C相关联。

音频解码器504可以从比特流21获得音频渲染器22A-22C(被示为提供音频渲染器22A-22C的音频编码器502)。回放音频系统16可以将音频渲染器22A-22C应用于由指示505A标识的HOA音频数据11’的传送声道。如图5D的示例所示,在应用音频渲染器22A-22C之前,音频回放系统16可以不执行任何HOA转换来将传送声道1-7转换为HOA系数。在任何情况下,在这个示例中应用音频渲染器22A-22C的结果是在这个示例中符合7.1环绕声格式加上提供增加的高度的四个声道(4H)的扬声器馈送25。

图3A-图3D是示出可以被配置为执行本公开中所描述的技术的各个方面的系统的不同示例的框图。图3A所示的系统410A类似于图2的系统10,除了系统10的麦克风阵列5被麦克风阵列408代替。图3A的示例中所示的麦克风阵列408包括HOA转码器400和空间音频编码设备20。这样,麦克风阵列408生成空间压缩的HOA音频数据15,然后根据本公开中阐述的技术的各个方面,使用比特率分配来压缩该空间压缩的HOA音频数据15。

图3B所示的系统410B类似于图3A所示的系统410A,除了汽车460包括麦克风阵列408。这样,本公开中阐述的技术可以在汽车的上下文中执行。

图3C所示的系统410C类似于图3A所示的系统410A,除了遥控和/或自主控制的飞行设备462包括麦克风阵列408。例如,飞行设备462可以表示四轴飞行器、直升机或任何其他类型的无人机。这样,本公开中阐述的技术可以在无人机的上下文中执行。

图3D所示的系统410D类似于图3A所示的系统410A,除了机器人设备464包括麦克风阵列408。例如,机器人设备464可以表示使用人工智能操作的设备或其他类型的机器人。在一些示例中,机器人设备464可以表示飞行设备,诸如无人机。在其他示例中,机器人设备464可以表示其他类型的设备,包括不一定飞行的那些设备。这样,本公开中阐述的技术可以在机器人的上下文中执行。

图4是示出可以被配置为执行本公开中所描述的技术的各个方面的系统的另一示例的框图。图4所示的系统类似于图2的系统10,广播网络12’还包括附加的HOA混合器(mixer)450,除了内容创建网络12是广播网络12’。这样,图4所示的系统被表示为系统10’,而图4的广播网络被表示为广播网络12’。HOA转码器400可以将现场馈送HOA系数作为HOA系数11A输出到HOA混合器450。HOA混合器表示被配置为混合HOA音频数据的设备或单元。HOA混合器450可以接收其他HOA音频数据11B(其可以表示任何其他类型的音频数据,包括用点(spot)麦克风或非3D麦克风捕获并被转换到球谐域的音频数据、HOA域中指定的特殊效果的音频数据等)并将该HOA音频数据11B与HOA音频数据11A混合以获得HOA系数11。

图6是示出根据本公开中所描述的技术的各个方面的图2的音频编码设备的示例操作的流程图。空间音频编码设备20可以在比特流15中指定第一指示,该第一指示标识将被应用于音频数据11的第一部分的多个音频渲染器22中的第一音频渲染器(600)。在一些示例中,空间音频编码设备20可以指定渲染器标识符和相应的第一音频渲染器(其可以是渲染器矩阵系数的形式)。

空间音频编码设备20还可以在比特流15中指定音频数据的第一部分(602)。尽管在图2的示例中对HOA音频数据11(这是指HOA系数11的另一种方式)进行了描述,但是这些技术可以针对任何类型的音频数据(包括基于声道的音频数据、基于对象的音频数据或任何其他类型的音频数据)来执行。

空间音频编码设备20还可以在比特流15中指定第二指示,该第二指示标识将被应用于HOA音频数据11的第二部分的多个音频渲染器22中的第二音频渲染器22(604)。在一些示例中,空间音频编码设备20可以指定渲染器标识符和相应的第二音频渲染器(其可以是渲染器矩阵系数的形式)。

空间音频编码设备20还可以在比特流15中指定HOA音频数据11的第二部分(606)。尽管在图2的示例中针对HOA音频数据11(这是指HOA系数11的另一种方式)进行了描述,但是这些技术也可以针对任何类型的音频数据(包括基于声道的音频数据、基于对象的音频数据或任何其他类型的音频数据)来执行。

空间音频编码设备20可以输出比特流15(608),该比特流15经历如上所述的心理声学音频编码以变换为比特流21。内容创建者系统12可以将比特流21输出到音频解码设备24。

图7是示出图2的音频解码设备在执行本公开中所描述的技术的各个方面时的示例操作的流程图。如上所述,音频解码设备24可以与空间音频编码设备20相反地操作。也就是说,音频解码设备24可以获得多个音频渲染器22中的第一音频渲染器(700)。在一些示例中,音频解码设备24可以从比特流21获得第一音频渲染器(并且将第一音频渲染器存储为音频渲染器22之一)。音频解码设备24可以将第一音频渲染器与比特流21中相对于第一音频渲染器指定的渲染器标识符相关联。

音频解码设备24可以从比特流21获得多个音频渲染器22中的第二音频渲染器(702)。在一些示例中,音频解码设备24可以从比特流21获得第二音频渲染器(并且将第一音频渲染器存储为音频渲染器22之一)。音频解码设备24可以将第二音频渲染器与比特流21中相对于第二音频渲染器指定的渲染器标识符相关联。在这方面,音频解码设备24可以从比特流21获得标识第二音频渲染器的第一指示(例如,渲染器标识符、渲染器矩阵系数、稀疏性信息和/或对称性信息)。

音频解码设备24还可以针对(例如,从比特流21中提取和解码/解压缩出的)音频数据的第一部分应用第一音频渲染器,以获得扬声器馈送25的一个或多个第一扬声器馈送(704)。音频解码设备24还可以针对(例如,从比特流21中提取和解码/解压缩出的)音频数据的第二部分应用第二音频渲染器,以获得扬声器馈送25的一个或多个第二扬声器馈送(706)。音频回放系统16可以向扬声器3输出一个或多个第一扬声器馈送和一个或多个第二扬声器馈送(708)。

在一些上下文中(诸如广播上下文),音频编码设备可以被分成空间音频编码器和心理声学音频编码器406(也可以被称为“感知音频编码器406”),空间音频编码器针对包括增益控制的HOA表示执行一种形式的中间压缩,并且心理声学音频编码器406执行感知音频压缩以减少增益归一化的传送声道之间的数据冗余。在这些情况下,比特率分配单元402可以执行逆增益控制以恢复原始传送声道17,其中心理声学音频编码设备406可以根据本公开中所描述的技术的各个方面、基于比特率调度19来执行基于能量的比特率分配、方向比特率分配、基于感知的比特率分配或其一些组合。

尽管在本公开中对广播上下文进行了描述,但是这些技术可以在其他上下文中执行,包括上述汽车、无人机和机器人,以及在移动通信手持式设备或其他类型的移动电话(包括智能手机)的上下文中执行(这些也可以用作广播上下文的部分)。

此外,前述技术可以针对任何数量的不同上下文和音频生态系统来执行,并且不应限于上述任何上下文或音频生态系统。尽管这些技术应该限于示例上下文,但是下面描述了多个示例上下文。一个示例音频生态系统可以包括音频内容、电影工作室、音乐工作室、游戏音频工作室、基于声道的音频内容、编码引擎、游戏音频支干(stem)、游戏音频编码/渲染引擎和传送系统。

电影工作室、音乐工作室和游戏音频工作室可以接收音频内容。在一些示例中,音频内容可以表示对采集的输出。例如,电影工作室可以通过使用数字音频工作站(digitalaudio workstation,DAW)来输出基于声道的音频内容(例如,在2.0、5.1和7.1中)。例如,音乐工作室可以通过使用DAW来输出基于声道的音频内容(例如,在2.0和5.1中)。在任一种情况下,编码引擎可以基于一个或多个编解码器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比数字加(Dolby Digital Plus)和DTS主音频)接收和编码基于声道的音频内容,以供传送系统输出。例如,游戏音频工作室可以通过使用DAW输出一个或多个游戏音频支干。游戏音频编码/渲染引擎可以将音频支干编码和/或渲染为基于声道的音频内容,以供传送系统输出。其中可以执行这些技术的另一示例上下文包括音频生态系统,其可以包括广播记录音频对象、专业音频系统、消费者设备上(on-device)捕获、HOA音频格式、设备上渲染、消费者音频、TV和附件,以及汽车音频系统。

广播记录音频对象、专业音频系统和消费者设备上捕获都可以使用HOA音频格式对其输出进行编码。这样,可以使用HOA音频格式将音频内容编码为单个表示,该单个表示可以使用设备上渲染、消费者音频、TV和附件,以及汽车音频系统来回放。换句话说,音频内容的单个表示可以在通用音频回放系统(诸如音频回放系统16)中回放(即,与需要诸如5.1、7.1等特定配置相反)。

其中可以执行这些技术的上下文的其他示例包括音频生态系统,其可以包括采集元件和回放元件。采集元件可以包括有线和/或无线采集设备(例如,本征(Eigen)麦克风)、设备上环绕声捕获和移动设备(例如,智能手机和平板计算机)。在一些示例中,有线和/或无线采集设备可以经由(多个)有线和/或无线通信信道耦合到移动设备。

根据本公开的一个或多个技术,移动设备可以用于采集声场。例如,移动设备可以经由有线和/或无线采集设备和/或设备上环绕声捕获(例如,集成到移动设备中的多个麦克风)来采集声场。然后,移动设备可以将采集到的声场编码为HOA系数,以供回放元件中的一个或多个回放。例如,移动设备的用户可以记录现场事件(例如,会议、会晤、戏剧、音乐会等)(采集现场事件的声场),并将记录编码为HOA系数。

移动设备还可以利用回放元件中的一个或多个来回放HOA编码的声场。例如,移动设备可以对HOA编码的声场进行解码,并且向回放元件中的一个或多个输出信号,该信号使得回放元件中的一个或多个重建声场。作为一个示例,移动设备可以利用无线和/或无线通信信道向一个或多个扬声器(例如,扬声器阵列、条形音箱(sound bar)等)输出信号。作为另一个示例,移动设备可以利用对接(docking)解决方案将信号输出到一个或多个对接站和/或一个或多个对接扬声器(例如,智能汽车和/或家庭中的音响系统)。作为另一个示例,移动设备可以利用耳机渲染来向一组耳机输出信号,例如,以创建真实的双耳声音。

在一些示例中,特定移动设备既可以采集3D声场,也可以稍后回放相同的3D声场。在一些示例中,移动设备可以采集3D声场,将3D声场编码为HOA,并且将编码的3D声场传输到一个或多个其他设备(例如,其他移动设备和/或其他非移动设备)用于回放。

其中可以执行这些技术的又一个上下文包括音频生态系统,该音频生态系统可以包括音频内容、游戏工作室、编码的音频内容、渲染引擎和传送系统。在一些示例中,游戏工作室可以包括可以支持HOA信号编辑的一个或多个DAW。例如,一个或多个DAW可以包括HOA插件和/或工具,其可以被配置为与一个或多个游戏音频系统一起操作(例如,一起工作)。在一些示例中,游戏工作室可以输出支持HOA的新的支干格式。在任何情况下,游戏工作室可以向可以渲染声场的渲染引擎输出编码的音频内容,以供传送系统回放。

这些技术也可以针对示例性音频采集设备来执行。例如,这些技术可以针对本征麦克风来执行,本征麦克风可以包括被共同配置为记录3D声场的多个麦克风。在一些示例中,本征麦克风的多个麦克风可以位于半径约为4厘米的基本球形的球的表面上。在一些示例中,音频编码设备20可以被集成到本征麦克风中,以便直接从麦克风输出比特流21。

另一示例性音频采集上下文可以包括制作车(production truck),其可以被配置为从一个或多个麦克风(诸如一个或多个本征麦克风)接收信号。制作车还可以包括音频编码器,诸如图5的音频编码器20。

在一些情况下,移动设备还可以包括被共同配置为记录3D声场的多个麦克风。换句话说,多个麦克风可以具有X、Y、Z分集(diversity)。在一些示例中,移动设备可以包括麦克风,该麦克风可以被旋转以相对于移动设备的一个或多个其他麦克风提供X、Y、Z分集。移动设备还可以包括音频编码器,诸如图5的音频编码器20。

加固的视频捕获设备还可以被配置为记录3D声场。在一些示例中,加固的视频捕获设备可以附接到参与活动的用户的头盔上。例如,加固的视频捕获设备可以附接到激浪漂流的用户的头盔上。以这种方式,加固的视频捕获设备可以捕获表示用户周围所有动作(例如,水在用户后面撞击,另一个漂流者在用户前面说话等)的3D声场。

这些技术也可以针对可以被配置为记录3D声场的附件增强型移动设备来执行。在一些示例中,移动设备可以类似于上面所讨论的移动设备,且增加有一个或多个附件。例如,本征麦克风可以附接到上述移动设备,以形成附件增强型移动设备。以这种方式,附件增强型移动设备可以捕获比仅使用集成到附件增强型移动设备的声音捕获组件更高质量版本的3D声场。

下面进一步讨论可以执行本公开中所描述的技术的各个方面的示例音频回放设备。根据本公开的一个或多个技术,扬声器和/或条形音箱可以以任意配置布置,同时仍然回放3D声场。此外,在一些示例中,耳机回放设备可以经由有线或无线连接耦合到解码器24。根据本公开的一个或多个技术,声场的单个通用表示可用于渲染在扬声器、条形音箱和耳机回放设备的任何组合上的声场。

多个不同的示例音频回放环境也可以适用于执行本公开中所描述的技术的各个方面。例如,5.1扬声器回放环境、2.0(例如,立体声)扬声器回放环境、具有全高前置扬声器的9.1扬声器回放环境、22.2扬声器回放环境、16.0扬声器回放环境、汽车扬声器回放环境以及具有耳塞回放环境的移动设备可以是用于执行本公开中所描述的技术的各个方面的合适环境。

根据本公开的一个或多个技术,声场的单个通用表示可以用于渲染在任何前述回放环境上的声场。此外,本公开的技术使得渲染器能够渲染来自通用表示的声场,以便在除了上述之外的回放环境中进行回放。例如,如果设计考虑禁止根据7.1扬声器回放环境合理地放置扬声器(例如,如果不可能放置右环绕扬声器),则本公开的技术使得渲染能够用其他6个扬声器进行补偿,使得回放可以在6.1扬声器回放环境中实现。

此外,用户可以戴着耳机观看体育比赛。根据本公开的一个或多个技术,可以采集体育比赛的3D声场(例如,可以在棒球场中和/或周围放置一个或多个本征麦克风),可以获得与3D声场相对应的HOA系数并将其传输到解码器,解码器可以基于HOA系数重构3D声场并将重构的3D声场输出到渲染器,渲染器可以获得关于回放环境(例如,耳机)的类型的指示,并且将重构的3D声场渲染为使得耳机输出体育比赛的3D声场的表示的信号。

在上述各种实例的每一个中,应当理解,音频编码设备20可以执行一种方法,或者包括用于执行音频编码设备20被配置为执行的方法的每个步骤的装置。在一些实例中,装置可以包括一个或多个处理器。在一些情况下,一个或多个处理器(可以表示为“(多个)处理器”)可以表示通过被存储到非暂时性计算机可读存储介质的指令来配置的专用处理器。换句话说,每组编码示例中的技术的各个方面可以提供其上存储有指令的非暂时性计算机可读存储介质,指令在被执行时、使得一个或多个处理器执行音频编码设备20已经被配置为执行的方法。

在一个或多个示例中,所描述的功能可以在硬件、软件、固件或其任意组合中实现。如果以软件实现,这些功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过其传输,并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质,其对应于诸如数据存储介质的有形介质。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问来检索指令、代码和/或数据结构、以实现本公开中所描述的技术的任何可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制,这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、闪存或者任何其他可以用于以指令或数据结构的形式存储期望的程序代码并且可以由计算机访问的介质。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时介质,而是指向非暂时的有形存储介质。这里所使用的磁盘和光盘包括紧凑光盘(CD)、激光光盘、光学光盘、数字多功能盘(DVD)、软盘和蓝光光盘,其中磁盘通常磁性地再现数据,而光盘用激光光学地再现数据。上述的组合也应该包括在计算机可读介质的范围内。

指令可以由一个或多个处理器(诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效的集成或分立逻辑电路)执行。因此,本文所使用的术语“处理器”可以指任何前述结构或者适合于实现本文所描述的技术的任何其他结构。此外,在一些方面,本文所描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块中提供,或者结合在组合的编解码器中。此外,这些技术可以完全地在一个或多个电路或逻辑元件中实现。

本公开的技术可以在多种设备或装置中实现,包括无线手持式设备、集成电路(IC)或一组IC(例如芯片集)。在本公开中描述了各种组件、模块或单元,以强调被配置为执行所公开的技术的设备的功能方面,但是这些组件、模块或单元不一定需要通过不同的硬件单元来实现。相反,如上所述,各种单元可以组合在编解码器硬件单元中,或者由包括如上所述的一个或多个处理器的互操作硬件单元的集合结合合适的软件和/或固件来提供。

这样,技术的各个方面可以使一个或多个设备根据以下条款操作。

条款45A。一种被配置为渲染表示声场的音频数据的设备,该设备包括:用于获得多个音频渲染器中的第一音频渲染器的装置;用于针对音频数据的第一部分应用第一音频渲染器以获得一个或多个第一扬声器馈送的装置;用于获得多个音频渲染器中的第二音频渲染器的装置;用于针对音频数据的第二部分应用第二音频渲染器以获得一个或多个第二扬声器馈送的装置;以及用于向一个或多个扬声器输出一个或多个第一扬声器馈送和一个或多个第二扬声器馈送的装置。

条款46A。根据条款45A的设备,还包括用于从表示音频数据的压缩版本的比特流中获得指示第一音频渲染器将被应用于音频数据的第一部分的一个或多个指示的装置。

条款47A。根据条款45A和46A的任何组合的设备,还包括用于从表示音频数据的压缩版本的比特流中获得指示第二音频渲染器将被应用于音频数据的第二部分的一个或多个指示的装置。

条款48A。根据条款45A-47A的任何组合的设备,还包括用于从表示音频数据的压缩版本的比特流中获得标识第一音频渲染器的第一指示的装置,其中用于获得第一音频渲染器的装置包括用于基于第一指示获得第一音频渲染器的装置。

条款49A。根据条款48A的设备,其中用于获得第一音频渲染器的装置包括用于基于第一指示并从比特流中获得第一音频渲染器的装置。

条款50A。根据条款45A-49A的任何组合的设备,还包括用于从表示音频数据的压缩版本的比特流中获得标识第二音频渲染器的第二指示的装置,其中用于获得第二音频渲染器的装置包括用于基于第二指示获得第二音频渲染器的装置。

条款51A。根据条款50A的设备,其中用于获得第二音频渲染器的装置包括用于基于第二指示并从比特流中获得第二音频渲染器的装置。

条款52A。根据条款45A-47A的任何组合的设备,还包括用于从表示音频数据的压缩版本的比特流中获得音频数据的装置。

条款53A。根据条款52A的设备,其中音频数据的第一部分包括比特流的第一传送声道,该第一传送声道表示音频数据的第一部分的压缩版本。

条款54A。根据条款52A和53A的任何组合的设备,其中音频数据的第二部分包括比特流的第二传送声道,该第二传送声道表示音频数据的第二部分的压缩版本。

条款55A。根据条款53A和54A的任何组合的设备,其中音频数据包括高阶立体混响音频数据,并且其中第一传送声道包括第一环境高阶立体混响系数的压缩版本或者从高阶立体混响音频数据分解出的第一占优势音频信号的压缩版本。

条款56A。根据条款53A-55A的任何组合的设备,其中音频数据包括高阶立体混响音频数据,并且其中第二传送声道包括第二环境高阶立体混响系数的压缩版本或者从高阶立体混响音频数据分解出的第二占优势音频信号的压缩版本。

条款57A。根据条款45A-56A的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分描述同时时间段的声场。

条款58A。根据条款45A-56A的任何组合的设备,其中高阶立体混响音频数据的第一部分和高阶立体混响音频数据的第二部分描述相同时间段的声场。

条款59A。根据条款45A-56A的任何组合的设备,其中用于应用第一音频渲染器的装置包括用于在应用第二音频渲染器的同时应用第一音频渲染器的装置。

条款60A。根据条款45A-59A的任何组合的设备,其中音频数据的第一部分包括通过应用声道到立体混响渲染器、从第一基于声道的音频数据获得的第一高阶立体混响音频数据,并且其中第一音频渲染器包括与声道到立体混响渲染器相反地操作的立体混响到声道渲染器。

条款61A。根据条款45A-60A的任何组合的设备,其中音频数据的第一部分包括通过应用对象到立体混响渲染器、从第一基于对象的音频数据获得的第一高阶立体混响音频数据,并且其中第二音频渲染器包括与对象到立体混响渲染器相反地操作的立体混响到对象渲染器。

条款62A。根据条款45A-61A的任何组合的设备,其中音频数据的第二部分包括通过应用声道到立体混响渲染器、从第二基于声道的音频数据获得的第二高阶立体混响音频数据,并且其中第一音频渲染器包括与声道到立体混响渲染器相反地操作的立体混响到声道渲染器。

条款63A。根据条款45A-62A的任何组合的设备,其中音频数据的第二部分包括通过应用对象到立体混响渲染器、从第二基于对象的音频数据获得的第二高阶立体混响音频数据,并且其中第二音频渲染器包括与对象到立体混响渲染器相反地操作的立体混响到对象渲染器。

条款64A。根据条款45A-63A的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括高阶立体混响音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括立体混响到声道音频渲染器。

条款65A。根据条款45A-64A的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括基于声道的音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括向下混音矩阵。

条款66A。根据条款45A-65A的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括基于对象的音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括向量基振幅平移矩阵。

条款67A。一种其上存储有指令的非暂时性计算机可读存储介质,指令在被执行时使得一个或多个处理器:获得多个音频渲染器中的第一音频渲染器;针对音频数据的第一部分应用第一音频渲染器,以获得一个或多个第一扬声器馈送;获得多个音频渲染器中的第二音频渲染器;针对音频数据的第二部分应用第二音频渲染器,以获得一个或多个第二扬声器馈送;以及向一个或多个扬声器输出一个或多个第一扬声器馈送和一个或多个第二扬声器馈送。

条款1B。一种被配置为获得表示描述声场的音频数据的比特流的设备,该设备包括:被配置为存储音频数据的一个或多个存储器;一个或多个处理器,被配置为:在比特流中指定第一指示,该第一指示标识将被应用于音频数据的第一部分的多个音频渲染器中的第一音频渲染器;在比特流中指定音频数据的第一部分;在比特流中指定第二指示,该第二指示标识将被应用于音频数据的第二部分的多个音频渲染器中的第二音频渲染器;在比特流中指定音频数据的第二部分;并输出比特流。

条款2B。根据条款1B的设备,其中一个或多个处理器还被配置为在比特流中指定指示第一音频渲染器将被应用于音频数据的第一部分的一个或多个指示。

条款3B。根据条款1B和2B的任何组合的设备,其中一个或多个处理器还被配置为在比特流中指定指示第二音频渲染器将被应用于音频数据的第二部分的一个或多个指示。

条款4B。根据条款1B-3B的任何组合的设备,其中第一指示包括第一音频渲染器。

条款5B。根据条款1B-4B的任何组合的设备,其中第二指示包括第二音频渲染器。

条款6B。根据条款1B-5B的任何组合的设备,其中音频数据的第一部分包括比特流的第一传送声道,该第一传送声道表示音频数据的第一部分的压缩版本。

条款7B。根据条款1B-6B的任何组合的设备,其中音频数据的第二部分包括比特流的第二传送声道,该第二传送声道表示音频数据的第二部分的压缩版本。

条款8B。根据条款6B和7B的任何组合的设备,其中音频数据包括高阶立体混响音频数据,并且其中第一传送声道包括第一环境高阶立体混响系数的压缩版本或者从高阶立体混响音频数据分解出的第一占优势音频信号的压缩版本。

条款9B。根据条款6B-8B的任何组合的设备,其中音频数据包括高阶立体混响音频数据,并且其中第二传送声道包括第二环境高阶立体混响系数的压缩版本或者从高阶立体混响音频数据分解出的第二占优势音频信号的压缩版本。

条款10B。根据条款1B-9B的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分描述同时时间段的声场。

条款11B。根据条款1B-10B的任何组合的设备,其中高阶立体混响音频数据的第一部分和高阶立体混响音频数据的第二部分描述相同时间段的声场。

条款12B。根据条款1B-11B的任何组合的设备,其中音频数据的第一部分包括通过应用声道到立体混响渲染器、从第一基于声道的音频数据获得的第一高阶立体混响音频数据,并且其中第一音频渲染器包括与声道到立体混响渲染器相反地操作的立体混响到声道渲染器。

条款13B。根据条款1B-12B的任何组合的设备,其中音频数据的第一部分包括通过应用对象到立体混响渲染器、从第一基于对象的音频数据获得的第一高阶立体混响音频数据,并且其中第二音频渲染器包括与对象到立体混响渲染器相反地操作的立体混响到对象渲染器。

条款14B。根据条款1B-13B的任何组合的设备,其中音频数据的第二部分包括通过应用声道到立体混响渲染器、从第二基于声道的音频数据获得的第二高阶立体混响音频数据,并且其中第一音频渲染器包括与声道到立体混响渲染器相反地操作的立体混响到声道渲染器。

条款15B。根据条款1B-14B的任何组合的设备,其中音频数据的第二部分包括通过应用对象到立体混响渲染器、从第二基于对象的音频数据获得的第二高阶立体混响音频数据,并且其中第二音频渲染器包括与对象到立体混响渲染器相反地操作的立体混响到对象渲染器。

条款16B。根据条款1B-15B的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括高阶立体混响音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括立体混响到声道音频渲染器。

条款17B。根据条款1B-16B的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括基于声道的音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括向下混音矩阵。

条款18B。根据条款1B-17B的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括基于对象的音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括向量基振幅平移矩阵。

条款19B。一种获得表示描述声场的音频数据的比特流的方法,该设备包括:在比特流中指定第一指示,该第一指示标识将被应用于音频数据的第一部分的多个音频渲染器中的第一音频渲染器;在比特流中指定音频数据的第一部分;在比特流中指定第二指示,该第二指示标识将被应用于音频数据的第二部分的多个音频渲染器中的第二音频渲染器;在比特流中指定音频数据的第二部分;以及输出比特流。

条款20B。根据条款19B的方法,还包括在比特流中指定指示第一音频渲染器将被应用于音频数据的第一部分的一个或多个指示。

条款21B。根据条款19B和20B的任何组合的方法,还包括在比特流中指定指示第二音频渲染器将被应用于音频数据的第二部分的一个或多个指示。

条款22B。根据条款19B-21B的任何组合的方法,其中第一指示包括第一音频渲染器。

条款23B。根据条款19B-22B的任何组合的方法,其中第二指示包括第二音频渲染器。

条款24B。根据条款19B-23B的任何组合的方法,其中音频数据的第一部分包括比特流的第一传送声道,该第一传送声道表示音频数据的第一部分的压缩版本。

条款25B。根据条款19B-24B的任何组合的方法,其中音频数据的第二部分包括比特流的第二传送声道,该第二传送声道表示音频数据的第二部分的压缩版本。

条款26B。根据条款24B和25B的任何组合的方法,其中音频数据包括高阶立体混响音频数据,并且其中第一传送声道包括第一环境高阶立体混响系数的压缩版本或从高阶立体混响音频数据分解出的第一占优势音频信号的压缩版本。

条款27B。根据条款24B-26B的任何组合的方法,其中音频数据包括高阶立体混响音频数据,并且其中第二传送声道包括第二环境高阶立体混响系数的压缩版本或者从高阶立体混响音频数据分解出的第二占优势音频信号的压缩版本。

条款28B。根据条款19B-27B的任何组合的方法,其中音频数据的第一部分和音频数据的第二部分描述同时时间段的声场。

条款29B。根据条款19B-28B的任何组合的方法,其中高阶立体混响音频数据的第一部分和高阶立体混响音频数据的第二部分描述相同时间段的声场。

条款30B。根据条款19B-29B的任何组合的方法,其中音频数据的第一部分包括通过应用声道到立体混响渲染器、从第一基于声道的音频数据获得的第一高阶立体混响音频数据,并且其中第一音频渲染器包括与声道到立体混响渲染器相反地操作的立体混响到声道渲染器。

条款31B。根据条款19B-30B的任何组合的方法,其中音频数据的第一部分包括通过应用对象到立体混响渲染器、从第一基于对象的音频数据获得的第一高阶立体混响音频数据,并且其中第二音频渲染器包括与对象到立体混响渲染器相反地操作的立体混响到对象渲染器。

条款32B。根据条款19B-31B的任何组合的方法,其中音频数据的第二部分包括通过应用声道到立体混响渲染器、从第二基于声道的音频数据获得的第二高阶立体混响音频数据,并且其中第一音频渲染器包括与声道到立体混响渲染器相反地操作的立体混响到声道渲染器。

条款33B。根据条款19B-32B的任何组合的方法,其中音频数据的第二部分包括通过应用对象到立体混响渲染器、从第二基于对象的音频数据获得的第二高阶立体混响音频数据,并且其中第二音频渲染器包括与对象到立体混响渲染器相反地操作的立体混响到对象渲染器。

条款34B。根据条款19B-33B的任何组合的方法,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括高阶立体混响音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括立体混响到声道音频渲染器。

条款35B。根据条款19B-34B的任何组合的方法,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括基于声道的音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括向下混音矩阵。

条款36B。根据条款19B-35B的任何组合的方法,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括基于对象的音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括向量基振幅平移矩阵。

条款37B。一种被配置为获得表示描述声场的音频数据的比特流的设备,该设备包括:用于在比特流中指定第一指示的装置,该第一指示标识将被应用于音频数据的第一部分的多个音频渲染器中的第一音频渲染器;用于在比特流中指定音频数据的第一部分的装置;用于在比特流中指定第二指示的装置,该第二指示标识将被应用于音频数据的第二部分的多个音频渲染器中的第二音频渲染器;用于在比特流中指定音频数据的第二部分的装置;以及用于输出比特流的装置。

条款38B。根据条款37B的设备,还包括用于在比特流中指定指示第一音频渲染器将被应用于音频数据的第一部分的一个或多个指示的装置。

条款39B。根据条款37B和38B的任何组合的设备,还包括用于在比特流中指定指示第二音频渲染器将被应用于音频数据的第二部分的一个或多个指示的装置。

条款40B。根据条款37B-39B的任何组合的设备,其中第一指示包括第一音频渲染器。

条款41B。根据条款37B-40B的任何组合的设备,其中第二指示包括第二音频渲染器。

条款42B。根据条款37B-41B的任何组合的设备,其中音频数据的第一部分包括比特流的第一传送声道,该第一传送声道表示音频数据的第一部分的压缩版本。

条款43B。根据条款37B-42B的任何组合的设备,其中音频数据的第二部分包括比特流的第二传送声道,该第二传送声道表示音频数据的第二部分的压缩版本。

条款44B。根据条款42B和43B的任何组合的设备,其中音频数据包括高阶立体混响音频数据,并且其中第一传送声道包括第一环境高阶立体混响系数的压缩版本或者从高阶立体混响音频数据分解出的第一占优势音频信号的压缩版本。

条款45B。根据条款42B-44B的任何组合的设备,其中音频数据包括高阶立体混响音频数据,并且其中第二传送声道包括第二环境高阶立体混响系数的压缩版本或者从高阶立体混响音频数据分解出的第二占优势音频信号的压缩版本。

条款46B。根据条款37B-45B的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分描述同时时间段的声场。

条款47B。根据条款37B-46B的任何组合的设备,其中高阶立体混响音频数据的第一部分和高阶立体混响音频数据的第二部分描述相同时间段的声场。

条款48B。根据条款37B-47B的任何组合的设备,其中音频数据的第一部分包括通过应用声道到立体混响渲染器、从第一基于声道的音频数据获得的第一高阶立体混响音频数据,并且其中第一音频渲染器包括与声道到立体混响渲染器相反地操作的立体混响到声道渲染器。

条款49B。根据条款37B-48B的任何组合的设备,其中音频数据的第一部分包括通过应用对象到立体混响渲染器、从第一基于对象的音频数据获得的第一高阶立体混响音频数据,并且其中第二音频渲染器包括与对象到立体混响渲染器相反地操作的立体混响到对象渲染器。

条款50B。根据条款37B-49B的任何组合的设备,其中音频数据的第二部分包括通过应用声道到立体混响渲染器、从第二基于声道的音频数据获得的第二高阶立体混响音频数据,并且其中第一音频渲染器包括与声道到立体混响渲染器相反地操作的立体混响到声道渲染器。

条款51B。根据条款37B-50B的任何组合的设备,其中音频数据的第二部分包括通过应用对象到立体混响渲染器、从第二基于对象的音频数据获得的第二高阶立体混响音频数据,并且其中第二音频渲染器包括与对象到立体混响渲染器相反地操作的立体混响到对象渲染器。

条款52B。根据条款37B-51B的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括高阶立体混响音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括立体混响到声道音频渲染器。

条款53B。根据条款37B-52B的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括基于声道的音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括向下混音矩阵。

条款54B。根据条款37B-53B的任何组合的设备,其中音频数据的第一部分和音频数据的第二部分中的一个或多个包括基于对象的音频数据,并且其中第一音频渲染器和第二音频渲染器中的一个或多个包括向量基振幅平移矩阵。

条款55B。一种其上存储有指令的非暂时性计算机可读存储介质,指令在被执行时使得一个或多个处理器:在表示描述声场的音频数据的压缩版本的比特流中指定第一指示,该第一指示标识将被应用于音频数据的第一部分的多个音频渲染器中的第一音频渲染器;在比特流中指定音频数据的第一部分;在比特流中指定第二指示,该第二指示标识将被应用于音频数据的第二部分的多个音频渲染器中的第二音频渲染器;在比特流中指定音频数据的第二部分;并输出比特流。

此外,如本文所使用的,“A和/或B”是指“A或B”,或同时指“A和B”。

已经描述了技术的各个方面。这些技术的这些和其他方面在所附权利要求的范围内。

相关技术
  • 使用不同的渲染器渲染音频数据的不同部分
  • 包括实现指令集架构不同部分的多个不同处理器内核的处理器
技术分类

06120112284708