掌桥专利:专业的专利平台
掌桥专利
首页

一种音频数据的处理方法、装置、移动设备以及音频系统

文献发布时间:2023-06-19 18:35:48


一种音频数据的处理方法、装置、移动设备以及音频系统

技术领域

本申请实施例涉及通信技术领域,尤其涉及一种音频数据的处理方法、装置、移动设备以及音频系统。

背景技术

随着视听娱乐产业和消费电子产业的迅速发展,作为智能终端的最重要配套使用设备,耳机成为了各大厂商重要的竞争赛道。近年来,消费电子厂商和互联网公司在智能设备普及、人工智能技术迅速发展的浪潮中,也纷纷布局智能配件产业,推动耳机产业在技术、规模、应用领域上持续发展。

传统耳机产商主要在音质、解析力等专业参数调校上同向竞争,近年来的手机和智能设备公司更多发力于提升耳机的智能化程度,将耳机作为手机等终端的一个智能配件。目前,高端蓝牙耳机已成为高度继承的电子产品,可以作为实现许多创造性应用的平台。耳机在数字化后,正在进入智能时代。

空间音频是耳机的智能化程度的一个重要指标,具体是指将环绕声道精准置于合适的方位,使用户转动头部或者移动设备就能感受到身临其境的环绕声体验和3D立体声场。这种模拟不仅仅只是传统环绕声效果,而是将用户听到的声音模拟为空间中固定位置的音响设备。空间音频技术也成为智能耳机上新兴的一个重要技术和卖点。

空间音频效果的实现,主要依靠传感器算法和音效算法。传感器算法是利用特定传感器实时采集用户的运动数据,并实时计算出用户基于该运动数据运动时应该听到的声场的方位信息;音效算法:根据声场的方位信息对音频数据进行调节,以在耳机中产生环绕音效。

对于上述传感器算法来说,其中的一个关键步骤就是实时采集用户的运动数据,以实现对用户的头部进行追踪,从而做到即使头部移动,也能使环绕音效保持在头部周围的效果。

目前,主要是通过更高精度的传感器采集更加精确的运动数据,使得计算得到的声场的方位信息更加准确,这样,根据声场的方位信息对音频数据的调节便会更加有效,从而可以提升空间音频的效果。

然而,经过调节后的音频数据在传输到耳机的过程会产生一定的时延,导致在耳机接收到经过调节的音频数据后,用户应该听到的声场的方位信息与调节音频数据所用到的方位信息有差异,使得空间音频的效果变差。

发明内容

本申请实施例提供了一种音频数据的处理方法、装置、终端以及耳机,该处理方法用于产生较好的空间音频的效果。

第一方面,本申请实施例提供了一种音频数据的处理方法,该方法可以在终端侧执行,也可以在耳机侧执行,具体包括:获取耳机在第一时刻的第一姿态数据,第一姿态数据是基于耳机在第二时刻的第二姿态数据预测得到的,第一时刻晚于第二时刻;其中,第二时刻可以理解为用户使用耳机的当前时刻,第一时刻则为用户使用耳机的未来的某一时刻;第一姿态数据和第二姿态数据的表示方法有多种,例如,可以采用欧拉角、旋转矩阵、轴角或四元数(Quaternion)中的任意一个表示第一姿态数据和第二姿态数据;基于第一姿态数据对目标时间段内播放的音频数据进行空间音效处理,目标时间段与第二时刻存在关联关系,该关联关系可以通过关联关系表约定,也可以不同关联关系表约定;例如,目标时间段可以是以第二时刻为中间时刻的一个时间区间,也可以是第二时刻至第一时刻之间的时间区间。

由于本申请实施例基于预测的第一姿态数据对音频数据进行处理,而在预测过程中会考虑耳机在接收音频数据的过程中头部发生移动的情况,所以即使接收音频数据的过程中,用户的头部发生移动而导致耳机的实际姿态数据相对于第二时刻的姿态数据发生了变化,基于预测的第一姿态数据处理后的音频数据也能够在用户的头部周围产生空间音频的效果,避免了基于耳机在第二时刻的姿态数据对音频数据进行处理,无法在用户的头部发生移动的情况下产生较好。

另外,目前有的方法是通过额外的设备(例如虚拟现实(Virtual Reality,VR)设备)来追踪用户的头部,以得到比较精准的姿态数据,从而提高空间音频的效果;而本申请实施例是通过预测耳机在第一时刻第一姿态数据,来对音频数据传输过程中的固定时延进行补偿,从而提高空间音频的效果,不仅节省成本,而且不需要额外的设备,能够适用于大多数场景。

作为一种可实现的方式,获取耳机在第一时刻的第一姿态数据包括:获取耳机在第一时刻的第三姿态数据,第三姿态数据是通过第一模型基于耳机在第二时刻的第二姿态数据预测得到的,第一模型的种类可以有多种,例如,第一模型可以是采用线性回归预测法建立的,具体可以是采用多项式回归预测的方法建立;通过第二模型基于第三姿态数据预测耳机在第一时刻的第一姿态数据,第三姿态数据为第二模型的输入,第一模型的精度低于第二模型,其中,第二模型可以是精度高于第一模型的任意模型,例如,第二模型可以是深度学习模型。

通过第一模型预测第三姿态数据的操作可以在耳机侧执行,由于第二模型的精度较低,所以适用于计算能力有限的耳机;由于第二模型的精度较低,所以预测出的第三姿态数据的精度不够高,本申请实施例又通过深度学习模型进行进一步预测,以得到较准确的第一姿态数据,从而使得基于第一姿态数据处理后音频数据具有较好的空间音频效果。

作为一种可实现的方式,深度学习模型是基于多种运动状态下的样本数据训练得到的,多种运动状态包括匀速转头、变速转头、走路转头、坐着转头、站立转头和乘车转头中的至少两种,每种运动状态下的样本数据包括参考耳机在多个训练时刻的样本姿态数据。

基于多种运动状态下的训练数据训练得到深度学习模型,能够提高深度学习模型的预测准确性,进而提高预测到的第一姿态数据的准确性,使得本申请实施例的方法能够适用于多种运动状态的场景,提高本申请实施例的方法的鲁棒性。

作为一种可实现的方式,获取耳机在第一时刻的第一姿态数据包括:获取耳机在第二时刻的第二姿态数据,具体地,可以通过耳机中的加速度传感器、陀螺仪传感器采集第一传感器数据,然后基于第一传感器数据并通过姿态解算算法计算耳机在第二时刻的第二姿态数据;基于第二姿态数据预测耳机在第一时刻的第一姿态数据。

第二姿态数据的获取操作可以是耳机侧执行,而第一姿态数据的预测操作可以在手机侧执行;这样,不仅可以防止传输大量的传感器数据而产生较大的时延,而且由计算能力较强的终端预测第一姿态数据,能够提高第一姿态数据的准确性。

作为一种可实现的方式,获取耳机在第一时刻的第一姿态数据包括:接收由耳机发送的耳机在第一时刻的第一姿态数据,第一姿态数据是由耳机基于耳机在第二时刻的第二姿态数据预测得到的。

由于预测第一姿态数据需要用到多个传感器采集到的传感器数据,除此之外还可能需要耳机侧的某些参数,所以若由终端进行预测,则需要将上述数据都传输给终端,这会占用耳机和终端之间有限的传输通道;为此,在该实施例中,由耳机预测得到第一姿态数据,可以节省耳机和终端之间有限的传输通道,并且可以防止传输较多数据而导致较大的时延,即可以降低传输的时延。

作为一种可实现的方式,方法还包括:获取终端在第二时刻的第四姿态数据,同第二姿态数据类似,具体可以通过终端中的加速度传感器、陀螺仪传感器采集终端的传感器数据,然后基于该终端的传感器数据并通过姿态解算算法计算终端在第二时刻的第四姿态数据;相应地,基于第一姿态数据对目标时间段内播放的音频数据进行空间音效处理包括:将第一姿态数据和第四姿态数据融合,以得到表示声场方位的融合姿态数据;基于融合姿态数据和音效调节算法对目标时间段内播放的音频数据进行空间音效处理,融合姿态数据为音效调节算法的输入。

目前有的方法是将采用复杂的数据表示声场的方位信息,例如,直接将第四姿态数据和第一姿态数据作为表示声场的方位信息,或者基于第四姿态数据和第一姿态数据进行复杂的计算以得到声场的方位信息;而本申请实施例中是将第四姿态数据和第一姿态数据融合为融合姿态数据,融合姿态数据作为表示声场方位的单一旋转信息,可以直接作为音效算法的输入,相比于采用负载的数据表示声场方位,该实施例能够降低计算量。

作为一种可实现的方式,在将第一姿态数据和第四姿态数据融合,以得到表示声场方位的融合姿态数据之前,方法还包括:基于终端在历史时刻下的历史姿态数据和耳机在历史时刻下的历史姿态数据,计算用户在使用耳机时的稳定度;具体地,可以基于终端在历史时刻下的历史姿态数据提取第一稳定度特征,基于耳机在历史时刻下的历史姿态数提取第二稳定特征,然后基于第一稳定度特征和第二稳定特征计算使用耳机的用户在当前场景下的稳定度;其中,第一稳定度特征和第二稳定度特征的种类均有多种,第一稳定度特征和第二稳定度特征均可以包括过零率(zero-crossing rate,ZCR)、能量和峰谷数中的至少一个,过零率是指一个信号的符号变化的比率,例如信号从正数变成负数或反向,能量是指曲线的最大振幅,峰谷数是指曲线的波峰和波谷的数量;通常情况下,过零率越小,稳定度越高;能量越小,稳定度越高;峰谷数越少,稳定度越高。

相应地,将第一姿态数据和第四姿态数据融合,以得到表示声场方位的融合姿态数据包括:在稳定度满足条件的情况下,将第一姿态数据和第四姿态数据融合,以得到表示声场方位的融合姿态数据;稳定度满足条件的情况可以称为稳定态;其中,条件通常是一个阈值,当稳定度大于阈值时,则将第四姿态数据和第一姿态数据融合。

在跑步等剧烈运动的场景中,即使将第四姿态数据和第一姿态数据融合,最终产生空间音频的效果也可能不佳,为此,本申请实施例先计算用户当前场景下的稳定度,并在稳定度满足条件的情况下,将第四姿态数据和第一姿态数据融合,保证本申请实施例提供的方法的有效性。

在稳定度不满足条件的情况下(即非稳定态),可以将预先设置的姿态数据作为融合姿态数据,从而省去融合的操作,避免不必要的计算,节省时间。

作为一种可实现的方式,将第一姿态数据和第四姿态数据融合,以得到表示声场方位的融合姿态数据包括:对第一姿态数据和第四姿态数据进行坐标系统一,对第一姿态数据和第四姿态数据进行坐标系统一的方法有多种,本申请实施例对此不做具体限定;例如,可以仅对第一姿态数据进行坐标系变换,以将第一姿态数据变换到第四姿态数据所在的坐标系中,从而实现坐标系统一;例如,可以仅对第四姿态数据进行坐标系变换,以将第四姿态数据变换到第一姿态数据所在的坐标系中,从而实现坐标系统一;再例如,还可以对第一姿态数据和第四姿态数据都进行坐标系变换,从而实现坐标系统一;然后基于经过坐标系统一后的第一姿态数据和第四姿态数据,计算表示声场方位的融合姿态数据。

由于第一姿态数据和第四姿态数据所在的坐标系可能不同,因此本申请实施例对第一姿态数据和第四姿态数据进行坐标系统一,以防止坐标系不统一导致融合姿态数据不准确。

作为一种可实现的方式,对第一姿态数据和第四姿态数据进行坐标系统一包括:基于第一姿态数据计算耳机相对于重力方向的侧倾角,侧倾角可以理解为在垂直于竖直站立的身体且朝身体右侧或左侧的方向上,耳机与重力方向之间的夹角;基于侧倾角对第一姿态数据进行坐标系变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

由于用户最开始戴耳机并在终端上操作以开始播放音频时,终端通常是正对用户身体的,即位于初始位置的终端在垂直于竖直站立的身体且朝身体右侧或左侧的方向上,与重力方向是重合的,也可以说与重力方向的侧倾角为零;而不管是头戴式耳机,还是入耳式耳机,在戴在用户头部上后,通常相对于重力方向具有一定的侧倾角。

那么,基于终端的初始位置建立的终端机体坐标系,与基于耳机的初始位置建立的耳机机体坐标系之间存在一定的侧倾角差;又由于终端相对于重力方向的侧倾角为零,所以可以对第一姿态数据进行变换,以消除终端和耳机的侧倾角的差值,使得第一姿态数据和第四姿态数据的坐标系统一,保证融合姿态数据的准确性。

作为一种可实现的方式,对第一姿态数据和第四姿态数据进行坐标系统一包括:基于第四姿态数据计算终端相对于重力方向的第一前倾角;基于第一姿态数据计算耳机相对于重力方向的第二前倾角;其中,第一前倾角可以理解为在垂直于竖直站立的身体且朝前的方向上,终端与重力方向之间的夹角;第二前倾角可以理解为在垂直于竖直站立的身体且朝前的方向上,戴在头部的耳机与重力方向之间的夹角;基于第一前倾角和第二前倾角的差值对第四姿态数据进行坐标系变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

由于用户最开始戴耳机并在终端上操作以开始播放音频时,位于初始位置的终端相对于重力方向通常具有第一前倾角;并且,此时用户的头部通常是前倾的而不是竖直的,因此位于初始位置的耳机相对于重力方向通常具有第二前倾角。

那么,基于终端的初始位置建立的终端机体坐标系,与基于耳机的初始位置建立的耳机机体坐标系之间存在一定的前倾角差,因此,可以基于第一前倾角和第二前倾角的差值对第四姿态数据进行变换,以消除第一前倾角和第二前倾角间的差值。

第二方面,本申请实施例提供了一种音频数据的处理方法,包括:获取耳机在第二时刻的第二姿态数据;具体地,可以通过耳机中的加速度传感器、陀螺仪传感器采集第一传感器数据,然后基于第一传感器数据并通过姿态解算算法计算耳机在第二时刻的第二姿态数据通过第一模型基于第二姿态数据预测耳机在第一时刻的第三姿态数据,第一时刻晚于第二时刻;向终端发送第三姿态数据,以使得终端通过第二模型基于第三姿态数据得到耳机在第一时刻的第一姿态数据,并基于第一姿态数据对目标时间段内播放的音频数据进行处理,目标时间段与第二时刻存在关联关系,该关联关系可以通过关联关系表约定,也可以不同关联关系表约定;例如,目标时间段可以是以第二时刻为中间时刻的一个时间区间,也可以是第二时刻至第一时刻之间的时间区间;第一模型的精度低于第二模型。

第二模型可以是精度高于第一模型的任意模型,例如,第一模型可以是采用线性回归预测法建立的,具体可以是采用多项式回归预测的方法建立,第二模型可以是深度学习模型。

由于耳机的计算能力有限,因此若由耳机预测得到第一姿态数据,那么可能造成第一姿态数据不准确;因此在该实施例中,由耳机先计算得到第二时刻的第二姿态数据,然后通过第一模型预测得到第三姿态数据,并将第三态数据传输给终端,由终端通过第二模型预测得到第一姿态数据,以提高第一姿态数据的准确性。

作为一种可实现的方式,第一模型是采用线性回归预测法建立的。

第三方面,本申请实施例提供了一种音频数据的处理装置,该音频数据的处理装置可以为终端或耳机,包括:第一获取单元,用于获取耳机在第一时刻的第一姿态数据,第一姿态数据是基于耳机在第二时刻的第二姿态数据预测得到的,第一时刻晚于第二时刻;空间音效处理单元,用于基于第一姿态数据对目标时间段内播放的音频数据进行空间音效处理,目标时间段与第二时刻存在关联关系。

作为一种可实现的方式,第一获取单元,用于获取耳机在第一时刻的第三姿态数据,第三姿态数据是通过第一模型基于耳机在第二时刻的第二姿态数据预测得到的;通过第二模型基于第三姿态数据预测耳机在第一时刻的第一姿态数据,第三姿态数据为第二模型的输入,第一模型的精度低于第二模型。

作为一种可实现的方式,深度学习模型是基于多种运动状态下的样本数据训练得到的,多种运动状态包括匀速转头、变速转头、走路转头、坐着转头、站立转头和乘车转头中的至少两种,每种运动状态下的样本数据包括参考耳机在多个训练时刻的样本姿态数据。

作为一种可实现的方式,第一获取单元,用于获取耳机在第二时刻的第二姿态数据;基于第二姿态数据预测耳机在第一时刻的第一姿态数据。

作为一种可实现的方式,该装置还包括第三获取单元,用于获取终端在第二时刻的第四姿态数据;空间音效处理单元,用于将第一姿态数据和第四姿态数据融合,以得到表示声场方位的融合姿态数据;基于融合姿态数据和音效调节算法对目标时间段内播放的音频数据进行空间音效处理,融合姿态数据为音效调节算法的输入。

作为一种可实现的方式,该装置还包括稳定度计算单元,用于基于终端在历史时刻下的历史姿态数据和耳机在历史时刻下的历史姿态数据,计算用户在使用耳机时的稳定度;空间音效处理单元,用于在稳定度满足条件的情况下,将第一姿态数据和第四姿态数据融合,以得到表示声场方位的融合姿态数据。

作为一种可实现的方式,空间音效处理单元,用于对第一姿态数据和第四姿态数据进行坐标系统一;基于经过坐标系统一后的第一姿态数据和第四姿态数据,计算表示声场方位的融合姿态数据。

作为一种可实现的方式,空间音效处理单元,用于基于第一姿态数据计算耳机相对于重力方向的侧倾角;基于侧倾角对第一姿态数据进行坐标系变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

作为一种可实现的方式,空间音效处理单元,用于基于第四姿态数据计算终端相对于重力方向的第一前倾角;基于第一姿态数据计算耳机相对于重力方向的第二前倾角;基于第一前倾角和第二前倾角的差值对第四姿态数据进行坐标系变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

第四方面,本申请实施例提供了一种音频数据的处理装置,该音频数据的处理装置可以为耳机,包括:第三获取单元,用于获取耳机在第二时刻的第二姿态数据;预测单元,用于基于第二姿态数据预测耳机在第一时刻的第三姿态数据,第一时刻晚于第二时刻;发送单元,用于向终端发送第三姿态数据,以使得终端基于第三姿态数据得到耳机在第一时刻的第一姿态数据,并基于第一姿态数据对目标时间段内播放的音频数据进行处理,目标时间段与第二时刻存在关联关系。

作为一种可实现的方式,第一模型是采用线性回归预测法建立的。

第五方面,本申请实施例提供了一种移动设备,包括:存储器和处理器,其中,存储器用于存储计算机可读指令;处理器用于读取计算机可读指令并实现如第一方面和第二方面中的任意一种实现方式。

作为一种可实现的方式,该移动设备为耳机或者手持终端。

本申请实施例第六方面提供一种包括计算机指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得计算机执行如第一方面至第五方面中的任意一种实现方式。

本申请实施例第七方面提供一种计算机可读存储介质,包括计算机指令,当计算机指令在计算机上运行时,使得计算机执行如第一方面和第二方面中的任意一种实现方式。

本申请实施例第八方面提供了一种芯片系统,该芯片系统包括处理器和接口,所述接口用于获取程序或指令,所述处理器用于调用所述程序或指令以实现或者支持网络设备实现第一方面和/或第二方面所涉及的功能,例如,确定或处理上述方法中所涉及的数据和信息中的至少一种。

在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存网络设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。

本申请实施例第八方面提供了一种音频系统,音频系统包括如第五方面中的移动设备。

附图说明

图1为本申请实施例中音频系统的第一实施例示意图;

图2为本申请实施例中音频系统的第二实施例示意图;

图3为本申请实施例提供了一种音频数据的处理方法的一个实施例的示意图;

图4为本申请实施例中计算稳定度的一个实施例的流程示意图;

图5为本申请实施例提供了一种音频数据的处理方法的另一个实施例的示意图;

图6为本申请实施例中预测第二姿态数据的实施例示意图;

图7为本申请实施例中计算稳定度的另一个实施例的流程示意图;

图8为本申请实施例中融合姿态数据的流程示意图;

图9为本申请实施例中姿态数据变换的实施例示意图;

图10为本申请实施例中基于变换后姿态数据计算表示声场方位的融合姿态数据的实施例示意图;

图11为本申请实施例中音频数据的处理过程示意图;

图12为本申请实施例中音频系统的第三实施例示意图;

图13为本申请实施例提供了一种音频数据的处理方法的一个实施例的示意图;

图14为本申请实施例提供了一种音频数据的处理方法的另一个实施例的示意图;

图15为本申请实施例提供了一种移动设备的一个实施例的示意图。

具体实施方式

下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。

另外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。本申请中的术语“和/或”或字符“/”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,或A/B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。

本申请实施例可以应用于图1所示的音频系统中,该音频系统包括通信连接的终端设备和耳机,其中,终端设备也可以简称为终端,下文以终端代替终端设备进行说明。

通信连接可以是有线通信连接,也可以为无线通信连接;当通信连接为无线通信连接时,通信连接具体可以为无线蓝牙通信连接,此时,耳机则可以称为无线蓝牙耳机,示例性地,耳机可以为真正无线立体声(True Wireless Stereo,TWS)无线蓝牙耳机。下文以无线通信为例对本申请实施例进行介绍。

终端可以是能够与耳机进行通信的任意终端,例如,终端可以是智能手机、平板电脑、电脑等。

耳机可以是耳塞式耳机,也可以是头戴式耳机;耳塞式耳机又包括入耳式耳机和半入耳式耳机。

下面结合图2对图1所示的音频系统进行进一步说明。

如图2所示,该音频系统包括智能终端和智能耳机,在该音频系统中,智能终端和智能耳机通过无线蓝牙通信连接。

具体地,智能终端具体包括音乐播放器1001、视频播放器1002、音频解码器1003、音效算法模块1004、第一蓝牙模块1005。

其中,音乐播放器1001或视频播放器1002用于产生需要播放的音频数据源(在图2中采用SRC表示),该音频数据源通常以固定格式的音乐文件存储在智能终端中;音频解码器1003对固定格式的音乐文件解码,以得到多通道的音频数据(具体可以为多通道的信号);音效算法模块1004用于通过音效算法对音频数据进行调节,以使得音频数据产生不同的音效;第一蓝牙模块1005用于对调节好的音频数据压缩编码,并用于将压缩编码后的音频数据发送给智能耳机。

智能耳机包括第二蓝牙模块1006和音乐播放器件1007。

其中,第二蓝牙模块1006用于接收来自第一蓝牙模块1005的音频数据,并用于将接收到的音频数据解压缩为完整的音频数据;音乐播放器件1007用于播放解压缩得到的音频数据,以使得用户能够在耳机中听到音乐。

基于上述音频系统,若想产生空间音频的效果,音效算法模块1004需要基于用户能够听到的声场的方位信息对音频数据进行调节,以使得调节后的音频数据能够产生空间音频的效果;相应地,第二蓝牙模块1006解压缩得到的是经过调节的音频数据,并由音乐播放器件1007播放以在用户的头部周围产生空间音频的效果。

声场的方位信息通常是基于头部的运动数据得到的,理想情况下,基于声场的方位信息调节得到的音频数据恰巧能在用户的头部周围产生空间音频的效果。

然而,第二蓝牙模块1006接收来自第一蓝牙模块1005的音频数据的过程存在固定的时延,尽管这段时延可能较短,但在这段时延内,用户的头部的运动数据也可能发生改变;用户的头部的运动数据一旦发生改变,意味着用户头部的位置发生改变,将导致基于声场的方位信息调节得到的音频数据,无法在位置发生改变后的头部周围产生较好的间音频的效果。

为此,本申请实施例提供了一种音频数据的处理方法,在该方法中,对用户头部的运动数据进行了预测,以得到用户的头部在未来时刻的运动数据,然后基于用户的头部在未来时刻的运动数据对音频数据进行处理,相当于对音频数据传输过程中的固定时延进行了补偿;这样,即使在未来时刻用户头部的位置发生改变而导致用户的头部的运动数据发生改变,经过处理的音频数据也能在位置发生改变后的头部周围产生较好的间音频的效果。

需要说明的是,在本申请实施例中,采用耳机的姿态数据表示用户头部的运动数据。

下面对本申请实施例提供的音频数据的处理方法进行具体介绍。

如图3所示,本申请实施例提供了一种音频数据的处理方法的一个实施例,该实施例是应用于终端,具体包括:

步骤201,获取终端在第二时刻的第四姿态数据。

第二时刻可以理解为用户使用耳机的当前时刻。

第四姿态数据可以理解为表示终端运动的数据,而终端在三维空间内的运动也可以理解为终端在三维空间内的旋转,相应地,第四姿态数据则用于表示终端的旋转。

用于表示旋转的第四姿态数据的形式可以有多种,例如,第四姿态数据的形式可以包括欧拉角、旋转矩阵、轴角或四元数(Quaternion)。

四元数是一个数学概念,是简单的超复数,具体由实数加上三个虚数单位组成,对于三个虚数单位本身的几何意义,可以将于三个虚数单位理解为一种旋转,作为用于描述现实空间的坐标的表示方式。

同样地,下文提及的各种姿态数据都可以是欧拉角、旋转矩阵、轴角和四元数中的一种,下文以四元数为例进行描述。

获取第四姿态数据的方式有多种,示例性地,获取第四姿态数据包括:获取终端中的传感器采集到的终端在第二时刻的第五传感器数据,该第五传感器数据用于描述终端的旋转情况;基于第五传感器数据计算终端在第二时刻的第四姿态数据。

如图4所示,具体可以通过终端中的加速度传感器、陀螺仪传感器采集终端的传感器数据,然后基于该终端的传感器数据并通过姿态解算算法计算终端在第二时刻的第四姿态数据。

姿态解算也叫做姿态分析、姿态估计、姿态融合。姿态解算是根据惯性测量单元(Inertial measurement unit,IMU)的数据求解出目标物体的空中姿态,所以姿态解算也叫做IMU数据融合。

其中,惯性测量单元可以理解为测量物体三轴姿态角(或角速率)以及加速度的装置。一般情况下,一个IMU包含了三个单轴的加速度传感和三个单轴的陀螺仪传感器,用于测量物体在三维空间中的角速度和加速度。

本申请实施例采用phoneQ表示第四姿态数据,第四姿态数据可以通过公式headQ=IMUCalc(ax,ay,az,gx,gy,gz)计算,其中,IMUCalc为通过传感器数据得到四元数的姿态解算算法,ax,ay,az为3轴的加速度传感器的读数,gx,gy,gz为3轴的陀螺仪传感器的读数。

需要说明的是,第四姿态数据是指终端在终端机体坐标系中的数据;除此之外,还可以获取终端在世界坐标系中的姿态数据,该姿态数据用于下文中的坐标系变换。

具体地,可以通过终端中的加速度传感器、陀螺仪传感器以及磁力计传感器采集终端的传感器数据,然后基于该传感器数据并通过姿态解算算法计算终端在世界坐标系中的姿态数据。

本申请实施例采用remapQ表示终端在世界坐标系中的姿态数据,第四姿态数据可以通过公式remapQ=IMUCalc(ax,ay,az,gx,gy,gz,mx,my,mz)计算,其中,IMUCalc为通过传感器数据得到四元数的姿态解算算法,ax,ay,az为3轴的加速度传感器的读数,gx,gy,gz为3轴的陀螺仪传感器的读数,mx,my,mz为3轴的磁力计传感器的读数。

另外需要说明的是,由于可以仅用耳机的第一姿态数据对音频数据进行处理,所以步骤201是可选的。

步骤202,获取耳机在第一时刻的第一姿态数据,第一姿态数据是基于耳机在第二时刻的第二姿态数据预测得到的,第一时刻晚于第二时刻。

由于第一时刻晚于第二时刻,所以第一时刻的传感器数据是无法直接获取的,所以也无法通过传感器数据计算第一姿态数据;因此,本申请实施例通过预测得到第一姿态数据。

其中,第一时刻可以是晚于第二时刻的任意一个时刻,即未来的某一时刻,为了保证预测的准确性,第一时刻通常比较接近第二时刻;例如第二时刻为0.01s,第一时刻为0.02s。

需要说明的是,第一姿态数据可以由耳机预测得到,也可以由终端预测得到。

具体地,作为一种可实现的方式,第一姿态数据可以由耳机预测得到,相应地,步骤202包括:

接收由耳机发送的耳机在第一时刻的第一姿态数据,第一姿态数据是由耳机预测得到的。

由于预测第一姿态数据需要用到多个传感器采集到的传感器数据,除此之外还可能需要耳机侧的某些参数,所以若由终端进行预测,则需要将上述数据都传输给终端,这会占用耳机和终端之间有限的传输通道;为此,在该实施例中,由耳机预测得到第一姿态数据,可以节省耳机和终端之间有限的传输通道,并且可以防止传输较多数据而导致较大的时延,即可以降低传输的时延。

更重要的是,由于第一姿态数据是由耳机预测得到的,所以即使终端不具备预测姿态数据能力,也能够实现空间音频的效果。

作为一种可实现的方式,第一姿态数据也可以由终端预测得到,相应地,步骤202包括:

接收由耳机发送的耳机在第二时刻的第二姿态数据;

基于第二姿态数据预测耳机在第一时刻的第一姿态数据。

需要说明的是,由于耳机的计算能力有限,因此若由耳机预测得到第一姿态数据,那么可能造成第一姿态数据不准确;因此在该实施例中,由耳机先计算得到第二时刻的第二姿态数据,然后将第二态数据传输给终端,由终端预测得到第一姿态数据;这样,不仅可以防止传输大量的数据而产生较大的时延,而且由计算能力较强的终端预测第一姿态数据,能够提高第一姿态数据的准确性。

除了上述两种可实现的方式外,作为另外一种可实现的方式,第一姿态数据还可以由终端和耳机共同预测得到,具体地,耳机基于第二姿态数据预测耳机在第一时刻的第三姿态数据,终端基于第三姿态数据预测耳机在第一时刻的第一姿态数据,下文会对该过程进行具体说明。

在前述两种可实现的方式中,耳机预测得到第一姿态数据的过程可参照该实施例中耳机预测第三姿态数据的过程进行理解,终端预测第一姿态数据的过程可以参照该实施例中终端预测第一姿态数据的过程进行理解。

本申请实施例对执行步骤201和步骤202的先后顺序不做具体限定。

步骤203,基于第一姿态数据对目标时间段内播放的音频数据进行空间音效处理,目标时间段与第二时刻存在关联关系。

其中,经过处理后的音频数据用于产生空间音频效果。

目标时间段与第二时刻存在关联关系,也可以理解为,可以基于第二时刻确定目标时间段。

目标时间段与第二时刻的关联关系有多种,本申请实施例对此不做具体限定;例如,目标时间段可以是以第二时刻为中间时刻的一个时间区间,例如,第二时刻为0.01s,目标时间段则可以是0.005s至0.0015s。

作为一种可实现的方式,目标时间段是由第二时刻、传感器的采样周期确定的;例如,传感器数据是在第0.01s(第二时刻)采集到的,然后得到第0.01s的第二姿态数据,再通过步骤202得到在第0.02s(第一时刻)的第一姿态数据;而传感器的采样周期是0.01s,这就意味着传感器在第0.02s会再次采集传感器数据,则目标时间段可以是再次采集数据之间的这段时间,即0.01s至0.02s。

需要说明的是,在某些场景下,耳机的姿态数据并不能真实地反映出头部的运动情况;例如,在乘车场景下,当汽车转弯时,耳机的姿态数据会发生变化,且指示用户的头部发生旋转,但实际上用户的头部并没有发生旋转。

由于用户能够听到的声场是相对于头部来说的,所以在用户的头部没有发生旋转的情况下,用户能够听到的声场的方位信息也是未发生变化的;此时,若仅基于变化后的耳机的姿态数据确定声场的方位信息,会得到发生变化的声场的方位信息,基于变化后的声场的方位信息对音频数据处理后,音频数据将无法在用户的头部周围产生较好的空间音频效果。

而终端的姿态数据能够反映出用户的运动情况,将耳机的姿态数据和终端的姿态数据结合,便能确定用户的头部实际上是否发生旋转,进而可以确定较准确的声场的方位信息。

基于此,步骤203可以包括:基于第四姿态数据和第一姿态数据对目标时间段内播放的音频数据进行空间音效处理。

基于第四姿态数据和第一姿态数据能够较准确地确定用户能够听到的声场的方位信息,然后基于声场的方位信息并采用音效算法对音频数据进行处理,以使得经过处理后的音频数据能够产生较好的空间音频效果,下文会对次进行具体说明。

由于本申请实施例基于预测的第一姿态数据对音频数据进行处理,而在预测过程中会考虑耳机在接收音频数据的过程中头部发生移动的情况,所以即使接收音频数据的过程中,用户的头部发生移动而导致耳机的实际姿态数据相对于第二时刻的姿态数据发生了变化,基于预测的第一姿态数据处理后的音频数据也能够在用户的头部周围产生空间音频的效果,避免了基于耳机在第二时刻的姿态数据对音频数据进行处理,无法在用户的头部发生移动的情况下产生较好。

另外,目前有的方法是通过额外的设备(例如虚拟现实(Virtual Reality,VR)设备)来追踪用户的头部,以得到比较精准的姿态数据,从而提高空间音频的效果;而本申请实施例是通过预测耳机在第一时刻第一姿态数据,来对音频数据传输过程中的固定时延进行补偿,从而提高空间音频的效果,不仅节省成本,而且不需要额外的设备,能够适用于大多数场景。

本申请实施例是通过预测耳机在第一时刻第一姿态数据,来对音频数据传输过程中的固定时延进行补偿,降低了对终端和耳机之间数据传输时延的要求,即终端和耳机通过普通蓝牙通信方式通信,也能够使用户获得较好的空间音频效果。

下面结合图5介绍音频数据的处理方法的另一个实施例,在该实施例中,可以由终端和耳机共同预测得到第一姿态数据。

具体地,如图5所示,该实施例包括:

步骤301,获取耳机在第二时刻的第二姿态数据。

示例性地,步骤301包括:

获取传感器采集到的耳机在第二时刻的第一传感器数据,第一传感器数据用于描述耳机的旋转情况;

基于第一传感器数据计算耳机在第二时刻的第二姿态数据。

如图6所示,具体可以通过耳机中的加速度传感器、陀螺仪传感器采集第一传感器数据,然后基于第一传感器数据并通过姿态解算算法计算耳机在第二时刻的第二姿态数据。

本申请实施例采用headQ表示第四姿态数据,第四姿态数据可以通过公式headQ=IMUCalc(ax,ay,az,gx,gy,gz)计算,其中,IMUCalc为通过传感器数据得到四元数的姿态解算算法,ax,ay,az为3轴的加速度传感器的读数,gx,gy,gz为3轴的陀螺仪传感器的读数。

步骤302,通过第一模型基于第二姿态数据预测耳机在第一时刻的第三姿态数据。

需要说明的是,预测第三姿态数据的方法有多种,本申请实施例对此不做具体限定;然而,基于前文的说明可知,耳机的计算能力是有限的,因此在该实施例中,耳机通过精度较低的第一模型预测第三姿态数据。

由于第一模型精度低,所以模型的结构较简单,所需的参数也较少,这样,第一模型占用的空间小,所需的计算量也少,尤其适用于存储空间和计算能力都有限的耳机。

作为一种可实现的方式,第一模型是采用线性回归预测法建立的。

具体地,步骤302包括:

基于第二姿态数据以及耳机在多个第三时刻的第五姿态数据,并采用根据线性回归预测法建立的第一模型,预测耳机在第一时刻的第三姿态数据,第三时刻早于第二时刻。

需要说明的是,每个时刻对应一个第五姿态数据,多个第三时刻对应多个第五姿态数据;由于每个第三时刻早于第二时刻,所以多个第三时刻的第五姿态数据也可以理解为以第二时刻为基准,过去一段时间内的耳机的姿态数据。

线性回归预测法就是寻找变量之间的因果关系,并将这种关系用数学模型表示出来,通过历史资料计算这两种变量的相关程度,从而预测未来情况的一种方法。

在该实施例中,通过线性回归预测法分析多个第三时刻的第五姿态数据之间的关系,从而可以拟合出耳机的姿态数据的变化曲线;通过该变化曲线可以预测耳机的旋转轨迹,耳机在第一时刻的第三姿态数据可以看成是耳机的旋转轨迹中的一个点。

线性回归预测法有多种,本申请实施例对此不做具体限定,示例性地,本申请实施例采用多项式回归预测的方法建立第一模型。

多项式回归是线性回归的一种,可以理解为回归函数是回归变量多项式的回归;由于任一函数都可以用多项式逼近,因此可以采用多项式回归模拟多种曲线。

多项式回归预测的公式可以表示为

输入数据的长度(即第三时刻的数量)、多项式的阶数以及预测的时刻都可以根据实际需要进行设定。

多项式的系数可以基于多种运动状态下的训练数据得到,多种运动状态包括匀速转头、变速转头、走路转头、坐着转头、站立转头和乘车转头中的至少两种,每种运动状态下的训练数据包括耳机在多个第三时刻的第五姿态数据,第三时刻早于第二时刻。

多种运动状态下的训练数据可以等比例混合,以构成训练数据集合。

需要说明的是,运动状态的种类不仅限于上述运动状态,还可以包括除上述运动状态外的其他运动状态。

基于前述说明可知,用户运动状态的改变能够影响用户所能听到的声场的方位信息,所以在该实施例中,基于多种运动状态下的训练数据得到多项式的系数,能够提高多项式的系数的准确性,进而提高预测到的第三姿态数据的准确性,使得本申请实施例的方法能够适用于多种运动状态的场景,提高本申请实施例的方法的鲁棒性。

在本申请实施例中,尽管线性回归预测法的拟合能力有限,但通过线性回归预测法预测第三姿态数据所需的计算量较低,能够在耳机侧直接执行;这样,就不需要向终端传输大量的数据,只需传输第三姿态数据即可,防止过多地占用终端和耳机之间的通信通道。

步骤303,向终端发送第三姿态数据,以使得终端通过第二模型基于第三姿态数据得到耳机在第一时刻的第一姿态数据,并基于第一姿态数据对目标时间段内播放的音频数据进行处理,目标时间段与第二时刻存在关联关系。

其中,耳机发送第三姿态数据的方式是由终端和耳机的通信方式决定的;例如,耳机可以通过无线蓝牙通信的方式向终端发送第三姿态数据。

相应地,终端接收由耳机发送的耳机在第一时刻的第三姿态数据,第三姿态数据是由耳机预测得到的。

在该实施例中,步骤301至步骤303是在耳机侧执行的。

需要说明的是,终端在接收到第三姿态数据之后,可以将第三姿态数据作为第一姿态数据,这样,第一姿态数据就是由耳机自己预测得到的;而在本申请实施例中,为了得到更准确的第一姿态数据,终端基于第三姿态数据进行进一步地预测,从而得到第一姿态数据。下面对此进行具体介绍。

步骤304,获取终端在第二时刻的第四姿态数据。

需要说明的是,步骤304和步骤201类似,具体可参阅步骤201的相关说明对步骤304进行理解。

步骤305,通过第二模型基于第三姿态数据预测耳机在第一时刻的第一姿态数据,第三姿态数据为第二模型的输入,第一模型的精度低于第二模型。

其中,第二模型可以是精度高于第一模型的任意模型。

示例性地,第二模型可以是深度学习模型。

深度学习模型的种类有很多,本申请实施例对此不做具体限定;例如,深度学习模型可以是循环神经网络(Recurrent Neural Network,RNN),RNN是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点按链式连接的递归神经网络。

相比于线性回归预测的方法,深度学习模型能够增加预测的准确性,使得预测出的第一姿态数据更加准确,从而使得基于第一姿态数据处理后音频数据具有较好的空间音频效果。

深度学习模型的计算公式可以表示为

与线性回归预测所用到训练数据相同,深度学习模型也可以是基于多种运动状态下的训练数据训练得到的,多种运动状态包括匀速转头、变速转头、走路转头、坐着转头、站立转头和乘车转头中的至少两种,每种运动状态下的训练数据包括耳机在多个第三时刻的第五姿态数据,第三时刻早于第二时刻。

在该实施例中,基于多种运动状态下的训练数据训练得到深度学习模型,能够提高深度学习模型的预测准确性,进而提高预测到的第一姿态数据的准确性,使得本申请实施例的方法能够适用于多种运动状态的场景,提高本申请实施例的方法的鲁棒性。

作为一种可实现的方式,步骤305包括:

将第三姿态数据以及耳机在至少一个第三时刻的第五姿态数据输入到深度学习模型,以得到深度学习模型输出的耳机在第一时刻的第一姿态数据,第三时刻早于第二时刻。

第三时刻的数量可以基于深度学习模型的需要设定,而深度学习模型所需的第三时刻的数量是由训练过程决定的;当第三时刻的数量为多个时,每个第三时刻对应一个第五姿态数据,相应地,多个第三时刻的第五姿态数据也可以理解为以第三时刻为基准,过去一段时间内耳机的姿态数据。

其中,第三时刻的第五姿态数据是基于传感器采集到的耳机的传感器数据计算得到的,具体计算过程可参阅第二姿态数据的计算过程进行理解。步骤301至步骤305的过程可以简单概括为图6所示的过程。

如图6所示,耳机基于加速度传感器和陀螺仪传感器采集的传感器数据进行姿态结算,以得到耳机在第二时刻的第二姿态数据并将其缓存;然后耳机基于缓存的第二姿态数据进行线性回归预测,以得到第三姿态数据,并将第三姿态数据发送至终端,由终端基于RNN进行进一步预测,从而得到第一姿态数据。

步骤306,基于终端在历史时刻下的历史姿态数据和耳机在历史时刻下的历史姿态数据,计算用户在使用耳机时的稳定度。

如图4所示,终端在历史时刻下的历史姿态数据和耳机在历史时刻下的历史姿态数据是通过缓存得到的;在缓存之前,基于传感器采集的终端在历史时刻的传感器数据计算得到终端在历史时刻下的历史姿态数据;同样地,在缓存之前,可以是基于传感器采集的耳机在历史时刻下的传感器数据计算得到耳机在历史时刻下的历史姿态数据,此外,耳机在历史时刻下的历史姿态数据也可以是通过步骤305预测得到的。

其中,历史时刻可以是前述实施例中的第三时刻。

计算稳定度的方法有多种,本申请实施例对此不做具体限定;作为一种可实现的方式,如图4所示,步骤306包括:特征提取和稳定度计算。

具体地,如图7所示,步骤306包括:

步骤401,基于终端在历史时刻下的历史姿态数据提取第一稳定度特征。

可以理解的是,历史时刻下的历史姿态数据可以拟合成一条曲线,具体可以基于这条曲线提取第一稳定度特征。

第一稳定度特征的种类有多种,本申请实施例对此不做具体限定,例如,第一稳定度特征包括过零率(zero-crossing rate,ZCR)、能量和峰谷数中的至少一个。

过零率是指一个信号的符号变化的比率,例如信号从正数变成负数或反向。

能量是指曲线的最大振幅,峰谷数是指曲线的波峰和波谷的数量。

步骤402,基于耳机在历史时刻下的历史姿态数提取第二稳定特征。

其中,第二稳定度特征包括过零率、能量和峰谷数中的至少一个。

步骤402与步骤401类似,具体可参阅步骤401的相关说明对步骤402进行理解。

步骤403,基于第一稳定度特征和第二稳定特征计算使用耳机的用户在当前场景下的稳定度。

计算稳定度的方法有多种,本申请实施例对此不做具体限定;通常情况下,过零率越小,稳定度越高;能量越小,稳定度越高;峰谷数越少,稳定度越高。

需要说明的是,稳定度可以用于决定是否将第四姿态数据和第一姿态数据融合,换句话说,可以不进行稳定度的计算,而直接将第四姿态数据和第一姿态数据融合;因此,步骤403是可选地。

步骤307,将第四姿态数据和第一姿态数据融合,以得到表示声场方位的融合姿态数据。

在执行步骤306的情况下,步骤307则包括:在稳定度满足条件的情况下,将第四姿态数据和第一姿态数据融合,以得到表示声场方位的融合姿态数据。

稳定度满足条件的情况可以称为稳定态;其中,条件通常是一个阈值,当稳定度大于阈值时,则将第四姿态数据和第一姿态数据融合。

需要说明的是,在跑步等剧烈运动的场景中,即使将第四姿态数据和第一姿态数据融合,最终产生空间音频的效果也可能不佳,为此,本申请实施例先计算用户当前场景下的稳定度,并在稳定度满足条件的情况下,将第四姿态数据和第一姿态数据融合,保证本申请实施例提供的方法的有效性。

在稳定度不满足条件的情况下(即非稳定态),可以将预先设置的姿态数据作为融合姿态数据,从而省去融合的操作,避免不必要的计算,节省时间。

除此之外,由于该实施例仅对用户的运动状态进行了稳定态和非稳定态的区分,所以只要用户在当前场景下的运动状态为稳定态,那么便可以对第四姿态数据和第一姿态数据融合,以得到表示声场方位的融合姿态数据;而目前的方法通常需要区分走路、站立、跑步等多种运动状态,并基于不同的运动状态执行不同的操作以得到表示声场方位的数据,相比之下,该实施例较为简便、复杂度低,从而可以较快地确定表示声场方位的姿态数据,降低耳机播放音频数据的时延。

下面对第四姿态数据和第一姿态数据的融合过程进行具体说明。

可以理解的是,第四姿态数据是相对于终端机体坐标系来说的,而第一姿态数据是相对于耳机机体坐标系来说的,所以若要将第四姿态数据和第一姿态数据融合,首先要将第四姿态数据和第一姿态数据变换(也可以称为统一)到同一坐标系下,本申请实施例将该坐标系称为目标坐标系;将第四姿态数据和第一姿态数据变换到同一坐标系的过程,也可以理解为终端机体坐标系和耳机机体坐标系的校准对其过程,或是可以理解为坐标系动态水平转换的过程。具体地,作为一种可实现的方式,如图8所示,步骤307包括:

对第一姿态数据和第四姿态数据进行坐标系统一;

基于经过坐标系统一后的第一姿态数据和第四姿态数据,计算表示声场方位的融合姿态数据。

对第一姿态数据和第四姿态数据进行坐标系统一的方法有多种,本申请实施例对此不做具体限定。

作为一种可实现的方式,可以仅对第一姿态数据进行坐标系变换,以将第一姿态数据变换到第四姿态数据所在的坐标系中,从而实现坐标系统一。

作为另一种可实现的方式,可以仅对第四姿态数据进行坐标系变换,以将第四姿态数据变换到第一姿态数据所在的坐标系中,从而实现坐标系统一。

除此之外,还可以对第一姿态数据和第四姿态数据都进行坐标系变换,从而实现坐标系统一。

示例性地,对第一姿态数据和第四姿态数据进行坐标系统一的方法可以包括:

步骤501,对第四姿态数据进行坐标系变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

示例性地,步骤501包括:

基于第四姿态数据计算终端相对于重力方向的第一前倾角;

基于第一姿态数据计算耳机相对于重力方向的第二前倾角;

基于第一前倾角和第二前倾角的差值对第四姿态数据进行变换,以得到位于目标坐标系中的第六姿态数据。

其中,第一前倾角可以理解为在垂直于竖直站立的身体且朝前的方向上,终端与重力方向之间的夹角;第二前倾角可以理解为在垂直于竖直站立的身体且朝前的方向上,戴在头部的耳机与重力方向之间的夹角。

可以理解的是,用户最开始戴耳机并在终端上操作以开始播放音频时,位于初始位置的终端相对于重力方向通常具有第一前倾角;并且,此时用户的头部通常是前倾的而不是竖直的,因此位于初始位置的耳机相对于重力方向通常具有第二前倾角。

那么,基于终端的初始位置建立的终端机体坐标系,与基于耳机的初始位置建立的耳机机体坐标系之间存在一定的前倾角差,因此,可以基于第一前倾角和第二前倾角的差值对第四姿态数据进行变换,以消除第一前倾角和第二前倾角间的差值。

具体地,可以基于第一前倾角和第二前倾角的差值得到用于坐标系变换的中间数据,然后基于该中间数据对第四姿态数据所在的坐标系进行变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

第一前倾角和第二前倾角的差值可以基于前文中的终端的世界坐标系确定,具体确定过程为较成熟的技术,在此不做详述。

需要说明的是,在上述实施例中,是基于第一前倾角和第二前倾角的差值对第四姿态数据进行变换,除此之外,还可以基于第一前倾角和第二前倾角的差值对第一姿态数据进行变换;简而言之,只要将第四姿态数据和第一姿态数据第四姿态数据和第一姿态数据变换到同一目标坐标系下即可。

步骤502,对第一姿态数据进行坐标系变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

示例性地,步骤502包括:

基于第一姿态数据计算耳机相对于重力方向的侧倾角;

基于侧倾角对第一姿态数据进行变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

侧倾角可以理解为在垂直于竖直站立的身体且朝身体右侧或左侧的方向上,耳机与重力方向之间的夹角。

可以理解的是,用户最开始戴耳机并在终端上操作以开始播放音频时,终端通常是正对用户身体的,即位于初始位置的终端在垂直于竖直站立的身体且朝身体右侧或左侧的方向上,与重力方向是重合的,也可以说与重力方向的侧倾角为零;而不管是头戴式耳机,还是入耳式耳机,在戴在用户头部上后,通常相对于重力方向具有一定的侧倾角。

那么,基于终端的初始位置建立的终端机体坐标系,与基于耳机的初始位置建立的耳机机体坐标系之间存在一定的侧倾角差;又由于终端相对于重力方向的侧倾角为零,所以可以对第一姿态数据进行变换,以消除终端和耳机的侧倾角的差值。

具体地,可以基于侧倾角得到用于坐标系变换的中间数据,然后基于该中间数据对第一姿态数据所在的坐标系进行变换。

下面结合图9对上述过程进行说明。

如图9所示,在手机侧,基于手机四元数Qphone(即第四姿态数据)进行重力倾角计算,以得到第一前倾角;基于耳机四元数Qhead(即第一姿态数据)进行重力倾角计算,以得到第二前倾角;基于第一前倾角和第二前倾角计算用于对第四姿态数据所在的坐标系进行坐标系变换的中间数据Q

基于耳机四元数Qhead进行侧倾角计算,以得到侧倾角,然后基于侧倾角计算用于对第一姿态数据所在的坐标系进行坐标系变换的中间数据Q

其中,中间数据Q

然后,可以基于公式

当上述公式中的Q

步骤503,基于经过坐标系统一后的第一姿态数据和第四姿态数据,计算表示声场方位的融合姿态数据。

下面结合图10对步骤503进行具体说明。

如图10所示,在场景稳定度S满足条件的情况下,将变换后的手机四元数Qphone(即第四姿态数据经过变换后的姿态数据)以及变换后的耳机四元数Qhead(即第一姿态数据经过变换后的姿态数据)输入到融合系统,以得到声场位姿数据Q

步骤308,基于融合姿态数据和音效调节算法对目标时间段内播放的音频数据进行空间音效处理,融合姿态数据为音效调节算法的输入。

需要说明的是,目前有的方法是将采用复杂的数据表示声场的方位信息,例如,直接将第四姿态数据和第一姿态数据作为表示声场的方位信息,或者基于第四姿态数据和第一姿态数据进行复杂的计算以得到声场的方位信息;而本申请实施例中是将第四姿态数据和第一姿态数据融合为融合姿态数据,融合姿态数据作为表示声场方位的单一旋转信息,可以直接作为音效算法的输入,相比于采用负载的数据表示声场方位,该实施例能够降低计算量。

并且,本申请实施例是基于耳机侧的线性回归预测和终端侧的深度学习模型预测得到的第一姿态数据,上述的预测过程对设备的要求不高,因此本申请实施例的方法不一定要部署在计算能力较高的设备上,通用性较强。

上面对本申请实施例提供的音频数据的处理方法进行了详细说明,下面结合图11对音频数据的处理过程进行进一步概括。

如图11所示,音频数据的处理过程包括S1旋转动作抽象、S2旋转轨迹预测、S3稳定状态判断以及S4融合系统融合四个方面。

在耳机端,基于耳机IMU数据进行姿态解算(属于S1旋转动作抽象)得到耳机四元数headQ,然后基于耳机四元数headQ进行线性回归低算力预测(属于S2旋转轨迹预测)。

在手机端,基于手机MU数据进行姿态解算(属于S1旋转动作抽象),得到手机四元数phoneQ和remapQ;在基于耳机的线性回归低算力预测的结果进行RNN高算力预测(属于S2旋转轨迹预测),并基于手机四元数phoneQ和耳机四元数headQ进行稳定度分析(属于S3稳定状态判断);最终,基于手机四元数phoneQ和remapQ进行坐标系动态水平转换,然后在稳定度满足条件的情况下,基于RNN高算力预测的结果并采用融合算法进行融合(属于S4融合系统融合),以输出表示声场方位的四元数Qfused。

基于上述说明可知,基于图2所示的音频系统,部署本申请实施例的方法的音频系统可以如图12所示;具体地,终端除了包含图2中终端包含的模块外,还包括手机传感器Sensor2001和手机姿态解算算法模块2002、融合算法模块2006、第一轨迹预测模块2052;耳机除了包含图2中耳机包含的模块外,还包括耳机Sensor2003、耳机姿态解算算法模块2004、第二轨迹预测模块2051。

其中,手机传感器Sensor2001用于采集终端的第二传感器数据;手机姿态解算算法模块2002用于对传感器数据进行姿态解算,以得到第四姿态数据;融合算法模块2006用于将第四姿态数据和第一姿态数据融合;第一轨迹预测模块2052用于基于来自耳机的第三姿态数据,并通过RNN对耳机的运动轨迹进行预测,以得到耳机的第一姿态数据。

耳机Sensor2003用于采集耳机的第二传感器数据;耳机姿态解算算法模块2004用于对传感器数据进行姿态解算,以得到第二姿态数据;第二轨迹预测模块2051用于通过线性回归预测法对耳机的运动轨迹进行预测,以得到耳机的第三姿态数据。

第二蓝牙模块1006还用于向手机传输第三姿态数据,第一蓝牙模块1005还用于接收来自耳机的第三姿态数据。

请参阅图13,本申请实施例提供了一种音频数据的处理装置,该音频数据的处理装置可以为终端或耳机,包括:第一获取单元601,用于获取耳机在第一时刻的第一姿态数据,第一姿态数据是基于耳机在第二时刻的第二姿态数据预测得到的,第一时刻晚于第二时刻;空间音效处理单元603,用于基于第一姿态数据对目标时间段内播放的音频数据进行空间音效处理,目标时间段与第二时刻存在关联关系。

作为一种可实现的方式,第一获取单元601,用于获取耳机在第一时刻的第三姿态数据,第三姿态数据是通过第一模型基于耳机在第二时刻的第二姿态数据预测得到的;通过第二模型基于第三姿态数据预测耳机在第一时刻的第一姿态数据,第三姿态数据为第二模型的输入,第一模型的精度低于第二模型。

作为一种可实现的方式,深度学习模型是基于多种运动状态下的样本数据训练得到的,多种运动状态包括匀速转头、变速转头、走路转头、坐着转头、站立转头和乘车转头中的至少两种,每种运动状态下的样本数据包括参考耳机在多个训练时刻的样本姿态数据。

作为一种可实现的方式,第一获取单元601,用于获取耳机在第二时刻的第二姿态数据;基于第二姿态数据预测耳机在第一时刻的第一姿态数据。

作为一种可实现的方式,该装置还包括第三获取单元602,用于获取终端在第二时刻的第四姿态数据;空间音效处理单元603,用于将第一姿态数据和第四姿态数据融合,以得到表示声场方位的融合姿态数据;基于融合姿态数据和音效调节算法对目标时间段内播放的音频数据进行空间音效处理,融合姿态数据为音效调节算法的输入。

作为一种可实现的方式,该装置还包括稳定度计算单元,用于基于终端在历史时刻下的历史姿态数据和耳机在历史时刻下的历史姿态数据,计算用户在使用耳机时的稳定度;空间音效处理单元603,用于在稳定度满足条件的情况下,将第一姿态数据和第四姿态数据融合,以得到表示声场方位的融合姿态数据。

作为一种可实现的方式,空间音效处理单元603,用于对第一姿态数据和第四姿态数据进行坐标系统一;基于经过坐标系统一后的第一姿态数据和第四姿态数据,计算表示声场方位的融合姿态数据。

作为一种可实现的方式,空间音效处理单元603,用于基于第一姿态数据计算耳机相对于重力方向的侧倾角;基于侧倾角对第一姿态数据进行坐标系变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

作为一种可实现的方式,空间音效处理单元603,用于基于第四姿态数据计算终端相对于重力方向的第一前倾角;基于第一姿态数据计算耳机相对于重力方向的第二前倾角;基于第一前倾角和第二前倾角的差值对第四姿态数据进行坐标系变换,以使得第一姿态数据的坐标系和第四姿态数据的坐标系统一。

如图14所示,本申请实施例提供了一种音频数据的处理装置,该音频数据的处理装置可以为耳机,包括:第二获取单元701,用于获取耳机在第二时刻的第二姿态数据;预测单元702,用于基于第二姿态数据预测耳机在第一时刻的第三姿态数据,第一时刻晚于第二时刻;发送单元703,用于向终端发送第三姿态数据,以使得终端基于第三姿态数据得到耳机在第一时刻的第一姿态数据,并基于第一姿态数据对目标时间段内播放的音频数据进行处理,目标时间段与第二时刻存在关联关系。

作为一种可实现的方式,第一模型是采用线性回归预测法建立的。

本申请实施例还提供了一种移动设备,如图15所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该移动设备可以为包括手机、平板电脑、个人数字助理(英文全称:Personal Digital Assistant,英文缩写:PDA)、销售终端(英文全称:Point of Sales,英文缩写:POS)、车载电脑等任意移动设备,以移动设备为手机为例:

图15示出的是与本申请实施例提供的移动设备相关的手机的部分结构的框图。参考图15,手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称:wireless fidelity,英文缩写:WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图15中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图15对手机的各个构成部件进行具体的介绍:

RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:LowNoise Amplifier,英文缩写:LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:Global System of Mobile communication,英文缩写:GSM)、通用分组无线服务(英文全称:General Packet Radio Service,GPRS)、码分多址(英文全称:CodeDivision Multiple Access,英文缩写:CDMA)、宽带码分多址(英文全称:Wideband CodeDivision Multiple Access,英文缩写:WCDMA)、长期演进(英文全称:Long TermEvolution,英文缩写:LTE)、电子邮件、短消息服务(英文全称:Short Messaging Service,SMS)等。

存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(英文全称:Liquid Crystal Display,英文缩写:LCD)、有机发光二极管(英文全称:Organic Light-Emitting Diode,英文缩写:OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图15中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

在本申请实施例中,该终端所包括的处理器1080还具有以下功能:

获取耳机在第一时刻的第一姿态数据,第一姿态数据是基于耳机在第二时刻的第二姿态数据预测得到的,第一时刻晚于第二时刻;

基于第一姿态数据对目标时间段内播放的音频数据进行空间音效处理,目标时间段与第二时刻存在关联关系。

本申请实施例还提供一种芯片,包括一个或多个处理器。处理器中的部分或全部用于读取并执行存储器中存储的计算机程序,以执行前述各实施例的方法。

可选地,该芯片该包括存储器,该存储器与该处理器通过电路或电线与存储器连接。进一步可选地,该芯片还包括通信接口,处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息,处理器从该通信接口获取该数据和/或信息,并对该数据和/或信息进行处理,并通过该通信接口输出处理结果。该通信接口可以是输入输出接口。

在一些实现方式中,所述一个或多个处理器中还可以有部分处理器是通过专用硬件的方式来实现以上方法中的部分步骤,例如涉及神经网络模型的处理可以由专用神经网络处理器或图形处理器来实现。

本申请实施例提供的方法可以由一个芯片实现,也可以由多个芯片协同实现。

本申请实施例还提供了一种计算机存储介质,该计算机存储介质用于储存为上述计算机设备所用的计算机软件指令,其包括用于执行为车载设备所设计的程序。

该车载设备可以如前述图13对应实施例中音频数据的处理装置或图14对应实施例中音频数据的处理装置。

本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,该计算机软件指令可通过处理器进行加载来实现前述各个实施例所示的方法中的流程。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

技术分类

06120115627953