掌桥专利:专业的专利平台
掌桥专利
首页

与设备外部的所选目标对象相关联的声音的呈现

文献发布时间:2023-06-19 12:02:28


与设备外部的所选目标对象相关联的声音的呈现

根据35U.S.C.§119的优先权要求

本专利申请要求于2019年12月19日提交的名称为“RENDERING OF SOUNDSASSOCIATED WITH SELECTED TARGET OBJECTS EXTERNAL TO A DEVICE”的非临时申请号为16/720,639、以及于2018年12月21日提交的名称为“RENDERING OF SOUNDS ASSOCIATEDWITH SELECTED TARGET OBJECTS EXTERNAL TO A DEVICE”的临时申请号为62/783,887的优先权,这些申请被转让给本申请的受让人,并且在此通过引用明确地并入本文。

技术领域

本申请涉及呈现与第一设备外部的所选目标对象相关联的声音。

背景技术

下文总体上涉及无线通信,并且更具体地涉及车联网控制信道设计。

无线通信系统被广泛部署以提供各种类型的通信内容,诸如语音、视频、分组数据、消息、广播等。这些系统能够通过共享可用系统资源(例如,时间、频率、和功率)来支持与多个用户的通信。这种多址系统的示例包括码分多址(CDMA)系统、时分多址(TDMA)系统、频分多址(FDMA)系统、以及正交频分多址(OFDMA)系统,(例如,长期演进(LTE)系统、或新无线电(NR)系统。

无线多址通信系统可以包括多个基站或网络接入节点,每个基站或网络接入节点同时支持用于多个通信设备的通信,这些通信设备可另外被称为用户设备(UE)。另外,无线通信系统可以包括支持用于基于通信的车辆的网络。例如,车辆到车辆(V2V)和车辆到基础设施(V2I)通信是能够使车辆与其周围环境之间交换数据的无线技术。V2V和V2I共同称为车联网(V2X)。V2X将通信无线链路使用于快速移动的对象,例如像车辆。最近,V2X通信蜂窝V2X(C-V2X)的出现将其与基于WLAN的V2X区分开来。

5G汽车协会(5GAA)已经推广了C-V2X。C-V2X最初在LTE版本14中定义,并且被设计为以多种模式操作:(a)设备到设备(V2V);(b)设备到小区塔(V2I);以及(c)设备到网络(V2N)。在3GPP版本15中,C-V2X包括对V2V和传统的基于蜂窝网络的通信两者的支持,并且功能被扩展以支持5G空中接口标准。C-V2X中的PC5接口允许车辆与其他设备之间的直接通信(经由“侧链路信道”),而不使用基站。

基于车辆的通信网络可以提供始终在线的远程信息处理,在远程信息中,例如车辆UE(v-UE)的UE直接与网络(V2N)、行人UE(V2P)、基础设施设备(V2I)以及其它v-UE(例如,经由网络)进行通信。基于车辆的通信网络可以通过提供智能连接来支持安全、始终连接的驾驶体验,在智能连接中交换交通信号/时序、实时交通和路线、对行人/骑自行车者的安全警报、碰撞避免信息等。

然而,支持基于车辆的通信的这种网络也可以与各种需求相关联,例如通信需求、安全和隐私需求等。其它示例需求可以包括但不限于,减少延迟的需求、更高可靠性的需求等。例如,基于车辆的通信可以包括传送可以支持自动驾驶汽车的传感器数据。传感器数据还可以用在车辆之间来提高自动驾驶汽车的安全性。

V2X和C-V2X允许出现多种应用,包括本公开中描述的应用。

发明内容

总体上,本公开描述了关于呈现与第一设备外部的所选目标对象相关联的声音的技术。在一个示例中,本公开描述了一种用于启动与第二设备通信的第一设备,该第一设备包括一个或多个处理器,该一个或多个处理器被配置为检测第一设备外部的至少一个目标对象的选择,启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。该一个或多个处理器可以被配置为响应于第一设备外部的至少一个目标对象的选择而从第二设备接收音频分组;解码从第二设备接收的音频分组以产生音频信号;并且基于第一设备外部的至少一个目标对象的选择来输出音频信号。第一设备可以还包括耦合到一个或多个处理器的存储器,其被配置为存储音频分组。

在一个示例中,本公开描述了一种启动与第二设备通信的方法,该方法包括检测第一设备外部的至少一个目标对象的选择;启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道;响应于选择设备外部的至少一个目标对象,从第二设备接收音频分组。该方法还包括解码从第二设备接收的音频分组以产生音频信号;并且基于第一设备外部的至少一个目标对象的选择来输出音频信号。

在一个示例中,本公开描述了一种装置,该装置包括用于检测第一设备外部的至少一个目标对象的选择的部件;以及用于启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道的部件。该装置还包括用于响应于选择设备外部的至少一个目标对象,从第二设备接收音频分组的部件。该装置可以还包括用于解码从第二设备接收的音频分组以产生音频信号的部件;以及用于基于第一设备外部的至少一个目标对象的选择来输出音频信号的部件。

在一个示例中,本公开描述了一种装置,该装置包括用于检测第一设备外部的至少一个目标对象的选择的部件;以及用于启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道的部件。该装置还包括用于响应于设备外部的至少一个目标对象的选择,从第二设备接收音频分组的部件。该装置可以还包括用于解码从第二设备接收的音频分组以产生音频信号的部件;以及用于基于第一设备外部的至少一个目标对象的选择来输出音频信号的部件。

在一个示例中,本公开描述了一种存储计算机可执行代码的非暂时性计算机可读介质,该代码可由一个或多个处理器执行以检测第一设备外部的至少一个目标对象的选择,并且启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。该代码在被执行时可致使一个或多个处理器响应于设备外部的至少一个目标对象的选择,从第二设备接收音频分组;解码从第二设备接收的音频分组以产生音频信号。该代码在被执行时可致使一个或多个处理器基于第一设备外部的至少一个目标对象的选择来输出音频信号。

本公开的一个或多个示例的细节在附图和以下的描述中阐明。所述技术的各种方面的其它特征、目标及优点将从描述及附图及权利要求书明显得到。

附图说明

图1a示出了第一设备基于另一设备的选择的检测与另一设备(例如,第二设备)进行通信的概念图。

图1b示出了可以基于另一设备的选择的检测并且由跟踪器辅助来与另一设备(例如,第二设备)进行通信的第一设备的概念图,其中音频通信可以被空间化。

图1c示出了根据本公开中描述的技术的发送和接收无线连接的不同车辆的概念图。

图1d示出了使用车辆内的高速缓存服务器或车辆内的存储器发送和接收无线连接的不同车辆的概念图。

图2示出了根据本公开中描述的技术的第一设备启动与第二设备的通信的过程的流程图。

图3示出了根据本公开中描述的技术操作的、在第一车辆上或第一车辆中具有不同组件的第一车辆的概念图。

图4a示出了根据本公开中描述的技术操作的、在第一设备上或中具有不同组件的第一设备的框图。

图4b示出了根据本公开中描述的技术操作的、在第一设备上或中具有不同组件的第一设备的框图。

图5示出了根据本公开中描述的技术将世界坐标变换到像素坐标的概念图。

图6a示出了远程车辆/乘客(例如第二车辆)的距离和角度的估计的一个实施例的概念图。

图6b示出了远程设备的x-y平面中的距离和角度的估计的概念图。

图6c示出了远程设备的y-z平面中的距离和角度的估计的概念图。

图7a示出了根据本公开中描述的技术的音频空间化器的实施例。

图7b示出了根据本公开描述的技术的包括使用了解码器的音频空间化器的实施例。

图8示出了在第一车辆和所选(远程)车辆中人员的位置可以在相同的坐标系中的实施例。

具体实施方式

某些无线通信系统可以使用来传送与高可靠性和低延迟相关联的数据。这种数据的一个非限制性示例包括C-V2X和V2X通信。例如,自动驾驶汽车可以依赖于无线通信。自动驾驶汽车可以包括一些传感器,例如,光检测和测距(LIDAR)、无线电检测和测距(RADAR)、相机等,这些是视线传感器。然而,C-V2X和V2X通信可以包括视线和非视线无线通信。当前C-V2X和V2X通信是使用非视线无线通信来处理接近公共交叉路口但不在彼此视线内的车辆之间的通信的示例。C-V2X和V2X通信可以用来在车辆之间共享传感器信息。这种和其他通信场景带来某些考虑。例如,对于特定位置或地理区域,可能有几个车辆感测到相同信息(例如障碍物或行人)。这带来了哪个车辆应该广播这样的信息(例如,传感器数据)、如何共享这样的信息(例如,哪个信道配置提供减少的延迟和改善的可靠性)等问题。

C-V2X通信系统可以具有逻辑信道和传输信道。逻辑信道和传输信道可以使作第一设备(例如,头戴式耳机或车辆)与基站或网络中的另一个中间节点之间的上行链路和下行链路数据传输的一部分。本领域普通技术人员可以认识到,逻辑信道可以包括不同类型的控制信道,例如,xBCCH、xCCH、xDCCH。当第一设备从另一实体(例如,服务器或基站)下载广播系统控制信息时,可以使用xBCCH类型的信道。xCCCH控制信道可以用于在第一设备(例如,车辆、移动设备或头戴式耳机)和网络(例如,网络基站中的节点)之间发送控制信息。当第一设备(例如,车辆、移动设备或头戴式耳机)不具有与网络的无线电资源控制连接时,可以使用xCCCH控制信道。xDCCH控制信道包括在第一设备和网络之间的控制信息,并且由具有与网络的无线电资源控制连接的第一设备使用。xDCCH也是双向的,即,控制信息可以由第一设备和网络发送和接收。

通常,在上问提及的不同类型的控制信道中传达的一些信息比特可以提供数据信道(或资源)的位置的指示。由于数据可能跨越多个副载波(取决于所传送的数据量)并且控制信道的大小当前是固定的,因此这可以在控制信道与相应的数据信道之间引入时间/频率的瞬变或间隙。这产生了控制信道的未使用频率/时间资源。可能可以利用未使用频率/时间资源于在车辆之间或设备之间传送媒体的其他目的。还可能可以在V2X或C-V2X系统中创建新信道,具体地,用于在车辆之间或在设备之间交换媒体。

如上所述,车辆使用来自其他领域的许多进展来改善其安全性、信息娱乐系统和整体用户体验。

例如,可以在车辆中使用结合传感器(例如RADAR、LIDAR或计算机视觉)的对象检测算法以在驾驶时执行对象检测。这些对象可以包括道路中的车道、停车标志、其他车辆或行人。一些V2X和C-V2X使用实例设想在车辆与另一对象(例如,汽车、自行车或人)之间可能存在碰撞时协作V2X系统警告车辆或车辆驾驶员。由于V2X和C-V2X系统的相对新生的性质,许多改进尚未被设想。

一个改进领域是在不同车辆中的人之间的通信。尽管一个车辆中的某个人可以与不同车辆中的另一个人通信,但是该通信是通过进行电话呼叫来完成的。电话呼叫的启动者知道要拨打什么电话号码以与其他人通信,然后拨打它。

本公开设想以这样的方式改进,即设备基于使用直接信道通信或对等连接、V2X、或C-V2X通信系统启动发送给所选目标对象的目标对象选择,允许与其他人或其他设备进行通信或听觉体验。

例如,用于与第二设备通信的第一设备可以包括一个或多个处理器,该一个或多个处理器被配置为检测第一设备外部的至少一个目标对象的选择,并且启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。是首先执行第一设备外部的至少一个目标对象的选择,还是启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道,可能不是重要的。它可以取决于这样的背景或情况,信道是否已经建立,以及通信信道的启动是否发生,或者通信信道的启动是否基于第一设备外部的至少一个目标对象的选择的检测。

例如,在检测设备外部的至少一个目标对象的选择之前,可能已经建立了在第一设备和第二设备之间通信的信道。响应于该选择的检测来启动在第一设备和第二设备之间通信的信道。

另外,在第一设备中的一个或多个处理器可被配置为从第二设备接收音频分组,作为第一设备外部的至少一个目标对象与第二设备之间通信的信道的结果。随后,在接收到音频分组之后,一个或多个处理器可以被配置为解码从第二设备接收的音频分组以产生音频信号;并且基于第一设备外部的至少一个目标对象的选择来输出音频信号。第一设备和第二设备可能可以是第一车辆和第二车辆。本公开具有说明车辆的不同示例,但许多所描述的技术也适用于其它设备。即,这两个设备可以是头戴式耳机,包括:混合现实头戴式耳机、头戴式显示器、虚拟现实(VR)头戴式耳机、增强现实(AR)头戴式耳机等。

音频信号可以由耦合到第一设备的一个或多个扬声器再现。如果第一设备是车辆,则扬声器可以在车辆的车厢中。如果第一设备是头戴式耳机,则扬声器可再现音频信号的双耳化版本。

基于目标对象的选择,可以使用C-V2X或V2X系统、或其他通信系统在一个或多个目标对象与第一设备之间执行通信。第二设备(即,头戴式耳机或车辆)可以具有一个或多个人说话或播放与第二设备相关联的音乐。编码解码器从第二车辆内部发出或从第二头戴式耳机发出的语音或音乐可以使用音频/语音编码解码器来压缩,并产生音频分组。音频/语音编码解码器可以是两个单独的编码解码器,例如音频编码解码器,或者可以是语音编码解码器。替代地,一个编码解码器可以具有压缩音频和语音的能力。

本文中参考附图描述了附加的技术和背景。

图1a示出了可以与另一设备(例如,第二设备)通信的第一设备的概念图。该概念图还包括在第一设备内另一设备的选择的检测。例如,第一设备可以是第一车辆303a,其能够通过V2X或C-V2X通信系统与第二车辆通信。第一车辆303a可以包括如上面的圆圈103所示的不同组件或人111。如果第一车辆303a自动驾驶,则人111可能正在驾驶,或者人111可能不是正在驾驶。人111可以通过第一车辆303a的镜子127或窗户132看到在道路上行驶的其他车辆,并且希望听到正在另一车辆内的无线电播放的音乐类型。在第一车辆303a的一些配置中,第一车辆303a的相机124可以帮助人111看到其他车辆,其在通过镜子127或窗户132看到其他车辆可能是有挑战的。

人111可以选择在车辆外部的至少一个目标对象,或者如果人111佩戴头戴式耳机,则该至少一个目标对象在头戴式耳机外部。目标对象可以是车辆本身,即,第二车辆可以是目标对象。替代地,目标对象可以是另一个人。该选择可以是被编码在由第一车辆中的处理器执行的指令中的图像检测算法的结果。图像检测算法可以被安装在第一车辆上的外部相机辅助。图像检测算法可以检测不同类型的车辆或者可以仅检测面部。

另外,或者可选地,人111可以说出描述符以识别目标车辆。例如,如果第二车辆是黑色本田雅阁,则该人可以说出“本田雅阁”、“在我前面的黑色本田雅阁”、“我左边的雅阁”等,并且语音识别算法可以编码在第一车辆中的处理器上执行的指令中,以检测和/或识别短语或关键词(例如,汽车的品牌和型号)。因此,第一设备可以包括选择至少一个目标对象是基于命令信号的检测,该命令信号检测基于关键字检测。

执行用于图像检测算法的指令的处理器可以不必是执行用于语音识别算法的指令的相同处理器。如果处理器不相同,则它们可以独立工作或以协调的方式工作,例如,帮助另一处理器的图像或语音识别。一个或多个处理器(其可以包括在图像检测或语音识别中使用的相同处理器),或者不同处理器可以被配置来检测第一设备的至少一个目标对象的选择。也就是说,可以使用一个或多个处理器来检测哪个目标对象(例如,面部或其他车辆或头戴式耳机)被选择。该选择可以启动第二设备(另一车辆或头戴式耳机)之间的通信。在一些情况下,可能已经建立了第一设备与第二设备之间通信的信道。在一些情况下,图像检测算法还可以结合图像识别的各个方面,例如,检测车辆对比检测“本田雅阁”。为简单起见,在本公开中,除非另有明确说明,否则图像检测算法可以包括图像识别方面。

如上所述,当两个人希望彼此通信并讲话时,一个人通过拨打电话号码呼叫另一个人。可选地,两个设备可以彼此无线地连接,并且如果两个设备都连接到通信网络,则每个设备可以注册另一设备的互联网协议(IP)地址。在图1a中,第一设备与第二设备之间的通信也可以通过V2X、C-V2X通信网络或具有直接(例如不使用基站)连接两个设备(的能力的网络中的每个设备的各自的IP地址来建立。然而,与即时消息、聊天或电子邮件不同,第一设备与第二设备之间的通信是基于与第二设备相关联的目标对象的选择或直接基于第二设备本身的选择而启动的。

例如,车辆303a中的人111可以看到第二车辆303b或不同的第二车辆303c,并且可能希望基于车辆的图像检测、图像识别或语音识别来启动与那些车辆之一中的人的通信。

在目标对象的选择之后,第一设备中的一个或多个处理器可以被配置为启动包括基于IP地址的通信。在人111是第一车辆的驾驶员的情况下,使用手通过对话窗口启动消息收发、电子邮件或聊天是不安全的。然而,在不使用手的情况下用于说话的音频用户接口正变得越来越流行,并且在图1a所示的系统中,可能可以基于V2X或C-V2X通信系统启动两个设备之间的通信并与另一个人说话。车辆可以使用V2V通信或使用C-V2X的侧链路信道进行通信。C-V2X系统的优点是车辆可以在车辆之间发送通信信号,而不依赖于车辆是否连接到蜂窝网络。

当车辆无线地连接到蜂窝网络时,车辆也可能可以使用V2V通信或侧链路信道进行通信。

可能可以在侧链路信道中包括其它数据。例如,可以经由侧链路信道接收音频分组、和/或音频内容的一个或多个标签。在人111未正在驾驶的情况下,要么因为车辆正在驾驶自己,要么因为人111是乘客,也可能可以在侧链路信道中的设备之间发送即时消息。即时消息可以是第一设备和第二设备之间的媒体交换的一部分,其可以包括音频分组。

在上面的圆圈103中还示出了显示设备119。显示设备119可以表示车辆的图像或图标。当启动通信时或在第一车辆303a与第二车辆(例如,303b或303c)之间的通信期间,图案133可以点亮或可以闪烁。

此外,在目标对象的选择之后,作为第一设备外部的至少一个目标对象与第二设备之间通信的信道的结果,可以从第二设备接收音频分组。例如,下面的圆圈163包括处理器167,其可以被配置为解码从第二设备接收的音频分组以产生音频信号,且基于第一设备外部的至少一个目标对象的选择来输出音频信号。也就是说,人可能可以通过扬声器169的回放听到在第二车辆(或耳机设备)中正在播放什么语音或音乐。

如本公开中稍后所解释,选择的其他模式也是可能可以的,包括人111的手势检测和人111的眼睛凝视检测。

图1b示出了可以与另一设备(例如,第二设备)通信的第一设备的概念图。概念图还包括由跟踪器帮助,在第一设备内另一设备的选择的检测,并且音频通信可以被空间化。

图1b具有与图1a相关的描述类似的描述,只是添加了其它元件。例如,上面的圆圈104没有示出设备119,因为它在下面的圆圈129中示出。上面的圆圈104示出了窗132外部的车辆、镜子127和内部相机124,其如关于图1a所述的那样起作用。

下面的圆圈129示出了显示设备119。除了仅表示车辆133的图标或图像之外,显示设备还可以表示可能是第一车辆303a中的人111的潜在选择的真实的车辆的图像。例如,由一个或多个外部相机(例如,图3中的310b、图4中的402)捕获的车辆的图像在显示设备119上表示。车辆的图像可以具有包封车辆的每个图像的边界框137a-137d。边界框可帮助目标对象的选择,例如,在显示设备上表示的车辆中的其中一个。另外,代替在车辆的图标和图像之间的图案133,从选择第二车辆的人111的角度来看,可以存在分开的图案149。因此,边界框137d可以示出所选择的第二车辆303b,并且分开的图案149的方向可以被点亮或者也可以闪烁以指示已经启动通信或正在与第二车辆303b进行通信。

另外,处理器可以包括跟踪器151和可以对显示设备119上的图像执行特征提取的特征提取器(未示出)。所提取的特征各自,或者在一些配置中与RADAR/LIDAR传感器结合,可帮助所选车辆(例如,303b)的相对位置的估计。在其他配置中,跟踪器151可以仅对来自所选车辆的GPS位置的输入进行帮助或操作,该输入也可以通过V2X或C-V2X系统中的通信信道发送到第一车辆303a。

例如,第二车辆303b或另一个第二车辆303c可能用相机是不可见的。在这种场景下,车辆(车辆303b和303c)各自可以具有检测每个车辆的位置的GPS接收器。每个车辆的位置可以被第一设备(例如,车辆303a)经由辅助GPS接收,或者如果V2X或C-V2X系统允许,则直接通过V2X或C-V2X系统接收。如由一个或多个GPS卫星160各自确定的,或者与(例如,如在辅助GPS中使用的)基站结合确定的,则车辆位置的接收可以由GPS坐标表示。第一设备可以基于经由它自己的GPS接收器知道第一设备(它自己的)GPS坐标来计算它自己相对于其他车辆(车辆303b和303c)的位置。另外或可选地,第一设备可以基于耦合到第一设备的RADAR传感器、LIDAR传感器或相机的用户来计算它自己的位置。应当理解,计算也可以被称为估计。因此,第一设备可以基于耦合到第一设备的RADAR传感器、LIDAR传感器、相机或接收GPS坐标来估计它自己的位置。另外,每个车辆或设备可以通过使用辅助GPS知道它自己的位置,即,使基站或其他中间结构接收GPS坐标并将它们中继转发到每个车辆或设备。

此外,显示设备119可以以第一设备的相对位置表示第二设备的图像。也就是说,与显示设备119协调的面向外部的相机310b或402可以以第一设备的相对位置表示第二设备。因此,显示设备119可以被配置为表示第二设备的相对位置。另外,第二设备的相对位置可以表示为显示设备119上的第二设备的图像。

另外,可集成到一个或多个处理器的音频引擎155可以基于设备的相对位置来处理已解码音频分组。音频引擎155可以是可以集成为处理器的一部分的音频空间化器的一部分,其可以基于如显示设备119上表示的第二设备的相对位置将音频信号输出为三维空间化音频信号。

如上讨论,相对位置还可以是基于GPS接收器的,GPS接收器可以耦合到跟踪器155并且可以与一个或多个处理器集成,并且第一设备可以执行辅助GPS以确定第二设备的相对位置。音频引擎155可以是可以集成为处理器的一部分的音频空间化器的一部分,其可以基于由第二设备161的辅助GPS确定的相对位置将音频信号输出为三维空间化音频信号。

此外,在一些配置中,面向外部的相机310b和402可以捕获在第一车辆303a前面或后面的设备或车辆。在这种场景下,可期望听到从第一车辆303a后面(或者如果是头戴式耳机,则在佩戴头戴式耳机的人后面)的车辆或设备发出的声音,其具有与从第一车辆303a前面的那些车辆或设备听到的声音不同的空间分辨率。因而,与相对于第二设备的第二位置(例如,在第一设备后面)相比,当第二设备处于相对于第一设备的第一位置(例如,在第一设备前面)时,三维空间化音频信号的输出具有不同的空间分辨率。

另外,当正在跟踪第一设备外部的至少一个目标对象(例如,第二设备或第二车辆)的相对位置时,一个或多个处理器可以被配置来接收在第一设备外部的至少一个目标对象的相对位置的更新的估计。基于更新的估计,三维空间化音频信号可被输出。因此,第一设备可以通过扬声器157呈现三维空间化音频信号。在第一车辆303a中或佩戴头戴式耳机的人可以听到由第二设备(例如,在第一设备的右前方的车辆303c)接收的声音,就好像音频来自右前方一样。如果第一设备是车辆303a,则右前方是相对于车辆303a的潜在的驾驶员从窗132向外看,就好像他或她正在驾驶车辆303a。如果第一设备是头戴式耳机,则右前方是相对于佩戴头戴式耳机的人直视前方。

在一些场景下,音频引擎155可能可以接收多个音频流,即,来自多个设备或车辆的音频/语音分组。也就是说,可以存在被选择的多个目标对象。第一设备外部的多个目标对象可以是车辆、头戴式耳机、或头戴式耳机和车辆的组合。在存在多个目标对象的此类场景中,扬声器157可以被配置来基于多个车辆(例如,303b和303c)或设备(例如,头戴式耳机)中每一个的相对位置呈现三维空间化音频信号。还可能的是,音频流可以混合到一个听觉通道中并且被一起听到,就好像在第二车辆(例如,303b和303c)中的至少一个人之间存在多方会话一样。

在一些配置中,可以在各自的通信信道中从多个车辆的每一个接收音频/语音分组。也就是说,第一车辆303a可以在一个通信信道中从第二车辆303b接收音频/语音分组,并且还在不同的通信信道303c中从不同的第二车辆303c接收音频/语音分组。音频分组(为简单起见)可以表示由第二车辆的每个车辆中的至少一个人说出的语音。

在这种场景下,第一车辆303a或头戴式耳机中的乘客可以通过遍及本公开的其它部分所述的技术来选择两个目标对象。例如,第一车辆303a中的人111可以轻点显示设备119上由边界框137a-137d包封的区域,以选择与其具有多方通信的至少两个车辆(例如,303b和303c)。可选地,人111可以使用语音识别来选择与其具有多方通信的至少两个车辆(例如,303b和303c)。

在一些配置中,一个或多个处理器可以被配置为认证第二车辆的人或车辆的每一个,以促进第二车辆(例如,303b和303c)中的至少一个人与第一车辆303a中的人111之间的可信多方会话。如果人们舒适地将彼此的语音的样本存储在他们的车辆中,则认证可以基于语音识别。其他认证方法可以是可能的,包括在多方会话中的人或车辆的面部或图像识别。

图1c示出了根据本公开中描述的技术发送和接收无线连接的不同车辆的概念图。

车辆可以如图1c所示被直接无线地连接,或者可以无线地连接到作为C-V2V或V2X通信系统176的一部分、能够发送和接收数据和/或消息的不同接入点或节点。

图1d示出了使用车辆内的高速缓存服务器或车辆内的存储器发送和接收无线连接的不同车辆的概念图。

在经由侧链路信道无线连接的第一设备和第二设备之间交换的即时消息可以包括从一个车辆传送到另一车辆的数据分组和/或音频分组。例如,第二设备(例如,车辆303d)可以在侧链路信道上广播或发送即时消息,其中即时消息包括元数据1。在一些配置中,元数据1是在侧链路上发送的,并且可以不必须是即时消息的一部分。

在不同的实施例中,在C-V2X或V2X通信系统176中的车辆可接收包括一个或多个标签的即时消息或元数据,该一个或多个标签与经由内容递送网络(CDN)从静态广播站递送到车辆(例如,车辆303a、303d、303e)的音频内容相关联。CDN可以在发送方和接收方之间高效且快速地传送数据。在分布式网络中,存在转发可被使用的分组的网络链路和路由器的许多可能的组合。网络链路和路由器的选择提供了快速和可靠的内容递送网络。

高要求的内容可以被存储或缓存在靠近网络边缘的存储器位置中,数据的消费者位于那里。当存在正在被广播的媒体内容(例如具有许多观看者和收听者的娱乐)时,这更有可能。缓存的更靠近媒体消费者的物理位置可能意味着更快的网络连接和更好的内容递送。在一种配置场景中,其中数据的发送方和接收方都在车辆中行驶并且车辆相对于彼此改变位置,CDN的角色可以提供有效方式来在侧链路信道上递送媒体内容。在最靠近消费者的网络的边缘处缓存的内容可以存储在正在行驶的设备(例如,车辆303d)中。媒体内容(例如,音频内容或元数据的一个或多个标签)正被发送给其他行驶的车辆。如果在相同方向上沿着道路行驶,则广播方设备(例如,车辆303e)和收听方设备(例如,车辆303a)仅在彼此的几英里内。所以有力的本地连接很可能的。相反,如果两个车辆在同一道路上沿着相反方向行驶,则收听方车辆303a可能掉落在广播方设备(例如,车辆303e)和收听方设备(例如,车辆303a)的范围之外。

在车辆到车辆通信系统中,可能可以接收超出车辆范围的无线电台。例如,在城市之间行驶300英里的车辆无疑会失去来自出发城市的信号。然而,用CDN,无线电信号可能可以以无线电台信号的范围界限从车辆中继转发和重新广播。在距广播站一定径向距离处的车辆成为用于无线电台的高速缓存,其允许具有一定范围的其他车辆请求流。也就是说,广播车辆303e可能可以包括缓存服务器172并且在C-V2X或V2X通信系统网络176中广播元数据2。收听方车辆303a可以接收元数据2。

可以使用机器学习算法来收听、解析、理解和广播驾驶员的收听偏好。连同驾驶员的地理位置,信息可以被收集来确定每个地理区域内由车辆最频繁地从其他车辆接收的最受欢迎的内容。

如可以在图1d中看出的,可以存在用于从第二设备接收元数据的第一设备。第一设备和第二设备可以经由作为C-V2X或V2x通信系统网络172的一部分的侧链路信道无线地连接。一旦第一设备(例如,车辆303d)接收元数据(例如,元数据1 171或元数据2 173),第一设备就可以读取元数据且提取表示音频内容的一个或多个标签。

一个或多个标签可以包括歌曲名称、艺术家名称、专辑名称、作家或国际标准音像制品代码。国际标准音像制品代码(ISRC)唯一地标识声音记录和音乐视频记录,并且被编码为ISO 3901标准。

元数据可以被索引,并且可以是我的搜索引擎可搜索的。如果音频内容被第二设备(例如,车辆303d或303e)流送或广播,那么一个或多个标签可以由音频播放器读取,或在一些情况下由到无线电的无线电接口读取。另外,音频标签中的一个或多个可以在显示设备上表示。与音频内容相关联的元数据可以包括歌曲、音频书籍、来自电影的曲目等。

元数据可以是结构性的或描述性的。结构性元数据将数据表示为数据的容器。描述性元数据描述音频内容或与音频内容相关联的一些属性(例如,歌曲、作者、创建日期、专辑等)。

在由一个或多个处理器提取表示音频内容的一个或多个标签之后,可以基于所提取的一个或多个标签来标识音频内容。第一设备的一个或多个处理器可以被配置来输出音频内容。

在图1d中,第一设备也可以是被配置为接收一个或多个标签之一的一组设备的一部分。设备(例如,车辆303a)可以是被配置为从另一设备(例如,车辆303d或303e)接收元数据的至少一个标签的一组设备(例如,还有车辆303b和303c)的一部分。该组设备还可以包括发送元数据的其它设备(例如,车辆303d和303e)。也就是,可以存在包括五个设备的一组设备,包括其中各个设备都是车辆(例如,车辆303a、303b、303c、303d和303e),或者存在车辆和头戴式耳机的混合。可以是该组设备包括该五个设备。

在一个实施例中,该组设备可以是内容递送网络(CDN)的一部分。另外或可选地,该组设备中的第二设备(例如,303e)可以是各自的内容递送网络,并且将一个或多个标签发送给该组中的其余设备。

图2示出了基于本公开中描述的技术的第一设备启动与第二设备的通信的过程200的流程图。

210,第一设备可以包括被配置来检测第一设备外部的至少一个目标对象的选择的一个或多个处理器。220,一个或多个处理器可以被配置来启动第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。230,一个或多个处理器可以被配置来响应于设备外部的至少一个目标对象的选择而从第二设备接收音频分组。

240,一个或多个处理器可以被配置来解码从第二设备接收的音频分组以生成音频信号。250,一个或多个处理器可以被配置来基于第一设备外部的至少一个目标对象的选择而输出音频信号。

图3示出了在第一车辆上或第一车辆中具有根据本公开中描述的技术操作的不同部件的第一车辆的概念图。如图3所示,人111可以在车辆303a中移动。车辆303a外部的目标对象的选择可以直接在驾驶员的视野内,其可以由耦合到车辆303a内的相机310a的眼睛凝视跟踪器(即,人111正在看目标对象)或手势检测器(人111做出手势,例如指向目标对象)捕获。同样地,

第一设备可以包括基于命令信号的检测的至少一个目标对象的选择,命令信号检测是基于眼睛凝视检测的。

如果目标对象是车辆303a外部的人,或者存在与车辆303b相关联的一些其他可识别图像,则安装在车辆303a上的相机310b也可以帮助目标对象本身(例如,车辆303b)或与目标对象相关联的另一设备的选择。

通过可以是诸如C-V2X的蜂窝网络的一部分的无线局域网(WLAN),或者是蜂窝网络和Wi-Fi网络的共存,或者仅仅是Wi-Fi网络,或者V2X网络,可选地与深度传感器340耦合的一个或多个天线356可以帮助目标对象相对于车辆303a的相对位置的确定。

应当注意,安装在车辆303a内的摄像机310a、或安装在车辆303a上的摄像机310b、或摄像机310a、310b两者,取决于可用带宽,通过一个或多个天线356,可以形成作为车辆303a的一部分的个人区域网络(PAN)。通过PAN,车辆303a中的相机310a或车辆303a上的相机310b可能可以具有和与目标对象相关联的设备或目标对象本身的间接无线连接。尽管外部相机310b被示出在车辆303a的前部附近,但是车辆303a可能可以具有安装在车辆303a的后部附近或后部中的一个或多个外部相机310b,以便查看什么设备或车辆在车辆303a后面。例如,第二设备可以是车辆303c。

外部相机310b可以帮助选择,或者如前文和下文解释,GPS也可以辅助确定第二设备的位置,例如第二车辆303c位于何处。

第二设备的相对位置可以在显示设备319上表示出。第二设备的相对位置可以基于由一个或多个天线356接收该位置。在另一实施例中,深度传感器340可以使用来帮助或确定第二设备的位置。检测第二设备的位置的其他位置检测技术(例如,GPS)或者辅助GPS也可能可以用于确定第二设备的相对位置。

第二设备的相对位置的表示可以表现为合成图像、图标或其它与第二设备相关联的表示,以致车辆303a中的人可通过朝向显示设备319上的表示的眼睛凝视或朝向显示设备319上的表示的手势(指向或触摸)做出第二设备的选择。

选择也可以通过语音识别并使用位于车辆303a内部的一个或多个麦克风360。当第二设备与车辆3030a通信时,音频信号可以由(第一)车辆303a通过安装在车辆303a中或车辆303a上的、耦合到一个或多个天线356的收发器接收。

本领域普通技术人员还将理解,随着自动驾驶车辆的继续改进,车辆303a的驾驶员可以实际上不手动地指挥(即,“驾驶”)车辆303a。而是,对于某些部分时间车辆303a可以是自动驾驶的。

图4a示出了在第一设备上或在第一设备中具有根据本公开中描述的技术操作的不同组件的第一设备的框图400a。一个或多个不同组件可以集成在第一设备的一个或多个处理器中。

如图4a所示,选择第一设备外部的目标对象可以基于眼睛凝视跟踪器404,其检测并跟踪头戴式耳机的佩戴者正在看哪里或第一车辆中的人111正在看哪里。当目标对象在人的视野内时,眼睛凝视跟踪器404可以检测和跟踪眼睛凝视并帮助经由目标对象选择器414选择目标对象。类似地,耦合到车辆303a内的一个或多个面向内部的相机403的或安装在头戴式耳机(未示出)上的手势检测器406可以检测手势,例如,指向目标对象的方向。另外,语音命令检测器408可以帮助基于人111说出如上所述的短语(例如“在我前面的黑色本田雅阁”)来选择目标对象。语音命令检测器408的输出可以被目标对象选择器414使用以选择预期的第二设备,例如车辆303b或303c。

如前提及,车辆303a可能可以具有安装在车辆303a的后部附近或后部中的一个或多个面向外部的摄像机402,以便查看什么设备或车辆在车辆303a后面。例如,第二设备可以是车辆303c。

目标对象(例如,第二设备)可以相对于第一设备且基于图像的特征、图像、或图像和图像的特征两者表示,其中图像由耦合到第一设备的一个或多个相机捕获。

一个或多个面向外部的摄像机402可以帮助第二车辆303c位于何处的选择,例如,在车辆303a的后面(在其它图中)。

还可能的是,基于一个或多个发送器天线425和可能地深度传感器340(图4a中未示出),或检测第二设备的位置的其它位置检测技术(例如GPS),第二设备的相对位置可以表示在显示设备410上。第二设备的相对位置的表示可以显现为合成图像、图标或其它与第二设备相关联的表示,以致车辆303a中的人可通过朝显示设备410上的表示的眼睛凝视或朝显示设备410上的表示的手势(指向或触摸)来进行第二设备的选择。

如果远程设备(即第二设备)的选择基于触摸,则包括对外部设备(即第一设备)的至少一个目标对象的表示的显示设备可以被配置为基于显示设备上的电容传感器或超声传感器改变状态来选择该设备外部的至少一个目标对象。

耦合到包括在第一设备中的一个或多个处理器的第一设备的一个或多个发送器天线425,可以被配置为基于由一个或多个处理器在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道的启动来向第二设备发送通信数据。也就是,在第二设备的选择之后,一个或多个处理器可以在第一设备和第二设备之间启动协议或通信的其他形式,在第一设备和第二设备之间通信的信道中使用C-vVX和/或V-2X通信。

选择也可以是通过语音识别的,并使用位于车辆303a内部的一个或多个麦克风(图4a中未示出)。当第二设备与车辆3030a通信时,音频信号可以通过安装在车辆303a中或车辆303a上的一个或多个接收器天线430由(第一)车辆303a接收,该接收器天线耦合到收发器(例如,能够进行V2X或C-V2X通信的调制解调器)的接收。也就是说,耦合到一个或多个处理器的一个或多个接收天线430可以被配置为基于在第一设备外部的至少一个目标对象(例如,第二设备)与第一设备之间通信的信道的启动的结果来接收音频分组。

另外,第一设备可以包括一个或多个面向外部的相机402。如果目标对象是车辆303a外部的人,或者与车辆303b相关联的一些其他可识别图像,则面向外部的相机402可以安装在车辆303a上且也可以帮助目标对象本身(例如,车辆303b)或与目标对象相关联的另一设备的选择。一个或多个面向外部的相机可以耦合到一个或多个处理器,其包括可以对显示设备410上的图像执行特征提取的特征提取器(未示出)。所提取的特征独自、或者在一些配置中结合外部传感器422(例如,RADAR/LIDAR传感器),可以帮助第二设备(例如,所选车辆303b)的相对位置的估计。

提取的特征或外部传感器422的输出可以输入所选目标对象的相对位置/朝向的确定器420。所选目标对象的相对位置/朝向的确定器420可以被集成到一个或多个处理器中,并且可以是跟踪器的一部分,或在其它配置中(如图4a中示出)可以分离地地被集成到一个或多个处理器中。在图4a中,未示出跟踪器151。

距离和角度可以由所选目标对象的相对位置/朝向的确定器420提供。距离及角度可以被音频空间化器420使用来输出基于第二设备的相对位置的三维音频信号。可以存在耦合到一个或多个处理器的至少两个扬声器440,其被配置为基于第二设备的相对位置呈现三维空间化音频信号,或如果存在多个第二设备(例如,多个车辆),那么三维空间化音频信号可以如上文所的来呈现。

在由目标对象选择器414执行第一设备外部的至少一个目标对象的选择之后,集成到第一设备中的一个或多个处理器中的命令解释器416启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。响应于第一设备外部的至少一个目标对象的选择,可以从第二设备接收音频分组。

来自第二设备的音频分组432a可以由编码解码器438解码以产生音频信号。可以基于第一设备外部的至少一个目标对象的选择来输出音频信号。在一些场景中,音频分组可以表示来自与远程设备(即,第二设备)436a相关联的云的流。编码解码器438可以解压缩音频分组,并且音频空间化器可以操作未经压缩音频分组432b或436b。在其他场景中,音频可以基于进行第二车辆选择的人的乘客位置来空间化。

由要使用的音频编码解码器进行的音频分组的传输可以包括以下的一个或多个:MPEG-2/AAC立体声、MPEG-4BSAC立体声、Real Audio、SBC蓝牙、WMA和WMA 10Pro。由于C-v2X和v2V系统可以使用数据业务信道或语音信道,因此音频分组(可以携带语音信号)可以使用以下编码解码器中的一个或多个来解压缩音频信号:AMR窄带语音编码解码器(5.15kbp)、AMR宽带语音编码解码器(8.85Kbps)、G.729AB语音编码解码器(8kbps)、GSM-EFR语音编码解码器(12.2kbps)、GSM-FR语音编码解码器(13kbps)、GSM-HR语音编码解码器(5.6kbps)、EVRC-NB、EVRC-WB、增强型语音服务(EVS)。语音编码解码器有时被称为声码器。在通过空中发送之前,声码器分组被插入到更大的分组中。语音在语音信道中发送,尽管语音也可以使用VOIP(voice-over-IP,基于IP的语音)在数据信道中发送。编码解码器438可表示语音编码解码器、音频编码解码器、或用于解码语音分组或音频分组的功能的组合。通常,为了便于解释,术语音频分组还包括分组的定义。

还可能的是,在一种配置中,在第二车辆与第一车辆相距一定的距离之后,空间化效果可以被禁用。

包括在第一设备中的一个或多个处理器可以被配置为在第二车辆距第一设备大于可配置距离之后禁用空间化效果。该一定的距离可以是基于距离可配置的,例如八分之一英里。可配置距离可以随着距离测量或时间测量被输入。该一定的距离可以是基于时间可配置的,例如,取决于第一车辆和第二车辆的速度。例如,取代指示八分之一英里是空间效果应该持续的距离,它们之间的距离可以依据时间来测量。车辆以每小时50英里(mph)行驶,八分之一英里相当于9秒,即125mi/50mi/hr=0.0025hr=0.0025*60min=0.15min=9秒。因此,在该示例中,在9秒之后,空间效果会逐渐消失或突然停止。

图4b示出了在第一设备上或第一设备中具有根据本公开中描述的技术操作的不同组件的第一设备的框图400b。一个或多个不同组件可以集成在第一设备的一个或多个处理器中。

框图400b包括通信解释器416和rx天线430。通过rx天线430,一个或多个处理器可以被配置为从第二设备接收元数据435,第二设备经由侧链路信道无线地连接到第一设备。一个或多个处理器可以在缓冲器444中存储元数据。可以从缓冲器444读取元数据435。一个或多个处理器可以被配置为提取表示音频内容的一个或多个标签。例如,通信解释器416可以向控制器454发送控制信号,并且可以被集成为一个或多个处理器的一部分的控制器可以控制提取器460,该提取器也可以被集成为一个或多个处理器的一部分。提取器460可以被配置为提取表示音频内容的一个或多个标签。如果一个或多个标签尚未处于可以在缓冲器444中原位提取它们的形式中,则可以经由总线445将它们写回到缓冲器444。也就是说,提取器460可以提取缓冲器444中的一个或多个标签,或者提取器460可以经由总线445接收元数据,然后经由总线445将一个或多个标签写回到缓冲器444中。本领域普通技术人员将认识到,可以写入一个或多个标签的位置可以是同一缓冲器444或替代缓冲器中的不同存储器位置。然而,为了便于解释,可能仍然将其称为缓冲器444。

一个或多个处理器可以被配置为基于一个或多个标签来识别音频内容。识别可以以多种方式完成。例如,标签中的一个可以识别歌曲的名称,并且识别歌曲的标签可以在显示设备410上显示,或者一个或多个处理器可以将“歌曲”标签存储在存储器位置中(例如,也在缓冲器444中)、或在替代存储器位置中。基于该识别,一个或多个处理器可输出音频内容。

音频内容的输出可以以多种方式完成。例如,第一设备中的一个或多个处理器可以被配置为基于一个或多个标签切换到正在播放所识别的音频内容的无线电台。这可以通过使无线电接口458从控制器460接收控制信号来发生。无线电接口458可以被配置为扫描无线电470上的不同无线电台,并且基于一个或多个标签将无线电470切换到正在播放所识别的音频内容(例如,歌曲)的无线电台。

在另一个示例中,一个或多个处理器可以被配置为基于一个或多个标签开启媒体播放器并使媒体播放器播放所识别的内容。媒体播放器可以从具有可以与所接收的一个或多个标签相关联的标签的播放列表中读取。例如,控制器可以被配置为将经由元数据接收并用其自己的标签提取的一个或多个标签与存储在存储器中的音频内容进行比较。媒体播放器可以耦合到数据库448,并且数据库448可以存储与媒体播放器的播放列表的音频内容相关联的标签。数据库448还可以存储音频比特流形式的音频内容的压缩版本,该音频比特流包括音频分组。音频分组453可以被发送到编码解码器438。编码解码器438可以被集成为媒体播放器的一部分。应当观察到,音频分组453可以被存储在数据库448中。还可能可以如图4a中所描述的接收音频分组432a。另外,可能可以接收与一个或多个标签相关联的音频分组432a,该一个或多个标签与经由rx天线430接收的音频内容相关联。

第一设备包括一个或多个处理器,其可以从第二设备接收元数据,该第二设备经由侧链路信道无线地连接到第一设备,该一个或多个处理器读取从第二设备接收的元数据以提取表示音频内容的一个或多个标签,并基于标签识别音频内容,然后输出音频内容。

经由侧链路信道的无线链路可以是C-2VX通信系统的一部分。在C-V2Vx系统中的第一设备和第二设备可以都是车辆,或者设备中的一个(第一或第二)可以是头戴式耳机,而另一个是车辆(第一或第二)。

类似地,经由侧链路信道的无线链路可以是V2X或V2V通信系统的一部分。在V2V系统中的第一设备和第二设备都可以是车辆。

第一设备可以包括被配置为基于存储在第一设备上的配置偏好来扫描缓冲器444的一个或多个处理器。例如,可以存在从多个第二设备接收的许多元数据集。在第一设备(无论是车辆还是头戴式耳机)中收听音频内容的人可能仅想要基于配置偏好(例如,摇滚音乐)收听音频内容。配置偏好还可以包括来自第二设备的属性。例如,第二设备本身可以具有标识其自身的标签。例如,蓝色BMW。因此,在第一设备中收听音频内容的人可能希望收听来自蓝色BMW的内容。

在相同或可选实施例中,第一设备耦合到显示设备。耦合可以是集成,例如,显示设备被集成为头戴式耳机的一部分或车辆的一部分。第一设备中的一个或多个处理器可以被配置为在显示设备的屏幕上表示一个或多个标签。当缓冲器444耦合到显示设备410时,包括歌曲名称、艺术家甚至蓝色BMW的一个或多个标签可以出现在显示设备410的屏幕上。因此,人可以看到哪些歌曲来自蓝色BMW。

如先前关于图4a所讨论,第一设备可以包括被配置来表示出第二设备的相对位置的显示设备。类似地,关于基于来自从第二设备接收的元数据的所提取的一个或多个标签识别的音频内容,第一设备可以包括被配置来输出三维空间化音频内容的一个或多个处理器。在从编码解码器438解码来自数据库448的音频分组453之后,三维空间化音频内容可以可选地由音频空间化器424生成。在相同或可选实施例中,可以从编码解码器438解码与所标识的音频内容的一个或多个音频标签相关联的音频分组432a。编码解码器438可实施关于图4a所描述的音频编码解码器或语音编码解码器。一个或多个处理器可以被配置来基于在显示设备410上表示出第二设备的相对位置在哪里而输出三维空间化音频内容。输出的三维空间化音频内容可以由耦合到第一设备的两个或更多个扬声器440呈现。

在一些配置中,不依赖第二设备的位置是否表示出在显示设备410上,音频内容的输出可是基于第二设备的相对位置的三维空间化音频内容。

另外,在相同或可选实施例中,一个或多个处理器可以被配置来淡入或淡出与一个或多个标签相关联的音频内容。

与一个或多个标签相关联的音频内容的淡入或淡出可以基于第二设备的可配置距离。例如,如果第二设备的距离在20米内或在200米内,则在第一设备中收听音频内容的人可能期望淡入或淡出音频内容。此外,如关于图4a所描述,一个或多个处理器可以被配置为在第二设备距第一设备大于可配置距离之后禁用空间化效果。因此,可能存在第一可配置距离来淡入和淡出音频内容(例如,在0到200米内),以及第二可配置距离,其中如果第二设备在200米内或甚至更远(例如,多至2000米),则收听空间化效果的收听者的空间化效果是禁用的。如前所述,可配置距离(第一可配置距离或第二可配置距离)可以是距离测量或时间测量。

如关于图1d所描述,第一设备可以是一组设备的一部分。图1d所示的一个或多个标签170或缓存服务器172也可以是缓冲器444的一部分,或者可以可选地被绘制为与图4b中的缓冲器444相邻,其中元数据435a可以是元数据1或元数据2,这取决于第二设备是否是在存储器中具有一个或多个标签170的设备(例如,车辆303d),或者第二设备是否是具有缓存服务器172的设备(例如,车辆303e)。因此,音频内容的淡入或淡出也可能可以基于组中的设备之一何时从组断开连接。例如,第一设备可以与该组设备断开连接,并且音频内容可以淡出。类似地,当连接成为该组设备的一部分时,音频内容可以淡入。在设备(例如,第一设备)与一组设备连接或断开时的淡入和淡出两者中,淡入或淡出也可以是基于可配置距离的,并且可以是距离测量或时间测量。

另外,该组设备中的第一设备和其它设备可以是内容递送网络(CDN)的一部分,如以上在描述图1d时所描述。

第一设备或第二设备可以是单独的内容递送网络,并且可以向该组的其它设备发送一个或多个标签。

虽然在图4b中绘制了一个或多个面向外部的相机402和目标对象选择器414,在图4a中没有耦合到它们的其他组件,但是在相同或替代配置中,其也可以接收与一个或多个标签相关联的音频分组,该一个或多个标签与经由一个或多个rx天线430接收的音频内容相关联。

像这样,在由目标对象选择器414执行第一设备外部的至少一个目标对象的选择之后,集成到第一设备中的一个或多个处理器内的命令解释器416启动在第一设备和与第一设备外部的至少一个目标对象相关联的第二设备之间通信的信道。响应于第一设备外部的至少一个目标对象的选择,可以从第二设备接收音频分组。

来自第二设备的一个或多个标签可以被接收在元数据中,其被从缓冲器444读取,提取,并用于识别音频内容。音频内容可以基于第一设备外部的至少一个目标对象的选择来输出。在一些场景中,一个或多个标签可以表示出来自与远程设备(即,第二设备)相关联的云的流。

图5示出了根据本公开中描述的技术将世界坐标变换到像素坐标的概念图500。安装在第一车辆上的外部相机(例如,图3中的310b、图4a和图4b中的402)可以捕获图像(例如,视频帧)并在三维(3D)世界坐标[x,y,z]502中表示出对象。世界坐标可以被变换到3D相机坐标[xc,yc,zc]504。3D相机坐标504可以被投影到2D x-y平面(垂直于相机(310b、402)的面的法向量)中,并且在像素坐标(x

感兴趣区域(ROI)的边界框可以在显示设备510上由在像素坐标(xP,yP)表示。可以存在视觉指示(例如,在边界框512内部增强的颜色变化或图标或合成指针),以警告车辆中的乘客,目标对象(例如,第二车辆)已经选定来启动与其的通信。

图6a示出了在远程车辆/乘客(例如第二车辆)的距离和角度的估计的一个实施例的概念图。距离可以从视频帧中的边界框622d得到。距离估计器630可以接收传感器参数632a、外视相机(310b、402)的固有和外部参数632d以及边界框622d的大小632b。在一些实施例中,可以存在车辆信息数据库,其包括不同车辆的大小632c,并且还可以包含可以帮助识别车辆的某些图像特性。

可以以视频帧率估计距离和角度参数,并进行内插来匹配音频帧率。从车辆的数据库中,可以获得远程车辆的实际大小,即宽度和高度。边界框的角的像素坐标(x

例如使用边界框的左下角和右下角,并且具有车辆的宽度w,可以如图6b所示的估计距离d和方位角(θ)640a。

图6b示出了远程设备的x-y平面中的距离640c和角度640a的估计的概念图。

图6b中的点A可以由世界坐标(a,b,c)表示。图6b中的点B也可以由世界坐标(x,y,z)表示。方位角(θ)640a可以表示为(θ

x=a

|y-b|=w

z=c

图5中描述的像素坐标可以表示为x

类似地,使用边界框的左下角和左上角,并且知道第二车辆303b的高度h、第二车辆30b的仰角(φ)640b,可以如图6c所示的计算第二车辆的距离d

图6c示出了远程设备的y-z平面中的距离和仰角640b的估计的概念图。

图6c中的点A可以由世界坐标(a,b,c)表示。图6c中的点B也可以由世界坐标(x,y,z)表示。仰角(φ)640b可以表示为(φ

x=a

y=b

|z-c|=h

图5中描述的像素坐标可以表示为x

根据声源的位置,对于来自远程设备670的左半部、右半部或中间的声音,可以对仰角640b和方位角640a进行进一步调整。例如,如果远程设备670是远程车辆(例如,第二车辆),则声源的位置可以取决于是驾驶员讲话还是乘客讲话。例如,远程车辆的驾驶员侧(左)方位角640a可以表示为(3*θ

视频帧率通常与音频帧率不匹配。为了补偿不同域(音频和视频)中的帧率的失准,可以针对每个音频帧将参数距离640c、仰角φ、方位角640a、θ内插为来自先前两个视频帧对应的值的线性插值。可选地,可以使用(采样并保持)来自最近的视频帧的值。此外,可以以降低响应能力为代价,通过从过去几个视频帧中取中值(剔除异常值)或平均值来平滑这些值。

图6a所示的距离640c,d可以是d

图7a示出了根据本公开中的技术的音频空间化器724a的实施例。在图7a中,将重建的声场呈现到被提供给扬声器440或头戴式耳机或任何其它音频递送机构的扬声器馈送中。重建的声场可以包括被提供来解释设备(例如,远程车辆或可穿戴设备)相对于车辆303a(或另一可穿戴设备)中的人111的距离及方位角/仰角的空间效应。

距离702a(例如,来自距离估计器630、用于视频到音频的参数帧率转换的平滑器650、或多普勒估计器660)可以被提供给距离补偿器720。到距离补偿器720的输入可以是音频信号(或音频内容)。音频信号(或音频内容)可以是编码解码器438的输出。编码解码器438可以输出脉冲编码调制的音频信号。PCM音频信号可以在时域或频域中表示。距离效应可以被添加以作为滤波过程、有限脉冲响应(FIR)、或具有与距离成比例的附加衰减(例如,所应用的衰减可以是1/距离)的无限脉冲响应(IIR)。还可以应用可选参数(增益)来提高用于可懂度的增益。此外,混响滤波器是距离模拟器滤波器的一个示例。

可以被建模并添加到音频信号(或音频内容)的另一距离线索是关于图6c中的多普勒估计器650描述的多普勒效应。通过计算每单位时间的距离变化率来确定远程车辆的相对速度,并且使用距离和角度来提供如上所描述的多普勒效应。

声场旋转器710可以使用距离补偿器720的输出和输入的角度702b(例如,方位角640a、仰角640b或基于这些角度的组合),并且可以将来自远程设备(例如,第二车辆)的音频平移到预期的方位角和仰角。输入的角度720b可以通过平滑用于视频到音频650的参数帧率转换而被转换为以音频帧间隔而不是视频帧间隔的输出。在图7b中示出了可以包括不与距离相互依赖的声场旋转器710的另一实施例。除了其他手段之外,可通过使用基于对象的呈现技术(例如基于向量的振幅平移(VBAP)、基于高保真立体声的呈现器)、或通过使用用于基于头戴式耳机的空间化和呈现的高分辨率头部相关传递函数(HRTF)来实现平移。

图7b示出了包括根据本公开中描述的技术使用的解码器的音频空间化器424的实施例。在图7b中,解码器724b可以在解码过程中利用距离702a信息。如图7a所描述,可以应用附加的距离效应。解码器730可以被配置为当针对大于某个阈值的距离进行解码时忽略最高频率区间。距离滤波器可能抹去这些较高的频率,并且可能不需要在这些频率区间中维持最高保真度。另外,在解码过程期间可以在频域中应用多普勒频移,以提供多普勒效应的计算上的有效实施方式。在频域中也可以有效地实施混响和其他距离滤波效应,并使它们自己与解码过程集成。在解码过程期间,还可在解码器内的时域或频域中应用呈现和/或双声道化以在解码器的输出处产生适当地平移的扬声器馈送。

解码器730可以是语音解码器、或音频解码器、或能够解码包括压缩语音和音乐的音频分组的组合语音/音频解码器。到解码器730的输入可以是来自与一个或多个远程设备相关联的云服务器的流。也就是说,可以存在多个流作为输入432b。云服务器可以包括音乐或其他媒体的流送。解码器730的输入还可以是直接来自远程设备(例如,远程车辆)的压缩语音和/或音乐。

图8描述了实施例800,其中第一车辆和所选(远程)车辆810中的人111的位置可以在同一坐标系中。相对于先前描述的外部相机的角度和距离可能需要相对于第一车辆中的人111的头部位置820(X',Y',Z')重新调整。所选远程设备(例如,远程车辆303b)的位置(X,Y,Z)和第一车辆303a的位置(X,Y,Z)802可以从距离和方位角/仰角进行如下计算。X=d*cos(方位角),Y=d*sin(方位角)和Z=d*sin(仰角)。可以确定来自(第一车辆的)面向内部的相机188的头部位置820,并将其转换到与第一车辆的坐标相同的坐标系,以获得X'、Y'和Z'820。给定X、Y、Z 802和X'、Y'、Z'820,则可以使用三角关系d=sqrt[(X-X’)^2+(Y-Y’)^2+(Z-Z’)^2]和方位角=asin[(Y-Y')/d]和仰角=asin[(Z-Z')/d]来确定相对于人111的更新的距离和角度。这些更新的d和角度可以被使用于更精细的空间化和距离分辨率以及更好的精度。

本文中所描述的技术可实施于硬件、软件、固件或其任何组合。这些技术可实施于多种设备(例如通用计算机、无线通信设备手持机、或集成电路设备)中的任一个,,其具有包括在无线通信设备手持机及其它设备中的应用的多种用途。被描述为模块或组件的任何特征可一起实施于集成逻辑设备或分开来实施为离散但可互操作的逻辑设备。如果在软件中实施,那么所述技术可至少部分地由包括程序代码的计算机可读数据存储介质来实现,所述程序代码包括在被执行时执行上文所描述的方法中的一个或多个的指令。计算机可读数据存储介质可形成计算机程序产品的一部分,该产品可包括封装材料。计算机可读介质可包括存储器或数据存储媒体,例如,随机存取存储器(RAM)(例如,同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存存储器、磁性或光学数据存储媒体等等。附加地或可选地这些技术可至少部分地由计算机可读通信介质来实现,所述计算机可读通信介质以指令或数据结构的形式载运或传达程序代码且可由具有计算能力的设备访问、读取和/或执行。

程序代码或指令可被处理器执行,所述处理器可包含一个或多个处理器,例如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。这样的处理器可被配置来执行本公开中所描述的技术中的任一个。通用处理器可为微处理器;但在替代方案中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器也可实施为计算设备的组合,例如DSP和微处理器的组合、多个微处理器、与DSP核结合的一个或多个微处理器,或任何其它此类配置。因此,如本文中所使用的术语“处理器”可指前述结构中的任一个、前述结构的任何组合,或适合于实施本文中所描述的技术的任何其它结构或装置。另外,在一些方面中,可将本文中所描述的功能提供在被配置用于编码和解码的专用软件模块或硬件模块内,或并入组合的视频编码解码器(CODEC)中。

本文中论述的译码技术可为示例的视频编码和解码系统中的实施例。系统包括提供待在稍后时间由目的地设备解码的已编码视频数据的源设备。具体而言,源设备经由计算机可读介质将视频数据提供到目的地设备。源设备和目的地设备可包含大范围的设备中的任一者,包括台式计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话等电话手机、所谓的“智能”板、电视机、相机、显示设备、数字媒体播放器、视频游戏控制台、视频流送设备等等。在一些情况下,源设备和目的地设备可被装备以用于无线通信。

目的地设备可经由计算机可读介质接收待解码的已编码视频数据。计算机可读介质可包含能够将已编码视频数据从源设备移动到目的地设备的任何类型的介质或设备。在一个示例中,计算机可读介质可包括通信介质以使源设备能够实时的将已编码视频数据直接发送到目的地设备。已编码视频数据可根据通信标准(例如,无线通信协议)调制,并被发送到目的地设备。通信介质可以包含任何无线或有线通信媒体,例如射频(RF)频谱或一个或多个物理传输线。通信介质可形成基于分组的网络(例如,局域网、广域网或全球网络,例如因特网)的一部分。通信介质可包括路由器、交换机、基站或可对促进从源设备到目的地设备的通信有用的任何其它设备。

在一些示例中,已编码数据可从输出接口输出到存储设备。类似地,已编码数据可由输入接口从存储设备访问。存储设备可包括多种分布式或本地访问的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存存储器、易失性或非易失性存储器或用于存储已编码视频数据的任何其它合适的数字存储媒体。在一个进一步的示例中,存储设备可对应于文件服务器或可存储由源设备产生的已编码视频的另一中间存储设备。目的地设备可经由流送或下载从存储设备访问所存储视频数据。文件服务器可以是能够存储已编码视频数据并且向目标设备发送已编码视频数据的任何类型的服务器。示例文件服务器包括网页服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)设备或本地磁盘驱动器。目标设备可通过任何标准数据连接(包括因特网连接)来访问已编码视频数据。这可包括适合于访问存储于文件服务器上的已编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。来自存储设备的已编码视频数据的传输可是流式传输、下载传输或两者的组合。

本公开的技术可实施于多种多样的设备或装置中,包括无线手机、集成电路(IC)或一组IC(例如芯片组)。本公开中描述各种组件、模块或单元以强调被配置来执行所公开的技术的设备的功能方面,但不必需要由不同硬件单元实现。而是,如上文所描述,各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中或由一些互操作硬件单元来提供,该硬件单元包括如上文所描述的一个或多个处理器。

下文参考附图描述本公开的特定实施方式。在描述中,贯穿附图由共同参考标记指示共同特征。如本文中所使用,各种术语仅出于描述特定实施方式的目的而使用,且并非意图进行限制。举例来说,除非上下文另作明确指示,否则单数形式“一”、“一个”和“所述”也意图包括复数形式。另外,可进一步理解,术语“包含(comprise、comprises和comprising)”可与“包括(include、includes或including)”互换使用。另外,应理解,术语“其中(wherein)”可与“其中(where)”互换使用。如本文所使用,“示例性”可指示示例、实施方式和/或方面,且不应解释为限制或指示偏好或优选实施方式。如本文所使用,用于修饰例如结构、组件、操作等元件的序数术语(例如“第一”、“第二”、“第三”等)自身并不指示元件相对于另一元件的任何优先权或次序,而是仅仅区别元件与具有相同名称(但所用序数术语不同)的另一元素。如本文所使用,术语“组”是指一个或多个元件的分组,且术语“多个”是指多个元件。

如本文中所使用,“耦合”可包括“通信耦合”、“电耦合”或“物理耦合”,且还可(或替代地)包括其任何组合。两个设备(或组件)可通过一个或多个其它设备、组件、线、总线、网络(例如,有线网络、无线网络、或其组合)等等直接或间接耦合(例如,通信耦合、电耦合或物理耦合)。作为说明性而非限制性示例,电耦合的两个设备(或组件)可包括在同一设备中或不同设备中且可经由电子设备、一个或多个连接器或电感耦合连接。在一些实施方式中,通信耦合(例如电通信)的两个设备(或组件)可例如经由一个或多个线、总线、网络等直接或间接地发送和接收电信号(数字信号或模拟信号)。如本文中所使用,“直接耦合”可包括(没有中间组件而耦合(例如,通信耦合、电耦合、或物理耦合)的两个设备。

如本文中所使用,“集成”可包括“制造的或出售的设备”。如果用户购买捆绑或包括设备作为封装的一部分的封装,那么该设备可被集成。在一些描述中,两个设备可耦合,但未必集成(例如,不同外围设备可能并不集成到命令设备,但仍可是“耦合”的)。另一个示例可为本文中所描述的收发器或天线中的任一个可“耦合”到处理器,但不必为包括视频设备的封装的一部分。在使用术语“集成”时,可从本文中所公开的上下文(包括本段落)推断其它示例。

如本文中所使用,设备之间的“无线”连接可基于各种无线技术,例如可以基于诸如V-2X和C-V2X的不同蜂窝通信系统“无线地连接”。C-V2X允许车辆与其他设备之间(经由“侧链路”)的直接通信,而不使用基站。在这种情况下,设备可以“经由侧链路无线地连接”。

长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或某一其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA),或CDMA的其它版本。另外,两个设备可以基于蓝牙、无线保真(Wi-Fi)或Wi-Fi的变体(例如Wi-Fi直连)无线地连接。当两个设备在视线内时,“无线连接”还可基于其它无线技术,例如超音波、红外光、脉冲射频电磁能、结构光、或在信号处理(例如音频信号处理或射频处理)中使用的定向到达技术。

如本文中所使用,A“和/或”B可以意味着“A和B”或“A或B”中的任一个,或“A和B”及“A或B”两者为可应用或可接受的。

如本文中所使用,单元可包括例如专用硬接线电路、软件和/或与可编程电路结合的固件,或其组合。

术语“计算设备”在本文一般用来指代以下各者中的任何一者或全部:服务器、个人计算机、膝上型计算机、平板计算机、移动设备、蜂窝式电话、智能本、超级本、掌上型计算机、个人数据助理(PDA)、无线电子邮件接收器、支持因特网的多媒体蜂窝式电话、全球定位系统(GPS)接收器、无线游戏控制器、和包括用于无线发送和/或接收信息的可编程处理器和电路的类似电子设备。

已描述了各种示例。这些和其它示例均在随附权利要求书的范围内。

相关技术
  • 与设备外部的所选目标对象相关联的声音的呈现
  • 用于呈现数据的呈现的设备和相关联的方法
技术分类

06120113142362