掌桥专利:专业的专利平台
掌桥专利
首页

设备之间的媒体交换

文献发布时间:2023-06-19 11:55:48


设备之间的媒体交换

依据35 U.S.C.§119要求优先权

本专利申请要求于2019年12月19日递交的、名称为“MEDIA EXCHANGE BETWEENDEVICES”、编号为16/720,601的非临时申请以及于2018年12月21日递交的、名称为“MEDIAEXCHANGE BETWEEN DEVICES”、编号为62/783,917的临时申请的优先权,以及上述所有申请转让给本专利申请的受让人并且据此以引用的方式明确地并入本文中。

技术领域

本申请与设备之间的交互式媒体交换有关。

背景技术

以下通常涉及无线通信,以及更具体地,涉及车辆到万物的控制信道设计。

广泛地部署无线通信系统以提供比如语音、视频、分组数据、消息传送、广播等的各种类型的通信内容。这些系统可能能够通过共享可用的系统资源(例如,时间、频率和功率)来支持与多个用户进行的通信。这样的多址系统的示例包括码分多址(CDMA)系统、时分多址(TDMA)系统、频分多址(FDMA)系统以及正交频分多址(OFDMA)系统(例如,长期演进(LTE)系统或新无线电(NR)系统)。

无线多址通信系统可以包括多个基站或接入网络节点,其均同时地支持针对多个通信设备的通信,所述通信设备也可以称为用户设备(UE)。此外,无线通信系统可以包括用于基于车辆的通信的支持网络。例如,车辆到车辆(V2V)和车辆到基础设施(V2I)通信是实现对车辆与其周围环境之间的数据进行交换的无线技术。V2V和V2I统称为车辆到万物(V2X)。V2X针对快速移动的物体(例如,如车辆)使用无线通信链路。最近地,出现V2X通信蜂窝V2X(C-V2X)以将其与基于WLAN的V2X进行区分。

5G汽车协会(5GAA)推出C-V2X。C-V2X最初是在LTE版本14中定义的并且被设计为在若干模式下操作:(a)设备到设备(V2V);(b)设备到小区塔(V2I);以及(c)设备到网络(V2N)。在3GPP版本15中,C-V2X包括针对V2V和基于传统的蜂窝网络的通信两者的支持,以及该功能被扩展以支持5G空中接口标准。C-V2X中的PC5接口允许在不对基站进行使用的情况下(经由“侧行链路信道”)在车辆与其它设备之间的直接的通信。

基于车辆的通信网络可以提供始终在线的远程信息处理,其中UE(比如车辆UE(v-UE))直接地传送到网络(V2N)、到行人UE(V2P)、到基础设施设备(V2I)以及到其它v-UE(例如,经由网络)。基于车辆的通信网络可以通过提供智能连接来支持安全的、始终连接的驾驶体验,其中交通信号/定时、实时交通和路线、向行人/骑自行车的人的安全警报、碰撞避免信息等被交换。

然而,这样的支持基于车辆的通信的网络还可能与各种要求相关联,例如,通信要求、安全和隐私要求等。其它示例要求可以包括但不受限于减少的延时要求、较高的可靠性要求等。例如,基于车辆的通信可以包括传送可以支持自动驾驶汽车的传感器数据。也可以在车辆之间使用传感器数据,以改善自动驾驶汽车的安全性。

V2X和C-V2X考虑到出现各种的应用,包括本公开内容中描述的应用。

发明内容

一般而言,本公开内容描述用于设备之间的交互式媒体交换的技术。

在一个示例中,本公开内容描述用于读取元数据中的一个或多个标签的第一设备,所述第一设备包括一个或多个处理器,所述一个或多个处理器被配置为:从经由侧行链路信道无线地连接到所述第一设备的第二设备接收元数据。所述一个或多个处理器可以被配置为:读取从所述第二设备接收的所述元数据,以提取表示音频内容的一个或多个标签;以及基于所述一个或多个标签来识别音频内容;以及输出所述音频内容。所述第一设备还可以包括存储器,其耦合到所述一个或多个处理器,所述存储器被配置为存储所述元数据。

在一个示例中,本公开内容描述用于在第一设备中读取元数据中的一个或多个标签的方法,所述方法包括:从经由侧行链路信道无线地连接到所述第一设备的第二设备接收元数据。所述方法还包括:读取从所述第二设备接收的所述元数据,以提取表示音频内容的一个或多个标签,基于所述一个或多个标签来识别音频内容,以及输出所述音频内容。

在一个示例中,本公开内容描述用于读取元数据中的一个或多个标签的装置,其中所述装置包括:用于从经由侧行链路信道无线地连接到所述第一设备的第二设备接收元数据的单元。所述装置还包括:用于读取从所述第二设备接收的所述元数据,以提取表示音频内容的一个或多个标签的单元,用于基于所述一个或多个标签来识别音频内容的单元,以及用于输出所述音频内容的单元。

在一个示例中,本公开内容描述在其上存储指令的非暂时性计算机可读存储介质,所述指令在执行时使得一个或多个处理器进行以下操作:从经由侧行链路信道无线地连接到所述第一设备的第二设备接收元数据。所述指令在执行时还使得一个或多个处理器进行以下操作:读取从所述第二设备接收的所述元数据,以提取表示音频内容的一个或多个标签,基于所述一个或多个标签来识别音频内容,以及输出所述音频内容。

本公开内容的一个或多个示例的细节是在附图和下文的描述中阐述的。技术的各个方面的其它特征、对象和优势将根据说明书和附图以及根据权利要求书而变得显而易见。

附图说明

图1a示出第一设备基于检测到对另一设备(例如,第二设备)的选择来与另一设备进行通信的概念图。

图1b示出可以基于检测到对另一设备(例如,第二设备)的选择来与另一设备进行通信并且由跟踪器辅助的第一设备的概念图,其中音频通信可以被空间化。

图1c示出不同的车辆根据在本公开内容中描述的技术来发送和接收无线连接的概念图。

图1d示出不同的车辆使用车辆内的高速缓存服务器或车辆内的存储器来发送和接收无线连接的概念图。

图2示出第一设备基于在本公开内容中描述的技术来发起与第二设备进行的通信的过程的流程图。

图3示出在第一车辆上或第一车辆中具有根据在本公开内容中描述的技术进行操作的不同的组件的第一车辆的概念图。

图4a示出在第一设备上或第一设备中具有根据在本公开内容中描述的技术进行操作的不同的组件的第一设备的方框图。

图4b示出在第一设备上或第一设备中具有根据在本公开内容中描述的技术进行操作的不同的组件的第一设备的方框图。

图5示出根据在本公开内容中描述的技术的对世界坐标到像素坐标的变换的概念图。

图6a示出对远程车辆/乘客(例如,第二车辆)的距离和角度的估计的一个实施例的概念图。

图6b示出对远程设备的x-y平面中的距离和角度的估计的概念图。

图6c示出对远程设备的y-z平面中的距离和角度的估计的概念图。

图7a示出根据在本公开内容中描述的技术的音频空间化器的实施例。

图7b示出包括根据在本公开内容中描述的技术使用的解码器的音频空间化器的实施例。

图8示出其中第一车辆中的人员的位置和选择的(远程)车辆可以位于同一坐标系中的实施例。

具体实施方式

某些无线通信系统可以用于传送与高可靠性和低延时相关联的数据。这样的数据的一个非限制性的示例包括C-V2X和V2X通信。例如,自动驾驶汽车可能依赖无线通信。自动驾驶汽车可以包括一些传感器,例如,作为视距传感器的光检测和测距(LIDAR)、无线电检测和测距(RADAR)、照相机等。然而,C-V2X和V2X通信可以包括视距通信和非视距无线通信。目前,C-V2X和V2X通信是使用非视距无线通信用于处理接近公共交叉口但不在彼此视线范围内的车辆之间的通信的示例。C-V2X和V2X通信可以用于在车辆之间共享传感器信息。该通信场景和其它通信场景引起了某些考虑。例如,针对特定的位置或地理区域,可能存在若干辆车辆感测到相同的信息,比如障碍物或行人。这提出了以下问题:哪个车辆应当广播这样的信息(例如,传感器数据),如何共享这样的信息(例如,哪个信道配置提供减少的延时和改善的可靠性)等。

C-V2X通信系统可以具有逻辑信道和传输信道。逻辑信道和传输信道可以用作第一设备(例如,耳机或车辆)与网络中的基站或另一中间节点之间的上行链路和下行链路数据传输的一部分。本领域普通技术人员可以认识到的是,逻辑信道可以包括不同类型的控制信道,例如,xBCCH、xCCH、xDCCH。当第一设备正在从另一实体(例如,服务器或基站)下载广播系统控制信息时,可以使用xBCCH类型的信道。xCCCH控制信道可以用于在第一设备(例如,车辆、移动设备或耳机)与网络(例如,网络基站中的节点)之间发送控制信息。当第一设备(例如,车辆、移动设备或耳机)不具有与网络的无线资源控制连接时,可以使用xCCCH控制信道。xDCCH控制信道包括第一设备与网络之间的控制信息,以及由具有与网络的无线资源控制连接的第一设备使用。xDCCH也是双向的,即,控制信息可以由第一设备和网络发送和接收。

通常地,在上文提及的不同类型的控制信道中传送的一些信息比特可以提供对数据信道(或资源)的位置的指示。由于数据可以横跨若干子载波(取决于发送的数据量),并且控制信道的大小当前是固定的,因此这可能在控制信道与相应的数据信道之间引入时间/频率上的瞬变或间隙。这导致控制信道的未使用的频率/时间资源。可能将未使用的频率/时间资源用于在车辆之间或在设备之间传送媒体的其它目的。也可能在V2X或C-V2X系统中创建新的信道,特别是用于在车辆之间或在设备之间对媒体的交换。

如上文所述,车辆正在使用来自其它领域的许多进步来改善其安全性、信息娱乐系统和整体用户体验。

例如,在车辆中可以使用并入比如RADAR、LIDAR或计算机视觉的传感器的对象检测算法,以在驾驶时执行对象检测。这些对象可以包括道路上的车道、停车标志、其它车辆或行人。V2X和C-V2X用例中的一些用例设想协作V2X系统,以在车辆与另一对象(例如,汽车、自行车或人)可能发生碰撞时向车辆或车辆的驾驶员进行警告。由于V2X和C-V2X系统的相对较新的性质,尚未设想多种改进。

要改进的一个领域是不同的车辆中的人之间的通信。尽管车辆中的某个人可能与不同的车辆上的另一人进行通信,但是该通信是通过打电话来完成的。电话的发起者知道要拨打什么电话号码来与另一人进行通信,然后拨打该电话号码。

本公开内容设想基于使用直接信道通信或对等连接、V2X或C-V2X通信系统来发起被发送到选择的目标对象的目标对象选择,对设备允许与其它人或某种其它设备进行通信或听觉体验的方式进行改进。

例如,用于与第二设备进行通信的第一设备可以包括一个或多个处理器,所述一个或多个处理器被配置为:检测对在第一设备外部的至少一个目标对象的选择,以及在第一设备和与在第一设备外部的至少一个目标对象相关联的第二设备之间发起通信信道。是否首先执行对在第一设备外部的至少一个目标对象的选择还是对在第一设备和与在第一设备外部的至少一个目标对象相关联的第二设备之间的通信信道的发起,可能不是实质性的。其可以取决于上下文或情况,是否已经建立信道,以及发生对通信信道的发起,或者对通信信道的发起是否是基于检测到对在第一设备外部的至少一个目标对象的选择。

例如,在检测到对在设备外部的至少一个目标对象的选择之前,可能已经建立了第一设备与第二设备之间的通信信道。还可能的是,对第一设备与第二设备之间的通信信道的发起是响应于检测到选择的。

此外,第一设备中的一个或多个处理器可以被配置为:由于在第一设备外部的至少一个目标对象与第二设备之间的通信信道而从第二设备接收音频分组。随后地,在接收到音频分组之后,一个或多个处理器可以被配置为:对从第二设备接收的音频分组进行解码以生成音频信号,以及基于对在第一设备外部的至少一个目标对象的选择来输出音频信号。第一设备和第二设备可能是第一车辆和第二车辆。本公开内容具有示出车辆的不同的示例,但是描述的技术中的许多技术也适用于其它设备。即,这两个设备可以是耳机,包括:混合现实耳机、头戴式显示器、虚拟现实(VR)耳机、增强现实(AR)耳机等。

可以通过耦合到第一设备的一个或多个扬声器来再现音频信号。如果第一设备是车辆,则扬声器可以位于车辆的驾驶室内。如果第一设备是耳机,则扬声器可以再现音频信号的二进制版本。

基于对目标对象的选择,可以执行在一个或多个目标对象与第一设备之间使用C-V2X或V2X系统或其它通信系统进行的通信。第二设备(即,耳机或车辆)可以具有与第二设备相关联的在说话或播放音乐的一个或多个人员。从第二车辆内部发出或从第二耳机发出的语音或音乐可以使用音频/语音编解码器进行压缩并且产生音频分组。音频/语音编解码器可以是两个单独的编解码器,例如,音频编解码器,或者可以是语音编解码器。或者,一个编解码器可以具有压缩音频和语音的能力。

本文中参照附图描述另外的技术和上下文。

图1a示出可以与另一设备(例如,第二设备)进行通信的第一设备的概念图。该概念图还包括在第一设备内检测对另一设备的选择。例如,第一设备可以是能够通过V2X或C-V2X通信系统与第二设备进行通信的第一车辆303a。第一车辆303a可以包括如上文的圆圈103中示出的不同的组件或人员111。人员111可能正在驾驶,或者如果第一车辆303a是自动驾驶,则人员111可能不在驾驶。人员111可以通过第一车辆303a的后视镜127或车窗132看到在道路上行驶的其它车辆,并且希望听到在另一车辆内的收音机上播放的音乐类型。在第一车辆303a的一些配置中,第一车辆303a的照相机124可以辅助人员111看到可能难以通过后视镜127或车窗132看到的其它车辆。

人员111可以选择在车辆外部的至少一个目标对象,或者如果人员111佩戴耳机,则至少一个目标对象在耳机外部。目标对象可以是车辆本身,即,第二车辆可以是目标对象。或者,目标对象可以是另一人。选择可以是图像检测算法的结果,所述图像检测算法可以被译码在由第一车辆中的处理器执行的指令中。可以通过安装在第一车辆上的外部照相机来辅助图像检测算法。图像检测算法可以检测不同类型的车辆或者仅可以检测面部。

另外地或替代地,人员111可以说出用于识别目标车辆的描述符。例如,如果第二车辆是黑色本田雅阁,则该人员可以说出“本田雅阁”、“我面前的黑色本田雅阁”、“我左边的雅阁”等以及语音识别算法,所述语音识别算法可以是译码在第一车辆中的处理器上执行的指令中的,以检测和/或识别短语或关键字(例如,汽车的制造商和模型)。照此,第一设备可以包括:对至少一个目标对象的选择是基于检测到基于关键字检测的命令信号。

执行用于图像检测算法的指令的处理器可能不一定是执行用于语音识别算法的指令的相同的处理器。如果处理器不相同,则可以独立地工作或以协调的方式工作,例如,以辅助对另一处理器的图像或语音识别。一个或多个处理器(其可以包括在图像检测或者语音识别中使用的相同的处理器或不同的处理器)可以被配置为检测对第一设备的至少一个目标对象的选择。也就是说,一个或多个处理器可以用于检测选择哪个目标对象(例如,面部或其它车辆或耳机)。该选择可以发起第二设备(另一车辆或耳机)之间的通信。在一些情况下,可能已经建立了第一设备与第二设备之间的通信信道。在一些情况下,图像检测算法还可以并入图像识别的各方面,例如,检测车辆与检测“本田雅阁”。为了简单起见,在本公开内容中,除非另有明确地说明,否则图像检测算法可以包括图像识别方面。

如上文所提及的,当两个人希望互相通信和说话时,一个人员通过拨打电话号码来给另一人员打电话。或者,两个设备可以彼此无线连接,并且如果两个设备均连接到通信网络,则每个设备可以注册另一设备的互联网协议(IP)地址。在图1a中,第一设备与第二设备之间的通信还可以通过V2X、C-V2X通信网络或具有例如不使用基站的情况下直接地连接两个设备的能力的网络中的设备中的每个设备各自的IP地址来建立。然而,与即时消息传送、聊天或电子邮件不同,第一设备与第二设备之间的通信是基于对与第二设备相关联的目标对象的选择或基于对第二设备自身直接地进行的选择来发起的。

例如,车辆303a中的人员111可以看到第二车辆303b或不同的第二车辆303c,并且可能希望基于车辆的图像检测、图像识别或语音识别来发起与这些车辆中的一个车辆中的人员的通信。

在对目标对象的选择之后,第一设备中的一个或多个处理器可以被配置为发起通信,包括基于IP地址。在人员111是第一车辆的驾驶员的情况下,使用手通过对话窗口来发起消息传送、电子邮件或聊天是不安全的。然而,不使用手来说话的音频用户接口正变得越来越流行,以及在图1a中示出的系统中,可能基于V2X或C-V2X通信系统来发起两个设备之间的通信以及与另一人员说话。车辆可以使用V2V通信或使用C-V2X的侧行链路信道进行通信。C-V2X系统的优点是,车辆可以在车辆之间发送通信信号,而与车辆是否连接到蜂窝网络无关。

当车辆无线地连接到蜂窝网络时,车辆还可能使用V2V或C-V2X通信或侧行链路信道进行通信。

可能在侧行链路信道中包括其它数据。例如,可以经由侧行链路信道来接收音频分组和/或音频内容的一个或多个标签。在这种情况下,在由于车辆是自动驾驶或者由于人员111是乘客而人员111不在驾驶的情况下,也可能在侧行链路信道中在设备之间发送即时消息。即时消息可以是第一设备与第二设备之间的媒体交换(其可以包括音频分组)的一部分。

上方的圆圈103中还示出显示设备119。显示设备119可以表示车辆的图像或图标。当发起通信时或在第一车辆303a与第二车辆(例如,303b或303c)之间的通信期间,模式133可以亮起或者可以闪烁开关。

此外,在对目标对象的选择之后,由于在第一设备外部的至少一个目标对象与第二设备之间的通信信道,因此可以从第二设备接收音频分组。例如,下方的圆圈163包括处理器167,所述处理器167可以被配置为:对从第二设备接收的音频分组进行解码以生成音频信号,以及基于对在第一设备外部的至少一个目标对象的选择来输出音频信号。也就是说,通过扬声器169的回放,人员能够听到在第二车辆(或耳机设备)中正在播放什么语音或音乐。

如在本公开内容中稍后解释的,其它选择模式可以是可能的,包括对人员111的手势检测和对人员111的眼睛注视检测。

图1b示出可以与另一设备(例如,第二设备)进行通信的第一设备的概念图。所述概念图还包括在跟踪器的辅助下在第一设备内检测对另一设备的选择,以及音频通信可以被空间化。

图1b类似于与图1a相关联的描述,其中对其它元素进行添加。例如,上方的圆圈104未如下方的圆圈129所示的那样示出设备119。上方的圆圈104示出在如相对于图1a描述地运作的车窗132、后视镜127和内部照相机124外部的车辆。

下方的圆圈129示出显示设备119。除了仅表示车辆133的图标或图像之外,显示设备还可以表示可能被第一车辆303a中的人员111潜在地选择的实际车辆的图像。例如,在显示设备119上表示由一个或多个外部照相机(例如,图3中的310b、图4中的402)捕获的车辆的图像。车辆的图像可以具有封装车辆的图像中的每个图像的边界框137a-137d。边界框可以有助于对目标对象进行选择,例如,在显示设备上表示的车辆中的一个车辆。此外,代替车辆的图标与图像之间的模式133,从选择第二车辆的人员111的角度来看,可以存在单独的模式149。因此,边界框137d可以示出所选择的第二车辆303b,以及单独的模式149的方向可以点亮或者也可以闪烁开关,以表示已经发起通信或者正在与第二车辆303b进行通信。

此外,处理器可以包括跟踪器151和特征提取器(未示出),所述特征提取器可以对显示设备119上的图像执行特征提取。提取的特征可以独自或者在一些配置中与RADRA/LIDAR传感器协力,辅助对所选择的车辆(例如,303b)的相对位置进行估计。在其它配置中,跟踪器151可以被辅助或仅对来自所选择的车辆的GPS位置的输入进行操作,所述GPS位置也可以通过V2X或C-V2X系统中的通信信道来发送给第一车辆303a。

例如,第二车辆303b或另一第二车辆303c可能无法是通过照相机看到的。在这样的场景中,车辆303b和车辆303c可以各自具有检测每个车辆的位置的GPS接收机。每个车辆的位置可以由第一设备(例如,车辆303a)经由辅助GPS接收,或者如果V2X或C-V2X系统允许,则直接地通过V2X或C-V2X系统接收。对车辆的位置的接收可以由如一个或多个GPS卫星160单独地或者与基站协力确定的(如例如在辅助GPS中使用的)GPS坐标来表示。第一设备可以基于经由其自己的GPS接收机知道第一设备(其自己的)GPS坐标来计算其自己相对于另一车辆(车辆303b和车辆303c)的位置。另外地或替代地,第一设备可以基于耦合到第一设备的RADAR传感器、LIDAR传感器或照相机的用户来计算其自己的位置。应当理解的是,计算还可以称为估计。因此,第一设备可以基于耦合到第一设备的RADAR传感器、LIDAR传感器、照相机或接收GPS坐标来估计其自己的位置。此外,每个车辆或设备可以通过使用辅助的GPS来知道其自己的位置,即,使基站或其它中间结构接收GPS坐标并且将其中继到每个车辆或设备。

此外,显示设备119可以在第一设备的相对位置上表示第二设备的图像。也就是说,与显示设备119协作的外向照相机310b或402可以在第一设备的相对位置上表示第二设备。因此,显示设备119可以被配置为表示第二设备的相对位置。此外,第二设备的相对位置可以在显示设备119上表示为第二设备的图像。

此外,可以整合到一个或多个处理器的音频引擎155可以基于设备的相对位置来处理经解码的音频分组。音频引擎155可以是可以整合为处理器的一部分的音频空间化器的一部分,可以基于在显示设备119上表示的第二设备的相对位置来将音频信号输出为三维空间化音频信号。

如上文所讨论的,相对位置还可以是基于GPS接收机,所述GPS接收机可以耦合到跟踪器155以及可以与一个或多个处理器整合,以及第一设备可以执行辅助GPS以确定第二设备的相对位置。可以是可以整合为处理器的一部分的音频空间化器的一部分的音频引擎155可以基于由第二设备161的辅助GPS确定的相对位置来将音频信号输出为三维空间化音频信号。

此外,在一些配置中,外向照相机310b和402可以捕捉在第一车辆303a前面或后面的设备或车辆。在这样的场景中,可能期望听到来自第一车辆303a后面(或者如果是耳机,则在佩戴耳机的人员后面)的车辆或设备发出的声音,这些声音具有与在第一车辆303a前面的车辆或设备不同的空间分辨率。因此,与相对于第二设备的第二位置(例如,在第一设备后面)相比,当第二设备位于相对于第一设备的第一位置(例如,在第一设备前面)时,以不同的空间分辨率输出三维空间化音频信号。

此外,当正在跟踪在第一设备外部的至少一个目标对象(例如,第二设备或第二车辆)的相对位置时,一个或多个处理器可以被配置为:接收对在第一设备外部的至少一个目标对象的相对位置的经更新的估计。基于经更新的估计,可以输出三维空间化音频信号。因此,第一设备可以通过扬声器157呈现三维空间化音频信号。第一车辆303a中或佩戴耳机的人员可以听到由第二设备(例如,在第一设备右前方的车辆303c)接收的声音,如同音频来自右前方一样。如果第一设备是车辆303a,则右前方是相对于车辆303a的潜在的驾驶员向外看车窗132而言的,如同他或她正在驾驶车辆303a一样。如果第一设备是耳机,则右前方是相对于佩戴耳机的人员直视前方而言的。

在一些场景中,音频引擎155可能接收多个音频流,即,来自多个设备或车辆的音频/语音分组。也就是说,可以存在选择的多个目标对象。在第一设备外部的多个目标对象可以是车辆、耳机、或耳机和车辆的组合。在存在多个目标对象的这样的场景中,扬声器157可以被配置为:基于多个车辆(例如,303b和303c)或设备(例如,耳机)中的各者的相对位置来呈现三维空间化音频信号。还可能将音频流混合到一个听觉信道中并且一起被听到,如同在辅车辆(例如,303b和303c)中的至少一个人员之间存在多方对话一样。

在一些配置中,可以在单独的通信信道中从多个车辆中的每个车辆接收音频/语音分组。也就是说,第一车辆303a可以在一个通信信道中从辅车辆303b接收音频/语音分组,以及还可以在不同的通信信道303c中从不同的辅车辆303c接收音频/语音分组。音频分组(为简单起见)可以表示由辅车辆中的每个车辆中的至少一个人员所说的语音。

在这样的场景中,第一车辆303a中的乘客或耳机可以通过遍及本公开内容的其它部分提出的技术来选择两个目标对象。例如,第一车辆303a中的人员111可以在由边界框137a-137d封装的显示设备119上的区域中点击,以选择与其进行多方通信的至少两个车辆(例如,303b和303c)。或者,人员111可以使用语音识别来选择与其进行多方通信的至少两个车辆(例如,303b和303c)。

在一些配置中,一个或多个处理器可以被配置为:对辅车辆的人或车辆中的各者进行认证,以促进辅车辆(例如,303b和303c)中的至少一个人员与第一车辆303a中的人员111之间的可信的多方对话。如果人们愿意在其车辆中存储彼此的声音样本,则认证可以是基于语音识别。涉及对多方对话中的人员或车辆的面部或图像识别的其它认证方法可以是可能的。

图1c示出不同的车辆根据在本公开内容中描述的技术来发送和接收无线连接的概念图。

车辆可以如图1c所示直接地无线连接,或者可以无线地连接到能够作为C-V2X或V2X通信系统176的一部分来发送和接收数据和/或消息的不同的接入点或节点。

图1d示出不同的车辆使用车辆内的高速缓存服务器或车辆内的存储器来发送和接收无线连接的概念图。

在经由侧行链路信道无线地连接的第一设备与第二设备之间交换的即时消息可以包括从一个车辆递送到另一车辆的数据分组和/或音频分组。例如,第二设备(例如,车辆303d)可以在侧行链路信道之上广播或发送即时消息,其中即时消息包括元数据1。在一些配置中,元数据1是在侧行链路信道之上发送的,以及可能不一定是即时消息的一部分。

在不同的实施例中,C-V2X或V2X通信系统176中的车辆可以接收即时消息或元数据,其包括与经由内容递送网络(CDN)从静态广播站递送给车辆(例如,车辆303a、车辆303d、车辆303e)的音频内容相关联的一个或多个特性(tang)。CDN可以在发送者与接收者之间高效且快速地传输数据。在分布式网络中,存在转发可以使用的分组的许多可能的网络链路和路由器的组合。对网络链路和路由器的选择提供用于快速且可靠的内容递送网络。

高需求的内容可以是存储或高速缓存在靠近数据的消费者所在的网络边缘的存储器位置。当有媒体内容(比如具有许多观众和听众的娱乐节目)正在广播时,这种情况可能更为可能。高速缓存的物理位置越靠近媒体消费者,可能意味着网络连接越快并且内容递送越好。在其中数据的发送者和接收者均在车辆中行进并且车辆改变相对于彼此的位置的配置场景中,CDN的角色可以提供在侧行链路信道之上递送媒体内容的高效的方式。在最接近消费者的网络边缘处高速缓存的内容可以被存储在正在行进的设备(例如,车辆303d)中。媒体内容(例如,音频内容或元数据的一个或多个标签)正在发送给其它行进车辆。如果沿着道路在同一方向上行进,则广播设备(例如,车辆303e)和监听设备(例如,车辆303a)彼此仅在几英里之内。因此,强本地连接是可能的。相反,如果两个车辆在同一道路上沿相反的方向行进,则监听车辆303a可能落在广播设备(例如,车辆303e)和监听设备(例如,车辆303a)的范围之外。

在车辆到车辆通信系统中,可能从超出车辆范围的无线电站进行接收。例如,在城市之间行进300英里的车辆将无疑失去来自出发城市的信号。然而,利用CDN,可能从在无线电站信号的范围限制处的车辆中继和重新广播无线电信号。距离广播站某一径向距离的车辆成为针对无线电站的高速缓存,从而允许具有某一范围的其它车辆请求流。也就是说,广播车辆303e可能包括高速缓存服务器172,并且在C-V2X或V2X通信系统网络176之上广播元数据2。监听车辆303a可以接收元数据2。

机器学习算法可以用于监听、解析、理解和广播驾驶员的监听偏好。与驾驶员的地理位置组合,可以收集信息以确定由车辆从每个地理区域内的其它车辆最频繁地接收到的最流行的内容。

如图1d可以看见的,可以存在用于从第二设备接收元数据的第一设备。第一设备和第二设备可以经由作为C-V2X或V2X通信系统网络172的一部分的侧行链路信道来无线地连接的。一旦第一设备(例如,车辆303d)接收到元数据(例如,元数据1171或元数据2173),第一设备可以读取元数据并且提取表示音频内容的一个或多个标签。

一个或多个标签可以包括歌曲名称、艺术家名称、专辑名称、作者或国际标准录音代码。国际标准录音代码(ISRC)唯一地标识录音和音乐录像,以及被编码为ISO 3901标准。

元数据可以被索引并且可以在我的搜索引擎中搜索。如果音频内容由第二设备(例如,车辆303d或车辆303e)流式传输或广播,则一个或多个标签可以由音频播放器读取,或者在一些情况下,由到无线单元的无线电接口读取。此外,可以在显示设备上表示音频标签中的一个或多个音频标签。与音频内容相关联的元数据可以包括歌曲、有声书、来自电影的曲目等。

元数据可以是结构性的或描述性的。结构性元数据将数据表示为数据的容器。描述性的元数据描述音频内容或与音频内容相关联的一些属性(例如,歌曲、作者、创作日期、专辑等)。

在由一个或多个处理器提取表示音频内容的一个或多个标签之后,可以基于提取的一个或多个标签来识别音频内容。第一设备的一个或多个处理器可以被配置为输出音频内容。

在图1d中,第一设备也可能是被配置为接收一个或多个标签中的一个标签的设备组的一部分。设备(例如,车辆303a)可以是设备组(例如,车辆303b和车辆303c)的一部分,所述设备组被配置为从另一设备(例如,车辆303d或车辆303e)接收元数据的至少一个标签。设备组,其还可以包括发送元数据的另一些设备(例如,车辆303d和车辆303e)。也就是说,可以存在包括五个设备的设备组,包括:其中设备全部是车辆(例如,车辆303a、车辆303b、车辆303c、车辆303d和车辆303e),或者存在车辆和耳机的混合。可能是包括这五个设备的设备组。

在一实施例中,设备组可以是内容递送网络(CDN)的一部分。另外地或替代地,设备组中的第二设备(例如,303e)可以是单独的内容递送网络,以及将一个或多个标签发送给该组中的其余设备。

图2示出第一设备基于在本公开内容中描述的技术来发起与第二设备的通信的过程200的流程图。

第一设备可以包括一个或多个处理器,其被配置为:从经由侧行链路信道无线地连接到第一设备的第二设备接收元数据210。一个或多个处理器可以被配置为:读取从第二设备接收的元数据,以提取表示音频内容的一个或多个标签220。一个或多个处理器可以被配置为:基于一个或多个标签来识别音频内容230并且输出音频内容240。

图3示出在第一车辆上或第一车辆中具有根据在本公开内容中描述的技术进行操作的不同的组件的第一车辆的概念图。如图3所示,人员111可能正在车辆303a中移动。对在车辆303a外部的目标对象的选择可以直接地在驾驶员的视野内,该视野可以由耦合到车辆303a内的照相机310a的眼睛注视跟踪器(即,人员111正在注视目标对象)或手势检测器(人员111做出手势,例如,指向目标对象)捕获。照此,

第一设备可以包括基于对命令信号的检测来对至少一个目标对象进行选择,对命令信号的检测是基于眼睛注视检测。

如果目标对象是在车辆303a外部的人员,或者存在与车辆303b相关联的另一可识别图像,则安装在车辆303a上的照相机310b还可以辅助对目标对象本身(例如,车辆303b)或与目标对象相关联的另一设备进行选择。

通过无线局域网(WLAN)(其可以是蜂窝网络(比如C-V2X)的一部分、或者蜂窝网络和Wi-Fi网络的共存、或者仅是Wi-Fi网络)或者V2X网络,一个或多个天线356(可选地与深度传感器340耦合)可以辅助确定目标对象相对于车辆303a的相对位置。

应当注意的是,取决于可用的带宽,通过一个或多个天线356、安装在车辆303a内的照相机310a、或安装在车辆303a上的照相机310b、或两个照相机310a、310b,可以形成作为车辆303a的一部分的个域网(PAN)。通过PAN,车辆303a中的照相机310a或者车辆303a上的照相机310b可能要具有与跟目标对象相关联的设备或目标对象本身的间接的无线连接。尽管在车辆303a的前面附近示出外部照相机310b,但是车辆303a可能将一个或多个外部照相机310b安装在车辆303a的后面附近或后面,以查看车辆303a后面有哪些设备或车辆。例如,第二设备可以是车辆303c。

外部照相机310b可以辅助选择,或者如先前和下文解释的,GPS也可以辅助确定第二设备的位置,比如第二车辆303c所位于的位置。

可以在显示设备319上表示第二设备的相对位置。第二设备的相对位置可以是基于通过一个或多个天线356接收位置。在另一实施例中,可以使用深度传感器340来辅助或确定第二设备的位置。还可能的是,可以使用检测第二设备的位置的其它位置检测技术(例如,GPS)或者辅助GPS来确定第二设备的相对位置。

对第二设备的相对位置的表示可以显现为与第二设备相关联的合成图像、图标或其它表示,使得车辆303a中的人员可以通过朝向显示设备319上的表示的眼睛注视或朝向显示设备319上的表示的手势(指向或触摸)来对第二设备进行选择。

选择也可以通过语音识别来进行以及使用位于车辆303a内的一个或多个麦克风360。当第二设备与车辆3030a相通信时,音频信号可以由(第一)车辆303a通过安装在车辆303a中或车辆303a上的、耦合到一个或多个天线356的收发机接收。

本领域的普通技术人员还将领会的是,随着自主车辆的不断进步,车辆303a的驾驶员可能不会实际手动指挥(即,“驾驶”)车辆303a。而是,车辆303a可以在一部分时间内是自动驾驶的。

图4a示出在第一设备上或第一设备中具有根据在本公开内容中描述的技术进行操作的不同的组件的第一设备的方框图400a。不同的组件中的一个或多个组件可以整合在第一设备的一个或多个处理器中。

如图4a所示,可以基于眼睛注视跟踪器404来对在第一设备外部的目标对象进行选择,所述眼睛注视跟踪器404检测和跟踪耳机的佩戴者注视的位置或第一车辆中的人员111注视的位置。当目标对象在人员的视野内时,眼睛注视跟踪器404可以检测和跟踪眼睛注视,以及经由目标对象选择器414来辅助选择目标对象。类似地,耦合到车辆303a内的一个或多个内向照相机403或安装在耳机(未示出)上的手势检测器406可以检测到手势,例如,指向目标对象的方向。此外,语音命令检测器408可以基于人员111说出短语来辅助选择目标对象,如上文所描述的,例如,“我前面的黑色本田雅阁”。语音命令检测器408的输出可以由目标对象选择器414用于选择预期的第二设备,例如,车辆303b或车辆303c。

如先前所提及的,车辆303a可能具有安装在车辆303a的后面附近或后面的一个或多个外向照相机402,以查看车辆303a后面有哪些设备或车辆。例如,第二设备可以是车辆303c。

可以基于图像的特征、图像、或图像和图像的特征两者来相对于第一设备表示目标对象(例如,第二设备),其中,图像由耦合到第一设备的一个或多个照相机捕获。

一个或多个外向照相机402可以辅助对第二车辆303c所位于的位置进行选择,例如,在车辆303a的后面(在其它附图中)。

还可能的是,基于一个或多个发射机天线425和可能的深度传感器340(图4a中未示出)或检测第二设备位置的其它位置检测技术(例如,GPS),可以在显示设备410上表示第二设备的相对位置。对第二设备的相对位置的表示可以显现为与第二设备相关联的合成图像、图标或其它表示,使得车辆303a中的人员可以通过朝向显示设备410上的表示的眼睛注视或朝向显示设备410上的表示的手势(指向或触摸)来对第二设备进行选择。

如果对远程设备(即,第二设备)的选择是基于触摸,则包括对在设备(即,第一设备)外部的至少一个目标对象的表示的显示设备可以被配置为:基于显示设备上的电容传感器或超声波传感器改变状态来选择在设备外部的至少一个目标对象。

耦合到第一设备中包括的一个或多个处理器的第一设备的一个或多个发射机天线425可以被配置为:基于由一个或多个处理器在第一设备和与在第一设备外部的至少一个目标对象相关联的第二设备之间发起通信信道来向第二设备发送通信数据。也就是说,在对第二设备进行选择之后,一个或多个处理器可以使用C-V2X和/或V-2X通信在第一设备与第二设备之间的通信信道中,在第一设备与第二设备之间发起协议或其它形式的通信。

选择还可以通过语音识别来进行以及使用位于车辆303a内的一个或多个麦克风(在图4a中未示出)。由于第二设备与车辆3030a进行通信,因此音频信号可以由(第一)车辆303a、由安装在车辆303a中或车辆303a上的耦合到收发机(例如,能够进行V2X或C-V2X通信的调制解调器)的一个或多个接收机天线430接收。也就是说,耦合到一个或多个处理器的一个或多个接收天线430可以被配置为:基于在第一设备外部的至少一个目标对象(例如,第二设备)与第一设备之间对通信信道的发起的结果来接收音频分组。

此外,第一设备可以包括一个或多个外向照相机402。如果目标对象是在车辆303a外部的人员,或者存在与车辆303b相关联的某个其它可识别的图像,则可以安装在车辆303a上的外向照相机402还可以辅助对目标对象本身(例如,车辆303b)或与目标对象相关联的另一设备进行选择。一个或多个外向照相机可以耦合到一个或多个处理器,其包括可以对显示设备410上的图像执行特征提取的特征提取器(未示出)。提取的特征独自或者在一些配置中与外部传感器422(例如,RADAR/LIDAR传感器)协力可以辅助对第二设备(例如,选择的车辆303b)的相对位置的估计。

提取的特征或外部传感器422的输出可以输入到选择的目标对象的相对位置/方向确定器420中。选择的目标对象的相对位置/方向确定器420可以整合到处理器中的一个或多个处理器中,以及可以是跟踪器的一部分,或者在其它配置中(如图4a所示),可以单独地整合到一个或多个处理器中。在图4a中,未示出跟踪器151。

距离和角度可以由选择的目标对象的相对位置/方向确定器420提供。该距离和角度可以由音频空间化器420用于输出基于第二设备的相对位置的三维音频信号。可以存在耦合到一个或多个处理器的至少两个扬声器440,所述一个或多个处理器被配置为:基于第二设备的相对位置来呈现三维空间化音频信号,或者如果存在多个第二设备(例如,多个车辆),那么可以如上文所描述的呈现三维空间化音频信号。

在由目标对象选择器414执行对在第一设备外部的至少一个目标对象的选择之后,整合到第一设备中的处理器中的一个或多个处理器中的命令解释器416在第一设备和与在第一设备外部的至少一个目标对象相关联的第二设备之间的通信信道。响应于对在第一设备外部的至少一个目标对象的选择,可以从第二设备接收音频分组。

来自第二设备的音频分组432a可以由编解码器438进行解码以产生音频信号。可以基于对在第一设备外部的至少一个目标对象的选择来输出音频信号。在一些场景中,音频分组可以表示来自与远程设备(即,辅设备)436a相关联的云的流。编解码器438可以对音频分组进行解压缩,以及音频空间化器可以对未压缩的音频分组432b或436b进行操作。在其它场景中,可以基于做出对辅车辆的选择的人员的乘客位置来空间化音频。

编解码器438可以与图4a所示的另一组件(例如,音频空间化器424)整合到处理器中的一个或多个处理器中,或者在其它配置中,可以单独地整合到单独的处理器中。

通过要使用的音频编解码器对音频分组进行传输可以包括以下各项中的一项或多项:MPEG-2/AAC立体声、MPEG-4BSAC立体声、真实音频、SBC蓝牙、WMA和WMA 10Pro。由于C-V2X和V2X系统可以使用数据业务信道或语音信道,因此音频分组(可以携带语音信号)以及可以使用以下编解码器中的一个或多个编解码器来对音频信号进行解压缩:AMR窄带语音编解码器(5.15kbp)、AMR宽带语音编解码器(8.85Kbps)、G.729AB语音编解码器(8kbps)、GSM-EFR语音编解码器(12.2kbps)、GSM-FR语音编解码器(13kbps)、GSM-HR语音编解码器(5.6kpbs)、EVRC-NB、EVRC-WB、增强型语音服务(EVS)。语音编解码器有时称为声码器。在通过空中发送之前,声码器分组是插入到较大的分组中的。在语音信道中发送语音,但是也可以使用VOIP(基于IP的语音)在数据信道中发送语音。编解码器438可以表示语音编解码器、音频编解码器或用于对语音分组或音频分组进行解码的功能的组合。一般而言,为了便于解释,术语音频分组还包括对分组的定义。

还可能的是,在一种配置中,在第二辆车距第一辆车特定的距离之后,也可以禁用空间化效果。

在第一设备中包括的一个或多个处理器可以被配置为:在第二车辆距第一设备超过可配置的距离之后,禁用空间化效果。可以基于距离来配置特定的距离,例如,八分之一英里。可配置的距离可以输入为距离测量或时间测量。可以基于时间(例如,取决于第一车辆和第二车辆的速度)来配置特定的距离。例如,可以按时间来测量之间的距离,而不是指示八分之一英里是空间效果应当持续的距离。对于以50英里/小时(mph)行驶的车辆,八分之一英里相当于9秒,即,125英里/50英里/小时=.0025小时=.0025*60分钟=.15分钟=9秒。因此,在该示例中,在9秒之后,空间效果可能会突然消失或停止。

图4b示出在第一设备上或第一设备中具有根据在本公开内容中描述的技术进行操作的不同的组件的第一设备的方框图400b。不同的组件中的一个或多个组件可以整合在第一设备的一个或多个处理器中。

方框图400b包括通信解释器416和rx天线430。通过rx天线430,一个或多个处理器可以被配置为从经由侧行链路信道无线地连接到第一设备的第二设备接收元数据435。一个或多个处理器可以将元数据存储在缓冲区444中。可以从缓冲区444读取元数据435。一个或多个处理器可以被配置为提取表示音频内容的一个或多个标签。例如,通信解释器416可以向控制器454发送控制信号,以及可以整合为一个或多个处理器的一部分的控制器可以控制提取器460,所述提取器460还可以整合为一个或多个处理器的一部分。提取器460可以被配置为提取表示音频内容的一个或多个标签。如果一个或多个标签尚未具有可以在缓冲区444中原位提取的形式,则可以经由总线445将一个或多个标签写回缓冲区444。也就是说,提取器460可以提取缓冲区444中的一个或多个标签,或者提取器460可以经由总线445接收元数据,并且然后经由总线445将一个或多个标签写回缓冲区444中。本领域的普通技术人员将认识到的是,可以在其中写入一个或多个标签的位置可以是同一缓冲区444或替代的缓冲区中的不同的存储器位置。然而,为了便于解释,仍可以称为缓冲区444。

一个或多个处理器可以被配置为基于一个或多个标签来识别音频内容。可以采用多种方式进行识别。例如,标签中的一个标签可以标识歌曲的名称,以及可以在显示设备410上显示标识歌曲的标签,或者一个或多个处理器可以将“歌曲”标签存储在存储器位置,例如,也在缓冲区444中或替代的存储器位置。基于该识别,一个或多个处理器可以输出音频内容。

可以以多种方式来完成对音频内容的输出。例如,第一设备中的一个或多个处理器可以被配置为基于一个或多个标签来切换到正在播放所识别的音频内容的无线电站。这可以通过使无线电接口458从控制器460接收控制信号来发生。无线电接口458可以被配置为扫过无线单元470上的不同的无线电站,以及基于一个或多个标签来将无线单元470切换到正在播放所识别的音频内容(例如,歌曲)的无线电站。

在另一示例中,一个或多个处理器可以被配置为启动媒体播放器以及使媒体播放器基于一个或多个标签来播放所识别的内容。媒体播放器可以从具有可以与接收到的一个或多个标签相关联的标签的播放列表中进行读取。例如,控制器可以被配置为将经由元数据接收并且利用其自己的标签提取的一个或多个标签与存储在存储器中的音频内容进行比较。媒体播放器可以耦合到数据库448,以及数据库448可以存储与媒体播放器的播放列表的音频内容相关联的标签。数据库448还可以以包括音频分组的音频比特流的形式存储音频内容的压缩版本。音频分组453可以是发送给编解码器438的。编解码器438可以整合为媒体播放器的一部分。应当观察到的是,音频分组453可以是存储在数据库448中的。也可能接收如图4a中描述的音频分组432a。此外,可能接收与一个或多个标签相关联的音频分组432a,所述一个或多个标签与经由rx天线430接收的音频内容相关联。

第一设备包括一个或多个处理器,所述一个或多个处理器可以从经由侧行链路信道无线地连接到第一设备的第二设备接收元数据,读取从第二设备接收的元数据,以提取表示音频内容的一个或多个标签,以及基于标签来识别音频内容,然后输出音频内容。

经由侧行链路信道的无线链路可以是C-V2X通信系统的一部分。C-V2X系统中的第一设备和第二设备均可以是车辆,或者设备中的一个设备(第一设备或第二设备)可以是耳机,以及另一设备是车辆(第一设备或第二设备)。

类似地,经由侧行链路信道的无线链路可以是V2X或V2V通信系统的一部分。V2V系统中的第一设备和第二设备均可以是车辆。

第一设备可以包括一个或多个处理器,所述一个或多个处理器被配置为基于存储在第一设备上的配置偏好来扫描缓冲区444。例如,可能存在从多个第二设备接收的多个元数据集合。在第一设备(无论是车辆还是耳机)中收听音频内容的人员可能只希望基于配置偏好(例如,摇滚乐)来收听音频内容。配置偏好还可以包括来自第二设备的属性。例如,第二设备自身可以具有标识自身的标签。例如,蓝色宝马。因此,在第一设备中收听音频内容的人员可能希望收听来自蓝色宝马的内容。

在相同的或替代的实施例中,第一设备耦合到显示设备。该耦合可以是整合,例如,显示设备是整合为耳机的一部分或车辆的一部分。第一设备中的一个或多个处理器可以被配置为在显示设备的屏幕上表示一个或多个标签。由于缓冲区444耦合到显示设备410,因此包括歌曲名称、艺术家以及甚至蓝色宝马的一个或多个标签可以出现在显示设备410的屏幕上。因此,人们可以看到哪些歌曲来自蓝色宝马。

如先前相对于图4a所讨论的,第一设备可以包括显示设备,所述显示设备被配置为表示第二设备的相对位置。类似地,相对于基于从第二设备接收的元数据提取的一个或多个标签来识别的音频内容,第一设备可以包括一个或多个处理器,所述一个或多个处理器被配置为输出三维空间化音频内容。在从编解码器438对来自数据库448的音频分组453进行解码之后,可以可选地由音频空间化器424生成三维空间化音频内容。在相同的或替代的实施例中,可以从编解码器438解码与所识别的音频内容的一个或多个音频标签相关联的音频分组432a。编解码器438可以实现相对于图4a描述的音频编解码器或语音编解码器。一个或多个处理器可以被配置为基于在显示设备410上表示第二设备的相对位置的位置来输出三维空间化音频内容。输出的三维空间化音频内容可以由耦合到第一设备的两个或更多个扬声器440呈现。

在一些配置中,与是否在显示设备410上表示第二设备的位置无关,对音频内容的输出可以是基于第二设备的相对位置的三维空间化音频内容。

此外,在相同的或替代的实施例中,一个或多个处理器可以被配置为淡入或淡出与一个或多个标签相关联的音频内容。

对与一个或多个标签相关联的音频内容的淡入或淡出可以是基于第二设备的可配置的距离。例如,如果第二设备的距离在20米内或200米内,则在第一设备中收听音频内容的人员可能希望对音频内容的淡入或淡出。此外,如相对于图4a描述的,一个或多个处理器可以被配置为在第二设备距第一设备超过可配置的距离之后禁用空间化效果。因此,可能存在淡入和淡出音频内容的第一可配置的距离(例如,在0到200米内)以及第二可配置的距离,其中如果第二设备在200米内或甚至更远(例如,长达2000米),则禁用收听空间化效果的收听者的空间化效果。如前所描述的,可配置的距离(第一可配置的距离或者第二可配置的距离)可以是距离测量或时间测量。

如相对于图1d描述的,第一设备可以是设备组的一部分。在图1d中示出的一个或多个标签170或高速缓存服务器172也可以是缓冲区444的一部分,或者可以替代地绘制为与图4b中的缓冲区444邻近,其中元数据435a可以是元数据1或者元数据2,这取决于第二设备是否是在存储器中具有一个或多个标签170的设备(例如,车辆303d),或者第二设备是否是具有高速缓存服务器172的设备(例如,车辆303e)。因此,也可能使对音频内容的淡入或淡出要基于该组中的设备中的一个设备何时与该组断开连接。例如,第一设备可以与该设备组断开连接,以及音频内容可以淡出。类似地,当连接成为该设备组的一部分时,音频内容可以淡入。当设备(例如,第一设备)与设备组连接或断开连接时的淡入和淡出两者中,淡入或淡出也可以是基于可配置的距离,以及可以是距离测量或时间测量。

此外,如上文在描述图1d时描述的,设备组中的第一设备和另一些设备可以是内容递送网络(CDN)的一部分。

第一设备或第二设备可以是单独的内容递送网络,以及可以向该组中的另一些设备发送一个或多个标签。

尽管在图4b中绘制外向照相机402和目标对象选择器414,但是在图4a中未耦合到其的另一些组件的情况下,也可能在相同的或替代的配置中接收与一个或多个标签相关联的音频分组,所述一个或多个标签与经由rx天线430接收的音频内容相关联。

照此,在由目标对象选择器414执行对在第一设备外部的至少一个目标对象的选择之后,整合到第一设备中的处理器中的一个或多个处理器中的命令解释器416在第一设备和与在第一设备外部的至少一个目标对象相关联的第二设备之间的通信信道。响应于对在第一设备外部的至少一个目标对象的选择,可以从第二设备接收音频分组。

来自第二设备的一个或多个标签可以在元数据中接收、从缓冲区444读取、提取以及用于识别音频内容。可以基于对在第一设备外部的至少一个目标对象的选择来输出音频内容。在一些场景中,一个或多个标签可以表示来自与远程设备(即,辅设备)相关联的云的流。

图5示出根据在本公开内容中描述的技术的对世界坐标到像素坐标的变换的概念图500。安装在第一车辆上的外部照相机(例如,图3中的310b、图4a和图4b中的402)可以捕捉图像(例如,视频帧)以及表示三维(3D)世界坐标[x,y,z]502中的对象。世界坐标可以是转换为3D相机坐标[xc,yc,zc]504。3D照相机坐标504可以是投影到2D x-y平面(垂直于照相机(310b,402)的面的方向法向量),并且以像素坐标(x

可以在显示设备510上以像素坐标(x

图6a示出对远程车辆/乘客(例如,第二车辆)的距离和角度的估计的一个实施例的概念图。可以根据视频帧中的边界框622d来导出距离。距离估计器630可以接收传感器参数632a、外视照相机(310b、402)的内在参数和外在参数632d以及边界框622d的大小632b。在一些实施例中,可以存在车辆信息数据库,其包括不同的车辆的大小632c以及还可以包含可以辅助对车辆的识别的某些图像特性。

距离和角度参数可以是在视频帧速率下估计的以及内插以匹配音频帧速率。从车辆的数据库中,可以获得远程车辆的实际大小,即宽度和高度。边界框一角的像素坐标(x

例如,使用边界框的左下角和右下角,以及具有车辆的宽度w,可以估计距离640c(d)和方位角(θ)640a,如图6b所示。

图6b示出对远程设备的x-y平面中的距离640c和角度640a的估计的概念图。

图6b中的点A可以由世界坐标(a,b,c)表示。图6b中的点B还可以由世界坐标(x,y,z)表示。方位角(θ)640a可以表示为(θ

x=a

|y-b|=w

z=c

在图5中描述的像素坐标可以是表示为x

类似地,使用边界框的左下角和左上角,并且知道第二车辆303b的高度h,可以计算第二车辆303b的仰角

图6c示出对远程设备的y-z平面中的距离640c和仰角640b的估计的概念图。

图6c中的点A可以由世界坐标(a,b,c)表示。图6c中的点B也可以由世界坐标(x,y,z)表示。仰角

x=a

y=b

|z-c|=h

在图5中描述的像素坐标可以表示为x

取决于声源的位置,可以针对来自远程设备670的左半部、右半部或中部的声音对仰角640b和方位角640a进行进一步调整。例如,如果远程设备670是远程车辆(例如,第二车辆),则声源的位置可以取决于是驾驶员在讲话还是乘客在讲话。例如,针对远程车辆的驾驶员侧(左)方位角640a可以表示为(3*θ

视频帧速率通常与音频帧速率不匹配。为了补偿不同域(音频和视频)中帧速率的失准,参数距离640c、仰角640b

图6a中示出的距离640c(d)可以是d

图7a示出根据本公开内容中的技术的音频空间化器724a的实施例。在图7a中,经重构的声场被渲染为提供给扬声器440或耳机或任何其它音频递送机构的扬声器馈送。经重构的声场可以包括空间效应,提供所述空间效应以说明设备(例如,远程车辆或可穿戴设备)相对于车辆303a(或另一可穿戴设备)中的个人111的距离和方位角/仰角。

距离702a(例如,来自距离估计器630、用于视频到音频的帧速率转换参数平滑器650、或多普勒估计器660)可以提供给距离补偿器720。到距离补偿器720的输入可以是音频信号(或音频内容)。音频信号可以是编解码器438的输出。编解码器438可以输出经脉冲译码调制的音频信号。可以在时域或频域中表示PCM音频信号。距离效应可以作为滤波过程、有限冲激响应(FIR)或无限冲激响应(IIR)添加,具有与距离成比例的另外的衰减(例如,1/距离可以是应用的衰减)。还可以应用可选的参数(增益)来增大可懂度的增益。此外,混响滤波器是距离模拟器滤波器的一个示例。

可以建模并且添加到音频信号(或音频内容)的另一距离提示是相对于图6c中的多普勒估计器650描述的多普勒效应。通过计算每单位时间的距离的变化率来确定远程车辆的相对速度,以及使用距离和角度来提供如上文所描述的多普勒效应。

声场旋转器710可以使用距离补偿器720的输出和输入角度702b(例如,方位角640a、仰角640b或基于这些角度的组合),以及可以将来自远程设备(例如,第二车辆)的音频平移到预期的方位角和仰角。可以通过对用于视频到音频的帧速率转换参数的平滑650来将输入角度720b转换为以音频帧间隔而不是视频帧间隔输出。在图7b中示出可以包括不依赖于距离的声场旋转器710的另一实施例。除其它手段外,可以通过使用基于对象的渲染技术(比如基于向量的幅度平移(VBAP)、基于环境音的渲染器)或者通过使用用于基于耳机的空间化和渲染的高分辨率头部相关的传递函数(HRTF)来实现平移。

图7b示出音频空间化器424的实施例,所述音频空间化器424包括根据在本公开内容中描述的技术使用的解码器。在图7b中,解码器724b可以在解码过程中利用距离702a信息。如图7a所描述的,可以应用另外的距离效应。解码器730可以被配置为:当针对大于某个门限的距离进行解码时,忽略最高频率频段。距离滤波器可以抹去这些较高的频率,以及可能不需要在这些频率频段中保持最高的保真度。此外,可以在解码过程期间在频域中应用多普勒频移,以提供多普勒效应的计算高效的实现方式。混响和其它距离滤波效果还可以在频域中高效地实现,以及使其自身能够与解码过程整合。在解码过程期间,还可以在解码器内的时域或频域中应用渲染和/或二值化,以在解码器的输出处产生适当平移的扬声器馈送。

解码器730可以是语音解码器、或音频解码器或能够对包括经压缩的语音和音乐的音频分组进行解码的组合的语音/音频解码器。解码器730的输入可以是来自与一个或多个远程设备相关联的云服务器的流。也就是说,可以存在多个流作为输入432b。云服务器可以包括对音乐或其它媒体的流式传输。解码器730的输入也可以是直接地来自远程设备(例如,远程车辆)的经压缩的语音和/或音乐。

图8描述实施例800,其中第一车辆中的人员111的位置和选择的(远程)车辆810可以位于同一坐标系中。可能需要相对于第一车辆中的人员111的头部位置820(X’,Y’,Z’)重新调整相对于先前描述的外部照相机的角度和距离。选择的远程设备(例如,远程车辆303b)位置(X,Y,Z)和第一车辆303a的位置(X,Y,Z)802可以按如下根据距离和方位角/仰角来计算。X=d*cos(方位角),Y=d*sin(方位角)和Z=d*sin(仰角)。可以确定来自(第一车辆的)内向照相机188的头部位置820,以及将其转换到与第一车辆的坐标相同的坐标系,以获得X’、Y’和Z’820。给定X、Y、Z 802和X’、Y’和Z’820,可以使用三角关系来确定相对于人员111的经更新的距离和角度。d=sqrt[(X-X’)^2+(Y-Y’)^2+(Z-Z’)^2],以及方位角=asin[(Y-Y’)/d],以及仰角=asin[(Z-Z’)/d]。这些经更新的d和角度可以用于更精细的空间化和距离分辨率以及更好的精度。

本文中描述的技术可以在硬件、软件、固件或其任何组合中实现。这样的技术可以在各种设备中的任何设备中实现,比如通用计算机、无线通信设备手持机或具有多种用途(包括在无线通信设备手持机和其它设备中的应用)的集成电路设备。描述为模块或组件的任何特征可以在集成逻辑器件中一起实现,或者单独地作为分立但可互操作的逻辑器件来实现。如果在软件中实现,则所述技术可以至少部分地由计算机可读数据存储介质实现,所述计算机可读数据存储介质包括程序代码,所述程序代码包括指令,所述指令在执行时执行上文所描述的方法中的一种或多种方法。计算机可读数据存储介质可以形成计算机程序产品的一部分,所述计算机程序产品可以包括封装材料。计算机可读介质可以包括存储器或数据存储介质,比如随机存取存储器(RAM)(比如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器、磁或光数据存储介质等。另外地或替代地,可以至少部分地通过计算机可读通信介质来实现这些技术,所述计算机可读通信介质携带或传送以指令或数据结构的形式并且可以由具有计算能力的设备存取、读取和/或执行的程序代码。

本领域的普通技术人员将认识到的是,设备中的一个或多个组件可以在处理器的电路中实现,一个或多个处理器部分或全部作为专用集成电路(ASIC)的一部分。

程序代码或指令可以由处理器执行,所述处理器可以包括一个或多个处理器,比如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其它等效的集成逻辑电路或分立逻辑电路。这样的处理器可以被配置为执行本公开内容中描述的技术中的任何技术。通用处理器可以是微处理器;但是在替代的方式中,处理器可以是任何常规的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP内核协力的一个或多个微处理器、或者任何其它这样的配置。因此,如本文所使用的,术语“处理器”可以指的是前述结构中的任何结构、前述结构的任何组合、或适合于实现本文描述的技术的任何其它结构或装置。此外,在一些方面中,本文所描述的功能可以在被配置用于编码和解码的专用软件模块或硬件模块内提供,或者并入到组合的视频编码器-解码器(CODEC)中。

本文讨论的译码技术可以是示例视频编码和解码系统中的实施例。系统包括源设备,所述源设备提供稍后要由目标设备解码的经编码的视频数据。具体地,源设备经由计算机可读介质向目标设备提供视频数据。源设备和目标设备可以包括范围广泛的设备中的任何设备,包括台式计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、比如所谓的“智能”电话的电话手持机、所谓的“智能”平板、电视、照相机、显示设备、数字媒体播放器、视频游戏主控台、视频流式传输设备等。在一些情况下,源设备和目标设备可以被配备用于无线通信。

目标设备可以经由计算机可读介质接收要解码的经编码的视频数据。计算机可读介质可以包括能够将经编码的视频数据从源设备移动到目标设备的任何类型的介质或设备。在一个示例中,计算机可读介质可以包括通信介质,以使得源设备能够实时地将经编码的视频数据直接地发送给目标设备。可以根据比如无线通信协议的通信标准对经编码的视频数据进行调制并且将其发送到目标设备。通信介质可以包括任何无线或有线通信介质,比如射频(RF)频谱或一条或多条物理传输线。通信介质可以形成基于分组的网络(比如局域网、广域网或全球网络(比如互联网))的一部分。通信介质可以包括路由器、交换机、基站或可以用于促进从源设备到目标设备的通信的任何其它设备。

在一些示例中,可以将经编码的数据从输出接口输出到存储设备。类似地,可以通过输入接口从存储设备访问经编码的数据。存储设备可以包括各种分布式或本地访问的数据存储介质中的任何数据存储介质,比如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪速存储器、易失性存储器或非易失性存储器、或用于存储经编码的视频数据的任何其它合适的数字存储介质。在进一步的示例中,存储设备可以对应于文件服务器或可以存储由源设备生成的经编码的视频的另一中间存储设备。目标设备可以经由流式传输或下载从存储设备访问存储的视频数据。文件服务器可以是能够存储经编码的视频数据并且将该经编码的视频数据发送给目标设备的任何类型的服务器。示例文件服务器包括web服务器(例如,用于网站)、FTP服务器、网络附加存储(NAS)设备或本地磁盘驱动器。目标设备可以通过包括互联网连接的任何标准数据连接来访问经编码的视频数据。这可以包括适合于访问存储在文件服务器上的经编码的视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。对来自存储设备的经编码的视频数据的传输可以是流式传输、下载传输或其组合。

本公开内容的技术可以在范围广泛的设备或装置中实现,包括无线手持设备、集成电路(IC)或IC集合(例如,芯片集)。在本公开内容中描述了各种组件、模块或单元,以强调被配置为执行所公开的技术的设备的功能方面,但是不一定要求由不同的硬件单元来实现。准确地说,如上文所描述的,各种单元可以组合在编解码器硬件单元中,或者由与合适的软件和/或固件协力的互操作的硬件单元的集合(包括如上文所描述的一个或多个处理器)来提供。

下文参照附图描述了本公开内容的特定的实现方式。在该描述中,共同的特征是遍及附图通过共同的附图标记来指定的。如本文所使用的,各种术语仅是出于描述特定的实现方式的目的使用的,以及不旨在是限制性的。例如,单数形式的“一(a)”、“一个(an)”和“所述(the)”也旨在包括复数形式,除非上下文另外地明确地指出。可以进一步理解的是,术语“包括(comprise)”、“包括(comprises)”、和“包括(comprising)”可以与“包括(include)”、“包括(includes)”或“包括(including)”可交换地使用。另外地,将理解的是,术语“其中(wherein)”可以与“其中(where)”可交换地使用。如本文所使用的,“示例性”可以指示示例、实现方式和/或方面,以及不应当解释为是限制性的或指示偏好或优选的实现方式。如本文所使用的,用于修改比如结构、组件、操作等的元素的序数词(例如,“第一”、“第二”、“第三”等)本身不指示该元素相对于另一元素的任何优先级或次序,而仅仅是将该元素与具有相同名称(但是用于对序数词的使用)的另一元素区分开。如本文所使用的,术语“集合”指的是对一个或多个元素的分组,以及术语“多个”指的是多个元素。

如本文所使用的,“耦合”可以包括“通信地耦合”、“电气地耦合”或“物理地耦合”,以及还可以(或替代地)包括其任何组合。两个设备(或组件)可以经由一个或多个其它设备、组件、线、总线、网络(例如,有线网络、无线网络或其组合)等直接或间接地耦合(例如,通信地耦合、电力地耦合或物理地耦合)。作为说明性的非限制性的示例,电力地耦合的两个设备(或组件)可以是包括在同一设备或不同的设备中,以及可以经由电子器件、一个或多个连接器或感应耦合进行连接。在一些实现方式中,通信地耦合(比如进行电气的通信)的两个设备(或组件)可以直接地或间接地(比如经由一个或多个线、总线、网络等)发送和接收电信号(数字信号或模拟信号)。如本文所使用的,“直接地耦合”可以包括在没有中间组件的情况下耦合(例如,通信地耦合、电力地耦合或物理地耦合)的两个设备。

如本文所使用的,“整合的”可以包括“制造或销售的设备”。如果用户购买将设备作为封装的一部分捆绑或包括的封装,则该设备可以是整合的。在一些描述中,两个设备可以是耦合的,但不一定是整合的(例如,不同的外围设备可以不整合到命令设备,但仍然可以“耦合”的)。另一示例可以是本文中描述的收发机或天线中的任何一者,其可以“耦合”到处理器,但是不一定是包括视频设备的封装的一部分。当使用术语“整合的”时,可以从本文所公开的上下文(包括本段)推断出其它示例。

如本文所使用的,设备之间的“无线”连接可以是基于各种无线技术,比如可以是基于不同的蜂窝通信系统来“无线地连接的”,比如V-2X和C-V2X。C-V2X允许在不对基站的使用的情况下(经由“侧行链路”)在车辆与其它设备之间的直接的通信。在这样的情况下,设备可以“经由侧行链路无线地连接”。

长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或某个其它无线系统。CDMA系统可以实现宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA)、或CDMA的某个其它版本。此外,两个设备可以是基于蓝牙、无线保真度(Wi-Fi)或Wi-Fi的变型(例如,Wi-Fi直接型)来无线地连接的。当两个设备在视距内时,“无线连接”还可以是基于其它无线技术,比如超声、红外线、脉冲射频电磁能、结构光、或在信号处理(例如,音频信号处理或射频处理)中使用的到达方向技术。

如本文所使用的,A“和/或”B可以意指“A和B”、或者“A或B”、或“A和B”和“A或B”两者是可适用的或可接受的。

如本文所使用的,单元可以包括例如专用硬接线电路、与可编程电路协力的软件和/或固件或其组合。

本文中一般性地使用的术语“计算设备”指的是以下各项中的任何一项或所有项:服务器、个人计算机、膝上型计算机、平板计算机、移动设备、蜂窝电话、智能笔记本、超极本、掌上电脑、个人数据助理(PDA)、无线电子邮件接收机、启用多媒体互联网的蜂窝电话、全球定位系统(GPS)接收机、无线游戏控制器和类似的电子设备(其包括用于无线地发送和/或接收信息的可编程的处理器和电路)。

已经描述各种示例。这些和其它示例是在以下权利要求的范围内的。

相关技术
  • 电路交换的多媒体服务与包交换的多媒体服务之间的界定最大包大小属性的有效的交互工作
  • 用于在媒体设备之间交换视频的方法和设备
技术分类

06120113106672