在混合现实环境中控制支持音频的连接设备的系统

文献发布时间：2023-06-19 11:14:36

技术领域

本公开总体上涉及创建沉浸式体验的技术，尤其涉及为混合现实环境创建沉浸式体验时使用音频组件的那些体验。

背景技术

该部分旨在向读者介绍本领域的各个方面，其可以与下面描述和/或要求保护的本公开的各个方面相关。相信该讨论有助于向读者提供背景信息以促进更好地理解本公开的各个方面。因此，应该理解，这些陈述应该鉴于此地阅读，而不是作为对现有技术的承认。

近年来，沉浸式体验已成为日益重视的主题。这些体验不仅可以复制物理领域的现实，还可用以超越这些物理体验，并创建可能无法使用物理领域实现的奇幻环境。为了使用虚拟设备创建这些现实或奇幻的体验，用到了可以复制物理感官的组件。这些组件可以是视觉的、触觉的、听觉的，或包括这些感觉的组合。甚至可以用到嗅觉和温度的感测。虚拟现实(VR)或增强现实(AR)因其创造了这种沉浸式体验而越来越受欢迎。

尽管音频提示在创建沉浸式体验中非常重要，但不幸的是，大部分努力都集中在为沉浸式环境创建视觉组件方面。因此，尽管已有多项技术进步来增加这些环境的沉浸性，但是现有技术仍然没有提供具有可以实际提供真正沉浸体验的增强音频组件的系统。因此，具有改进的音频组件的系统是所期待的。

发明内容

通过类似的技术实现了附加的特征和优点，并且在本文中详细描述了其他实施例和方面，并将其视为所要求保护的公开的一部分。为了更好地理解具有优点和特征的实施例，请参考说明书和附图。

提供了一种用于增强沉浸式体验的方法和装置。监视在混合现实环境中提供的虚拟现实内容的进度。混合现实环境将虚拟现实内容与从真实环境提供的图像结合在一起。除此之外，通过合并所述真实环境中提供的所述图像，获得并修改与虚拟现实内容相关联的至少一项虚拟声学数据。

附图说明

参考附图以非限制性方式，通过以下实施例和执行示例将更好地理解和例示本公开，在附图中：

图1示意性地示出了根据本公开的一个或多个实施例的编码和解码系统的功能概述；

图2示意性地示出了根据一个实施例的系统；

图3示意性地示出了根据另一实施例的系统；

图4示意性地示出了根据另一实施例的系统；

图5示意性地示出了根据另一实施例的系统；

图6示意性地示出了根据另一实施例的系统；

图7示意性地示出了根据另一实施例的系统；

图8示意性地示出了根据另一实施例的系统；

图9示意性地示出了根据另一实施例的系统；

图10示意性地示出了根据一个实施例的沉浸式视频呈现设备；

图11示意性地示出了根据另一实施例的沉浸式视频呈现设备；

图12示意性地示出了根据另一实施例的沉浸式视频呈现设备；

图13是根据一个实施例的使用音频设备的示例的图示；

图14是根据一个实施例的使用电视机的示例的图示；

图15是根据一个替代实施例的使用音频设备的示例的图示；

图16是根据又一替代实施例的使用音频设备的示例的图示；

图17是根据一个实施例的流程图的图示；

图18是根据一个实施例的流程图的图示；以及

图19是根据一个实施例的流程图的图示。

在可能的情况下，在所有附图中将使用相同的附图标记指代相同或相似的部件。

具体实施方式

要理解，已经简化本公开的附图和描述以例示与本公开的清楚理解相关的要素，同时为了清楚起见，消除在典型数字多媒体内容传送方法和系统中发现的许多其他要素。然而，由于这样的要素在本领域中是众所周知的，因此在此不提供对这些要素的详细讨论。本文的公开针对本领域技术人员已知的所有这样的变化和修改。

在混合现实(Mixed Reality，MR)领域，真实世界与虚拟世界之间的交互必须进行认真考虑，以增加用户的沉浸感。传统上，沉浸式环境的设计者一向专注于虚拟现实(Virtual Reality，VR)、增强现实(Augmented Reality，AR)或混合现实(Mixed Reality，MR)的视觉方面，以使用户感到沉浸。许多这样的设计师认为，良好的VR/AR/MR体验应该是视觉上合理的。在用户的视场(即图像领域)中，必须高效呈现真实对象与虚拟对象之间的空间互动，如遮挡、碰撞、阴影。然而，声音和图像在真实世界中同时并存。因此，就沉浸感而言，音频提示至少应被认为与视觉同等重要，因为VR/AR/MR音频体验不仅限于我们的视场(水平方向：人类视场几乎为180°；带有嵌入式摄像头(如平板电脑或智能手机)的手持设备通常为<130°；对于耳机而言，HoloLens仅为30°，Meta2为90°；与之相比，水平方向和垂直方向：音频都为360°)。这意味着(即使由于我们的视场而看不见的)虚拟对象也应当发出其自身的空间声响和/或应当改变我们对其他真实或虚拟声音的感知，以便我们能感觉到其存在。因此，要使VR/AR/MR体验真正身临其境，您需要令人信服的三维音频，以匹配真实和虚拟三维对象的几何形状和材质属性。因此，与图像领域中真实世界和虚拟世界之间的众所周知的空间交互(遮挡、碰撞、阴影等)并行，在音频领域中呈现逼真的交互也是需要的。

声音的环境交互类似于光，但由于波固有的差异，因此略有不同。声音被对象阻挡并从表面反射，但声音也会在对象周围发生衍射(游戏引擎以阻挡进行模拟)，并以不规则的角度发散。直达声音对比反射声音有助于定义(虚拟或现实)环境的大小、形状和材料。声音传播是空间音频的关键方面。遗憾的是，目前的现有技术提供的三维(3D)音频引擎只能采用方向、距离和环境模拟来模拟三维声音，从而呈现混合现实体验的听觉分量。这些系统使用当前的三维引擎相当粗略地将空间声音附加到给定的虚拟三维对象上；而如何处理真实世界来源播放的真实世界声音以及理论上应修改谁的感知以使其匹配用户的MR场景及其情境不是显而易见的。因此，目前的现有技术不能更改真实世界声音。通常，图像一经更改，AR/MR设备中就会根据需要播放新的声音。虽然已经采用诸如主动消除耳机和频率掩蔽之类的相位反转，但仍然会影响体验时的声音。图13至图17提供了解决这些现有技术缺点的系统和方法。但是，在提供图13至图17的详细信息之前，探索有关这些系统和环境的一些其他信息可能会有所助益。

图1示意性地示出了根据一个或多个实施例的编码和解码系统的功能概述。图1的系统被配置为执行一个或多个功能。可以提供预处理模块300来准备内容，以供编码设备400进行编码。预处理模块300可以执行多图像获取，将所获取的多个图像合并在公共空间(如果方向已编码，通常为三维球体)中，并使用(例如但不限于)等矩形映射或立方体映射将三维球体映射为二维帧。预处理模块300还可以获取特定格式(例如，等矩形)的全向视频作为输入，并对视频进行预处理以将映射改变为更适合于编码的格式。取决于所获取的视频数据表示，预处理模块300可以执行映射空间更改。编码后，数据(例如可以被编码为沉浸式视频数据或3D CGI编码的数据)被发送到网络接口500，该网络接口500通常可以实现于任何网络接口中，例如，存在于网关中。然后，通过通信网络(例如，互联网，但任何其他网络也是可以预见的)传输数据。而后，通过网络接口600接收数据。网络接口600可以实现于网关、电视机、机顶盒、头戴式显示设备、沉浸式(投影)墙或任何沉浸式视频呈现设备中。接收后，数据被发送到解码设备700。然后，解码的数据由播放器800进行处理。播放器800为呈现设备900准备数据，并且可以接收来自传感器的外部数据或用户输入数据。更精确地，播放器800准备要由呈现设备900显示的该部分视频内容。解码设备700和播放器800可以集成于单个设备(例如，智能手机、游戏控制台、STB、平板电脑、计算机等)。在另一实施例中，播放器800可以集成于呈现设备900。

各种类型的系统可以用于执行沉浸式显示设备的功能以呈现沉浸式视频，例如解码、播放和呈现。图2至图9示出了用于处理增强现实(AR)或虚拟现实(VR)内容的系统的实施例。这种系统配备有一个或多个处理功能，并且包括沉浸式视频呈现设备，该沉浸式视频呈现设备，例如，可以是头戴式显示器(HMD)、平板电脑或智能手机，并且可选地包括一个或多个传感器。沉浸式视频呈现设备还可以包括显示设备和执行处理功能的一个或多个模块之间的接口模块。处理功能可以集成到沉浸式视频呈现设备中，或者由一个或多个处理设备执行。这样的处理设备可以包括一个或多个处理器以及与沉浸式视频呈现设备的通信接口，例如无线或有线通信接口。

该处理设备还可以包括与诸如互联网之类的宽带接入网络的通信接口，并且直接或通过诸如家庭或本地网关之类的网络设备访问位于云上的内容。处理设备还可以通过诸如本地接入网络接口之类的接口(例如，以太网类型的接口)访问本地存储设备。在一个实施例中，处理设备可以设置于具有一个或多个处理单元的计算机系统中。在另一实施例中，处理设备可以设置于智能手机中，该智能手机可以通过有线链路或无线链路连接到视频，以将映射更改为更适合于编码的格式。取决于所获取的视频数据表示，预处理模块300可以执行映射空间更改。编码后，数据(例如可以被编码为沉浸式视频数据或3D CGI编码的数据)被发送到网络接口500，该网络接口500通常可以实现于任何网络接口中，例如，存在于网关中。然后，通过通信网络(例如，互联网，但任何其他网络也是可以预见的)传输数据。而后，通过网络接口600接收数据。网络接口600可以实现于网关、电视机、机顶盒、头戴式显示设备、沉浸式(投影)墙或任何沉浸式视频呈现设备中。接收后，数据被发送到解码设备700。然后，解码的数据由播放器800进行处理。播放器800为呈现设备900准备数据，并且可以接收来自传感器的外部数据或用户输入数据。更精确地，播放器800准备要由呈现设备900显示的该部分视频内容。解码设备700和播放器800可以集成于单个设备(例如，智能手机、游戏控制台、STB、平板电脑、计算机等)。在另一实施例中，播放器800可以集成于呈现设备900。

沉浸式内容通常是指潜在地编码于矩形帧上的视频或其他流传输内容或图像，类似于“常规”视频或其他形式的图像内容，其中矩形帧是像素(即，颜色信息元素)的二维阵列。在许多实施中，可以执行以下过程。要进行呈现，首先将帧映射到凸体积的内表面上，也称为映射表面(例如，球体、立方体、金字塔)；其次，虚拟相机捕获该体积的一部分。虚拟相机捕获的图像在沉浸式显示设备的屏幕上进行呈现。立体视频被编码在一个或两个矩形帧上，并投影在两个映射表面上，这两个映射表面被组合起来，以待两个虚拟相机根据设备的特性进行捕获。

可以根据帧中的映射功能对像素进行编码。映射功能可以取决于映射表面。对于同一映射表面，可能存在各种映射功能。例如，可以根据帧表面内的不同布局来构造立方体的多个面。例如，可以根据等矩形投影或球心投影来映射球体。由选定的投影函数产生的像素组织会修改或破坏线的连续性、正交局部帧、像素密度，并引入时间和空间的周期性。这些是用于编码和解码视频的典型特征。在编码和解码方法中，对沉浸式视频的特殊性缺乏考虑。实际上，由于沉浸式视频是360°视频，因此平移等会引入运动和不连续性，这些运动和不连续性要求在不更改场景内容的情况下对大量数据进行编码。如果在对视频帧进行编码和解码时考虑沉浸式视频的特殊性，那么这将为现有方法带来宝贵的优势。

在另一实施例中，该系统包括辅助设备，该辅助设备与沉浸式视频呈现设备和处理设备进行通信。在这样的实施例中，辅助设备可以执行处理功能中的至少一个。沉浸式视频呈现设备可以包括一个或多个显示器。该设备可以在每个显示器前方采用诸如透镜之类的光学器件。例如在沉浸式显示设备为智能手机或平板电脑的情况下，显示器也可以是沉浸式显示设备的一部分。在另一实施例中，显示器和光学器件可以被嵌入头盔、眼镜或可穿戴面罩中。沉浸式视频呈现设备还可以包括如下所述的一个或多个传感器。沉浸式视频呈现设备还可以包括接口或连接器。其可以包括一个或多个无线模块，以便与传感器、处理功能、手持设备或其他身体部位相关的设备或传感器进行通信。

当沉浸式视频呈现设备执行处理功能时，沉浸式视频呈现设备可以配备直接或通过网关到网络的接口，以接收和/或发送内容。

沉浸式视频呈现设备还可以包括由一个或多个处理器执行并且被配置为解码内容或处理内容的处理功能。通过这里的处理内容，可以理解用于准备显示内容的功能。这可以包括例如解码内容、在显示之前合并内容、以及根据显示设备修改内容。

沉浸式内容呈现设备的功能之一是控制虚拟相机，其捕获被构造为虚拟体积的至少部分内容。该系统可以包括一个或多个姿势跟踪传感器，这些传感器全部或部分地跟踪用户的姿势，例如，用户头部的姿势，以便处理虚拟相机的姿势。可以设置一个或多个定位传感器以跟踪用户的位移。该系统还可以包括环境相关的其他传感器，例如，以测量照明、温度或声音条件。这样的传感器还可以与用户的身体相关，例如，以检测或测量出汗或心率。通过这些传感器获取的信息可用于处理内容。该系统还可以包括用户输入设备(例如，鼠标、键盘、遥控器、操纵杆)。来自用户输入设备的信息可用于处理内容，管理用户界面或用于控制虚拟相机的姿势。传感器和用户输入设备通过有线或无线通信接口与处理设备和/或与沉浸式呈现设备通信。

沉浸式视频呈现设备10的实施例将参考图10进行更详细地描述。沉浸式视频呈现设备包括显示器101。该显示器例如是OLED或LCD类型的显示器。沉浸式视频呈现设备10，例如，为头戴式显示器、平板电脑或智能手机。设备10可以包括触敏表面102(例如，触摸板或触觉屏)、相机103、与至少一个处理器104连接的存储器105和至少一个通信接口106。所述至少一个处理器104处理接收自(多个)传感器20的信号。来自这些传感器的一些测量用于设备的姿势并控制虚拟相机。可以用于姿势估计的传感器包括，例如，陀螺仪、加速计或指南针。在更复杂的系统中，例如，也可以使用一系列相机。所述至少一个处理器104执行图像处理以估计设备10的姿势。可以根据环境条件或用户反应使用其他一些测量来处理内容。用于检测环境和用户状况的传感器包括，例如，一个或多个麦克风、光传感器或接触传感器。也可以使用更复杂的系统，例如，跟踪用户眼睛的摄像机。在这种情况下，所述至少一个处理器执行图像处理以执行期望的测量。来自(多个)传感器20和(多个)用户输入设备30的数据也可以被传输到计算机40，计算机40将根据传感器的输入来处理数据。

存储器105包括用于处理器104的参数和代码程序指令。存储器105还可以包括接收自(多个)传感器20和(多个)用户输入设备30的参数。通信接口106使沉浸式视频呈现设备能够与计算机40进行通信。处理设备的通信接口106可以包括有线接口(例如，总线接口、广域网接口、局域网接口)或无线接口(例如IEEE 802.11接口或

用于显示增强现实、虚拟现实、增强虚境或从增强现实到虚拟现实的任何内容的第一类型系统的实施例将参考图2至图6进行描述。在一个实施例中，这些与能够提供真实、虚构或混合环境360度视图的大视场内容相结合。该大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云、流内容或沉浸式视频或全景图片或图像，等等。可以使用大量术语来定义提供这种内容或视频的技术，例如虚拟现实(VR)、增强现实(AR)360、全景、4π、球面度、全向，沉浸式，以及先前已指出的大视场。

图2示意性地示出了配置为解码、处理和呈现沉浸式视频的系统的实施例。该系统包括沉浸式视频呈现设备10、一个或多个传感器20，一个或多个用户输入设备30，计算机40和网关50(可选)。

图3示意性地示出了配置为解码、处理和呈现沉浸式视频的系统的第二实施例。在该实施例中，STB 90直接(即，STB 90包括网络接口)或通过网关50连接到诸如互联网的网络。STB90通过无线接口或通过有线接口连接到诸如电视机100或沉浸式视频呈现设备200的呈现设备。除了STB的经典功能外，STB 90还包括处理功能，以处理用于在电视机100或任何沉浸式视频呈现设备200上呈现的视频内容。这些处理功能与针对计算机40所描述的处理功能类似，在此不再赘述。(多个)传感器20和(多个)用户输入设备30也与先前参考图2描述的(多个)传感器和(多个)输入设备类型相同。STB90从互联网获得代表沉浸式视频的数据。在另一实施例中，STB 90从存储有代表沉浸式视频的数据的本地存储(未示出)中获得代表沉浸式视频的数据。

图4示意性地示出了配置为解码、处理和呈现沉浸式视频的系统的第三实施例。在第三实施例中，游戏控制台60处理内容数据。游戏控制台60将数据和可选的控制命令发送到沉浸式视频呈现设备10。游戏控制台60被配置为处理代表沉浸式视频的数据，并将处理后的数据发送到沉浸式视频呈现设备10进行显示。可以完全地由游戏控制台60完成处理，也可以由沉浸式视频呈现设备10完成部分处理。

游戏控制台60直接地或通过网关或网络接口50连接到互联网。游戏控制台60从互联网获得代表沉浸式视频的数据。在另一实施例中，游戏控制台60获得呈现设备10。可以完全地由计算机40执行处理，也可以由计算机40执行部分处理并由沉浸式视频呈现设备10执行部分处理。计算机40直接或通过网关或网络接口50连接到互联网。计算机40从互联网接收代表沉浸式视频的数据，处理这些数据(例如，对数据进行解码，并可以准备要由沉浸式视频呈现设备10显示的该部分视频内容)，并将处理后的数据发送到沉浸式视频呈现设备10，以用于显示。在另一实施例中，系统还可以包括存储有代表沉浸式视频的数据的本地存储(未示出)，所述本地存储例如可以在计算机40上或在可通过例如局域网访问的本地服务器上(未示出)。

图5示意性地示出了配置为解码、处理和呈现沉浸式视频的系统的第四实施例。沉浸式视频呈现设备70由插入壳体705中的智能手机701提供。智能手机701可以连接到互联网并因此可以从互联网获得代表沉浸式视频的数据。在另一实施例中，智能手机701从存储有代表沉浸式视频的数据的本地存储(未示出)获得代表沉浸式视频的数据，所述本地存储例如可以在智能手机701上或在可通过局域网访问的本地服务器上(未示出)。

沉浸式视频呈现设备70的实施例将参照图11进行描述。沉浸式视频呈现设备70可选地包括至少一个网络接口702和用于智能手机701的壳体705。智能手机701包括智能手机和显示器的功能。智能手机的显示器用作沉浸式视频呈现设备70的显示器。可以包括诸如透镜之类的光学器件704，用于查看智能手机显示器上的数据。智能手机701被配置为例如根据接收自传感器20和用户输入设备30的数据来处理(例如，解码并准备显示)代表沉浸式视频的数据。来自传感器的一些测量可用于设备的姿势并控制虚拟相机。可以用于姿势估计的传感器包括，例如，陀螺仪、加速计或指南针。在更复杂的系统中，例如，也可以使用一系列相机。在这种情况下，所述至少一个处理器执行图像处理以估计设备10的姿势。例如，可以根据环境条件或用户反应使用其他一些测量来处理内容。用于检测环境和用户状况的传感器包括，例如，麦克风、光传感器或接触传感器。也可以使用更复杂的系统，例如，跟踪用户眼睛的摄像机。在这种情况下，所述至少一个处理器执行图像处理以执行测量。

图6示意性地示出了第一类型系统的第五实施例，其中，沉浸式视频呈现设备80包括用于处理和显示数据内容的功能。该系统包括沉浸式视频呈现设备80、传感器20和用户输入设备30。沉浸式视频呈现设备80被配置为可以根据接收自传感器以及用户输入设备30的数据来处理(例如，解码并准备显示)代表沉浸式视频的数据。沉浸式视频呈现设备80可以连接到互联网并因此可以从互联网获得代表沉浸式视频的数据。在另一实施例中，沉浸式视频呈现设备80从存储有代表沉浸式视频的数据的本地存储(未示出)获得代表沉浸式视频的数据，所述本地存储例如可以设置在呈现设备80上或在可通过局域网访问的本地服务器上(未示出)。

图12中示出了沉浸式视频呈现设备80的实施例。沉浸式视频呈现设备包括显示器801(例如OLED或LCD类型的显示器)、触摸板(可选)802，相机(可选)803、与至少一个处理器804连接的存储器805和至少一个通信接口806。存储器805包括用于处理器804的参数和代码程序指令。存储器805还可以包括接收自传感器20和用户输入设备30的参数。存储器805可以具有足够大的容量来存储代表沉浸式视频内容的数据。不同类型的存储器可以提供这种存储功能，并包括一个或多个存储设备，例如SD卡、硬盘、易失性或非易失性存储器……)。通信接口806使沉浸式视频呈现设备能够与互联网通信。处理器804处理代表视频的数据以在显示器801上显示图像。相机803捕获环境的图像以用于图像处理步骤。从此步骤中提取数据以控制沉浸式视频呈现设备。

图7至图9中示出了用于处理增强现实、虚拟现实或增强虚境内容的第二类型系统的实施例。在这些实施例中，该系统包括沉浸式墙。

图7示意性地示出了第二类型系统的实施例，其包括显示器1000，即，从计算机4000接收数据的沉浸式(投射)墙。计算机4000可以从互联网接收沉浸式视频数据。计算机4000可以直接或通过网关5000或网络接口连接到互联网。在另一实施例中，沉浸式视频数据是由计算机4000从存储有代表沉浸式视频的数据的本地存储(未示出)中获取的，所述本地存储例如可以在计算机4000中或在可通过局域网访问的本地服务器中(未示出)。

该系统还可以包括一个或多个传感器2000和一个或多个用户输入设备3000。沉浸式墙1000可以是OLED或LCD类型，并且可以配备有一个或多个相机。沉浸式墙1000可以处理接收自一个或多个传感器2000的数据。接收自(多个)传感器2000的数据可以例如与照明条件、温度、用户的环境，如对象位置有关。

沉浸式墙1000还可以处理接收自一个或多个用户输入设备3000的数据。(多个)用户输入设备3000可以发送诸如触觉信号之类的数据，以便给出关于用户情绪的反馈。用户输入设备3000的示例包括，例如，手持设备，如智能手机、遥控器以及具有陀螺仪功能的设备。

数据也可以从(多个)传感器2000和(多个)用户输入设备3000数据传输到计算机4000。计算机4000可以根据接收自这些传感器/用户输入设备的数据来处理视频数据(例如，对其进行解码并准备显示)。传感器信号可以通过沉浸式墙的通信接口来接收。该通信接口可以是蓝牙类型、WIFI类型或任何其他类型的连接，优选地是无线连接，但也可以是有线连接。

计算机4000将处理后的数据以及可选的控制命令发送到沉浸式墙1000。计算机4000被配置为处理数据，例如准备数据以供沉浸式墙1000显示。可以完全地由计算机4000执行处理，也可以由计算机4000执行部分处理并由沉浸式墙1000执行部分处理。

图8示意性地示出了第二类型系统的另一实施例。该系统包括沉浸式(投射)墙6000，其被配置为处理(例如，解码和准备要显示的数据)并显示视频内容，并且还包括一个或多个传感器2000，以及一个或多个用户输入设备3000。

沉浸式墙6000通过网关5000从互联网或直接从互联网接收沉浸式视频数据。在另一实施例中，沉浸式视频数据是由沉浸式墙6000从存储有代表沉浸式视频的数据的本地存储(未示出)中获得的，所述本地存储例如可以在沉浸式墙6000中或在可通过局域网访问的本地服务器中(未示出)。

该系统还可以包括一个或多个传感器2000和一个或多个用户输入设备3000。沉浸式墙6000可以是OLED或LCD类型的，并且配备有一个或多个相机。沉浸式墙6000可以处理接收自(多个)传感器2000(或多个传感器2000)的数据。接收自(多个)传感器2000的数据可以例如与照明条件、温度、用户环境，如对象位置相关。

沉浸式墙6000还可以处理接收自(多个)用户输入设备3000的数据。(多个)用户输入设备3000发送诸如触觉信号之类的数据，以便给出关于用户情绪的反馈。用户输入设备3000的示例包括，例如，手持设备，如智能手机、遥控器以及具有陀螺仪功能的设备。

沉浸式墙6000可以根据接收自这些(多个)传感器/(多个)用户输入设备的数据来处理视频数据(例如，对其进行解码并准备显示)。传感器信号可以通过沉浸式墙的通信接口来接收。该通信接口可以包括蓝牙类型、WIFI类型或任何其他类型的无线连接，或任何类型的有线连接。沉浸式墙6000可包括至少一个通信接口，以与(多个)传感器和互联网通信。

图9示出了另一实施例，其中沉浸式墙用于游戏。一个或多个游戏控制台7000例如通过无线接口连接到沉浸式墙6000。沉浸式墙6000通过网关5000从互联网或直接从互联网接收沉浸式视频数据。在替代实施例中，沉浸式视频数据是由沉浸式墙6000从存储有代表沉浸式视频的数据的本地存储(未示出)中获取的，所述本地存储例如可以在沉浸式墙6000中或在可通过局域网访问的本地服务器中(未示出)。

游戏控制台7000将指令和用户输入参数发送到沉浸式墙6000。沉浸式墙6000例如根据接收自(多个)传感器2000和(多个)用户输入设备3000以及(多个)游戏控制台7000的输入数据来处理沉浸式视频内容，以便准备用于显示的内容。沉浸式墙6000还可以包括内部存储器以存储要显示的内容。

作为用户数据到流中。如本领域技术人员可以理解的，处理器可以是机顶盒、计算机、智能电视机、诸如智能手机之类的移动设备等的一部分。如结合图14的实施例所提到的，也可以使用一个以上的处理器。所述一个或多个处理器与诸如放置在环境中的一个或多个智能灯泡(无论对其如何定义)的照明组件通信，并有选择地或自动地改变照明的颜色和强度及其特性。

图13和图14提供了一种系统，其中，可以通过大量连接设备(例如但不限于电视机、家庭影院、hifi系统等)来再现和提供真实世界声音。也可以使用能够呈现VR/AR/MR环境的设备，例如，移动设备(平板电脑、智能手机、头戴式耳机、视频游戏单元等)，其与此类支持音频的连接设备进行通信以请求这些支持音频的连接设备根据呈现的VR/AR/MR场景的当前状态实时修改其发出音频的方式。为了易于理解，图13和图14提供了这些应用的简单说明以及可以在替代实施例中提供其他布置的理解。

AR/VR/MR设备的三维引擎实时了解针对AR/VR/MR场景及其包含的真实和虚拟对象的用户位置和方向。其还了解连接设备的扬声器的三维位置。基于此类信息，三维引擎将消息发送到支持音频的连接设备，以便使其修改发出音频的方式(例如，设置为静音，调高/调低音量，更改模式(单声道/立体声)，更改左与右，前与后之间的平衡，添加过滤器…)。

这样可以直接控制真实音频源发出声音的方式。另外，不需要其他新的声音补偿/恢复/取消真实来源的声音。由于假设其三维位置为初始已知的，因此也无需分离源或估算源的位置。反过来，其通过提供真实支持音频的设备参与的MR体验的现实场景，改善了沉浸感。即使不支持三维音频的设备也可以使用此功能。为了理解这是如何实现的，使用一些示例可能有所帮助。提供这些示例以结合图13和图14的说明。

图13提供了第一示例，其中提供了如标记1310所示的音频设备(即，收音机等)。在第一示例中，用户正在客厅里收听包括标准音频内容的无线电传输。正在播放的是摇滚乐队的一首歌。AR/VR/MR设备识别(即，使用大量诸如Shazam的可用应用程序)音频内容，并为用户提供新的AR/VR/MR视听体验，这种体验如同乐队现身客厅。可以使用用户界面设备(范围可从遥控器到智能手机或标记1320所示的任何其他移动AR/VR/MR设备)以多种方式发出音频修改请求。然而，来自用户高保真(hifi)系统的声音如何处理的问题必须解决。有以下三种不同的情况：

a.不作任何处理。其仍然是唯一的音频源，但是可能无法与乐队的虚拟动画进行时空同步，并且用户体验非常糟糕。

b.除了在MR设备中播放新的空间音频音轨之外不作任何处理，以部分恢复来自高保真系统的声音。

c.使高保真系统静音，并在MR设备中播放新的空间音频音轨。

在大多数情况下，为了获得最佳的用户体验，选项“c”提供了最佳的解决方案。在这种情况下，VR/AR/MR设备应(通过无线通信)通知(假定已连接的)高保真系统歌曲已识别，然后音乐被设置为自动静音。

图14提供了第二示例，其中提供了电视机(如有需要包括机顶盒或其他智能电视组件)，如标记1410所示。在该第二示例中，用户在客厅里观看显示标准视听内容的电视。用户正在使用VR/AR/MR设备，其中呈现了与电视内容相关的扩展AR/VR/MR场景。在该示例中，播放的标准视听内容是一家砖石公司的广告，AR/VR/MR场景是一个破砖游戏，始于一堵遮挡电视机的高砖墙。当然，游戏目的是打破这堵墙。问题在于如何操纵电视机发出的声音以使其逼真。在该示例中，可以使用用户界面设备(范围可从遥控器到智能手机或标记1420所示的任何其他移动AR/VR/MR设备)以多种方式发出音频修改请求。

a.不作任何处理。但是相信，如果用户在打破遮挡墙的同时能够感知来自电视声音的差异，用户体验会好得多。

b.除了在MR设备中播放与MR游戏相关的新空间声音之外不作任何处理，并且部分恢复来自电视机的声音。但同样地，如果用户在打破遮挡墙的同时能够感知来自电视声音的差异，用户体验会好得多。

c.通知所连接的电视机调整音量，具体取决于1.墙的高度/厚度，2.用户相对于电视机和墙的位置：如果墙在用户和电视机之间，则墙最高时，声音最低。

同样，为使用户体验达到最佳，“c”提供了最佳选择。在这种情况下，设备上运行的AR/VR/MR应用程序应自动计算应播放电视机声音的新属性，并应相应地(例如，通过有线或无线通信)通知电视机。

其他概念可以与示例1和示例2以及其他示例的设置结合使用，以进一步增强沉浸感。例如，可以使用现有的计算机视觉和场景理解算法在预处理步骤中或实时地分析真实环境，从而进行真实场景分析，以确定三维几何形状并在三维中本地化已连接的支持音频的设备。对于此类任务，可以使用一个或多个RGB+D传感器，以及如三维点云分析、三维分割、对象识别等技术。

位置跟踪也可以随时使用。AR/VR/MR设备实现相对于MR场景中存在的其他(真实或虚拟)对象的位置和方向。如本领域技术人员已知的，诸如基于标记的跟踪、基于模型的跟踪、SLAM、传感器融合等的技术可以用作示例。

在这两个示例和其他示例中，可以通过首先确定声音的特征和属性来修改音频。基于MR体验的场景、艺术意图、以及音频设计师以及物理定律的近似法则两者定义的一些规则，确定应播放支持音频的连接设备的声音的新属性。因此，我们在这里不提供可在任何情况下使用的通用方程式或规则。可以诉诸先前的示例来提供进一步的说明。在第一示例中，发现选项c最佳(1-c)，AR/VR/MR设备请求连接设备将音频设置为在虚拟乐队开始演奏时静音。在第二示例中，使用选项c(2-c)这项第一近似解决方案来模拟砖墙的存在，因此，从电视机感知到的声音减弱是在待应用于初始音量的[x,1]中，定义乘法因子α，其中待定义的0<＝x<1取决于墙和电视机之间的距离。如果墙接触电视机，则为0；如果距离大于用户与墙之间的距离，则为1。α取决于(针对用户的当前位置)虚拟墙对电视机的遮挡率。如果墙完全不遮挡电视机，则为1；如果电视机完全被遮挡，则为x。

其他未示出的示例也可以用于进一步理解其中的一些概念。

第三示例(即示例3)中展现的场景是AR/VR/MR体验将描绘整个房间被水淹没的说明。当虚拟水位到达真实连接设备的扬声器时，VR/AR/MR设备请求连接设备应用低通滤波器和混响滤波器以模拟在水下听到的声音。

在另一示例(即示例4)中，AR/VR/MR体验的场景提供一种除真实的连接设备外，房间中的所有家具都被移除的实景(“消去实景”)；MR设备请求连接设备应用混响滤波器来模拟回声。可以根据被移除对象释放的体积来调整过滤器的参数。释放的体积越大，回声效果越强。然后，当用虚拟沙发装饰房间时，效果又会减弱。

在又一示例(示例5)中，如果MR体验的场景计划是虚拟僵尸破坏您的电视机，则MR设备请求电视机将音频设置为静音，或者一旦电视机被破坏则添加噪音。另一示例(示例6)中呈现了涉及远程出席的社交MR体验。在这种情况下，必须在当前位置感测、传输和复制远程用户的位置、动作以及语音，以实现其实际在场的效果。虚拟人物或替身发出的任何声音(无论是VoIP还是替身在本地触发的任何音频，如脚步声)都由真实和虚拟的三维对象或场景变换进行修改(添加混响等)。此处，支持音频的连接设备是MR设备本身，并且流音频被附加到虚拟人物或替身，根据需要进行修改并由三维音频引擎进行呈现。

图15提供了替代实施例，其提供了具有可选处理模块1510的设备1510。如前所述，还使用了用户界面1520。计算应播放支持音频的连接设备的声音的新属性是在该设备侧而非MR设备侧完成的。在这种情况下，MR设备将计算所需的所有信息发送到支持音频的连接设备(如果需要，其中会添加一个附加的处理模块)。

类似地，在如图16中提供的另一实施例中，提供了具有音频投射和连接高保真的设备1610。同样地，提供了用户界面1620。在这种情况下，真实源的音频被流式传输到MR设备(如使用基于云或互联网提供的应用程序(例如，Google ChromeCast Audio等)时)，但在此情况下，其将从高保真、电视等投射至MR设备，然后根据需要由三维音频引擎对其进行修改，并附加到与音频源真实对象相对应的完全透明的虚拟对象上。该三维音频引擎可用于模拟距离、方向、遮挡或其他特征。

所提供的一方面优势还在于，与当前“主要”用户邻近的次要用户也可以体验由MR变化触发的音频转换(特别是靠近当前受该主要用户AR体验影响的(多个)音频源的任何一个的人)。这样可以提供更多的社交体验和较少的孤立感。期望能够在同一单个普通MR设备(平板电脑或智能手机，此处不包括头戴式耳机)上提供共享现实。但也可以根据用户的喜好实现共享的或单独的体验。例如，在其他用户尚未参与MR体验的场景中，可以使用连接设备的用户界面(电视屏幕、高保真系统菜单等)上的特定显示(例如文本、视频)，来鼓励其他用户设置自己的MR设备以加入当前用户发起的体验(在只有MR耳机等专用设备的情况下)或者观看当前/主要用户的智能手机或平板电脑的屏幕。

在其他用户参与体验的另一场景，可以实现替代设置，其中这些用户使用自己的AR/VR/MR设备，使其自身在场景中的三维姿势、体验中自己的个性化状态以及AR/VR/MR场景仅部分共享(例如，所有玩家都玩同一个破砖游戏，但每个人不会以相同的速度破墙)。在这种涉及依赖于用户的变更效果的多用户体验中，应使用变型2：将真实源的音频流式传输到不同的MR设备，后者以各自的方式对其进行修改。

图17提供了根据一个实施例的方法的流程图。在步骤1700中，处理器监视在混合现实环境中提供的虚拟现实内容的进度。在这种情况下，混合现实环境将虚拟现实内容与从真实环境提供的图像结合在一起。在步骤1720中，获得与虚拟现实内容相关联的至少一项虚拟声学数据，然后通过将所述真实环境中提供的所述图像与增强现实环境相结合，进行如步骤1720所示的修改。

尽管已经描述了一些实施例，但是应当理解，本领域技术人员现在和将来都可以做出各种改进和增强，这些改进和增强落入所附权利要求的范围内。这些权利要求应被解释为对最初描述的公开内容保持适当的保护。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：M.弗雷德特;V.阿利奥姆;V.菲尼克斯;
专利申请人：交互数字CE专利控股公司;

上一篇：带一体式插入件的袖子
下一篇：气体发生器、气囊模块、车辆安全系统和操作气体发生器的方法