导航：首页> 乐器；声学>基于环境上下文的命令消歧

基于环境上下文的命令消歧

文献发布时间：2024-04-18 19:52:40

相关申请的交叉引用

本申请要求于2022年6月29日提交的美国临时专利申请63/356,626的优先权，该美国临时专利申请据此全文以引用方式并入。

技术领域

本公开整体涉及用于基于环境上下文来对语音命令进行消歧的系统、方法和设备。

背景技术

智能代理从用户接收语音命令，并且基于语音命令来改变一个或多个智能设备的状态。例如，响应于“将恒温器调到70度”的语音命令，智能代理生成将温度设置为70度的指令并向智能恒温器发送该指令。作为另一示例，响应于“解锁前门”的语音命令，智能代理生成解锁指令，并且向与名称“前门”相关联的智能锁发送该解锁指令。然而，在各种具体实施中，语音命令是不明确的，并且可能由智能代理以多种方式来解释。例如，“关闭灯”的语音命令可以被解释为关闭与“卧室”的位置相关联的第一灯、关闭与“浴室”的位置相关联的第二灯、或者去激活智能扬声器的指示器LED的指令。为了改善用户体验，期望在没有进一步用户输入的情况下消除潜在指令之间的歧义。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1是根据一些具体实施的示例性操作环境的框图。

图2A至图2G示出了根据一些具体实施的各种时间段期间的第一XR环境。

图3A至图3B示出了根据一些具体实施的各种时间段期间的第二XR环境。

图4是根据一些具体实施的在数据库中注册对象的方法的流程图表示。

图5是根据一些具体实施的改变对象的状态的方法的流程图表示。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

发明内容

本文所公开的各种具体实施包括用于改变对象的状态的设备、系统和方法。在各种具体实施中，该方法由包括图像传感器、一个或多个处理器和非暂态存储器的设备执行。该方法包括接收语音命令。该方法包括使用该图像传感器获得物理环境的图像。该方法包括基于与对象的对象标识符相关联地存储在该非暂态存储器中的该对象的视觉模型，在该物理环境的该图像中检测该对象。该方法包括基于该语音命令和该对象的检测来生成包括该对象的该对象标识符的指令。该方法包括实现该指令以改变该对象的状态。

根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；一个或多个程序被存储于非暂态存储器中并且被配置为由一个或多个处理器执行。一个或多个程序包括用于执行或促使执行本文描述的任何方法的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，这些指令在由设备的一个或多个处理器执行时使该设备执行或使执行本文所述方法中的任一种。根据一些具体实施，一种设备包括：一个或多个处理器、非暂态存储器以及用于执行或使执行本文所述方法中的任一种的装置。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将理解，其他有效方面和/或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

如上所述，在各种具体实施中，可以以多种方式解释向智能代理发出的语音命令。在各种具体实施中，智能代理请求来自用户的澄清以消除多个解释之间的歧义。例如，响应于“关闭灯”的语音命令，智能代理可以请求用户提供对“哪个灯？”的回答。然而，如下所述，智能代理可在没有进一步用户输入的情况下使用环境上下文来消除潜在解释之间的歧义并生成指令。例如，响应于“关闭灯”的语音命令，智能代理可以选择“打开”的灯而不是已经“关闭”的灯，使用眼睛跟踪器选择用户正在观看的灯，或者选择最近已经由接收的通知激活的通知LED。作为另一示例，智能代理可选择在用户处的同一房间中的光，例如，在用户已发出语音命令的物理环境的图像中检测到的光。

图1是根据一些具体实施的示例性操作环境100的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作环境100包括控制器110和电子设备120。

在一些具体实施中，控制器110被配置为管理和协调用户的XR体验。在一些具体实施中，控制器110包括软件、固件和/或硬件的合适组合。在一些具体实施中，控制器110是相对于物理环境105位于本地或远程位置的计算设备。例如，控制器110是位于物理环境105内的本地服务器。在另一个示例中，控制器110是位于物理环境105之外的远程服务器(例如，云服务器、中央服务器等)。在一些具体实施中，控制器110经由一个或多个有线或无线通信信道144(例如，蓝牙、IEEE 802.11x、IEEE 802.16x、IEEE 802.3x等)与电子设备120通信地耦接。又如，控制器110包括在电子设备120的外壳内。在一些具体实施中，控制器110的功能由电子设备120提供和/或与该电子设备结合。

在一些具体实施中，电子设备120被配置为向用户提供XR体验。在一些具体实施中，电子设备120包括软件、固件和/或硬件的合适组合。根据一些具体实施，在用户物理地存在于物理环境105内时，电子设备120经由显示器122向用户呈现XR内容，该物理环境包括处于电子设备120的视场111内的桌子107。在一些具体实施中，用户将电子设备120拿在他/她的一只或两只手中。在一些具体实施中，在提供XR内容时，电子设备120被配置为显示XR对象(例如，XR圆柱体109)并实现在显示器122上对(例如，包括桌子107的表示117的)物理环境105的光学透视或视频透传。

根据一些具体实施，在用户虚拟地和/或物理地存在于物理环境105内的同时，电子设备120向用户提供XR体验。

在一些具体实施中，用户将电子设备120佩戴在他/她的头上。例如，在一些具体实施中，电子设备包括头戴式系统(HMS)、头戴式设备(HMD)或头戴式外壳(HME)。因此，电子设备120包括被设置成显示XR内容的一个或多个XR显示器。例如，在各种具体实施中，电子设备120包围用户的视场。在一些具体实施中，电子设备120是被配置为呈现XR内容的手持设备(诸如智能电话或平板电脑)，并且用户不再佩戴电子设备120而是手持该设备，同时使显示器朝向用户的视场，并且使相机朝向物理环境105。在一些具体实施中，手持设备可被放置在可被佩戴在使用者的头部的外壳内。在一些具体实施中，用被配置为呈现XR内容的XR舱、外壳或室替代电子设备120，用户在其中不再佩戴或手持电子设备120。

图2A至图2G示出了至少部分地由电子设备的显示器显示的第一XR环境200。第一XR环境200基于电子设备存在于其中的办公室的物理环境。图2A至图2G示出了一连串的时间段期间的第一XR环境200。在各种具体实施中，每个时间段都是瞬间、几分之一秒、几秒、几小时、几天或任何时间长度。

第一XR环境200包括多个对象，包括物理环境的一个或多个物理对象(例如，书桌211、台灯212、头顶灯213和智能电话230)以及一个或多个虚拟对象(例如，虚拟花卉布置221和虚拟时钟222)。在各种具体实施中，某些对象(诸如物理对象211至213和230以及虚拟花卉布置221)被显示在第一XR环境200中的位置处，例如在由三维(3D)XR坐标系中的三个坐标限定的位置处。因此，当电子设备在第一XR环境200中移动(例如，改变位置和/或取向)时，对象在电子设备的显示器上移动，但保持其在第一XR环境200中的位置。响应于电子设备的运动，在显示器上移动但保持其在第一XR环境中的位置的此类虚拟对象被称为世界锁定(world-locked)对象。在各种具体实施中，在显示器上的位置处显示某些虚拟对象(诸如虚拟时钟222)，使得当电子设备在第一XR环境200中移动时，对象在电子设备上的显示器上为静止的。响应于电子设备的运动，此类在显示器上保持其位置的虚拟对象被称为头部锁定对象或显示锁定对象。

图2A示出了第一时间段期间的第一XR环境200。在第一时间段期间，智能电话230在显示器上显示智能代理用户界面231，该智能代理用户界面包括与智能代理配对的配对智能设备列表232以及用于将附加智能设备与智能代理配对的添加示能表示233。尽管图2A至图2E将智能代理用户界面示出为由物理对象(例如，智能电话230)显示，但在各种具体实施中，智能代理用户界面由虚拟对象诸如虚拟屏幕、虚拟窗、或虚拟瓦片显示。

配对智能设备列表232包括与名称“卧室灯”相关联的第一设备、与名称“厨房灯”相关联的第二设备、与名称“办公室灯”相关联的第三设备(即，头顶灯213或其灯泡)、与名称“恒温器”相关联的第四设备、以及与名称“智能插座”相关联的第五设备。配对智能设备中的每个智能设备与名称(如配对智能设备列表232中所示)和对象标识符相关联。在各种具体实施中，对象标识符是网络地址，诸如MAC地址、IP地址或蓝牙地址。因此，作为示例，头顶灯213(例如，第三设备)是由智能代理表示为具有名称(例如，“办公室灯”)、对象标识符(例如，网络地址)以及在各种具体实施中的附加元数据诸如位置(例如，“办公室”)、对象类型(例如，“灯”)、或者可以改变的物理对象的状态列表(例如，“开”、“亮度”和“颜色”)的数据结构的物理对象。

图2B示出了第一时间段之后的第二时间段期间的第一XR环境200。在第一时间段与第二时间段之间，用户已与智能电话230进行交互以选择添加示能表示233。基于该用户输入，智能代理用户界面231包括由智能代理检测到的可与智能代理配对的可用智能设备列表234以及用于选择由可用智能设备列表234表示的对象的选择示能表示235。可用智能设备中的每个可用智能设备与对象标识符相关联。

可用智能设备列表234包括基于第六设备的设备类型和对象标识符与临时名称“灯-1701”相关联的第六设备(即，台灯212或其灯泡)、基于第七设备的设备类型和对象标识符与临时名称“插座-4551”相关联的第七设备、以及基于第八设备的设备类型和对象标识符与临时名称“插座-6789”相关联的第八设备。

图2C示出了第二时间段之后的第三时间段期间的第一XR环境200。在第二时间段和第三时间段之间，用户已经与智能电话230进行交互以从可用智能设备列表234选择第六设备，并且进一步与智能电话230进行交互以选择该选择示能表示235。基于该用户输入，智能代理用户界面231包括允许用户设置第六设备的名称和位置的设置面板236以及扫描示能表示237。在图2C中，用户已将与第六设备相关联的名称设置为“星空灯”，并且将与第六设备相关联的位置设置为“办公室”。因此，台灯212(例如，第六设备)是由智能代理表示为具有名称(例如，“星空灯”)、对象标识符(例如，网络地址)以及在各种具体实施中的附加元数据诸如位置(例如，“办公室”)、对象类型(例如，“灯”)、或者可以改变的物理对象的状态列表(例如，“开”、“亮度”和“颜色”)的数据结构的物理对象。

图2D示出了第三时间段之后的第四时间段期间的第一XR环境200。在第三时间段和第四时间段之间，用户已与智能电话230进行交互以选择扫描示能表示237。基于该用户输入，智能代理用户界面231包括取景器窗238和跳过示能表示239。智能代理例如从智能电话120的图像传感器获得第六设备(例如，台灯212)的图像并且生成第六设备的视觉模型。在各种具体实施中，视觉模型是三维对象模型。在各种具体实施中，视觉模型是被训练为在物理环境的图像中检测第六设备的神经网络。

图2E示出了第四时间段之后的第五时间段期间的第一XR环境200。一旦生成视觉模型，智能代理就将该视觉模型与第六设备相关联地存储在例如包括第六设备的名称和对象标识符的数据结构中，并且智能代理用户界面231显示包括第六设备的配对智能设备列表232。如果智能代理未能生成视觉模型，或者用户选择跳过示能表示239，则智能代理用户界面231显示包括第六设备的配对智能设备列表232，但是不将视觉模型存储在数据结构中。

图2F示出了第五时间段之后的第六时间段期间的第一XR环境200。在第六时间段期间，第一XR环境200包括命令指示标识290。命令指示标识290是响应于来自用户的语音命令而由电子设备显示的显示锁定虚拟对象。例如，在第六时间段期间，用户已经用语音命令“打开灯”。尽管图2F将命令指示标识290示出为显示锁定虚拟对象，但在各种具体实施中，不显示命令指示标识290。

在各种具体实施中，智能代理可以将“打开灯”的语音命令解释为打开名称为“卧室灯”的第一设备的第一潜在指令、打开名称为“厨房灯”的第二设备的第二潜在指令、打开名称为“办公室灯”的第三设备(例如，头顶灯213)的第三潜在指令、或者打开名称为“星空灯”的第六设备(例如，台灯212)的第四潜在指令。基于在发出语音命令时或接近发出语音命令时在第一XR环境200中(例如，在第一XR环境200所基于的办公室的物理环境的图像中)检测到台灯212和头顶灯213，智能代理将潜指令缩小为打开头顶灯213的第三潜在指令以及打开台灯212的第四潜在指令。基于确定头顶灯213已经打开(并且台灯212关闭)，智能代理选择打开台灯212的第四潜在指令。因此，智能代理使用存储在数据结构中的表示台灯212的台灯212的对象标识符以及包括将接收方的“开”状态设置为“真”(例如，打开)的指令来生成寻址到台灯212的数据包。此外，智能代理使用适当协议诸如IP(例如，HTTP)或蓝牙来发送数据包，并且该数据包被寻址的设备(例如，台灯212)接收。

图2G示出了第六时间段之后的第七时间段期间的第一XR环境200。响应于接收到打开指令，台灯212打开。因此，在第七时间段期间，台灯212开。

图3A至图3B示出了至少部分地由电子设备的显示器显示的第二XR环境300。第二XR环境300基于电子设备存在于其中的客厅的物理环境。图3A至图3B示出了一连串的时间段期间的第二XR环境300。在各种具体实施中，每个时间段都是瞬间、几分之一秒、几秒、几小时、几天或任何时间长度。

第二XR环境300包括多个对象，包括物理环境的一个或多个物理对象(例如，沙发311、台灯212、边桌312和地毯313)以及一个或多个虚拟对象(例如，虚拟照片321和虚拟时钟322)。在各种具体实施中，某些对象(诸如物理对象212和311至313以及虚拟照片321)显示在第二XR环境300中的某个位置，例如由三维(3D)XR坐标系中的三个坐标定义的位置。因此，当电子设备在第二XR环境300中移动(例如，改变位置和/或取向)时，对象在电子设备的显示器上移动，但保持其在第二XR环境300中的位置。响应于电子设备的运动，在显示器上移动但保持其在第二XR环境中的位置的此类虚拟对象被称为世界锁定对象。在各种具体实施中，在显示器上的位置处显示某些虚拟对象(诸如虚拟时钟322)，使得当电子设备在第二XR环境300中移动时，对象在电子设备上的显示器上为静止的。响应于电子设备的运动，此类在显示器上保持其位置的虚拟对象被称为头部锁定对象或显示锁定对象。

图3A示出了第一时间段期间的第二XR环境300。在第一时间段期间，台灯212已经从图2A、图2G的第一XR环境200的书桌211移动到第二XR环境300的边桌312。在第一时间段期间，第二XR环境300包括命令指示标识390。命令指示标识390是响应于来自用户的语音命令而由电子设备显示的显示锁定虚拟对象。例如，在第一时间段期间，用户已经用语音命令“打开灯”。尽管图3A将命令指示标识390示出为显示锁定虚拟对象，但在各种具体实施中，不显示命令指示标识390。

如上所述，在各种具体实施中，智能代理可以将“打开灯”的语音命令解释为打开名称为“卧室灯”的第一设备的第一潜在指令、打开名称为“厨房灯”的第二设备的第二潜在指令、打开名称为“办公室灯”的第三设备(例如，头顶灯213)的第三潜在指令、或者打开名称为“星空灯”的第六设备(例如，台灯212)的第四潜在指令。基于在发出语音命令时或接近发出语音命令时在第二XR环境300中(例如，在第二XR环境300所基于的客厅的物理环境的图像中)检测到台灯212，智能代理选择打开台灯212的第四潜在指令。因此，智能代理使用存储在数据结构中的表示台灯212的台灯212的对象标识符以及包括将接收方的“开”状态设置为“真”(例如，打开)的指令来生成寻址到台灯212的数据包。此外，智能代理使用适当协议诸如IP(例如，HTTP)或蓝牙来发送数据包，并且该数据包被寻址的设备(例如，台灯212)接收。

图3B示出了第一时间段之后的第二时间段期间的第二XR环境300。响应于接收到打开指令，台灯212打开。因此，在第八时间段期间，台灯212开。

图4是根据一些具体实施的在数据库中注册对象的方法400的流程图表示。在各种具体实施中，方法400由包括图像传感器、一个或多个处理器和非暂态存储器的设备(例如，图1的电子设备120)来执行。在一些具体实施中，方法400由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法400由执行存储在非暂态计算机可读介质(例如，存储器)中的指令(例如，代码)的处理器执行。

方法400在框410中开始，其中设备获得注册对象的请求。例如，在图2A中，智能电话230接收选择添加示能表示的用户输入，并且在图2B中，智能电话230接收从可用智能设备列表234和选择示能表示235选择台灯212的用户输入。在各种具体实施中，该对象是可配对的智能设备。在各种具体实施中，注册对象的请求包括从可用对象的列表中选择对象。

方法400在框420中继续，其中设备使用图像传感器获得对象的一个或多个图像。例如，在图2D中，智能电话230捕获台灯212的图像。在各种具体实施中，对象的一个或多个图像包括来自多个不同视角的对象的多个图像。在各种具体实施中，对象的一个或多个图像包括深度信息。

方法400在框430中继续，其中设备基于对象的一个或多个图像来确定对象的视觉模型。在各种具体实施中，对象的视觉模型是对象的三维模型。在各种具体实施中，对象的视觉模型是在对象的图像上训练以在对象的其他图像中检测对象的神经网络。

方法400在框440中继续，其中设备将视觉模型与对象的对象标识符相关联地存储在非暂态存储器中。在各种具体实施中，对象标识符是网络地址，诸如IP地址、MAC地址或蓝牙地址。在各种具体实施中，对象标识符是UUID或全局UID。在各种具体实施中，对象标识符固有地与对象相关联。在各种具体实施中，对象标识符是自动分配的，例如不是由用户分配的。在各种具体实施中，在框410中获得注册对象的请求之前确定对象标识符。

在各种具体实施中，视觉模型与对象标识符相关联地存储在包括关于该对象的数据的对象数据结构中。在各种具体实施中，数据结构包括关于对象的附加信息，诸如用户提供的对象的名称或对象的位置(例如，对象位于其中的房间)。

图5是根据一些具体实施的改变对象的状态的方法500的流程图表示。在各种具体实施中，方法500由包括图像传感器、一个或多个处理器和非暂态存储器的设备(例如，图1的电子设备120)来执行。在一些具体实施中，方法500由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法500由执行存储在非暂态计算机可读介质(例如，存储器)中的指令(例如，代码)的处理器执行。

方法500在框510中开始，其中设备接收语音命令。例如，在图2F中，智能代理接收“打开灯”的语音命令。作为图3A中的另一个示例，智能代理接收“打开灯”的语音命令。

方法500在框520中继续，其中设备使用图像传感器获得物理环境的图像。方法500在框530中继续，其中设备基于与对象的对象标识符相关联地存储在非暂态存储器中的对象的视觉模型，在物理环境的图像中检测对象。例如，在图2F中，智能代理在第一XR环境200的图像中检测台灯212和头顶灯213。作为另一示例，在图3A中，智能代理在第二XR环境300的图像中检测台灯212。

在各种具体实施中，对象标识符是网络地址，诸如IP地址、MAC地址或蓝牙地址。在各种具体实施中，对象标识符是UUID或全局UID。在各种具体实施中，对象标识符固有地与对象相关联。在各种具体实施中，对象标识符是自动分配的，例如不是由用户分配的。

在各种具体实施中，视觉模型与对象标识符相关联地存储在包括关于该对象的数据的对象数据结构中。在各种具体实施中，数据结构包括关于对象的附加信息，诸如对象的对象类型、对象的名称(例如，用户提供的名称)、或对象的位置(例如，对象位于其中的房间)。

在各种具体实施中，图4的方法400用于将对象与该对象的对象标识符相关联地存储在非暂态存储器中。因此，在各种具体实施中，方法500还包括：获得注册对象的请求；使用图像传感器获得对象的一个或多个图像；基于对象的该一个或多个图像来确定对象的视觉模型；以及将视觉模型与对象的对象标识符相关联地存储在非暂态存储器中。

方法500在框540中继续，其中设备基于语音命令和对象的检测来生成包括对象的对象标识符的指令。在各种具体实施中，生成指令包括：基于语音命令生成多个潜在指令；以及基于对象的检测，选择该多个潜在指令中的一个潜在指令作为指令。例如，在图3A中，智能代理可以将“打开灯”的语音命令解释为打开名称为“卧室灯”的第一设备的第一潜在指令、打开名称为“厨房灯”的第二设备的第二潜在指令、打开名称为“办公室灯”的第三设备(例如，头顶灯213)的第三潜在指令、或者打开名称为“星空灯”的第六设备(例如，台灯212)的第四潜在指令。基于在发出语音命令时或接近发出语音命令时在第二XR环境300中(例如，在第二XR环境300所基于的客厅的物理环境的图像中)检测到台灯212，智能代理选择打开台灯212的第四潜在指令。因此，智能代理使用存储在数据结构中的表示台灯212的台灯212的对象标识符以及包括将接收方的“开”状态设置为“真”(例如，打开)的指令来生成寻址到台灯212的数据包。

在各种具体实施中，生成指令进一步基于附加信息。该附加信息可用于生成该多个潜在指令或选择该多个指令中的一个指令。

在各种具体实施中，对象的对象标识符进一步与对象的对象类型相关联地存储。在各种具体实施中，生成指令是基于对象的对象类型。例如，响应于“解锁”的语音命令，可以针对多个智能锁(例如，具有对象类型“锁”的智能设备)生成多个指令。例如，智能代理可以生成解锁安装在前门中的名称为“前门”的第一设备的第一潜在指令以及解锁安装在将车库连接到住宅内部的车库门中的名称为“车库门”的第二设备的第二潜在指令。基于在发出语音命令时或接近发出语音命令时在物理环境的图像中检测到车库门，智能代理选择解锁车库门的第二潜在指令。

在各种具体实施中，对象的对象标识符进一步与对象的名称相关联地存储。在各种具体实施中，生成指令进一步基于对象的名称。例如，响应于“打开星空”的语音命令，可以为设备名称为“星空”的多个智能设备生成多个指令。例如，智能代理可生成打开名称为“星空”的第六设备(例如，台灯212)的第一潜在指令以及打开附接到从卧室的天花板悬挂的一串LED灯的名称为“天花板星空”的智能插座的第二潜在指令。基于在发出语音命令时或接近发出语音命令时在物理环境的图像中检测到第六设备(例如，台灯212)，智能代理选择打开台灯212的第一潜在指令。

在各种具体实施中，生成指令进一步基于确定用户的注视指向对象的检测的位置。例如，在图2F中，智能代理可以将“打开灯”的语音命令解释为打开名称为“卧室灯”的第一设备的第一潜在指令、打开名称为“厨房灯”的第二设备的第二潜在指令、打开名称为“办公室灯”的第三设备(例如，头顶灯213)的第三潜在指令、或者打开名称为“星空灯”的第六设备(例如，台灯212)的第四潜在指令。基于在发出语音命令时或接近发出语音命令时在第一XR环境200中(例如，在第一XR环境200所基于的办公室的物理环境的图像中)检测到台灯212和头顶灯213，智能代理将该多个潜指令缩小为打开头顶灯213的第三潜在指令以及打开台灯212的第四潜在指令。基于确定用户的注视指向检测到台灯212的位置，智能代理选择第四潜在指令作为指令。

在各种具体实施中，生成指令进一步基于对象的状态。例如，在图2F中，智能代理可以将“打开灯”的语音命令解释为打开名称为“卧室灯”的第一设备的第一潜在指令、打开名称为“厨房灯”的第二设备的第二潜在指令、打开名称为“办公室灯”的第三设备(例如，头顶灯213)的第三潜在指令、或者打开名称为“星空灯”的第六设备(例如，台灯212)的第四潜在指令。基于在发出语音命令时或接近发出语音命令时在第一XR环境200中(例如，在第一XR环境200所基于的办公室的物理环境的图像中)检测到台灯212和头顶灯213，智能代理将该多个潜指令缩小为打开头顶灯213的第三潜在指令以及打开台灯212的第四潜在指令。基于确定头顶灯213已经打开并且台灯212关闭，智能代理选择第四潜在指令作为指令。

方法500在框550中继续，其中设备实现指令以改变对象的状态。在各种具体实施中，实现指令包括基于指令中所指示的对象标识符(例如，地址)通过网络向对象发送指令。例如，在图3A中，智能代理使用适当协议诸如IP(例如，HTTP)或蓝牙来发送数据包，并且该数据包被寻址的设备(例如，台灯212)接收。

因为方法500包括检测环境中的对象，所以方法500对于对象到不同环境的移动是稳健的。例如，在各种具体实施中，方法500还包括从用户接收第二语音命令。方法500还包括使用图像传感器获得第二物理环境的图像以及在第二物理环境的图像中检测对象。方法500还包括基于第二语音命令和对象的检测来生成包括对象的对象标识符的第二指令，以及实现第二指令以改变对象的状态。

虽然上文描述了在所附权利要求书范围内的具体实施的各个方面，但是应当显而易见的是，上述具体实施的各种特征可通过各种各样的形式体现，并且上述任何特定结构和/或功能仅是例示性的。基于本公开，本领域的技术人员应当理解，本文所述的方面可以独立于任何其他方面来实现，并且这些方面中的两个或更多个可以采用各种方式组合。例如，可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外，除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面，可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件，和/或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

完整全部详细技术资料下载