导航：首页> 计算；推算；计数>操作具有多个语音助手服务的媒体回放系统的系统和方法

操作具有多个语音助手服务的媒体回放系统的系统和方法

文献发布时间：2023-06-19 11:55:48

相关申请的交叉引用

本申请要求于2018年12月7日提交的美国专利申请No.16/213,570的优先权，其全部内容通过引用并入本文。

技术领域

本公开涉及消费者产品，更具体地，涉及与媒体回放或者其某个方面有关的方法、系统、产品、特征、服务和其他元素。

背景技术

在外放设置下访问和收听数字音频的选项受到限制，直到2002年SONOS公司开始开发新型回放系统。然后，Sonos于2003年提交了题为“Method for Synchronizing AudioPlayback between Multiple Networked Devices”的其首批专利申请之一，并于2005年开始提供其首批媒体回放系统以供销售。Sonos无线家庭音响系统使人们能够经由一个或多个联网回放设备体验来自许多源的音乐。通过安装在控制器(例如，智能手机、平板电脑、计算机、语音输入设备)上的软件控制应用，人们可以在具有联网的回放设备的任何房间中播放自己想要的内容。媒体内容(例如，歌曲、播客、视频声音)可以被流传输到回放设备，使得具有回放设备的每个房间可以回放对应的不同媒体内容。另外，可以将房间分组在一起以同步回放相同的媒体内容，和/或可以在所有房间中同步收听相同的媒体内容。

附图说明

结合下面列出的以下描述、所附权利要求和附图，可以更好地理解当前公开的技术的特征、方面和优点。相关领域的技术人员将理解，附图中所示的特征是出于说明的目的，并且包括不同和/或附加特征及其布置的变型是可能的。

图1A是具有根据所公开技术的方面配置的媒体回放系统的环境的局部剖视图。

图1B是图1A的媒体回放系统和一个或多个网络的示意图。

图1C是回放设备的框图。

图1D是回放设备的框图。

图1E是网络麦克风设备的框图。

图1F是网络麦克风设备的框图。

图1G是回放设备的框图。

图1H是控制设备的局部示意图。

图1I至图1L是相应的媒体回放系统区的示意图。

图1M是媒体回放系统区域的示意图。

图2A是根据所公开的技术的各方面配置的回放设备的前等距视图。

图2B是没有格栅的图3A的回放设备的前等距视图。

图2C是图2A的回放设备的分解图。

图3A是根据所公开的技术的各方面配置的网络麦克风设备的前视图。

图3B是图3A的网络麦克风设备的侧等距视图。

图3C是图3A和图3B的网络麦克风设备的分解图。

图3D是图3B的部分的放大图。

图3E是图3A-图3D的网络麦克风设备的框图。

图3F是示例语音输入的示意图。

图4A-图4D是根据所公开的技术的各方面的处于操作的各个阶段的控制设备的示意图。

图5是控制设备的前视图。

图6是媒体回放系统的消息流程图。

图7是媒体回放系统与第一语音助手服务和第二语音助手服务之间的示例消息流程图。

图8是用于管理来自第一语音助手服务和第二语音助手服务的内容的方法的流程图。

图9是用于在回放来自语音助手服务的内容期间管理激活词检测的方法的流程图。

附图是出于说明示例实施例的目的，但是本领域普通技术人员将理解，本文公开的技术不限于附图中所示的布置和/或工具。

具体实施方式

I.概述

语音控制对于具有智能应用和相关设备(例如，无线照明设备、家庭自动化设备(例如，恒温器、门锁等)和音频回放设备)的“智能”家居可以是有益的。在一些实施方式中，联网的麦克风设备(其可以是回放设备的组件)可以用于控制智能家居设备。网络麦克风设备通常将包括用于接收语音输入的麦克风。网络麦克风设备可以将语音输入转发给语音助手服务(VAS)，例如，AMAZON的

由网络麦克风设备检测到的语音输入通常将包括激活词，其后跟包含用户请求的发声。激活词通常是用于“唤醒”并调用VAS来解释语音输入意图的预定词或短语。例如，在查询AMAZON的ALEXA时，用户可以说出激活词“Alexa”。其他示例包括：用于调用GOOGLE的Assistant的“Ok，Google”，以及用于调用APPLE的SIRI的“Hey，Siri”，或者用于由SONOS提供的VAS的“Hey，Sonos”。在各种实施例中，激活词也可以被称为例如唤醒词、触发词、叫醒词或短语，并且可以采用以下形式：任何合适词；词的组合，例如，短语；和/或指示网络麦克风设备和/或相关联的VAS将调用动作的音频提示。

管理具有两个或更多个相应的VAS的各种回放设备之间的关联可能很困难。例如，尽管用户可能希望在其家中使用多个VAS，但从一个VAS接收到的响应可能会中断从第二VAS接收到的响应或其他内容。例如当来自第二VAS的响应中断来自第一VAS的响应时，这种中断可以是同步的。另外，例如当来自第二VAS的响应中断来自第一VAS的预先安排的事件(例如，警报)时，这种中断可以是异步的。

本文详述的系统和方法解决了上述管理一个或多个回放设备与两个或更多个VAS之间的关联的挑战。具体地，提供了用于管理回放设备与两个或更多个VAS之间的通信和输出以增强用户体验的系统和方法。尽管下面提供了若干个关于管理与两个VAS的交互的示例，但在各种实施例中可以存在附加的VAS(例如，三个、四个、五个、六个或更多个VAS)。

如下文更详细描述的，在一些情况下，回放设备可以通过仲裁从不同VAS内容接收到的内容的回放来管理多个VAS。例如，回放设备可以检测音频输入中的激活词，然后向第一VAS发送音频输入的语音发声。然后第一VAS可以以要经由回放设备回放的内容(例如，文本到话音响应)进行响应，在此之后，回放设备然后可以回放该内容。在该过程中的任何时刻点，回放设备可以同时从第二VAS接收第二内容，例如，预先安排的警报、用户广播、文本到话音响应或任何其他内容。响应于接收到该第二内容，回放设备可以动态地确定如何处理回放。作为一种选择，回放设备可以抑制来自第二VAS的第二内容以避免过度地中断来自第一VAS的回放的响应。这种抑制可以采取延迟第二内容的回放或取消第二内容的回放的形式。备选地，回放设备可以例如通过抑制第一内容的回放同时允许第二内容被回放来允许第二内容中断第一内容。在一些实施例中，回放设备基于相应内容的特性确定播放哪些内容以及抑制哪些内容——例如，允许来自第二VAS的预定警报中断来自第一VAS的播客，但在从第一VAS输出文本到语音响应期间，抑制来自第二VAS的用户广播。

如下文更详细描述的，在一些情况下，回放设备可以通过仲裁与不同VAS相关联的激活词检测来管理多个VAS。例如，当用户主动参与第一VAS时，回放设备可以选择性地禁用第二VAS的激活词检测。这降低第二VAS在检测到其自身的激活词时错误地中断用户与第一VAS的对话的风险。这也通过消除将旨在用于一个VAS的用户语音输入发送到不同的VAS的可能性来保护用户隐私。一旦用户已经结束了其与第一VAS的对话会话，回放设备就可以重新启用第二VAS的激活词检测。这些和其他规则允许回放设备管理来自多个不同VAS的内容回放，而不影响用户体验。

虽然本文描述的一些示例可以涉及由给定行动者(例如，“用户”、“收听者”和/或其他实体)执行的功能，但是应该理解，这仅仅出于解释的目的。除非权利要求本身的语言明确要求，否则不应将权利要求解释为要求任何此类示例行动者进行动作。

在附图中，相同的附图标记识别大致类似和/或相同的元件。为了促进对任何特定元件的讨论，附图标记中的一个或多个最高有效位指的是首次引入该元件的附图。例如，首先参照图1A介绍和讨论元件110a。图中所示的许多细节、尺寸、角度和其他特征仅是所公开技术的特定实施例的说明。因此，在不脱离本公开的精神或范围的情况下，其他实施例可以具有其他细节、尺寸、角度和特征。另外，本领域普通技术人员将理解，可以在没有以下描述的若干个细节的情况下实践各种公开的技术的其他实施例。

II.合适的操作环境

图1A是分布在环境101(例如，房屋)中的媒体回放系统100的局部剖视图。媒体回放系统100包括一个或多个回放设备110(分别被识别为回放设备110a-110n)、一个或多个网络麦克风设备(“NMD”)120(分别被识别为NMD 120a-120c)以及一个或多个控制设备130(分别被识别为控制设备130a和130b)。

如本文所使用的，术语“回放设备”通常可以指代被配置为接收、处理和输出媒体回放系统的数据的网络设备。例如，回放设备可以是接收和处理音频内容的网络设备。在一些实施例中，回放设备包括由一个或多个放大器供电的一个或多个换能器或扬声器。然而，在其他实施例中，回放设备包括扬声器和放大器之一(或任意一个都不包括)。例如，回放设备可以包括一个或多个放大器，该一个或多个放大器被配置为经由相应的电线或电缆来驱动回放设备外部的一个或多个扬声器。

此外，如本文中所使用的，术语NMD(即，“网络麦克风设备”)通常可以指代被配置用于音频检测的网络设备。在一些实施例中，NMD是主要配置用于音频检测的独立设备。在其他实施例中，NMD被合并到回放设备中(反之亦然)。

术语“控制设备”通常可以指代网络设备，该网络设备被配置为执行与促进用户对媒体回放系统100进行访问、控制和配置相关的功能。

回放设备110中的每一个被配置为从一个或多个媒体源(例如，一个或多个远程服务器、一个或多个本地设备)接收音频信号或数据，并且回放所接收到的音频信号或数据作为声音。一个或多个NMD 120被配置为接收口语命令，并且一个或多个控制设备130被配置为接收用户输入。响应于所接收到的口语命令和/或用户输入，媒体回放系统100可以经由一个或多个回放设备110回放音频。在某些实施例中，回放设备110被配置为响应于触发而开始媒体内容的回放。例如，一个或多个回放设备110可以被配置为在检测到相关联的触发条件(例如，用户在厨房中的存在、检测咖啡机操作)时回放早晨的播放列表。在一些实施例中，例如，媒体回放系统100被配置为与第二回放设备(例如，回放设备100b)同步地回放来自第一回放设备(例如，回放设备100a)的音频。下面参考图1B-6更详细地描述根据本公开的各种实施例配置的媒体回放系统100的回放设备110、NMD 120和/或控制设备130之间的交互。

在图1A所示的实施例中，环境101包括具有多个房间、空间和/或回放地区的家庭，包括(从左上方开始的顺时针方向)主浴室101a、主卧室101b、第二卧室101c、家庭房或书房101d、办公室101e、客厅101f、餐厅101g、厨房101h和室外庭院101i。尽管下文在家居环境的上下文中描述了某些实施例和示例，但是本文所述的技术可以在其他类型的环境中实现。在一些实施例中，例如，媒体回放系统100可以在一个或多个商业设置(例如，餐厅、购物中心、机场、酒店、零售店或其他商店)、一个或多个交通工具(例如，运动型多功能车、巴士、汽车、轮船、小船、飞机)、多个环境(例如，家庭和交通工具环境的组合)和/或可能需要多地区音频的其他合适环境中实现。

媒体回放系统100可以包括一个或多个回放地区，其中一些可以对应于环境101中的房间。媒体回放系统100可以建立有一个或多个回放地区，其后可以添加或移除附加地区，以形成例如图1A所示的配置。每个地区可以根据不同的房间或空间(例如，办公室101e、主浴室101a、主卧室101b、第二卧室101c、厨房101h、餐厅101g、客厅101f和/或阳台101i)被赋予名称。在一些方面，单个回放地区可以包括多个房间或空间。在某些方面，单个房间或空间可以包括多个回放地区。

在图1A所示的实施例中，主浴室101a、第二卧室101c、办公室101e、客厅101f、餐厅101g、厨房101h和室外庭院101i均包括一个回放设备110，并且主卧室101b和书房101d包括多个回放设备110。在主卧室101b中，回放设备1101和110m可以被配置为例如与回放设备110中的各个回放设备、绑定的回放地区、合并的回放设备和/或其任何组合同步地回放音频内容。类似地，在书房101d中，回放设备110h-110j可以被配置为例如与回放设备110中的各个回放设备、一个或多个绑定的回放设备和/或一个或多个合并的回放设备同步地回放音频内容。下面参照图1B、图1E以及图1I-图1M描述了关于绑定和合并的回放设备的附加细节。

在一些方面，环境101中的一个或多个回放地区均可以播放不同的音频内容。例如，用户可以正在庭院101i烧烤并收听由回放设备110c播放的嘻哈音乐，而另一用户正在厨房101h中准备食物并收听由回放设备110b播放的古典音乐。在另一示例中，回放地区可以与另一个回放地区同步地播放相同的音频内容。例如，用户可以正在办公室101e中收听回放设备110f播放与由庭院101i上的回放设备110c回放的嘻哈音乐相同的音乐。在一些方面，回放设备110c和110f同步地回放嘻哈音乐，使得用户感觉到音频内容在不同回放地区之间移动时被无缝地(或至少基本上无缝地)播放。关于回放设备和/或地区之间的音频回放同步的附加细节可以在例如题为“System and method for synchronizing operationsamong a plurality of independently clocked digital data processing devices”的美国专利No.8,234,395中找到，其全部内容通过引用并入本文。

图1B是媒体回放系统100和云网络102的示意图。为了便于说明，从图1B中省略了媒体回放系统100和云网络102的某些设备。MPS 100的各种回放、网络麦克风和控制器设备110、120、130和/或其他网络设备可以经由点对点连接和/或经由包括网络路由器109的LAN111的其他连接(其可以是有线的和/或无线的)而彼此耦合。例如，可以被指定为“左侧”设备的书房101d(图1A)中的回放设备110j可以与回放设备110k具有点对点连接，该回放设备110k也在书房101d中并且可以被指定为“右侧”设备。在相关实施例中，左回放设备110j可以通过点对点连接和/或通过经由LAN 111的其他连接与其他网络设备(例如，回放设备110h)通信，该其他网络设备可以被指定为“前置”设备。

除了回放设备110、网络麦克风设备120和控制器设备130，家居环境10t可以包括附加和/或其他计算设备，包括本地网络设备，例如，一个或多个智能照明设备108(图1B)、智能恒温器111和本地计算设备。在下文所述的实施例中，各种回放设备110中的一个或多个可以被配置为便携式回放设备，而其他回放设备可以被配置为固定回放设备。例如，耳机110o(图1B)是便携式回放设备，而书架上的回放设备110e可以是固定设备。作为另一示例，庭院上的回放设备110c可以是电池供电的设备，这允许其在未插入墙壁插座时被运输到环境101内以及环境101外部的各个区域。

如图1B进一步所示，MPS 100可以通过广域网(“WAN”)102耦合到一个或多个远程计算设备106。在一些实施例中，每个远程计算设备106可以采取一个或多个云服务器的形式。远程计算设备106可以被配置为以各种方式与环境101中的计算设备进行交互。例如，远程计算设备106可以被配置为在家居环境101中促进流传输和/或控制媒体内容(例如，音频)的回放。

在一些实施方式中，各种回放设备110、NMD 120和/或控制器设备130可以通信地耦合到与一个或多个VAS相关联的远程计算设备和与媒体内容服务(“MCS”)相关联的至少一个远程计算设备。例如，在图1B的所示示例中，远程计算设备106a与第一VAS 190相关联，远程计算设备106b与第二VAS 191相关联，并且远程计算设备106c与MCS 192相关联。尽管为了清楚起见在图1B的示例中仅示出了两个VAS 190、191和单个MCS 192，但是MPS 100可以耦合到附加的、不同的VAS和/或MCS。在一些实施方式中，VAS可以由AMAZON、GOOGLE、APPLE、MICROSOFT、SONOS或其他语音助手提供商中的一个或多个来操作。在一些实施方式中，MCS可以由SPOTIFY、PANDORA、AMAZON MUSIC或其他媒体内容服务中的一个或多个来操作。

远程计算设备106还包括被配置为执行某些操作的远程计算设备，例如，远程促进媒体回放功能、管理设备和系统状态信息、指导MPS100的设备与一个或多个VAS和/或MCS之间的通信，以及其他操作。在一个示例中，附加的远程计算设备为一个或多个SONOS无线HiFi系统提供云服务器。

在各种实施方式中，一个或多个回放设备110可以采用板载(例如，集成的)网络麦克风设备的形式或包括板载(例如，集成的)网络麦克风设备。例如，回放设备110k、110h、110c、110e和110g分别包括或以其他方式配备有对应的NMD 120e-i。除非在说明书中另外指出，否则包括或配备有NMD的回放设备在本文中可以互换地被称为回放设备或NMD。在一些情况下，一个或多个NMD 120可以是独立设备。例如，NMD 120a和120b可以是独立设备。独立NMD可以省略通常包括在回放设备中的组件和/或功能，例如，扬声器或相关电子设备。例如，在这种情况下，独立NMD可能不会产生音频输出或可能会产生有限的音频输出(例如，相对低质量的音频输出)。

MPS 100的各种回放和网络麦克风设备110和120均可以与唯一名称相关联，该唯一名称可以例如在设置这些设备中的一个或多个期间由用户分配给相应设备。例如，如图1B的所示示例所示，用户可以将名称“书架”分配给回放设备110e，因为它实际上位于书架上。可以根据地区或房间为一些回放设备分配名称，例如，回放设备110g、110d、110b和110f，它们分别被命名为“卧室”、“餐厅”、“厨房”和“办公室”。此外，某些回放设备可以具有功能描述性名称。例如，回放设备110k和110h分别被分配了名称“右侧”和“前置”，因为这两个设备被配置为在媒体回放期间在书房101d(图1A)的地区中提供特定的音频声道。庭院中的回放设备110c可以被命名为便携式设备，因为它是电池供电的和/或易于运输到环境101的不同区域。其他命名约定也是可能的。

如上所述，NMD可以检测和处理来自其环境的声音，例如，包括背景噪声的声音，该背景噪声与该NMD附近的人说出的话音混合。例如，当NMD在环境中检测到声音时，该NMD可以处理检测到的声音以确定该声音是否包括话音，该话音包含用于该NMD并最终用于特定VAS的语音输入。例如，NMD可以识别话音是否包括与特定VAS相关联的唤醒词。

在图1B的所示示例中，NMD 120被配置为经由LAN 111和路由器109通过网络与第一VAS 190和/或第二VAS 191交互。例如，当NMD在所检测到的声音中识别出潜在唤醒词时，可以发起与VAS 190和191的交互。该识别导致唤醒词事件，这又导致NMD开始向第一VAS190或第二VAS 191发送检测到的声音数据，这取决于在所检测到的声音中识别出的特定潜在唤醒词。在一些实施方式中，MPS 100的各种本地网络设备和/或远程计算设备106可以与远程计算设备交换各种反馈、信息、指令和/或相关数据，该远程计算设备与所选择的VAS相关联。这样的交换可以与包含语音输入的发送消息有关或独立于该消息。在一些实施例中，远程计算设备和媒体回放系统100可以经由如本文所述的通信路径和/或使用如在2017年2月21日提交的美国申请No.15/438,749中所述的元数据交换信道来交换数据，该美国申请题为“Voice Control of a Media Playback System”，其全部内容通过引用并入本文。

在接收到声音数据流后，第一VAS 190确定来自NMD的流数据中是否存在语音输入，如果存在，则第一AS 190还将确定该语音输入中的潜在意图。第一VAS 190接下来可以将响应发送回MPS 100，这可以包括直接向导致唤醒词事件的NMD发送该响应。该响应通常基于第一VAS 190确定的存在于语音输入中的意图。作为示例，响应于第一VAS 190接收到发声为“播放披头士乐队的Hey Jude”的语音输入，第一VAS 190可以确定该语音输入的基本意图是发起回放，并进一步确定该语音输入的意图是播放特定歌曲“Hey Jude”。在这些确定之后，第一VAS 190可以向特定MCS 192发送命令以取回内容(即，歌曲“Hey Jude”)，并且，该MCS 192进而直接向MPS 100提供(例如，流传输)这个内容或间接经由第一VAS 190提供。在一些实施方式中，第一VAS 190可以向MPS 100发送命令，该命令使MPS 100自身从MCS192取回内容。当接收声音数据流时，第二VAS 191可以与第一VAS 190类似地操作。

在某些实施方式中，当在由彼此相互接近的两个或多个NMD检测到的话音中识别出语音输入时，NMD可以促进彼此之间的仲裁。例如，环境101(图1A)中配备有NMD的书架回放设备110e与NMD120b相对接近，并且设备110e和120b两者都可以至少有时检测到相同的声音。在这种情况下，这可能需要仲裁，以确定最终由哪个设备负责向远程VAS提供检测到的声音数据。例如，可以在先前引用的美国申请No.15/438,749中找到在NMD之间进行仲裁的示例。

在某些实施方式中，NMD可以被分配给可能不包含NMD的指定的或默认的回放设备，或以其他方式与该回放设备相关联。例如，可以将厨房101g(图1A)中的NMD 120a分配给与该NMD 120a相对接近的餐厅回放设备110d。在实践中，响应于远程VAS接收到来自NMD的语音输入以播放音频，NMD可以指示分配的回放设备播放音频，该NMD可能已经响应于用户说出的命令而向该VAS发送所述语音输入以播放特定的歌曲、专辑、播放列表等。例如，在先前引用的美国专利申请No.15/438,749中可以找到关于将NMD和回放设备分配为指定设备或默认设备的附加细节。

可以在以下部分中找到与示例MPS 100的不同组件以及不同组件可以如何交互以向用户提供媒体体验有关的其他方面。尽管本文的讨论可以通常涉及示例MPS 100，但本文描述的技术不限于尤其上述家居环境中的应用。例如，本文所述的技术在其他家居环境配置中可能是有用的，该其他家居环境配置包括更多或更少的回放设备110、网络麦克风设备120和/或控制器设备130中的任何一个。例如，本文的技术可以在具有单个回放设备110和/或单个NMD 120的环境中使用。在这种情况的一些示例中，LAN 111(图1B)可以被消除，并且单个回放设备110和/或单个NMD 120可以直接地与远程计算设备106a-106c通信。在一些实施例中，电信网络(例如，LTE网络、5G网络等)可以独立于LAN与各种回放设备110、网络麦克风设备120和/或控制器设备130通信。

图1C是包括输入/输出111的回放设备110a的框图。输入/输出111可以包括模拟I/O 111a(例如，一条或多条电线、电缆和/或被配置为承载模拟信号的其他合适的通信链路)和/或数字I/O 111b(例如，一条或多条电线、电缆或被配置为承载数字信号的其他合适的通信链路)。在一些实施例中，模拟I/O 111a是音频线输入连接，包括例如自动检测3.5mm音频线输入连接。在一些实施例中，数字I/O 111b包括索尼/飞利浦数字接口格式(S/PDIF)通信接口和/或电缆和/或东芝链路(TOSLINK)电缆。在一些实施例中，数字I/O 111b包括高清晰度多媒体接口(HDMI)接口和/或电缆。在一些实施例中，数字I/O 111b包括一个或多个无线通信链路，其包括例如射频(RF)、红外、WiFi、蓝牙或其他合适的通信协议。在某些实施例中，模拟I/O 111a和数字111b包括被配置为分别接收发送模拟和数字信号的电缆的连接器的接口(例如，端口、插头、插孔)，而不必包括电缆。

回放设备110a例如可以经由输入/输出111(例如，电缆、电线、PAN、蓝牙连接、adhoc有线或无线通信网络、和/或其他合适的通信链路)从本地音频源105接收媒体内容(例如，包括音乐和/或其他声音的音频内容)。本地音频源105可以包括例如移动设备(例如，智能电话、平板电脑、膝上型计算机)或其他合适的音频组件(例如，电视机、台式计算机、放大器、留声机、蓝光播放器、存储数字媒体文件的存储器)。在一些方面，本地音频源105包括智能电话、计算机、网络连接存储(NAS)和/或被配置为存储媒体文件的其他合适的设备上的本地音乐库。在某些实施例中，回放设备110、NMD 120和/或控制设备130中的一个或多个包括本地音频源105。然而，在其他实施例中，媒体回放系统完全省略了本地音频源105。在一些实施例中，回放设备110a不包括输入/输出111，并且经由网络104接收所有音频内容。

回放设备110a还包括电子设备112、用户接口113(例如，一个或多个按钮、旋钮、转盘、触敏表面、显示器、触摸屏)以及一个或多个换能器114(以下称为“换能器114”)。电子设备112被配置为经由输入/输出111、经由网络104(图1B)的一个或多个计算设备106a-106c从音频源(例如，本地音频源105)接收音频，放大所接收的音频，并输出放大后的音频以经由一个或多个换能器114回放。在一些实施例中，回放设备110a可选地包括一个或多个麦克风115(例如，单个麦克风、多个麦克风、麦克风阵列)(以下称为“麦克风115”)。在某些实施例中，例如，具有一个或多个可选麦克风115的回放设备110a可以作为NMD来操作，该NMD被配置为从用户接收语音输入并且基于所接收到的语音输入相应地执行一个或多个操作。

在图1C所示的实施例中，电子设备112包括一个或多个处理器112a(以下称为“处理器112a”)、存储器112b、软件组件112c、网络接口112d、一个或多个音频处理组件112g(以下称为“音频组件112g”)、一个或多个音频放大器112h(以下称为“放大器112h”)和电源112i(例如，一个或多个电源、电力电缆、电源插座、电池、感应器线圈、以太网供电(POE)接口和/或其他合适的电源)。在一些实施例中，电子设备112可选地包括一个或多个其他组件112j(例如，一个或多个传感器、视频显示器、触摸屏、电池充电基座)。

处理器112a可以包括被配置为处理数据的时钟驱动的计算组件，并且存储器112b可以包括计算机可读介质(例如，有形的、非暂时性的计算机可读介质、装载有一个或多个软件组件112c的数据存储设备)，该计算机可读介质被配置为存储用于执行各种操作和/或功能的指令。处理器112a被配置为执行存储在存储器112b上的指令以执行一个或多个操作。该操作可以包括例如使回放设备110a从音频源(例如，一个或多个计算设备106a-106c(图1B))和/或另一个回放设备110取回音频数据。在一些实施例中，该操作还包括使回放设备110a向另一个回放设备110a和/或其他设备(例如，NMD 120之一)发送音频数据。某些实施例包括使回放设备110a与一个或多个回放设备110中的另一个配对以启用多声道音频环境(例如，立体声对、绑定地区)的操作。

处理器112a还可以被配置为执行使回放设备110a将音频内容的回放与一个或多个回放设备110中的另一个同步的操作。如本领域的普通技术人员将理解的，在多个回放设备上的音频内容的同步回放期间，收听者将优选地无法感知回放设备110a与其他一个或多个其他回放设备110的音频内容回放之间的时延差。关于回放设备之间的音频回放同步的附加细节可以在例如美国专利No.8,234,395中找到，该专利通过引用合并于此。

在一些实施例中，存储器112b还可以被配置为存储与回放设备110a相关联的数据，例如，回放设备110a是其成员的一个或多个地区和/或地区组、回放设备110a可访问的音频源、和/或回放设备110a(和/或一个或多个回放设备中的另一个)可以与之相关联的回放队列。所存储的数据可以包括一个或多个状态变量，该状态变量被周期性地更新并用于描述回放设备110a的状态。存储器112b还可以包括与媒体回放系统100的一个或多个其他设备(例如，回放设备110、NMD120、控制设备130)的状态相关联的数据。在一些方面，例如，状态数据在媒体回放系统100的至少一部分设备之间的预定时间间隔期间(例如，每5秒、每10秒、每60秒)共享，使得一个或多个设备具有与媒体回放系统100相关联的最新数据。

网络接口112d被配置为促进回放设备110a与数据网络(例如，链路103和/或网络104(图1B))上的一个或多个其他设备之间的数据传输。网络接口112d被配置为发送和接收与媒体内容(例如，音频内容、视频内容、文本、照片)和包括数字分组数据的其他信号(例如，非暂时性信号)相对应的数据，该数字分组数据包括基于互联网协议(IP)的源地址和/或基于IP的目标地址。网络接口112d可以解析数字分组数据，使得电子设备112正确地接收和处理去往回放设备110a的数据。

在图1C所示的实施例中，网络接口112d包括一个或多个无线接口112e(以下称为“无线接口112e”)。无线接口112e(例如，包括一个或多个天线的合适的接口)可以被配置为与一个或多个其他设备(例如，其他回放设备110、NMD 120和/或控制设备130中的一个或多个)无线通信，该一个或多个其他设备根据适合的无线通信协议(例如，WiFi、蓝牙、LTE)通信地耦合到网络104(图1B)。在一些实施例中，网络接口112d可选地包括有线接口112f(例如，被配置为接收诸如以太网、USB-A、USB-C和/或Thunderbolt电缆之类的网络电缆的接口或插座)，该有线接口112f被配置为根据合适的有线通信协议通过与其他设备的有线连接进行通信。在某些实施例中，网络接口112d包括有线接口112f并且不包括无线接口112e。在一些实施例中，电子设备112完全排除网络接口112d，并且经由另一通信路径(例如，输入/输出111)发送和接收媒体内容和/或其他数据。

音频组件112g被配置为处理和/或过滤包括由电子设备112(例如，经由输入/输出111和/或网络接口112d)接收的媒体内容的数据，以产生输出音频信号。在一些实施例中，音频处理组件112g包括例如一个或多个数模转换器(DAC)、音频预处理组件、音频增强组件、数字信号处理器(DSP)和/或其他合适的音频处理组件、模块、电路等。在某些实施例中，一个或多个音频处理组件112g可以包括处理器112a的一个或多个子组件。在一些实施例中，电子设备112省略了音频处理组件112g。在一些方面，例如，处理器112a执行存储在存储器112b上的指令以执行音频处理操作以产生输出音频信号。

放大器112h被配置为接收和放大由音频处理组件112g和/或处理器112a产生的音频输出信号。放大器112h可以包括被配置为将音频信号放大到足以驱动一个或多个换能器114的电平的电子设备和/或组件。在一些实施例中，例如，放大器112h包括一个或多个开关或D类功率放大器。然而，在其他实施例中，放大器包括一种或多种其他类型的功率放大器(例如，线性增益功率放大器、A类放大器、B类放大器、AB类放大器、C类放大器、D类放大器、E类放大器、F类放大器、G类和/或H类放大器和/或其他合适类型的功率放大器)。在某些实施例中，放大器112h包括两个或更多个前述类型的功率放大器的合适的组合。此外，在一些实施例中，放大器112h中的各个放大器对应于换能器114中的各个换能器。然而，在其他实施例中，电子设备112包括被配置为将放大的音频信号输出到多个换能器114的单个放大器112h。在一些其他实施例中，电子设备112省略了放大器112h。

换能器114(例如，一个或多个扬声器和/或扬声器驱动器)从放大器112h接收放大的音频信号，并且将放大的音频信号呈现或输出为声音(例如，具有大约20赫兹(Hz)和20千赫兹(kHz)之间的频率的可听声波)。在一些实施例中，换能器114可以包括单个换能器。然而，在其他实施例中，换能器114包括多个音频换能器。在一些实施例中，换能器114包括多于一种类型的换能器。例如，换能器114可以包括一个或多个低频换能器(例如，超低音扬声器、低音扬声器)、中频换能器(例如，中档换能器、中低音扬声器)和一个或多个高频换能器(例如，一或多个高音扬声器)。如本文中所使用的，“低频”通常可以指代低于约500Hz的可听频率，“中频”通常可以指代大约500Hz和大约2kHz之间的可听频率，并且“高频”通常可以指代高于2kHz的可听频率。然而，在某些实施例中，一个或多个换能器114包括不遵守前述频率范围的换能器。例如，换能器114之一可以包括中低音换能器，其被配置为以大约200Hz和大约5kHz之间的频率输出声音。

举例来说，SONOS公司目前提供(或已经提供)销售某些回放设备，包括例如“SONOSONE”、“PLAY：1”、“PLAY：3”、“PLAY：5”、“PLAYBAR”、“CONNECT：AMP”、“CONNECT”、和“SUB”。其他合适的回放设备可以附加地或备选地用于实现本文公开的示例实施例的回放设备。另外，本领域的普通技术人员将理解，回放设备不限于本文描述的示例或SONOS产品供应。在一些实施例中，例如，一个或多个回放设备110包括有线或无线耳机(例如，耳边式耳机、耳上式耳机、入耳式耳机)。在其他实施例中，一个或多个回放设备110包括扩展坞和/或被配置为与用于个人移动媒体回放设备的扩展坞交互的接口。在某些实施例中，回放设备可以集成到另一设备或组件，例如，电视机、照明器材或在室内或室外使用的一些其他设备。在一些实施例中，回放设备省略用户接口和/或一个或多个换能器。例如，图1D是回放设备110p的框图，该回放设备110p包括输入/输出111和电子设备112，而没有用户接口113或换能器114。

图1E是绑定的回放设备110q的框图，该绑定的回放设备110q包括与回放设备110i(例如，超低音扬声器)(图1A)超声绑定的回放设备110a(图1C)。在所示的实施例中，回放设备110a和110i是容纳在分离的外壳中的回放设备110中的分离的回放设备。然而，在一些实施例中，绑定的回放设备110q包括容纳回放设备110a和110i两者的单个外壳。绑定的回放设备110q可以被配置为与未绑定的回放设备(例如，图1C的回放设备110a)和/或成对的或绑定的回放设备(例如，图1B的回放设备110l和110m)不同地处理和再现声音。在一些实施例中，例如，回放设备110a是被配置成呈现低频、中频和高频音频内容的全范围回放设备，并且回放设备110i是被配置成呈现低频音频内容的超低音扬声器。在一些方面，当与第一回放设备绑定时，回放设备110a被配置为仅呈现特定音频内容的中频和高频分量，而回放设备110i呈现特定音频内容的低频分量。在一些实施例中，绑定的回放设备110q包括附加的回放设备和/或另一个绑定的回放设备。下面参照图2A-图3D更详细地描述附加的回放设备实施例。

图1F是NMD 120a(图1A和图1B)的框图。NMD 120a包括一个或多个语音处理组件124(以下称为“语音组件124”)和关于回放设备110a(图1C)描述的若干个组件，包括处理器112a、存储器112b和麦克风115。NMD 120a可选地包括还包括在回放设备110a(图1C)中的其他组件，例如，用户接口113和/或换能器114。在一些实施例中，NMD 120a被配置为媒体回放设备(例如，一个或多个回放设备110)，并且还包括例如音频组件112g(图1C)、放大器114和/或其他回放设备组件中的一个或多个。在某些实施例中，NMD 120a包括物联网(IoT)设备，例如，恒温器、警报面板、火灾和/或烟雾探测器等。在一些实施例中，NMD 120a包括麦克风115、语音处理124、以及以上关于图1B描述的电子设备112的组件中的仅一部分。在一些方面，例如，NMD 120a包括处理器112a和存储器112b(图1B)，而省略了电子设备112的一个或多个其他组件。在一些实施例中，NMD 120a包括附加组件(例如，一个或多个传感器、相机、温度计、气压计、湿度计)。

在一些实施例中，NMD可以被集成到回放设备中。图1G是包括NMD 120d的回放设备110r的框图。回放设备110r可以包括回放设备110a的许多或所有组件，并且还包括麦克风115和语音处理124(图1F)。回放设备110r可选地包括集成控制设备130c。控制设备130c可以包括例如被配置为在没有分离的控制设备的情况下接收用户输入(例如，触摸输入、语音输入)的用户接口(例如，图1B的用户接口113)。然而，在其他实施例中，回放设备110r从另一个控制设备(例如，图1B的控制设备130a)接收命令。下面参照图3A-图3F更详细地描述附加的NMD实施例。

再次参考图1F，麦克风115被配置为从环境(例如，图1A的环境101)和/或NMD 120a所位于的房间中获取、捕捉和/或接收声音。所接收到的声音可以包括例如语音发声、由NMD120a和/或另一个回放设备回放的音频、背景语音、环境声音等。麦克风115将所接收到的声音转换成电信号以产生麦克风数据。语音处理124接收并分析麦克风数据以确定在麦克风数据中是否存在语音输入。语音输入可以包括例如激活词，其后跟包括用户请求的发声。如本领域普通技术人员将理解的，激活词是表示用户语音输入的词或其他音频提示。例如，在查询

在检测到激活词之后，语音处理124监测语音输入中伴随的用户请求的麦克风数据。用户请求可以包括例如控制第三方设备(例如，恒温器(例如，

图1H是控制设备130a(图1A和图1B)的局部示意图。如本文所使用的，术语“控制设备”可以与“控制器”或“控制系统”互换使用。控制设备130a尤其被配置为接收与媒体回放系统100有关的用户输入，并且作为响应，使媒体回放系统100中的一个或多个设备执行与用户输入相对应的动作或操作。在所示的实施例中，控制设备130a包括其上安装了媒体回放系统控制器应用软件的智能电话(例如，iPhone

控制设备130a包括电子设备132、用户接口133、一个或多个扬声器134和一个或多个麦克风135。电子设备132包括一个或多个处理器132a(以下称为“处理器132a”)、存储器132b、软件组件132c和网络接口132d。处理器132a可以被配置为执行与促进用户对媒体回放系统100进行访问、控制和配置相关的功能。存储器132b可以包括数据存储设备，其可以加载有可由处理器302执行以执行那些功能的一个或多个软件组件。软件组件132c可以包括被配置为促进对媒体回放系统100的控制的应用和/或其他可执行软件。存储器112b可以被配置为存储例如软件组件132c、媒体回放系统控制器应用软件和/或与媒体回放系统100和用户相关联的其他数据。

网络接口132d被配置为促进控制设备130a与媒体回放系统100中的一个或多个其他设备和/或一个或多个远程设备之间的网络通信。在一些实施例中，网络接口132被配置为根据一个或多个合适的通信行业标准(例如，红外、无线电、包括IEEE 802.3的有线标准、包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G、LTE的无线标准)进行操作。网络接口132d可以被配置为例如向回放设备110、NMD 120、控制设备130中的其他控制设备、图1B的计算设备106之一、以及包括一个或多个其他媒体回放系统的设备等发送数据和/或从这些设备接收数据。所发送的和/或所接收的数据可以包括例如回放设备控制命令、状态变量、回放地区和/或地区组配置。例如，基于在用户接口133处接收到的用户输入，网络接口132d可以向一个或多个回放设备100发送来自控制设备304的回放设备控制命令(例如，音量控制、音频回放控制、音频内容选择)。网络接口132d也可以发送和/或接收配置更改，例如，将一个或多个回放设备100添加到地区/从地区中删除；将一个或多个地区添加到地区组/从地区组中删除；形成绑定或合并的播放器；从绑定或合并的播放器分离一个或多个回放设备等。可以在下面参照图1I至图1M找到地区和组的附加描述。

用户接口133被配置为接收用户输入并且可以促进对媒体回放系统100的控制。用户接口133包括媒体内容艺术133a(例如，专辑封面、歌词、视频)、回放状态指示符133b(例如，流逝和/或剩余时间指示符)、媒体内容信息区133c、回放控制区133d和地区指示符133e。媒体内容信息区133c可以包括对关于当前正在播放的媒体内容和/或队列或播放列表中的媒体内容的相关信息(例如，标题、艺术家、专辑、流派、发行年份)的显示。回放控制区133d可以包括可选择(例如，经由触摸输入和/或经由光标或其他合适的选择器)图标，以使所选择的回放地区或地区组中的一个或多个回放设备执行回放动作，例如，播放或暂停、快进、快退、跳到下一个、跳到前一个、进入/退出随机播放模式、进入/退出重复模式、进入/退出交叉淡入淡出模式等。回放控制区133d还可以包括用于修改均衡设置、回放音量和/或其他合适的回放动作的可选择图标。在所示的实施例中，用户接口133包括呈现在智能电话(例如，iPhone

一个或多个扬声器134(例如，一个或多个换能器)可以被配置为向控制设备130a的用户输出声音。在一些实施例中，一个或多个扬声器包括各个换能器，各个换能器被配置为相应地输出低频、中频和/或高频。在一些方面，例如，控制设备130a被配置为回放设备(例如，回放设备110之一)。类似地，在一些实施例中，控制设备130a被配置为NMD(例如，NMD120之一)，其经由一个或多个麦克风135接收语音命令和其他声音。

一个或多个麦克风135可以包括例如一个或多个电容式麦克风、驻极体电容式麦克风、动态麦克风和/或其他合适类型的麦克风或换能器。在一些实施例中，两个或更多个麦克风135可以被布置为捕捉音频源(例如，语音、可听声音)的位置信息和/或被配置为促进对背景噪声的过滤。此外，在某些实施例中，控制设备130a被配置为用作回放设备和NMD。然而，在其他实施例中，控制设备130a省略了一个或多个扬声器134和/或一个或多个麦克风135。例如，控制设备130a可以包括设备(例如，恒温器、IoT设备、网络设备)，该设备包括电子设备132的一部分和用户接口133(例如，触摸屏)，而没有任何扬声器或麦克风。下面参照图4A-图4D和图5更详细地描述附加的控制设备实施例。

图11至图1M示出了地区和地区组中的回放设备的示例配置。首先参考图1M，在一个示例中，单个回放设备可以属于一个地区。例如，第二卧室101c(图1A)中的回放设备110g可以属于C地区。在以下所述的一些实施方式中，多个回放设备可以被“绑定”以形成“绑定对”，它们一起形成单个地区。例如，回放设备110l(例如，左侧回放设备)可以被绑定到回放设备110l(例如，左侧回放设备)以形成A地区。绑定的回放设备可以具有不同的回放职责(例如，声道职责)。在以下所述的另一实施方式中，多个回放设备可以被合并以形成单个地区。例如，回放设备110h(例如，前置回放设备)可以与回放设备110i(例如，低音炮)以及回放设备110j和110k(例如，分别为左环绕扬声器和右环绕扬声器)合并以形成单个D地区。在另一示例中，回放设备110g和110h可以被合并以形成合并组或地区组108b。合并的回放设备110g和110h可以不被具体地分配不同的回放职责。即，合并的回放设备110h和110i除了同步播放音频内容之外，还可以如它们未合并时那样均播放音频内容。

媒体回放系统100中的每个地区可以作为单个用户界面(UI)实体被提供以进行控制。例如，A地区可以作为名为主浴室的单个实体提供。B地区可以作为名为主卧室的单个实体提供。C地区可以作为名为第二卧室的单个实体提供。

绑定的回放设备可以具有不同的回放职责，例如，某些音频声道的职责。例如，如图1-I所示，回放设备110l和110m可以被绑定，以便产生或增强音频内容的立体声效果。在该示例中，回放设备110l可以被配置为播放左声道音频分量，而回放设备110k可以被配置为播放右声道音频分量。在一些实施方式中，这种立体声绑定可以被称为“配对”。

另外，绑定的回放设备可以具有附加的和/或不同的相应扬声器驱动器。如图1J所示，可以将名为前置(Front)的回放设备110h与名为低音炮(SUB)的回放设备110i绑定。前置设备110h可以被配置为呈现中高频范围，并且低音炮设备110i可以被配置为呈现低频。然而，当未绑定时，前置设备110h可以被配置为呈现整个频率范围。作为另一示例，图1K示出了前置设备110h和低音炮设备110i分别进一步与左侧回放设备110j和右侧回放设备110k绑定。在一些实施方式中，左侧设备110j和右侧设备102k可以被配置为形成家庭影院系统的环绕或“卫星”声道。绑定的回放设备110h、110i、110j和110k可以形成单个D地区(图1M)。

合并的回放设备可以没有分配回放职责，并且均可以呈现相应回放设备能够回放的音频内容的全部范围。然而，合并的设备可以被表示为单个UI实体(即，如上所述的地区)。例如，主浴室中的回放设备110a和110n具有A地区的单个UI实体。在一个实施例中，回放设备110a和110n均可以输出每个相应的回放设备110a和110n能够同步回放的音频内容的全部范围。

在一些实施例中，NMD可以与另一设备绑定或合并，以形成地区。例如，可以将NMD120b与回放设备110e绑定，两者一起形成F地区，该F地区被命名为“客厅”。在一些实施例中，独立网络麦克风设备本身可以在一个地区中。然而，在其他实施例中，独立网络麦克风设备可以不与地区相关联。例如，在先前引用的美国专利申请No.15/438,749中可以找到关于将网络麦克风设备和回放设备关联为指定设备或默认设备的附加细节。

可以将单个、绑定和/或合并的设备的地区分在一组，以形成地区组。例如，参考图1M，A地区可以与B地区分在一组，以形成包括该两个地区的地区组。类似地，G地区可以与H地区分在一组，以形成地区组108b。作为另一示例，A地区可以与一个或多个其他地区C-I分在一组。A-I地区可以以多种方式进行分组和取消分组。例如，可以将三个、四个、五个或更多个(例如，全部)A-I地区分在一组。如先前参考的美国专利No.8,234,395中所述，当被分在一组时，单个和/或绑定的回放设备的地区可以彼此同步地回放音频。回放设备可以动态分组和取消分组，以形成同步回放音频内容的新的或不同的组。

在各种实施方式中，环境中的地区可以是组内地区的默认名称，或者是地区组内的地区名称的组合。例如，地区组108b可以被分配一个名称，例如“餐厅+厨房”，如图1M所示。在一些实施例中，还可以将地区组命名为由用户选择的唯一名称。

某些数据可以作为一个或多个状态变量存储在回放设备的存储器(例如，图1C的存储器112c)中，该一个或多个状态变量被周期性地更新并用于描述回放地区、回放设备和/或与其相关联的地区组的状态。存储器还可以包括与媒体系统的其他设备的状态相关联的数据，并且间或地在设备之间共享，使得设备中的一个或多个具有与系统相关联的最新数据。

在一些实施例中，存储器可以存储与状态相关联的各种变量类型的实例。变量实例可以与对应于类型的标识符(例如，标签)一起存储。例如，某些标识符可以是用于识别地区的回放设备的第一类型“a1”、用于识别可以绑定在该地区中的回放设备的第二类型“b1”和用于识别该地区可能所属的地区组的第三类型“c1”。作为相关示例，与第二卧室101c相关联的标识符可以指示回放设备是C地区的唯一回放设备，而不是地区组中的回放设备。与书房(Den)相关联的标识符可以指示该书房没有与其他地区分在一组，而是包括绑定的回放设备110h-110k。与餐厅相关联的标识符可以指示该餐厅是餐厅+厨房地区组108b的一部分，并且设备110b和110d被分在一组(图1L)。由于厨房是餐厅+厨房地区组108b的一部分，因此与该厨房相关联的标识符可以指示相同或相似的信息。其他示例地区变量和标识符如下所述。

在又一示例中，媒体回放系统100可以存储表示地区和地区组的其他关联的变量或标识符，例如，与区域相关联的标识符，如图1M所示。区域可以涉及地区组的集群和/或不在地区组内的地区的集群。例如，图1M示出了包括A-D地区的上部区域109a，以及包括E-I地区的下部区域109b。在一个方面，区域可以用于调用地区组和/或地区的集群，其共享另一集群的一个或多个地区和/或地区组。在另一方面，这不同于地区组，地区组不与另一地区组共享地区。用于实现区域的技术的其他示例可以在例如2017年8月21日提交的题为“RoomAssociation Based on Name”的美国申请No.15/682,506和2007年9月11日提交的题为“Controlling and manipulating groupings in a multi-zone media system”的美国专利No.8,483,853中找到。这些申请中的每一个通过引用整体并入本文。在一些实施例中，媒体回放系统100可以不实现区域，在这种情况下，系统可以不存储与区域相关联的变量。

III.示例系统和设备

图2A是根据所公开的技术的各方面配置的回放设备210的前等距视图。图2B是没有格栅216e的回放设备210的前等距视图。图2C是回放设备210的分解图。一起参照图2A-图2C，回放设备210包括壳体216，该壳体216包括上部216a、右侧或第一侧部216b、下部216c、左侧或第二侧部216d、格栅216e和后部216f。多个紧固件216g(例如，一个或多个螺钉、铆钉、夹子)将框架216h附接到壳体216。壳体216中的腔体216j(图2C)被配置为接收框架216h和电子设备212。框架216h被配置为承载多个换能器214(在图2B中分别识别为换能器214a-214f)。电子设备212(例如，图1C的电子设备112)被配置为从音频源接收音频内容，并向换能器214发送与音频内容相对应的电信号以进行回放。

换能器214被配置为从电子设备112接收电信号，并且还被配置为在回放期间将所接收到的电信号转换为可听声音。例如，换能器214a-214c(例如，高音扬声器)可以被配置为输出高频声音(例如，具有大于大约2kHz的频率的声波)。换能器214d-214f(例如，中低音扬声器、低音扬声器、中音扬声器)可以被配置为以低于换能器214a-214c的频率的频率输出声音(例如，具有低于大约2kHz的频率的声波)。在一些实施例中，回放设备210包括与图2A-图2C所示的换能器不同的多个换能器。例如，如下面参照图3A-3C进一步详细描述的，回放设备210可以包括少于六个换能器(例如，一个、两个、三个)。然而，在其他实施例中，回放设备210包括多于六个换能器(例如，九个、十个)。此外，在一些实施例中，换能器214的全部或一部分被配置为作为相控阵来操作，以期望地调整(例如，变窄或变宽)换能器214的辐射图，从而改变用户对从回放设备210发出的声音的感知。

在图2A-图2C的所示实施例中，滤波器216i与换能器214b轴向对准。滤波器216i可以被配置为期望地衰减换能器214b输出的预定频率范围，以改善声音质量和换能器214共同输出的感知声级。然而，在一些实施例中，回放设备210省略了滤波器216i。在其他实施例中，回放设备210包括与换能器214b和/或换能器214中的至少另一个对准的一个或多个附加滤波器。

图3A和图3B分别是根据所公开的技术的实施例配置的NMD 320的前等距侧视图和右等距侧视图。图3C是NMD 320的分解图。图3D是图3B的一部分的放大图，包括NMD 320的用户接口313。首先参照图3A-图3C，NMD 320包括壳体316，该壳体316包括上部316a、下部316b和中间部分316c(例如，格栅)。上部316a中的多个端口、洞或孔316d允许声音传递到位于壳体316内的一个或多个麦克风315(图3C)。一个或多个麦克风316被配置为经由孔316d接收声音，并基于所接收到的声音产生电信号。在所示实施例中，壳体316的框架316e(图3C)围绕腔体316f和316g，该腔体316f和316g被配置为分别容纳第一换能器314a(例如，高音扬声器)和第二换能器314b(例如，中低音扬声器、中音扬声器、低音扬声器)。然而，在其他实施例中，NMD 320包括单个换能器，或者两个以上(例如，两个、五个、六个)换能器。在某些实施例中，NMD 320完全省略了换能器314a和314b。

电子设备312(图3C)包括被配置为驱动换能器314a和314b并进一步被配置为分析与一个或多个麦克风315产生的电信号相对应的音频数据的组件。例如，在一些实施例中，电子设备312包括以上参照图1C描述的电子设备112的许多或所有组件。在某些实施例中，电子设备312包括以上参照图1F描述的组件，例如，一个或多个处理器112a、存储器112b、软件组件112c、网络接口112d等。在一些实施例中，电子设备312包括附加的合适的组件(例如，接近传感器或其他传感器)。

参照图3D，用户接口313包括多个控制表面(例如，按钮、旋钮、电容性表面)，该控制表面包括第一控制表面313a(例如，先前的控件)、第二控制表面313b(例如，下一个控件)和第三控制表面313c(例如，播放和/或暂停控制)。第四控制表面313d被配置为接收与一个或多个麦克风315的激活和停用相对应的触摸输入。第一指示器313e(例如，一个或多个发光二极管(LED)或另一种合适的照明器)可以被配置为仅在一个或多个麦克风315被激活时才照明。第二指示器313f(例如，一个或多个LED)可以被配置为在正常操作期间保持稳定，并且闪烁或以其他方式从稳定改变为指示对语音活动的检测。在一些实施例中，用户接口313包括附加的或更少的控制表面和照明器。在一个实施例中，例如，用户接口313包括第一指示器313e，省略了第二指示器313f。此外，在某些实施例中，NMD 320包括回放设备和控制设备，并且用户接口313包括控制设备的用户接口。

一起参照图3A-图3D，NMD 320被配置为经由一个或多个麦克风315从一个或多个相邻用户接收语音命令。如以上参照图1B所描述的，一个或多个麦克风315可以获取、捕捉或记录附近(例如，在NMD 320的10m或更小范围内的区域)的声音，并且向电子设备312发送与所记录的声音相对应的电信号。电子设备312可以处理电信号，并且可以分析所得的音频数据以确定存在一个或多个语音命令(例如，一个或多个激活词)。在一些实施例中，例如，在检测到一个或多个合适的语音命令之后，NMD 320被配置为向另一设备和/或远程服务器(例如，图1B的一个或多个计算设备106)发送所记录的音频数据的一部分以进行进一步分析。远程服务器可以分析音频数据，基于语音命令确定适当的动作，并向NMD 320发送消息以执行适当的动作。例如，用户可以说“Sonos，播放Michael Jackson”。NMD 320可以经由一个或多个麦克风315记录用户的语音发声，确定语音命令的存在，并且向远程服务器(例如，图1B的一个或多个远程计算设备106，VAS和/或另一种合适的服务的一个或多个服务器)发送具有语音命令的音频数据。远程服务器可以分析音频数据并确定与命令相对应的动作。然后，远程服务器可以向NMD 320发送命令以执行所确定的动作(例如，回放与MichaelJackson有关的音频内容)。NMD320可以接收命令并从媒体内容源回放与Michael Jackson相关的音频内容。如以上参照图1B所述，合适的内容源可以包括经由LAN(例如，图1B的网络104)、远程服务器(例如，图1B的一个或多个远程计算设备106)等通信地耦合到NMD320的设备或存储设备。然而，在某些实施例中，NMD 320确定和/或执行与一个或多个语音命令相对应的一个或多个动作，而无需外部设备、计算机或服务器的干预或介入。

图3E是示出了根据本公开的各方面的NMD 320的附加特征的功能框图。NMD 320包括被配置为促进语音命令捕捉的组件，包括：语音活动检测器组件312k、波束成形器组件312l、回声消除(AEC)和/或自声音抑制组件312m、激活词检测器组件312n和语音/话音转换组件312o(例如，语音到文本和文本到语音)。在图3E所示的实施例中，前述组件312k-312o被示出为分离的组件。然而，在一些实施例中，一个或多个组件312k-312o是处理器112a的子组件。如下所述，在一些实施例中，NMD 320可以包括被配置为检测与不同VAS相关联的多个不同激活词的激活词检测器组件312n。例如，激活词检测器组件312可以包括被配置为检测与第一VAS相关联的一个或多个激活词的第一激活词检测器和被配置为检测与第二VAS相关联的一个或多个激活词的第二激活词检测器。在至少一些实施例中，语音输入可以由这些激活词检测器中的一个或两者分别处理。在使用第一激活词检测器检测到第一激活词时，NMD 320可以例如通过在预定时间内停止向第二激活词检测器提供语音输入来抑制第二激活词检测器的操作。这可以有助于避免不同VAS之间的中断和串扰。

波束成形和自声音抑制组件312l和312m被配置为检测音频信号并确定所检测到的音频信号中表示的语音输入的各个方面，例如，方向、幅度、频谱等。语音活动检测器活动组件312k与波束成形和AEC组件312l和312m可操作地耦合，并且被配置为确定在所检测到的音频信号中很可能已经发生语音活动的一个或多个方向。可以通过监测将语音与其他声音区分开的度量来识别潜在的语音方向。这种度量可以包括例如相对于背景噪声的语音频带内的能量和该语音频带内的熵(其是频谱结构的测量)。如本领域普通技术人员将理解的，语音通常具有比大多数常见背景噪声更低的熵。

激活词检测器组件312n被配置为监测和分析所接收到的音频以确定在所接收到的音频中是否存在任何激活词(例如，唤醒词)。激活词检测器组件312n可以使用激活词检测算法来分析所接收到的音频。如果激活词检测器312n检测到激活词，则NMD 320可以处理所接收到的音频中包含的语音输入。示例激活词检测算法接受音频作为输入，并且提供在该音频中是否存在激活词的指示。许多第一方和第三方激活词检测算法是已知的并且可商购的。例如，语音服务的运营商可以使其算法可用于第三方设备。备选地，可以训练算法以检测某些激活词。在一些实施例中，激活词检测器312n在接收到音频同时(或基本同时)运行多个激活词检测算法。如上所述，不同的语音服务(例如，AMAZON的

语音/文本转换组件312o可以通过将语音输入中的语音转换为文本来促进处理。在一些实施例中，电子设备312可以包括针对与家庭相关联的特定用户或特定用户集合训练的语音识别软件。这样的语音识别软件可以实现被调谐到特定语音简档的语音处理算法。调谐到特定的语音简档可以需要比传统语音激活服务更少的计算密集型算法，传统语音激活服务通常从广泛的用户基础和不针对媒体回放系统的各种请求中进行采样。

图3F是根据本公开的各方面的由NMD 320捕捉的示例语音输入328的示意图。语音输入328可以包括激活词部分328a和语音发声部分328b。在一些实施例中，激活词557a可以是已知的激活词，例如，与AMAZON的

语音发声部分328b可以包括：例如，一个或多个口头命令(分别被识别为第一命令328c和第二命令328e)和一个或多个口头关键词(分别被识别为第一关键词328d和第二关键词328f)。在一个示例中，第一命令328c可以是播放音乐的命令，例如，特定的歌曲、专辑、播放列表等。在该示例中，关键词可以是识别要在其中播放音乐的一个或多个区(例如，图1A中所示的客厅和餐厅)的一个或多个单词。在一些示例中，语音发声部分328b可以包括其他信息，例如，所检测到的用户说出的单词之间的暂停(例如，非语音的时间段)，如图3F所示。该暂停可以在语音发声部分328b内标定用户说出的分开的命令、关键词或其他信息的位置。

在一些实施例中，媒体回放系统100被配置为在检测到激活词部分557a的同时临时减小其正在播放的音频内容的音量。媒体回放系统100可以在处理语音输入328之后恢复音量，如图3F所示。这样的过程可以被称为回避(ducking)，其示例在通过引用整体并入本文的美国专利申请No.15/438,749中公开。

图4A-图4D是控制设备430(例如，图1H的控制设备130a、智能电话、平板电脑、专用控制设备、IoT设备和/或另一种合适的设备)的示意图，示出了在各种操作状态下的相应的用户界面显示。第一用户界面显示431a(图4A)包括显示名称433a(即“房间”)。所选组区433b显示在所选组和/或地区中回放的音频内容的音频内容信息(例如，艺术家姓名、曲目名称、专辑封面)。组区433c和433d显示相应的组和/或地区名称，以及在相应组或地区的回放队列中回放的或下一个回放的音频内容的音频内容信息。音频内容区433e包括与所选组和/或地区(即，所选组区433b中指示的组和/或地区)中的音频内容有关的信息。下部显示区433f被配置为接收触摸输入以显示一个或多个其他用户界面显示。例如，如果用户在下部显示区433f中选择“浏览”，则控制设备430可以被配置为输出第二用户界面显示431b(图4B)，该第二用户界面显示431b包括多个音乐服务433g(例如，Spotify、Tunein电台、Apple音乐、Pandora、Amazon、TV、本地音乐、线路输入)，用户可以通过这些音乐服务浏览媒体内容，并且用户可以经由一个或多个回放设备(例如，图1A的回放设备110之一)从这些音乐服务中选择媒体内容以进行回放。备选地，如果用户在下部显示区433f中选择“我的Sonos”，则控制设备430可以被配置为输出第三用户界面显示431c(图4C)。第一媒体内容区433h可以包括与各个专辑、电台或播放列表相对应的图形表示(例如，专辑封面)。第二媒体内容区433i可以包括与各个歌曲、曲目或其他媒体内容相对应的图形表示(例如，专辑封面)。如果用户选择图形表示433j(图4C)，则控制设备430可以被配置为开始回放与图形表示433j相对应的音频内容，并输出第四用户界面显示431d，第四用户界面显示431d包括图形表示433j的放大版本、媒体内容信息433k(例如，曲目名称、艺术家、专辑)、传输控件433m(例如，播放、上一个、下一个、暂停、音量)以及对当前所选组和/或地区名称的指示433n。

图5是控制设备530(例如，膝上型计算机、台式计算机)的示意图。控制设备530包括换能器534、麦克风535和相机536。用户界面531包括传输控制区533a、回放状态区533b、回放地区区533c、回放队列区533d和媒体内容源区533e。传输控制区包括一个或多个用于控制媒体回放的控件，该控件包括例如音量、上一个、播放/暂停、下一个、重复、随机播放、曲目位置、淡入淡出、均衡等。音频内容源区533e包括一个或多个媒体内容源的列表，用户可以从该列表中选择媒体项目以用于回放和/或添加到回放队列。

回放地区区533b可以包括媒体回放系统100内的回放地区的表示(图1A和图1B)。在一些实施例中，回放地区的图形表示可以是可选择的，以调出附加的可选择图标来管理或配置媒体回放系统中的回放地区，例如，绑定地区的创建、地区组的创建、地区组的分离、地区组的重命名等。在所示的实施例中，可以在回放地区的每个图形表示内提供“分组”图标。在特定地区的图形表示内提供的“分组”图标可以是可选择的，以调出用于选择要与特定地区分在一组的媒体回放系统中的一个或多个其他地区的选项。一旦被分组，已经与特定地区分在一组的地区中的回放设备可以被配置为与该特定地区中的回放设备同步地播放音频内容。类似地，可以在地区组的图形表示内提供“分组”图标。在所示实施例中，“分组”图标可以是可选择的，以调出用于取消选择要从地区组中移除的该地区组中的一个或多个地区的选项。在一些实施例中，控制设备530包括用于经由用户界面531对地区进行分组和取消分组的其他交互作用和实现。在某些实施例中，当回放地区或地区组配置被修改时，可以动态地更新回放地区在回放地区区533b中的表示。

回放状态区533c包括在所选择的回放地区或地区组中当前正在播放、先前播放或被安排为接下来播放的音频内容的图形表示。可以在用户界面上(例如，在回放地区区533b和/或回放队列区533d内)可视地区分所选择的回放地区或地区组。图形表示可以包括曲目名称、艺术家姓名、专辑名称、专辑年份、曲目长度和其他相关信息，当用户经由用户界面531控制媒体回放系统时，用户了解这些信息可以是有用的。

回放队列区533d可以包括与所选择的回放地区或地区组相关联的回放队列中的音频内容的图形表示。在一些实施例中，每个回放地区或地区组可以与回放队列相关联，该回放队列包含与该回放地区或地区组回放的零个或多个音频项相对应的信息。例如，回放队列中的每个音频项可以包括统一资源标识符(URI)、统一资源定位符(URL)或一些其他标识符，其可以由回放地区或地区组中的回放设备用于从本地音频内容源或联网音频内容源查找和/或取回音频项，能够供回放设备回放。在一些实施例中，例如，可以将播放列表添加到回放队列，在这种情况下，可以将与播放列表中的每个音频项对应的信息添加到回放队列。在一些实施例中，回放队列中的音频项可以被保存为播放列表。在某些实施例中，当回放地区或地区组正在持续播放流传输音频内容(例如，互联网收音机，其可以持续播放直到被停止)，而不是具有回放持续时间的分立音频项时，回放队列可以为空的或被填充但“未使用”。在一些实施例中，回放队列可以包括互联网收音机和/或其他流传输音频内容项，并且当回放地区或地区组正在播放这些项时处于“使用中”。

当回放地区或地区组被“分组”或“取消分组”时，可以清除与受影响的回放地区或地区组相关联的回放队列，或者重新关联。例如，如果包括第一回放队列的第一回放地区与包括第二回放队列的第二回放地区被分在一组，则所建立的地区组可以具有相关联的回放队列(其最初是空的)，包含来自第一回放队列的音频项(例如，如果第二回放地区被添加到第一回放地区)，或包含来自第二回放队列的音频项(例如，如果第一回放地区被添加到第二回放地区)，或包含来自第一回放队列和第二回放队列二者的音频项的组合。随后，如果所建立的地区组被取消分组，则所得到的第一回放地区可以与先前的第一回放队列重新关联，或者与新的回放队列相关联，该新的回放队列是空的，或者包含与来自在所建立的地区组被取消分组之前所建立的地区组相关联的回放队列的音频项。类似地，所得到的第二回放地区可以与先前的第二回放队列重新关联，或者与新的回放队列相关联，该新的回放队列是空的，或者包含来自在与所建立的地区组被取消分组之前所建立的地区组相关联的回放队列的音频项。

图6是示出了媒体回放系统100(图1A-图1M)的设备之间的数据交换的消息流程图。

在步骤650a处，媒体回放系统100经由控制设备130a接收对所选媒体内容(例如，一个或多个歌曲、专辑、播放列表、播客、视频、电台)的指示。所选媒体内容可以包括例如本地存储在连接到媒体回放系统的一个或多个设备(例如，图1C的音频源105)上的媒体项目和/或存储在一个或多个媒体服务服务器(图1B的一个或多个远程计算设备106)上的媒体项目。响应于接收到对所选媒体内容的指示，控制设备130a向回放设备110a发送消息651a(图1A-1C)，以将所选媒体内容添加到回放设备110a上的回放队列。

在步骤650b处，回放设备110a接收消息651a，并将所选媒体内容添加到回放队列以进行回放。

在步骤650c处，控制设备130a接收与回放所选媒体内容的命令相对应的输入。响应于接收到与回放所选媒体内容的命令相对应的输入，控制设备130a向回放设备110a发送消息651b，使回放设备110a回放所选媒体内容。响应于接收到消息651b，回放设备110a向计算设备106a发送消息651c，以请求所选媒体内容。响应于接收到消息651c，计算设备106a发送消息651d，该消息651d包括与所请求的媒体内容相对应的数据(例如，音频数据、视频数据、URL、URI)。

在步骤650d处，回放设备110a接收具有与所请求的媒体内容相对应的数据的消息651d，并回放相关联的媒体内容。

在步骤650e处，回放设备110a可选地使一个或多个其他设备回放所选媒体内容。在一个示例中，回放设备110a是两个或更多个播放器的绑定地区之一(图1M)。回放设备110a可以接收所选媒体内容，并向绑定地区中的其他设备发送媒体内容的全部或一部分。在另一示例中，回放设备110a是组的协调器，并且被配置为从组中的一个或多个其他设备发送和接收定时信息。组中的其他一个或多个设备可以从计算设备106a接收所选媒体内容，并响应于来自回放设备110a的消息开始回放所选媒体内容，使得组中的所有设备同步回放所选媒体内容。

IV.用于管理多个VAS的示例系统和方法

如上所述，MPS 100可以被配置为与远程计算设备(例如，云服务器)通信，该远程计算设备与多个不同VAS相关联。尽管下文提供了若干个关于管理两个VAS之间的交互的示例，但在各种实施例中可以存在附加的VAS(例如，三个、四个、五个、六个或更多个VAS)，并且可以使用本文描述的方法来管理这些VAS之间的交互。在各种实施例中，响应于检测到特定激活词，NMD 120可以通过网络102向与第一VAS 190或第二VAS 191(图1B)相关联的远程计算设备发送语音输入。在一些实施例中，一个或多个NMD 120仅向与VAS相关联的远程计算设备发送语音输入328的语音发声部分328b(图3F)(而不是激活词部分328a)。在一些实施例中，一个或多个NMD 120向与VAS相关联的远程计算设备发送语音发声部分328b和激活词部分328a(图3F)两者。

图7是示出了MPS 100和远程计算设备之间的各种数据交换的消息流程图。媒体回放系统100在框701中经由网络麦克风设备捕捉语音输入，并在框703中检测语音输入中的激活词(例如，经由激活检测器组件312n(图3E))。一旦已经检测到特定激活词(框703)，MPS100就可以在框705中抑制其他激活词检测器。例如，如果在框703中在语音发声中检测到激活词“Alexa”，则MPS 100可以抑制第二激活词检测器的操作，该第二激活词检测器被配置为检测诸如“OK，Google”之类的唤醒词。这可以通过降低或消除在用户与第一VAS的主动对话会话期间第二VAS错误地检测其激活词的风险来降低不同VAS之间的串扰的可能性。这也可以通过消除将旨在用于一个VAS的用户语音输入发送到不同的VAS的可能性来保护用户隐私。

在一些实施例中，抑制第二激活词检测器的操作涉及：在预定的时间内停止向第二激活词检测器提供语音输入，或者直到用户与第一VAS的交互被认为完成为止(例如，自上次交互(来自第一VAS的文本到话音输出或到第一VAS的用户语音输入)后流逝预定时间之后)。在一些实施例中，对第二激活词检测器的抑制可以涉及：将第二激活词检测器断电至低功率或无功率状态达预定时间或直到用户与第一VAS的交互被认为完成。

在一些实施例中，第一激活词检测器即使在已经检测到第一激活词并且语音发声已经被发送到第一VAS之后也可以保持活动，使得用户可以说出第一激活词来中断当前输出或由第一VAS正在执行的其他活动。例如，如果用户要求Alexa阅读新闻简报，并且回放设备开始回放来自Alexa的文本到话音(TTS)响应，则用户可以通过说出激活词后跟新命令来中断。下面相对于图9提供了关于在激活词检测和来自VAS的内容回放之间进行仲裁的附加细节。

继续参照图7，在框707中，媒体回放系统100可以基于在框703中检测到的特定激活词来选择适当的VAS。如果选择了第二VAS 191，则媒体回放系统100可以向第二VAS 191发送包含语音输入的一个或多个消息(例如，数据包)以进行处理。在所示的消息流中，在框707中选择第一VAS 190。在进行该选择时，媒体回放系统100向第一VAS 190发送一个或多个包含语音发声(例如，图3F的语音发声328b)的消息709(例如，数据包)。媒体回放系统100可以向第一VAS 190同时发送其他信息和消息709。例如，如先前引用的美国专利申请No.15/438,749中所述，媒体回放系统100可以在元数据信道上发送数据。

第一VAS 190可以处理消息709中的语音输入以确定意图(框711)。基于该意图，第一VAS 190可以经由消息(例如，数据包)向媒体回放系统100发送内容713。在一些实例中，响应消息713可以包括有效载荷，该有效载荷指导媒体回放系统100的一个或多个设备执行指令。例如，该指令可以指导媒体回放系统100回放媒体内容、对设备分组和/或执行其他功能。附加地或备选地，例如在多回合命令的情况下，来自第一VAS 190的第一内容713可以包括带有对更多信息的请求的有效载荷。

在一些实施例中，当在从不同VAS接收到的内容之间进行仲裁时，第一内容713可以被分配到不同类别，这些类别被不同地对待。第一内容713的示例包括：(i)文本到话音(TTS)响应(例如，“当前为73度”以响应用户关于室外温度的查询)，(ii)警报和定时器(例如，用户设置的定时器、日历提醒等)，(iii)用户广播(例如，响应于用户指示Alexa“告诉所有人晚餐准备好了”，家庭中的所有回放设备都被指示回放“晚餐准备好了”)，以及(iv)其他媒体内容(例如，新闻简报、播客、流传输音乐等)。如本文所使用的，TTS响应可以包括实例，在该实例中，VAS提供对要经由回放设备回放的用户输入、查询、请求等的口头响应。在一些实施例中，从第一VAS 190接收到的第一内容713可以包括元数据、标签或其他关于内容类型的标识符(例如，将第一内容713识别为TTS、警报或定时器等的标签)。在其他实施例中，MPS 100可以检查第一内容713以另外确定第一内容713属于哪个类别。

在该过程中的任何时刻点，第二VAS 191可以经由消息(例如，数据包)向媒体回放系统100发送第二内容715。该第二内容715同样可以包括有效载荷，该有效载荷指示媒体回放系统100的一个或多个设备执行诸如回放媒体内容或执行其他功能之类的指令。第二内容715，与第一内容713一样，可以采用多种形式，包括TTS输出、警报或定时器、用户广播或其他媒体内容。尽管此处第二内容715被示为在流中的特定时间发送，但是在各种实施例中，可以较早(例如，在从第一VAS 190向MPS 100发送第一内容713之前)或稍后(例如，在MPS 100在框719中例如通过回放第一内容713已经输出响应之后)发送第二内容。在至少一些实施例中，在第一内容713的回放期间接收第二内容715。

在框717中，MPS 100在从第一VAS 190接收到的第一内容713和从第二VAS 191接收到的第二内容715之间进行仲裁。在仲裁之后，MPS 100可以在框719中输出响应。在第一内容和第二内容之间的仲裁期间执行的特定操作可以取决于第一内容和第二内容的特性、所选择的特定VAS、接收到第一内容和第二内容的相对时间以及其他因素。例如，在一些情况下，MPS 100可以在回放第一内容的同时抑制第二内容。如本文所使用的，抑制第二内容可以包括延迟第二内容的回放、暂停第二内容的回放(如果回放已经在进行中)和/或完全取消或停止第二内容的回放。在一些情况下，MPS 100可以在回放第二内容的同时抑制第一内容。在一些实施例中，抑制第一内容的回放可以包括在第二内容随第一内容同时回放时“回避”第一内容。

当在框717中在第一内容和第二内容之间进行仲裁时，MPS 100可以至少部分地依赖于从每个VAS接收到的内容类别(例如，TTS输出、警报或定时器、用户广播或其他媒体内容)来确定应如何处理回放。下面提供了各种示例，其中，MPS 100例如通过确定回放哪些内容和抑制哪些内容，以及是否排队、回避或取消被抑制的内容等，在第一内容713和第二内容715之间进行仲裁。

在一个示例中，第一内容713是TTS响应、警报或定时器、或用户广播，而第二内容715是定时器或警报。在这种情况下，第二内容715(定时器或警报)可以中断和取消第一内容713或使其排队。这允许用户的预设警报或定时器以在他们指定的时间得到遵守，而不管当前正在回放的内容如何。

在另一示例中，第一内容713是TTS响应、警报或定时器、或用户广播，而第二内容715是用户广播。在这种情况下，第二内容715(用户广播)进行排队直到第一内容被回放为止，而不抑制或以其他方式中断第一内容。这反映了以下的确定：在单个家庭中，一个用户的广播中断其他内容的回放(例如，另一用户与VAS的主动对话会话)可能是不期望的。

在附加示例中，第一内容713可以是流传输媒体(例如，音乐、播客等)，而第二内容715可以是TTS响应、定时器或警报、或用户广播。在这种情况下，在回放第二内容715的同时，第一内容713可以被暂停或“回避”。在第二内容715的回放完成之后，第一内容713可以被取消回避或取消暂停，并且可以继续正常回放。

在又一示例中，第一内容713是其他媒体，例如，播客、流传输媒体音乐等，并且第二内容715也属于同一类别，例如，另一播客。在这种情况下，第二内容715可以替换第一内容713，并且第一内容713可以被完全删除或取消。这反映了以下的假设：用户希望经由第二VAS 191用新的选择覆盖其先前对流传输内容的选择。

在又一示例中，第一内容713是警报或定时器，而第二内容715是在警报或定时器的回放期间接收到的TTS响应。此处，可以抑制第一内容713(警报或定时器)并且可以回放第二内容。在这种情况下，在与VAS的介入对话会话结束之后，已经听到定时器或警报的一部分的用户可能不希望警报或定时器恢复。

作为其他示例，第一内容713可以是用户广播，而第二内容715可以是TTS输出、另一用户广播、或者警报或定时器。此处，在回放第二内容715(TTS输出、警报或定时器、或其他用户广播)的同时，可以抑制(例如，排队或取消)第一内容713。

尽管以上示例描述了由MPS 100做出的可选仲裁确定，但是取决于所期望的MPS100的操作，各种其他配置和确定也是可能的。例如，在一些实施例中，MPS 100可以允许在任何其他当前回放的内容上回放任何用户广播，而在另一实施例中，MPS 100可以抑制用户广播的回放，直到其他媒体的回放已经完成为止。在各种实施例中，MPS 100可以基于内容的类型、其他内容特性(例如，回放长度)、在MPS 100处接收到相应内容的时间、特定用户设置或偏好、或任何其他因素来在允许第一内容的回放的同时抑制第二内容的回放(或反之亦然)。

在框719中，MPS 100例如通过回放经由框717中的仲裁确定的所选内容输出响应。如上所述，这可以包括在抑制(例如，取消或排队)第二内容715的回放的同时回放第一内容713，或者备选地，这可以包括在抑制(例如，取消、排队或回避)第一内容713的回放的同时回放第二内容715。在一些实施例中，从第一VAS 190发送的第一内容713可以指示媒体回放系统100从媒体服务192请求媒体内容，例如，音频内容。在其他实施例中，MPS 100可以从第一VAS 190独立地请求内容。在任一情况下，MPS 100可以例如经由包括例如音频内容的媒体流721来交换用于接收内容的消息。

在框723中，可以重新启用其他激活词检测器。例如，MPS 100可以在预定时间之后或在用户与第一VAS 190的交互被认为完成之后(例如，自上次交互(来自第一VAS的或到第一VAS的用户语音输入)后流逝预定时间之后)恢复向其他激活词检测器提供语音输入。一旦其他激活词检测器被重新启用，用户可以通过说出适当的激活词或短语来发起与任何可用VAS的交互。

图8是用于管理回放设备和多个VAS之间的交互的示例方法800。方法800的各种实施例包括框802至812所示的一个或多个操作、功能和动作。尽管顺序地示出了这些框，但是这些框也可以并行执行和/或以与本文公开和描述的顺序不同的顺序执行。而且，各个框可以基于期望的实现方式被组合成更少的框、被划分成附加的框和/或被移除。

方法800开始于框802，其涉及回放设备经由如上所述的一个或多个麦克风捕捉音频输入。音频输入可以包括语音输入，例如，图3F中描绘的语音输入328。

在框804处，方法800涉及回放设备使用第一激活词检测器(例如，图3E的激活词检测器组件312n)来检测音频输入中的激活词。在一些实施例中，激活词可以是以下各项中的一项或多项：(i)对应于AMAZON语音服务的激活词“Alexa”；(ii)对应于GOOGLE语音服务的激活词“Ok，Google”；或(iii)对应于APPLE语音服务的激活词“Hey，Siri”。

响应于在框804中检测到音频输入中的第一激活词，回放设备在框806中向与第一激活词相关联的第一VAS发送音频输入的语音发声。例如，如果在框804中检测到的激活词是“Alexa”，则在框806中，回放设备向与AMAZON语音服务相关联的一个或多个远程计算设备发送语音发声。如前所述，在一些实施例中，回放设备仅向与第一VAS相关联的远程计算设备发送语音输入328的语音发声部分328b(图3F)(而不是激活词部分328a)。在一些实施例中，回放设备向与第一VAS相关联的远程计算设备发送语音发声部分328b和激活词部分328a(图3F)两者。

在框808中，回放设备从第一VAS接收第一内容，并且在框810中，回放设备从第二、不同的VAS接收第二内容。在框810中，回放设备在第一内容和第二内容之间进行仲裁。如以上参照图7所述，该仲裁可以至少部分地取决于每个内容的类别，例如(i)TTS响应，(ii)警报或定时器，(iii)用户广播，以及(iv)其他媒体内容(例如，新闻简报、播客、流传输音乐等)。在一些实施例中，警报或定时器可以中断任何其他活动回放，无论是TTS响应、另一警报或定时器、用户广播还是其他媒体内容。在一些实施例中，用户公告不中断TTS响应、警报或定时器、或另一用户公告，而是被排队为在第一内容已经被完全回放之后进行回放。如上所述，用于仲裁的各种其他规则和配置可用于管理从两个或更多个VAS接收到的内容以增强用户体验。

在框812中仲裁的一个结果中，方法800在框814中在抑制第二内容的同时继续回放第一内容。这种抑制可以采取以下的形式：延迟第二内容的回放直到已经回放第一内容之后为止，或者完全取消第二内容的回放。

在框812中仲裁的备选结果中，该方法在框816中继续以第二内容的回放中断第一内容的回放。被中断的第一内容可以被完全取消，也可以进行排队以在第一内容被全部回放后进行稍后的回放。在一些实施例中，在回放第二内容的同时“回避”第一回放。当第二内容已经被完全回放之后，可以“取消回避”第一内容。

图9是用于在来自语音助手服务(VAS)的内容回放期间管理激活词检测的示例方法900。方法900的各种实施例包括框902至918所示的一个或多个操作、功能和动作。尽管顺序地示出了这些框，但是这些框也可以并行执行和/或以与本文公开和描述的顺序不同的顺序执行。而且，各个框可以基于期望的实现方式被组合成更少的框、被划分成附加的框和/或被移除。

方法900开始于框902，从第一VAS接收第一内容，并且在框904中，回放设备回放第一内容。在各种实施例中，第一内容可以是警报或定时器、用户广播、TTS输出、或其他媒体内容。

在框906处，回放设备经由如上所述的一个或多个麦克风捕捉音频输入。音频输入可以包括语音输入，例如，图3F中描绘的语音输入328。

在框908处，回放设备在所捕捉到的音频输入和来自第一VAS的第一内容的回放之间进行仲裁。例如，回放设备可以允许在语音输入中检测到的激活词中断第一设备的回放，或者回放设备可以抑制激活词检测器的操作以便不中断第一内容的回放。该仲裁可以取决于提供第一内容的VAS的标识，以及与潜在激活词相关联的VAS。该仲裁还可以取决于正在回放的内容的类别，例如，警报/定时器、用户广播、TTS输出或其他媒体内容。

在一个示例中，如果第一内容是从第一VAS输出的TTS，则回放设备可以抑制与任何其他VAS相关联的任何激活词检测器的操作，同时仍然允许与第一VAS相关联的激活词检测器的操作。因此，从Alexa接收TTS输出的用户可以通过说出激活词“Alexa”来中断输出，但是说出激活词“OK Google”将不会中断从Alexa输出的TTS的回放。

在另一示例中，如果第一内容是用户广播，则回放设备可以在回放期间继续监测激活词的音频输入。如果检测到任何VAS的激活词，则可以在用户与所选VAS交互的同时取消用户广播或让其排队。在一些实施例中，无论哪个VAS指示广播以及哪个VAS与所检测到的激活词相关联，都允许用户广播的这种中断。

在又一示例中，如果第一内容是警报或定时器，则回放设备可以在回放期间继续监测激活词的音频输入。如果检测到激活词，则可以在用户与所选VAS交互的同时取消定时器或警报或者使其排队。在一些实施例中，无论哪个VAS指示定时器或警报以及哪个VAS与所检测到的激活词相关联，都允许定时器或警报的这种中断。

用于在来自第一VAS的内容回放和监测所捕捉到的第一VAS和/或任何附加VAS的潜在激活词的音频之间进行仲裁的各种其他规则和配置是可能的。例如，如果说出与优选VAS相关联的激活词，则回放设备可以允许用户中断无论任何内容，同时说出与非优选VAS相关联的激活词可能仅中断某些内容。

作为框908中仲裁之后的一个结果，在框910中，回放设备在第一内容的回放期间抑制激活词检测器。可以通过停止向激活词检测器提供所捕捉到的音频输入或通过以其他方式使激活词检测器暂停对潜在激活词的音频输入的评估来抑制激活词检测器。在这种情况下，即使使用激活词，也不允许用户中断第一内容的回放。

在框908中仲裁之后的备选结果中，在框912中，回放设备例如通过向回放设备的激活词检测器提供音频输入来启用激活词检测器。在框914，方法900涉及回放设备使用激活词检测器(例如，图3E的激活词检测器组件312n)来检测音频输入中的激活词。在一些实施例中，激活词可以是以下各项中的一项或多项：(i)对应于AMAZON语音服务的激活词“Alexa”；(ii)对应于GOOGLE语音服务的激活词“Ok，Google”；或(iii)对应于APPLE语音服务的激活词“Hey，Siri”。

响应于在框914中检测到音频输入中的第一激活词，回放设备在框916中中断第一内容的回放。代替该内容，可以在用户和与框914中检测到的激活词相关联的VAS之间进行主动对话或其他交互。在一些实施例中，中断可以包括取消第一内容的回放或让其排队。在一些实施例中，第一内容的中断可以包括在用户和与框914中检测到的激活词相关联的VAS交互时“回避”第一内容。

V.结论

以上关于回放设备、控制器设备、回放地区配置、语音助手服务和媒体内容源的讨论仅提供了操作环境的一些示例，在该操作环境中可以实现下面描述的功能和方法。本文未明确描述的媒体回放系统、回放设备和网络设备的配置和其他操作环境也可以适用且适于功能和方法的实现。

以上描述尤其公开了各种示例系统、方法、装置和尤其包括在硬件上执行的固件和/或软件的制品。应当理解的是，这些示例仅是示意性的，而不应当被认为是限制性的。例如，可以想到，这些固件、硬件和/或软件方面或组件中的任意一个或全部可以专门在硬件中实现、专门在软件中实现、专门在固件中实现、或在硬件、软件和/或固件的任意组合中实现。因此，所提供的示例不是实现这些系统、方法、装置和/或制品的唯一方式。

此外，本文对“实施例”的提及意味着结合实施例描述的特定特征、结构或特性可以包括在本发明的至少一个示例性实施例中。在说明书中各处出现该短语不一定都指代相同的实施例，也不是与其他实施例互斥的分离的或备选的实施例。因此，本领域技术人员应当显式地和隐式地理解的是，本文所描述的实施例可以与其他实施例组合。

主要在说明性的环境、系统、过程、步骤、逻辑块、处理以及直接或间接地与耦合到网络的数据处理设备的操作相类似的其他象征性表示的方面上，提出本说明书。本领域技术人员通常使用这些处理描述和表示，以向本领域技术人员的其他技术人员传播他们的工作内容。阐述了各种具体细节，以提供本公开的透彻理解。然而，本领域技术人员应理解，不需要特定、具体细节就可以实施本公开。在其他实例中，没有描述熟知的方法、过程、组件和电路，以避免不必要地使实施例的方面模糊不清。因此，本公开的范围由所附权利要求而不是前述实施例的描述来界定。

当所附权利要求中的任一项权利要求被理解成涵盖纯软件和/或固件实现时，在此明确限定至少一个示例中的至少一个元素以包括存储软件和/或固件的非暂时性有形介质，如存储器、DVD、CD、蓝光等。

例如，根据以下所述的各个方面示出了本技术。为了方便起见，将本技术各方面的各种示例描述为编号示例(1、2、3等)。这些仅作为示例提供，并不限制本技术。请注意，任何从属示例可以以任何组合被组合，并且被放置在相应的独立示例中。可以以类似的方式呈现其他示例。

示例1：一种方法，包括：经由回放设备的一个或多个麦克风接收音频输入；经由所述回放设备的第一激活词检测器在所述音频输入中检测第一激活词；在检测到所述第一激活词之后，经由所述回放设备向第一语音助手服务(VAS)发送所述音频输入的语音发声；从所述第一VAS接收要经由所述回放设备回放的第一内容；从不同于所述第一VAS的第二VAS接收要经由所述回放设备回放的第二内容；以及在抑制所述第二内容的回放的同时，经由所述回放设备回放所述第一内容。

示例2：根据示例1所述的方法，还包括：监测所述第一激活词的所述音频输入，所述第一激活词与所述第一VAS相关联；监测第二激活词的所述音频输入，所述第二激活词与所述第二VAS相关联；响应于在所述音频输入中检测到所述第一激活词，抑制对所述第二激活词的所述音频输入的监测。

示例3：根据示例2所述的方法，还包括：在抑制对所述第二激活词的所述音频输入的监测之后，在回放所述第一内容之后恢复对所述第二激活词的所述音频输入的监测。

示例4：根据示例2所述的方法，还包括：在回放所述第一内容后流逝预定时间之后，恢复对所述第二激活词的所述音频输入的监测。

示例5：根据示例1所述的方法，其中，所述第一内容包括文本到话音输出，并且其中，所述第二内容包括以下各项中的至少一项：警报、用户广播或文本到话音输出。

示例6：根据示例1所述的方法，其中，抑制所述第二内容的回放包括取消所述第二内容的回放。

示例7：根据示例1所述的方法，其中，抑制所述第二内容的回放包括延迟所述第二内容的回放。

示例8：一种回放设备，包括：一个或多个处理器；一个或多个麦克风；一个或多个扬声器；以及一种有形的、非暂时性的计算机可读介质，其存储指令，所述指令可由所述一个或多个处理器执行，以使所述回放设备执行包括以下各项的操作：经由所述一个或多个麦克风接收音频输入；经由所述回放设备的第一激活词检测器在所述音频输入中检测第一激活词；在检测到所述第一激活词之后，经由所述回放设备向第一语音助手服务(VAS)发送所述音频输入的语音发声；从所述第一VAS接收要经由所述回放设备回放的第一内容；从不同于所述第一VAS的第二VAS接收要经由所述回放设备回放的第二内容；以及在抑制所述第二内容的回放的同时，经由所述回放设备回放所述第一内容。

示例9：根据示例8所述的回放设备，其中，所述操作还包括：监测所述第一激活词的所述音频输入，所述第一激活词与所述第一VAS相关联；监测第二激活词的所述音频输入，所述第二激活词与所述第二VAS相关联；响应于在所述音频输入中检测到所述第一激活词，抑制对所述第二激活词的所述音频输入的监测。

示例10：根据示例9所述的回放设备，其中，所述操作还包括：在抑制对所述第二激活词的所述音频输入的监测之后，在回放所述第一内容之后恢复对所述第二激活词的所述音频输入的监测。

示例11：根据示例9所述的回放设备，其中，所述操作还包括：在回放所述第一内容后流逝预定时间之后，恢复对所述第二激活词的所述音频输入的监测。

示例12：根据示例8所述的回放设备，其中，所述第一内容包括文本到话音输出，并且其中，所述第二内容包括以下各项中的至少一项：警报、用户广播或文本到话音输出。

示例13：根据示例8所述的回放设备，其中，抑制所述第二内容的回放包括取消所述第二内容的回放。

示例14：根据示例8所述的回放设备，其中，抑制所述第二内容的回放包括延迟所述第二内容的回放。

示例15：一种有形的、非暂时性的计算机可读介质，其存储指令，所述指令可由所述一个或多个处理器执行，以使回放设备执行包括以下各项的操作：经由所述回放设备的一个或多个麦克风接收音频输入；经由所述回放设备的第一激活词检测器在所述音频输入中检测第一激活词；在检测到所述第一激活词之后，经由所述回放设备向第一语音助手服务(VAS)发送所述音频输入的语音发声；从所述第一VAS接收要经由所述回放设备回放的第一内容；从不同于所述第一VAS的第二VAS接收要经由所述回放设备回放的第二内容；以及在抑制所述第二内容的回放的同时，经由所述回放设备回放所述第一内容。

示例16：根据权利要求15所述的有形的、非暂时性的计算机可读介质，其中，所述操作还包括：监测所述第一激活词的所述音频输入，所述第一激活词与所述第一VAS相关联；监测第二激活词的所述音频输入，所述第二激活词与所述第二VAS相关联；响应于在所述音频输入中检测到所述第一激活词，抑制对所述第二激活词的所述音频输入的监测。

示例17：根据示例16所述的有形的、非暂时性的计算机可读介质，其中，所述操作还包括：在抑制对所述第二激活词的所述音频输入的监测之后，在回放所述第一内容之后恢复对所述第二激活词的所述音频输入的监测。

示例18：根据示例16所述的有形的、非暂时性的计算机可读介质，其中，所述操作还包括：在回放所述第一内容后流逝预定时间之后，恢复对所述第二激活词的所述音频输入的监测。

示例19：根据示例15所述的有形的、非暂时性的计算机可读介质，其中，所述第一内容包括文本到话音输出，并且其中，所述第二内容包括以下各项中的至少一项：警报、用户广播或文本到话音输出。

示例20：根据权利要求15所述的有形的、非暂时性的计算机可读介质，其中，抑制所述第二内容的回放包括以下各项中的一项：取消所述第二内容的回放或延迟所述第二内容的回放。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：瑞安·理查德·迈尔斯;路易斯·R·维加萨亚斯;桑加·帕克;
专利申请人：搜诺思公司;