掌桥专利:专业的专利平台
掌桥专利
首页

用于使用声音信号传输数据的方法和设备

文献发布时间:2023-06-19 11:55:48


用于使用声音信号传输数据的方法和设备

相关申请的交叉引用

本申请要求于2018年10月2日提交的美国专利申请No.16/150,060的优先权,其全部内容通过引用并入本文。

技术领域

本公开涉及消费者产品,更具体地,涉及与媒体回放或者其某个方面有关的方法、系统、产品、特征、服务和其他元素。

背景技术

在外放设置下访问和收听数字音频的选项受到限制,直到2002年SONOS公司开始开发新型回放系统。然后,Sonos于2003年提交了题为“Method for Synchronizing AudioPlayback between Multiple Networked Devices”的其首批专利申请之一,并于2005年开始提供其首批媒体回放系统以供销售。Sonos无线家庭音响系统使人们可以经由一个或多个联网回放设备体验来自许多源的音乐。通过安装在控制器(例如,智能手机、平板电脑、计算机、语音输入设备)上的软件控制应用,人们可以在具有联网的回放设备的任何房间中播放自己想要的内容。媒体内容(例如,歌曲、播客、视频声音)可以被流传输到回放设备,使得具有回放设备的每个房间可以回放对应的不同媒体内容。另外,可以将房间分组在一起以同步回放相同的媒体内容,和/或可以在所有房间中同步收听相同的媒体内容。

附图说明

结合下面列出的以下描述、所附权利要求和附图,可以更好地理解当前公开的技术的特征、方面和优点。相关领域的技术人员将理解,附图中所示的特征是出于说明的目的,并且包括不同和/或附加特征及其布置的变型是可能的。

图1A是具有根据所公开技术的方面配置的媒体回放系统的环境的局部剖视图。

图1B是图1A的媒体回放系统和一个或多个网络的示意图。

图1C是回放设备的框图。

图1D是回放设备的框图。

图1E是网络麦克风设备的框图。

图1F是网络麦克风设备的框图。

图1G是回放设备的框图。

图1H是控制设备的局部示意图。

图1-I至图1L是相应的媒体回放系统地区的示意图。

图1M是媒体回放系统区域的示意图。

图2A是根据所公开的技术的各方面配置的回放设备的前等距视图。

图2B是没有格栅的图3A的回放设备的前等距视图。

图2C是图2A的回放设备的分解图。

图3A是根据所公开的技术的各方面配置的网络麦克风设备的前视图。

图3B是图3A的网络麦克风设备的侧等距视图。

图3C是图3A和图3B的网络麦克风设备的分解图。

图3D是图3B的部分的放大图。

图3E是图3A-图3D的网络麦克风设备的框图。

图3F是示例语音输入的示意图。

图4是回放设备被布置为使用声音信号发送数据的环境的示意图。

图5是使用声音信号发送数据的方法的流程图。

图6是示例16-QAM调制方案的星座图(constellation diagram)。

图7是使用声音信号接收数据的方法的流程图。

图8示出了使用图5的方法发送的示例所接收到的声音的波形。

图9示出了来自图8的解调后的声音信号波形的同相和正交分量。

图10是在设置过程期间回放设备之间的数据传输的示意图。

附图是出于说明示例实施例的目的,但是本领域普通技术人员将理解,本文公开的技术不限于附图中所示的布置和/或工具。

具体实施方式

I.概述

本文描述的实施例涉及使用声音信号的数据传输,并且涉及提高可以发送此类数据的可靠性和/或鲁棒性。当声音信号使用被设计为发送声音信号作为其主要目的的硬件来发送数据时,这可以是有益的。

在一些实施例中,例如,方法包括:将数据块编码为要发送的多个符号;将这些符号调制到声载波信号上;以及发送调制数据。发送调制数据涉及:在第一持续时间内发送一部分调制数据;在第二持续时间内暂停发送;以及对调制数据的其他部分重复发送和暂停。

通过在传输中包括暂停,可以使得使用音频换能器的数据传输更可靠或更鲁棒。已经发现,当用于数据传输而不是音频传输时,音频换能器可能会过热或以其他方式不能最佳地执行。传输中的暂停减少这种影响,并且可以提高传输数据的质量。

在一些实施例中,方法包括通过麦克风接收声音,所接收到的声音包括在间歇性声载波信号上调制的数据块。该方法包括对所接收到的信号进行采样以生成采样数据流,以及对采样数据流进行解调。对采样数据流进行解调涉及:对采样数据流中与存在间歇性声载波信号的第一持续时间相对应的部分进行解调;忽略采样数据流中与不存在间歇性声载波信号的第二持续时间相对应的部分;以及重复解调和忽略的步骤以对采样数据流的其他部分进行解调。

在一些实施例中,在发送设备和接收设备之间传输数据的方法包括:发送设备将数据块编码为要发送的多个符号;将这些符号调制为声载波信号;以及发送调制数据。发送调制数据涉及:在第一持续时间内发送一部分调制数据;在第二持续时间内暂停发送;以及对调制数据的其他部分重复发送和暂停。该方法还包括:接收设备使用麦克风来接收所发送的数据以生成接收信号;对接收信号进行采样以生成采样数据流;以及对采样数据流进行解调。对采样数据流进行解调涉及:对采样数据流中与第一持续时间相对应的部分进行解调;忽略采样数据流中与第二持续时间相对应的部分;以及重复解调和忽略的步骤以对采样数据流的其他部分进行解调。

在一些实施例中,回放设备包括:用于生成音频信号的电声换能器;包括程序代码的非暂时性存储设备;以及处理系统。程序代码在由处理系统执行时,使回放设备将要发送的数据块编码为要发送的多个符号,将这些符号调制到声载波信号上以生成调制数据,并使用电声换能器发送调制数据。发送调制数据涉及:在第一持续时间内发送调制数据的一部分;在第二持续时间内暂停发送;以及对调制数据的其他部分重复发送和暂停。

在一些实施例中,设备包括:麦克风,被配置为接收声音信号;非暂时性存储设备,包括程序代码;以及处理系统。程序代码在由处理系统执行时,使设备对由麦克风接收到的声音进行采样,以生成采样数据流,该采样数据流包括在间歇性声载波信号上调制的数据块。然后,程序代码使设备通过以下步骤来对采样数据流进行解调:对采样数据流中与存在间歇性声载波信号的第一持续时间相对应的部分进行解调;忽略采样数据流中与不存在间歇性声载波信号的第二持续时间相对应的部分;以及重复解调和丢弃的步骤以对采样数据流的其他部分进行解调。

在一些实施例中,系统包括一个或多个回放设备和接收设备。一个或多个回放设备中的每一个包括:用于生成音频信号的电声换能器;包括程序代码的非暂时性存储设备;以及处理系统。程序代码在由处理系统执行时,使回放设备将要发送的数据块编码为要发送的多个符号,将这些符号调制到声载波信号上以生成调制数据,并使用电声换能器发送调制数据。发送调制数据涉及:在第一持续时间内发送调制数据的一部分;在第二持续时间内暂停发送;以及对调制数据的其他部分重复发送和暂停。接收设备包括:麦克风,被配置为接收声音信号;非暂时性存储设备,包括程序代码;以及处理系统。程序代码在由处理系统执行时,使接收设备使用麦克风接收由一个或多个回放设备发送的数据以生成接收信号,对接收信号进行采样以生成采样数据流,并对采样数据流进行解调。对采样数据流进行解调涉及:对采样数据流中与第一持续时间相对应的部分进行解调;忽略采样数据流中与第二持续时间相对应的部分;以及重复解调和忽略的步骤以对采样数据流的其他部分进行解调。

虽然本文描述的一些示例可以涉及由给定行动者(例如,“用户”、“收听者”和/或其他实体)执行的功能,但是应该理解,这仅仅出于解释的目的。除非权利要求本身的语言明确要求,否则不应将权利要求解释为要求任何此类示例行动者进行动作。

在附图中,相同的附图标记识别大致类似和/或相同的元件。为了促进对任何特定元件的讨论,参考数字中的一个或多个最高有效位指的是首次引入该元件的附图。例如,首先参照图1A介绍和讨论元件110a。图中所示的许多细节、尺寸、角度和其他特征仅是所公开技术的特定实施例的说明。因此,在不脱离本公开的精神或范围的情况下,其他实施例可以具有其他细节、尺寸、角度和特征。另外,本领域普通技术人员将理解,可以在没有以下描述的若干个细节的情况下实践各种公开的技术的其他实施例。

II.合适的操作环境

图1A是分布在环境101(例如,房屋)中的媒体回放系统100的局部剖视图。媒体回放系统100包括一个或多个回放设备110(分别被识别为回放设备110a-110n)、一个或多个网络麦克风设备(“NMD”)120(分别被识别为NMD 120a-120c)以及一个或多个控制设备130(分别被识别为控制设备130a和130b)。

如本文所使用的,术语“回放设备”通常可以指代被配置为接收、处理和输出媒体回放系统的数据的网络设备。例如,回放设备可以是接收和处理音频内容的网络设备。在一些实施例中,回放设备包括由一个或多个放大器供电的一个或多个换能器或扬声器。然而,在其他实施例中,回放设备包括扬声器和放大器之一(或任意一个都不包括)。例如,回放设备可以包括一个或多个放大器,该一个或多个放大器被配置为经由相应的电线或电缆来驱动回放设备外部的一个或多个扬声器。

此外,如本文中所使用的,术语NMD(即,“网络麦克风设备”)通常可以指代被配置用于音频检测的网络设备。在一些实施例中,NMD是主要配置用于音频检测的独立设备。在其他实施例中,NMD被合并到回放设备中(反之亦然)。

术语“控制设备”通常可以指代网络设备,该网络设备被配置为执行与促进用户对媒体回放系统100进行访问、控制和配置相关的功能。

回放设备110中的每一个被配置为从一个或多个媒体源(例如,一个或多个远程服务器、一个或多个本地设备)接收音频信号或数据,并且回放所接收到的音频信号或数据作为声音。一个或多个NMD 120被配置为接收口语命令,并且一个或多个控制设备130被配置为接收用户输入。响应于所接收到的口语命令和/或用户输入,媒体回放系统100可以经由一个或多个回放设备110回放音频。在某些实施例中,回放设备110被配置为响应于触发而开始媒体内容的回放。例如,一个或多个回放设备110可以被配置为在检测到相关联的触发条件(例如,用户在厨房中的存在、检测咖啡机操作)时回放早晨的播放列表。在一些实施例中,例如,媒体回放系统100被配置为与第二回放设备(例如,回放设备100b)同步地回放来自第一回放设备(例如,回放设备100a)的音频。下面参照图1B-图1M更详细地描述根据本公开的各种实施例配置的媒体回放系统100的回放设备110、NMD 120和/或控制设备130之间的交互。

在图1A所示的实施例中,环境101包括具有多个房间、空间和/或回放地区的家庭,包括(从左上方开始的顺时针方向)主浴室101a、主卧室101b、第二卧室101c、家庭房或书房101d、办公室101e、客厅101f、餐厅101g、厨房101h和室外庭院101i。尽管下文在家居环境的上下文中描述了某些实施例和示例,但是本文所述的技术可以在其他类型的环境中实现。在一些实施例中,例如,媒体回放系统100可以在一个或多个商业设置(例如,餐厅、购物中心、机场、酒店、零售店或其他商店)、一个或多个交通工具(例如,运动型多功能车、巴士、汽车、轮船、小船、飞机)、多个环境(例如,家庭和交通工具环境的组合)和/或可能需要多地区音频的其他合适环境中实现。

媒体回放系统100可以包括一个或多个回放地区,其中一些可以对应于环境101中的房间。媒体回放系统100可以建立有一个或多个回放地区,其后可以添加或移除附加地区,以形成例如图1A所示的配置。每个区可以根据不同的房间或空间(例如,办公室101e、主浴室101a、主卧室101b、第二卧室101c、厨房101h、餐厅101g、客厅101f和/或阳台101i)被赋予名称。在一些方面,单个回放地区可以包括多个房间或空间。在某些方面,单个房间或空间可以包括多个回放地区。

在图1A所示的实施例中,主浴室101a、第二卧室101c、办公室101e、客厅101f、餐厅101g、厨房101h和室外庭院101i均包括一个回放设备110,并且主卧室101b和书房101d包括多个回放设备110。在主卧室101b中,回放设备110l和110m可以被配置为例如与回放设备110中的各个回放设备、绑定的回放地区、合并的回放设备和/或其任何组合同步地回放音频内容。类似地,在书房101d中,回放设备110h-110j可以被配置为例如与回放设备110中的各个回放设备、一个或多个绑定的回放设备和/或一个或多个合并的回放设备同步地回放音频内容。下面参照图1B、图1E以及图1I-图1M描述了关于绑定和合并的回放设备的附加细节。

在一些方面,环境101中的一个或多个回放地区均可以播放不同的音频内容。例如,用户可能正在庭院101i烧烤并收听由回放设备110c播放的嘻哈音乐,而另一用户正在厨房101h中准备食物并收听由回放设备110b播放的古典音乐。在另一示例中,回放地区可以与另一个回放地区同步地播放相同的音频内容。例如,用户可以正在办公室101e中收听回放设备110f播放与由庭院101i上的回放设备110c回放的嘻哈音乐相同的音乐。在一些方面,回放设备110c和110f同步地回放嘻哈音乐,使得用户感觉到音频内容在不同回放地区之间移动时被无缝地(或至少基本上无缝地)播放。关于回放设备和/或地区之间的音频回放同步的附加细节可以在例如题为“System and method for synchronizing operationsamong a plurality of independently clocked digital data processing devices”的美国专利No.8,234,395中找到,其全部内容通过引用并入本文。

a.

图1B是媒体回放系统100和云网络102的示意图。为了便于说明,从图1B中省略了媒体回放系统100和云网络102的某些设备。一个或多个通信链路103(以下称为“链路103”)将媒体回放系统100和云网络102通信地耦合。

链路103可以包括例如一个或多个有线网络、一个或多个无线网络、一个或多个广域网(WAN)、一个或多个局域网(LAN)、一个或多个个域网(PAN)、一个或多个电信网络(例如,一个或多个全球移动系统(GSM)网络、码分多址(CDMA)网络、长期演进(LTE)网络、5G通信网络网络和/或其他合适的数据传输协议网络)等。云网络102被配置为响应于经由链路103从媒体回放系统100发送的请求,将媒体内容(例如,音频内容、视频内容、照片、社交媒体内容)传递到媒体回放系统100。在一些实施例中,云网络102还被配置为从媒体回放系统100接收数据(例如,语音输入数据),并且相应地向媒体回放系统100发送命令和/或媒体内容。

云网络102包括计算设备106(分别被识别为第一计算设备106a、第二计算设备106b和第三计算设备106c)。计算设备106可以包括各个计算机或服务器,例如,存储音频和/或其他媒体内容的媒体流服务服务器、语音服务服务器、社交媒体服务器、媒体回放系统控制服务器等。在一些实施例中,一个或多个计算设备106包括单个计算机或服务器的模块。在某些实施例中,一个或多个计算设备106包括一个或多个模块、计算机和/或服务器。此外,尽管以上在单个云网络的上下文中描述了云网络102,但是在一些实施例中,云网络102包括多个包括通信耦合的计算设备的云网络。此外,尽管在图1B中将云网络102示为具有三个计算设备106,但是在一些实施例中,云网络102包括少于(或多于)三个计算设备106。

媒体回放系统100被配置为经由链路103从网络102接收媒体内容。所接收的媒体内容可以包括例如统一资源标识符(URI)和/或统一资源定位符(URL)。例如,在一些示例中,媒体回放系统100可以从与所接收到的媒体内容相对应的URI或URL流传输、下载或以其他方式获得数据。网络104将链路103与媒体回放系统100的设备(例如,回放设备110、NMD120和/或控制设备130中的一个或多个)中的至少一部分通信地耦合。网络104可以包括例如无线网络(例如,WiFi网络、蓝牙、Z-Wave网络、ZigBee和/或其他合适的无线通信协议网络)和/或有线网络(例如,包括以太网、通用串行总线(USB)和/或其他合适的有线通信的网络)。如本领域普通技术人员将理解的,如本文中所使用的,“WiFi”可以指代以2.4兆赫兹(GHz)、5GHz和/或其他合适的频率传输的若干种不同的通信协议,包括例如电气和电子工程师协会(IEEE)802.11a、802.11b、802.11g、802.11n、802.11ac、802.11ac、802.11ad、802.11af、802.11ah、802.11ai、802.11aj、802.11aq、802.11ax、802.11ay、802.15等。

在一些实施例中,网络104包括专用通信网络,媒体回放系统100使用该专用通信网络在各个设备之间发送消息和/或向媒体内容源(例如,一个或多个计算设备106)发送媒体内容和从媒体内容源发送媒体内容。在某些实施例中,网络104被配置为仅媒体回放系统100中的设备可访问,从而减少与其他家用设备的干扰和竞争。然而,在其他实施例中,网络104包括现有的家庭通信网络(例如,家庭WiFi网络)。在一些实施例中,链路103和网络104包括一个或多个相同的网络。在一些方面,例如,链路103和网络104包括电信网络(例如,LTE网络、5G网络)。此外,在一些实施例中,在没有网络104的情况下实现媒体回放系统100,并且包括媒体回放系统100的设备可以例如经由一个或多个直接连接、PAN、电信网络和/或其他合适的通信链路彼此通信。

在一些实施例中,可以在媒体回放系统100中定期添加音频内容源,或从中移除音频内容源。例如,在一些实施例中,当一个或多个媒体内容源被更新、添加到和/或从媒体回放系统100中移除时,媒体回放系统100对媒体项目进行索引。媒体回放系统100可以扫描回放设备110可访问的一些或所有文件夹和/或目录中的可识别媒体项目,并且产生或更新包括所找到的每个可识别媒体项目的元数据(例如,标题、艺术家、专辑、曲目长度)和其他相关联信息(例如,URI、URL)的媒体内容数据库。例如,在一些实施例中,媒体内容数据库被存储在回放设备110、网络麦克风设备120和/或控制设备130中的一个或多个上。

在图1B所示的实施例中,回放设备110l和110m包括组107a。回放设备110l和110m可以基于在媒体回放系统100中的控制设备130a和/或另一控制设备130处接收到的用户输入而被临时或永久地放置在家庭中的不同房间中并在组107a中被分组在一起。当布置在组107a中时,回放设备110l和110m可以被配置为同步地从一个或多个音频内容源回放相同或相似的音频内容。在某些实施例中,例如,组107a包括绑定地区,其中,回放设备110l和110m分别包括多声道音频内容的左音频声道和右音频声道,从而产生或增强音频内容的立体声效果。在一些实施例中,组107a包括附加的回放设备110。然而,在其他实施例中,媒体回放系统100省略了回放设备110的组107a和/或其他分组的布置。下面参照图1-I至图IM更详细地描述关于回放设备的组和其他布置的附加细节。

媒体回放系统100包括NMD 120a和120b,每个NMD包括一个或多个被配置为从用户接收语音发声的麦克风。在图1B所示的实施例中,NMD 120a是独立设备,并且NMD 120b被集成到回放设备110n中。NMD 120a例如被配置为从用户123接收语音输入121。在一些实施例中,NMD 120a向语音助手服务(VAS)发送与所接收到的语音输入121相关联的数据,该语音助手服务(VAS)被配置为(i)处理所接收到的语音输入数据,并且(ii)向媒体回放系统100发送对应的命令。在一些方面,例如,计算设备106c包括VAS(例如,由

b.

图1C是包括输入/输出111的回放设备110a的框图。输入/输出111可以包括模拟I/O 111a(例如,一条或多条电线、电缆和/或被配置为承载模拟信号的其他合适的通信链路)和/或数字I/O 111b(例如,一条或多条电线、电缆或被配置为承载数字信号的其他合适的通信链路)。在一些实施例中,模拟I/O 111a是音频线输入连接,包括例如自动检测3.5mm音频线输入连接。在一些实施例中,数字I/O 111b包括索尼/飞利浦数字接口格式(S/PDIF)通信接口和/或电缆和/或东芝链路(TOSLINK)电缆。在一些实施例中,数字I/O 111b包括高清晰度多媒体接口(HDMI)接口和/或电缆。在一些实施例中,数字I/O111b包括一个或多个无线通信链路,其包括例如射频(RF)、红外、WiFi、蓝牙或其他合适的通信协议。在某些实施例中,模拟I/O 111a和数字111b包括被配置为分别接收发送模拟和数字信号的电缆的连接器的接口(例如,端口、插头、插孔),而不必包括电缆。

回放设备110a例如可以经由输入/输出111(例如,电缆、电线、PAN、蓝牙连接、adhoc有线或无线通信网络、和/或其他合适的通信链路)从本地音频源105接收媒体内容(例如,包括音乐和/或其他声音的音频内容)。本地音频源105可以包括例如移动设备(例如,智能电话、平板电脑、膝上型计算机)或其他合适的音频组件(例如,电视、台式计算机、放大器、留声机、蓝光播放器、存储数字媒体文件的存储器)。在一些方面,本地音频源105包括智能电话、计算机、网络连接存储(NAS)和/或被配置为存储媒体文件的其他合适的设备上的本地音乐库。在某些实施例中,回放设备110、NMD 120和/或控制设备130中的一个或多个包括本地音频源105。然而,在其他实施例中,媒体回放系统完全省略了本地音频源105。在一些实施例中,回放设备110a不包括输入/输出111,并且经由网络104接收所有音频内容。

回放设备110a还包括电子设备112、用户界面113(例如,一个或多个按钮、旋钮、转盘、触敏表面、显示器、触摸屏)以及一个或多个换能器114(以下称为“换能器114”)。电子设备112被配置为经由输入/输出111、经由网络104(图1B)的一个或多个计算设备106a-106c从音频源(例如,本地音频源105)接收音频,放大所接收的音频,并输出放大后的音频以经由一个或多个换能器114回放。在一些实施例中,回放设备110a可选地包括一个或多个麦克风115(例如,单个麦克风、多个麦克风、麦克风阵列)(以下称为“麦克风115”)。在某些实施例中,例如,具有一个或多个可选麦克风115的回放设备110a可以作为NMD来操作,该NMD被配置为从用户接收语音输入并且基于所接收到的语音输入相应地执行一个或多个操作。

在图1C所示的实施例中,电子设备112包括一个或多个处理器112a(以下称为“处理器112a”)、存储器112b、软件组件112c、网络接口112d、一个或多个音频处理组件112g(以下称为“音频组件112g”)、一个或多个音频放大器112h(以下称为“放大器112h”)和电源112i(例如,一个或多个电源、电力电缆、电源插座、电池、感应器线圈、以太网供电(POE)接口和/或其他合适的电源)。在一些实施例中,电子设备112可选地包括一个或多个其他组件112j(例如,一个或多个传感器、视频显示器、触摸屏、电池充电基座)。

处理器112a可以包括被配置为处理数据的时钟驱动的计算组件,并且存储器112b可以包括计算机可读介质(例如,有形的、非暂时性的计算机可读介质、装载有一个或多个软件组件112c的数据存储设备),该计算机可读介质被配置为存储用于执行各种操作和/或功能的指令。处理器112a被配置为执行存储在存储器112b上的指令以执行一个或多个操作。该操作可以包括例如使回放设备110a从音频源(例如,一个或多个计算设备106a-106c(图1B))和/或另一个回放设备110取回音频数据。在一些实施例中,该操作还包括使回放设备110a向另一个回放设备110a和/或其他设备(例如,NMD 120之一)发送音频数据。某些实施例包括使回放设备110a与一个或多个回放设备110中的另一个配对以启用多声道音频环境(例如,立体声对、绑定地区)的操作。

处理器112a还可以被配置为执行使回放设备110a将音频内容的回放与一个或多个回放设备110中的另一个同步的操作。如本领域的普通技术人员将理解的,在多个回放设备上的音频内容的同步回放期间,收听者将优选地无法感知回放设备110a与其他一个或多个其他回放设备110的音频内容回放之间的时延差。关于回放设备之间的音频回放同步的附加细节可以在例如美国专利No.8,234,395中找到,该专利通过引用合并于此。

在一些实施例中,存储器112b还可以被配置为存储与回放设备110a相关联的数据,例如,回放设备110a是其成员的一个或多个地区和/或地区组、回放设备110a可访问的音频源、和/或回放设备110a(和/或一个或多个回放设备中的另一个)可以与之相关联的回放队列。所存储的数据可以包括一个或多个状态变量,该状态变量被周期性地更新并用于描述回放设备110a的状态。存储器112b还可以包括与媒体回放系统100的一个或多个其他设备(例如,回放设备110、NMD120、控制设备130)的状态相关联的数据。在一些方面,例如,状态数据在媒体回放系统100的至少一部分设备之间的预定时间间隔期间(例如,每5秒、每10秒、每60秒)共享,使得一个或多个设备具有与媒体回放系统100相关联的最新数据。

网络接口112d被配置为促进回放设备110a与数据网络(例如,链路103和/或网络104(图1B))上的一个或多个其他设备之间的数据传输。网络接口112d被配置为发送和接收与媒体内容(例如,音频内容、视频内容、文本、照片)和包括数字分组数据的其他信号(例如,非暂时性信号)相对应的数据,该数字分组数据包括基于互联网协议(IP)的源地址和/或基于IP的目标地址。网络接口112d可以解析数字分组数据,使得电子设备112正确地接收和处理去往回放设备110a的数据。

在图1C所示的实施例中,网络接口112d包括一个或多个无线接口112e(以下称为“无线接口112e”)。无线接口112e(例如,包括一个或多个天线的合适的接口)可以被配置为与一个或多个其他设备(例如,其他回放设备110、NMD 120和/或控制设备130中的一个或多个)无线通信,该一个或多个其他设备根据适合的无线通信协议(例如,WiFi、蓝牙、LTE)通信地耦合到网络104(图1B)。在一些实施例中,网络接口112d可选地包括有线接口112f(例如,被配置为接收诸如以太网、USB-A、USB-C和/或Thunderbolt电缆之类的网络电缆的接口或插座),该有线接口112f被配置为根据合适的有线通信协议通过与其他设备的有线连接进行通信。在某些实施例中,网络接口112d包括有线接口112f并且不包括无线接口112e。在一些实施例中,电子设备112完全排除网络接口112d,并且经由另一通信路径(例如,输入/输出111)发送和接收媒体内容和/或其他数据。

音频组件112g被配置为处理和/或过滤包括由电子设备112(例如,经由输入/输出111和/或网络接口112d)接收的媒体内容的数据,以产生输出音频信号。在一些实施例中,音频处理组件112g包括例如一个或多个数模转换器(DAC)、音频预处理组件、音频增强组件、数字信号处理器(DSP)和/或其他合适的音频处理组件、模块、电路等。在某些实施例中,一个或多个音频处理组件112g可以包括处理器112a的一个或多个子组件。在一些实施例中,电子设备112省略了音频处理组件112g。在一些方面,例如,处理器112a执行存储在存储器112b上的指令以执行音频处理操作以产生输出音频信号。

放大器112h被配置为接收和放大由音频处理组件112g和/或处理器112a产生的音频输出信号。放大器112h可以包括被配置为将音频信号放大到足以驱动一个或多个换能器114的电平的电子设备和/或组件。在一些实施例中,例如,放大器112h包括一个或多个开关或D类功率放大器。然而,在其他实施例中,放大器包括一种或多种其他类型的功率放大器(例如,线性增益功率放大器、A类放大器、B类放大器、AB类放大器、C类放大器、D类放大器、E类放大器、F类放大器、G类和/或H类放大器和/或其他合适类型的功率放大器)。在某些实施例中,放大器112h包括两个或更多个前述类型的功率放大器的合适的组合。此外,在一些实施例中,放大器112h中的各个放大器对应于换能器114中的各个换能器。然而,在其他实施例中,电子设备112包括被配置为将放大的音频信号输出到多个换能器114的单个放大器112h。在一些其他实施例中,电子设备112省略了放大器112h。

换能器114(例如,一个或多个扬声器和/或扬声器驱动器)从放大器112h接收放大的音频信号,并且将放大的音频信号呈现或输出为声音(例如,具有大约20赫兹(Hz)和20千赫兹(kHz)之间的频率的可听声波)。在一些实施例中,换能器114可以包括单个换能器。然而,在其他实施例中,换能器114包括多个音频换能器。在一些实施例中,换能器114包括多于一种类型的换能器。例如,换能器114可以包括一个或多个低频换能器(例如,超低音扬声器、低音扬声器)、中频换能器(例如,中档换能器、中低音扬声器)和一个或多个高频换能器(例如,一或多个高音扬声器)。如本文中所使用的,“低频”通常可以指代低于约500Hz的可听频率,“中频”通常可以指代大约500Hz和大约2kHz之间的可听频率,并且“高频”通常可以指代高于2kHz的可听频率。然而,在某些实施例中,一个或多个换能器114包括不遵守前述频率范围的换能器。例如,换能器114之一可以包括中低音换能器,其被配置为以大约200Hz和大约5kHz之间的频率输出声音。

举例来说,SONOS公司目前提供(或已经提供)销售某些回放设备,包括例如“SONOSONE”、“PLAY:1”、“PLAY:3”、“PLAY:5”、“PLAYBAR”、“CONNECT:AMP”、“CONNECT”、和“SUB”。其他合适的回放设备可以附加地或备选地用于实现本文公开的示例实施例的回放设备。另外,本领域的普通技术人员将理解,回放设备不限于本文描述的示例或SONOS产品供应。在一些实施例中,例如,一个或多个回放设备110包括有线或无线耳机(例如,耳边式耳机、耳上式耳机、入耳式耳机)。在其他实施例中,一个或多个回放设备110包括扩展坞和/或被配置为与用于个人移动媒体回放设备的扩展坞交互的接口。在某些实施例中,回放设备可以集成到另一设备或组件,例如,电视、照明器材或在室内或室外使用的一些其他设备。在一些实施例中,回放设备省略用户接口和/或一个或多个换能器。例如,图1D是回放设备110p的框图,该回放设备110p包括输入/输出111和电子设备112,而没有用户接口113或换能器114。

图1E是绑定的回放设备110q的框图,该绑定的回放设备110q包括与回放设备110i(例如,超低音扬声器)(图1A)超声绑定的回放设备110a(图1C)。在所示的实施例中,回放设备110a和110i是容纳在分离的外壳中的回放设备110中的分离的回放设备。然而,在一些实施例中,绑定的回放设备110q包括容纳回放设备110a和110i两者的单个外壳。绑定的回放设备110q可以被配置为与未绑定的回放设备(例如,图1C的回放设备110a)和/或成对的或绑定的回放设备(例如,图1B的回放设备110l和110m)不同地处理和再现声音。在一些实施例中,例如,回放设备110a是被配置成呈现低频、中频和高频音频内容的全范围回放设备,并且回放设备110i是被配置成呈现低频音频内容的超低音扬声器。在一些方面,当与第一回放设备绑定时,回放设备110a被配置为仅呈现特定音频内容的中频和高频分量,而回放设备110i呈现特定音频内容的低频分量。在一些实施例中,绑定的回放设备110q包括附加的回放设备和/或另一个绑定的回放设备。下面参照图2A-图3D更详细地描述附加的回放设备实施例。

c.

图1F是NMD 120a(图1A和图1B)的框图。NMD 120a包括一个或多个语音处理组件124(以下称为“语音组件124”)和关于回放设备110a(图1C)描述的若干个组件,包括处理器112a、存储器112b和麦克风115。NMD 120a可选地包括还包括在回放设备110a(图1C)中的其他组件,例如,用户接口113和/或换能器114。在一些实施例中,NMD 120a被配置为媒体回放设备(例如,一个或多个回放设备110),并且还包括例如音频组件112g(图1C)、放大器114和/或其他回放设备组件中的一个或多个。在某些实施例中,NMD 120a包括物联网(IoT)设备,例如,恒温器、警报面板、火灾和/或烟雾探测器等。在一些实施例中,NMD 120a包括麦克风115、语音处理124、以及以上关于图1B描述的电子设备112的组件中的仅一部分。在一些方面,例如,NMD 120a包括处理器112a和存储器112b(图1B),而省略了电子设备112的一个或多个其他组件。在一些实施例中,NMD 120a包括附加组件(例如,一个或多个传感器、相机、温度计、气压计、湿度计)。

在一些实施例中,NMD可以被集成到回放设备中。图1G是包括NMD 120d的回放设备110r的框图。回放设备110r可以包括回放设备110a的许多或所有组件,并且还包括麦克风115和语音处理124(图1F)。回放设备110r可选地包括集成控制设备130c。控制设备130c可以包括例如被配置为在没有分离的控制设备的情况下接收用户输入(例如,触摸输入、语音输入)的用户接口(例如,图1B的用户接口113)。然而,在其他实施例中,回放设备110r从另一个控制设备(例如,图1B的控制设备130a)接收命令。下面参照图3A-图3F更详细地描述附加的NMD实施例。

再次参考图1F,麦克风115被配置为从环境(例如,图1A的环境101)和/或NMD 120a所位于的房间中获取、捕捉和/或接收声音。所接收到的声音可以包括例如语音发声、由NMD120a和/或另一个回放设备回放的音频、背景语音、环境声音等。麦克风115将所接收到的声音转换成电信号以产生麦克风数据。语音处理124接收并分析麦克风数据以确定在麦克风数据中是否存在语音输入。语音输入可以包括例如激活词,其后跟包括用户请求的发声。如本领域普通技术人员将理解的,激活词是表示用户语音输入的词或其他音频提示。例如,在查询

在检测到激活词之后,语音处理124监测语音输入中伴随的用户请求的麦克风数据。用户请求可以包括例如控制第三方设备(例如,恒温器(例如,

d.

图1H是控制设备130a(图1A和图1B)的局部示意图。如本文所使用的,术语“控制设备”可以与“控制器”或“控制系统”互换使用。控制设备130a尤其被配置为接收与媒体回放系统100有关的用户输入,并且作为响应,使媒体回放系统100中的一个或多个设备执行与用户输入相对应的动作或操作。在所示的实施例中,控制设备130a包括其上安装了媒体回放系统控制器应用软件的智能电话(例如,iPhone

控制设备130a包括电子设备132、用户接口133、一个或多个扬声器134和一个或多个麦克风135。电子设备132包括一个或多个处理器132a(以下称为“处理器132a”)、存储器132b、软件组件132c和网络接口132d。处理器132a可以被配置为执行与促进用户对媒体回放系统100进行访问、控制和配置相关的功能。存储器132b可以包括数据存储设备,其可以加载有可由处理器302执行以执行那些功能的一个或多个软件组件。软件组件132c可以包括被配置为促进对媒体回放系统100的控制的应用和/或其他可执行软件。存储器112b可以被配置为存储例如软件组件132c、媒体回放系统控制器应用软件和/或与媒体回放系统100和用户相关联的其他数据。

网络接口132d被配置为促进控制设备130a与媒体回放系统100中的一个或多个其他设备和/或一个或多个远程设备之间的网络通信。在一些实施例中,网络接口132被配置为根据一个或多个合适的通信行业标准(例如,红外、无线电、包括IEEE 802.3的有线标准、包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G、LTE的无线标准)进行操作。网络接口132d可以被配置为例如向回放设备110、NMD 120、控制设备130中的其他控制设备、图1B的计算设备106之一、以及包括一个或多个其他媒体回放系统的设备等发送数据和/或从这些设备接收数据。所发送的和/或所接收的数据可以包括例如回放设备控制命令、状态变量、回放地区和/或地区组配置。例如,基于在用户接口133处接收到的用户输入,网络接口132d可以向一个或多个回放设备100发送来自控制设备304的回放设备控制命令(例如,音量控制、音频回放控制、音频内容选择)。网络接口132d也可以发送和/或接收配置更改,例如,将一个或多个回放设备100添加到地区/从地区中删除;将一个或多个地区添加到地区组/从地区组中删除;形成绑定或合并的播放器;从绑定或合并的播放器分离一个或多个回放设备等。可以在下面参照图1-I至图1M找到地区和组的附加描述。

用户接口133被配置为接收用户输入并且可以促进对媒体回放系统100的控制。用户接口133包括媒体内容艺术133a(例如,专辑封面、歌词、视频)、回放状态指示符133b(例如,流逝和/或剩余时间指示符)、媒体内容信息区133c、回放控制区133d和地区指示符133e。媒体内容信息区133c可以包括对关于当前正在播放的媒体内容和/或队列或播放列表中的媒体内容的相关信息(例如,标题、艺术家、专辑、流派、发行年份)的显示。回放控制区133d可以包括可选择(例如,经由触摸输入和/或经由光标或其他合适的选择器)图标,以使所选择的回放地区或地区组中的一个或多个回放设备执行回放动作,例如,播放或暂停、快进、快退、跳到下一个、跳到前一个、进入/退出随机播放模式、进入/退出重复模式、进入/退出交叉淡入淡出模式等。回放控制区133d还可以包括用于修改均衡设置、回放音量和/或其他合适的回放动作的可选择图标。在所示的实施例中,用户接口133包括呈现在智能电话(例如,iPhone

一个或多个扬声器134(例如,一个或多个换能器)可以被配置为向控制设备130a的用户输出声音。在一些实施例中,一个或多个扬声器包括各个换能器,各个换能器被配置为相应地输出低频、中频和/或高频。在一些方面,例如,控制设备130a被配置为回放设备(例如,回放设备110之一)。类似地,在一些实施例中,控制设备130a被配置为NMD(例如,NMD120之一),其经由一个或多个麦克风135接收语音命令和其他声音。

一个或多个麦克风135可以包括例如一个或多个电容式麦克风、驻极体电容式麦克风、动态麦克风和/或其他合适类型的麦克风或换能器。在一些实施例中,两个或更多个麦克风135可以被布置为捕捉音频源(例如,语音、可听声音)的位置信息和/或被配置为促进对背景噪声的过滤。此外,在某些实施例中,控制设备130a被配置为用作回放设备和NMD。然而,在其他实施例中,控制设备130a省略了一个或多个扬声器134和/或一个或多个麦克风135。例如,控制设备130a可以包括设备(例如,恒温器、IoT设备、网络设备),该设备包括电子设备132的一部分和用户接口133(例如,触摸屏),而没有任何扬声器或麦克风。

e.

图1-I至图1M示出了地区和地区组中的回放设备的示例配置。首先参考图1M,在一个示例中,单个回放设备可以属于一个地区。例如,第二卧室101c(图1A)中的回放设备110g可以属于C地区。在以下所述的一些实施方式中,多个回放设备可以被“绑定”以形成“绑定对”,它们一起形成单个地区。例如,回放设备110l(例如,左侧回放设备)可以被绑定到回放设备110m(例如,右侧回放设备)以形成B地区。绑定的回放设备可以具有不同的回放职责(例如,声道职责)。在以下所述的另一实施方式中,多个回放设备可以被合并以形成单个地区。例如,回放设备110h(例如,前置回放设备)可以与回放设备110i(例如,低音炮)以及回放设备110j和110k(例如,分别为左环绕扬声器和右环绕扬声器)合并以形成单个D地区。在另一示例中,回放设备110g和110h可以被合并以形成合并组或地区组108b。合并的回放设备110g和110h可以不被具体地分配不同的回放职责。即,合并的回放设备110h和110i除了同步播放音频内容之外,还可以如它们未合并时那样均播放音频内容。

媒体回放系统100中的每个地区可以作为单个用户界面(UI)实体被提供以进行控制。例如,A地区可以作为名为主浴室的单个实体提供。B地区可以作为名为主卧室的单个实体提供。C地区可以作为名为第二卧室的单个实体提供。

绑定的回放设备可以具有不同的回放职责,例如,某些音频声道的职责。例如,如图1-I所示,回放设备110l和110m可以被绑定,以便产生或增强音频内容的立体声效果。在该示例中,回放设备110l可以被配置为播放左声道音频分量,而回放设备110k可以被配置为播放右声道音频分量。在一些实施方式中,这种立体声绑定可以被称为“配对”。

另外,绑定的回放设备可以具有附加的和/或不同的相应扬声器驱动器。如图1J所示,可以将名为前置(Front)的回放设备110h与名为低音炮(SUB)的回放设备110i绑定。前置设备110h可以被配置为呈现中高频范围,并且低音炮设备110i可以被配置为呈现低频。然而,当未绑定时,前置设备110h可以被配置为呈现整个频率范围。作为另一示例,图1K示出了前置设备110h和低音炮设备110i分别进一步与左侧回放设备110j和右侧回放设备110k绑定。在一些实施方式中,左侧设备110j和右侧设备102k可以被配置为形成家庭影院系统的环绕或“卫星”声道。绑定的回放设备110h、110i、110j和110k可以形成单个D地区(图1M)。

合并的回放设备可以没有分配回放职责,并且均可以呈现相应回放设备能够回放的音频内容的全部范围。然而,合并的设备可以被表示为单个UI实体(即,如上所述的地区)。例如,主浴室的回放设备110a和110n具有A地区的单个UI实体。在一个实施例中,回放设备110a和110n均可以输出每个相应的回放设备110a和110n能够同步回放的音频内容的全部范围。

在一些实施例中,NMD可以与另一设备绑定或合并,以形成地区。例如,可以将NMD120b与回放设备110e绑定,两者一起形成F地区,该F地区被命名为“客厅”。在一些实施例中,独立网络麦克风设备本身可以在一个地区中。然而,在其他实施例中,独立网络麦克风设备可以不与地区相关联。例如,在先前引用的美国专利申请No.15/438,749中可以找到关于将网络麦克风设备和回放设备关联为指定设备或默认设备的附加细节。

可以将单个、绑定和/或合并的设备的地区分在一组,以形成地区组。例如,参考图1M,A地区可以与B地区分在一组,以形成包括该两个地区的地区组。类似地,G地区可以与H地区分在一组,以形成地区组108b。作为另一示例,A地区可以与一个或多个其他地区C-I分在一组。A-I地区可以以多种方式进行分组和取消分组。例如,可以将三个、四个、五个或更多个(例如,全部)A-I地区分在一组。如先前参考的美国专利No.8,234,395中所述,当被分在一组时,单个和/或绑定的回放设备的地区可以彼此同步地回放音频。回放设备可以动态分组和取消分组,以形成同步回放音频内容的新的或不同的组。

在各种实施方式中,环境中的地区可以是组内地区的默认名称,或者是地区组内的地区名称的组合。例如,地区组108b可以被分配一个名称,例如“餐厅+厨房”,如图1M所示。在一些实施例中,还可以将地区组命名为由用户选择的唯一名称。

某些数据可以作为一个或多个状态变量存储在回放设备的存储器(例如,图1C的存储器112c)中,该一个或多个状态变量被周期性地更新并用于描述回放地区、回放设备和/或与其相关联的地区组的状态。存储器还可以包括与媒体系统的其他设备的状态相关联的数据,并且间或地在设备之间共享,使得设备中的一个或多个具有与系统相关联的最新数据。

在一些实施例中,存储器可以存储与状态相关联的各种变量类型的实例。变量实例可以与对应于类型的标识符(例如,标签)一起存储。例如,某些标识符可以是用于识别地区的回放设备的第一类型“a1”、用于识别可以绑定在该地区中的回放设备的第二类型“b1”和用于识别该地区可能所属的地区组的第三类型“c1”。作为相关示例,与第二卧室101c相关联的标识符可以指示回放设备是C地区的唯一回放设备,而不是地区组中的回放设备。与书房(Den)相关联的标识符可以指示该书房没有与其他地区分在一组,而是包括绑定的回放设备110h-110k。与餐厅相关联的标识符可以指示该餐厅是餐厅+厨房地区组108b的一部分,并且设备110b和110d被分在一组(图1L)。由于厨房是餐厅+厨房地区组108b的一部分,因此与该厨房相关联的标识符可以指示相同或相似的信息。其他示例区变量和标识符如下所述。

在又一示例中,媒体回放系统100可以存储表示地区和地区组的其他关联的变量或标识符,例如,与区域相关联的标识符,如图1M所示。区域可以涉及地区组的集群和/或不在地区组内的地区的集群。例如,图1M示出了包括A-D地区的上部区域109a,以及包括E-I地区的下部区域109b。在一个方面,区域可以用于调用地区组和/或地区的集群,其共享另一集群的一个或多个地区和/或地区组。在另一方面,这不同于地区组,地区组不与另一地区组共享地区。用于实现区域的技术的其他示例可以在例如2017年8月21日提交的题为“RoomAssociation Based on Name”的美国申请No.15/682,506和2007年9月11日提交的题为“Controlling and manipulating groupings in a multi-zone media system”的美国专利No.8,483,853中找到。这些申请中的每一个通过引用整体并入本文。在一些实施例中,媒体回放系统100可以不实现区域,在这种情况下,系统可以不存储与区域相关联的变量。

III.示例系统和设备

图2A是根据所公开的技术的各方面配置的回放设备210的前等距视图。图2B是没有格栅216e的回放设备210的前等距视图。图2C是回放设备210的分解图。一起参照图2A-图2C,回放设备210包括壳体216,该壳体216包括上部216a、右侧或第一侧部216b、下部216c、左侧或第二侧部216d、格栅216e和后部216f。多个紧固件216g(例如,一个或多个螺钉、铆钉、夹子)将框架216h附接到壳体216。壳体216中的腔体216j(图2C)被配置为接收框架216h和电子设备212。框架216h被配置为承载多个换能器214(在图2B中分别识别为换能器214a-214f)。电子设备212(例如,图1C的电子设备112)被配置为从音频源接收音频内容,并向换能器214发送与音频内容相对应的电信号以进行回放。

换能器214被配置为从电子设备112接收电信号,并且还被配置为在回放期间将所接收到的电信号转换为可听声音。例如,换能器214a-214c(例如,高音扬声器)可以被配置为输出高频声音(例如,具有大于大约2kHz的频率的声波)。换能器214d-214f(例如,中低音扬声器、低音扬声器、中音扬声器)可以被配置为以低于换能器214a-214c的频率的频率输出声音(例如,具有低于大约2kHz的频率的声波)。在一些实施例中,回放设备210包括与图2A-图2C所示的换能器不同的多个换能器。例如,如下面参照图3A-3C进一步详细描述的,回放设备210可以包括少于六个换能器(例如,一个、两个、三个)。然而,在其他实施例中,回放设备210包括多于六个换能器(例如,九个、十个)。此外,在一些实施例中,换能器214的全部或一部分被配置为作为相控阵来操作,以期望地调整(例如,变窄或变宽)换能器214的辐射图,从而改变用户对从回放设备210发出的声音的感知。

在图2A-图2C的所示实施例中,滤波器216i与换能器214b轴向对准。滤波器216i可以被配置为期望地衰减换能器214b输出的预定频率范围,以改善声音质量和换能器214共同输出的感知声级。然而,在一些实施例中,回放设备210省略了滤波器216i。在其他实施例中,回放设备210包括与换能器214b和/或换能器214中的至少另一个对准的一个或多个附加滤波器。

图3A和图3B分别是根据所公开的技术的实施例配置的NMD 320的前等距侧视图和右等距侧视图。图3C是NMD 320的分解图。图3D是图3B的一部分的放大图,包括NMD 320的用户接口313。首先参照图3A-图3C,NMD 320包括壳体316,该壳体316包括上部316a、下部316b和中间部分316c(例如,格栅)。上部316a中的多个端口、洞或孔316d允许声音传递到位于壳体316内的一个或多个麦克风315(图3C)。一个或多个麦克风315被配置为经由孔316d接收声音,并基于所接收到的声音产生电信号。在所示实施例中,壳体316的框架316e(图3C)围绕腔体316f和316g,该腔体316f和316g被配置为分别容纳第一换能器314a(例如,高音扬声器)和第二换能器314b(例如,中低音扬声器、中音扬声器、低音扬声器)。然而,在其他实施例中,NMD 320包括单个换能器,或者两个以上(例如,两个、五个、六个)换能器。在某些实施例中,NMD 320完全省略了换能器314a和314b。

电子设备312(图3C)包括被配置为驱动换能器314a和314b并进一步被配置为分析与一个或多个麦克风315产生的电信号相对应的音频数据的组件。例如,在一些实施例中,电子设备312包括以上参照图1C描述的电子设备112的许多或所有组件。在某些实施例中,电子设备312包括以上参照图1F描述的组件,例如,一个或多个处理器112a、存储器112b、软件组件112c、网络接口112d等。在一些实施例中,电子设备312包括附加的合适的组件(例如,接近传感器或其他传感器)。

参照图3D,用户接口313包括多个控制表面(例如,按钮、旋钮、电容性表面),该控制表面包括第一控制表面313a(例如,先前的控件)、第二控制表面313b(例如,下一个控件)和第三控制表面313c(例如,播放和/或暂停控制)。第四控制表面313d被配置为接收与一个或多个麦克风315的激活和停用相对应的触摸输入。第一指示器313e(例如,一个或多个发光二极管(LED)或另一种合适的照明器)可以被配置为仅在一个或多个麦克风315被激活时才照明。第二指示器313f(例如,一个或多个LED)可以被配置为在正常操作期间保持稳定,并且闪烁或以其他方式从稳定改变为指示对语音活动的检测。在一些实施例中,用户接口313包括附加的或更少的控制表面和照明器。在一个实施例中,例如,用户接口313包括第一指示器313e,省略了第二指示器313f。此外,在某些实施例中,NMD 320包括回放设备和控制设备,并且用户接口313包括控制设备的用户接口。

一起参照图3A-图3D,NMD 320被配置为经由一个或多个麦克风315从一个或多个相邻用户接收语音命令。如以上参照图1B所描述的,一个或多个麦克风315可以获取、捕捉或记录附近(例如,在NMD 320的10m或更小范围内的区域)的声音,并且向电子设备312发送与所记录的声音相对应的电信号。电子设备312可以处理电信号,并且可以分析所得的音频数据以确定存在一个或多个语音命令(例如,一个或多个激活词)。在一些实施例中,例如,在检测到一个或多个合适的语音命令之后,NMD 320被配置为向另一设备和/或远程服务器(例如,图1B的一个或多个计算设备106)发送所记录的音频数据的一部分以进行进一步分析。远程服务器可以分析音频数据,基于语音命令确定适当的动作,并向NMD 320发送消息以执行适当的动作。例如,用户可以说“Sonos,播放Michael Jackson”。NMD 320可以经由一个或多个麦克风315记录用户的语音发声,确定语音命令的存在,并且向远程服务器(例如,图1B的一个或多个远程计算设备106,VAS和/或另一种合适的服务的一个或多个服务器)发送具有语音命令的音频数据。远程服务器可以分析音频数据并确定与命令相对应的动作。然后,远程服务器可以向NMD 320发送命令以执行所确定的动作(例如,回放与MichaelJackson有关的音频内容)。NMD 320可以接收命令并从媒体内容源回放与Michael Jackson相关的音频内容。如以上参照图1B所述,合适的内容源可以包括经由LAN(例如,图1B的网络104)、远程服务器(例如,图1B的一个或多个远程计算设备106)等通信地耦合到NMD 320的设备或存储设备。然而,在某些实施例中,NMD 320确定和/或执行与一个或多个语音命令相对应的一个或多个动作,而无需外部设备、计算机或服务器的干预或介入。

图3E是示出了根据本公开的各方面的NMD 320的附加特征的功能框图。NMD 320包括被配置为促进语音命令捕捉的组件,包括:语音活动检测器组件312k、波束成形器组件312l、回声消除(AEC)和/或自声音抑制组件312m、激活词检测器组件312n和语音/话音转换组件312o(例如,语音到文本和文本到语音)。在图3E所示的实施例中,前述组件312k-312o被示出为分离的组件。然而,在一些实施例中,一个或多个组件312k-312o是处理器112a的子组件。

波束成形和自声音抑制组件312l和312m被配置为检测音频信号并确定所检测到的音频信号中表示的语音输入的各个方面,例如,方向、幅度、频谱等。语音活动检测器活动组件312k与波束成形和AEC组件312l和312m可操作地耦合,并且被配置为确定在所检测到的音频信号中很可能已经发生语音活动的一个或多个方向。可以通过监视将语音与其他声音区分开的度量来识别潜在的语音方向。这种度量可以包括例如相对于背景噪声的语音频带内的能量和该语音频带内的熵(其是频谱结构的测量)。如本领域普通技术人员将理解的,语音通常具有比大多数常见背景噪声更低的熵。激活词检测器组件312n被配置为监视和分析所接收到的音频以确定在所接收到的音频中是否存在任何激活词(例如,唤醒词)。激活词检测器组件312n可以使用激活词检测算法来分析所接收到的音频。如果激活词检测器312n检测到激活词,则NMD 320可以处理所接收到的音频中包含的语音输入。示例激活词检测算法接受音频作为输入,并且提供在该音频中是否存在激活词的指示。许多第一方和第三方激活词检测算法是已知的并且可商购的。例如,语音服务的运营商可以使其算法可用于第三方设备。备选地,可以训练算法以检测某些激活词。在一些实施例中,激活词检测器312n在接收到音频同时(或基本同时)运行多个激活词检测算法。如上所述,不同的语音服务(例如,AMAZON的

语音/文本转换组件312o可以通过将语音输入中的语音转换为文本来促进处理。在一些实施例中,电子设备312可以包括针对与家庭相关联的特定用户或特定用户集合训练的语音识别软件。这样的语音识别软件可以实现被调谐到特定语音简档的语音处理算法。调谐到特定的语音简档可以需要比传统语音激活服务更少的计算密集型算法,传统语音激活服务通常从广泛的用户基础和不针对媒体回放系统的各种请求中进行采样。

图3F是根据本公开的各方面的由NMD 320捕捉的示例语音输入328的示意图。语音输入328可以包括激活词部分328a和语音发声部分328b。在一些实施例中,激活词557a可以是已知的激活词,例如,与AMAZON的

语音发声部分328b可以包括:例如,一个或多个口头命令(分别被识别为第一命令328c和第二命令328e)和一个或多个口头关键词(分别被识别为第一关键词328d和第二关键词328f)。在一个示例中,第一命令328c可以是播放音乐的命令,例如,特定的歌曲、专辑、播放列表等。在该示例中,关键词可以是识别要在其中播放音乐的一个或多个区(例如,图1A中所示的客厅和餐厅)的一个或多个单词。在一些示例中,语音发声部分328b可以包括其他信息,例如,所检测到的用户说出的单词之间的暂停(例如,非语音的时间段),如图3F所示。该暂停可以在语音发声部分328b内标定用户说出的分开的命令、关键词或其他信息的位置。

在一些实施例中,媒体回放系统100被配置为在检测到激活词部分557a的同时临时减小其正在播放的音频内容的音量。媒体回放系统100可以在处理语音输入328之后恢复音量,如图3F所示。这样的过程可以被称为回避(ducking),其示例在通过引用整体并入本文的美国专利申请No.15/438,749中公开。

IV.使用声音信号进行数据传输

图4是环境的示意图,在该环境中,回放设备410被布置为使用声音信号向另一设备发送数据。回放设备410具有与回放设备110a(图1C)相同的构造。具体地,回放设备410包括至少一个用于生成声音信号的换能器,例如用于生成相对高频的声音信号(例如,具有高于约2kHz的频率的声音和/或具有高达大约22kHz的频率的声音)的高音扬声器。回放设备410被配置为实现根据图5的方法,以使用声音信号向另一设备发送数据。在该示例中,另一设备是控制设备430,其具有与控制设备130a(图1H)相同的构造。

图5是使用声音信号发送数据的方法的流程图。该方法可以例如由回放设备(例如,贯穿本公开描述的回放设备)执行,但是该方法更普遍地适用并且不限于由回放设备执行。可以将图5的方法应用于使用超声波信号、使用主要设计用于发送音频信号的换能器的数据传输,尽管也可以更普遍地应用于使用声音信号的数据传输。

参照图5,首先在S510处将数据块编码为要发送的符号序列。数据块是用于在消息中传输的数字数据的一部分,并且可以具有预定的固定长度,例如,固定的比特数(例如,8、16、32或64比特),或者具有任意长度,该长度对应于消息中要发送的数据比特的长度。每个符号对应于块中的预定比特数,例如,1、2、4、8、16或更多。如果消息中的比特数与整数个符号不匹配,则可以使用填充将数据块扩展到与整数个符号相对应的长度。可以使用任何适当的填充方法,例如,零填充,其中,将零添加到消息的末尾以为其赋予整数个符号的长度。类似地,如果消息中的数据包括比一个块中可容纳的比特更多的比特,则可以将消息划分为两个或更多个块以进行传输。

如上所述,要发送的每个符号表示数据块内数据的预定比特数。由每个符号表示的比特数取决于调制方案,通过该调制方案将符号调制到载波信号上。

在S520处,将要发送的符号调制到声载波信号上以生成调制数据。可以使用任何合适的调制方案将符号调制到声载波信号上。调制方案的示例包括幅移键控(ASK)、相移键控(PSK)和正交幅度调制(QAM)。在图4的示例中,回放设备410使用16-QAM将符号调制到声载波上,其中,每个符号对应于二进制数据的四个比特。对于其他调制方法,符号可以对应于多于或少于四个比特。

在图4的示例中,声载波信号是超声载波信号。超声信号的频率高于普通人可听到的最高声音频率,例如,高于约20kHz。最高可听声音在个体之间变化,因此出于本公开的目的,超声信号可以被认为具有在声音信号的持续时间内保持在高于约20kHz的频率。

使用换能器(例如,电声换能器)来发送调制数据。在该示例中,回放设备410的高音扬声器可操作以生成具有在约2kHz和约22kHz之间的频率的声音信号,并且因此可以被操作以生成具有在约20kHz和22kHz之间的频率的超声信号。换能器(例如,高音扬声器)可以被制造为能够生成人类听力的可听范围之外的声音信号,以减少与在可听见的听觉范围的极限附近滚降相关联的不利影响。然而,此类换能器可能并非主要设计为发送超声波信号,并且可能在可操作频率范围的最高端附近操作时受到不利影响,具体是因为在音频再现期间可能不使用该范围(例如,44.1kHz“CD质量”的PCM声音信号通常经过低通滤波,其截止频率约为20kHz)。本文描述的方法可以提高通过此类换能器进行的数据传输的可靠性和鲁棒性中的至少一项。

通过在S530处在第一持续时间内发送调制数据的一部分来使用超声换能器发送调制数据。在该示例中,第一持续时间对应于调制数据中一个符号的持续时间。然而,第一持续时间通常可以是任何预定持续时间,例如,对应于调制数据中的预定数量的符号。

在第一持续时间的传输之后,在S540处,在第二持续时间内暂停发送。在该示例中,第二持续时间与第一持续时间相同;一个符号长度。然而,第二持续时间通常可以是预定持续时间,并且可以与第一持续时间基本相同或不同。

在S540处的暂停之后,在S550处确定是否还有等待传输的调制数据,如果是,则对调制数据的其他部分重复S530处的发送和S540处的暂停,直到已经发送了所有待传输的调制数据为止。

使用图5的方法进行的数据传输导致声载波信号携带间歇性调制数据,其中有间隙,在该间隙中没有符号被发送。在数据传输期间暂停声载波信号的传输可以提高数据传输的可靠性和鲁棒性。在使用主要设计用于发送可听声音信号的电声换能器(例如,回放设备410的高音扬声器)生成超声信号的示例中,将向换能器提供的大部分电能可能被转换为热能。这种热能可能会影响换能器的性能。例如,热能可能增加换能器的膜片温度,这可能在膜片中引起热应力。该热应力可能会增加换能器的阻抗,这可能影响回放设备的可操作频率范围。增加换能器的组件温度还可能影响换能器的组件的材料性质(例如,换能器的弹性),这还可能影响换能器的性能。更进一步,在换能器的可操作频率范围的边缘附近发送声音信号可能对起换能器造成热损坏。取决于换能器的性质,上述不利影响在特定频段内可能最为突出。可以对设备进行编程,使得避开与最突出的不利影响相关联的频带。

在由暂停分开的部分中发送调制数据允许换能器的组件在传输间隙期间冷却。允许换能器的组件冷却减少了热能的积累,并且因此至少部分地减轻了上述不利影响。间隙的持续时间(以上参照图5描述的第二持续时间)可以基于发送数据的电声换能器的性质。例如,在电声换能器的制造或配置期间,可以确定足够的持续时间以减轻上述不利影响,然后可以对包含该换能器的回放设备进行编程,以在发送在声载波信号上调制的数据时在所确定的持续时间内暂停发送。备选地,间隙的持续时间可以基于包含电声换能器的设备的特性,其可以包括该设备的一个或多个换能器的特性、该设备的电路或其他物理组件的特性、和/或其他特性(例如,设备的预期用途),其可以影响设备预期发送的携带数据的声音信号的持续时间、频率或其他特性。间隙的持续时间可以基于例如包含电声换能器的产品模型。这可以考虑并入在该产品模型中的换能器的总体特性。附加地或备选地,调制数据的每个发送部分的持续时间可以取决于特定换能器或设备的特性。

如以上图5所述,间隙在时间上规则地间隔开和/或具有相等的持续时间(对应于第一持续时间和/或第二持续时间是固定的)。在一些实施例中,间隙可以具有不同的间隔和/或持续时间,例如,具有预定序列的第一持续时间和第二持续时间。

在一些实施例中,回放设备可以同时从媒体源执行音频再现并使用声音信号发送调制数据。例如,回放设备可以同时执行音频再现并使用超声信号发送调制数据。在一些示例中,音频信号和调制数据由单个电声换能器同时发送。与单独发送数据相比,由单个换能器同时发送数据和音频信号可能会产生更多的热能。因此,回放设备可以被配置为使得调制数据的发送部分的持续时间和/或发送部分之间的暂停的持续时间取决于音频信号是否与调制数据同时发送。例如,回放设备可以在音频信号与调制数据同时发送时的暂停持续时间(第二持续时间)比在调制数据不与音频一起发送时的暂停持续时间(第二持续时间)更长。

在一些实施例中,根据图5的发送数据的方法还包括在发送调制数据之前使用高通滤波器处理调制数据。高通滤波器的截止频率小于或等于调制数据的最低频率。在一些情况下,调制数据中的符号和暂停之间的过渡(在该过渡中,声载波信号被打开或关闭)导致信号中出现不期望的瞬变伪像。载波信号的突然打开或关闭(例如,在时域中具有阶梯状轮廓的过渡)具有傅立叶变换,其分量在频率范围内,并且这些分量可能会影响解调后的数据。在将数据调制到超声载波信号上的示例中,高通滤波器的截止频率可以高于可听见的听力范围,例如,大约20kHz。因此,可听范围内的信号伪像将从信号中去除,并且将不能被人们在平均听力范围内检测到。在由同时执行音频再现的回放设备发送数据的实施例中,这可以减轻或防止对收听体验的任何不利影响。

在一些实施例中,在声载波信号上发送报头部分,其后跟与数据块相对应的调制数据。因此,每个数据块前面有报头部分。所发送的消息可以包含一个或多个数据块,每个块前面有报头部分,并且包括调制数据的预定数量的部分。接收设备能够通过识别数据块前面的报头部分来识别数据块的开始。报头部分具有与第一持续时间(暂停之间的调制数据的每个部分的持续时间)不同的预定持续时间。以这种方式,可以通过搜索具有预定报头持续时间的接收信号来识别数据传输的开始。在一些示例中,报头部分被连续地发送,而在声载波信号中没有任何暂停或间隙。在这样的示例中,识别报头部分涉及识别在报头部分的预定持续时间内连续发送声载波信号的时间段。在其他示例中,报头部分可以包含由暂停分开的子部分,其中,每个子部分具有与第一持续时间不同的持续时间。此外,报头的子部分之间的暂停可以具有与数据块的各部分之间的暂停不同的持续时间。在这样的示例中,接收设备能够通过检测传输和暂停的这种不同模式来识别报头部分,并因此识别数据块的开始。

报头部分除了具有预定的持续时间外,还可以包含预定的符号序列。报头部分可以包含多个符号(例如,两个、三个或四个符号),其中,符号数量与在图5的方法中在暂停之间发送的符号数量不同。

在图5的方法中,调制后的数据块具有最大信号幅度。在一些示例中,报头部分在被调制到声载波信号上时至少包括该最大信号幅度。在报头部分中包括最大信号幅度允许接收设备确定用于对信号进行解调的参考调制信号幅度。报头部分的各种配置是可能的,并且取决于诸如相关联的数据块的大小以及数据被编码和/或调制的方法之类的因素,特定的配置可以适合于特定的应用。下面将针对使用16-QAM对数据进行调制的示例来更详细地描述特定示例。

图6示出了16-QAM调制方案的示例的星座图。四个连续的二进制比特的每个可能排列都映射到I-Q平面中的一个点(其中,I是调制信号的同相分量,并且Q是调制信号的正交分量)。注意,图6的映射仅是示例,其他映射也是可能的。从原点到图中每个点的矢量的相位和幅度(换句话说,每个点的相量)对应于调制后的声载波信号的相位和幅度。每个符号对应于图中的点之一,并且因此表示或传送四个数据比特。据观察,在该示例中,声载波信号具有三个不同的幅度状态,对应于图6中箭头所示的三个相量的大小。最大载波信号幅度对应于四个符号传送比特序列1011、0011、1111、0111(对应于距原点最远的点)之一。最小载波信号幅度对应于四个符号传送比特序列1000、0000、1100、0100(对应于最接近原点的点)之一。中间载波信号幅度对应于其余八个符号之一。在一些实施例中,报头部分可以包括每个幅度的至少一个符号。例如,使用图6的映射,报头部分111100001010包含三个符号,每个可能的载波信号幅度之一(对应于图8中的三个箭头)。在其他示例中,报头部分可以包括每个幅度的多个符号。例如,报头部分1111000010100101包含四个符号,两个是中间幅度符号(对应于图8中的四个空圆圈)。报头部分1111000010100101包括同相分量和正交分量的幅度的每个组合。接收设备可以使用报头部分中的信号幅度或信号分量来确定报头部分之后的调制数据的参考幅度。

除了用于识别数据块的开始和/或确定接收信号的参考幅度之外,报头部分还可以用于确定接收信号的定时,这将在下文中更详细地描述。报头部分还可以用于发送相关联的数据块的元数据。例如,报头部分可以传送指示用于随后的数据部分的传输和暂停模式(例如,第一持续时间的长度和第二持续时间的长度)的数据,发送设备可以动态调整该报头部分。在诸如图4的实施例中(其中,回放设备使用超声信号发送数据),当同时执行音频再现时,回放设备可以使用第一传输和暂停模式,并且当没有同时执行音频再现时,可以使用第二传输和暂停模式。与数据块相关联的报头部分可以包括指示哪个模式将用于该块的数据,使得接收设备可以适当地处理信号。

在一些实施例中,在数据块之后,在声载波信号上发送尾部。尾部具有与调制数据的每个部分的持续时间不同的预定持续时间。在一些示例中,每个数据块与报头部分和尾部一起发送。在另一示例中,尾部可以仅在整个消息的末尾发送(如上所述,该消息可以包含若干个数据块)。以此方式,接收设备可以容易地识别长度变化的消息。

在发送报头部分和尾部的示例中,尾部可以具有与相应的报头部分相同的持续时间或与相应的报头部分不同的持续时间。尾部可以包含与相应的报头部分不同的符号序列,从而允许接收设备区分尾部和报头部分。尾部可以例如包含报头部分的反向比特序列,或者可以包含报头部分的反向符号序列。当被调制到声载波信号上时,尾部可以至少包含调制后的数据块的最大信号幅度,并且可以包含调制后的数据块的每个信号幅度,或者同相分量和正交分量的幅度的每种组合。例如,使用图6的符号映射,传送比特序列1010010100001111的尾部包含每个幅度的至少一个符号,以及同相分量和正交分量的幅度的每种组合的一个符号。该序列1010010100001111是报头部分序列1111000010100101的反向比特序列。序列0101101000001111是报头部分序列1111000010100101的反向符号序列。

主要设计用于音频再现的设备通常使用44.1kHz或48kHz的采样速率,由于Nyquist-Shannon采样定理,它们足以分别重构高达22.05kHz和24kHz的频率。然而,重构信号被低通滤波(其截止点低于该频率)以减少混叠的影响,使得例如重构音频的信号功率降低到高于约20kHz。已经发现,电声换能器可以在高于20kHz的频率下操作,并且这允许使用高于20kHz的频带进行数据传输,而无需对信号链中的其他电子设备进行重大改变,该信号链中的其他电子设备被设计为对至少以44.1kHz采样的数据进行操作。因此,这些采样速率足以分别使用频率高达22.05kHz和24kHz的超声信号发送数据。应当理解,具有大于48kHz(例如,92kHz或192kHz)的采样速率的音频格式可以允许更大的带宽以用于高于20kHz的频带中的数据传输,这取决于换能器再现数据传输所需的功率水平处的那些频率的能力。

可以发送符号的速率低于超声载波信号的频率,使得可以针对每个符号正确地恢复载波信号的幅度和相位。在示例中,符号速率可以在10Hz和100Hz之间。尽管可以使用更高的符号速率,但这会增加信噪比(SNR),并使对信号的解调更具挑战性。对于使用QAM-16调制的示例,数据速率(比特速率)是符号速率的四倍。数据速率可以在例如40Hz至400Hz之间。注意,一些设备能够使用更高的采样速率(例如,96kHz采样)进行高分辨率的音频再现。对于这种设备,可以实现更高的载波信号频率(假设换能器能够生成这种信号),并且因此可以实现更高的符号速率和数据速率。

图4示出了被配置为接收数据的接收设备。在该示例中的接收设备是被配置为用作控制设备430的智能电话。控制设备430具有与图1H所示的控制设备130a的组件基本相同的组件。控制设备430被配置为根据图7的方法接收数据。

如图7所示,接收数据的方法包括:麦克风在S710处接收声音,该声音包含在间歇性载波信号上调制的数据块。如上面参照数据传输所讨论的,可以根据任何合适的调制方案来对数据块进行调制。在图4的示例中,回放设备410使用16-QAM对数据进行调制。

在S720处,对所接收到的声音进行采样,以生成采样数据流。采样数据流包括在采样点集合中的每个采样点处的信号值,其中,基于预定采样速率(例如,44.1kHz或48kHz)分开采样点。采样速率可以与发送数据块的设备的采样速率相同。对于本方法来说,在发送设备和接收设备之间匹配采样速率不是必需的,只要接收采样速率至少是调制数据的奈奎斯特(Nyquist)频率的两倍(在这种情况下,奈奎斯特频率是调制后的数据信号的最大频率)即可。

对采样数据流进行解调,使得可以对数据进行解码和进一步处理。对采样数据流进行解调包括:在S730处,对采样数据流中与存在间歇性超声载波信号的第一持续时间相对应的部分进行解调;然后,在S740处,忽略采样数据流中与不存在间歇性超声载波信号的第二持续时间相对应的部分。在使用QAM调制方案对数据进行调制的示例中,对采样数据流的每个部分进行解调涉及将该部分与余弦信号和正弦信号相乘,并对结果进行低通滤波以恢复基带I值和Q值。基带I值和Q值对应于符号,每个符号根据诸如图6所示的映射对预定数量的数据比特进行编码。

然后在步骤S750处确定是否有其他数据正在等待解调。如果还有其他数据,则重复S730处的解调和S740处的忽略。

如上所述,忽略采样数据流中与声载波信号的传输中的暂停相对应的部分。在一些示例中,接收设备可以例如通过确定声载波信号的幅度接近于零,在解调过程之前或在解调过程期间检测采样数据流的这些部分。在其他示例中,接收设备可以使用所接收到的声音信号中的报头部分和/或尾部来确定要忽略数据流的哪些部分。该方法可能导致接收设备的处理减少,因为对于确定要忽略的数据流部分,需要最少的处理。

图8示出了使用图5的方法发送的示例所接收到的声音信号的波形。所接收到的信号包含三个数据块860,每个块包括四个符号862。每个块中的符号由具有等于一个符号的持续时间的暂停864分开。在该示例中,出于说明的目的,不发送报头部分或尾部,并且数据块中的每一个都是相同的以证明数据传输的可重复本质。

图9示出了来自图8的解调后的声音信号波形的同相分量和正交分量,该波形包含四个16-QAM符号,其中,该四个符号由具有等于一个符号的持续时间的暂停分开。实线表示同相分量,并且虚线表示正交分量。在该示例中,水平轴描绘了来自以44.1kHz速率采样的数据的采样数。符号速率为40Hz,对应于160Hz的数据速率。使用图6所示的符号映射,解调后的数据块传送比特序列1010011010000100。

在一些实施例中,根据图7接收数据的方法还包括在对所接收到的声音进行采样之前,用高通滤波器处理所接收到的声音。高通滤波器的截止频率小于或等于所预期的声载波信号的最低频率,例如,小于约20kHz。在一些情况下,打开或关闭声载波信号的过渡导致信号中出现不期望的瞬变伪像。如上所述,这些伪像可能是在数据信号的传输期间起源的,或者可能起源于接收机处。在任何一种情况下,这种伪像可能会使由接收设备中的电子设备接收到的信号内的数据模糊不清。用高通滤波器处理所接收到的声音可以减少这种伪像,从而提高对采样数据流的解调的可靠性。在将数据调制到超声载波信号上的示例中,高通滤波器还可以用于从可听背景声音(例如,由一个或多个回放设备进行音频再现所生成的声音)中提取超声信号。

如上所述,在一些实施例中,具有预定持续时间的报头部分在调制到声载波信号上的数据块之前,该预定持续时间与在声载波信号的暂停之间发送的数据的每个部分的持续时间不同。因此,执行图7的方法的接收机设备可以例如通过检测具有报头部分的预定持续时间的声载波的连续传输来检测所接收到的声音中的报头部分。接收机设备可以使用报头部分来识别数据块的开始。通过检测报头部分来识别数据块的开始导致对数据块定时的粗略估计。粗略的定时估计可以精确到例如符号的一小部分,例如,符号的五分之一或十分之一。报头部分还可以用于确定数据块的精细定时估计。精细定时估计可以精确到几个样本的持续时间内或各个样本之间的间隔。例如,报头部分可以包括预定的符号序列。通过在所接收到的报头部分和预定符号序列之间针对候选定时偏移集合执行互相关,可以确定精细定时,其对应于给出互相关最大值的候选定时偏移。与仅使用粗略定时估计相比,确定数据块的精细定时估计可以允许更精确地对数据进行解调和解码。

在一些实施例中,接收数据块包括处理报头部分以确定参考调制信号值。参考信号值可以是幅度。对于使用涉及幅度调制的调制方案(例如,QAM或ASK)对数据进行调制的示例,确定参考信号幅度可能是必需的。报头部分可以例如至少包含调制信号的最大信号幅度。确定最大信号幅度可以涉及确定所接收到的报头部分中的最大信号幅度。在其他示例中,报头部分可以包括调制信号内的每个信号幅度,例如,如上面参照图6所讨论的。在这种情况下,例如可以通过测量报头部分中不同符号的信号幅度来确定多于一个的参考信号幅度。

除了报头部分在数据块之前以外,在数据块之后可以是尾部。除了检测报头部分之外,或者作为检测报头部分的备选方案,接收设备还可以检测所接收到的声音中的尾部。在一些示例中,接收设备可以使用尾部来识别数据块的末尾。在一些示例中,尾部可以仅在整个消息的末尾发送(如上所述,该消息可以包含若干个数据块)。然后,接收设备可能能够识别任意长度的各个消息。

尾部可以用于以与上述报头部分类似的方式确定数据块的粗略定时估计和精细定时估计。通过组合分别使用报头和尾部确定的估计(例如,通过取平均值(例如,算术平均值)),可以确定对数据块定时的更精确估计。类似地,尾部可以用于确定一个或多个参考调制信号值。通过组合使用报头部分和尾部确定的参考信号值,可以确定更精确的参考信号值。此外,如果参考信号值在报头部分和尾部之间变化,则可以针对数据块确定内插变化的参考信号值。例如,可以假设线性变化的参考信号值。

上述方法可以用于使用声音信号在设备之间传输数据。在图4的实施例中,回放设备410向接收设备传输数据,该接收设备在该示例中是类似于上面参照图1H所讨论的控制设备430,并且经由网络连接到包含回放设备410的回放系统。在所示出的示例中,持有控制设备430的收听者403走进回放设备410所位于的房间401中。回放设备410被配置为使用以上参照图5描述的方法来发送与回放设备410的声学标识符相对应的数据块。在该示例中,声学标识符是与回放设备410相关联的符号序列,其允许接收设备识别回放设备410。在该示例中,回放设备410被配置为以规则的间隔发送声学标识符,但是在其他示例中,回放设备可以被配置为基于触发事件(例如,当回放设备被打开时,或响应于从控制设备接收到控制信号)发送声学标识符。

声学标识符可以在单个块中发送,或者可以在若干个块中发送。回放设备可以具有预定声学标识符,例如,与任何其他回放设备的声学标识符不同的唯一的预定声学标识符。备选地,回放设备可以具有动态分配的声学标识符,例如以确保回放系统中的回放设备具有不同的声学标识符。因此,回放设备的声学标识符可以随着回放系统的配置的改变而改变。动态分配的声学标识符可以由与回放系统相关联的计算系统自动分配。与唯一的预定声学标识符相比,声学标识符的动态分配允许声学标识符更短,这在发送和接收声学标识符的可靠性和效率方面可以是有利的。

声学标识符可以用于识别回放设备、包含该回放设备的回放地区、和/或包含该回放设备的回放地区的地区组。在一些示例中,相同回放地区和/或地区组内的回放设备可以发送相同的声学标识符。回放地区和/或地区组内的回放设备可以同步或异步地发送相同的声学标识符。在一些示例中,回放地区和/或地区组内的回放设备的子集可以发送声学标识符。在其他示例中,两个或更多个回放设备可以被绑定或配对以形成合并的播放器或绑定的播放器,如上面参照图1I-图1K详细描述的。在这种情况下,一个或多个绑定或配对的回放设备可以被布置为发送绑定或合并的播放器的声学标识符。在一些示例中,两个或更多个绑定或配对的回放设备可以轮流发送声学标识符。如果声学标识符被频繁地发送,则轮流发送声学标识符可以减轻例如由回放设备的换能器中的热能积累引起的对回放设备或回放设备的音频再现的任何不利影响。

控制设备430使用以上参照图7描述的方法来接收声学标识符。控制设备430可以被配置为响应于从回放设备410接收到声学标识符来执行各种动作。例如,控制设备430可以显示与回放设备410相关联的用户接口,或者包含回放设备410的回放地区或地区组,使得收听者403能够控制回放设备410的音频再现。当收听者403从一个房间走到另一个房间时,控制设备430可以自动更新用户接口以指示收听者403已经进入了与新回放设备、回放地区或地区组相关联的区,使得收听者403能够控制收听者403当前所在的任何房间中的音频再现。

使用图5和图7的方法,还可以在回放设备410和控制设备430之间传输其他形式的数据。例如,数据可以包括用于包括回放设备410的回放系统的认证信息,然后控制设备430可以使用该认证信息以加入回放系统的网络。使用声音通道来发送数据可以允许在控制设备保持与回放系统所使用的网络以外的另一网络连接的同时,通过声音通道接收数据,或者可以允许通过使用附加的通信信道来增强安全性。

图10示出了在设置过程期间第一回放设备1010a向第二回放设备1010b传输数据的示例。在该示例中,第一回放设备1010a和第二回放设备1010b经由网络连接以形成回放系统的一部分,但是最初没有配对。例如控制设备1030的用户1003将第一回放设备1010a置于设置模式。将第二回放设备1010b置于接收模式,在该接收模式中,第二回放设备1010b监听数据传送声音信号。第一回放设备1010a使用图5的方法发送数据,指示第一回放设备1010a准备好配对。在该示例中,由第一回放设备1010a发送的数据包括第一回放设备1010a的声学标识符。第二回放设备1010b使用图7的方法来接收数据。响应于从第一回放设备1010a接收到数据,第二回放设备1010b使用从第一回放设备1010a接收到的声学标识符经由网络(或者备选地,经由另一声音信号)向第一回放设备1010a发送消息,以识别第一回放设备1010a,并进入与第一回放设备1010a的配对模式。

一旦第一回放设备1010a和第二回放设备1010b已经进入了配对模式,则第一回放设备1010a和第二回放设备1010b的配对或绑定可以例如由控制设备1030的用户1003来配置。在该示例中,第一回放设备1010a和第二回放设备1010b将被配置为立体声对,其中第一回放设备1010a作为右扬声器,并且第二回放设备1010b作为左扬声器。将理解的是,其他配置也是可能的,例如,两个回放设备可以被配置为合并播放器。

诸如参照图10所描述的方法可以由多个回放设备执行,例如,导致自动形成新的回放地区和/或新的绑定或合并的回放设备。在一些示例中,例如,如果第一回放设备被设计用于相对低频的音频再现(例如,包含低音炮的回放设备)并且第二回放设备被设计用于相对高频的音频再现(例如,包含低音扬声器和/或高音扬声器的回放设备),则某些型号的回放设备被配置为以默认配置配对。在这样的示例中,第二回放设备从第一回放设备接收设置数据可以使第二回放设备自动地与第一回放设备配对,从而以默认配置形成绑定的回放设备。

在另一示例中,回放设备可以使用本文描述的方法向接收设备发送数据,以指示硬件故障或其他类型的技术故障的本质。已知的故障类型可以分别分配有唯一的故障代码,该故障代码可以由回放设备发送。例如,回放设备可以检测硬件故障并进入故障模式。回放设备可以例如通过点亮专用灯或改变回放设备上的光的颜色来指示其已经进入故障模式。备选地,回放设备可以使用可听信号(例如,蜂鸣声)来指示其已经进入故障模式。注意到回放设备已经进入故障模式,接收设备(例如,智能手机、平板电脑或笔记本电脑)的用户可以例如使用语音通话、使用专用应用、或经由与回放设备相关联的更通用的应用的用户接口连接到技术支持服务。所接收到的数据可以由接收设备或由技术支持服务进行解调和解码。接收设备或技术支持服务可以从解调和解码的数据中确定硬件故障的本质。取决于故障的本质,接收设备或技术支持服务可以向用户提供纠正故障的指示,或者备选地将用户连接到技术支持团队的适当成员。所描述的指示技术故障的本质的数据传输可以消除人类用户向人描述故障的需求,从而节省了用户和技术支持服务的时间,并且通过确保不会错误检测到故障来提高可靠性。当故障意味着发生故障的设备的网络接口不可操作或错误操作时,这可以允许发送故障数据,这在设备具有有限的用户接口来指示故障的本质时可以是有用的。

IV.结论

以上关于回放设备、控制器设备、回放地区配置和媒体内容源的讨论仅提供了操作环境的一些示例,在该操作环境中可以实现下面描述的功能和方法。本文未明确描述的媒体回放系统、回放设备和网络设备的配置和其他操作环境也可以适用且适于功能和方法的实现。

以上描述尤其公开了各种示例系统、方法、装置和尤其包括在硬件上执行的固件和/或软件的制品。应当理解的是,这些示例仅是示意性的,而不应当被认为是限制性的。例如,可以想到,这些固件、硬件和/或软件方面或组件中的任意一个或全部可以专门在硬件中实现、专门在软件中实现、专门在固件中实现、或在硬件、软件和/或固件的任意组合中实现。因此,所提供的示例不是实现这些系统、方法、装置和/或制品的唯一方式。

此外,本文对“实施例”的提及意味着结合实施例描述的特定特征、结构或特性可以包括在本发明的至少一个示例性实施例中。在说明书中各处出现该短语不一定都指代相同的实施例,也不是与其他实施例互斥的分离的或备选的实施例。因此,本领域技术人员应当显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例组合。

主要在说明性的环境、系统、过程、步骤、逻辑块、处理以及直接或间接地与耦合到网络的数据处理设备的操作相类似的其他象征性表示的方面上,提出本说明书。本领域技术人员通常使用这些处理描述和表示,以向本领域技术人员的其他技术人员传播他们的工作内容。阐述了各种具体细节,以提供本公开的透彻理解。然而,本领域技术人员应理解,不需要特定、具体细节就可以实施本公开。在其他实例中,没有描述熟知的方法、过程、组件和电路,以避免不必要地使实施例的方面模糊不清。因此,本公开的范围由所附权利要求而不是前述实施例的描述来界定。

当所附权利要求中的任一项权利要求被理解成涵盖纯软件和/或固件实现时,在此明确限定至少一个示例中的至少一个元素以包括存储软件和/或固件的非暂时性有形介质,如存储器、DVD、CD、蓝光等。

例如,根据以下所述的各个方面示出了本技术。为了方便起见,将本技术各方面的各种示例描述为编号示例(1、2、3等)。这些仅作为示例提供,并不限制本技术。请注意,任何从属示例可以以任何组合被组合,并且被放置在相应的独立示例中。可以以类似的方式呈现其他示例。

示例1:一种发送数据的方法,所述方法包括:将数据块编码为多个要发送的符号;将所述符号调制到声载波信号上以生成调制数据;以及使用电声换能器通过以下步骤发送所述调制数据:在第一持续时间内发送所述调制数据的一部分;在第二持续时间内暂停发送;以及对所述调制数据的其他部分重复所述发送和暂停。

示例2:根据示例1所述的方法,包括在发送所述调制数据之前使用高通滤波器处理所述调制数据,其中,所述高通滤波器的截止频率小于或等于所述调制数据的最低频率。

示例3:根据示例1所述的方法,包括在所述调制数据之前发送报头部分,所述报头部分具有与所述第一持续时间不同的预定持续时间。

示例4:根据示例3所述的方法,其中,所述调制数据具有最大信号幅度,并且其中,所述报头部分在被调制到所述声载波信号上时至少包括所述最大信号幅度。

示例5:根据示例1所述的方法,包括在所述调制数据之后发送尾部,所述尾部具有与所述第一持续时间不同的预定持续时间。

示例6:根据示例1所述的方法,其中,所述第一持续时间对应于所述调制数据中的一个符号的持续时间。

示例7:根据示例1所述的方法,其中,所述第二持续时间与所述第一持续时间基本相同。

示例8:根据示例1所述的方法,其中,所述第二持续时间基于所述电声换能器的特性。

示例9:根据示例8所述的方法,其中,所述第二持续时间是基于包含所述电声换能器的产品模型预先确定的。

示例10:根据示例1所述的方法,其中,所述符号速率在10Hz和100Hz之间。

示例11:根据示例1所述的方法,包括使用正交幅度调制(QAM)来调制所述符号。

示例12:根据示例1所述的方法,其中,所述声载波信号是超声载波信号。

示例13:根据示例1所述的方法,包括由所述电声换能器将音频信号随所述调制数据同时发送。

示例14:一种接收数据的方法,所述方法包括:通过麦克风接收声音,所接收到的声音包括在间歇性声载波信号上调制的数据块;对所接收到的声音进行采样,以生成采样数据流;以及通过以下步骤对所述采样数据流进行解调:对所述采样数据流中与第一持续时间相对应的部分进行解调,在所述第一持续时间中存在所述间歇性超声载波信号;忽略所述采样数据流中与第二持续时间相对应的部分,在所述第二持续时间中不存在所述间歇性超声载波信号;以及重复所述解调和忽略步骤以对所述采样数据流的其他部分进行解调。

示例15:根据示例14所述的方法,包括在对所接收到的声音进行采样之前使用高通滤波器来处理所接收到的声音。

示例16:根据示例14所述的方法,包括:检测所接收到的声音中的报头部分,所述报头部分具有与所述第一持续时间不同的预定持续时间;以及基于对所述报头部分的检测,确定所接收到的声音中的数据块的定时。

示例17:根据示例16所述的方法,包括处理所述报头部分以确定参考调制信号值。

示例18:一种回放设备,包括:用于生成音频信号的电声换能器;非暂时性存储设备,包括程序代码;以及处理系统:其中,所述程序代码在由所述处理系统执行时,使所述回放设备:将要发送的数据块编码为多个要发送的符号;将所述符号调制到声载波信号上以生成调制数据;以及使用所述电声换能器通过以下步骤发送所述调制数据:在第一持续时间内发送所述调制数据的一部分;在第二持续时间内暂停发送;以及对所述调制数据的其他部分重复所述发送和暂停。

示例19:根据示例18所述的回放设备,其中,所述第二持续时间基于所述电声换能器的特性。

示例20:根据示例18所述的回放设备,包括:麦克风和模数转换器;其中,所述程序代码在由所述处理系统执行时,使所述回放设备:使用所述麦克风接收声音,所接收到的声音包括第二数据块,所述第二数据块被调整在间歇性声载波信号上并由另一设备发送;使用所述模数转换器对所接收到的声音进行采样,以生成采样数据流;以及通过以下步骤对所述采样数据流进行解调:对所述采样数据流中与第一持续时间相对应的部分进行解调,在所述第一持续时间中存在所述间歇性超声载波信号;忽略所述采样数据流中与第二持续时间相对应的部分,在所述第二持续时间中不存在所述间歇性超声载波信号;以及重复所述解调和忽略步骤以对所述采样数据流的其他部分进行解调。

相关技术
  • 用于使用声音信号传输数据的方法和设备
  • 用于对宽带声音信号进行有效的编码的感觉加权设备与方法以及使用该设备的蜂窝通信系统
技术分类

06120113105177