掌桥专利:专业的专利平台
掌桥专利
首页

具有增强音频的设备

文献发布时间:2024-04-18 19:52:40


具有增强音频的设备

本申请是申请日为2012年7月27日的、名称为“具有增强音频的器件”的发明专利申请No.201210263011.X的分案申请。

技术领域

本发明总体上地涉及电子设备,更具体地,涉及电子设备的音频输出。

背景技术

诸如计算机、移动电话、音频播放器、膝上型计算机、平板计算机、电视机之类的电子器件典型地可以具有集成的音频输出器件(例如,扬声器)或者可以能够与音频输出器件通信。另外,许多电子器件还可以包括可视或视频输出器件或者与视频显示器件通信。

如果音频输出能够针对环境、周围的事物、状况、程序和/或外界进行调整,则许多音频/可视输出器件都可以能够具有增强的音频或视频输出。但是,许多音频和视频输出器件可能都需要用户输入或交互以便改变特定的输出或者可能不具有可变的输出设定。在这些情况下,音频和/或视频输出可以针对特定的环境、程序、状况等不执行或输出最佳质量的声音或图像。

发明内容

本公开内容的示例可以采取用于从计算器件输出音频的方法的形式。该方法可以包括通过传感器来检测用户。一旦用户被检测到,处理就确定该用户是否是用于音频输出器件的当前音频输出的最优范围。如果用户不处于最优范围之内,则处理器就修改音频输出。另外,传感器还确定用户是否面向于计算器件。基于用户的朝向,处理器调整音频器件。

本公开内容的其他示例可以采取用于增强计算机的音频的方法的形式。该方法可以包括通过传感器来确定用户相对于计算机的位置。一旦确定了用户位置,传感器就可以收集与计算机的环境对应的环境数据。然后,处理器调整环境数据和用户位置的视听设定视图。

本公开内容的又一些其他示例可以采取包括计算机和输出器件的用于增强音频的系统的形式。计算机包括配置用于确定用户相对于计算机的位置的传感器。该传感器还被配置用于收集与计算机的环境对应的环境数据。计算机还包括处理器,该处理器与传感器通信并且被配置用于处理用户位置和环境数据以及调整音频输出或视频输出中的至少一个。输出器件与处理器通信并且被配置用于输出音频输出或视频输出中的至少一个。

附图说明

图1A是示出用于增强音频输出的系统的图。

图1B是图1A的系统的计算机的框图。

图1C是示出通过网络与第二计算机通信的计算机的图。

图2是具有所示出的选定的音频和视频处理路径的图1A的系统的框图。

图3是示出用于基于用户位置和方位来调整音频输出的示例性方法的流程图。

图4是用于增强音频和/或视频输出的示例性方法的流程图。

图5A是显示多人视频会议的计算机的图。

图5B是由第二计算机捕捉的显示于图5A的计算机上的用户的平面顶视图。

图5C是具有所增强的人员A和B的音频和视频的图5A的计算机的图。

图6是示出用于在图5A-5C所示的视频会议会话期间增强特定人员的音频和/或视频的示例性方法的流程图。

图7A是即时通讯、语音或视频聊天程序运行并显示多个实例的计算机的图。

图7B是与图7A的多个音频/视频实例对应的音频A、B、C、D的音频方向的图。

图8是示出用于引导特定的音频/视频实例的音频的示例性方法的流程图。

图9是根据一些实施例的增强系统的功能框图。

具体实施方式

在本文的某些实施例中,本公开内容可以采取用于基于诸如活动的应用、用户交互和环境参数之类的一个或多个准则来增强电子器件的音频输出的方法的形式。该方法还可以包括在没有显著的(若存在的话)活动的用户交互的情况下提供用户输入。换言之,系统可以依靠传感器和成像器件来插入用户输入,使得用户可以不必物理地或有意地将它们输入系统内。这可以允许音频输出器件针对不同的用户参数来动态地调整,以在不需要直接来自用户的有效输入的情况下增强音频输出。

在一种实施例中,系统可以为视频会议或聊天而增强音频输出。某些用户可以使用视频会议来与一群人进行会谈。例如,旅行在外的父亲或母亲可以与整个家庭(包括孩子和配偶)进行视频会议。在人群当中,有些人可能位于距离计算机的较近处或较远处。另外,还可能有多个不同的人同时说话。在视频会议期间,在接收端的用户可能会难以确定每个人都在说什么,尤其是如果有多个人同时说话的话。

系统可以捕捉不同用户的图像(例如,经由摄像机),并且接收用户可以能够针对特定的用户来增强音频。例如,接收用户可以轻敲他或她希望具体聚焦到的特定用户的图像(或者以其他方式选择或指示该用户),并且系统既可以数字化增强音频也可以使传声器转向用户以便更好地捕捉用户的音频输入。在一个示例中,系统可以包括具有围绕显示屏的周边间隔开的多个传声器的计算机,并且既可以打开/关闭也可以旋转特定的传声器以便最佳地捕捉所期望的音频信号。

类似地,系统还可以被配置用于引导传声器,增强音频和/或将视频图像聚焦于正在讲话的人。嘴部跟踪或语音识别可以被用来将音频和/或视频聚焦于正在讲话的特定用户。这可以允许接收音频数据流的用户能够更好地听到正在讲话的用户(例如,系统的发送用户)。因而,用户的音频或视频图像中的任一个或两者的增强特征可以是自动的(例如,基于嘴部跟踪或者语音识别)或者可以基于用户输入(例如,用户能够选择用户或者聚焦区域)。

输出音频的质量可以至少部分地取决于环境。例如,回声消除可能是所期望的和/或受到房间的大小和声学效果的影响。可能影响输出音频的质量的两个因素可以包括房间尺寸和混响质量。在一种实施例中,系统可以被配置用于根据用户相对于音频输出器件的位置、用户相对于音频输出器件的方位(例如,正面面对或者把脸转开)以及环境输入(例如,房间的大小、房间的混响、温度等)来调整音频输出。用户的输入可以包括他或她在房间内的位置,他或她是否正面对音频输出器件等。而且,系统不仅可以基于用户和环境输入,也可以基于计算机或音频输出器件正在运行的当前应用,来改变音频输出。例如,如果应用是电话呼叫,则与音乐播放器应用相比,可以改变响应。

在各种实施例中,系统可以包括视频、音频和环境传感器。例如,可以使用图像传感器(例如,照相机)、深度传感器(超声波、红外、射频等)等。另外,所期望的输出还可以基于相对计算机的用户位置来改变,例如,如果用户远离计算机则处于大房间中,相对地,如果用户靠近计算机则处于小房间中。例如,如果对象在视频中呈现为远离用户来定位,则可以改变特定对象(或用户)的输出音频以使得用户听起来像是该对象位于远处。在本实现方式中,可以给远场图像的局部音频提供深度,以便增强用户整体的音频/视觉体验。

在又一些其他实施例中,系统可以被配置用于基于用户来调整输出音频。男性、女性和孩子全都可以具有不同的听力频谱(hearing spectrums),通常女性的听力比男性的好,而小孩的听力比成年男性或女性的好。系统可以使用语音或人脸识别或者其他性别识别技术,以便根据特定的用户来改变输出音频。

示例性系统

在一种示例性实施例中,本公开内容可以采取用于为用户提供增强的音频体验的系统的形式。图1A是用于提供增强音频的示例性系统100的框图。系统100可以包括计算机102或其他电子器件以及音频输出器件106、110(该音频输出器件106、110相对计算机102可以是集成的、分离的或两者的结合)。计算机102可以是基本上任意类型的具有处理能力的电子器件,包括,但不限于,膝上型计算机、平板计算机、智能电话、音频播放器和电视机。在本实施例中,计算机102与外部的音频输出器件110和集成的音频输出器件106通信。但是,应当指出,在某些情况下,系统100可以包括单个音频输出器件106、110,或者可以包括多个其他音频输出器件(例如,5扬声器环绕声系统(surround-sound 5-speaker system))。音频输出器件106、110可以是扬声器或扬声器组、头戴式受话器或者能够响应于电子信号来产生声音的其他器件。

音频器件106、110可以定位于计算机102上的和/或计算机102周围的基本上任何地方。音频器件106、110的类型、功率和结构可以影响由计算机102产生的音频的质量,而且可以影响可能需要用于产生最佳声音的各种软件改变。

图1B是示例性计算机102的框图。计算机102可以包括处理器118、网络/通信接口120、输入/输出接口126、视频输入/输出接口128、传感器124、存储器130、音频输入/输出接口132、视频传感器134和/或传声器136。计算机102的各种部件可以经由系统总线122(或者多个系统总线)电连接在一起。应当指出,任意各种部件都可以被省略和/或被结合。例如,视频输入/输出接口128可以与音频输入/输出接口132和通用的输入/输出接口126中的任一个或两者结合。而且,计算机102可以包括没有示出的另外的本地或远程的部件;并且图2旨在仅为示例性的。

处理器118可以控制计算机102及其各种部件的操作。处理器118可以是基本上任意电子器件线缆的处理器,用于接收和/或发送指令。例如,处理器118可以是微处理器或微计算机。

网络/通信接口120可以接收并发送各种电信号。例如,网络/通信接口120可以被用来将计算机102连接到网络以便经由网络向/从其他计算机或电子器件发送/接收信号。网络/通信接口120还可以被用来经由无线或有线连接(包括,但不限于,互联网、WiFi、蓝牙、以太网、USB和火线)来传输和发送电子信号。

存储器130可以存储可以由计算机102使用的电子数据。例如,存储器130可以存储含有任意类型的内容的电子数据,包括,但不限于,音频文件、视频文件、文档文件和数据文件。存储数据可以对应于计算机的一个或多个不同的应用和/或操作。存储器130一般地可以是任何格式,包括,但不限于,非易失性存储设备、磁存储介质、光存储介质、磁光存储介质、电存储介质、只读存储器、随机存取存储器、可擦除可编程存储器和闪存。存储器130可以被设置于计算机102的本地和/或远端。

各种输入/输出接口126、128、132可以提供与输入/输出器件的往来通信。例如,音频输入/输出接口132可以提供到音频器件106、110的输入以及自音频器件106、110的输出。类似地,视频输入/输出接口128可以提供显示器件(例如,计算机监视器、显示屏或电视机)的输入和输出。另外,通用的输入/输出接口126、128、132可以接收来自控制按钮、开关等的输入。在某些实施例中,可以将输入接口结合起来。例如,输入/输出接口126、128、132可以接收来自用户(例如,经由键盘、触敏表面、鼠标、可听输入或其他器件)、计算机102上的控制按钮(例如,电源按钮、音量按钮)等的数据。另外,输入/输出接口112还可以接收来自外部驱动器的数据/将数据发送到外部驱动器,例如,通用串行总线(USB)或者其他视频/音频/数据输入。

如在图1C中所见,在某些情况下,计算机102可以经由网络138与第二计算机103通信。另外,如图1C所示,在某些情况下,计算机102可以经由网络140连接到另一或第二计算机103(或服务器)。例如,计算机102可以与第二计算机103连接,以用于会议或聊天应用。另外,计算机102可以接收来自第二计算机103的流式音频和/或视频。

网络138提供在第一计算机102和第二计算机103之间的电子通信。网络138实际上可以是任意类型的电子通信机制/路径,并且可以是无线的、有线的或者有线和无线的结合。网络138可以包括互联网、以太网、通用串行总线(USB)线缆或无线电信号(例如,WiFi、蓝牙)。

传声器136可以被集成于计算机102或者与处理器118单独连接和通信。传声器136是声-电发送器,并且被配置用于接收音频输入和产生与该音频对应的电输出。可以存在多个传声器136被并入计算机102或者以其他方式与计算机102通信。例如,在某些实现方式中,可以存在定位于计算机102四周的多个位置的多个传声器的传声器阵列。

视频传感器134可以是一个或多个视频或图像捕捉器件。视频传感器134可以集成于计算机102内(例如,与计算机102的外壳连接),和/或可以是外部的且与计算机102通信。视频传感器134可以被用来捕捉可用于诸如视频会议/聊天之类的多种应用的视频和静止图像。

图2是示出从输入到输出的示例性音频/视频处理路径的系统100的框图。参考图1A、1B和2,系统100可以在各个传感器之间通信,以增强并调整音频和视频输出。视频传感器134可以给处理器118提供视频输入,杂项(miscellaneous)传感器124可以给处理器118提供用户和环境数据,以及音频输入132可以给处理器118提供输入音频。处理器118可以单独地或共同地处理各种输入,并且调整视频和音频输出以呈现到扬声器110和/或显示器104。

在一个实例中,视频传感器134、传感器124和音频输入132可以提供有关用户和/或计算机102的环境(例如,房间、周围的事物)的图像数据。然后,处理器118可以增强或改变给扬声器110提供的音频输出特性,以提供增强的音频体验。音频输出对用户听起来的方式可以取决于用户相对于音频输出器件定位于何处,以及房间或环境的特性,或者受到它们的影响。如果音频特性或设定不改变,则在第一房间内具有特定声音的音频信号在第二房间内听起来可能是明显不同的。例如,如果第一房间小于第二房间,或者如果第一房间具有地毯而第二房间具有木地板。

因此,在接收到视频和图像输入及音频输入132(例如,回声特性、用户相对于计算机102的位置、用户相对于计算机102的方向)之后,音频和视频输出能够由处理器118来增强。这可以使计算机102能够调整音频和/或视频,以最佳地适应用户和/或环境。

如在图2中所见,处理器118可以包括分离的处理单元,例如,图像处理单元142、用户/环境接口处理单元144、音频处理单元146和输出处理单元145。这些处理单元142、144、145、146可以集成于处理器118内或者可以是独立的器件。每个处理单元142、144、145、146都可以与特定的传感器通信,以便接收来自传感器的输出并且调整传感器输入。例如,音频处理单元146可以引导或使传声器136转向正讲话的特定用户,以更好地捕捉他或她的语音。类似地,图像处理单元142可以使视频传感器134聚焦于特定的用户或者对特定的用户进行缩放。在又一些其他实例中,用户/环境接口处理单元144可以引导特定的传感器124来收集另外的环境/用户数据。另外,输出处理145可以包括频率滤波器,以对音频信号进行后处理(例如,降低噪声频率,提高特定的频率等),校正音频电平的误差,将响度调整至特定的水平(例如,使音频输出均衡),回声消除,使滤波器峰化等。

基于用户位置和方位来调整音频输出

图3是示出用于基于用户位置和方位来调整音频输出的示例性方法200的流程图。方法200可以从操作202开始,并且计算机102可以检测一个或多个用户。计算机102可以使用传感器124来捕捉一个或多个用户的运动,可以使用视频传感器134来捕捉和分析一个或多个用户的图像(例如,人脸识别),或者可以使用音频传感器132来捕捉一个或多个用户的噪声。

一旦一个或多个用户被检测到,方法200就可以进入操作204,并且计算机102可以基于当前音频输出设定和扬声器110的布置来确定该一个或多个用户是否处于最优范围内。例如,计算机102可以使用各种传感器来确定用户位置。计算机102可以使用相同的传感器和方法来检测用户的存在,以确定用户相对于计算机102和/或扬声器110的位置。对用户位置的检测可以是估计量或单个输入,例如,计算机102可以简单地检测出用户不在计算机102正前方,或者检测可以是更详细的并且计算机102可以使用更高级的传感技术来确定用户相对于计算机102的近似位置。

一旦用户的位置被确定了,计算机102就可以将用户的位置与当前音频输出设定进行比较,以基于用户的方位来确定音频是否处于最优范围。举例来说,如果用户位于距离计算机102几码处,并且音频被配置成输出得好像用户正坐在扬声器110或计算机102正前方,则可能需要调整音频。可以针对用户来调整音频,从而可以增大音量,可以打开外部扬声器110,关闭内部扬声器106,可以将环绕声从“幕前声道”设定切换成环绕声格式,或者可以将环绕声道从内部扬声器重定向为外部扬声器以及左环绕声道和右环绕声道。另一方面,如果音频已经以距离设定来调整或配置过,则音频可以不需要基于用户位置来调整。

如果音频需要为了最佳地适合于用户位置而进行调整,则方法200可以进入操作206。操作206可以基于用户位置来调整音频。如果用户被定位为远离计算机102或扬声器106、110,则计算机102可以激活外部扬声器110并关闭内部扬声器106。例如,外部扬声器110可以形成环绕声扬声器阵列的一部分,并且因此与内部的计算机扬声器106相比,可以提供更好的“房间”声音体验。类似地,如果用户在计算机102正前方,则计算机102可以调整音频,从而激活内部扬声器106。

另外,计算机102可以调整各种音频设定,包括,但不限于,音量、低音、高音、频带级。这可以允许对音频信号进行调整,即使可能只有单组扬声器106、110和/或扬声器106、110不可以调整。

一旦基于用户位置调整了音频,或者如果因为用户已经处于设定的音频范围内故而在操作204中不需要调整音频,则方法200可以进行到操作208。在操作208中,实施例确定用户是否朝向计算机102。这可以是任选的操作,因为如果用户位于远离计算机102的位置,则可能难以(在没有强大的传感器的情况下)确定用户是否正面向计算机102。但是,在其他实施例中,如果用户相对接近于计算机102或者如果系统100包括适当的传感器,则计算机102可以确定用户相对于计算机102的各自朝向。同样地,应当指出,在某些实施例中,用户的朝向可以相对于扬声器106、110来确定。这可以通过在扬声器106、110上包含传感器或者通过实现用户相对于计算机102的朝向以将其与扬声器106、110相对于计算机102的位置进行比较来完成。

在操作208中,计算机102可以经由视频传感器134来捕捉或以其他方式提供用户的图像。图像处理单元146可以使用视线跟踪来跟踪用户眼睛的视线,使用人脸识别或其他类似的方法来确定用户的头部相对于计算机102的方向。一旦用户相对于计算机102的朝向被确定了,方法200就可以进行到操作210。

操作210调整音频输出器件以及可选地调整用户输入器件,以适应新的用户位置。例如,计算机102可以改变扬声器106、110和/或音频信号,以便更好地适应用户的方向。此外,如果用户已经在使用传声器136(例如,用于电话呼叫、视频聊天、口述),则计算机102可以使传声器136转向用户嘴部的方向。在操作210之后,计算机102可以将音频信号提供给扬声器106、110。

基于用户或程序的增强

在其他实施例中,系统100可以被用来根据用户和/或程序的偏好而增强音频和/或视频输出。图4是用于增强音频和/或视频输出的示例性方法300的流程图。方法300可以从操作302开始,并且计算机102可以使用计算机102来确定特定的用户。操作302可以在启动时确定用户可以在何处输入用户名称和/或密码。作为选择或除此之外,计算机102可以使用器件以另一种方式来确定用户,例如,默认用户、安全系统、人脸识别等。在用户被确定之后,方法300可以进行到操作304,并且用户(或计算机102)可以启动特定的应用。该应用可以是视频会议/聊天程序、音乐播放器、视频播放器等。该应用可以包括音频和/或视频/图像方面。

在应用启动之后,或者在应用正在启动的时候,方法300可以进行到操作306。操作306确定计算机102、扬声器106、110和/或显示器件104的音频和/或视频设定是否被配置用于特定的应用。例如,计算机102和扬声器106、110的音频设定可以被配置用于播放音乐,然而所启动的应用可以是视频会议或电话会议程序。在本示例中,可以调整音频和扬声器106、110以更好地适应与音乐频率相对的语音频率,或者其他特性。例如,与可以较大的且包括较大的范围的音乐频率相比,语音频率一般可以是较低的并且具有较小的范围。因此,如果音频主要是人们的谈话,则音频可以通过带通滤波器来处理,从而可以增强较小范围的语音频率。类似地,如果音频是音乐,则音频可以是未经滤波的或者包括噪声滤波器以便能够输出全部频率范围。

如果在操作306中,计算机102确定音频或视频设定或者输出器件(扬声器106、110,显示器104)可能需要进行调整,则方法300进行到操作308。操作308调整相关的输出信号、设定和/或输出器件,以更好地关联于特定的应用。

一旦针对特定的应用配置了音频和/或视频,方法300就可以进行到操作310。操作310确定用户是否具有先前所存储的偏好。计算机102可能已经存储了先前由在操作302中被确定为正在使用计算机102的特定用户调整过的设定。计算机102可以自动地存储由特定的用户为选定的应用(或全部应用)调整的任意设定。或者,用户可以为特定的应用或者一般地在他或她可能正使用计算机102的任何时候有效地调整输入设定。

如果计算机102先前已经存储了有关用户偏好的信息,则方法300可以进行到操作312。操作312启动用户的特定偏好。操作312可以包括激活选定的输出器件(例如,外部扬声器110),调整音量、低音、高音或频率级。通过自动地调整特定的器件和设定以适应用户的偏好,计算机102可以根据用户的期望自动地增强音频和/或视频输出。同样地,应当指出,用户的偏好可以一般地或者针对特定的应用而基于音频/视频输出设定。例如,某一用户可能更喜欢任何电话会议或视频会议都具有低得多的音量并且只使用内部扬声器106,然而在使用音乐应用时,该用户可能更喜欢音量大一点并且使用外部扬声器110和集成的扬声器106。

而且,应当指出,用户偏好可以包括针对多个独立的应用同时启动的情形的设定。该多个独立的应用可以包括用户正使用音乐播放器和视频聊天应用的情形,并且可以包括与这些应用中的任一个单独情形下的设定都不同的修改的设定。

一旦用户偏好被激活了或者不存在先前所存储/保存的用户偏好,方法300就可以进行到操作314。操作314确定用户相对于计算机102的距离、方位和/或位置。这可以类似于图2所示的方法200。例如,计算机102可以使用视频传感器134来捕捉用户的图像和/或跟踪用户的运动。视线跟踪功能可以被用来处理视频图像,以便确定用户的视线方向,也就是,用户看来正看着哪个方向。类似地,计算机102可以使用其他传感器124,例如,红外、热、温度、超声波或运动传感器来确定用户的近似位置。

一旦确定了用户相对计算机102的方位、距离和/或位置,方法300就可以进行到操作316。操作316确定何时需要基于用户相对于计算机102的距离、位置和/或方位来调整音频和/或视频输出。计算机102可以将用户的方位信息与当前的音频和/或视频设定进行比较,以便查看是否可以对音频和/或视频的设定和/或器件进行调整以提供更好的输出。设定和/或器件的信息可以针对特定范围的位置、方位和/或距离而存储于存储器130内。或者,设定和器件可以基于反馈回路或其他有效的调整机制来动态地调整。

如果在操作316中,音频和/或视频输出应当基于用户的方位来调整,则方法300可以进行到操作318。操作318可以调整音频和/或视频的输出,以适应可以针对用户和/或应用的特定位置产生最佳的输出的设定。例如,如果用户的头部从计算机106转开(并因而从内部扬声器106转开),则可以调整音频,从而可以提高音频体验,以适应用户的方位和距离。类似地,如果用户被定位为远离计算机102,则可以调整音频输出以具有不同的输出分布,和/或可以放大视频输出显示。

音频输出可以通过多种不同的方法来调整。音频输出信号可以在输出之前进行后处理。例如,音频可以被滤波以提高或降低特定的频率,可以包括不同通道的信号(例如,环绕声道),可以包括不同的低音或高音的设定等。类似地,音频调整同样可以在音频被输入时进行。例如,传声器136可以通过转向输入源的射束来引导,传声器136对特定用户的语音频率可以具有提高的灵敏度,未被引导向正在讲话的用户的其他传声器136或音频输入传感器132可以被关闭或者被降低,等等。

一旦音频和/或视频输出和器件被调整,方法300就可以返回操作314。由于方法300可以返回操作314,所以如果用户改变了他或她相对计算机102的方位、位置和/或距离,则可以动态地调整音频和/或视频输出和器件。因此,音频和/或视频输出可以在用户四处走动时自动地调整,以便提供基于该用户可以获得的最佳的音频和/或视频输出。

如果在操作316中,音频和/或视频输出已经基于用户的方位进行了调整,则方法300可以进行到操作320,并且可以收集环境数据。例如,使用传感器124、视频传感器134和/或音频输入132的计算机102可以收集计算机102四周的环境的特性。环境特性可以是诸如计算机102可以位于其内的房间/空间的估计大小、全球定位信息、温度、湿度、混响质量、到大的对象的距离等信息。

在一个示例中,计算机102(经由音频输入/输出132或扬声器106、110)可以发出声音,并且该声音及其产生的回声(若存在的话)可以由传声器132和/或其他传感器134来感测。所感测的回声响应以及所混响的音频声音的其他特性可以提供有关房间大小、房间的混响性质或其他类似的特性的信息。

在另一个示例中,诸如全球定位信息或者信号强度分析之类的信息可以被用来确定计算机102的场所。该场所可以被确定为用户的办公室、家、户外场所等(例如,通过由用户进行的编程、映射或其他参考信息)。

一旦收集到了环境数据,方法300就可以进行到操作322,并且计算机102可以确定音频和/或视频输出是否被设定用于特定的环境。例如,如果确定计算机102的场所位于用户的办公室内,则可以调整音频和/或视频设定以使其具有较低的音量。与用户在办公室时相比,他或她在家里时可能希望以较高的音量来播放音频。类似地,相比于在用户的家里使用计算机102来播放音频的情况,办公室一般的房间大小可能是较小的(例如,用户的特定办公室)。而且,在某些情况下,取决于计算机102的场所,可以将音频和/或视频静音或者防止其被显示,例如,在办公室或教室。

在另一个示例中,可能需要调整扬声器106、110的音频输出设定以对计算机102所处房间的混响质量或大小予以考虑。这可以包括对音频滤波以去除回声,降低可能会混响的某些频率,或者对音频的其他后处理。类似地,视频质量可能需要基于可能处于房间内的环境光量来调整,例如,增大或减小显示屏或视频信号的亮度。

如果在操作322中,计算机102确定音频和/或视频设定需要针对特定的环境进行调整,则方法可以进行到操作324。在操作324中,计算机调整相关设定以从扬声器106、110和/或显示屏104输出尽可能最佳的声音和/或成像。操作324可以包括提高/降低特定的设定(例如,亮度、对比度、高音、低音、音量),以特定的方式来改变输出信号(例如,对信号滤波以降低或提高某一频率),将输出信号与另一信号结合,或者其他类型的机制,以便调整音频或视频中的任一个或两者的输出。

一旦音频和/或视频被调整了,方法300就可以返回进行到操作320。以这种方式,计算机102可以继续收集环境数据,以防环境的一些方面会在音频和/或视频的调整之间发生了改变。类似地,通过返回至操作320,被改变的音频和/或视频设定可以被校验为适用于特定的环境。这可以提供反馈回路,使得设定可以被调整并然后被重新测试(以及在必要时重新调整)。

如果在操作322之后,计算机102确定音频和/或视频设定适用于特定的环境,则方法300可以进行到操作326。然后,计算机102可以将音频和/或视频提供给或传输给输出器件(例如,电视机或扬声器106、110)。

当计算机102正在提供音频和/或视频时,方法300可以继续到操作328。在操作328中,计算机102可以监控(经由传感器134)是否检测到了运动。例如,传感器134可以包括可跟踪用户是否改变了他或她的方位的运动检测器或其他运动传感器件。类似地,传感器134还可以包括加速计,该加速计可以确定计算机102是否是正在运动,使得计算机102可以确定用户是否正携带着或者以其他方式移动计算机102。

如果在操作328中没有检测到运动,则方法300可以返回至操作326。但是,如果在操作328中检测到了运动,则方法300可以返回至操作314。因此,如果用户和/或计算机102在音频和/或视频正在呈现的时候移动,则计算机102可以进一步确定音频和/或视频设定是否适当地针对所更新的环境和用户方位进行了设定。因此,计算机102能够动态地调整音频和视频回放的设定。这可以允许计算机102对音频和/或视频连续地进行调整,使得音频和/或视频可以能够以最好的(或期望的)设定来呈现。

视频会议

在其他示例中,系统100可以被用来提供增强的且用户可调整的视频会议系统。图5A是显示多人视频会议的计算机102的示例。从图中可见,显示器104可以包括人员A、人员B、人员C和人员D的图像。应当指出,可以存在更少的或更多的人,该系统也可以在没有任何人的情况下使用(例如,作为监视系统)。图5B是计算机102相对于人员A-D中的每个人的方位的平面顶视图。如图5B所示,每个人员A-D都位于相对于计算机102不同的位置。

由于每个人员A-D都位于不同的位置,并且到计算机102的距离是变化的,因而在图5A中,每个人员A-D在计算机102上的显示如人员A-D现实中那样对他们进行显示,也就是,处于不同的位置。另外,传声器136还可以基于他或她相对计算机102的方位对相关的人员A-D的语音和其他声音进行拾音。因此,在图5A上,人员A和B可以相对于人员C显示为较小,并且还可以一般地将人员A和B的声音输出为比人员C的声音更安静点。但是,在某些情况下,观看视频会议的用户可能希望让人员A和B听起来声更大和/或看起来更佳。例如,人员A和B此刻可能正在讲话,而用户可能希望将输出声音聚焦于他们的语音。

图5C示出了具有增强的人员A和B的音频和视频的图5A的计算机102。可从图5C中看出,人员A和B的图像被放大并且尺寸上与人员C的图像近似相等。类似地,尽管在图5C中未示出,但是来自人员A和人员B每个人的音频同样得到了增强。而且,可以将未增强的人员C和D最小化或隐藏,以便更大程度地增强人员A和人员B。或者,人员C和D可以保持为近似相同,使得人员A和B可以是与人员C和D近似相同的尺寸。而且,人员A和人员B的增强不仅可以包括他或她的图像,而且可以包括其他设定。例如,如果每个人员处于单独的聊天窗口内,则可以增强讲话人员(例如,人员A或人员B)的窗口,例如,聊天窗口可以改变颜色,包含边界或者修改该边界,窗口可以被放大,被拉向显示器的前端等。

图6是示出用于如图5A-5C所示在视频会议会话期间增强特定人员的音频和/或视频的示例性方法的流程图。方法400可以从操作402开始,并且计算机102可以确定是否存在多个用户或人与特定的视频会议会话关联。计算机102可以给用户提供选项以允许用户输入人数,或者计算机102可以经由人脸识别、语音识别、总的会议会话或显示计算机等来确定用户数。应当指出,参与视频会议会话的人员或用户可以被确定为单独的(例如,每个人单独一台计算机)、集体的(例如,每台计算机多个用户)或者单独和集体的结合(例如,某些用户是单独的,而某些是集体的)。

在一个示例中,如图5A-5C所示,计算机102可以确定存在四个人(人员A-D),尽管人员A-D每个人都可以在单台计算机102的前面。计算机102可以使用人脸识别、语音识别和其他多种传感器来确定出现于计算机102前面的人的数量。但是,在其他情况下,人员A-D每个人都可以在单独的计算机前面,但是也可以在计算机102的显示器上分组于一起,以呈现视频会议的单个接口。

一旦方法200确定了用户的数量,它就可以进行到操作404。操作404确定(多个用户中的)哪个用户正在讲话,如果有的话。计算机102可以通过语音识别、音频传感器、图像数据等来确定用户是否正在讲话。一旦确定了讲话的用户,方法400就可以进行到操作406,并且计算机102可以将诸如音频输入传感器(传声器)之类的传感器转向或导向讲话的用户。例如,音频输入传感器可以朝向讲话的用户旋转,或者可以激活定向传声器或使其转向讲话的用户。

在音频输入传感器进行了射束转向或者以其他方式被导向讲话的用户之后,方法400可以进行到操作408。操作408确定用户(或计算机102)是否希望增强输出视频以聚焦于讲话的用户。例如,在确定了讲话的用户之后,计算机102可以给观看用户提供关于他或她是否希望对讲话用户的视频图像进行聚焦的选项。或者,作为选择,计算机102可以自动地增强讲话用户的输出,这可以是视频会议应用的设定。

如果在操作408中将要增强讲话用户的视频输出,则方法400进行到操作410,并且可以增强视频输出和/或视频输入(例如,视频传感器134),以便放大讲话用户或对其聚焦。例如,如图5C所示,人员A和人员B的输出视频可以被增强,使得人员A和B可以看起来比人员C更接近屏幕。

在操作410之后或者如果在操作408中没有将输出视频聚焦于讲话的用户上,则方法400可以进行到操作412。操作412确定讲话用户是否位于偏离显示器104的中心的地方。例如,计算机102可以使用人脸识别、音频识别等来确定讲话的用户位于显示器104的什么地方。例如,计算机102可以确定人员A正在讲话,以及他或她在显示器104上正显示于屏幕的右侧。但是,如果在操作412中人员C是讲话用户,则计算机102可以确定讲话的用户基本上位于显示器104的中心。

如果在操作412中讲话的用户位于偏离显示器104中心的地方,则方法400可以进行到操作414。操作414增强了视频会议的音频输出,使得讲话用户的音频可以朝向讲话用户被显示于其上的显示器104的一侧改变角度。例如,以图5C所示的布置,可以设定音频输出器件106、110,以使其具有好像是从讲话用户的位置(即,显示屏104的右侧)传来的音频声音。以这种方式,观看/观察的用户可以听见讲话用户的来自该用户被显示的位置的音频。

使音频与位置对应

在其他实施例中,系统100可以被配置用于基于视频会议窗口或实例的位置来改变音频输出。图7A示出了即时通讯、语音或视频聊天程序正在运行的计算机102。例如,计算机102可以正在运行诸如苹果公司的iCHAT或Facetime之类的程序。显示器可以包含多个聊天实例430、432、434、436,每个窗口都分别包括其自身的音频:音频A、音频B、音频C和音频D。另外,每个聊天实例都可以包括对应的图像,例如,视频图像或照片。

图8是示出用于引导输出特定的聊天实例的音频以使其听起来像是源自与聊天实例的位置对应的位置的示例性方法500的流程图。方法500可以从操作502开始,并且计算机102可以确定是否存在多于一个的聊天实例。例如,计算机102可以确定是否存在可以与不同的聊天实例对应的多个音频实例。如果不存在多于一个的音频或者聊天实例,则方法500可以进行到操作512,将在下面更详细地讨论该操作512。

如果在操作502中存在多于一个的音频或聊天实例,则方法500可以进行到操作504。操作504确定聊天实例是否被布置于显示器104上的不同位置。例如,聊天实例可以彼此叠置、最小化或者(如图7A所示)分散于显示屏104上的不同位置。如果在操作504中计算机102确定聊天实例位于显示器104上的不同方位,则方法500可以进行到操作506。

操作506确定用户正在讲话或者哪个实例具有音频输出。例如,计算机102确定音频A、音频B、音频C或音频D当前是否正产生任何声音,这可以关联于用户是否正在讲话或者以其他方式正在提供声音以发送给观看用户。一旦操作506确定了当前具有输出的音频,方法500就可以进行到操作508。操作508确定输出音频的位置,也就是,哪个聊天实例(及其位置)关联于各自的音频。例如,如果音频A当前具有输出,则计算机102就确定了聊天实例430的位置(相对于显示器104)。

在操作508之后,方法500可以进行到操作510,并且计算机102可以修改扬声器106、110或其他输出器件的音频输出,以从聊天实例的位置退出(或者看起来像是从中退出)。例如,如图7A所示,如果音频A具有输出,则可以修改扬声器110,使得音频A的音频听起来像是从聊天实例的区域引出的。图7B示出了分别与聊天实例430、432、434、436对应的音频A-D的音频方向。可从图7B中看出,可以按照与显示器104上的聊天实例位置关联的方式将音频引导向用户。这可以允许用户听见音频A-D中的任一个的音频,如同它们是从聊天实例的位置传出来的。这可以在视频会议或视频聊天应用中给用户提供更真实的聊天体验。另外,定向音频还可以增强用户在聊天会话期间的音频体验。

在操作510之后或者在操作504之后,方法500可以进行到操作512。操作512确定当前音频是否已经终止,例如,特定的人员是否已经完成了谈话。如果聊天包含视频图像,则计算机102可以通过人脸识别来确定这种情况,或者可以通过音频处理、语音识别或其他处理技术来完成。如果特定聊天实例的音频还没有终止,则方法500可以进行到操作514,并且计算机102可以等待或暂停一段选定的时间。另一方面,如果所选择的聊天实例的音频已经终止,则方法500可以进行到操作516。操作516确定是否存在聊天实例之一的活动的新音频。如果存在新的音频,则方法500可以返回至操作504。但是,如果不存在别的音频,则方法500可以终止。

根据一些实施例,图9示出了根据上述本发明的原理配置的增强系统900的功能框图。该系统的功能块可以由硬件、软件或者硬件和软件的结合来实现以执行本发明的原理。本领域技术人员理解,图9中示出的功能块可以合并或者拆分为子块来实现上述本发明的原理。因此,本说明书可以支持对在此描述的功能块的任何可能的合并或拆分或者进一步限定。

如图9中所示的,增强系统900包括传感单元910、与传感单元910通信的处理单元930以及与处理单元930通信的输出单元950。在一些实施例中,传感单元910和处理单元930可以包括在一个计算单元中。

在一些实施例中,传感单元910可以配置为确定相对于该传感单元的用户位置以及收集与该传感单元的环境相对应的环境数据。在一个示例中,环境数据包括环境的近似尺寸或混响质量中的至少一个。在另一示例中,环境数据包括环境的近似尺寸和混响质量两者。

在一些实施例中,处理单元930可以包括第一处理子单元931和第二处理子单元933。第一处理子单元931配置用于处理传感单元910确定和收集的用户位置和环境数据。第二处理子单元933配置用于调整音频输出或视频输出中的至少一个。在其他实施例中,处理单元930还可以包括第三处理子单元935和第四处理子单元937。第三处理子单元935配置用于确定视听设定对传感单元910确定的用户位置而言是否是最优的。第四处理子单元937配置用于如果视听设定不是最优的,则基于用户位置调整所述视听设定使其成最优的。在一个示例中,所述视听设定包括音频设定和视频设定中的至少一个。

在一个实施例中,输出单元950可以配置用于输出音频输出或视频输出中的至少一个。在一个示例中,输出单元950可以在传感单元910和处理单元930的外部。在一个示例中,输出单元950可以是扬声器。

结论

以上描述具有广泛的应用。关于任何实施例的描述都应当仅是示例性的,而并非意指暗示着包括权利要求在内的本公开内容的范围仅限于这些示例。

相关技术
  • 解码在填充元素中具有增强频谱带复制元数据的音频位流
  • 解码具有增强的频谱带复制元数据的音频位流
  • 解码在填充元素中具有增强频谱带复制元数据的音频位流
  • 解码具有增强的频谱带复制元数据的音频位流
  • 解码具有增强的频谱带复制元数据的音频位流
  • 用于增强现实(AR)或虚拟现实(VR)或混合现实(MR)的具有音频的分体式头戴设备
  • 具有增强音频的设备
技术分类

06120116334844