掌桥专利:专业的专利平台
掌桥专利
首页

用于视频电话会议的虚拟声音定位

文献发布时间:2023-06-19 18:35:48


用于视频电话会议的虚拟声音定位

本申请根据35 USC § 119(e)而要求提交于2021年8月4日的美国临时专利申请No. 63/203,941的优先权和权益,该临时专利申请通过引用而以其整体并入于本文中。

技术领域

目前的实现方式一般涉及电话会议,并且具体地涉及用于视频电话会议的虚拟声音定位。

背景技术

视频电话会议(也被称为“视频会议”)是允许两个或更多个人从不同地点接近实时地看到彼此且听到彼此的通信技术。视频会议能够通过从多个参与者传送和接收视频信号和音频信号的设备或终端的网络来建立。例如,每个终端一般至少包括用以捕获用户的视频的照相机、用以从用户捕获音频的麦克风、用以回放其他参与者的所捕获的视频的显示部件以及用以回放从其他参与者捕获的音频的音频输出部件。

视频会议技术上的进步已导致具有越来越多数量的参与者的更大规模的视频会议。然而,在许多视频会议中,在任何给定时间,可能仅一个(或几个)参与者(也被称为“说话者”)正在说话。随着视频会议中的参与者的数量增加,(一个或多个)说话者的身份可能变得模糊。换言之,参与具有大量的参与者的视频会议的用户可能具有在任何给定时间辨别所述参与者中的哪个参与者正在说话的困难。因而,需要改进与视频会议关联的用户体验。

发明内容

提供本发明内容,以按简化形式介绍在下文中在具体实施方式中进一步描述的概念的选择。本发明内容不旨在识别要求保护的主题的关键特征或基本特征,也不旨在限制要求保护的主题的范围。

本公开的主题的一个创新性方面能够以一种处理音频信号的方法实现。该方法包括如下的步骤:接收与包括多个参与者的视频会议关联的第一音频信号;检测与第一音频信号关联的第一说话者,其中第一说话者是视频会议中的多个参与者中的一个参与者;将第一说话者映射到第一空间方向;基于与第一空间方向关联的一个或多个传递函数而使第一音频信号变换;以及将经变换的第一音频信号传送到音频输出设备。

本公开的主题的另一个创新性方面能够以一种视频会议系统实现,该视频会议系统包括处理系统和存储器。该存储器存储指令,所述指令在由处理系统执行时,使得视频会议系统:接收与包括多个参与者的视频会议关联的第一音频信号;检测与第一音频信号关联的第一说话者,第一说话者是视频会议中的多个参与者中的一个参与者;将第一说话者映射到第一空间方向;基于与第一空间方向关联的一个或多个传递函数而使第一音频信号变换;以及将经变换的第一音频信号传送到音频输出设备。

本公开的主题的另一个创新性方面能够以一种视频会议系统实现,该视频会议系统包括显示设备、音频输出设备以及音频信号处理器。显示设备配置成显示包括多个参与者的视频会议。音频输出设备配置成发射表示与视频会议关联的音频信号的声波。音频信号处理器配置成:接收与视频会议关联的第一音频信号;检测与第一音频信号关联的第一说话者,第一说话者是视频会议中的多个参与者中的一个参与者;将第一说话者映射到第一空间方向;基于与第一空间方向关联的一个或多个传递函数而使第一音频信号变换;以及向音频输出设备提供经变换的第一音频信号。

附图说明

目前的实现方式通过示例的方式说明,并且不旨在受附图的图限制。

图1示出示例性的视频会议系统。

图2示出根据一些实现方式的示例性的视频会议系统的框图。

图3示出根据一些实现方式的示例性的音频信号处理器的框图。

图4示出利用虚拟声音定位的示例性的视频会议操作。

图5示出根据一些实现方式的示例性的音频信号处理器的另一个框图。

图6示出描绘根据一些实现方式的用于处理音频信号的示例性操作的说明性流程图。

具体实施方式

在以下的描述中,阐明许多具体细节,诸如具体部件、电路以及过程的示例,以提供对本公开的透彻理解。如本文中所使用的术语“耦合”意味着直接地连接到或通过一个或多个中间部件或电路连接。术语“电子系统”和“电子设备”可以可互换地使用以指代能够电子地处理信息的任何系统。而且,在以下的描述中并且出于解释目的,阐明具体术语以提供对本公开的方面的透彻理解。然而,将对本领域技术人员显而易见的是,可以不要求这些具体细节来实践示例性实施例。在其他实例中,公知的电路和设备以框图形式示出,以避免使本公开难以理解。详细描述的随后的一些部分依据程序、逻辑块、处理以及对计算机存储器内的数据位的操作的其他符号表示而呈现。

这些描述和表示是被数据处理领域中的技术人员使用来向本领域中的其他技术人员最有效地传达他们的工作的实质的手段。在本公开中,程序、逻辑块、过程等等被认为是导致期望的结果的步骤或指令的自相容序列。所述步骤是要求物理量的物理操作的那些步骤。通常,尽管不一定,但这些量采取能够在计算机系统中被存储、传递、组合、比较并且以其他方式操作的电信号或磁信号的形式。然而,应当记住,所有的这些术语和类似术语将与适当的物理量关联,并且仅仅是应用于这些量的便利标记。

除非另外具体地声明,否则如从以下的讨论显而易见的,意识到,贯穿本申请,利用诸如“存取”、“接收”、“发送”、“使用”、“选择”、“确定”、“归一化”、“相乘”、“平均”、“监测”、“比较”、“应用”、“更新”、“测量”、“推导”等等的术语的讨论指代如下的计算机系统或类似的电子计算设备的动作和过程:将在计算机系统的寄存器和存储器内表示为物理(电子)量的数据操作并变换成在计算机系统存储器或寄存器或其他这样的信息存储、传输或显示设备内类似地表示为物理量的其他数据。

在附图中,单个块可以被描述为执行一个或多个功能;然而,在实际实践中,由该块执行的一个或多个功能可以在单个部件中或跨多个部件执行,和/或可以使用硬件、使用软件或使用硬件和软件的组合来执行。为了清楚地说明硬件和软件的该可互换性,各种说明性部件、块、模块、电路以及步骤已在下文中一般地依据其功能性而描述。这样的功能性是实现为硬件还是实现为软件取决于特定应用和强加于总体系统上的设计约束。技术人员可以针对每个特定应用而以不同方式实现所描述的功能性,但这样的实现决策不应当被解释为使得脱离本公开的范围。而且,示例性输入设备可以包括与所示出的那些部件不同的部件,包括诸如处理器、存储器等等的公知的部件。

除非本文中所描述的技术具体地描述为以具体方式实现,否则所述技术可以以硬件、软件、固件或其任何组合来实现。描述为模块或部件的任何特征也可以一起在集成逻辑设备中实现或单独地实现为分立但可互操作的逻辑设备。如果以软件实现,则所述技术可以至少部分地由非暂时性处理器可读存储介质实现,该介质包括指令,所述指令在被执行时,执行上文中所描述的方法中的一个或多个方法。非暂时性处理器可读数据存储介质可以形成计算机程序产品的部分,该计算机程序产品可以包括封装材料。

非暂时性处理器可读存储介质可以包括随机存取存储器(RAM)(诸如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器、其他已知的存储介质等等。另外或备选地,所述技术可以至少部分地由处理器可读通信介质实现,该处理器可读通信介质承载或传达呈指令或数据结构的形式的代码并且能够由计算机或其他处理器访问、读取和/或执行。

与本文中所公开的实施例结合而描述的各种说明性逻辑块、模块、电路以及指令可以由一个或多个处理器(或处理系统)执行。如本文中所使用的术语“处理器”可以指代能够执行存储于存储器中的一个或多个软件程序的脚本或指令的任何通用处理器、专用处理器、常规处理器、控制器、微控制器和/或状态机。

如上文中所描述的,视频会议能够通过从多个参与者传送和接收视频信号和音频信号的设备或终端的网络来建立。例如,每个终端一般至少包括用以捕获用户的视频的照相机、用以从用户捕获音频的麦克风、用以回放其他参与者的所捕获的视频的显示部件以及用以回放从其他参与者捕获的音频的音频输出部件。视频会议技术上的进步已导致具有越来越多数量的参与者的更大规模的视频会议。然而,在许多视频会议中,在任何给定时间,可能仅一个(或几个)参与者(也被称为“说话者”)正在说话。随着视频会议中的参与者的数量增加,(一个或多个)说话者的身份可能变得模糊。换言之,参与具有大量的参与者的视频会议的用户可能具有在任何给定时间辨别所述参与者中的哪个参与者正在说话的困难。

本公开的方面认识到,在现场或面对面会议中,人能够基于视觉提示和音频提示而识别说话者。示例性的视觉提示包括说话者的身体位置、注视方向或嘴唇移动。示例性的音频提示包括源自说话者的声音的方向。在具有许多参与者的视频会议中,说话者的视觉提示可能难以与在用户的显示器上看起来面向相同方向的许多其他参与者区分。此外,由于显示器的尺寸限制,可能难以检测细微的嘴唇移动。相比之下,说话者的音频提示能够在视频会议中以与面对面会议相同(或基本上类似)的方式再现。例如,头部相关传递函数(HRTF)描述了声波如何被倾听者感知。当应用于音频信号时,HRTF能够在由音频输出设备(诸如,耳机)发射的声波中创建定向性的感觉。照此,倾听者可以将声波感知为源自空间中的特定方向。

各种方面一般涉及视频会议,并且更特别地涉及能够用于识别或以其他方式区分视频会议中的说话者的音频信号处理技术。在一些方面中,音频信号处理器可以将视频会议中的每个说话者映射到相应空间方向(诸如,上、下、左、右或其任何组合),并且使用与说话者所映射到的空间方向关联的一个或多个传递函数来使从每个说话者接收的音频信号变换。音频信号处理器可以进一步将经变换的音频信号传送到音频输出设备,音频输出设备发射具有与变换关联的定向性的声波。例如,音频信号处理器可以将一个或多个HRTF应用于从特定说话者接收的音频信号,使得由音频输出设备发射的声波被(被音频输出设备的用户)感知为源自说话者所映射到的空间方向。在一些实现方式中,每个说话者可以映射到与说话者在用户的显示器上的地点或位置关联的空间方向。

能够实现本公开中所描述的主题的特定实现方式,以实现以下的可能的优点中的一个或多个优点。通过使从视频会议中的每个说话者接收的音频信号变换以具有与说话者唯一地关联的定向性,本公开的方面可以改进与视频会议关联的用户体验。例如,用户可以基于说话者的话音的方向而快速地识别正在说话的参与者。通过将语音的方向映射到说话者在用户的显示器上的位置,本公开的方面可以进一步改进视频会议中的参与者之间的社会互动或参与度。例如,用户可以在语音方向上看,以快速地定位用户的显示器上的说话者。

图1示出示例性的视频会议系统100。视频会议系统100包括显示设备110和音频输出设备120。在一些实现方式中,视频会议系统100可以配置成接收(和传送)与视频会议关联的视频数据和音频数据。例如,视频会议系统100可以经由一个或多个网络(为了简单起见未示出)通信地耦合到其他视频会议系统(或终端)。

显示设备110配置成显示与视频会议关联的视频。显示设备110可以使用能够显示图像或图像序列(诸如,视频帧)的任何类型的显示技术。除了其他示例之外,示例性的合适的显示技术可以包括发光二极管(LED)、有机LED(OLED)、阴极射线管(CRT)、液晶显示器(LCD)、等离子体以及电致发光(EL)。这包括在折射表面、半反射表面、半透明表面(诸如,LCD或硅)上的投影显示技术。在图1的示例中,显示设备110被描绘为膝上型计算机。然而,在实际实现方式中,其他类型的显示设备(诸如,除了其他示例之外,电视、计算机屏幕、移动电话显示器以及平板显示器)能够替代显示设备110。

音频输出设备120配置成输出与视频会议关联的音频。在一些实现方式中,音频输出设备120可以经由有线或无线连接130从显示设备110接收音频信号。音频输出设备120可以经由电声换能器122和电声换能器124(也被称为“扩音器”或“扬声器驱动器”)使所接收的音频信号转换成声学声波。为了简单起见,在图1中仅示出两个换能器122和124。在一些其他实现方式中,音频输出设备120可以包括任何数量的电声换能器,例如,以支持一定范围的音频频率。在图1的示例中,音频输出设备120被描绘为立体声耳机。然而,在实际实现方式中,其他类型的音频输出设备(诸如,立体声扬声器、环绕扬声器、条状音箱(soundbar)或各种扬声器阵列)能够替代音频输出设备120。

在一些实现方式中,显示设备110可以从视频会议的多个参与者A-D接收表示所捕获的视频的视频数据,并且对所捕获的视频进行合并以便在共享显示区域112中显示。例如,显示设备110可以在显示区域112中同时地显示参与者A-D的视频(或图像)。如图1中所示出的,参与者A显示于显示区域112的左上方,参与者B显示于显示区域112的右上方,参与者C显示于显示区域112的左下方,以及参与者D显示于显示区域112的右下方。在图1的示例中,视频会议示出为包括5个参与者(其中,视频会议系统100的用户未在显示区域112中描绘)。然而,在实际实现方式中,视频会议可以包括比图1中所描绘的那些参与者更少或更多的参与者。

在一些方面中,视频会议系统100可以配置成以指示说话者的方式使从参与者A-D中的任何参与者接收的音频信号(表示语音)变换。例如,视频会议系统100可以将唯一变换应用于从参与者A-D中的每个参与者接收的音频信号,使得从给定的参与者接收的音频信号与从视频会议中的任何其他参与者接收的音频信号不同地被感知。在一些实现方式中,应用于从参与者A-D中的每个参与者接收的音频信号的变换可以与相应空间方向关联。例如,视频会议系统100可以将传递函数(诸如,HRTF)应用于所接收的音频信号,该传递函数使得由音频输出设备120发射的声波(由用户)被感知为源自空间中的给定方向。

在一些实现方式中,音频信号的定向性可以与说话者在显示区域112中的位置关联。例如,从参与者A接收的音频信号可以映射到左上空间方向,从参与者B接收的音频信号可以映射到右上空间方向,从参与者C接收的音频信号可以映射到左下空间方向,以及从参与者D接收的音频信号可以映射到右下空间方向。结果,源自参与者A的语音可以被感知为来自用户的上方和左侧;源自参与者B的语音可以被感知为来自用户的上方和右侧;源自参与者C的语音可以被感知为来自用户的下方和左侧;以及源自参与者D的语音可以被感知为来自用户的下方和右侧。

图2示出根据一些实现方式的示例性的视频会议系统200的框图。视频会议系统200包括图像处理器210、音频处理器220、显示设备230以及音频输出设备240。在一些方面中,视频会议系统200可以是图1的视频会议系统100的一个示例。参考例如图1,显示设备230可以是显示设备110的一个示例,以及音频输出设备240可以是音频输出设备120的一个示例。

图像处理器210配置成处理从视频会议中的参与者中的每个参与者接收的视频帧201并且将电话会议视频204输出到显示设备230。在一些实现方式中,图像处理器210可以使从视频会议的多个参与者接收的视频帧201组合或合并成聚合的视频帧,所述聚合的视频帧能够在显示设备230的共享显示区域(诸如,图1的显示区域112)中显示。换言之,电话会议视频204的每个帧可以同时地描绘多个视频会议参与者。在一些实现方式中,图像处理器210可以包括语音检测部件212和位置确定部件214。

语音检测部件212配置成在与所接收的视频帧201关联的参与者中识别一个或多个说话者。在一些实现方式中,语音检测部件212可以测量由视频会议中的每个参与者作出的嘴唇移动量,以在任何给定时间确定所述参与者中的哪个参与者(若存在)正在说话。例如,如果参与者表现出至少阈值量的嘴唇移动,则语音检测部件212可以推断参与者正在说话。在一些实现方式中,语音检测部件212可以基于神经网络模型或其他机器学习技术而被训练以推断语音。

位置确定部件214配置成确定每个说话者相对于显示设备230的位置。参考例如图1,位置确定部件214可以确定:参与者A位于显示器的左上方区域中,参与者B位于显示器的右上方区域中,参与者C位于显示器的左下方区域中,以及参与者D位于显示器的右下方区域中。在一些实现方式中,位置确定部件214可以基于从每个参与者接收的视频帧201如何聚合以供显示(作为电话会议视频204)而确定每个参与者的位置。

音频处理器220配置成处理与视频会议关联的音频帧202并且将定向音频205输出到音频输出设备240。在一些方面中,音频处理器220可以使音频帧202变换,以指示与其关联的(一个或多个)说话者。在一些实现方式中,音频处理器220可以基于说话者在显示设备230上的位置而将唯一传递函数应用于从每个说话者接收的音频帧202。例如,音频处理器220可以从图像处理器210接收说话者位置信息203,说话者位置信息203指示每个说话者在显示设备230上的位置。在一些实现方式中,音频处理器220可以包括方向确定部件222和空间处理部件224。

方向确定部件222配置成将从每个说话者接收的音频帧202映射到相应空间方向。在一些实现方式中,空间方向中的每个空间方向可以与相应说话者在显示设备230上的位置关联。参考例如图1,方向确定部件222可以将从参与者A接收的音频帧映射到左上空间方向,可以将从参与者B接收的音频帧映射到右上空间方向,可以将从参与者C接收的音频帧映射到左下空间方向,并且可以将从参与者D接收的音频帧映射到右下空间方向。

空间处理部件224配置成基于音频帧202所映射到的空间方向而使音频帧202变换。在一些方面中,空间处理部件224可以将一个或多个传递函数应用于音频帧202,所述传递函数使得由音频输出设备240发射的声波被感知为源自与其关联的(一个或多个)空间方向。例如,一个或多个传递函数可以包括一个或多个HRTF。参考例如图1,空间处理部件224可以将相应HRTF应用于向换能器122和换能器124中的每个换能器提供的音频信号,使得用户将由音频输出设备120发射的声波感知为源自特定空间方向。结果,定向音频205可以指示说话者在显示设备230上的方向或位置。

在一些实现方式中,音频处理器220可以配置成从视频会议系统200的用户接收反馈206。反馈206可以指示音频帧202所映射到的空间方向的准确度。参考例如图1,视频会议系统100的用户可以检测到参与者A正在说话,但可能将语音感知为来自与参与者C关联的空间方向(诸如,下方和左侧)。照此,用户可以提供指示空间方向应当向上和向左(或在其他情况下,沿参与者A的方向)的反馈206。在一些实现方式中,音频处理器220可以基于所接收的反馈206而调整或微调空间映射。

图3示出根据一些实现方式的示例性的音频信号处理器300的框图。在一些实现方式中,音频信号处理器300可以是图2的音频处理器220的一个示例。更具体地,音频信号处理器300可以配置成使从视频会议中的说话者接收的音频信号306变换成与空间方向关联的一个或多个定向音频信号307。参考例如图2,音频信号306可以是音频帧202的一个示例,以及定向音频信号307可以是定向音频205的一个示例。音频信号处理器300包括空间映射器310、说话者过滤器320以及定向变换330。

空间映射器310配置成将视频会议中的每个参与者301映射到相应空间方向303。例如,空间映射器310可以从识别视频会议中的参与者301中的每个参与者的视频会议应用接收信息。在一些实现方式中,每个空间方向303可以和与视频会议关联的显示器(诸如,图2的显示设备230)上的相应地点关联。例如,空间映射器310可以接收指示每个参与者301在显示器上的位置的位置信息302(诸如,来自视频会议应用或图像处理器)。在一些实现方式中,空间映射器310可以基于能够从显示器上的相应位置推断空间方向的神经网络模型或算法而执行映射。在一些其他实现方式中,空间映射器310可以在未获知参与者301中的任何参与者在显示器上的位置的情况下将参与者301映射到相应空间方向303。

说话者过滤器320配置成选择与音频信号306关联的说话者所映射到的空间方向303。例如,说话者过滤器320可以接收说话者信息304(诸如,来自视频会议应用或图像处理器),说话者信息304指示参与者301中的哪个参与者是与音频信号306关联的说话者。说话者过滤器320可以进一步将所选择的空间方向303作为说话者方向305向定向变换330提供。定向变换330基于与说话者方向305关联的一个或多个传递函数而使音频信号306变换。更具体地,定向变换330可以将一个或多个传递函数应用于音频信号306,以产生一个或多个定向音频信号307。在一些方面中,一个或多个传递函数可以使得定向音频信号307作为被感知成源自说话者方向305的声波被发射(被音频输出设备发射)。

在一些实现方式中,定向变换330可以将不同的传递函数(诸如,HRTF)应用于与音频输出设备关联的不同的音频通道。参考例如图1,定向变换330可以将不同的HRTF应用于向换能器122和换能器124中的每个换能器提供的音频信号。例如,为了模拟源自说话者方向305的声音,定向变换330可以将第一HRTF应用于将向换能器122提供的音频信号306的复制品(copy),并且可以将第二HRTF(其与第一HRTF不同)应用于将向换能器124提供的音频信号306的复制品。结果,定向音频信号307可以包括与音频输出设备的左音频通道(其将声波发射到用户的左耳)关联的第一定向音频信号307和与音频输出设备的右音频通道(其将声波发射到用户的右耳)关联的第二定向音频信号307。

图4示出利用虚拟声音定位的示例性的视频会议操作。视频会议操作由视频会议系统400执行,视频会议系统400包括显示设备410和音频输出设备420,显示设备410和音频输出设备420经由有线或无线通信链路430耦合。在一些实现方式中,视频会议系统400可以是图2的视频会议系统200的一个示例。参考例如图2,显示设备410可以是显示设备230的一个示例,以及音频输出设备420可以是音频输出设备240的一个示例。在一些实现方式中,图像处理器210和音频处理器220可以是显示设备410的部件。在一些其他实现方式中,至少音频处理器220可以是音频输出设备420的部件。

在一些实现方式中,显示设备410可以从视频会议的多个参与者A-D接收表示所捕获的视频的视频数据,并且对所捕获的视频进行合并以便在共享显示区域412中显示。例如,显示设备410可以在显示区域412中同时地显示参与者A-D的视频(或图像)。如图4中所示出的,参与者A显示于显示区域412的左上方,参与者B显示于显示区域412的右上方,参与者C显示于显示区域412的左下方,以及参与者D显示于显示区域412的右下方。在图4的示例中,视频会议示出为包括5个参与者(其中,视频会议系统400的用户未在显示区域412中描绘)。然而,在实际实现方式中,视频会议可以包括比图4中所描绘的那些参与者更少或更多的参与者。

在图4的示例中,参与者B和参与者D正在说话,而参与者A和参与者C沉默。在一些方面中,音频输出设备420可以分别从参与者B和参与者D输出语音402和语音404,语音402和语音404被感知成源自说话者的方向。例如,语音402被感知成源自右上方向,以及语音404被感知成源自右下方向。在一些方面中,视频会议系统400可以使从说话者接收的音频信号变换,以创建定向语音402和定向语音404。参考例如图2,图像处理器210可以检测说话者(作为参与者B和参与者D),并且向音频处理器220指示每个说话者的位置。例如,语音检测部件212可以监测参与者A-D中的每个参与者的嘴唇移动,以确定仅参与者B和参与者D正在说话。进一步,位置确定部件214可以确定:参与者B位于显示区域412的右上象限中,以及参与者D位于显示区域412的右下象限中。

音频处理器220可以从说话者中的每个说话者接收音频帧202,并且使音频帧202变换成指示与其关联的说话者的定向音频205。例如,方向确定部件222可以将从参与者B接收的音频帧202映射到与显示区域412中的参与者B的位置关联的第一空间方向(诸如,右上方向),并且可以将从参与者D接收的音频帧202映射到与显示区域412中的参与者D的位置关联的第二空间方向(诸如,右下方向)。进一步,空间处理部件224可以将与第一空间方向关联的一个或多个变换函数(诸如,HRTF)应用于从参与者B接收的音频帧202,并且可以将与第二空间方向关联的一个或多个传递函数(诸如,HRTF)应用于从参与者D接收的音频帧202。结果,语音402被感知成源自参与者B的方向或地点,以及语音404被感知成源自参与者D的方向或地点。

图5示出根据一些实现方式的示例性的音频信号处理器500的另一个框图。更具体地,音频信号处理器500可以配置成使从视频会议中的参与者接收的音频信号变换,以指示每个说话者的方向或地点。在一些实现方式中,音频信号处理器500可以是图2的音频处理器220或图3的音频信号处理器300的一个示例。音频信号处理器500包括设备接口510、处理系统520以及存储器530。

设备接口510配置成与视频会议系统的一个或多个部件通信。在一些实现方式中,设备接口510可以包括视频会议(VC)数据接口(I/F)512、音频输入接口514以及音频输出接口516。VC数据接口512可以接收与视频会议中的一个或多个参与者关联的信息;音频输入接口514可以接收与视频会议关联的音频信号;以及显示器接口516可以将经变换的音频信号输出到音频输出设备(诸如,图2的音频输出设备240)。

存储器530可以包括至少可以存储以下的软件(SW)模块的非暂时性计算机可读介质(除了其他示例之外,包括一个或多个非易失性存储器元件,诸如EPROM、EEPROM、闪速存储器或硬盘驱动器):

•说话者检测SW模块532,其用以检测与所接收的音频信号关联的说话者,其中说话者是视频会议中的参与者中的一个参与者;

•方向映射SW模块534,其用以将说话者映射到空间方向;以及

•空间处理SW模块536,其用以基于与空间方向关联的一个或多个传递函数而使所接收的音频信号变换。

每个软件模块包括指令,所述指令在由处理系统520执行时,使得音频信号处理器500执行对应功能。

处理系统520可以包括能够执行存储于音频信号处理器500中(诸如,存储器530中)的一个或多个软件程序的脚本或指令的任何合适的一个或多个处理器。例如,处理系统520可以执行说话者检测SW模块532,以检测与所接收的音频信号关联的说话者,其中说话者是视频会议中的参与者中的一个参与者。处理系统520也可以执行方向映射SW模块534,以将说话者映射到空间方向。进一步,处理系统520可以执行空间处理SW模块536,以基于与空间方向关联的一个或多个传递函数而使所接收的音频信号变换。

图6示出描绘根据一些实现方式的用于处理音频信号的示例性操作600的说明性流程图。在一些实现方式中,示例性操作600可以分别由诸如图1、图2和图4的视频会议系统100、200或400中的任何视频会议系统之类的视频会议系统执行。

视频会议系统可以接收与包括多个参与者的视频会议关联的第一音频信号(610)。视频会议系统可以检测与第一音频信号关联的第一说话者,其中第一说话者是视频会议中的多个参与者中的一个参与者(620)。视频会议系统可以将第一说话者映射到第一空间方向(630)。视频会议系统可以进一步基于与第一空间方向关联的一个或多个传递函数而使第一音频信号变换(640)。视频会议系统可以将经变换的第一音频信号传送到音频输出设备(650)。

在一些方面中,将第一说话者映射到第一空间方向可以包括确定第一说话者在与视频会议关联的显示器上的位置,第一说话者的位置与第一空间方向关联。在一些实现方式中,视频会议系统可以接收指示多个参与者中的每个参与者在显示器上的相对位置的位置信息。在一些其他实现方式中,视频会议系统可以接收与视频会议关联的视频帧,并且至少部分地基于所接收的视频帧而确定第一说话者的位置。

在一些方面中,检测与第一音频信号关联的第一说话者可以包括:接收与视频会议关联的视频帧;以及对所接收的视频帧执行识别与第一音频信号关联的第一说话者的图像处理操作。

在一些方面中,一个或多个传递函数包括使得由音频输出设备发射的声波被感知为源自第一空间方向的HRTF。在一些方面中,一个或多个传递函数包括与音频输出设备的左音频通道关联的第一传递函数和与音频输出设备的右音频通道关联的第二传递函数,第一传递函数不同于第二传递函数。

在一些方面中,视频会议系统可以接收与第一音频信号关联的反馈,并且基于所接收的反馈而调整一个或多个传递函数。

在一些方面中,视频会议系统可以进一步:接收与视频会议关联的第二音频信号;检测与第二音频信号关联的第二说话者,其中第二说话者是多个参与者中的与第一说话者不同的一个参与者;将第二说话者映射到与第一空间方向不同的第二空间方向;基于与第二空间方向关联的一个或多个传递函数而使第二音频信号变换;以及将经变换的第二音频信号传送到音频输出设备。

本领域技术人员将意识到,信息和信号可以使用各种各样的不同的工艺和技术中的任何工艺和技术来表示。例如,可以贯穿上文的描述而引用的数据、指令、命令、信息、信号、比特、符号以及码片可以由电压、电流、电磁波、磁场或粒子、光学场或粒子或其任何组合表示。

进一步,本领域技术人员将意识到,与本文中所公开的方面结合而描述的各种说明性逻辑块、模块、电路以及算法步骤可以实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的该可互换性,各种说明性部件、块、模块、电路以及步骤已在上文中一般地依据其功能性而描述。这样的功能性是实现为硬件还是实现为软件取决于特定应用和强加于总体系统上的设计约束。技术人员可以针对每个特定应用而以不同方式实现所描述的功能性,但这样的实现决策不应当被解释为使得脱离本公开的范围。

与本文中所公开的方面结合而描述的方法、序列或算法可以直接地在硬件中、在由处理器执行的软件模块中或在两者的组合中体现。软件模块可以驻留于RAM存储器、闪速存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除盘、CD-ROM或在本领域中已知的任何其他形式的存储介质中。示例性存储介质耦合到处理器,使得处理器能够从存储介质读取信息并且将信息写到存储介质。在备选方案中,存储介质可以与处理器成一体。

在前文的说明书中,实施例已参考其具体示例而描述。然而,将明显的是,在不脱离如所附权利要求中所阐明的本公开的更宽泛的范围的情况下,可以对其进行各种修改和改变。因此,将在说明性意义上而非在限制性意义上看待说明书和附图。

相关技术
  • 一种通过声音定位进行视频优化的视频系统
  • 虚拟声音定位处理装置、虚拟声音定位处理方法及记录介质
  • 一种通过声音定位进行视频优化的视频系统
技术分类

06120115625253