掌桥专利:专业的专利平台
掌桥专利
首页

同步音频和文本生成

文献发布时间:2024-01-17 01:13:28


同步音频和文本生成

优先权声明

本申请要求于2020年10月14日提交的美国专利申请第16/949,121号的优先权的权益,该美国专利申请的全部内容通过引用并入本文中。

技术领域

本公开内容总体上涉及促进客户端设备之间通过网络的交互。

背景技术

允许用户在线访问内容并与其他用户交互的计算机实现的工具的流行度持续增长。例如,存在允许用户通过消息收发应用与其他用户交互和共享内容的各种计算机实现的工具。这样的计算机实现的工具中的一些(被称为应用或app)可以被设计成在诸如电话、平板电脑或手表的移动设备上运行。

现有的消息收发应用允许用户交换文本消息以及多媒体消息。例如,消息收发应用可以包括允许发送者口述音频消息并且然后将其发送给接收者的功能。接收者在接收到消息时可以通过与表示所接收到的音频消息的视觉控件进行交互来播放相关联的音频。

附图说明

在附图中,相似的附图标记可以在不同的视图中描述类似的部件,附图不一定按比例绘制。为了容易地标识对任何特定元素或动作的讨论,附图标记中的一个或多个最高位数字是指该元素被首次引入时所在的图号。在附图的图中以示例而非限制的方式示出了一些示例,在附图中:

图1是根据一些示例的其中可以部署本公开内容的联网环境的图解表示。

图2是根据一些示例的具有客户端侧功能和服务器端侧功能二者的消息收发系统的图解表示。

图3是根据一些示例的在数据库中维护的数据结构的图解表示。

图4是根据一些示例的消息的图解表示。

图5是根据一些示例的访问限制过程的流程图。

图6是根据一些示例的用于促进消息收发系统中的同步音频和文本生成的方法的流程图。

图7是示出示例聊天对话用户界面的图。

图8是示出另一示例聊天对话用户界面的图。

图9是根据一些示例的呈计算机系统形式的机器的图解表示,在该机器内可以执行一组指令以使得该机器执行本文中所讨论的任何一种或更多种方法。

具体实施方式

托管用于相关联的消息收发客户端的后端服务的消息收发系统包括语音聊天系统,该语音聊天系统提供用于促进同步音频和文本生成——语音聊天功能的功能。语音聊天功能使得用户能够口述消息,并且在用户口述消息时将所得到的消息作为音频和文本内容二者递送至预期接收者。例如,消息收发客户端显示聊天对话用户界面(UI),该聊天对话用户界面包括视觉控件(例如麦克风的风格化图片),该视觉控件可操作以实现语音聊天。当发送者客户端设备处的用户敲击聊天对话UI上的指定控件并且开始口述语音消息时,语音聊天系统开始将接收到的音频流转换成文本,并且还开始将音频内容与生成的文本一起递送至接收者客户端设备。如果聊天对话UI在接收者客户端设备处是激活的,则接收者用户可以近乎实时地现场消费该消息。如果聊天对话UI的音量是打开的,则接收者用户可以收听语音消息并读取从音频生成的文本。如果客户端设备的声音是不期望的(如当接收者用户正在课堂上或会议中),还可以使聊天对话UI音频的音量关闭或静音,这允许接收者用户以文本形式消费语音消息。对发送者的益处是语音的速度和情绪,而对接收者的益处是他们可以同步或异步地通过音频或文本消费消息。另外,在一些示例中,语音聊天系统可以被配置成对音频内容特征(例如音调、音高和音量)进行分析,并且将该音频内容特征与语音消息的定性特征(例如“大声讲话”、“轻声讲话”、“低语”、“笑”等)相匹配。

联网计算环境

图1是示出用于通过网络来交换数据(例如消息和相关联的内容)的示例消息收发系统100的框图,在该示例消息收发系统内可以实现语音聊天系统。消息收发系统100包括客户端设备102的多个实例,每个实例托管包括消息收发客户端104的多个应用。每个消息收发客户端104经由网络106(例如,因特网)通信上耦接至消息收发服务器系统108和消息收发客户端104的其他实例。

消息收发客户端104能够经由网络106与另一消息收发客户端104以及与消息收发服务器系统108通信和交换数据。在消息收发客户端104之间以及消息收发客户端104与消息收发服务器系统108之间交换的数据包括功能(例如,用于激活功能的命令)以及净荷数据(例如,文本、音频、视频或其他多媒体数据)。消息收发客户端104被示出为包括语音聊天组件103。语音聊天组件103被配置成通过例如以下操作来促进消息收发客户端之间的语音聊天:使得呈现聊天对话UI、接收音频输入、将音频输入转录成文本格式;以及使得将具有相关联的转录文本或不具有相关联的转录文本的音频输入传送至接收者设备。可以在客户端设备102处以及在消息收发服务器系统108处执行音频输入的转录。

消息收发服务器系统108经由网络106向特定消息收发客户端104提供服务器端功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行,但是某些功能是位于消息收发客户端104内还是位于消息收发服务器系统108内可以是设计选择。例如,在技术上可以优选的是:最初将某些技术和功能部署在消息收发服务器系统108内,但是后面将该技术和功能迁移至客户端设备102具有足够处理能力的消息收发客户端104。

消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。作为示例,该数据可以包括消息内容、客户端设备信息、地理位置信息、媒体增强和叠加、消息内容持久化条件、社交网络信息和实况事件信息。通过经由消息收发客户端104的用户界面(UI)可用的功能来激活和控制消息收发系统100内的数据交换。

现在具体地转至消息收发服务器系统108,应用程序接口(API)服务器110耦接至应用服务器112并且向应用服务器112提供编程接口。应用服务器112通信地耦接至数据库服务器118,数据库服务器118利于访问数据库120,该数据库120存储与由应用服务器112处理的消息相关联的数据。例如,数据库120存储来自与相应发送者标识相关联的语音聊天消息的音频内容,其具有相关联的文本或不具有相关联的文本。为了该描述的目的,语音聊天消息包括音频消息(或对音频消息的引用)和音频的相关联文本表示。来自语音聊天消息的音频内容可以持续存在,直到在消息收发系统108处接收到删除语音聊天消息的指令。

类似地,web服务器124耦接至应用服务器112,并且向应用服务器112提供基于web的接口。为此,web服务器124通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。

应用程序接口(API)服务器110在客户端设备102与应用服务器112之间接收和发送消息数据(例如,命令和消息净荷)。具体地,应用程序接口(API)服务器110提供一组接口(例如,例程和协议),消息收发客户端104可以调用或查询该组接口以激活应用服务器112的功能。应用程序接口(API)服务器110显露由应用服务器112支持的各种功能,包括:帐户注册;登录功能;经由应用服务器112将消息从特定消息收发客户端104发送至另一消息收发客户端104;将媒体文件(例如,图像或视频)从消息收发客户端104发送至消息收发服务器114并且用于另一消息收发客户端104的可能访问;设置媒体数据集合(例如,故事);检索客户端设备102的用户的朋友列表;检索这样的集合;检索消息和内容;在实体图(例如社交图)中添加和删除实体(例如朋友);在社交图中定位朋友;以及打开应用事件(例如,与消息收发客户端104有关)。

应用服务器112托管若干服务器应用和子系统,包括例如消息收发服务器114、图像处理服务器116以及社交网络服务器122。消息收发服务器114实现了若干消息处理技术和功能,特别是与从消息收发客户端104的多个实例接收到的消息中包括的内容(例如,文本和多媒体内容)的聚合和其他处理有关的消息处理技术和功能。如将进一步详细描述的,来自多个源的文本和媒体内容可以被聚合成内容的集合(例如,被称为故事或库)。然后,使这些集合对消息收发客户端104可用。鉴于对其他处理器和存储器密集型处理的硬件要求,也可以由消息收发服务器114在服务器端执行数据的其他处理器和存储器密集型处理。

应用服务器112还包括图像处理服务器116,该图像处理服务器116专用于执行各种图像处理操作,通常相对于在从消息收发服务器114发送或者在消息收发服务器114处接收的消息的净荷内的图像或视频,执行各种图像处理操作。

社交网络服务器122支持各种社交网络功能和服务,并且使这些功能和服务可用于消息收发服务器114。为此,社交网络服务器122维护和访问数据库120内的实体图306(如图3所示)。由社交网络服务器122支持的功能和服务的示例包括识别特定用户与其有关系或“关注”其的消息收发系统100的其他用户,以及识别特定用户的兴趣和其他实体。

图1中还示出了在消息收发服务器114处提供的语音聊天组件115。语音聊天交换组件115被配置成与语音聊天组件104协作,以通过例如以下操作来促进消息收发客户端之间的语音聊天:使得呈现聊天对话UI、接收音频输入、将音频输入转录成文本格式以及使得将具有相关联的转录文本或不具有相关联的转录文本的音频输入传送至接收者设备。可以将语音聊天交换组件115和语音聊天组件104统称为语音聊天系统,该语音聊天系统在图2中由附图标记208来表示。

系统架构

图2是示出根据一些示例的关于消息收发系统100的进一步细节的框图。具体地,消息收发系统100被显示为包括消息收发客户端104和应用服务器112。消息收发系统100包含若干子系统,这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器112支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统206和游戏系统210。短暂定时器系统202负责实施由消息收发客户端104和消息收发服务器114对内容进行临时或限时访问。短暂定时器系统202包含若干个定时器,这些定时器基于与消息或消息的集合(例如,故事)相关联的持续时间和显示参数,选择性地使得能够经由消息收发客户端104对消息和相关联的内容进行访问(例如,用于呈现和显示)。下面提供关于短暂定时器系统202的操作的另外的细节。集合管理系统204负责管理媒体的组或集合(例如,文本、图像、视频和音频数据的集合)。这样的集合可以在指定的时间段内(例如,与内容相关的事件的持续时间)可用。例如,可以在音乐会的持续时间内使与音乐会相关的内容作为“故事”可用。增强系统206提供使得用户能够增强(例如,注释或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如,增强系统206提供与生成和发布用于由消息收发系统100处理的消息的媒体叠加(media overlay)相关的功能。增强系统206基于客户端设备102的地理位置可操作地向消息收发客户端104提供媒体叠加或增强(例如,图像过滤器)。在另一示例中,增强系统206基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息收发客户端104供应媒体叠加。媒体叠加可以包括音频和视觉内容以及视觉效果。音频和视觉内容的示例包括图片、文本、标志、动画和声音效果。视觉效果的示例包括色彩叠加。可以将音频和视觉内容或视觉效果应用于客户端设备102处的媒体内容项(例如,照片)。例如,媒体叠加可以包括可以叠加在由客户端设备102拍摄的照片的顶部上的文本或图像。媒体叠加可以存储在数据库120中并且通过数据库服务器118访问。游戏系统210在消息收发客户端104的上下文内提供各种游戏功能。消息收发客户端104提供游戏界面,该游戏界面提供可用游戏的列表,该游戏可以由用户在消息收发客户端104的上下文中启动并且与消息收发系统100的其他用户一起玩。消息收发系统100还使特定用户能够通过从消息收发客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息收发客户端104还支持游戏上下文内的语音消息收发和文本消息收发(例如,聊天),为游戏提供排行榜,并且还支持提供游戏内奖励。

图2中还示出了语音聊天系统208。如上所述,语音聊天系统208包括与图1的消息收发客户端104一起提供的一个或更多个组件,以及在图1的消息收发服务器114处提供的一个或更多个组件。语音聊天系统208被配置成促进消息收发客户端104之间的语音聊天,该语音聊天系统208使得用户能够口述消息,并且在用户口述消息时将所得到的消息作为音频和文本内容二者递送至预期接收者。语音聊天系统208利用例如自动语音识别(ASR)或语音转文本(STT)的语音识别技术。语音识别技术可以基于声学建模和语言建模的算法,其中声学建模表示语音和音频信号的语言单位之间的关系,并且语言建模将声音与单词序列相匹配。

数据架构

图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库120中的数据结构300的示意图。虽然数据库120的内容被示出为包括若干表,但是应当理解,数据可以存储在其他类型的数据结构(例如,面向对象数据库)中。

数据库120包括存储在消息表302内的消息数据。对于任何特定的一条消息,该消息数据包括至少消息发送者数据、消息接收者(或接收方)数据和净荷。下面参照图4描述关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据中的信息的另外的细节。

实体表304存储实体数据,并且(例如,参考地)链接到实体图306和简档数据308。在实体表304内为其维持记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。不管实体类型如何,消息收发服务器系统108存储关于其的数据的任何实体可以是识别的实体。为每个实体提供唯一的标识符以及实体类型标识符(未示出)。

实体图306存储关于实体之间的关系和关联的信息。仅作为示例,这样的关系可以是基于兴趣或基于活动的社交关系、专业关系(例如,在共同的公司或组织工作)。

简档数据308存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置,简档数据308可以被选择性地使用并且呈现给消息收发系统100的其他用户。在实体是个人的情况下,简档数据308包括例如用户名、电话号码、地址、设置(例如,通知和隐私设置),以及用户选择的化身表示(或这种化身表示的集合)。然后,特定用户可以将这些化身表示中的一个或更多个选择性地包括在经由消息收发系统100传送的消息的内容中以及在由消息收发客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”,其呈现用户可以选择在特定时间进行通信的状态或活动的图解表示。

在实体是团体的情况下,除了团体名称、成员和相关团体的各种设置(例如,通知)之外,团体的简档数据308还可以类似地包括与团体相关联的一个或更多个化身表示。

数据库120还在增强表310中存储例如叠加或过滤器的增强数据。增强数据与视频(针对其数据被存储在视频表314中)和图像(针对其数据被存储在图像表316中)相关联并且被应用于视频和图像。可以存储在图像表316内的其他增强数据包括增强现实内容项(例如,对应于应用透镜或增强现实体验)。增强现实内容项可以是可以被添加至图像或视频的实时特效和声音。

故事表312存储关于消息和相关联的图像、视频或音频数据的集合的数据,所述消息和相关联的图像、视频或音频数据被汇编成集合(例如,故事或库)。特定集合的创建可以由特定用户(例如在实体表304中为其维护记录的每个用户)发起。用户可以创建由该用户创建和发送/广播的内容的集合的形式的“个人故事”。为此,消息收发客户端104的用户界面可以包括用户可选择的图标,以使得发送方用户能够将特定内容添加到他或她的个人故事。

数据通信架构

图4是示出根据一些示例的消息400的结构的示意图,消息400由消息收发客户端104生成,以用于传送至另外的消息收发客户端104或消息收发服务器114。使用特定消息400的内容来填充存储在数据库120中的消息表302,该消息表302可由消息收发服务器114访问。类似地,消息400的内容被存储在存储器中作为客户端设备102或应用服务器112的“传输中”或“飞行中”的数据。消息400被示出为包括以下示例组成部分:

·消息标识符402:标识消息400的唯一标识符。

·消息文本净荷404:要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。

·消息音频净荷410:由麦克风捕获的或从客户端设备102的存储器部件检索的、并且包括在消息400中的音频数据。

·消息音频转录净荷418:从由麦克风捕获的音频生成的或从客户端设备102的存储器部件检索的、并且包括在消息400中的音频转录数据。

·消息音频音调净荷420:从由麦克风捕获的音频推断的或从客户端设备102的存储器部件检索的、并且包括在消息400中的音频音调数据。

·消息发送者标识符422:指示在其上生成消息400并且从其发送消息400的客户端设备102的用户的标识符(例如消息收发系统标识符、电子邮件地址或设备标识符)。

·消息接收者标识符424:指示消息400被寻址到的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。

消息400的各个组成部分的内容(例如,值)可以是指向其内存储有内容数据值的表中的位置的指针。例如,存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表304内的用户记录。存储在消息音频净荷410中的值可以指向服务器上的永久性存储装置中的位置,该永久性存储装置存储响应于传送来自发送者的客户端设备的语音聊天消息的请求而由麦克风捕获的相关联的音频内容。

基于时间的访问限制架构

图5是示出访问限制过程500的示意图,根据该访问限制过程,对内容(例如,短暂消息502和相关联的数据的多媒体净荷)或内容集合(例如,短暂消息组504)的访问可以是时间受限的(例如,使得是短暂的)。

短暂消息502与发送用户的标识(图4的MSG_SENDER_ID 422)相关联并且被示出为与消息持续时间参数506相关联,消息持续时间参数506的值确定消息收发客户端104将向短暂消息502的接收用户显示短暂消息502的时间量。在一个示例中,取决于发送用户使用消息持续时间参数506指定的时间量,接收用户可查看短暂消息502长达最多10秒。在一些示例中,在短暂消息502是语音聊天消息的情况下,可供接收用户查看文本和收听相关联的音频片段达更长的时间段(例如24小时或直到发送用户删除了语音聊天消息)。在一些示例中,来自语音聊天消息的音频片段被存储在图1的数据库120中,并且可供接收用户收听达预定时间段,但是在发送用户删除了语音聊天消息之后接收用户无法收听。

消息持续时间参数506和消息接收者标识符424被示出为消息定时器512的输入,消息定时器512负责确定向由消息接收者标识符424标识的特定接收用户示出短暂消息502的时间量。特别地,仅在由消息持续时间参数506的值确定的时间段内向相关接收用户示出短暂消息502。消息定时器512被示出为向更一般化的短暂定时器系统202提供输出,该短暂定时器系统202负责向接收用户显示内容(例如,短暂消息502)的总体定时。

短暂消息502在图5中被示出为包括在短暂消息组504(例如,个人故事或事件故事中的消息的集合)内。短暂消息组504具有相关联的组持续时间参数508,组持续时间参数508的值确定短暂消息组504被呈现并且可由消息收发系统100的用户访问的持续时间。例如,组持续时间参数508可以是音乐会的持续时间,其中,短暂消息组504是涉及该音乐会的内容的集合。替选地,当执行短暂消息组504的设置和创建时,用户(拥有用户或策展者用户)可以指定组持续时间参数508的值。

另外,短暂消息组504内的每个短暂消息502具有相关联的组参与参数510,组参与参数510的值确定在短暂消息组504的上下文内可访问短暂消息502的持续时间。因此,在特定的短暂消息组504本身根据组持续时间参数508到期之前,该特定的短暂消息组504在短暂消息组504的上下文中可能“到期”并且变得不可访问。组持续时间参数508、组参与参数510和消息接收者标识符424各自向组定时器514提供输入,组定时器514可操作地首先确定短暂消息组504的特定短暂消息502是否将被显示给特定接收用户,并且如果是,则确定显示多长时间。注意,由于消息接收者标识符424,短暂消息组504也知道特定接收用户的身份。

因此,组定时器514可操作地控制相关联的短暂消息组504以及包括在短暂消息组504中的单独的短暂消息502的总寿命期限。在一个示例中,短暂消息组504内的每个短暂消息502在由组持续时间参数508指定的时间段内保持可查看和可访问。在另一示例中,在短暂消息组504的上下文内,某个短暂消息502可以基于组参与参数510而到期。注意,即使在短暂消息组504的上下文内,消息持续时间参数506也仍然可以确定向接收用户显示特定短暂消息502的持续时间。因此,消息持续时间参数506确定向接收用户显示特定短暂消息502的持续时间,而不管接收用户是在短暂消息组504的上下文之内还是之外查看该短暂消息502。

短暂定时器系统202还可以基于确定特定的短暂消息502已经超过相关联的组参与参数510而从短暂消息组504中可操作地移除该特定的短暂消息502。例如,当发送用户已经建立了从发布起24小时的组参与参数510时,短暂定时器系统202将在指定的二十四小时之后从短暂消息组504中移除相关的短暂消息502。当针对短暂消息组504内的每个短暂消息502的组参与参数510都已经到期时,或者当短暂消息组504本身根据组持续时间参数508已经到期时,短暂定时器系统202还进行操作以移除短暂消息组504。

在某些使用情况下,特定短暂消息组504的创建者可以指定无限期的组持续时间参数508。在这种情况下,短暂消息组504内最后剩余的短暂消息502的组参与参数510的到期将确定短暂消息组504本身何时到期。在这种情况下,添加至短暂消息组504的具有新的组参与参数510的新的短暂消息502实际上将短暂消息组504的寿命延长到等于组参与参数510的值。

响应于短暂定时器系统202确定短暂消息组504已经到期(例如,不再是可访问的),短暂定时器系统202与消息收发系统100(并且例如特别是消息收发客户端104)通信,以使得与相关短暂消息组504相关联的标记(例如,图标)不再显示在消息收发客户端104的用户界面内。类似地,当短暂定时器系统202确定针对特定短暂消息502的消息持续时间参数506已经到期时,短暂定时器系统202使消息收发客户端104不再显示与短暂消息502相关联的标记(例如,图标或文本标识)。

将注意的是,在图1的消息收发系统100中,对诸如语音聊天的内容的访问可以是短暂的,也可以不是短暂的。如上所述,与语音聊天消息相关联的音频内容可供接收用户收听,只要发送用户不删除语音聊天消息。下面参照图6描述由图2的语音聊天系统208执行的示例操作。

图6是用于促进图1的消息收发客户端104的用户之间的语音聊天的方法600的流程图。方法600可以由处理逻辑来执行,该处理逻辑可以包括硬件(例如,专用逻辑、可编程逻辑、微代码等)、软件或两者的组合。尽管所描述的流程图可以将操作示出为顺序过程,但是各个操作中的许多操作可以并行或同时执行。另外,可以重新布置操作的顺序。当过程的操作完成时,该过程终止。过程可对应于方法、程序、算法等。方法的操作可以全部或部分地执行,可以与其他方法中的一些或所有操作结合执行,并且可以通过任何数目的不同系统(例如本文中所描述的系统)或其任何部分(例如包括在任何系统中的处理器)执行。

在一个示例实施方式中,一些或全部处理逻辑驻留在图1的客户端设备102和/或图1的消息收发服务器系统108处。方法600响应于在用于通过网络交换数据的消息收发系统(例如,图1的消息收发系统100)中检测到将语音聊天消息从与发送者标识相关联的发送者客户端设备传送至与接收者标识相关联的接收者的请求而开始。

在操作610处,消息收发系统接收与发送者标识相关联的输入音频流。操作610可以在用户开始口述要作为语音聊天发送的语音消息时执行。在操作620处,消息收发系统在接收输入音频流时同步地、实时地从输入音频流生成与音频内容对应的文本。如上所述,当作为语音聊天消息的发送者的用户开始口述语音消息时,图2的语音聊天系统208开始将接收到的音频流转换成文本(操作620)。与来自输入音频流的音频内容对应的文本由语音识别引擎生成,该语音识别引擎可以被包括在由发送者客户端设备的一个或更多个处理器实现的消息收发客户端中以及由接收者客户端设备的一个或更多个处理器实现的消息收发客户端中,并且还可以(或替代地)被包括在提供各个消息收发客户端的后端系统处(例如,在图1的消息收发服务器系统108处)。在一个示例中,语音识别引擎使用声学建模和语言建模,声学建模表示语音和音频信号的语言单位之间的关系,语言建模将声音与单词序列相匹配。

在操作630处,消息收发系统与输入音频流的接收同步地将所生成的文本呈现在发送者客户端设备上,使得语音聊天消息的发送者可以在他或她向麦克风讲话时看到音频在被转换成文本。包括所生成的文本的语音聊天消息被插入到由消息收发系统100生成以在发送者客户端设备处显示的聊天对话UI中。在操作640处,消息收发系统使所生成的文本和来自输入音频流的音频内容同步地呈现在与接收者标识相关联的接收者客户端设备上。包括所生成的文本的语音聊天消息也被插入到由消息收发系统100生成以在接收者客户端设备处显示的聊天对话UI中。如上所述,如果聊天对话UI的音量是打开的,则接收者用户可以收听语音消息并读取从音频生成的文本。还可以使聊天对话UI音频的音量关闭或静音,这允许接收者用户仅以文本形式消费语音消息。由消息收发系统100生成以在发送者客户端设备处显示的聊天对话UI和由消息收发系统100生成以在接收者客户端设备处显示的聊天对话UI被包括在由发送者客户端设备的一个或更多个处理器和接收者客户端设备的一个或更多个处理器实现的相应消息收发客户端中。

在一些示例中,方法600的操作包括:对输入音频流的一个或更多个音频特征进行分析以确定表示输入音频流的定性特征,以及将定性特征的表示包括在由消息收发系统100生成以在接收者客户端设备处显示的聊天对话UI中。定性特征的表示可以指示低语、笑声等。

图7是示出在客户端设备处提供的示例聊天对话UI 702的图700。如图7所示,聊天对话UI 702显示消息部分704,该消息部分704包括发送者的标识(“杰里米”)、音频源的视觉指示706以及与音频消息对应的文本“这是语音聊天”。音频源的视觉指示706在聊天对话UI 702中被定位为与所生成的文本相关联并且与发送者的标识相关联。视觉指示706或在一些示例中的消息部分704可操作以回放与所显示的文本对应的音频内容。

聊天对话UI 702中还示出了消息部分708,该消息部分708包括发送者的标识(“戴伦”)和文本(“不能讲话。稍后”)。消息部分708没有音频源的指示,因为文本是由发送者打字的而不是口述的。聊天对话UI 702中还示出了消息部分710,该消息部分710包括发送者的标识(“杰克”)、正在进行中的音频消息的视觉指示712以及与正在口述的音频消息对应的文本(“我将保持安静”)。消息部分710还包括正在口述的音频消息的定性特征的表示——“低语”。

消息部分714指示聊天对话UI 702准备好从控制客户端设备的用户接收音频输入。消息部分714包括控制客户端设备的用户的标识(“我”)、正在进行中的音频消息的视觉指示以及与控制客户端设备的用户的标识(“我”)相邻的空白空间。在一些示例中,与控制客户端设备的用户的标识(“我”)相邻的空间可以包括开始讲话的邀请。

图8是示出在客户端设备处提供的另一示例聊天对话UI 802的图800。消息部分804显示控制客户端设备的用户(“我”)先前发送的文本消息。聊天对话UI 802还包括视觉控件806(此处,麦克风的风格化图片),其可操作以实现语音聊天,使得控制客户端设备的用户能够开始口述消息。

机器架构

图9是机器900的图解表示,在该机器900内可以执行用于使机器900执行本文所讨论的方法中的任何一个或更多个方法的指令908(例如,软件、程序、应用、小程序、app或其他可执行代码)。例如,指令908可以使机器900执行本文所描述的方法中的任何一个或更多个方法。指令908将通用的非编程的机器900转换成被编程成以所描述的方式执行所描述和所示出的功能的特定机器900。机器900可以作为独立设备操作或者可以耦接(例如,联网)到其他机器。在联网的部署中,机器900可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份进行操作,或者在对等(或分布式)网络环境中作为对等机器进行操作。机器900可以包括但不限于:服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能电器)、其他智能设备、web装置、网络路由器、网络交换机、网络桥接器或者能够顺序地或以其他方式执行用于指定要由机器900采取的动作的指令908的任何机器。此外,虽然仅示出了单个机器900,但是术语“机器”还应被视为包括单独或联合执行指令908以执行本文中讨论的方法中的任何一个或更多个方法的机器的集合。例如,机器900可以包括客户端设备102或者形成消息收发服务器系统108的一部分的若干个服务器设备中的任何一个。在一些示例中,机器900还可以包括客户端和服务器系统二者,其中特定方法或算法的某些操作在服务器侧执行,并且该特定方法或算法的某些操作在客户端侧执行。

机器900可以包括处理器902、存储器904和输入/输出(I/O)部件938,它们可以被配置成经由总线940彼此通信。在示例中,处理器902(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令908的处理器606和处理器610。术语“处理器”旨在包括多核处理器,该多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时被称为“核”)。虽然图9示出了多处理器902,但是机器900可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器或者其任何组合。

存储器904包括处理器902可以经由总线940访问的主存储器912、静态存储器914和存储单元916。主存储器904、静态存储器914和存储单元916存储实现本文中所描述的方法或功能中的任何一个或更多个方法或功能的指令908。指令908还可以在其被机器900执行期间完全地或部分地驻留在主存储器912内、驻留在静态存储器914内、驻留在存储单元916内的机器可读介质918内、驻留在处理器902中的至少一个处理器内(例如,在处理器的高速缓存存储器内)或驻留在它们的任何合适的组合内。

I/O部件938可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种组件。包括在特定机器中的特定I/O部件938将取决于机器的类型。例如,诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构,而无头服务器机器将不太可能包括这样的触摸输入设备。将理解的是,I/O部件938可以包括图9中未示出的许多其他部件。在各种示例中,I/O部件938可以包括用户输出部件924和用户输入部件926。用户输出部件924可以包括视觉部件(例如,诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学部件(例如,扬声器)、触觉部件(例如,振动马达、阻力机构)、其他信号生成器等。用户输入部件926可以包括字母数字输入部件(例如,键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于点的输入部件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向仪器)、触觉输入部件(例如,物理按钮、提供触摸或触摸手势的位置和力的触摸屏、或其他触觉输入部件)、音频输入部件(例如,麦克风)等。

在其他示例中,I/O部件938可以包括生物识别部件928、运动部件930、环境部件932、或定位部件934以及各种其他部件。例如,生物识别部件928包括用于检测表达(例如,手表达、面部表情、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别人(例如,声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件930包括加速度传感器部件(例如,加速度计)、重力传感器部件、旋转传感器部件(例如,陀螺仪)。

环境部件932包括例如:一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如,光度计)、温度传感器部件(例如,检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如,气压计)、声学传感器部件(例如,检测背景噪声的一个或更多个麦克风)、接近度传感器部件(例如,检测附近对象的红外传感器)、气体传感器(例如,为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。

关于摄像装置,客户端设备102可以具有摄像装置系统,该摄像装置系统包括例如客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如,“自拍”),然后可以用上述增强数据(例如,过滤器)对该静止图像和视频进行增强。例如,后置摄像装置可以用于以更传统的摄像装置模式捕获静止图像和视频,这些图像类似地使用增强数据进行增强。除了前置摄像装置和后置摄像装置之外,客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。

此外,客户端设备102的摄像装置系统可以包括双后置摄像装置(例如,主摄像装置以及深度感测摄像装置),或者甚至在客户端设备102的前后侧上包括三重、四重或五重后置摄像装置配置。例如,这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。

定位部件934包括位置传感器部件(例如,GPS接收器部件)、海拔传感器部件(例如,检测可以得到海拔的气压的高度计或气压计)、取向传感器部件(例如,磁力计)等。

可以使用各种各样的技术来实现通信。I/O部件938还包括通信部件936,通信部件936可操作以经由相应的耦接或连接将机器900耦接至网络920或设备922。例如,通信部件936可以包括网络接口部件或另一合适的设备以与网络920对接。在其他示例中,通信部件936可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、

此外,通信部件636可以检测标识符或包括可操作以检测标识符的部件。例如,通信部件636可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如,用于检测诸如通用产品代码(UPC)条形码的一维条形码、诸如快速反应(QR)码、Aztec码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(UltraCode)、UCC RSS-2D条形码的多维条形码和其他光学码的光学传感器)或声学检测部件(例如,用于识别标记的音频信号的麦克风)。另外,可以经由通信部件936得出各种信息,例如经由因特网协议(IP)地理位置得出的位置、经由

各种存储器(例如,主存储器912、静态存储器914以及处理器902的存储器)以及存储单元916可以存储由本文中描述的方法或功能中的任何一个或更多个实现或使用的指令和数据结构(例如,软件)中的一组或更多组。这些指令(例如,指令908)在由处理器902执行时使各种操作实现所公开的示例。

可以经由网络接口设备(例如,通信部件936中包括的网络接口部件),使用传输介质并且使用若干公知的传输协议中的任意一种传输协议(例如,超文本传输协议(HTTP)),通过网络920来发送或接收指令908。类似地,可以使用传输介质经由到设备922的耦接(例如,对等耦接)来发送或接收指令908。

术语表

“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括用于便于这些指令的通信的数字或模拟通信信号或其他无形介质。可以使用传输介质经由网络接口设备来通过网络发送或接收指令。

“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。

“通信网络”是指网络的一个或更多个部分,该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、

“组件”是指具有以下边界的设备、物理实体或逻辑,该边界由功能或子例程调用、分支点、API或者对特定处理或控制功能提供分区或模块化的其他技术定义。组件可以经由其接口与其他组件组合以执行机器处理。组件可以是被设计用于与其他组件一起使用的经封装的功能硬件单元,并且可以是通常执行相关功能中的特定功能的程序的一部分。组件可以构成软件组件(例如,实施在机器可读介质上的代码)或硬件组件。“硬件组件”是能够执行某些操作的有形单元,并且可以以某种物理方式来配置或布置。在各种示例实施方式中,可以通过软件(例如,应用或应用部分)将一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件组件(例如,处理器或处理器组)配置为用于执行本文中描述的某些操作的硬件组件。也可以机械地、电子地或以其任何合适的组合来实现硬件组件。例如,硬件组件可以包括被永久地配置成执行某些操作的专用电路系统或逻辑。硬件组件可以是例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的专用处理器。硬件组件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路系统。例如,硬件组件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置,硬件组件就变成被独特地定制成执行所配置的功能的特定机器(或机器的特定组件),而不再是通用处理器。将理解,可以出于成本和时间考虑来决定机械地、在专用且永久配置的电路中还是在临时配置(例如,由软件配置)的电路中实现硬件组件。相应地,短语“硬件组件”(或者“硬件实现的组件”)应当被理解成包含有形实体,即被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)成以某种方式操作或者执行本文中描述的某些操作的实体。考虑硬件组件被临时配置(例如,被编程)的实施方式,无需在任一时刻对硬件组件中的每个硬件组件进行配置或实例化。例如,在硬件组件包括通过软件配置成变成专用处理器的通用处理器的情况下,该通用处理器可以在不同时间处分别被配置为不同的专用处理器(例如,包括不同的硬件组件)。软件相应地配置一个或多个特定处理器以例如在一个时刻处构成特定硬件组件,并且在不同的时刻处构成不同的硬件组件。硬件组件可以向其他硬件组件提供信息以及从其他硬件组件接收信息。因此,所描述的硬件组件可以被认为通信地耦接。在同时存在多个硬件组件的情况下,可以通过在两个或更多个硬件组件之间或之中(例如,通过适当的电路和总线)的信号传输来实现通信。在其中多个硬件组件在不同时间处被配置或被实例化的实施方式中,可以例如通过将信息存储在多个硬件组件访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件组件之间的通信。例如,一个硬件组件可以执行操作,并且将该操作的输出存储在其通信地耦接到的存储器设备中。然后,其他硬件组件可以在随后的时间访问存储器设备以检索所存储的输出并对所存储的输出进行处理。硬件组件还可以发起与输入设备或输出设备的通信,并且可以对资源进行操作(例如,信息的收集)。本文所述的示例方法的各种操作可以至少部分地由临时地被配置(例如,由软件)或永久地被配置成执行相关操作的一个或更多个处理器来执行。无论是临时地被配置还是永久地被配置,这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的组件。如本文中使用的,“处理器实现的组件”是指使用一个或更多个处理器实现的硬件组件。类似地,本文中描述的方法可以至少部分地由处理器实现,其中特定的一个或多个处理器是硬件的示例。例如,方法的至少一些操作可以由一个或更多个处理器1004或处理器实现的部件来执行。此外,所述一个或更多个处理器还可以操作成支持“云计算”环境中的相关操作的执行或者操作为“软件即服务”(SaaS)。例如,操作中的至少一些操作可以由计算机组(作为包括处理器的机器的示例)执行,其中,这些操作能够经由网络(例如,因特网)并且经由一个或更多个适当的接口(例如,API)进行访问。某些操作的执行可以分布在处理器之间,不是仅驻留在单个机器内,而是跨多个机器被部署。在一些示例实施方式中,处理器或处理器实现的组件可以位于单个地理位置中(例如,在家庭环境、办公室环境或服务器群内)。在其他示例实施方式中,处理器或处理器实现的组件可以跨若干地理位置而分布。

“计算机可读存储介质”是指机器存储介质和传输介质两者。因此,这些术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物,并且可以在本公开内容中可互换地使用。

“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如,集中式或分布式数据库,以及相关联的高速缓存和服务器)。因此,该术语应被视为包括但不限于固态存储器以及光学和磁介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和/或设备存储介质的具体示例包括:非易失性存储器,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备;磁盘,例如内部硬盘和可移动磁盘;磁光盘;以及CD-ROM和DVD-ROM磁盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物,并且在本公开内容中可以互换使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质,所述载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。

“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。

“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质,并且包括有助于软件或数据的通信的数字或模拟通信信号或其他无形介质。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指使其特性中的一个或更多个特性以将信息编码在信号中的方式来设置或改变的信号。术语“传输介质”和“信号介质”指相同的事物并且可以在本公开内容中互换使用。

相关技术
  • 音频播放和文字显示同步装置及方法、音频数据存储单元及生成装置
  • 音频和文本的同步方法、计算设备及存储介质
技术分类

06120116062347