掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本公开涉及自然语言处理的技术领域,具体地,涉及基于人工智能技术来进行自然语言处理,更具体地,涉及一种语音处理方法和装置。

背景技术

随着人工智能技术的飞速发展,智能车辆系统得到越来越多的关注。智能车辆系统通常使用语音助手来处理目标对象发出的语音指令。这样的语音助手往往在车辆系统后台实时录音,以实现经由固定唤醒词被唤醒并识别相关的语音指令。尤其当车辆内有音乐/录音等媒体播放时,这样的语音助手就需要不断地对检测到的声音进行滤波、处理和分析,以确定检测到的声音中是否包括目标对象发出的语音指令。因此,这样的语音助手往往会增大智能车辆系统的功耗,造成不必要的资源浪费。

发明内容

本公开提供了一种资源节约型的语音处理方法和装置、电子设备、非瞬时计算机可读存储介质和计算机程序产品。

根据本公开的一方面,提供了一种语音处理方法,该语音处理方法可以包括:响应于检测到目标对象的唇动,对所获取的第一声音信号执行回声消除操作,得到第二声音信号;对所述第二声音信号进行处理和分析,以确定所述第二声音信号是否包括语音指令;并响应于确定所述第二声音信号包括所述语音指令,发送所述语音指令以供处理。

根据本公开的另一方面,提供了一种语音处理装置,该语音处理装置包括:回声消除模块,被配置为响应于检测到目标对象的唇动,对所获取的第一声音信号执行回声消除操作;指令提取模块,被配置为对所述第二声音信号进行处理和分析,以确定所述第二声音信号是否包括语音指令;以及指令发送模块,被配置为响应于确定所述第二声音信号包括所述语音指令,发送所述语音指令以供处理。

根据本公开的再一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据本公开示例实施例所述的方法。

根据本公开的另一方面,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开示例实施例所述的方法。

根据本公开的另一方面,一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开示例实施例的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1A示出了根据本公开实施例的可以语音处理方法和装置的示例性系统架构;

图1B示出了根据本公开示例实施例的语音处理方法的流程图;

图2示出了根据本公开示例实施例的回声消除步骤的流程图;

图3示出了根据本公开示例实施例的语音处理方法的示意框图;

图4示出了根据本公开示例实施例的唇动检测操作的具体示意框图;

图5示出了根据本公开示例实施例的语音处理装置的一个示例;

图6示出了根据本公开示例实施例的语音处理装置的另一示例;以及

图7示出了用来实现本公开实施例的电子设备的另一示例的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

如前所述,现有的语音助手往往增大语音处理装置以及包括语音处理装置的电子系统的功耗,造成不必要的资源浪费。因此,需要一种资源节约型的语音处理方法和装置,使得能够改善语音处理装置和包括语音处理装置的电子设备的能源消耗和计算资源利用率。

本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。

图1A示意性示出了根据本公开实施例的语音处理方法及装置的示例性系统架构。

需要注意的是,图1A所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用语音处理方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的语音处理方法及装置。

如图1A所示,根据该实施例的系统架构10可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型。例如,有线和无线通信链路等中的至少之一。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如,导航应用、搜索类应用、即时通信工具、邮箱客户端和社交平台软件等中的至少之一。

终端设备101、102、103可以是具有语音助手功能的各种电子设备。例如,电子设备可以包括智能车辆、智能手机、平板电脑、膝上型便携计算机和台式计算机等中的至少之一。

服务器105可以是提供各种服务的服务器。例如,服务器105可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与VPS服务(Virtual Private Server,虚拟专用服务器)中存在的管理难度大、业务扩展性弱的缺陷。需要说明的是,本公开实施例所提供的语音处理方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的语音处理方法也可以设置于终端设备101、102、或103中。

备选地,本公开实施例所提供的语音处理方法一般也可以由服务器105执行。相应地,本公开实施例所提供的语音处理方法一般可以设置于服务器105中。本公开实施例所提供的语音处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的语音处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

需要说明的是,本公开实施例所提供的语音处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的语音处理装置一般可以设置于服务器105中。本公开实施例所提供的语音处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的语音处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

备选地,本公开实施例所提供的语音处理方法一般也可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的语音处理装置也可以设置于终端设备101、102、或103中。

应该理解,图1A中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。

图1B是根据本公开示例实施例的语音处理方法的流程图。根据本公开示例实施例的语音处理方法可以应用于智能语音助手。智能语音助手被广泛地应用于智能家居、智能手机以及智能车辆系统中,以根据目标对象的语音指令提供期望的服务,从而改善用户便利性。

如图1B所示,语音处理方法100可以包括:步骤S110,响应于检测到目标对象的唇动,对所获取的第一声音信号执行回声消除操作,得到第二声音信号。目标对象可以是一个或多个。例如,在智能家居的应用场景下,目标对象可以是屋内的所有人;且在智能车辆系统的应用场景下,目标对象可以是车辆的驾驶员,也可以是车内的所有乘坐人员。第一声音信号可以是包括由目标对象发出的语音指令和由声音输出设备输出的多媒体数据的声音信号,即,对应于当前环境下由声音采集设备采集到的所有声音。当检测到目标对象的唇动时,可以对所获取的第一声音信号执行回声消除操作,以消除第一声音信号中包括的噪声、回声、背景声等。

在步骤S120,对第二声音信号进行处理和分析,以确定第二声音信号是否包括语音指令。对第二声音信号执行软降噪,并通过使用语音识别模型来分析经软降噪的第二声音信号,以确定第二声音信号是否包括语音指令。第二声音信号是经过降噪、回声去除的信号。可以使用经训练的语音处理模型来对第二声音信号进行处理和分析,以确定第二声音信号是否包括语音指令。经训练的语音处理模型可以包括例如高斯混合模型-隐马尔科夫(GMM-HMM)模型、深度神经网络-隐马尔科夫(DNN-HMM)模型、深度神经网络-连接时序分类(DNN-CTC)模型等,且不限于此。本领域技术人员应清楚,可以应用各种语音处理技术和语音识别技术来对第二声音信号进行处理和分析,而不脱离本申请的保护范围。

步骤S130,响应于确定第二声音信号包括语音指令,发送语音指令以供处理。当确定第二声音信号包括语音指令时,将语音指令发送至相应模块以由相应模块进行处理,从而执行与语音指令相对应的操作。例如,当确定第二声音信号包括例如“导航回家”的语音指令时,可以将相应的语音指令发送给导航系统;且当确定第二声音信号包括例如“路边停车”的语音指令时,可以将相应的语音指令发送给车辆的制动系统。

以上描述了根据本公开示例实施例的语音处理方法。通过响应于检测到目标对象的唇动而对第一声音信号执行回声消除,根据本公开示例实施例的语音处理方法能够检测目标对象是否具有通过语音指令来执行某功能或某操作的意图,从而决定是否需要开启回声消除和语音分析。因此,可以避免不必要的能量消耗和计算资源消耗,由此,提供了一种资源节约型的语音处理方法。

如前所述,当检测到目标对象的唇动时,可以确定目标对象具有通过语音指令来执行某功能或某操作的意图,因此,可以对获取的第一声音信号执行回声消除步骤。图2是根据本公开示例实施例的回声消除步骤的流程图。

如图2所示,回声消除步骤可以包括:在子步骤S211,响应于检测到目标对象的唇动,获取由声音输出设备输出的音频的反馈以作为参考信号。声音输出设备可以是例如喇叭等的能够播放音频的设备。可以通过声音输出设备的信号反馈模块来采集由声音输出设备输出的音频的反馈,作为用于回声消除的参考信号。

此外,回声消除步骤还可以包括:在子步骤S212,基于参考信号对第一声音信号执行回声消除,以得到第二声音信号。例如,通过使用语音自适应回声消除算法,来基于参考信号对第一声音信号执行回声消除,以得到第二声音信号。自适应回声消除估计回声路径的特征参数,并产生一个模拟的回声路径,从而基于参考信号得出模拟回声信号,从接收信号中减去该信号,实现回声抵消。

在本示例中,仅描述了响应于检测到目标对象的唇动而执行回声消除的示例。在另一示例中,可以通过唇动检测技术检测唇动开始的第一时间点以及唇动停止的第二时间点,并仅对从第一时间点至第二时间点的时段期间的第一声音信号执行回声消除步骤。例如,可以获取由声音输出设备在从第一时间点至第二时间点的时段期间输出的音频的反馈,作为用于对相应时段的第一声音信号进行回声消除的参考信号。这样,可以减少要处理的数据,从而进一步节约功耗和计算资源,实现资源节约型的语音处理方法。又例如,还可以执行对第一声音信号执行语音端点检测,以校正经由唇动检测而检测的第一时间点和第二时间点。语音端点检测技术(Voice Activity Detection)用于判断给定的音频数据是否存在语音,其通常用于语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中,以鉴别音频信号当中的语音出现和语音消失,即,第一时间点和第二时间点。当将语音端点检测技术与唇动检测技术结合时,可以进一步提高经由唇动检测而检测的第一时间点和第二时间点的准确性,避免错失语音指令和不必要的能量消耗和资源消耗。

在一个示例中,对第一时间点和第二时间点的校正可以包括:如果经由VAD技术检测出的第一时间点晚于经由唇动检测检测出的第一时间点,则选用经由VAD技术检测出的第一时间点作为经校正的第一时间点,否则,选用经由唇动检测检测出的第一时间点。在另一示例中,对第一时间点和第二时间点的校正可以包括:如果经由VAD技术检测出的第二时间点晚于经由唇动检测检测出的第二时间点,则选用经由唇动检测检测出的第二时间点作为经校正的第二时间点,否则,选用经由VAD技术检测出的第二时间点。这样,能够确保在经校正的第一时间点至经校正的第二时间点的时段期间,目标对象既做出了唇动又输出了语音,也就是说,检测到的唇动为输出语音的有效唇动。此外,本领域技术人员应清楚,对第一时间点和第二时间点的校正可以包括对第一时间点进行校正、对第二时间点进行校正、以及对第一时间点和第二时间点二者进行校正。本领域技术人员可以根据应用系统的性能要求而选择对第一时间点和第二时间点中的哪个时间点执行校正,而不脱离本公开的保护范围。

下面,将参考图3的示意框图来更详细地描述根据本公开示例实施例的语音处理方法。图3示出了根据本公开示例实施例的语音处理方法的示意框图。

如图3所示,当目标对象301在例如扬声器的声音输出设备302输出音频期间发出语音指令时,可以执行根据本公开示例实施例的语音处理方法。根据本公开示例实施例的语音处理方法可以总体上包括回声消除操作310、语音处理操作320和指令发送操作330。

在回声消除操作310中,响应于检测到目标对象的唇动,基于参考信号对第一声音信号进行回声消除并生成经降噪和回声消除的第二声音信号。对唇动的检测可以是经由类似于摄像机的摄像设备303捕获目标对象301的面部图像,并执行针对唇部区域的检测算法,从而对唇部进行精确定位来实现的,即,操作350。第一声音信号可以是经由声音采集操作340采集的包括目标对象301的语音和声音输出设备302输出的音频在内的声音信号。参考信号是通过响应于检测到唇动,经由信号回采操作360收集由声音输出设备302输出的音频的反馈而生成的信号。

在语音处理操作320中,可以对所获得的第二声音信号进行处理和分析,以确定第二声音信号是否包括语音指令。如前所述,可以使用经训练的语音处理模型来对第二声音信号进行处理和分析,其中,经训练的语音处理模型可以包括例如GMM-HMM模型、DNN-HMM模型、DNN-CTC模型等,且不限于此。

当经由语音处理操作320确定第二声音信号包括语音指令时,在指令发送操作330中,将语音指令发送至相应模块以由相应模块进行处理,从而执行与语音指令相对应的操作。

本领域技术人员应认识到,可以根据应用需要而将声音采集操作340、唇动检测操作350和信号回采操作360中的任意一个或其任意组合包括在根据本公开示例实施例所示的语音处理方法中。

图4示出了根据本公开示例实施例的唇动检测操作的具体示意框图。

如图4所示,唇动检测操作450可以包括面部检测子操作451、唇部特征提取子操作452和唇部检测子操作453。在面部检测子操作451中,使用面部检测模型确定目标对象的面部图像,并从中确定唇部图像40a。在一个示例中,可以使用面部检测演算法得到面部图像,然后定位唇部图像。在唇部特征提取子操作452中,基于唇部图像40a提取特征图,以得到唇部特征40b。特征提取方法可以包括基于图元的特征提取方法和基于模型的特征提取方法,本领域技术人员可以根据需要选择适合的特征提取方法之一或其组合来提取唇部特征。在唇动检测子操作453中,基于唇部特征40b来检测唇动。在一个示例中,可以通过相邻帧之间的特征比较来确定目标对象是否唇动。例如,当基于前一帧确定多个唇部特征之后,可以基于所确定的唇部特征之间的位置关系,来确定当前帧中的唇部是否相对于前一帧发生运动,从而检测是否发生唇动。

以上结合图4描述了根据本公开示例实施例的唇动检测操作的具体示意框图。

图5示出了根据本公开示例实施例的语音处理装置的一个示例。

如图5所示,语音处理装置500可以包括:回声消除模块510、指令提取模块520和指令发送模块530。

回声消除模块510可以被配置为响应于检测到目标对象的唇动,对所获取的第一声音信号执行回声消除操作,以得到第二声音信号。第一声音信号可以是包括由目标对象发出的语音指令和由声音输出设备输出的多媒体数据的声音信号,即,对应于当前环境下由声音采集设备采集到的所有声音。当检测到目标对象的唇动时,可以对所获取的第一声音信号执行回声消除操作,以消除第一声音信号中包括的噪声、回声、背景声等。

指令提取模块520可以被配置对第二声音信号进行处理和分析,以确定第二声音信号是否包括语音指令。第二声音信号是经过降噪、回声去除的信号。例如,指令提取模块520还可以被配置为:对第二声音信号执行软降噪,并通过使用语音识别模型来分析经软降噪的第二声音信号,以确定第二声音信号是否包括语音指令。例如,可以使用经训练的语音处理模型来(例如,GMM-HMM模型、DNN-HMM模型、或DNN-CTC模型)对第二声音信号进行处理和分析,以确定第二声音信号是否包括语音指令。

指令发送模块530可以被配置为响应于确定第二声音信号包括语音指令,发送语音指令以供处理。当确定第二声音信号包括语音指令时,可以将语音指令发送至相应模块以由相应模块进行处理,从而执行与语音指令相对应的操作。

在一个示例中,回声消除模块510可以进一步被配置为:响应于检测到目标对象的唇动,获取由声音输出设备输出的音频的反馈以作为参考信号;以及基于参考信号对第一声音信号执行回声消除,以得到第二声音信号。此外,还可以通过唇动检测技术检测唇动开始的第一时间点以及唇动停止的第二时间点,并仅对从第一时间点至第二时间点的时段期间的第一声音信号执行回声消除步骤。在这种情况下,参考信号可以是由声音输出设备在唇动开始的第一时间点至唇动停止的第二时间点的时段期间输出的音频的反馈。这样,可以减少要处理的数据,从而进一步节约功耗和计算资源,实现资源节约型的语音处理装置。

在另一示例中,回声消除模块510还可以被配置为:通过使用语音自适应回声消除算法,来基于参考信号对第一声音信号执行回声消除,以得到第二声音信号。自适应回声消除估计回声路径的特征参数,并产生一个模拟的回声路径,从而基于参考信号得出模拟回声信号,从接收信号中减去该信号,实现回声消除。

以上参考图5描述了根据本公开示例实施例的语音处理装置的一个示例,且图6示出了语音处理装置的另一示例,其中用相同或相似的附图标记表示相同或相似的模块或具有相同或相似功能的模块。

相比于图5所示的语音处理装置500,图6所示的语音处理装置600除了回声消除模块610、指令提取模块620和指令发送模块630之外,还可以附加地包括唇动检测模块640和语音端点检测模块650,其中关于消除模块610、指令提取模块620和指令发送模块630的相关描述可以参考针对图5的回声消除模块510、指令提取模块520和指令发送模块530的描述,因此将不再进行赘述。

在本示例中,唇动检测模块640可以被配置为:使用面部检测模型确定目标对象的唇部图像;提取唇部图像的特征,以得到唇部特征;以及基于唇部特征来检测唇动。在一个示例中,可以通过相邻帧之间的特征比对来确定目标对象是否唇动。例如,当基于前一帧确定多个唇部特征之后,可以基于所确定的唇部特征之间的位置关系,来确定当前帧中的唇部是否相对于前一帧发生运动,以检测唇动。

此外,语音端点检测模块650可以被配置为执行对第一声音信号执行语音端点检测,以校正经由唇动检测而检测的第一时间点和第二时间点。当将语音端点检测技术与唇动检测技术结合时,可以进一步提高经由唇动检测而检测的第一时间点和第二时间点的准确性,避免错失语音指令和不必要的能量消耗和资源消耗。在一个示例中,语音处理装置可以基于由语音端点检测模块650检测的第一时间点和第二时间点执行校正。对第一时间点和第二时间点的校正可以包括:如果经由VAD技术检测出的第一时间点晚于经由唇动检测检测出的第一时间点,则选用经由VAD技术检测出的第一时间点作为经校正的第一时间点,否则,选用经由唇动检测检测出的第一时间点;或者如果经由VAD技术检测出的第二时间点晚于经由唇动检测检测出的第二时间点,则选用经由唇动检测检测出的第二时间点作为经校正的第二时间点,否则,选用经由VAD技术检测出的第二时间点。这样,能够确保在经校正的第一时间点至经校正的第二时间点的时段期间,目标对象做出了有效唇动。

以上结合图5和图6描述了根据本公开示例实施例的语音处理装置。通过响应于检测到目标对象的唇动而对第一声音信号执行回声消除,根据本公开示例实施例的语音处理装置能够检测目标对象是否具有通过语音指令来执行某功能或某操作的意图,从而决定是否需要开启回声消除和语音分析。因此,可以避免不必要的能量消耗和计算资源消耗,由此,提供了一种资源节约型的语音处理装置。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线904彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和步骤,例如,如图1B至图4所示的方法和步骤。例如,在一些实施例中,图1B至图4所示的方法和步骤可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行如上所述的方法和步骤。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与目标对象的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向目标对象显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),目标对象可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与目标对象的交互;例如,提供给目标对象的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自目标对象的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形目标对象界面或者网络浏览器的目标对象计算机,目标对象可以通过该图形目标对象界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 语音音效的处理方法、装置以及语音系统
  • 语音交互、语音处理方法、装置和系统
  • 耳机装置、语音处理系统和语音处理方法
  • 语音处理方法及装置、家电设备、存储介质电子装置
  • 语音编码处理方法与装置、语音解码处理方法与装置、通信系统
  • 语音处理系统、语音处理装置以及语音处理方法
技术分类

06120116016992