掌桥专利:专业的专利平台
掌桥专利
首页

一种语音交互的方法、装置和存储介质

文献发布时间:2024-05-31 01:29:11


一种语音交互的方法、装置和存储介质

技术领域

本发明属于语音处理的技术领域,尤其涉及一种语音交互的方法、装置和存储介质。

背景技术

语音交互是一种通过语音指令和语音识别技术进行人机交互的方式。它允许用户通过口头指令来与计算机系统、智能手机、智能助手等设备进行沟通和控制。语音交互技术已经在智能音响、智能手机、智能家居等领域得到广泛应用,它使得用户可以更自然地与设备进行交互,不再需要使用键盘或触摸屏幕。通过语音交互,用户可以实现语音搜索、语音识别、语音控制等功能,极大地提高了用户体验和便利性。

语音交互的基础是针对语音数据的文本识别。它能够将说话人的口语转换为文本形式。这项技术通过使用计算机算法来识别和解释人类语音的内容,将说话者的语音信号转换成文本形式,使得计算机系统能够理解并处理这些文本信息。

然而,传统的语音识别方案中,对于语音特征的提取存在较大的局限性,导致语音识别的准确率较低,这是一个亟需解决的技术问题。

发明内容

有鉴于此,本发明实施例提供了一种语音交互的方法、装置和存储介质,以解决传统的语音识别中,对于语音特征的提取存在较大的局限性,导致语音识别的准确率较低的技术问题。

本发明实施例的第一方面提供了一种语音交互的方法,所述语音交互的方法包括:

获取原始语音数据,将所述原始语音数据进行预处理并进行分帧处理,得到多个语音帧;

将所述多个语音帧进行傅里叶变换,得到多个频域数据;

将所述频域数据进行经验模态分解,得到多个本征模态函数和残余分量;

根据所述本征模态函数,计算第一特征系数;

将所述第一特征系数转换为谱包络系数;

根据每个所述本征模态函数对应的所述谱包络系数和残余分量,构建特征数据;

根据所述特征数据进行语音识别,得到所述原始语音数据对应的文本数据;所述文本数据用于进行语音交互。

进一步地,所述根据所述本征模态函数,计算第一特征系数的步骤包括:

将所述本征模态函数和所述本征模态函数对应的多个预测系数代入如下公式一,得到所述本征模态函数对应的结果值;

所述公式一为:

其中,

将所述结果值进行系数变形处理,得到所述第一特征数据。

进一步地,所述将所述第一特征系数转换为谱包络系数的步骤包括:

将所述第一特征系数代入如下公式二,得到所述谱包络系数;

所述公式二为:

进一步地,所述根据每个所述本征模态函数对应的所述谱包络系数和残余分量,构建特征数据的步骤包括:

计算所述残余分量的能量和零交叉率;

基于所述谱包络系数、所述能量和所述零交叉率,构建所述特征数据。

进一步地,所述基于所述谱包络系数、所述能量和所述零交叉率,构建所述特征数据的步骤包括:

计算所述谱包络系数的一阶差分,得到多个所述谱包络系数各自对应差分值;

将多个所述谱包络系数、多个所述谱包络系数各自对应的差分值、所述能量和所述零交叉率组合为向量,得到所述特征数据。

进一步地,所述根据所述特征数据进行语音识别,得到所述原始语音数据对应的文本数据的步骤包括:

将多个所述特征数据输入循环神经网络,得到由所述循环神经网络输出的关于时间序列的第二特征数据;所述循环神经网络包括长短时记忆网络和注意力机制;

将所述第二特征数据进行CTC解码,得到所述原始语音数据对应的文本数据。

进一步地,所述获取原始语音数据,将所述原始语音数据进行预处理并进行分帧处理,得到多个语音帧的步骤包括:

获取所述原始语音数据,对所述原始语音数据进行预加重处理,得到预加重后的原始语音数据;

将所述预加重后的原始语音数据进行分帧处理,得到多个帧数据;

基于窗函数,对所述帧数据进行加窗处理,得到所述语音帧。

进一步地,所述将所述第一特征系数转换为谱包络系数的步骤包括:

将所述第一特征系数代入公式三,得到所述谱包络系数;所述公式三为:

其中,

本发明实施例的第二方面提供了一种语音交互的装置,包括:

获取单元,用于获取原始语音数据,将所述原始语音数据进行预处理并进行分帧处理,得到多个语音帧;

变换单元,用于将所述多个语音帧进行傅里叶变换,得到多个频域数据;

分解单元,用于将所述频域数据进行经验模态分解,得到多个本征模态函数和残余分量;

计算单元,用于根据所述本征模态函数,计算第一特征系数;

转换单元,用于将所述第一特征系数转换为谱包络系数;

构建单元,用于根据每个所述本征模态函数对应的所述谱包络系数和残余分量,构建特征数据;

识别单元,用于根据所述特征数据进行语音识别,得到所述原始语音数据对应的文本数据;所述文本数据用于进行语音交互。

本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述方法的步骤。

本发明实施例与现有技术相比存在的有益效果是:通过对原始语音数据的预处理和分帧处理,这种方法能够有效地准备数据以供后续分析,确保数据的质量和可处理性。接下来,通过对每个语音帧进行傅里叶变换,本方案能够将语音信号从时域转换到频域,这是理解和分析语音信号复杂特性的重要步骤。频域数据提供了关于信号频率成分的重要信息,这对于后续的特征提取至关重要。将频域数据进行经验模态分解(EMD),以得到多个本征模态函数(IMF)和残余分量。揭示了语音信号的本质动态特性,更细致地分解信号,从而允许更精确的特征提取。将第一特征系数转换为谱包络系数,进一步提炼了信号特征,使其更加适合于语音识别任务。谱包络系数反映了语音信号的能量分布特性,对于区分不同语音和发音至关重要。通过构建基于谱包络系数和残余分量的特征数据。通过以上步骤实现了从原始语音数据到文本数据的高精度转换,提高了语音特征的提取精度,进而提升了语音交互的质量和用户体验。这种技术的应用,提高了语音识别系统的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1示出了本发明提供的一种语音交互的方法的示意性流程图;

图2示出了本发明一实施例提供的一种语音交互的装置的示意图;

图3示出了本发明一实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

本发明实施例提供了一种语音交互的方法、装置和存储介质,以解决传统的语音识别中,对于语音特征的提取存在较大的局限性,导致语音识别的准确率较低的技术问题。

首先,本发明提供了一种语音交互的方法。请参见图1,图1示出了本发明提供的一种语音交互的方法的示意性流程图。如图1所示,该语音交互的方法可以包括如下步骤:

步骤101:获取原始语音数据,将所述原始语音数据进行预处理并进行分帧处理,得到多个语音帧;

为了提高特征提取效率,故针对原始语音数据进行预处理并进行分帧处理,具体处理逻辑如下:

具体地,步骤101具体包括步骤1011至步骤1013:

步骤1011:获取所述原始语音数据,对所述原始语音数据进行预加重处理,得到预加重后的原始语音数据;

为了平衡语音信号的频谱,对信号进行预加重处理。通过一个高通滤波器来实现,滤波器的表达式为

步骤1012:将所述预加重后的原始语音数据进行分帧处理,得到多个帧数据;

步骤1013:基于窗函数,对所述帧数据进行加窗处理,得到所述语音帧。

将预加重后的原始语音数据分割成小的帧,每帧通常包含20ms到30ms的数据。由于语音信号的频谱特性在短时间内(如20ms到30ms)可认为是稳定的,因此需要将信号分割成小片段进行处理。

为了减少帧边界的不连续性,每帧数据还会通过一个窗函数(如汉明窗)进行加窗处理。

在本实施例中,通过获取原始语音数据并对其进行预加重处理,本方案能够增强语音信号中的高频部分,从而改善了语音的可辨识度和清晰度。预加重是语音信号处理中的常用技术,它能够平衡语音信号的频谱,使得高频部分的能量增强,有助于后续的信号处理和特征提取。其次,将预加重后的语音数据进行分帧处理,是基于人类语音的产生和感知特性来设计的。因为语音信号在较短的时间内可以认为是稳定的,通过分帧处理,本技术方案能够将连续的语音信号划分为一系列短暂的帧,每一帧都可以独立进行进一步的分析和处理。这种方法不仅减少了计算复杂度,还提高了处理的灵活性和效率。最后,对每个帧数据应用窗函数加窗处理是为了减少帧与帧之间的边界效应,这对于后续的频谱分析和特征提取至关重要。加窗处理能够平滑帧边界,减少因为信号截断而引入的频谱泄漏和失真,从而保证了语音帧数据的质量,为高质量的语音识别、语音合成等后续应用奠定了坚实的基础。综上所述,本技术方案通过预加重、分帧和加窗处理,有效提高了语音处理的性能,增强了语音信号的可用性,为各种语音处理任务提供了高质量的数据支持,具有重要的实用价值。

步骤102:将所述多个语音帧进行傅里叶变换,得到多个频域数据;

步骤103:将所述频域数据进行经验模态分解,得到多个本征模态函数和残余分量;

假设频域数据为(x(t)),通过经验模态分解,可以得到一系列本征模态函数(IMFs)和一个残余分量 (r(t))。

每个频域数据依次经过经验模态分解,得到各自对应的多个本征模态函数和残余分量。本征模态函数反映了频域数据的局部特征和频率成分。残余分量包含了信号的趋势或最低频信息。残余分量包含语音数据的长期趋势或低频成分,以及任何非线性或非周期性的成分。

步骤104:根据所述本征模态函数,计算第一特征系数;

具体地,步骤104具体包括步骤1041至步骤1042:

步骤1041:将所述本征模态函数和所述本征模态函数对应的多个预测系数代入如下公式一,得到所述本征模态函数对应的结果值;

所述公式一为:

其中,/>

为步长参数,用于控制自适应预测系数更新的速率。

值得注意的是,语音数据具有非平稳特性,这意味着它们的统计特性随时间变化。传统的线性预测方法在语音数据上的表现可能不是很好,因为它们假设信号具有恒定的统计特性。故本申请通过公式一(自适应模态分析)通过自适应调整预测系数,可以更好地跟踪和预测这些语音数据的动态变化。预测系数的自适应更新使得模型能够适应信号的变化,提高预测的准确性。通过实时更新系数,模型不断学习信号的变化规律。

步骤1042:将所述结果值进行系数变形处理,得到所述第一特征数据。

具体地,步骤1042具体包括:将所述第一特征系数代入如下公式二,得到所述谱包络系数;

所述公式二为:

其中,/>

值得注意的是,由于上述公式一在处理非平稳或具有复杂动态特征的信号时可能受到限制,因为这些信号的行为往往超出了线性模型(公式一)能够描述的范围,故需要对结果值进行系数变形处理,引入额外的非线性处理能力,这有助于捕捉到信号中的非线性特征,从而提高准确性和鲁棒性。

步骤105:将所述第一特征系数转换为谱包络系数;

在语音处理中,谱包络包含了关于语音音质(timbre)的重要信息,特别是关于说话人的声道特性。相比第一特征系数,谱包络系数更直观地捕捉和描述这些特性。倒谱系数通过将信号的频谱对数化,能够有效地分离语音信号的周期性(声音的基频)和非周期性(声道的形状)特征。这种分离使得特征对于噪声和其他信号变化更加鲁棒,尤其是在不利的环境条件下。具体逻辑如下:

具体地,步骤105具体包括:将所述第一特征系数代入公式三,得到所述谱包络系数;

所述公式三为:

其中,/>

当n=0时,采用

步骤106:根据每个所述本征模态函数对应的所述谱包络系数和残余分量,构建特征数据;

具体地,步骤106具体包括步骤1061至步骤1062:

步骤1061:计算所述残余分量的能量和零交叉率;

残余信号的能量可以表示为该信号幅度平方的总和。

零交叉率(ZCR)是信号波形穿越零点的速率,用于测量信号的频率变化。如果残差信号表示为 ( r(t) ),零交叉率 ( ZCR ) 可以通过以下公式计算:

这里,/>

其中,

步骤1062:基于所述谱包络系数、所述能量和所述零交叉率,构建所述特征数据。

具体地,步骤1062具体包括步骤A1至步骤A2:

步骤A1:计算所述谱包络系数的一阶差分,得到多个所述谱包络系数各自对应差分值;

考虑到语音数据是时间序列数据,故加入动态特征(一阶差分)来捕捉特征随时间的变化趋势。

一阶差分用于捕捉语音数据随时间的变化信息,为语音识别模型提供了关于语音变化趋势的重要信息。

其中,第一差分的计算过程为传统技术,在此不在赘述。

步骤A2:将多个所述谱包络系数、多个所述谱包络系数各自对应的差分值、所述能量和所述零交叉率组合为向量,得到所述特征数据。

将多个谱包络系数、多个谱包络系数各自对应的差分值、能量和零交叉率按照预设顺序,组合为特性向量(特征数据)。

在本实施例中,通过计算谱包络系数的一阶差分并与原始的谱包络系数、能量和零交叉率结合,得到的特征数据不仅包含了信号的频率特性,还增加了信号频率变化的信息。这种综合的特征表示可以更加精细地描述信号的特点,提高了特征对信号差异的敏感度,从而提高了信号分类或识别的准确率。在特征数据中加入了谱包络系数的一阶差分,这不仅捕捉了信号的即时特性,还反映了信号的动态变化规律,使得基于这些特征构建的模型更能适应于信号的微小变化,从而在面对多样化的信号时,能够表现出更好的泛化能力。将谱包络系数及其差分值、能量和零交叉率直接组合为特征向量的方式,简化了特征提取的计算流程。这种方法减少了冗余计算,尤其是在需要处理大量数据时,可以显著提高数据处理速度,优化整体的计算效率。由于结合了多种类型的特征,包括谱特征的统计量和动态变化信息、信号的能量及其时间域的零交叉率,这种特征数据的构建方法能够更好地适应于复杂背景噪声或多信号环境下的信号处理需求。特别是在环境噪声变化大或信号有微小变动时,这种方法可以有效地提取到关键的信号特征。

步骤107:根据所述特征数据进行语音识别,得到所述原始语音数据对应的文本数据;所述文本数据用于进行语音交互。

通过语音识别模型对特征数据进行语音识别,得到文本数据。具体逻辑如下:

具体地,步骤107包括步骤1071至步骤1072:

步骤1071:将多个所述特征数据输入循环神经网络,得到由所述循环神经网络输出的关于时间序列的第二特征数据;所述循环神经网络包括长短时记忆网络和注意力机制;

在循环神经网络中选择长短时记忆网络(LSTM)作为模型的核心,因为它能够处理长期依赖问题并有效捕捉序列数据中的时间动态。RNN层负责逐帧处理提取的特征向量,生成一个高级的时间序列特征表示。

在循环神经网络的输出上应用注意力机制,允许模型在生成每个词或音素时自动关注到最相关的帧。这样可以提升识别精度,特别是在处理长语音序列时。

步骤1072:将所述第二特征数据进行CTC解码,得到所述原始语音数据对应的文本数据。

使用CTC(Connectionist Temporal Classification)解码器直接从循环神经网络输出的特征序列中解码出最终的文字序列。CTC允许模型输出一个概率分布序列,通过该序列可以推断出最可能的标签序列。

在本实施例中,通过使用长短时记忆网络(LSTM),该方案能有效处理长期依赖问题,即能够更好地理解和记忆语音数据中长期的上下文信息。这对于语音识别尤为重要,因为语言的理解往往需要依赖较长的语境信息。加入注意力机制能够让模型在处理特定的输入特征时,更加聚焦于与当前输出最相关的输入部分。这意味着模型能够更加灵活和有效地处理复杂的语音模式,尤其是在存在大量噪声或是需要理解口语中的非标准表达时。利用循环神经网络的时间序列处理能力,结合注意力机制的高效信息筛选,使得模型在处理长序列数据时更加高效,能够快速地识别并转换语音数据为文本,减少了等待时间,提升了用户体验。该技术方案通过CTC(Connectionist Temporal Classification)解码,可以不依赖于输入语音和输出文本之间的严格对齐,使得模型能够更好地处理自然语言的不确定性和多样性,提高了模型对不同语音样本的适应能力。通过结合LSTM和注意力机制,该方案能够有效减少因上下文信息丢失或处理不当导致的错误,如同音字错误、语境理解错误等,从而降低整体的识别错误率。

在本实施例中,通过对原始语音数据的预处理和分帧处理,这种方法能够有效地准备数据以供后续分析,确保数据的质量和可处理性。接下来,通过对每个语音帧进行傅里叶变换,本方案能够将语音信号从时域转换到频域,这是理解和分析语音信号复杂特性的重要步骤。频域数据提供了关于信号频率成分的重要信息,这对于后续的特征提取至关重要。将频域数据进行经验模态分解(EMD),以得到多个本征模态函数(IMF)和残余分量。揭示了语音信号的本质动态特性,更细致地分解信号,从而允许更精确的特征提取。将第一特征系数转换为谱包络系数,进一步提炼了信号特征,使其更加适合于语音识别任务。谱包络系数反映了语音信号的能量分布特性,对于区分不同语音和发音至关重要。通过构建基于谱包络系数和残余分量的特征数据。通过以上步骤实现了从原始语音数据到文本数据的高精度转换,提高了语音特征的提取精度,进而提升了语音交互的质量和用户体验。这种技术的应用,提高了语音识别系统的性能。

如图2本发明提供了一种语音交互的装置2,请参见图2,图2示出了本发明提供的一种语音交互的装置的示意图,如图2所示一种语音交互的装置包括:

获取单元21,用于获取原始语音数据,将所述原始语音数据进行预处理并进行分帧处理,得到多个语音帧;

变换单元22,用于将所述多个语音帧进行傅里叶变换,得到多个频域数据;

分解单元23,用于将所述频域数据进行经验模态分解,得到多个本征模态函数和残余分量;

计算单元24,用于根据所述本征模态函数,计算第一特征系数;

转换单元25,用于将所述第一特征系数转换为谱包络系数;

构建单元26,用于根据每个所述本征模态函数对应的所述谱包络系数和残余分量,构建特征数据;

识别单元27,用于根据所述特征数据进行语音识别,得到所述原始语音数据对应的文本数据;所述文本数据用于进行语音交互。

本发明提供的一种语音交互的装置,通过对原始语音数据的预处理和分帧处理,这种方法能够有效地准备数据以供后续分析,确保数据的质量和可处理性。接下来,通过对每个语音帧进行傅里叶变换,本方案能够将语音信号从时域转换到频域,这是理解和分析语音信号复杂特性的重要步骤。频域数据提供了关于信号频率成分的重要信息,这对于后续的特征提取至关重要。将频域数据进行经验模态分解(EMD),以得到多个本征模态函数(IMF)和残余分量。揭示了语音信号的本质动态特性,更细致地分解信号,从而允许更精确的特征提取。将第一特征系数转换为谱包络系数,进一步提炼了信号特征,使其更加适合于语音识别任务。谱包络系数反映了语音信号的能量分布特性,对于区分不同语音和发音至关重要。通过构建基于谱包络系数和残余分量的特征数据。通过以上步骤实现了从原始语音数据到文本数据的高精度转换,提高了语音特征的提取精度,进而提升了语音交互的质量和用户体验。这种技术的应用,提高了语音识别系统的性能。

图3是本发明一实施例提供的一种终端设备的示意图。如图3所示,该实施例的一种终端设备3包括:处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32。所述处理器30执行所述计算机程序32时实现上述各个一种语音交互的方法实施例中的步骤,例如图1所示的步骤101至步骤107。或者,所述处理器30执行所述计算机程序32时实现上述各装置实施例中各单元的功能,例如图2所示单元的功能。

示例性的,所述计算机程序32可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器31中,并由所述处理器30执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序32在所述一种终端设备3中的执行过程。例如,所述计算机程序32可以被分割成各单元的具体功能如下:

获取单元,用于获取原始语音数据,将所述原始语音数据进行预处理并进行分帧处理,得到多个语音帧;

变换单元,用于将所述多个语音帧进行傅里叶变换,得到多个频域数据;

分解单元,用于将所述频域数据进行经验模态分解,得到多个本征模态函数和残余分量;

计算单元,用于根据所述本征模态函数,计算第一特征系数;

转换单元,用于将所述第一特征系数转换为谱包络系数;

构建单元,用于根据每个所述本征模态函数对应的所述谱包络系数和残余分量,构建特征数据;

识别单元,用于根据所述特征数据进行语音识别,得到所述原始语音数据对应的文本数据;所述文本数据用于进行语音交互。

所述终端设备中包括但不限于处理器30和存储器31。本领域技术人员可以理解,图3仅仅是一种终端设备3的示例,并不构成对一种终端设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31可以是所述一种终端设备3的内部存储单元,例如一种终端设备3的硬盘或内存。所述存储器31也可以是所述一种终端设备3的外部存储设备,例如所述一种终端设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述一种终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述一种漫游控制设备所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,既将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本发明实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Rand·om AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。

应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于监测到”。类似地,短语“如果确定”或“如果监测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦监测到[所描述条件或事件]”或“响应于监测到[所描述条件或事件]”。

另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

相关技术
  • 一种语音交互设备唤醒方法、装置、设备及存储介质
  • 一种语音交互方法、装置、电子设备及可读存储介质
  • 一种智能语音交互方法及装置、相关设备及存储介质
  • 一种语音交互方法、装置、设备及存储介质
  • 一种语音学习方法、装置、语音设备及存储介质
  • 语音交互装置、用于语音交互装置的控制方法和存储程序的非暂时性存储介质
  • 语音交互装置、语音交互装置的控制方法以及存储程序的非暂时性记录介质
技术分类

06120116624628