基于文本的语音编辑方法、系统、电子设备和存储介质

文献发布时间：2023-06-19 19:28:50

技术领域

本发明涉及智能语音领域，尤其涉及一种基于文本的语音编辑方法、系统、电子设备和存储介质。

背景技术

基于文本的语音编辑方法及系统是在具有录音及对应文本的情况下，用户只需通过对文本的编辑，系统便可根据编辑过的文本输出对应的编辑后的语音。基于文本的语音编辑方法与TTS(Text-to-Speech，文本到语音)合成模型有着密切的联系。目前基于文本的语音编辑方法及系统主要有两类，一类是基于拼接的方法，另一类是端到端的方法。基于神经网络的TTS模型一般以字词或者音素作为输入，生成梅尔频谱，再由声码器(vocoder)生成语音，或者直接由TTS模型生成语音。

在基于文本的语音编辑方法及系统中，对于基于拼接方法的系统，文本中的编辑区域的语音片段往往由TTS模型合成出或者从现有的语音数据中选出，然后将获得的语音片段插入到原语音中的对应区域，通常情况下，为了让获得的语音片段更接近原语音的说话人，会使用VC(Voice Conversion，声音转换)模型，另外为了使拼接后的语音更连贯平滑，也会使用音高转换(pitch-shifting)和时间延伸(time-stretching)技术。

对于端到端的基于文本的语音编辑方法，通常会使用神经网络模型来预测文本中编辑区域的语音，这类方法输入编辑过的文本，而直接输出编辑后的语音或梅尔频谱。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

TTS模型不能直接用来进行基于文本的语音编辑任务，TTS模型很难合成符合原语音的说话人和韵律等等的编辑区域的语音，这需要大量与原语音相似的语音数据及其对应文本数据对TTS模型做微调；

在基于文本的语音编辑方法及系统中，对于基于拼接方法的系统，其生成的语音在编辑区和非编辑区有明显的间隔，这是直接将语音做拼接操作产生的不连贯现象；并且语音片段生成部分、转换部分、拼接部分等各部分是分开的，所以对原语音的音频特征的利用较少，所以编辑区域的文本对应的语音和原来的语音有较大的差别；

端到端的基于文本的语音编辑方法使用提取的说话人特征来促使预测的编辑区的语音符合原语音，这使得这些方法高度依赖于说话人特征从而说话人的泛化性较差；有些方法使用编码器-解码器(encoder-decoder)架构，并且在解码时使用自回归的方式，使得预测效率较低

发明内容

为了至少解决现有技术基于文本的语音编辑生成的语音不连贯、泛化性较差的问题。

第一方面，本发明实施例提供一种基于文本的语音编辑方法，包括：

将编辑文本输入至文本编码器，确定所述编辑文本中修改部分对应的第一语音时长以及所述编辑文本整体对应的第二语音时长，基于所述第二语音时长以及所述编辑文本的音素编码确定所述编辑文本的文本表征；

将所述第一语音时长以及所述编辑文本修改前的语音输入至语音编码器，基于所述第一语音时长对所述修改前的语音中对应所述修改部分进行遮盖，得到遮盖后的声学表征、带有遮盖上下文的隐藏表征以及带有遮盖区域的梅尔频谱，其中，所述文本表征的长度与所述带有遮盖区域的梅尔频谱长度一致；

将所述文本表征、所述遮盖后的声学表征以及所述带有遮盖上下文的隐藏表征输入至联合网络，得到遮盖区域对应的预测梅尔频谱，基于所述带有遮盖区域的梅尔频谱以及所述预测梅尔频谱得到所述编辑文本修改后的语音。

第二方面，本发明实施例提供一种基于文本的语音编辑系统，包括：

文本编码程序模块，用于将编辑文本输入至文本编码器，确定所述编辑文本中修改部分对应的第一语音时长以及所述编辑文本整体对应的第二语音时长，基于所述第二语音时长以及所述编辑文本的音素编码确定所述编辑文本的文本表征；

语音编码程序模块，用于将所述第一语音时长以及所述编辑文本修改前的语音输入至语音编码器，基于所述第一语音时长对所述修改前的语音中对应所述修改部分进行遮盖，得到遮盖后的声学表征、带有遮盖上下文的隐藏表征以及带有遮盖区域的梅尔频谱，其中，所述文本表征的长度与所述带有遮盖区域的梅尔频谱长度一致；

语音编辑程序模块，用于将所述文本表征、所述遮盖后的声学表征以及所述带有遮盖上下文的隐藏表征输入至联合网络，得到遮盖区域对应的预测梅尔频谱，基于所述带有遮盖区域的梅尔频谱以及所述预测梅尔频谱得到所述编辑文本修改后的语音。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于文本的语音编辑方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的基于文本的语音编辑方法的步骤。

本发明实施例的有益效果在于：基于BERT的语音上下文建模，使编辑区域的语音在预测时能够捕捉到录制音频的丰富语音上下文信息，包括说话人、环境和音高等特征，这能够让模型很好地利用原语音的上下文信息，从而预测出更符合原音频的编辑区语音，并且也能避免拼接方法产生的语音不自然和不连续现象。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于文本的语音编辑方法的流程图；

图2是本发明一实施例提供的一种基于文本的语音编辑方法的整体结构示意图；

图3是本发明一实施例提供的一种基于文本的语音编辑方法的对不同基线模型的MCD评价结果；

图4是本发明一实施例提供的一种基于文本的语音编辑方法的对于说话人可见/说话人不可见的MOS得分；

图5是本发明一实施例提供的一种基于文本的语音编辑方法的编辑流程示意图；

图6是本发明一实施例提供的一种基于文本的语音编辑系统的结构示意图；

图7为本发明一实施例提供的一种基于文本的语音编辑的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种基于文本的语音编辑方法的流程图，包括如下步骤：

S11：将编辑文本输入至文本编码器，确定所述编辑文本中修改部分对应的第一语音时长以及所述编辑文本整体对应的第二语音时长，基于所述第二语音时长以及所述编辑文本的音素编码确定所述编辑文本的文本表征；

S12：将所述第一语音时长以及所述编辑文本修改前的语音输入至语音编码器，基于所述第一语音时长对所述修改前的语音中对应所述修改部分进行遮盖，得到遮盖后的声学表征、带有遮盖上下文的隐藏表征以及带有遮盖区域的梅尔频谱，其中，所述文本表征的长度与所述带有遮盖区域的梅尔频谱长度一致；

S13：将所述文本表征、所述遮盖后的声学表征以及所述带有遮盖上下文的隐藏表征输入至联合网络，得到遮盖区域对应的预测梅尔频谱，基于所述带有遮盖区域的梅尔频谱以及所述预测梅尔频谱得到所述编辑文本修改后的语音。

在本实施方式中，本方法所提出的模型可以视为非自回归TTS模型FastSpeech2和具有出色上下文建模能力的BERT(Bidirectional Encoder Representations fromTransformers，转换器中的双向编码器表示)两个模型的有效结合，可以本方法的模型称为BEdit-TTS(TEXT-BASED SPEECH EDITING SYSTEM WITH BIDIRECTIONAL TRANSFORMERS，基于文本的双向变换语音编辑系统)。如图2所示，本方法包括以下部分：文本编码器(textencoder)、语音编码器(speech encoder)和联合网络(joint net)。传统的TTS模型的输入是文本，目标输出是梅尔频谱，而在本方法的模型中，文本和被遮盖后的真实语音作为输入，目标输出是遮盖区域的梅尔频谱。预先准备好文本和该文本对应的语音，用户在使用时，对文本中的目标词语进行编辑得到编辑文本。

对于步骤S11，文本编码器的目的是从输入的编辑文本中提取出用户修改的编辑文本中的文本表征。

具体的，所述文本编码器包括：音素嵌入块、编码器、持续时长预测器以及长度调节器，其中，

所述音素嵌入块用于确定编辑文本的音素嵌入；

所述编码器用于根据音素嵌入以及对应的位置编码确定所述编辑文本的文本表征；

所述持续时长预测器用于确定所述编辑文本中修改部分对应的第一语音时长以及所述编辑文本整体对应的第二语音时长；

所述长度调节器用于根据所述第二语音时长对所述文本表征进行长度调整，使调整后文本表征的长度与带有遮盖区域的梅尔频谱长度一致。

在本实施方式中，如图2左下部分的文本编码器所示，这部分的设计和FastSpeech2结构相似，包括音素嵌入块、编码器、持续时长预测器和长度调节器。通过该部分，音素嵌入块从输入的编辑文本中确定出对应的音素嵌入。再由编码器通过对音素嵌入及对应的位置编码进行编码，得到用户修改的编辑文本的文本表征，然而由于编辑文本中的内容已经有所修改，为了后续步骤和声学特征的长度匹配，需要预先对其进行长度调节。利用持续时长预测器确定出用户修改部分的语音时长以及编辑文本整条对应的语音时长。

通过该部分，可以提取出和对应语音梅尔频谱长度一致的文本表征，但这种表征不包含一些关键的声学特征，例如说话人、韵律等，为了提取这些声学特征，通常会使用说话人编码等技术生成说话人表征，但是在语音编辑中，要准确地提取到这些特征是非常困难的。因此，本方法使用单独的语音编码器来提取声学信息。

对于步骤S12，将用户修改前文本对应的已有语音输入至语音编码器，如图2右下部分的语音编码器所示，该模块以真实的语音作为输入，目的是学习丰富的声学信息，包括说话人、韵律、信道效应等。

作为一种实施方式，所述语音编码器包括：遮盖操作块以及转换编码器，其中，

所述遮盖操作块用于接收编辑文本修改前的语音以及对应的梅尔频谱，根据编辑文本中修改部分对应的第一语音时长对编辑文本修改前的语音中对应修改部分进行遮盖，得到遮盖后的声学表征以及带有遮盖区域的梅尔频谱；

所述转换编码器用于对所述带有遮盖区域的梅尔频谱转码，得到带有遮盖上下文的隐藏表征。

在本实施方式中，利用文本编码器确定的遮盖区域的时长对语音和梅尔频谱中对应的修改部分进行遮盖，得到将修改部分遮盖的语音和梅尔频谱，具体的遮盖过程可以用固定的数值比如0或1来作为遮盖数值。然后再由转换编码器计算遮盖的梅尔频谱中连续且紧密的隐藏表征。

对于步骤S13，如图2所示上部分的联合网络，该模型的目的是有效地联合文本编码器提取的文本信息和语音编码器提取的声学信息来生成和真实语音相似的音高和能量特征以及梅尔频谱特征。

具体的，所述联合网络包括：音高能量转换器以及梅尔频谱解码器，其中

所述音高能量转换器用于根据接收到的文本表征、遮盖后的声学表征以及所述带有遮盖上下文的隐藏表征，生成模拟真实语音的音高能量特征以及预测梅尔频谱特征；

所述梅尔频谱解码器用于根据模拟真实语音的音高能量特征以及预测梅尔频谱特征确定出遮盖区域对应的预测梅尔频谱。

在本实施方式中，为了实现预测出遮盖部分的语音(也就是用户修改的目标词语的语音)，该模块融合文本信息和声学信息，并用转换器模型来预测遮盖区域的音高和能量，然后将文本信息、声学信息以及预测出的音高和能量融合后输入梅尔频谱解码器来预测遮盖区域的梅尔频谱特征。梅尔频谱解码器使用FastSpeech2中的前馈转换器(feed-forward transformer)来实现。将得到的遮盖区域的梅尔频谱特征与带有遮盖的梅尔频谱特征进行拼接，得到文本编辑后的语音。

作为一种实施方式，所述文本编码器由修改的文本数据以及与所述修改的文本数据对应的语音数据训练获得，包括：

将所述修改的文本数据输入至文本编码器，得到所述修改的文本数据对应语音的预测语音时长；

利用高斯混合-隐马尔可夫模型确定所述语音数据的真实语音时长；

基于所述真实语音时长与所述预测语音时长的损失对所述文本编码器中的持续时长预测器以及长度调节器进行训练。

在本实施方式中，训练时持续时长预测器只以文本信息作为输入，没有考虑到遮盖区区域相邻的因素的持续时长，这种情况下，当真实语音语速太快或太慢的情况下，预测出的遮盖区域的语速可能出现不一致的现象。为了得到精确且符合上下文音素持续时长的结果，在预测持续时长时，对预测的持续时长进行了如下：

其中，

作为一种实施方式，所述编辑文本中修改部分包括：对所述编辑文本中目标单词的替换、插入以及删除。

在本实施方式中，如果用户对文本中的目标单词进行替换，用户将原文本中的某个单词用目标单词替换，然后将替换后的文本输入模型文本编码器，将原语音的梅尔频谱及音高和能量特征输入语音编码器。持续时长预测器根据文本信息预测出目标单词的持续时长，然后在语音编码器中，根据目标单词的持续时长调整遮盖区域的长度与持续时长一致；遮盖之后的音高、能量特征和梅尔频谱特征由语音编码器中的转换器编码器转化为隐藏表征，然后进行上面描述的推理过程。最后，将模型输出目标单词的梅尔频谱与原来的遮盖后的梅尔频谱做拼接，再由声码器将拼接后的完整梅尔频谱转化成语音。

如果用户对文本中的目标单词的位置进行插入，插入操作与替换操作相似，用户将目标单词插入到文本中某个位置，然后将编辑后的文本输入文本编码器，将原语音的梅尔频谱及音高和能量特征输入语音编码器。持续时长预测器根据文本信息预测出目标单词的持续时长，然后在语音编码器中，将与预测的目标单词持续时长长度一致的遮盖区域插入到原语音的梅尔频谱及音高和能量特征的对应位置；然后进行预测，并将生成的目标单词的梅尔频谱插入到原语音梅尔频谱的对应位置，并用声码器将编辑后的梅尔频谱转化成语音。

如果用户对文本中的目标单词的位置进行删除，删除操作有两种方式。一种是用户通过删除文本中的目标单词，然后系统删除对应位置的梅尔频谱，再由声码器将编辑后的梅尔频谱转化为语音；另一种是借助替换操作，即用与目标单词相邻的单词来替换目标单词和相邻的单词；如此通过替换操作，便完成删除语音中目标单词的任务。

通过该实施方式可以看出，基于BERT的语音上下文建模，使编辑区域的语音在预测时能够捕捉到录制音频的丰富语音上下文信息，包括说话人、环境和音高等特征，这能够让模型很好地利用原语音的上下文信息，从而预测出更符合原音频的编辑区语音，并且也能避免拼接方法产生的语音不自然和不连续现象。

对本方法进行具体实验说明，实验在HiFiTTS和LibriTTS两个英文数据集上进行。HiFiTTS数据集包含了大概292小时的音频数据及对应文本，总共10个说话人。本方法对每个说话人随机选择30个句子组成说话人可见测试集，并用剩余的HiFiTTS数据作为训练集训练模型。此外，从共包含39个说话人的LibriTTS的干净测试集(test-clean)中对每个说话人随机选择8-9句话作为说话人不可见测试集，来测试模型的性能。

所有的语音音频采样率都是16kHz。将原始音频提取为80维的log-Melfilterbanks(Fbank)特征，使用的配置为50ms的帧长和12.5的帧移。G2P(grapheme-to-phoneme，字素转音素)和强制对齐信息都是由在Kaldi上搭建GMM-HMM模型得到。在Espnet工具上搭建本方法提出的模型，并使用同样训练集训练的HiFiTTS作为声码器。

本方法对比的基线模型有三个，一是使用TTS模型生成编辑后的文本的整条语音；二是使用TTS模型仅合成目标单词的语音，并将合成的语音插入到原语音的对应位置；三是使用TTS模型合成编辑后的文本的整条语音，但将目标单词的语音从中切出，然后插入到原语音的对应位置。

本方法使用客观和主观两个评价指标。

客观评价实验：客观评价指标为DTW(Dynamic time warping，带有动态时间规整算法)路径的平均MCD(Mel-cepstral distance,梅尔倒谱距离)，并且越低的MCD表示越高的相似度。在客观实验中，我们在每句话中随机遮盖1-4个单词，并计算目标单词和整句编辑语音的MCD。为了避免声码器合成的语音所带来的影响，本方法将所提出的系统和基线系统合成的语音中的目标单词部分切除，然后插入到原语音对应的位置，如此，实验便更加公平，实验结果如图3所示为图中模型在HiFiTTS测试集(说话人可见)和LibriTTS测试集(说话人不可见)的MCD评价结果。

本方法提出的BEdit-TTS模型在说话人可见和说话人不可见的测试集上无论只是目标单词的语音合适整句语音都获得了最低的MCD，这说明BEdit-TTS模型合成的语音具有更好的人类感知和更高的自然度。

主观评价试验：主观评价指标为MOS(Mean Opinion Score,平均意见得分)，在实验中，从说话人可见测试集中随机选择15句话分别进行替换和插入操作。而由于基线模型没有使用任何说话人适应技术，所以对说话人不可见测试集，随机选取15句话做重构操作，并与真实的语音进行对比。本实验共有15人参与打分，参与者需要听取所有音频并给出评分，在每句测试前，参与者都会被告知被编辑的区域。打分为1-5，其中1表示很差，2表示差，3表示一般，4表示好，5表示很好，实验结果如图3所示。

BEdit-TTS合成的语音在说话人可见的测试集上进行替换和插入操作后生成的编辑语音得到了最高的MOS得分，这表明其生成的语音具有较高的自然度和质量，并且生成的编辑区的语音特性符合原语音的特性，同时，编辑区和非编辑区的边界处也很平滑自然。BEdit-TTS模型在说话人不可见的测试集上对遮盖区进行语音重构操作后，生成的语音与真实语音有较为接近的得分，这说明本方法的模型在说话人不可见的情况下仍有较好的表现。

此外，借助本方法模型的替换操作，可以实现VC(voice cloning,声音克隆)，具体流程如下：语音克隆是通过反复应用替换操作实现的。给定一个语音及对应文本作为原始语音和原始文本，和一个目标文本。首先，将目标文本和原始文本划分为相同数量的部分，每个部分对应一个或多个单词。然后，我们用目标文本的部分替换原始文本中对应的部分，模型用替换后的文本和原始语音的梅尔频谱以及音高和能量特征反复进行替换操作，直到原始文本的所有部分都被目标文本的相应部分替换。最后，使用声码器将经过多次编辑操作的梅尔频谱转化为目标文本的语音，对应的流程如图5所示。

总的来说，本方法提出了一种新的基于文本的语音编辑模型，名为BEdit TTS，以简化对录制音频的各种操作，包括替换、插入和删除。对于语音编辑任务，对合成语音的语音质量和声学一致性的要求同样重要。为此，BEdit TTS旨在整合神经TTS在高保真音频生成方面的优势和BERT在上下文建模方面的优势。实验结果表明，本方法提出的模型能够生成质量良好且与记录的音频高度相似的语音。

如图6所示为本发明一实施例提供的一种基于文本的语音编辑系统的结构示意图，该系统可执行上述任意实施例所述的基于文本的语音编辑方法，并配置在终端中。

本实施例提供的一种基于文本的语音编辑系统10包括：文本编码程序模块11，语音编码程序模块12和语音编辑程序模块13。

其中，文本编码程序模块11用于将编辑文本输入至文本编码器，确定所述编辑文本中修改部分对应的第一语音时长以及所述编辑文本整体对应的第二语音时长，基于所述第二语音时长以及所述编辑文本的音素编码确定所述编辑文本的文本表征；语音编码程序模块12用于将所述第一语音时长以及所述编辑文本修改前的语音输入至语音编码器，基于所述第一语音时长对所述修改前的语音中对应所述修改部分进行遮盖，得到遮盖后的声学表征、带有遮盖上下文的隐藏表征以及带有遮盖区域的梅尔频谱，其中，所述文本表征的长度与所述带有遮盖区域的梅尔频谱长度一致；语音编辑程序模块13用于将所述文本表征、所述遮盖后的声学表征以及所述带有遮盖上下文的隐藏表征输入至联合网络，得到遮盖区域对应的预测梅尔频谱，基于所述带有遮盖区域的梅尔频谱以及所述预测梅尔频谱得到所述编辑文本修改后的语音。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于文本的语音编辑方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的基于文本的语音编辑方法。

图7是本申请另一实施例提供的基于文本的语音编辑方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。基于文本的语音编辑方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于文本的语音编辑方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例基于文本的语音编辑方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的基于文本的语音编辑方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于文本的语音编辑方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：俞凯;陈谐;梁正;杜晨鹏;
专利申请人：思必驰科技股份有限公司;