掌桥专利:专业的专利平台
掌桥专利
首页

一种语音转换方法、系统及存储介质

文献发布时间:2024-04-18 19:58:53


一种语音转换方法、系统及存储介质

技术领域

本申请涉及语音转换技术领域,尤其涉及一种语音转换方法、系统及存储介质。

背景技术

语音转换技术是指在不改变语音内容的情况下,将源人物语音转换成目标人物语音的技术,这种技术涉及到对语音信号的参数进行分析和修改,以实现语音的转换。语音转换技术广泛应用于虚拟形象、数字人或真人语音等场景下,用户可以选择对应的目标人物语音,并在上述场景中完成对源说话人的语音转换,提高音频的互动性。

待转换音频是包括源人物语音的音频,除了人声外,待转换音频还可能包括背景噪音。因此,在语音转换的过程中,需要结合降噪增益技术对待转换音频进行处理,从而得到纯净的源人物语音,进而对源人物语音进行语音转换。

但是,当待转换音频中包括多个人物语音的时候,其他人物语音与源人物语音相互交错,在语音转换的过程中,会将其他人物语音和源人物语音同时转换为目标人物语音,从而导致转换后音频的场景还原度下降。

发明内容

为了提高语音转换后的音频的场景还原度,第一方面,本申请的部分实施例提供一种语音转换方法,包括:

获取待转换音频;

识别所述待转换音频中的人物语音;

使用端点检测技术从所述待转换音频中分离人物语音和背景音;

识别所述待转换音频中的人物语音;

如果所述待转换音频中识别出至少两个不同人物发出的人物语音,则通过声纹识别模型从所述人物语音识别出源人物语音,所述声纹识别模型包括参照声纹,所述源人物语音是语音声纹与参照声纹的声纹相似度大于或等于相似度阈值的人物语音;

通过语音转换模型将所述源人物语音转换为目标人物语音;

将所述背景音、剩余的人物语音和所述目标人物语音进行拼接,得到转换后的音频。

在一些实施例中,所述人物语音包括至少一个人物语音片段,所述使用端点检测技术从所述待转换音频中分离人物语音和背景音步骤,包括:

通过端点检测技术检测所述待转换音频中各个音频片段的音频活性值;

根据所述音频活性值从所述待转换音频中分离出人物语音片段,所述人物语音片段是音频活性值大于活性值阈值的语音片段;

如果所述人物语音片段的数量为一个,则根据所述人物语音片段输出所述人物语音;

如果所述人物语音片段的数量为多个,则拼接所述人物语音片段,得到所述人物语音;

根据待转换音频中剩余的音频生成背景音。

在一些实施例中,所述通过声纹识别模型从所述人物语音识别出源人物语音的步骤前,还包括:

获取源人物说出的第一训练音频;

通过端点检测技术从所述第一训练音频中分离出源人物语音片段;

通过所述源人物语音片段训练所述声纹识别模型。

在一些实施例中,所述通过语音转换模型将所述源人物语音转换为目标人物语音的步骤前,还包括:

获取目标人物说出的第二训练音频;

通过端点检测技术从所述第二训练音频中分离出目标人物语音片段;

通过所述目标人物语音片段训练所述语音转换模型。

在一些实施例中,所述通过声纹识别模型从所述人物语音识别出源人物语音的步骤,包括:

获取所述人物语音的语音声纹;

将所述语音声纹输入至所述声纹识别模型,以通过所述声纹识别模型计算所述语音声纹和所述声纹识别模型的参照声纹的声纹相似度;

如果所述声纹相似度大于或等于相似度阈值,则将所述人物语音标记为源人物语音;

如果所述声纹相似度小于相似度阈值,则通过所述声纹识别模型输出静默音频,所述静默音频为不执行语音转换的音频。

在一些实施例中,所述通过声纹识别模型从所述人物语音识别出源人物语音的步骤前,还包括:

根据正序的时序顺序检测人物语音之间的重叠语音;

根据语义检测技术获取所述重叠语音的语义信息和来源对象信息;

根据所述语义信息和来源对象信息对所述重叠语音进行裁剪操作,得到人物语音片段。

在一些实施例中,所述用端点检测技术从所述待转换音频中分离人物语音和背景音的步骤后,所述方法还包括:

将所述人物语音输入深度聚类识别模型;

通过所述深度聚类识别模型获取所述人物语音片段的音频特征;

根据音频特征之间的特征相似度对所述人物语音片段执行分类,得到至少两个音频集合,所述音频集合是来源为同一人物的人物语音片段的集合。

在一些实施例中,所述方法还包括:

获取用户输入的选择指令,所述选择指令用于在人物语音中选择源人物语音;

根据所述选择指令,对源人物语音的音频集合执行标记;

所述通过语音转换模型对所述源人物语音执行语音转换的步骤,还包括:

通过语音转换模型对被标记的音频集合执行语音转换。

第二方面,本申请的部分实施例提供一种语音转换系统,包括存储器和处理器,其中,所述存储器用于存储声纹识别模型和语音转换模型,所述处理器被配置为:

获取待转换音频;

识别所述待转换音频中的人物语音;

使用端点检测技术从所述待转换音频中分离人物语音和背景音;

识别所述待转换音频中的人物语音;

如果所述待转换音频中识别出至少两个不同人物发出的人物语音,则通过声纹识别模型从所述人物语音识别出源人物语音,所述声纹识别模型包括参照声纹,所述源人物语音是语音声纹与参照声纹的声纹相似度大于或等于相似度阈值的人物语音;

通过语音转换模型将所述源人物语音转换为目标人物语音;

将所述背景音、剩余的人物语音和所述目标人物语音进行拼接,得到转换后的音频。

第三方面,本申请的部分实施例提供一种计算机可读存储介质,所述计算机可读存储介质中包括计算机指令,所述计算机指令用于指示计算机执行第一方面所述的语音转换方法。

由以上技术方案可知,本申请提供一种语音转换方法、系统及存储介质,通过端点检测技术从待转换音频中分离人物语音和背景音,并识别待转换音频中的人物语音,如果待转换语音中识别出至少两个不同人物发出的人物语音,则通过声纹识别模型在人物语音中识别出源人物语音,再通过语音转换模型将源人物语音转换为目标人物语音,最后将背景音、剩余的人物语音和目标人物语音拼接,得到转换后的音频。本申请通过在多个人物语音中识别出源人物语音,避免多个人物语音混淆源人物语音的语音转换,从而将背景音、剩余的人物语音和转换后得到的目标人物语音拼接,使得语音转换更加真实自然,提高语音转换后音频的场景还原度。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音转换方法的流程示意图;

图2为本申请实施例根据音频活性值分离人物语音和背景音的流程示意图;

图3为本申请实施例中两个不同人物之间的人物语音图;

图4为本申请实施例中声纹识别模型识别源人物语音的流程示意图;

图5为本申请实施例提供的音频播放时序示意图;

图6为本申请实施例根据分离重叠语音的流程示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。

需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

语音转换技术是指在不改变语音内容的情况下,将源人物语音转换成目标人物语音的技术,例如,将音频中人物A说出预设文本内容的语音转换为人物B说出预设文本内容的语音。其中,源人物语音即为待执行语音转换的人物语音,目标人物语音即为语音转换后得到的人物语音。在上述示例中,人物A即为源人物,人物A说出预设文本内容的语音即为源人物语音,人物B即为目标人物,人物B说出预设文本内容的语音即为目标人物语音。

语音转换技术涉及到对语音信号的参数进行分析和修改,以实现语音的转换。语音转换技术广泛应用于虚拟形象、数字人或真人语音等场景下,用户可以选择对应的目标人物语音,并在特定场景中完成对源说话人的语音转换,提高音频的互动性。

人物语音即为人物说话的语音,在待转换音频中,可以包括单一人物说话的语音,也可以包括多个不同人物说话的语音。在语音转换的过程中,需要结合降噪增益技术对转换音频进行处理,从而得到纯净的源人物语音,进而对源人物语音进行语音转换。

但是,当待转换音频中包括多个人物语音的时候,其他人物语音与源人物语音相互交错,例如,待转换音频中包括相互交错的人物语音A和人物语音B,在将人物语音A转换为人物语音C时,人物语音B会影响人物语音A的语音转换,从而使部分人物语音B也转换为人物语音C,导致转换后音频的场景还原度下降。

为了解决上述技术问题,本申请的部分实施例提供一种语音转换方法,所述语音转换方法可以通过语音转换系统执行。

在本申请实施例中,语音转换系统中可以设置控制单元,如内置处理器和存储器等组成的控制电路,并由各自的控制单元完成控制。其中,存储器中可以储存有供电控制相关的控制程序,处理器可以从存储器中调用对应的控制程序,并通过执行该控制程序对供电状态进行控制。处理器可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。处理器也可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。

上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。

存储器可以包括易失性存储器,例如随机存取存储器(random-access memory,RAM);存储器也可以包括非易失性存储器,例如只读存储器(read-only memory,ROM),快闪存储器,硬盘或固态硬盘;存储器也可以包括上述种类的存储器的组合。

图1为本申请实施例提供的语音转换方法的流程示意图。参见图1,所述方法包括:

S100:获取待转换音频。

待转换音频即为被执行语音转换的音频,待转换音频可以从录音文件中截取,也可以通过录音设备实时录制。在一些实施例中,还可以通过视频文件中提取待转换音频,例如,获取一段视频文件,然后通过音频识别技术,从视频文件中提取对应的音频作为待转换音频。

沿用上述实施例,待转换音频还可以为实时获取的音频,例如,在直播的过程中,直播的视频具有实时性,因此,还可以通过音频识别技术,实时将直播视频中的音频提取出来,作为待转换音频。

S200:使用端点检测技术从所述待转换音频中分离人物语音和背景音。

待转换音频中可能包括一个人物或多个人物发出的人物语音,当待转换音频中识别出一个人物发出的人物语音时,可以将源人物语音设定为源人物语音。当待转换音频中识别出多个人物发出的人物语音时,则需要对所有人物语音进行提取,以便于后续在人物语音中确定源人物语音。

待转换音频除了人物语音,还包括背景音,背景音为非人物说话产生的声音,例如,背景音乐、道具特效的声音或者音频杂音等。因此,在待转换音频中识别出多个人物语音后,为了提高语音转换的准确性,可以使用端点检测技术从待转换音频中分离人物语音和背景音。

端点检测技术是一种通过音频活性值分离人物语音和背景音的技术,其中,人物语音的音频活性值要明显大于背景音的活性值,因此,可以通过设置活性值阈值的方式来区别人物语音和背景音。

在一些实施例中,待转换音频还可以包括多个音频片段,当根据等长时间切割或裁剪待转换音频时,音频片段还可以为音频帧,音频帧的长度在20ms~30ms之间。

音频片段包括人物语音片段和背景音片段。为此,如图2所示,所述方法还可以通过端点检测技术检测待转换音频中各个音频片段的音频活性值,并根据活性值在待转换音频中分离人物语音片段和背景音片段,具体的,将音频活性值大于活性值阈值的音频片段分离为人物语音片段,音频活性值小于活性值阈值的音频片段分离为背景音片段。

沿用上述实施例,同一人物可能会说出一句话或说出多句话,如果同一人物说出多句话时存在一定的时间间隔,那么便会形成多个人物语音片段,因此,还可以根据同一人物所属的人物语音片段的数量输出人物语音,例如,当人物A说出的人物语音片段的数量为一个,那么可以将人物语音片段直接作为人物语音。当人物B说出的人物语音片段的数量为多个,那么可以将所有人物语音片段执行拼接,得到人物语音。在分离出人物语音后,可以根据待转换音频中剩余的音频生成背景音。

S300:识别所述待转换音频中的人物语音。

由于语音转换技术是一种将源人物语音转换为目标人物语音的技术,因此,在获取待转换音频后,需要识别待转换音频中的人物语音。在本实施例中,可以通过语音识别技术,识别待转换音频中的人物语音。

为提高识别人物语音的准确性,在识别待转换音频之前,可以对待转换音频执行预处理。其中,预处理可以包括频谱转换,例如,将待转换音频转换为梅尔频谱,从而获取待转换音频的音域分布情况。再对梅尔频谱执行降噪处理,过滤掉梅尔频谱的噪音,从而提高识别人物语音的准确性。

在一些实施例中,人物语音还可以包括多个人物语音片段,如图3所示,待转换音频包括人物A和人物B交替说话的语音,人物A:“现在几点了?”人物B:“早上八点。”人物A:“谢谢。”人物B:“不客气。”在上述待转换音频中,包括人物A的人物语音和人物B的人物语音,其中,人物A的人物语音包括“现在几点了?”和“谢谢。”两个人物语音片段,人物B的人物语音包括“早上八点。”和“不客气。”两个人物语音片段。因此,在分离人物语音和背景音的过程中,可以将以上所有的人物语音片段与背景音进行分离。

S400:如果所述待转换音频中识别出至少两个不同人物发出的人物语音,则通过声纹识别模型从所述人物语音识别出源人物语音。

当待转换音频中包括不同人物发出的人物语音时,需要从人物语音中识别出源人物语音,为此,可以使用声纹识别模型来识别人物语音中的源人物语音。声纹识别模型可以通过人物语音的语音声纹来判断该人物语音是否为源人物语音,从而在多个人物语音中,识别出源人物语音。

如图4所示,声纹识别模型包括参照声纹,参照声纹用于判断人物语音是否为源人物语音,其中,源人物语音是语音声纹与参照声纹的声纹相似度大于或等于相似度阈值的人物语音。因此,在将人物语音输入至声纹识别模型中后,可以通过获取人物语音的语音声纹的方式识别源人物语音。

以待转换音频中包括人物语音A和人物语音B为例,在识别源人物语音时,可以获取声纹识别模型获取人物语音A的语音声纹A,以及,获取人物语音B的语音声纹B。然后将语音声纹A和语音声纹B输入至声纹识别模型,并通过声纹识别模型计算语音声纹A与参照声纹的第一声纹相似度,以及,计算语音声纹B与参照声纹的第二声纹相似度。需要说明的是,在获取语音声纹的过程中,对于同一人物的人物语音,可以仅选取一个人物语音片段用于获取语音声纹,从而避免重复获取同一人物语音的语音声纹,以提高识别源人物语音的效率。

在得到第一声纹相似度和第二声纹相似度之后,可以通过获取相似度阈值来判断语音声纹和参照声纹是否配对,如果配对,则说明语音声纹对应的人物语音即为所要识别的源人物语音。例如,如果第一声纹相似度大于或者等于相似度阈值,则说明语音声纹A与参照声纹配对成功,说明人物语音A即为源人物语音。如果第二声纹相似度小于相似度阈值,说明人物语音B不是源人物语音。因此,可以将人物语音A标记为源人物语音,从而在多个人物语音中,准确的识别出源人物语音,提高识别源人物语音的准确性。

但是,当待转换音频中,所有的人物语音对应的语音声纹与参照声纹的相似度均小于相似度阈值,则说明在待转换音频中不包含源人物语音,从而通过声纹识别模型输出静默音频,所述静默音频为不执行语音转换的音频,在静默音频中,人物语音A和人物语音B均不执行语音转换。

S500:通过语音转换模型将所述源人物语音转换为目标人物语音。

语音转换模型用于将源人物语音转换为目标人物语音,例如,将人物语音A输入至语音转换模型中,输出人物语音A’,其中,人物语音A’为目标人物语音,人物语音A为源人物语音,人物语音A’和人物语音A的声音不同,其中,声音不同可以包括音色不同或语速不同。

在一些实施例中,可以实时对源人物语音执行语音转换,例如,在直播的过程中,可以对源人物执行语音检测,从而获取源人物发出的源人物语音。语音转换模型会将源人物语音实时转换成目标人物语音,以提高语音转换的实时性,给用户更好的直播观看体验。需要说明的是,用户可以根据自身需求或者场景需求选择相应的目标人物语音,从而提高语音转换的趣味性,提高互动效果。

S600:将所述背景音、剩余的人物语音和所述目标人物语音进行拼接,得到转换后的音频。

在本实施例中,剩余的人物语音没有执行语音转换,因此,可以将背景音、剩余的人物语音以及执行语音转换后得到的目标人物语音执行拼接,得到转换后的音频。在转换后的音频中,仅有源人物语音转换为目标人物语音,其他人物语音的声音没有变化,从而实现对单一人物语音执行语音转换,提高转换后音频的场景还原度。

声纹识别模型和语音转换模型想要在上述场景中实现上述记载的技术效果,还需要预先执行特定的训练过程,下面结合前述实施例,对声纹识别模型和语音转换模型做进一步的说明。

在一些实施例中,可以录制源人物说出的语音,并将录制得到的音频作为第一训练音频,其中,第一训练音频用于训练声纹识别模型。为了避免第一训练音频中的背景音对声纹识别模型的训练过程产生影响,可以通过端点检测技术从第一训练音频中分离出源人物语音片段,从而将背景音片段滤除,以消除背景音片段对声纹识别模型产生的训练误差。最后通过源人物语音片段训练声纹识别模型。

由于训练声纹识别模型需要大量的训练数据,因此,可以对源人物语音片段进行分割操作,例如,将源人物语音片段统一分割为1s时长的语音片段,以获得大量的训练数据,并根据这些语音片段训练声纹识别模型。

在训练的过程中,声纹识别模型会输出声纹识别结果,为了判断声纹识别模型是否训练至收敛,可以根据声纹识别结果计算第一训练误差,当第一训练误差小于声纹误差阈值时,输出当前声纹识别模型的参数以得到训练好的声纹识别模型。

在一些实施例中,还可以获取目标人物说出的第二训练音频,第二训练音频用于对语音转换模型执行训练,第二训练音频包括目标人物发出的人物语音。语音转换模型是将源人物语音转换为目标人物语音,因此,需要使用大量的目标人物语音作为样本训练语音转换模型,从而获取语音转换模型在训练过程中将非目标人物语音转换至目标人物语音的转换精度。

为了避免第二训练音频中的背景音对语音转换模型的训练过程产生影响,可以通过端点检测技术从第二训练音频中分离出目标人物语音片段,从而将背景音片段滤除,以消除背景音片段对语音转换模型产生的训练误差。最后通过目标人物语音片段训练语音转换模型。

在训练的过程中,语音转换模型会基于目标人物语音片段输出语音转换结果,为了判断语音转换模型是否训练至收敛,可以根据语音转换结果计算第二训练误差,当第二训练误差小于语音误差阈值时,输出当前语音转换模型的参数以得到训练好的语音转换模型。

声纹识别模型可以对单一人物语音执行识别,但是,当不同人物说出的人物语音叠加到一起时,重叠语音可以包括所有不同人物语音对应的语音声纹,从而影响对源人物语音的识别。

在一些实施例中,为了解决上述问题,还可以根据正序的时序顺序检测人物语音之间的重叠语音。在待转换音频中,人物语音具有时序性,同样以上述示例进行说明,参见图5,以08:00:00为初始时间点,人物A问“现在几点了?”结束时间点为08:00:05,人物B紧接着人物语音A回复“早上八点”,回复结束时间点为08:00:10。此时,根据正序的时序顺序检测,人物语音A和人物语音B并不存在重叠语音。

当人物A“现在几点了?”结束时间点为08:00:05,而人物B在人物A没有说完人物语音A时,猜测出后续的内容,从而在08:00:03时提前回答“早上八点”,结束时间点为08:00:08。因此,08:00:03至08:00:05之间,即存在人物A的说话声音,也存在人物B的说话声音,因此,08:00:03至08:00:05之间的人物语音即为重叠语音。

为了区分开重叠语音,可以分别对人物语音A和人物语音B执行语义检测,从而根据语义检测技术获取重叠语音的语义信息和来源对象信息,其中,语义信息包括重叠语音中的人物语音A片段和人物语音B片段,来源信息即为人物A和人物B。参见图6,在图6中,重叠语音包括08:00:03至08:00:05之间的人物语音A和人物语音B,但是,人物语音A为即将结束的语音内容,如“几点了”。人物语音B为刚开始说出的语音内容,如“早上”。因此,根据语义信息,人物语音A在08:00:00至08:00:03之间的语音内容为“现在”,人物语音B在08:00:03至08:00:08之间的语音内容为“八点”。根据语义信息以及来源对象信息,可以将重叠语音中属于人物语音A和人物语音B的语音片段执行裁剪操作,得到人物语音片段,并将人物语音片段根据时序顺序进行顺延,从而消除重叠语音,减少声纹识别模型的识别误差。

在一些实施例中,还可以实时选取源人物语音,为此,可以将人物语音输入至深度聚类识别模型,通过深度聚类识别模型,可以获取人物语音片段的音频特征。然后计算任意两个人物语音片段的音频特征的特征相似度,并根据特征相似度对人物语音片段根据每个人物执行分类,得到多个音频集合。

音频集合是来源为同一人物的人物语音片段的集合,音频集合中可以包括多个人物语音片段。此时,用户可以自行选择源人物语音,在一些实施例中,可以获取用户输入的选择指令,选择指令用于在人物中选择源人物语音,在选中源人物语音后,可以对源人物语音对应的音频集合执行标记,以区分其他未被选中的音频集合。在后续通过语音转换模型对源人物语音执行语音转换的过程中,可以直接通过语音转换模型对被标记的音频集合执行语音转换。

为了便于执行上述记载的语音转换方法,本申请的部分实施例还提供一种语音转换系统,所述系统包括存储器和处理器,其中,存储器中存储有声纹识别模型和语音转换模型,所述处理器被配置为执行前述步骤S100-S600。

本申请提供的语音转换系统通过在多个人物语音中识别出源人物语音,避免多个人物语音混淆源人物语音的语音转换,从而将背景音、剩余的人物语音和转换后得到的目标人物语音拼接,使得语音转换更加真实自然,提高语音转换后音频的场景还原度。

本申请的部分实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中包括计算机指令,所述计算机指令用于指示计算机执行上述记载的一种语音转换方法。

本申请提供的计算机可读存储介质通过在多个人物语音中识别出源人物语音,避免多个人物语音混淆源人物语音的语音转换,从而将背景音、剩余的人物语音和转换后得到的目标人物语音拼接,使得语音转换更加真实自然,提高语音转换后音频的场景还原度。

由以上技术方案可知,本申请提供一种语音转换方法、系统及存储介质,通过识别待转换音频中的人物语音,通过端点检测技术从待转换音频中分离人物语音和背景音,并识别待转换音频中的人物语音,如果待转换语音中识别出至少两个不同人物发出的人物语音,则通过声纹识别模型在人物语音中识别出源人物语音,再通过语音转换模型将源人物语音转换为目标人物语音,最后将背景音、剩余的人物语音和目标人物语音拼接,得到转换后的音频。本申请通过在多个人物语音中识别出源人物语音,避免多个人物语音混淆源人物语音的语音转换,从而将背景音、剩余的人物语音和转换后得到的目标人物语音拼接,使得语音转换更加真实自然,提高语音转换后音频的场景还原度。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释本公开内容,从而使得本领域技术人员更好的使用所述实施方式。

相关技术
  • 一种文件转换方法、系统、装置及计算机可读存储介质
  • 一种自动语音质检方法、系统、装置及存储介质
  • 一种家电的语音控制方法、装置、存储介质及家电系统
  • 一种代码转换方法、装置及设备、存储介质
  • 一种实时以太网到现场总线的转换方法及装置、存储介质
  • 一种基于IN和MI的语音转换方法、系统、终端及存储介质
  • 一种端到端语音转换方法、系统、终端及存储介质
技术分类

06120116512903