多语种免切换交互方法、装置以及电子设备

文献发布时间：2024-01-17 01:17:49

技术领域

本发明涉及语音交互技术领域，尤其涉及一种多语种免切换交互方法、装置以及电子设备。

背景技术

当前人机语音交互系统一般只支持单语言交互，如中文语音交互，不支持多语言交互功能，或者系统即便支持多种语言的交互，但是需要手动切换不同的语言。不同语种之间的差异远远超过普通话与方言之间的差异，普通话与方言识别无法适配不同语种间的识别，尤其是中英阿等差异较大的语系，这是普通话与方言转换技术难以满足的。

具体来说，人机语音交互方案大多为每个语种一套语音交互系统，各语种系统独立，不同语种用户无法同时使用同一套语音交互系统。目前中文普通话与方言的切换思路，要么是采用普通话与方言独立的识别系统，然后对结果进行PK；或者，方言基于普通话进行微调优化。然而，因为各语种差异较大，尤其是数据量较少的语种，在语音识别、语义理解等效果上，相比数据量相对较大的语种相差明显。比如，中文语音识别率能够达到95％或者更高，而阿拉伯语语音识别率则可能仅能达到80％甚至更低，在这两种语种之间进行切换，若套用上述普通话与方言的技术路线，则无法达到预期效果，更甚者普通话与方言转换的方案难以迁移适配。

由此综上而言，现有技术方案存在如下缺点：

第一、系统不能支持多语种的语音交互，或者多语种语音交互需要依赖人为切换，未有稳定、可靠的自适应切换适配策略；

第二、每个语种的语音交互均为独立的系统，维护成本高；

第三、不同语种的语音识别、语义理解、语音合成等核心交互能力，会因为数据量的差异导致效果相差较大，进而使得切换语种交互体验不佳。

发明内容

鉴于上述，本发明旨在提供一种多语种免切换交互方法、装置以及电子设备，以解决多语种交互时产生的前述问题。

本发明采用的技术方案如下：

第一方面，本发明提供了一种多语种免切换交互方法，其中包括：

对应提取输入的不同语种语音的音频特征；

将所述音频特征输入预先训练得到的多语种语音识别模型，其中，所述多语种语音识别模型采用端到端建模机制；

由所述多语种语音识别模型从所述音频特征中获取多语种的共性特征以及差异特征，并结合所述共性特征以及所述差异特征将音频特征序列转换为统一建模单元序列，得到特征强化的声学信息；

基于所述声学信息，由所述多语种语音识别模型针对不同语种进行语言解码，输出对应各语种的转写文本以及语种标签；

利用所述转写文本以及所述语种标签进行语义理解并执行交互操作。

在其中至少一种可能的实现方式中，基于迁移学习机制对所述多语种语音识别模型进行训练，利用具有较高资源的语种经训练收敛的模型，作为具有较低资源的语种的初始化模型，获取不同语种的发音在时频特征上的相似特点。

在其中至少一种可能的实现方式中，针对资源量不同的多个语种采用不同的统一建模单元。

在其中至少一种可能的实现方式中，在所述多语种语音识别模型中，在语言解码之前设置语种路由网络，所述语种路由网络用于根据所述声学信息中包含的语种差异信息，自动匹配至对应的语种通道，并输出相应的语种标签。

在其中至少一种可能的实现方式中，所述多语种语音识别模型的训练过程包括：

利用全部语种的数据训练通用模型;

在训练得到的通用模型中插入所述语种路由网络；

固定通用模型参数，仅按照各语种训练所述语种路由网络。

在其中至少一种可能的实现方式中，在语言解码过程中，基于所述语种路由网络输出的语种标签，针对各语种进行约束解码。

在其中至少一种可能的实现方式中，利用用户在输入混合多语种语音之前提供的唤醒语音，得到包含语种信息的唤醒标签，所述唤醒标签用于辅助所述多语种语音识别模型输出所述语种标签。

第二方面，本发明提供了一种多语种免切换交互装置，其中包括：

音频特征提取模块，用于对应提取输入的不同语种语音的音频特征；

特征输入模块，用于将所述音频特征输入预先训练得到的多语种语音识别模型，其中，所述多语种语音识别模型采用端到端建模机制；

声学信息处理模块，用于由所述多语种语音识别模型从所述音频特征中获取多语种的共性特征以及差异特征，并结合所述共性特征以及所述差异特征将音频特征序列转换为统一建模单元序列，得到特征强化的声学信息;

语言解码处理模块，用于基于所述声学信息，由所述多语种语音识别模型针对不同语种进行语言解码，输出对应各语种的转写文本以及语种标签；

语义理解及交互模块，用于利用所述转写文本以及所述语种标签进行语义理解并执行交互操作。

第三方面，本发明提供了一种电子设备，其中包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

本发明的主要构思在于，规避对每个语种单独训练识别模型，而是将多个语种的数据联合训练多语种语音识别模型，基于多语种共性特征混合建模，实现多语言无缝免切换语音交互，具体地，将输入的混合语种语音音频特征送入端到端的多语种语音识别模型中，从中获取多语种的共性特征及差异特征，并结合二者进行声学建模及语言解码，输出对应各语种的转写文本及语种标签，最后利用转写文本及语种标签进行语义理解并执行交互操作。本发明无需依赖人为切换，且消除了不同语种在语音识别、语义理解、语音合成方面的差异，尤其是无需切换，直接对混合语种的语音交互进行综合识别、理解，由此可以显著提升人机交互体验。

进一步地，本发明还提出语种路由构思，利用多语种标签进行约束解码，可大幅提升跨语种语音识别的精准度，避免因串扰带来的后续语义理解及交互操作上的偏差。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的多语种免切换交互方法的实施例的流程图；

图2为本发明提供的多语种免切换交互装置的实施例的示意图；

图3为本发明提供的电子设备的实施例的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

为了解决目前多语种，尤其是数据量、识别率相差较大的不同语种在交互场景中进行切换产生的弊端，本发明提出了如下至少一种多语种免切换交互方法的实施例，如图1所示的，具体可以包括：

步骤S1、对应提取输入的不同语种语音的音频特征；

可以理解地，在实际操作中，还可以对输入的混合语种语音进行声学预处理，例如但不限于降噪，语音降噪过程可采用已有的成熟方案，例如具体可以包括降噪、回声消除、声源定位等；同样地，提取常规的音频特征序列，也属于语音处理领域的常规方式，本发明对此不做赘述。

步骤S2、将所述音频特征输入预先训练得到的多语种语音识别模型，其中，所述多语种语音识别模型采用端到端建模机制；

本领域技术人员均可以理解，语音识别模型主要包含声学模型用于计算语音到声学单元的概率，以及语言模型用于根据声学单元概率进一步解码为相应的文本文字，基于此，本发明提出所述多语种语音识别模型采用端到端建模的机制，也即是体现是将传统的声学模型及语言模型合并，只在一个模型内部完成传统两个模型分别处理的任务，可以理解为该实施例中端到端模型的“黑匣子”内部执行的处理逻辑与传统的声学模型和语言模型近似，而优势则体现在将二者的合并到一个端到端模型后，便于声学和语言的特征共享，后文将结合模型的训练过程展开说明，这里需指出的是下述环节中声学建模及语言解码处理过程即可以在统一的端到端模型架构中予以实现。

步骤S3、所述多语种语音识别模型从所述音频特征中获取多语种的共性特征以及差异特征，并结合所述共性特征以及所述差异特征将音频特征序列转换为统一建模单元序列，得到特征强化的声学信息；

这里提及的统一建模单元，可以是针对不同语种采用不同的统一建模单元，具体地，针对具有一定语言研究知识、资源量较为丰富(可按专家经验，或者设置表征资源量的量化数值以区分)、可快速构建Global Phone发音词典的语种(比如通俗理解的“大语种”)，可以但不限于采用Global Phone作为统一建模单元，实现多语种发音空间内的有效共享，并减少语音数据标注量及对专家知识的依赖；对应地，对于目前语言研究相对不充分、资源较少的语种，可以但不限于采用基于Unicode基本拼写元素作为统一建模单元，减少小语种对发音词典和语言专家知识的依赖，提高大量资源匮乏语种的构建效率。

进一步地，针对共性特征获取，本发明在一些较佳实施例中还提出采用迁移学习的思想，以提高多语种语音数据信息交互，其显著的效果是可以提升相对较低资源的语种的识别效果。具体来说，在基于迁移学习机制对所述多语种语音识别模型进行训练的过程中，利用具有较高资源的语种经训练收敛的模型作为具有较低资源的语种的初始化模型，这样，可以充分利用不同语种的发音在时频特征上的相似特点，实现跨语种信息共享，在实际操作中可以通过跨语种共性特征提取网络予以实施，即，通过“以大代小”的方式，可将中英文等大语种的成熟技术和数据积累有效溢出泛化到其他的小语种，由此提高模型针对低资源语种语音识别的效果。

步骤S4、基于所述声学信息，所述多语种语音识别模型针对不同语种进行语言解码，输出对应各语种的转写文本以及语种标签；

这里，关于输出的语种标签，可以参考下述构思：在所述多语种语音识别模型，在语言解码之前设置语种路由网络(更佳地，并还可以考虑对应各语种增加各语种loss，使语种attent ion学习更为全面、准确)，所述语种路由网络用于根据所述声学信息中包含的语种差异信息，自动匹配至对应的语种通道，并输出相应的语种标签。

而这里提及的语种路由网络可在多语种语音识别模型上进行语种自适应训练，以提高相应语种的识别效果，具体而言，多语种语音识别模型训练过程可以包括两部分，一是使用全部语种的数据训练一个通用模型，在通用模型中插入语种路由网络，并且固定经训练得到的通用模型参数，仅训练对应于不同语种的语种路由网络，从而实现即插即用的模型自适应训练，继而进一步强化了不同语种的信息。

基于上述，本领域技术人员还可以理解，每个语种所支持的字符范围是固定的，因此每个语种均设有属于本语种的字符编码集。在进行语言解码时，如果在全域空间内进行字符解码，势必会导致语种间的识别结果串扰，由此考虑，为了解决语种间识别结果串扰的问题，本发明在一些较佳的实施例中，提出采用语种约束解码机制，基于在先步骤中提供的语种标签，将识别结果约束在本语种内，从而提高语音识别的准确率。当然，在训练阶段，对应引入约束编解码，由前述声学建模提供的声学信息并配合语种路由给出的语种标签，将编解码过程以单一语种进行约束，避免编解码过程多语种出现混杂。

除此之外，结合该较佳实施例中提出的语种标签所具有的作用，为了确保输出语种标签的精准度及效率，在本发明另一些优选方案中，结合人机交互场景中成熟的语音唤醒机制，根据用户在输入混合多语种语音之前提供的唤醒语音，预先确定默认的主要语种，得到包含语种信息的唤醒标签，并将所述唤醒标签输入至所述多语种语音识别模型用于辅助输出所述语种标签，例如但不限于使该唤醒标签参与语种路由判定并验证输出的语种标签，可以理解地，此仅为示意性说明，其目的是通过唤醒操作提供的额外信息，使得语种标签确定过程更为可靠、精准，这是因为通常在用户进行语音交互时，若使用了某语种对交互对象进行唤醒，则基本可以确定，后续交互时用户输入的多语种混合语音中大概率包含唤醒操作所使用的语种，从而可以提升语种辨识的精准度及处理效率。

步骤S5、利用所述转写文本以及所述语种标签进行语义理解并执行交互操作。

本发明所述语义理解的过程本身，可借鉴本领域的成熟方法，且具体地，还可以针对每个语种训练对应的语义理解模型和引擎，根据识别模型自适应输出的语种标签，自动选择并调用对应的语义理解服务，包括不限于得到交互意图、语义槽等。然后，便可以将语义理解结果和语种标签一并下发到交互端，交互端可根据语种标签和语义理解完成相应的交互展示等动作，例如但不限于调用不同语种的语音合成，展示不同语种的界面等，对于后续输出结果的应用方式，本发明不做赘述和限定。

综上所述，本发明的主要构思在于，规避对每个语种单独训练识别模型，而是将多个语种的数据联合训练多语种语音识别模型，基于多语种共性特征混合建模，实现多语言无缝免切换语音交互，具体地，将输入的混合语种语音音频特征送入端到端的多语种语音识别模型中，从中获取多语种的共性特征及差异特征，并结合二者进行声学建模及语言解码，输出对应各语种的转写文本及语种标签，最后利用转写文本及语种标签进行语义理解并执行交互操作。本发明无需依赖人为切换，且消除了不同语种在语音识别、语义理解、语音合成方面的差异，尤其是无需切换，直接对混合语种的语音交互进行综合识别、理解，由此可以显著提升人机交互体验。

相应于上述各实施例及优选方案，本发明还提供了一种多语种免切换交互装置的实施例，如图2所示，具体可以包括如下部件：

音频特征提取模块1，用于对应提取输入的不同语种语音的音频特征；

特征输入模块2，用于将所述音频特征输入预先训练得到的多语种语音识别模型，其中，所述多语种语音识别模型采用端到端建模机制；

声学信息处理模块3，用于由所述多语种语音识别模型从所述音频特征中获取多语种的共性特征以及差异特征，并结合所述共性特征以及所述差异特征将音频特征序列转换为统一建模单元序列，得到特征强化的声学信息；

语言解码处理模块4，用于基于所述声学信息，由所述多语种语音识别模型针对不同语种进行语言解码，输出对应各语种的转写文本以及语种标签；

语义理解及交互模块5，用于利用所述转写文本以及所述语种标签进行语义理解并执行交互操作。

应理解以上图2所示的多语种免切换交互装置中各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Progr ammable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明所涉及的技术构思可适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种电子设备。该设备具体可以包括：一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或者等效实施方式的步骤/功能。

该电子设备具体可以为与计算机相关的电子设备，例如但不限于各类交互终端及电子产品、移动终端等。

图3为本发明提供的电子设备的实施例的结构示意图，具体地，电子设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得电子设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，该设备900中的各个部件的操作和/或功能，具体可参见前文中关于方法、系统等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图3所示的电子设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种计算机数据存储介质，在该存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机数据取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

尤其需指出的是，该存储介质可以是指服务器或相类似的计算机设备，具体地，也即是服务器或类似的计算机设备中的存储器件中存储有前述计算机程序或上述装置。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的多语种免切换交互方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP。

接续前文，上述设备/终端可以是一台计算机设备，并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Pricess Units；以下简称：NPU)和图像信号处理器(Image SignalProcessing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random AccessMemory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李深安;邢猛;王兴宝;王雪初;张睿智;雷琴辉;刘俊峰;
专利申请人：科大讯飞股份有限公司;

上一篇：一种基于BIM技术的施工进度动态化管理系统
下一篇：一种信息安全处理系统及方法