语音识别方法和模型训练方法

文献发布时间：2023-06-19 19:27:02

技术领域

本申请涉及语义识别领域，具体而言，涉及一种语音识别方法和模型训练方法。

背景技术

目前，在语音识别领域，传统多语言语音识别需要依赖标注大量不同场景和不同语言的语音数据才可以在提高语音识别模型的识别能力，但是目前的多语言除使用较为广泛的语言之外普遍为低资源语言，即其所包含的资源样本普遍较少，导致语音识别模型的训练效果较差，从而导致语音识别模型对于多语言的语音识别能力较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音识别方法和模型训练方法，以至少解决相关技术中语音识别模型的识别准确率较低的技术问题。

根据本申请实施例的一个方面，提供了一种语音识别方法，包括：获取对第一对象进行语音采集所得到的语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

根据本申请实施例的一个方面，提供了一种模型训练方法，包括：获取第一语音样本和第二语音样本，其中，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息，目标语言类型为多种预设语言类型中的任意一种类型；利用第一语音样本和第二语音样本对初始识别模型进行半监督和自监督学习，得到语音识别模型，其中，语音识别模型用于基于语音数据的全局信息和局部信息，对语音数据包含的语音内容进行语音识别以得到语音内容的目标识别结果，语音内容对应的语言类型为目标语言类型。

根据本申请实施例的一个方面，提供了一种语音识别方法，包括：响应作用于操作界面上的输入指令，驱动语音采集装置对第一对象进行语音采集，得到语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；响应作用于操作界面上的语音识别指令，在操作界面上显示语音内容的目标识别结果，其中，目标识别结果是基于语音数据的声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别得到的，声学特征是利用语音识别模型对语音数据进行特征提取所得到的，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

根据本申请实施例的一个方面，提供了一种语音识别方法，包括：通过调用第一接口获取对第一对象进行语音采集所得到的语音数据，其中，第一接口包括第一参数，第一参数的参数值为语音数据，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息；通过调用第二接口输出目标识别结果，其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项的方法。

根据本申请实施例的一个方面，提供了一种计算机终端，包括：存储器，存储有可执行程序；处理器，用于运行程序，其中，程序运行时执行上述实施例中任意一项的方法。

通过上述步骤，获取对第一对象进行语音采集所得到的语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息，实现了提高对语音数据识别的准确度；本申请中可以采用多任务的半监督和自监督对语音识别模型进行训练，可以提高语音识别模型的泛化能力，对于样本数量较小的语言类型的语音内容，语音识别模型也可以进行高精度的识别，从而可以提高对语音数据的识别准确度，进而解决了相关技术中语音识别模型的识别准确率较低的技术问题。

容易注意到的是，上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释，并不构成对本申请的限定。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现语音识别方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例1的一种语音识别方法的流程图；

图3是根据本申请实施例的一种语音识别框架的示意图；

图4是根据本申请实施例2的一种模型训练方法的流程图；

图5是根据本申请实施例3的一种语音识别方法的流程图；

图6是根据本申请实施例4的一种语音识别方法的流程图；

图7是根据本申请实施例5的一种语音识别装置的示意图；

图8是根据本申请实施例6的一种模型训练装置的示意图；

图9是根据本申请实施例7的一种语音识别装置的示意图；

图10是根据本申请实施例8的一种语音识别装置的示意图；

图11是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

传统多语言语音识别需要依赖标注大量不同场景不同语言的语音数据，才可在通用或某些特定领域上得到客户可用的识别准确率。但目前多语言中除英文外普遍为低资源语言，传统的语音识别技术在低资源语言上存在明显的困难。

首先，多语言标注成本高、标注质量差、建设周期长。模型效果强依赖于语音音频及其对应文本数据的标注量，为提高模型识别率，需要标注大量数据。目前多语言标注成本是中文数据标注的3倍以上，同时由于不同语言标注人员教育程度参差不齐，标注速度比中文慢一半、标注质量也远远低于中文，若使用传统方法建设多语言语音识别模型并达到客户可用程度，必然会遇到建设成本高、项目周期长等问题。

其次，低资源语言的语音识别泛化能力仍是一个具挑战性的问题，在开放集上的识别率很差。低资源语言一般仅有朗读型数据，极度缺乏高价值场景(如即时通讯、会议、直播、演讲、客服等)数据来源。模型容易出现因训练数据和应用场景数据不匹配而导致的性能下降问题，需要解决模型无监督自学习能力，通过自我进化以更好的适应环境。目前的模型对不同场景不同语言之间的迁移能力仍比较差。

本申请中通过样本对重要性感知的自适应学习方法和多视角一致性正则化方法提高了在低资源语音识别任务上的有效性。

最后，传统多语言语音识别分别对不同语种分别建模，不同语种训练音频中的声道环境、音素、噪音等声学特征在理论上是可以在不同语种间复用的，但目前这部分信息尚未充分利用起来。以上问题都亟待更多的研发投入。

实施例1

根据本申请实施例，还提供了一种语音识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据本申请实施例的一种用于实现语音识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备)可以包括一个或多个(图中采用102a，102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的语音识别方法。图2是根据本申请实施例1的语音识别方法的流程图。该方法包括：

步骤S202，获取对第一对象进行语音采集所得到的语音数据。

其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型。

上述的多种预设语言类型包括但不限于中文、英文、德语、荷兰语、西班牙语、法语、葡萄牙语、意大利语、波兰语。此处可以根据需求设定预设语言类型。

上述的第一对象可以是需要对其输出的语音数据进行语音识别的对象，可选的，可以根据第一对象输出的语音数据中包含的目标语言类型的语音内容进行识别，得到该语音内容对应的文本信息。上述的第一对象可以是特定的对象，也可以是随机选定的对象。

在一种可选的实施例中，可以通过语音采集设备对第一对象输出的语音内容进行采集，得到上述的语音数据。

步骤S204，利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征。

上述的语音识别模型可以是自动语音识别模型(Automatic SpeechRecognition，简称为ASR)。

在一种可选的实施例中，可以通过自动语音识别模型中的卷积子采样特征编码器对语音数据进行特征提取，得到语音数据的声学特征。

步骤S206，基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果。

其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

上述的局部信息可以是对全局信息进行随机屏蔽后得到声学特征。

在一种可选的实施例中，可以根据声学特征的全局信息和局部信息，将声学特征输入至语音识别模型的编码器(conformer)中进行语音识别，得到语音内容的目标识别结果。上述的编码器的数量可以不做限定，可以是一个也可以是多个，本申请中编码器的数量以3个为例进行说明。

需要说明的是，每个编码器中都含有相同的模型参数。

在一种可选的实施例中，可以根据声学特征的局部信息将声学特征输入到第一个编码器中进行识别，得到第一识别结果，可以根据声学特征的全局信息将声学特征输入到第二个编码器中进行识别，得到第二识别结果，可以根据声学特征的全局信息对声学特征进行数据增强，并将数据增强后的声学特征输入到第三个编码器中进行识别，得到第三识别结果，可以根据第一识别结果、第二识别结果和第三识别结果得到语音内容的目标识别结果。其中，第一识别结果、第二识别结果和第三识别结果可以分别对应不同的权重，可以根据需求通过调整对应的权重来提高或减少对应的识别结果在最后目标识别结果中的权重。

在另一种可选的实施例中，在根据声学特征的全局信息对声学特征进行数据增强时，可以分别对声学特征进行强数据增强(strong data augmentation)和弱数据增强(weak data augmentation)，以便增加多个视角，提高结果的稳定性，需要说明的是，强数据增强可以是对声学特征进行较大幅度的数据增强，例如增加较多的噪声，若数据增强可以是对声学特征进行较小幅度的数据增强，例如，增加较少的噪声。

需要补充的是，强数据增强较弱数据增强的超参值更大，超参数更大代表输入的音频特征中被掩盖掉的信息更多，噪音干扰更大。

上述的自监督主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

上述的半监督主要分为两部分，小部分有标签，大部分无标签，用有标签的数据训练网络，用训练后的网络对无标签的数据进行分类制作伪标签，用一个挑选原则挑选出认为标签正确的数据再对网络进行训练。

自监督学习和半监督学习可以有如下形式的学习目标：

其中，l

需要注意的是，多任务学习的目标函数也可以扩展为多个无监督损失。

本申请在半监督和自监督损失上展示了本申请中的框架，即样本对重要性感知的对比学习损失和多视角一致性正则化损失，在这项工作中，提出了一个用于语音识别的框架，多任务学习损失函数的公式如下：

其中，l

在本申请的框架中，还可以进一步的探索更多的半监督和自监督损失或者多视角一致性正则化损失，在本申请中，可以将α和β都设定为0.5，但不限于此，具体的权重设置可以根据实际的需求进行设定。

图3是根据本申请实施例的一种语音识别框架的示意图，如图3所示，半监督和自监督语音识别框架(Self-and Semi-Supervised Learning framework for automaticspeech recognition，简称为S

如图3所示，本申请中可以对输入的标签进行增强，然后使用多视角一致性正则化损失来保持最坏情况下的一致性，输入到编码器块(conformer block)的特征可以是对特征中的潜在语音表征进行屏蔽得到的，而输入到量化块(quantization block)的语音是没有屏蔽的，可以通过样本对重要性意识到的对比损失，从而学习到被屏蔽和未被屏蔽的语音样本对增强所学语音特征的鲁棒性。将随机屏蔽后的语音样本送到编码器块中，并通过时序类数据分类的损失(Connectionist temporal classification，简称为CTC)来进行学习，从而实现通过多任务学习的方法来训练S

通过上述步骤，获取对第一对象进行语音采集所得到的语音数据，其中，所述语音数据包含目标语言类型的语音内容，所述目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对所述语音数据进行特征提取，得到所述语音数据的声学特征；基于所述声学特征的全局信息和局部信息，将所述声学特征输入至所述语音识别模型进行语音识别，得到所述语音内容的目标识别结果，其中，所述语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，所述第一语音样本包含所述多种预设语言类型的语音样本，且未包含标注信息，所述第二语音样本包含所述目标语言类型的语言样本和标注信息，实现了提高对语音数据识别的准确度；本申请中可以采用多任务的半监督和自监督对语音识别模型进行训练，可以提高语音识别模型的泛化能力，对于样本数量较小的语言类型的语音内容，语音识别模型也可以进行高精度的识别，从而可以提高对语音数据的识别准确度，进而解决了相关技术中语音识别模型的识别准确率较低的技术问题。

本申请上述实施例中，该方法还包括：对第一语音样本进行多次数据增强，得到增强样本集合；利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到半监督损失值；利用第二语音样本对语音识别模型进行自监督学习，得到自监督损失值；基于自监督损失值和半监督损失值，得到语音识别模型对应的目标损失值；基于目标损失值对语音识别模型的模型参数进行调整。

上述的增强样本集合可以是对第一语音样本进行增强后的样本集合。

在一种可选的实施例中，可以对第一语音样本分别进行弱数据增强和强数据增强，得到增强样本集合，可以利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，可选的，可以对第一语音样本的部分特征进行屏蔽，得到屏蔽后的特征，根据第一语音样本和屏蔽后的特征可以进行样本对重要性感知的对比学习，以便确定语音识别模型对重要性区域的感知能力，从而可以得到样本对重要性感知的对比学习损失，可根据第一语音样本和增强样本集合中的弱数据增强和强数据增强来得到多视角一致性正则化损失，以便提高语音识别模型在不同视角对样本的识别能力，从而根据样本对重要性感知的对比学习损失和多视角一致性正则化损失得到上述的半监督损失值，从而提高半监督损失值的稳定性、鲁棒性以及收敛性。

上述的目标语言类型可以是多个预设语言类型中样本数量较少的语言类型，对于一些小语种可能不会存在较多的语音样本。

在另一种可选的实施例中，可以利用第二语音样本对语音识别模型进行自监督学习，在进行自监督学习的过程中，可以对第二语音样本的语音特征进行部分屏蔽，可以对部分屏蔽后的语音特征进行识别，得到识别结果，并通过识别结果和标准信息来完成第二语音样本的自监督学习，通过对第二语音样本的语音特征进行部分屏蔽，可以训练语音识别模型对于没有出现的区域的感知能力，从而进一步提高语音识别模型的语音识别能力。

在又一种可选的实施例中，对于自监督损失值和半监督损失值，可以设置对应的权重值来调节自监督损失值和半监督损失值所占的比重，从而更灵活的适应于语音识别模型的训练过程，通过目标损失值对语音识别模型的模型参数进行调整，可以使得语音识别模型对于样本较少的语言类型也能有更强的语音识别能力，从而提高语音识别模型的识别准确度。

本申请上述实施例中，利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到半监督损失值包括：利用第一语音样本对语音识别模型进行半监督学习，得到语音识别模型的第一损失值；利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到语音识别模型的第二损失值；获取第一损失值和第二损失值的加权和，得到半监督损失值。

上述的第一损失值可以是样本对重要性感知的对比性损失。

上述的第二损失值可以是多视角一致性正则化损失值。

在一种可选的实施例中，可以对第一语音样本的样本特征中部分区域的特征进行屏蔽，根据屏蔽后的特征和第一语音样本的全部特征进行对比，从而得到上述的样本对重要性感知的对比性损失，以便提高语言识别模型对于多个预设语言类型的语音样本中重要区域的感知能力；可以通过增强样本集合来增加样本的视角，通过对第一语音样本和增强样本集合进行识别，可以得到多视角一致性正则化损失值，以便提高语音识别模型在多个识别的语音识别能力。

在另一种可选的实施例中，对于第一损失值和第二损失值，可以设置对应的权重值来调节第一损失值和第二损失值所占的比重，从而更灵活的适应于语音识别模型的训练过程，通过半监督损失值对语音识别模型的模型参数进行调整，可以提高语音识别模型的泛化能力。

本申请上述实施例中，利用第一语音样本对语音识别模型进行半监督学习，得到语音识别模型的第一损失值包括：对第一语音样本进行特征提取，得到第一语音样本的第一样本特征；对第一样本特征中的部分特征进行屏蔽，得到第一掩码特征；对第一样本特征进行量化，得到量化特征；基于第一掩码特征和量化特征，得到第一损失值。

在一种可选的实施例中，可以通过CNN subsampling对第一语音样本进行特征提取，得到第一语音样本的第一样本特征，可以对第一样本特征中有标签的部分特征进行屏蔽，得到第一掩码特征，可以通过quantization block对第一样本特征进行量化，以便将第一样本特征中的浮点数通过定点数进行表示，得到量化特征，可以通过比对第一掩码特征和量化特征，可以第一损失值，若两者差别较小，则说明语音识别模型对于全局的识别能力较强，可以忽略细节所造成的影响。

本申请上述实施例中，基于第一掩码特征和量化特征，得到第一损失值包括：确定量化特征中第一掩码特征对应的正样本特征和负样本特征，其中，正样本特征和第一掩码特征对应于同一个第一语音样本，负样本特征和第一掩码特征对应于不同的第一语音样本；获取第一掩码特征分别与正样本特征和负样本特征的相似度，得到第一相似度和第二相似度；获取第一掩码特征和负样本特征的样本对重要性因子；基于第一相似度、第二相似度和样本对重要性因子，得到第一损失值。

上述的样本对重要性因子是指第一掩码特征中与负样本特征中相关的特征，可选的，可以将被掩码特征的上下文特征作为负样本特征的样本对重要性因子。

上述的第一相似度可以是第一掩码特征和正样本特征的最大相似度。

上述的第二相似度可以是第一掩码特征和负样本特征的最小相似度。

在一种可选的实施例中，可以确定出量化特征中属于第一掩码特征的正样本特征和不属于第一掩码特征的负样本特征，可以获取第一掩码特征和正样本特征的第一相似度，并获取第一掩码特征和负样本特征的第二相似度；可以获取第一掩码特征和负样本特征的样本对重要性因子，可以根据第一相似度和第二相似度和样本对重要性因子得到第一损失值，通过该第一损失值对语音识别模型的参数进行调整，可以对被屏蔽的特征进行更好的表达，从而提高语音识别模型对于重要性区域的识别能力。

假设有N对语音样本

然而，传统的CL认为不同的样本同等重要，对于此，本申请提出了一个样本对重要性感知的对比损失，可以引入成对的重要性因子γ来帮助学习到更好的表示，其中，引入成对的重要因子γ

其中，通过

本申请上述实施例中，利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到语音识别模型的第二损失值包括：分别对第一语音样本和增强样本集合进行特征提取，得到第一语音样本的第一样本特征，增强样本集合的增强样本特征集合；利用语音识别模型分别对第一样本特征和增强样本特征集合进行语音识别，得到第一语音样本的第一样本识别结果和增强样本集合的增强样本识别结果集合；基于第一样本识别结果和增强样本识别结果集合，得到第二损失值。

上述的增强样本集合中可以包含对第一语音样本进行一次增强的增强样本，也可以包含对第一语音样本进行多次增强的增强样本，例如，分别对第一语音样本进行弱增强和强增强的样本；但不限于此，可以根据实际情况自行设置对第一语音样本进行增强后的增强样本集合。

在一种可选的实施例中，通过对第一样本特征进行识别，可以得到第一语音样本的第一样本识别结果，通过对增强样本特征集合进行识别，可以得到增强样本特征集合的增强样本识别结果集合，通过比对第一样本界别结果和增强样本识别结果集合，能够确定出语音识别能力对于同一语音样本进行增强和未增强的识别能力，若第二损失值较大，则说明语音识别模型的语音识别能力容易受到干扰，通过该第二损失值可以提高语音识别模型的鲁棒性，从而提高语音识别模型对于语音数据的识别准确度。

目前，一般是对每个未标注的样本进行K次增强，为每个未标注的样本找到最大的一致性损失，可以将选定的一致性损失和具有较高置信度的已标注的样本的CTC损失最小化，在传统的一致性正则化方法中，只考虑了一个或两个增强的数据，本申请中提出了一种改进的多视角一致性正则化方法，可以将原始的没有标签的样本和多个增强视角之间的最大不一致距离最小化，如下所示为多视角一致性正则化损失的公式：

其中，

本申请上述实施例中，基于第一样本识别结果和增强样本识别结果集合，得到第二损失值包括：利用交叉熵损失对第一样本识别结果和增强样本识别结果集合中每个增强样本识别结果进行处理，得到增强样本集合对应的原始损失值集合；基于原始损失值集合中的最大损失值，得到第二损失值。

在一种可选的实施例中，在增强样本识别结果集合中包含多个增强样本识别结果时，可以得到第一样本识别结果与每个增强样本识别结果的原始损失值，从而得到增强样本集合对应的原始损失值集合，通过对原始损失值集合中的多个原始损失值进行排序，可以得到原始损失值集合中的最大损失值，可以确定该最大损失值为上述的第二损失值。通过最大损失值对语音识别模型进行训练，可以使得语音识别模型能够更快的收敛，从而提高语音识别模型的鲁棒性。

可选的，可以从原始损失集合中的多个原始损失值中进行随机选取，得到上述的第二损失值。具体确定第二损失值的方式还可以根据需求灵活设置。

本申请上述实施例中，利用第二语音样本对语音识别模型进行自监督学习，得到自监督损失值包括：对第二语音样本进行特征提取，得到第二样本特征；对第二样本特征中的部分特征进行屏蔽，得到第二掩码特征；利用语音识别模型对第二掩码特征进行语音识别，得到第二语音样本的第二样本识别结果；基于第二样本识别结果和标注信息，得到自监督损失值。

在一种可选的实施例中，可以对第二语音样本进行特征提取，得到第二样本特征，可以对第二样本特征中的部分特征进行屏蔽，得到第二掩码特征，通过语音识别模型对第二掩码特征进行语音识别，得到第二语音样本的第二样本识别结果，通过屏蔽部分特征，可以训练语音识别模型对于隐藏区域的识别能力，使得语音识别模型可以根据上下文信息进行预测，通过第二样本识别结果和标注信息，可以得到自监督损失值，通过该自监督损失值可以提高语音识别模型对于隐藏特征的预测能力。

在本申请中，提出了一种用于自动进行语音识别的自监督学习和半监督学习框架，该框架具有样本对重要性感知对比损失和多视角一致性正则化。近年来，自监督学习(Self-supervised learning，简称为SSL)吸引了越来越多的关注，由于其可以利用大规模的无标签数据和有标签数据来避免人工做大量的注释工作。对比学习在语音处理过程中取得了许多成功的应用，然而，现有的研究忽略了样本对之间不相等的重要性，因此，本申请在对比损失中引入了对等重要性，以便提高所学语音表示的对比性和鲁棒性，为了提高自监督的泛化能力，本申请增加了一个最坏情况下的一致性正则化损失，以便最小化原始未标记数据并且连接多个增强视角之间的最大不一致，然后，本申请对多语言语音识别任务进行了多任务半监督和自监督学习，所提出的方法在现有的数据集上进行了评估，实现表明本申请中提出的方法能够在低资源的多语言语音识别任务中具有与基线方法相当的性能。

本申请方案实现的背景如下：

目前，自动语音识别(Automatic Speech Recognition，简称为ASR)已经取得了显著的成功，这可以归功于两个互补的方面：1)为自动语音识别设计的更有效和更大的深度神经网络；2)在大量的数据上进行训练。然而，在实践过程中，与拥有充足训练数据的常用语言(如：英语和普通话)不同，由于音频的稀缺性和转录过程中消耗的巨大劳动力资源，世界上其他绝大多数口语语言只有低资源的数据，在这种情况下，通过传统的方法对低资源语言的自监督学习来说是不切实际的。近年来，自监督学习吸引了越来越多的研究关注，其可以利用了大规模的无标签数据和有标签数据进行学习，可以避免使用大量的人工标签，在自监督学习的支持下，半监督学习在解决低资源多语音识别的问题上具有很大的潜力。

大多数最先进的半监督学习框架都是基于在未标记的数据上对输入噪声追求一致的模型预测的想法，这被称为一致正则化，半监督学习的另一个搜索范式是迭代式自我训练，在语音识别模型(Conformer)上使用数据增强(SpecAugment)进行噪声学生训练，并通过wav2vec或wav2vec 2.0进行预训练。在此基础上，本申请提出了一种多视角一致性正则化的训练方法，该方法在由数据增强产生的不确定性集合上使最大的不一致性损失最小，自我监督的语音表征学习旨在学习有用的语音表征而不依赖于人工标签，可以解决低资源领域的学习困难，一个主流的方法是半监督的预训练或者表征学习，其在语音识别中受到越来越多的关注。wav2vec和wav2vec 2.0应用了半监督的对比性预训练，并显示出比较好的结果，语音处理芯片(Unispeech)提出了一个统一的语音表征学习，通过多任务学习，可以使用有监督的CTC损失和语音感知的对比损失(contrastive)，对于有标记和无标记的数据进行学习

Unispeech通过引入语料混合增强方法和语料对比损失来提高学习说话人陈述的能力。语音预训练模型(WavLM)在预训练的过程中用掩码预测损失和预料混合数据增强方法学习掩码语音的预判和去噪。

在传统的对比学习方法中，样本对的重要性被认为是相等的，但是在学习过程中，有些样本对比较难学，而有些很容易，对此，本申请提出了一个样本对重要性对抗学习(Sample-pair Importance aware Contrastive Learning，简称为SICL)损失来改善一致性正则，传统的一致性正则化方法考虑了不同样本对之间的同等重要性，然而在训练过程中，一些样本对很难训练其一致性，而另一些则容易训练，因此，本申请中引入了多视角一致性以提高一致性正则化的有效性，并尽可能的选择较差的情况进行学习。

在半监督学习中，自监督对比性损失和一致性正则化则是两种辅助性损失，在这项工作中，本申请中提出了一个新的用于自动语音识别的半监督和自监督框架，本申请的贡献如下：

1)本申请中提出了一种样本对重要性感知的自适应学习方法，以便提高半监督式语音识别在无缺陷数据上的鲁棒性。

2)本申请提出了一种多视角一致性正则化损失，可以提高半监督式自动识别的训练稳定性和收敛性。

3)本申请中的方法展示了多语言的语音识别任务在工业数据集上的有效性，可以提高语音识别的识别精确度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

实施例2

根据本申请实施例，还提供了一种模型训练方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图4是根据本申请实施例2的一种模型训练方法的流程图，如图4所示，该方法可以包括如下步骤：

步骤S402，获取第一语音样本和第二语音样本。

其中，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息，目标语言类型为多种预设语言类型中的任意一种类型。

步骤S404，利用第一语音样本和第二语音样本对初始识别模型进行半监督和自监督学习，得到语音识别模型。

其中，语音识别模型用于基于语音数据的全局信息和局部信息，对语音数据包含的语音内容进行语音识别以得到语音内容的目标识别结果，语音内容对应的语言类型为目标语言类型。

通过上述步骤，获取第一语音样本和第二语音样本，其中，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息，目标语言类型为多种预设语言类型中的任意一种类型，利用第一语音样本和第二语音样本对初始识别模型进行半监督和自监督学习，得到语音识别模型；其中，语音识别模型用于基于语音数据的全局信息和局部信息，对语音数据包含的语音内容进行语音识别以得到语音内容的目标识别结果，语音内容对应的语言类型为目标语言类型，实现了提高对语音数据识别的准确度；本申请中可以采用多任务的半监督和自监督对语音识别模型进行训练，可以提高语音识别模型的泛化能力，对于样本数量较小的语言类型的语音内容，语音识别模型也可以进行高精度的识别，从而可以提高对语音数据的识别准确度，进而解决了相关技术中语音识别模型的识别准确率较低的技术问题。

本申请上述实施例中，利用第一语音样本和第二语音样本对初始识别模型进行半监督和自监督学习，得到语音识别模型包括：对第一语音样本进行多次数据增强，得到增强样本集合；利用第一语音样本和增强样本集合对初始识别模型进行半监督学习，得到半监督损失值；利用第二语音样本对初始识别模型进行自监督学习，得到自监督损失值；基于自监督损失值和半监督损失值，得到初始识别模型对应的目标损失值；基于目标损失值对初始识别模型的模型参数进行调整，得到语音识别模型。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本申请实施例，还提供了一种语音识别方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图5是根据本申请实施例3的一种语音识别方法的流程图，如图5所示，该方法可以包括如下步骤：

步骤S502，响应作用于操作界面上的输入指令，驱动语音采集装置对第一对象进行语音采集，得到语音数据。

其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型。

步骤S504，响应作用于操作界面上的语音识别指令，在操作界面上显示语音内容的目标识别结果。

其中，目标识别结果是基于语音数据的声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别得到的，声学特征是利用语音识别模型对语音数据进行特征提取所得到的，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

通过上述步骤，响应作用于操作界面上的输入指令，驱动语音采集装置对第一对象进行语音采集，得到语音数据。其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型，响应作用于操作界面上的语音识别指令，在操作界面上显示语音内容的目标识别结果，其中，目标识别结果是基于语音数据的声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别得到的，声学特征是利用语音识别模型对语音数据进行特征提取所得到的，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息，实现了提高对语音数据识别的准确度；本申请中可以采用多任务的半监督和自监督对语音识别模型进行训练，可以提高语音识别模型的泛化能力，对于样本数量较小的语言类型的语音内容，语音识别模型也可以进行高精度的识别，从而可以提高对语音数据的识别准确度，进而解决了相关技术中语音识别模型的识别准确率较低的技术问题。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例4

图6是根据本申请实施例4的一种语音识别方法的流程图，如图6所示，该方法可以包括如下步骤：

步骤S602，通过调用第一接口获取对第一对象进行语音采集所得到的语音数据。

其中，第一接口包括第一参数，第一参数的参数值为语音数据，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型。

上述的第一接口可以是服务器与客户端之间进行数据交互的接口，客户端可以将语音数据传入接口函数，作为接口函数的第一参数，实现将语音数据上传至云服务器的目的。

步骤S604，利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征。

步骤S606，基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果。

其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息；

步骤S608，通过调用第二接口输出目标识别结果。

其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

上述步骤中的第二接口可以是云服务器和客户端之间进行数据交换的接口，云服务器可以将目标识别结果传入接口函数，作为接口函数的第二参数，实现将目标识别结果下发至客户端的目的。

通过上述步骤，通过调用第一接口获取对第一对象进行语音采集所得到的语音数据，其中，所述第一接口包括第一参数，所述第一参数的参数值为所述语音数据，所述语音数据包含目标语言类型的语音内容，所述目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对所述语音数据进行特征提取，得到所述语音数据的声学特征；基于所述声学特征的全局信息和局部信息，将所述声学特征输入至所述语音识别模型进行语音识别，得到所述语音内容的目标识别结果，其中，所述语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，所述第一语音样本包含所述多种预设语言类型的语音样本，且未包含标注信息，所述第二语音样本包含所述目标语言类型的语言样本和标注信息；通过调用第二接口输出所述目标识别结果，其中，所述第二接口包括第二参数，所述第二参数的参数值为所述目标识别结果，实现了提高对语音数据识别的准确度；本申请中可以采用多任务的半监督和自监督对语音识别模型进行训练，可以提高语音识别模型的泛化能力，对于样本数量较小的语言类型的语音内容，语音识别模型也可以进行高精度的识别，从而可以提高对语音数据的识别准确度，进而解决了相关技术中语音识别模型的识别准确率较低的技术问题。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例5

根据本申请实施例，还提供了一种用于实施上述语音识别方法的语音识别装置，图7是根据本申请实施例5的一种语音识别装置的示意图，如图7所示，该装置700包括：获取模块702、特征提取模块704、输入模块706。

其中，获取模块用于获取对第一对象进行语音采集所得到的语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；特征提取模块用于利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；输入模块用于基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

此处需要说明的是，上述获取模块702、特征提取模块704、输入模块706对应于实施例1中的步骤S202至步骤S206，三个模块于对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端中。

本申请上述实施例中，该装置还包括：数据增强模块、半监督学习模块、子监督学习模块、调整模块。

其中，数据增强模块用于对第一语音样本进行多次数据增强，得到增强样本集合；半监督学习模块用于利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到半监督损失值；自监督学习模块用于利用第二语音样本对语音识别模型进行自监督学习，得到自监督损失值；半监督学习模块用于基于自监督损失值和半监督损失值，得到语音识别模型对应的目标损失值；调整模块用于基于目标损失值对语音识别模型的模型参数进行调整。

本申请上述实施例中，半监督学习模块还用于利用第一语音样本对语音识别模型进行半监督学习，得到语音识别模型的第一损失值；半监督学习模块还用于利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到语音识别模型的第二损失值；半监督学习模块还用于获取第一损失值和第二损失值的加权和，得到半监督损失值。

本申请上述实施例中，半监督学习模块还用于对第一语音样本进行特征提取，得到第一语音样本的第一样本特征；半监督学习模块还用于对第一样本特征中的部分特征进行屏蔽，得到第一掩码特征；半监督学习模块还用于对第一样本特征进行量化，得到量化特征；半监督学习模块还用于基于第一掩码特征和量化特征，得到第一损失值。

本申请上述实施例中，半监督学习模块还用于确定量化特征中第一掩码特征对应的正样本特征和负样本特征，其中，正样本特征和第一掩码特征对应于同一个第一语音样本，负样本特征和第一掩码特征对应于不同的第一语音样本；半监督学习模块还用于获取第一掩码特征分别与正样本特征和负样本特征的相似度，得到第一相似度和第二相似度；半监督学习模块还用于获取第一掩码特征和负样本特征的样本对重要性因子；半监督学习模块还用于基于第一相似度、第二相似度和样本对重要性因子，得到第一损失值。

本申请上述实施例中，半监督学习模块还用于分别对第一语音样本和增强样本集合进行特征提取，得到第一语音样本的第一样本特征，增强样本集合的增强样本特征集合；半监督学习模块还用于利用语音识别模型分别对第一样本特征和增强样本特征集合进行语音识别，得到第一语音样本的第一样本识别结果和增强样本集合的增强样本识别结果集合；半监督学习模块还用于基于第一样本识别结果和增强样本识别结果集合，得到第二损失值。

本申请上述实施例中，半监督学习模块还用于利用交叉熵损失对第一样本识别结果和增强样本识别结果集合中每个增强样本识别结果进行处理，得到增强样本集合对应的原始损失值集合；半监督学习模块还用于基于原始损失值集合中的最大损失值，得到第二损失值。

本申请上述实施例中，自监督学习模块用于对第二语音样本进行特征提取，得到第二样本特征；自监督学习模块还用于对第二样本特征中的部分特征进行屏蔽，得到第二掩码特征；自监督学习模块还用于利用语音识别模型对第二掩码特征进行语音识别，得到第二语音样本的第二样本识别结果；自监督学习模块还用于基于第二样本识别结果和标注信息，得到自监督损失值。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例6

根据本申请实施例，还提供了一种用于实施上述模型训练方法的模型训练装置，图8是根据本申请实施例6的一种模型训练装置的示意图，如图8所示，该装置800包括：获取模块802、监督学习模块804。

其中，获取模块用于获取第一语音样本和第二语音样本，其中，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息，目标语言类型为多种预设语言类型中的任意一种类型；监督学习模块用于利用第一语音样本和第二语音样本对初始识别模型进行半监督和自监督学习，得到语音识别模型，其中，语音识别模型用于基于语音数据的全局信息和局部信息，对语音数据包含的语音内容进行语音识别以得到语音内容的目标识别结果，语音内容对应的语言类型为目标语言类型。

此处需要说明的是，上述获取模块802、监督学习模块804对应于实施例2中的步骤S402至步骤S404，两个模块于对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端中。

本申请上述实施例中，监督学习模块还用于对第一语音样本进行多次数据增强，得到增强样本集合；监督学习模块还用于利用第一语音样本和增强样本集合对初始识别模型进行半监督学习，得到半监督损失值；监督学习模块还用于利用第二语音样本对初始识别模型进行自监督学习，得到自监督损失值；监督学习模块还用于基于自监督损失值和半监督损失值，得到初始识别模型对应的目标损失值；监督学习模块还用于基于目标损失值对初始识别模型的模型参数进行调整，得到语音识别模型。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例7

根据本申请实施例，还提供了一种用于实施上述语音识别方法的语音识别装置，图9是根据本申请实施例7的一种语音识别装置的示意图，如图9所示，该装置900包括：驱动模块902、显示模块904。

其中，驱动模块用于响应作用于操作界面上的输入指令，驱动语音采集装置对第一对象进行语音采集，得到语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；显示模块用于响应作用于操作界面上的语音识别指令，在操作界面上显示语音内容的目标识别结果，其中，目标识别结果是基于语音数据的声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别得到的，声学特征是利用语音识别模型对语音数据进行特征提取所得到的，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

此处需要说明的是，上述驱动模块902、显示模块904对应于实施例3中的步骤S502至步骤S504，两个模块于对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端中。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例8

根据本申请实施例，还提供了一种用于实施上述语音识别方法的语音识别装置，图10是根据本申请实施例8的一种语音识别装置的示意图，如图10所示，该装置1000包括：采集模块1002、特征提取模块1004、输入模块1006、输出模块1008。

其中，采集模块用于通过调用第一接口获取对第一对象进行语音采集所得到的语音数据，其中，第一接口包括第一参数，第一参数的参数值为语音数据，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；特征提取模块用于利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；输入模块用于基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息；输出模块用于通过调用第二接口输出目标识别结果，其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

此处需要说明的是，上述采集模块1002、特征提取模块1004、输入模块1006、输出模块1008对应于实施例4中的步骤S602至步骤S608，四个模块于对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端中。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例9

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行语音识别方法中以下步骤的程序代码：获取对第一对象进行语音采集所得到的语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

可选地，图11是根据本申请实施例的一种计算机终端的结构框图。如图11所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器102、存储器104、存储控制器、以及外设接口，其中，外设接口与射频模块、音频模块和显示器连接。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的语音识别方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取对第一对象进行语音采集所得到的语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

可选的，上述处理器还可以执行如下步骤的程序代码：对第一语音样本进行多次数据增强，得到增强样本集合；利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到半监督损失值；利用第二语音样本对语音识别模型进行自监督学习，得到自监督损失值；基于自监督损失值和半监督损失值，得到语音识别模型对应的目标损失值；基于目标损失值对语音识别模型的模型参数进行调整。

可选的，上述处理器还可以执行如下步骤的程序代码：利用第一语音样本对语音识别模型进行半监督学习，得到语音识别模型的第一损失值；利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到语音识别模型的第二损失值；获取第一损失值和第二损失值的加权和，得到半监督损失值。

可选的，上述处理器还可以执行如下步骤的程序代码：对第一语音样本进行特征提取，得到第一语音样本的第一样本特征；对第一样本特征中的部分特征进行屏蔽，得到第一掩码特征；对第一样本特征进行量化，得到量化特征；基于第一掩码特征和量化特征，得到第一损失值。

可选的，上述处理器还可以执行如下步骤的程序代码：确定量化特征中第一掩码特征对应的正样本特征和负样本特征，其中，正样本特征和第一掩码特征对应于同一个第一语音样本，负样本特征和第一掩码特征对应于不同的第一语音样本；获取第一掩码特征分别与正样本特征和负样本特征的相似度，得到第一相似度和第二相似度；获取第一掩码特征和负样本特征的样本对重要性因子；基于第一相似度、第二相似度和样本对重要性因子，得到第一损失值。

可选的，上述处理器还可以执行如下步骤的程序代码：分别对第一语音样本和增强样本集合进行特征提取，得到第一语音样本的第一样本特征，增强样本集合的增强样本特征集合；利用语音识别模型分别对第一样本特征和增强样本特征集合进行语音识别，得到第一语音样本的第一样本识别结果和增强样本集合的增强样本识别结果集合；基于第一样本识别结果和增强样本识别结果集合，得到第二损失值。

可选的，上述处理器还可以执行如下步骤的程序代码：利用交叉熵损失对第一样本识别结果和增强样本识别结果集合中每个增强样本识别结果进行处理，得到增强样本集合对应的原始损失值集合；基于原始损失值集合中的最大损失值，得到第二损失值。

可选的，上述处理器还可以执行如下步骤的程序代码：对第二语音样本进行特征提取，得到第二样本特征；对第二样本特征中的部分特征进行屏蔽，得到第二掩码特征；利用语音识别模型对第二掩码特征进行语音识别，得到第二语音样本的第二样本识别结果；基于第二样本识别结果和标注信息，得到自监督损失值。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取第一语音样本和第二语音样本，其中，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息，目标语言类型为多种预设语言类型中的任意一种类型；利用第一语音样本和第二语音样本对初始识别模型进行半监督和自监督学习，得到语音识别模型，其中，语音识别模型用于基于语音数据的全局信息和局部信息，对语音数据包含的语音内容进行语音识别以得到语音内容的目标识别结果，语音内容对应的语言类型为目标语言类型。

可选的，上述处理器还可以执行如下步骤的程序代码：对第一语音样本进行多次数据增强，得到增强样本集合；利用第一语音样本和增强样本集合对初始识别模型进行半监督学习，得到半监督损失值；利用第二语音样本对初始识别模型进行自监督学习，得到自监督损失值；基于自监督损失值和半监督损失值，得到初始识别模型对应的目标损失值；基于目标损失值对初始识别模型的模型参数进行调整，得到语音识别模型。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：响应作用于操作界面上的输入指令，驱动语音采集装置对第一对象进行语音采集，得到语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；响应作用于操作界面上的语音识别指令，在操作界面上显示语音内容的目标识别结果，其中，目标识别结果是基于语音数据的声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别得到的，声学特征是利用语音识别模型对语音数据进行特征提取所得到的，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取对第一对象进行语音采集所得到的语音数据，其中，第一接口包括第一参数，第一参数的参数值为语音数据，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息；通过调用第二接口输出目标识别结果，其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

采用本申请实施例，获取对第一对象进行语音采集所得到的语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息，实现了提高对语音数据识别的准确度；本申请中可以采用多任务的半监督和自监督对语音识别模型进行训练，可以提高语音识别模型的泛化能力，对于样本数量较小的语言类型的语音内容，语音识别模型也可以进行高精度的识别，从而可以提高对语音数据的识别准确度，进而解决了相关技术中语音识别模型的识别准确率较低的技术问题。

本领域普通技术人员可以理解，图11所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternetDevices，MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图11所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例10

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的语音识别方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取对第一对象进行语音采集所得到的语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：对第一语音样本进行多次数据增强，得到增强样本集合；利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到半监督损失值；利用第二语音样本对语音识别模型进行自监督学习，得到自监督损失值；基于自监督损失值和半监督损失值，得到语音识别模型对应的目标损失值；基于目标损失值对语音识别模型的模型参数进行调整。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用第一语音样本对语音识别模型进行半监督学习，得到语音识别模型的第一损失值；利用第一语音样本和增强样本集合对语音识别模型进行半监督学习，得到语音识别模型的第二损失值；获取第一损失值和第二损失值的加权和，得到半监督损失值。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：对第一语音样本进行特征提取，得到第一语音样本的第一样本特征；对第一样本特征中的部分特征进行屏蔽，得到第一掩码特征；对第一样本特征进行量化，得到量化特征；基于第一掩码特征和量化特征，得到第一损失值。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：确定量化特征中第一掩码特征对应的正样本特征和负样本特征，其中，正样本特征和第一掩码特征对应于同一个第一语音样本，负样本特征和第一掩码特征对应于不同的第一语音样本；获取第一掩码特征分别与正样本特征和负样本特征的相似度，得到第一相似度和第二相似度；获取第一掩码特征和负样本特征的样本对重要性因子；基于第一相似度、第二相似度和样本对重要性因子，得到第一损失值。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：分别对第一语音样本和增强样本集合进行特征提取，得到第一语音样本的第一样本特征，增强样本集合的增强样本特征集合；利用语音识别模型分别对第一样本特征和增强样本特征集合进行语音识别，得到第一语音样本的第一样本识别结果和增强样本集合的增强样本识别结果集合；基于第一样本识别结果和增强样本识别结果集合，得到第二损失值。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用交叉熵损失对第一样本识别结果和增强样本识别结果集合中每个增强样本识别结果进行处理，得到增强样本集合对应的原始损失值集合；基于原始损失值集合中的最大损失值，得到第二损失值。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：对第二语音样本进行特征提取，得到第二样本特征；对第二样本特征中的部分特征进行屏蔽，得到第二掩码特征；利用语音识别模型对第二掩码特征进行语音识别，得到第二语音样本的第二样本识别结果；基于第二样本识别结果和标注信息，得到自监督损失值。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取第一语音样本和第二语音样本，其中，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息，目标语言类型为多种预设语言类型中的任意一种类型；利用第一语音样本和第二语音样本对初始识别模型进行半监督和自监督学习，得到语音识别模型，其中，语音识别模型用于基于语音数据的全局信息和局部信息，对语音数据包含的语音内容进行语音识别以得到语音内容的目标识别结果，语音内容对应的语言类型为目标语言类型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：对第一语音样本进行多次数据增强，得到增强样本集合；利用第一语音样本和增强样本集合对初始识别模型进行半监督学习，得到半监督损失值；利用第二语音样本对初始识别模型进行自监督学习，得到自监督损失值；基于自监督损失值和半监督损失值，得到初始识别模型对应的目标损失值；基于目标损失值对初始识别模型的模型参数进行调整，得到语音识别模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的输入指令，驱动语音采集装置对第一对象进行语音采集，得到语音数据，其中，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；响应作用于操作界面上的语音识别指令，在操作界面上显示语音内容的目标识别结果，其中，目标识别结果是基于语音数据的声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别得到的，声学特征是利用语音识别模型对语音数据进行特征提取所得到的，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取对第一对象进行语音采集所得到的语音数据，其中，第一接口包括第一参数，第一参数的参数值为语音数据，语音数据包含目标语言类型的语音内容，目标语言类型是多种预设语言类型中的任意一种类型；利用语音识别模型对语音数据进行特征提取，得到语音数据的声学特征；基于声学特征的全局信息和局部信息，将声学特征输入至语音识别模型进行语音识别，得到语音内容的目标识别结果，其中，语音识别模型是利用第一语音样本和第二语音样本进行半监督和自监督学习得到的，第一语音样本包含多种预设语言类型的语音样本，且未包含标注信息，第二语音样本包含目标语言类型的语言样本和标注信息；通过调用第二接口输出目标识别结果，其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张冲;黄殿文;叶家祺;马煜坤;倪崇嘉;阮成孝;马斌;
专利申请人：阿里巴巴达摩院(杭州)科技有限公司;

上一篇：一种基于社会全息数据的微网格划分系统及方法
下一篇：一种多层内嵌式微缝共振器的结构设计方法、装置及系统