声学模型处理方法、装置、设备和可读存储介质

文献发布时间：2023-06-19 10:55:46

技术领域

本发明属于互联网技术领域，特别是涉及一种声学模型处理方法、装置、设备和可读存储介质。

背景技术

随着互联网技术的发展，手机、电脑、可穿戴设备和电子门禁等电子设备都可以提供音频输入和识别功能，通过语音识别系统对用户输入的音频数据进行识别，可以得到对应的识别结果。声学模型作为语音识别系统的组成部分之一，对识别结果的准确性起到非常重要的作用。

在语音识别过程中，音频数据所属的音频场景不同时，音频数据具有的音频特征不同。例如，电子设备在室内和室外时所处地噪声环境不同，使用户输入电子设备的音频数据所处地音频场景不同，不同音频场景下的音频数据具有不同的音频特征。

在先技术中，为了提高声学模型对不同音频场景下的音频数据的识别能力，在声学模型的训练过程中，一般是先获取不同音频场景下的多个样本音频数据，通过不同音频场景下的样本音频数据对声学模型进行训练，提高声学模型对不同音频场景下的音频数据的识别能力。然而，通过不同音频场景下的多个样本音频数据对声学模型进行训练时，声学模型无法准确学习每个音频场景下的样本音频数据的音频特征，导致声学模型无法准确的识别不同音频场景下的音频数据，声学模型的泛化能力较弱。

发明内容

有鉴于此，本发明提供一种声学模型处理方法、装置、设备和可读存储介质，在一定程度上解决了声学模型无法准确的识别不同音频场景下的音频数据，泛化能力较弱的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种声学模型处理方法，该方法包括：

获取多个样本音频数据和所述样本音频数据的样本标签；所述多个样本音频数据中包括多个不同音频场景下的样本音频数据；

将所述样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型，得到对应的第一语音识别结果和第二语音识别结果；所述专用声学模型为预先训练得到的、用于识别对应音频场景下的所述样本音频数据的声学模型；

确定所述第二语音识别结果与所述第一语音识别结果之间的第一误差数据，以及确定所述样本音频数据的样本标签与所述第一语音识别结果之间的第二误差数据；

根据所述第一误差数据和所述第二误差数据对所述原始声学模型进行训练，得到用于识别所述音频场景下的音频数据的通用声学模型。

第二方面，本申请实施例提供了一种声学模型处理装置，该装置包括：

获取模块，用于获取多个样本音频数据和所述样本音频数据的样本标签；所述多个样本音频数据中包括多个不同音频场景下的样本音频数据；

输入模块，用于将所述样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型，得到对应的第一语音识别结果和第二语音识别结果；所述专用声学模型为预先训练得到的、用于识别对应音频场景下的所述样本音频数据的声学模型；

确定模块，用于确定所述第二语音识别结果与所述第一语音识别结果之间的第一误差数据，以及确定所述样本音频数据的样本标签与所述第一语音识别结果之间的第二误差数据；

训练模块，用于根据所述第一误差数据和所述第二误差数据对所述原始声学模型进行训练，得到用于识别所述音频场景下的音频数据的通用声学模型。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，获取多个样本音频数据和样本音频数据的样本标签，将样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型，得到对应的第一语音识别结果和第二语音识别结果，确定第一语音识别结果与第二语音识别结果之间的第一误差数据，以及确定样本音频数据的样本标签和第一语音识别结果之间的第二误差数据，根据第一误差数据和第二误差数据对原始声学模型进行训练，得到用于识别音频场景下的音频数据的通用声学模型。在声学模型的训练过程中，通过不同音频场景的样本音频数据对声学模型进行训练，并且在训练过程中将不同音频场景对应的专用声学模型的识别结果作为模型的学习目标，可以使训练得到的声学模型能够对不同音频场景下的音频数据进行准确的识别，使声学模型具有比较高的泛化能力。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本申请实施例提供的一种声学模型处理方法的步骤流程图；

图2是本申请实施例提供的另一种声学模型处理方法的步骤流程图；

图3是本申请实施例提供的一种知识蒸馏训练框架的结构示意图；

图4是本申请实施例提供的一种声学模型处理装置的框图；

图5是本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本申请实施例提供的一种声学模型处理方法的步骤流程图，如图 1所示，该方法可以包括：

步骤101、获取多个样本音频数据和样本音频数据的样本标签。

其中，多个样本音频数据中包括多个不同音频场景下的样本音频数据。

本实施例中，声学模型处理方法可以由计算机或服务器等电子设备执行，电子设备首先可以获取多个样本音频数据，以及每个样本音频数据的样本标签，以通过样本音频数据和对应的样本标签，对原始声学模型进行语音识别训练。样本音频数据例如一定时间长度的语音片段，样本标签可以是人工预先对样本音频数据进行标注得到的文本序列。

在一种实施例中，音频场景表示音频数据产生时的外部环境。例如，音频场景可以分为室内场景和室外场景，室内环境和室外环境中的噪声、回声和声音的传播路径等因素不同，导致说话者在室内环境说话时产生的音频数据与室外环境说话时产生的音频数据具有不同的音频特征，因此可以根据音频数据产生时的外部环境为室内环境或室外环境，将音频场景分为室内场景或室外场景。

在另一种实施例中，音频场景表示音频数据的来源。例如，音频场景可以按方言类型划分为不同的方言场景，不同方言场景对应不同方言地区的方言。不同方言地区的人在说话时的方式和习惯不同，导致不同方言地区的人说话产生的音频数据具有不同的音频特征，因此可以根据音频数据的来源，将音频场景分为不同的方言场景。

在另一种实施例中，音频场景表示音频数据的采集距离。例如，音频场景可以按麦克风与声源之间的距离划分为远端场景和近端场景，麦克风与说话者之间的距离越远，声音的传播路径越长，麦克风采集到的音频数据受传播路径的影响越大，位于不同采集距离的说话者产生的音频数据具有不同的音频特征，因此可以根据音频数据的采集距离，将音频场景分为远端场景和近端场景。以上仅为示例性举例，音频场景的具体划分方法可以根据实际需求设置，本实施例对此不做限制。

示例性地，多个样本音频数据中包括属于室内场景的A类样本音频数据和属于室外场景的B类样本音频数据，属于室内场景的A类样本音频数据为在室内环境采集到的音频数据，属于室外场景的B类样本音频数据为在室外环境采集到的音频数据。用户可以预先获取并在电子设备中存储A类样本音频数据和对应的样本标签，得到样本音频数据集A，样本音频数据集A中包括室内场景下的多个样本音频数据。同理，可以预先获取并在电子设备中存储B类样本音频数据和对应的样本标签，得到样本音频数据集B，样本音频数据集B中包括室外场景下多个样本音频数据。其中，每个样本音频数据集中的样本音频数据的数量可以根据需求设置，获取样本音频数据的具体方法可以根据需求设置，本实施例对此不做限制。

步骤102、将样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型，得到对应的第一语音识别结果和第二语音识别结果。

其中，专用声学模型为预先训练得到的、用于识别对应音频场景下的样本音频数据的声学模型。原始声学模型为未训练的声学模型，为具有时序处理能力的神经网络(Neural Network)模型，例如可以为语音转换器 (speech-transformer)和循环神经网络(Recurrent Neural Network，RNN)，原始声学模型的具体类型可以根据需求设置，本实施例对此不做限制。

本实施例中，基于知识蒸馏(Knowledge Distillation)的训练策略来对声学模型进行训练。知识蒸馏训练框架由教师模型(Teacher Model，TM) 和学生模型(StudentModel，SM)组成，在训练过程中，可以由教师模型对样本音频数据进行识别得到识别结果，并将得到的识别结果作为样本音频数据的软标签，软标签中包括样本音频数据中的音频特征。通过样本音频数据和软标签对学生模型进行训练，可以提高学生模型对音频特征的识别能力。在本实施例中，专用声学模型为教师模型，原始声学模型为学生模型，在声学模型训练之前，针对每个音频场景，可以预先训练得到对应的专用声学模型，以对对应音频场景下的样本音频数据进行识别，得到样本音频数据的软标签。

可选地，在步骤102之前，该方法还可以包括：

分别通过每个音频场景下的样本音频数据对原始专用模型进行语音识别训练，得到每个音频场景分别对应的专用声学模型。

其中，原始专用模型为未训练的声学模型，原始专用模型和原始声学模型可以为相同的神经网络模型。

结合上述举例，在获取到样本音频数据集A和样本音频数据集B之后，可以使用样本音频数据集A中的样本音频数据对原始专用模型进行语音识别训练，得到专用声学模型A。具体的，首先可以将样本音频数据集A中的样本音频数据输入原始专用模型，得到原始专用模型的识别结果，然后利用预先设置的损失函数计算识别结果与样本音频数据的样本标签之前的损失值，最后根据损失值调整原始专用模型的模型参数，完成对原始专用模型的一次训练。与此同时，可以设置与样本音频数据集A对应的验证样本集，验证样本集中包括多个样本音频数据。重复对原始专用模型进行多次训练，直至原始专用模型对验证样本集中的样本音频数据的识别率符合预设条件时结束训练，将原始专用模型作为训练好的专用声学模型A。由于专用声学模型A通过室内场景下的A类样本音频数据训练得到，因此专用声学模型A 具有针对性，可以准确的提取室内场景下的样本音频数据中的音频特征，对室内场景下的样本音频数据进行准确的识别。同理，可以使用样本音频数据集B中的样本音频数据对原始专用模型进行语音识别训练，得到专用声学模型B，以对室外场景下的B类样本音频数据进行准确的识别。

实际应用中，可以在模型处理之前训练得到专用声学模型或者在模型训练过程中训练得到专用声学模型，也可以通过其他方式训练得到专用声学模型，本实施例专用声学模型的具体训练过程不做限制。通过对应音频场景下的样本音频数据训练得到专用声学模型，可以提高专用声学模型对对应音频场景下的样本音频数据的识别能力，以更准确的提取样本音频数据中的音频特征。

在一种实施例中，在原始声学模型的训练过程中，可以从多个样本音频数据中分批次的选择样本音频数据，以对原始声学模型进行分批次训练。结合上述举例，每个批次可以随机的从样本音频数据集A中选择10个A类样本音频数据，以及从样本音频数据集B中选择10个B类样本音频数据，得到包括室内场景下的A类样本音频数据和室外场景下的B类样本音频数据。在选择得到样本音频数据之后，针对每个样本音频数据，可以将样本音频数据输入原始声学模型，通过原始声学模型对样本音频数据进行语音识别，得到原始声学模型输出的文本序列，即第一语音识别结果。与此同时，可以将样本音频数据输入所属音频场景对应的专用声学模型，例如若样本音频数据为A类样本音频数据，可以将样本音频数据输入专用声学模型A，通过专用声学模型A对样本音频数据进行语音识别，得到专用声学模型A输出的文本序列，即第二语音识别结果。同理，若样本音频数据为B类样本音频数据，可以将样本音频数据输入专用声学模型B，通过专用声学模型B对样本音频数据进行语音识别，得到专用声学模型B输出的第二语音识别结果。

实际应用中，也可以通过其他方式从样本音频数据集中选择样本音频数据，具体选择样本音频数据，并将样本音频数据输入原始声学模型和所属音频场景对应的专用声学模型的过程可以根据需求设置，本实施例对此不做限制。

步骤103、确定第二语音识别结果与第一语音识别结果之间的第一误差数据，以及确定样本音频数据的样本标签与第一语音识别结果之间的第二误差数据。

步骤104、根据第一误差数据和第二误差数据对原始声学模型进行训练，得到用于识别音频场景下的音频数据的通用声学模型。

本实施例中，在得到第一语音识别结果和第二语音识别结果之后，可以基于第一语音识别结果和第二语音识别结果对原始声学模型的模型参数进行调整。结合上述举例，可以将第二语音识别结果作为样本音频数据的软标签，将样本音频数据的样本标签作为硬标签，将软标签和硬标签同时作为原始声学模型的学习目标。具体的，首先可以利用预先设置的损失函数，根据第一语音识别结果和软标签计算第一损失值，即第一误差数据，以及根据第一语音识别结果和硬标签计算第二损失值，即第二误差数据。然后，根据第一损失值和第二损失值计算总的损失值，通过总的损失值调整原始声学模型的模型参数，完成对原始声学模型的一次训练。与此同时，可以设置与原始声学模型对应的验证样本集，验证样本集中包括A类样本音频数据和B类样本音频数据，循环执行步骤102至步骤104，直至原始声学模型对验证样本集中的样本音频数据的识别率符合预设结束条件时结束训练，将原始声学模型作为训练好的通用声学模型。其中，总的损失值的具体计算方法可以根据需求设置，本实施例对此不做限制。

实际应用中，由于通用声学模型通过不同音频场景下的样本音频数据训练得到，并且在训练过程中，通过每个音频场景对应的专用声学模型识别得到软标签，将软标签作为原始声学模型的学习目标，因此通用声学模型可以识别不同音频场景下的音频数据，具有比较高的泛化能力。

综上所述，本实施例中，获取多个样本音频数据和样本音频数据的样本标签，将样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型，得到对应的第一语音识别结果和第二语音识别结果，确定第一语音识别结果与第二语音识别结果之间的第一误差数据，以及确定样本音频数据的样本标签和第一语音识别结果之间的第二误差数据，根据第一误差数据和第二误差数据对原始声学模型进行训练，得到用于识别音频场景下的音频数据的通用声学模型。在声学模型的训练过程中，通过不同音频场景的样本音频数据对声学模型进行训练，并且在训练过程中将不同音频场景对应的专用声学模型的识别结果作为模型的学习目标，可以使训练得到的声学模型能够对不同音频场景下的音频数据进行准确的识别，使声学模型具有比较高的泛化能力。

图2是本申请实施例提供的另一种声学模型处理方法的步骤流程图，如图2所示，该方法可以包括

步骤201、获取多个样本音频数据和样本音频数据的样本标签。

步骤202、通过多个样本音频数据对原始专用模型进行语音识别训练，得到对应多个不同音频场景的中间声学模型。

其中，中间声学模型用于识别多个不同音频场景下的样本音频数据。原始专用模型和原始声学模型可以为相同的神经网络模型。

本实施例中，在专用声学模型的训练过程中，首先可以训练得到中间声学模型，然后对中间声学模型进行调节，得到每个场景分别对应的专用声学模型。

示例性地，如图3所示，图3是本申请实施例提供的一种知识蒸馏训练框架的结构示意图，在获取到室内场景下的样本音频数据集A和室外场景下的样本音频数据集B之后，可以分批次的从样本音频数据集A和样本音频数据集B中选择样本音频数据，每个批次中同时包括样本音频数据集A和样本音频数据集B中的样本音频数据，将选择的样本音频数据输入原始专用模型中，得到原始专用模型输出的语音识别结果，然后利用损失函数计算语音识别结果和样本标签之间的损失值，根据损失值调整原始专用模型的模型参数。循环执行选取样本音频数据，对原始专用模型进行训练的过程，直至原始专用模型符合设定的结束条件时结束训练，将原始专用模型作为中间声学模型。由于中间声学模型采用不同场景下的样本音频数据训练得到，因此中间声学模型可以识别不同音频场景下的样本音频数据。中间声学模型的具体训练过程可以根据需求设置，本实施例对此不做限制。

步骤203、分别通过每个音频场景下的样本音频数据对中间声学模型进行调节训练，得到每个音频场景对应的专用声学模型。

本实施例中，在得到中间声学模型之后，可以对中间声学模型进行调节训练，得到不同音频场景分别对应的声学模型。如图3所示，在得到中间声学模型之后，首先可以从样本音频数据集A中选择样本音频数据，将选择的样本音频数据输入中间声学模型，得到中间声学模型的识别结果，然后根据识别结果和样本标签计算损失值，根据损失值调节中间声学模型的模型参数，直至中间声学模型达到预设的结束条件时结束训练，将中间声学模型作为室内场景对应的专用声学模型A。同理，可以通过样本音频数据集B中的样本音频数据对中间声学模型进行调节训练，得到对应室外场景的专用声学模型 B。对中间声学模型进行调节训练，得到专用声学模型方法可以包括但不限于通过对应音频场景下的样本音频数据进行调节训练的方法，本实施例对中间声学模型的具体训练方法不做具体限制。

实际应用中，先训练得到对应多个音频场景的中间声学模型，中间声学模型可以识别不同音频场景下的样本音频数据，然后对中间声学模型进行调节训练，得到对应音频场景的专用声学模型。专用声学模型不仅可以具有识别其他音频场景的音频数据的能力，而且可以准确识别对应音频场景下的音频数据。并且，先训练得到针对每个音频场景的中间声学模型，然后调节得到每个音频场景分别对应的专用声学模型，可以缩短专用声学模型的训练时间，提高训练效率。

可选地，该方法还可以包括：

控制中间声学模型的学习率的数值范围，以保持专用声学模型对不同音频场景下的样本音频数据的识别能力。

在一种实施例中，在中间声学模型的调节训练过程中，可以控制中间声学模型的学习率，以在每次调节中间声学模型的模型参数时，小幅度的调节模型参数，避免大幅度的对模型参数进行调节，保持专用声学模型对不同音频场景下的样本音频数据的识别能力。示例地，在调节训练过程中，每次计算得到中间声学模型的损失值之后，可以给损失值乘以一个小的权重系数，例如乘以0.01，得到较小的目标损失值，通过较小的目标损失值小幅度的调节中间声学模型的模型参数，降低中间声学模型的学习率。或者，在计算得到损失值，反向传导损失值对模型参数进行调节时，可以设置较小的传导系数，以减小每次调节的幅度，降低中间声学模型的学习率。控制学习率的数值范围的具体方法可以根据需求设置，本实施例对此不做限制。

实际应用中，控制中间声学模型的学习率的数值范围，保持专用声学模型对不同音频场景下的样本音频数据的识别能力，可以使专用声学模型既能准确识别对应音频场景的音频数据，又具有识别其他音频场景下的音频数据的能力，可以提高专用声学模型的泛化能力，进一步的可以提高通用声学模型的泛化能力。

可选地，在控制中间声学模型的学习率的数值范围时，该方法还可以包括：

若音频场景为预先设置的目标音频场景，则控制中间声学模型的学习率不低于预设学习率，以提高目标音频场景对应的专用声学模型对目标音频场景下的样本音频数据的识别能力。

本实施例中，在训练针对目标音频场景的专用声学模型时，可以使中间声学模型具有较高的学习率，以提高专用声学模型对目标音频场景下的样本音频数据的识别能力，进一步的可以提高通用声学模型对目标音频场景下音频数据的识别能力。如图3所示，目标音频场景可以为室内场景，在训练专用声学模型A时，可以使中间声学模型的学习率不低于预设学习率，以使训练得到的专用声学模型A可以准确的识别A类样本音频数据，也即降低专专用声学模型A的泛化能力，提高声学模型A对室内场景下的样本音频数据的识别能力。进一步的，在训练通用声学模型时，专用声学模型A识别得到的软标签可以包括更准确的关于室内场景的音频特征，从而可以使训练得到的通用声学模型可以更准确的识别室内场景的音频数据，对室内场景的音频数据具有更好的针对性。预设学习率的具体数值可以根据需求设置，本实施对此不做限制。

实际应用中，控制中间声学模型的学习率不低于预设学习率，提高目标音频场景对应的专用声学模型对目标音频场景下的样本音频数据的识别能力，可以提高通用声学模型对目标音频场景下的音频数据的识别能力，使通用声学模型可以针对性的识别一些音频场景下的音频数据。

步骤204、将样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型，得到对应的第一语音识别结果和第二语音识别结果。

本实施例中，在原始声学模型的训练过程中，可以将室内场景下的A类样本音频数据输入对应的专用声学模型A，得到专用声学模型A输出的第二语音识别结果，将第二语音识别结果作为软标签，以及将A类样本音频数据的样本标签作为硬标签，对原始声学模型进行训练。同理，可以将室内场景下的B类样本音频数据输入对应的专用声学模型B，得到专用声学模型B输出的第二语音识别结果，将第二语音识别结果作为软标签，以及将B类样本音频数据的样本标签作为硬标签，对原始声学模型进行训练。

步骤205、确定第一语音识别结果与第二语音识别结果之间的第一误差数据，以及确定样本音频数据的样本标签和第一语音识别结果之间的第二误差数据。

步骤206、根据第一误差数据和第二误差数据对原始声学模型进行训练，得到用于识别音频场景下的音频数据的通用声学模型。

可选的，该方法还可以包括：

控制第二误差数据的作用大于第一误差数据的作用。

本实施例中，在对原始声学模型进行训练的过程中，可以控制第二误差数据的调节作用大于第一误差数据的调节作用，使原始声学模型更偏向于学习样本标签对应的音频特征。示例地，可以通过线性差值的方法计算总的损失值，总的损失值可以通过如下方式表示：

其中，

实际应用中，也可以通过其他方式计算总的损失值。在模型训练过程中，控制第二误差数据的作用大于第一误差数据的作用，可以使原始声学模型更加侧重学习硬标签对应的音频特征，即每个音频场景下的样本音频数据的音频特征，可以提高通用声学模型对不同音频场景下的音频数据的识别能力，提高通用声学模型的泛化能力。

可选地，在步骤204之前，该方法还可以包括：

通过样本音频数据对原始声学模型进行预训练，以提高原始声学模型对样本音频数据的识别能力。

在一种实施例中，在对原始声学模型进行正式训练之前，可以对原始声学模型进行预训练，提高原始声学模型的识别能力，缩短模型训练时间。结合上述举例，在训练专用声学模型的同时，可以将样本音频数据输入原始声学模型，得到原始声学模型输出的识别结果，并根据识别结果和样本音频数据的样本标签计算损失值，根据损失值对原始声学模型的模型参数进行调整，完成对原始声学模型的预先训练。在完成专用声学模型的训练之后，可以正式开始对原始声学模型进行训练。

实际应用中，在正式训练之前，可以预先对原始声学模型进行训练，提高原始声学模型的识别能力，可以在正式训练过程中，可以缩短声学模型的训练时间，提高训练效率。

图4是本申请实施例提供的一种声学模型处理装置的框图，如图4所示，该装置400可以包括：获取模块401、输入模块402、确定模块403和训练模块404。

获取模块401用于获取多个样本音频数据和样本音频数据的样本标签；多个样本音频数据中包括多个不同音频场景下的样本音频数据。

输入模块402用于将样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型，得到对应的第一语音识别结果和第二语音识别结果；专用声学模型为预先训练得到的、用于识别对应音频场景下的样本音频数据的声学模型。

确定模块403用于确定第二语音识别结果与第一语音识别结果之间的第一误差数据，以及确定样本音频数据的样本标签与第一语音识别结果之间的第二误差数据。

训练模块404用于根据第一误差数据和第二误差数据对原始声学模型进行训练，得到用于识别音频场景下的音频数据的通用声学模型。

可选地，训练模块404还用于通过多个样本音频数据对原始专用模型进行语音识别训练，得到对应多个不同音频场景的中间声学模型；中间声学模型用于识别多个不同音频场景下的样本音频数据；分别通过每个音频场景下的样本音频数据对中间声学模型进行调节训练，得到每个音频场景分别对应的专用声学模型。

可选地，训练模块404还用于控制中间声学模型的学习率的数值范围，以保持专用声学模型对不同音频场景下的样本音频数据的识别能力。

可选地，训练模块404还用于若音频场景为预先设置的目标音频场景，则控制中间声学模型的学习率不低于预设学习率，以提高目标音频场景对应的专用声学模型对目标音频场景下的样本音频数据的识别能力。

可选地，训练模块404还用于分别通过每个音频场景下的样本音频数据对原始专用模型进行语音识别训练，得到每个音频场景分别对应的专用声学模型。

可选地，训练模块404还用于通过样本音频数据对原始声学模型进行预训练，以提高原始声学模型对样本音频数据的识别能力。

可选地，训练模块404还用于控制第二误差数据的作用大于第一误差数据的作用。

本申请实施例提供的声学模型处理装置具备执行声学模型处理方法相应的功能模块，可执行本申请实施例所提供的声学模型处理方法，且能达到相同的有益效果。

在本发明提供的又一实施例中，还提供了一种电子设备，电子设备可以包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述声学模型处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

示例的，如图5所示，图5是本申请实施例提供的一种电子设备的硬件结构示意图，该电子设备具体可以包括：处理器501、存储装置502、具有触摸功能的显示屏503、输入装置504、输出装置505以及通信装置506。该电子设备中处理器501的数量可以是一个或者多个，图5中以一个处理器501 为例。该电子设备的处理器501、存储装置502、显示屏503、输入装置504、输出装置505以及通信装置506可以通过总线或者其他方式连接。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的声学模型处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的声学模型处理方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载