语音识别方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

随着语音识别的普及，语音识别技术被应用在各个领域，用户可以借助语音识别技术，实现智能输入，只需要通过语音，就可以完成文字输入、指令控制等，极大地便利了人们的生产生活。

但单一模态下的系统仍然存在一些固有的问题，比如自动语音识别(AutomaticSpeech Recognition，ASR)对噪声的容忍性不足，噪声污染严重时性能大幅度下降，声音缺失时也无法补足这一缺失的信息。视频语音识别，或称唇语识别(Visual SpeechRecognition，VSR)存在同音异意词的现象，相同的唇形可能代表了不同的单词发音，同一个单词发音也可能有不同的唇形序列，针对单一模态下存在的不足，音视频语音识别(Audio-Visual Speech Recognition，AVSR)被提出。

现有技术中，对于音视频语音识别来说，需要大量的人工标注数据，而标注数据相当耗时且昂贵。同时，在现有技术中采用无监督音视频表征学习的模型大多使用动作识别类、事件检测类视频数据进行预训练，应用于视频动作识别，声音事件检测等下游任务，关注的是视频中发生的事件，在语音识别类下游任务应用较少。此外，现有技术中采用无监督音视频表征学习的模型大多学习，比如像声音事件分类场景中的短时实例级表征等全局特征，这样的学习目标可能不适合语音识别，因为语音识别需要连续变化并包含长期上下文依赖性的序列表征。

发明内容

本发明提供一种语音识别方法、装置、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明提供一种语音识别方法，包括：

获取待处理的音频数据；

将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征；

将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元，得到所述拼接单元输出的拼接结果；

将所述拼接结果输入至所述语音识别模型的语音识别单元，得到所述语音识别单元输出的语音识别结果；

其中，所述音频实体特征提取单元基于无文字标注的音视频训练样本训练得到，所述语音识别模型是在所述音频实体特征提取单元的基础上，基于携带有文字标注的音频训练样本训练得到。

根据本发明提供的语音识别方法，所述音视频训练样本包括成对的音频数据样本和视频数据样本；

所述音频实体特征提取单元基于如下步骤训练得到：

基于初始音频特征提取单元，对所述音频数据样本进行特征提取，得到音频样本特征；

基于初始视频特征提取单元，对所述视频数据样本进行特征提取，得到视频样本特征；

基于所述音频样本特征以及所述视频样本特征，计算第一损失函数，并基于所述第一损失函数，对所述初始音频特征提取单元以及所述初始视频特征提取单元同步进行结构参数迭代；

将结构参数迭代得到的目标音频特征提取单元作为所述音频实体特征提取单元。

根据本发明提供的语音识别方法，所述音视频训练样本中的正例样本对基于如下步骤确定：

采集音视频数据中预设时段的视频片段，所述预设时段的时长为预设时长；

采集所述音视频数据中包含所述预设时段在内的预设数量个所述预设时长的音频片段；

将所述视频片段与每个所述音频片段均确定为一个所述正例样本对。

根据本发明提供的语音识别方法，所述采集所述音视频数据中包含所述预设时段在内的预设数量个所述预设时长的音频片段，包括：

确定所述视频片段的中间时刻；

以所述中间时刻为中心，以指定时长为间隔，选取所述预设数量个所述音频片段；

其中，所述指定时长小于或等于所述预设时长。

根据本发明提供的语音识别方法，所述第一损失函数包括多示例学习噪声对比估计损失函数。

根据本发明提供的语音识别方法，所述基于初始视频特征提取单元，对所述视频数据样本进行特征提取，得到视频样本特征，包括：

提取所述视频数据样本中的Fbank特征；

将所述Fbank特征输入至所述初始视频特征提取单元，得到所述初始视频特征提取单元输出的所述视频样本特征。

根据本发明提供的语音识别方法，所述语音识别模型基于如下步骤训练得到：

将所述音频训练样本分别输入至初始声学特征提取单元以及所述音频实体特征提取单元，得到所述初始声学特征提取单元输出的样本声学特征以及所述音频实体特征提取单元输出的样本实体特征；

将所述样本声学特征以及所述样本实体特征输入至初始拼接单元，得到所述初始拼接单元输出的样本拼接结果；

将所述样本拼接结果输入至初始语音识别单元，得到所述初始语音识别单元输出的样本识别结果；

基于所述样本识别结果与所述文字标注，计算第二损失函数，并基于所述第二损失函数，对所述初始声学特征提取单元、所述初始拼接单元以及所述初始语音识别单元同步进行结构参数迭代，得到所述语音识别模型。

本发明还提供一种语音识别装置，包括：

数据获取模块，用于获取待处理的音频数据；

特征提取模块，用于将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征；

特征拼接模块，用于将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元，得到所述拼接单元输出的拼接结果；

语音识别模块，用于将所述拼接结果输入至所述语音识别模型的语音识别单元，得到所述语音识别单元输出的语音识别结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的语音识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的语音识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的语音识别方法。

本发明提供的语音识别方法、装置、电子设备及存储介质，首先获取待处理的音频数据；然后将音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到声学特征提取单元输出的目标声学特征以及音频实体特征提取单元输出的目标实体特征；此后将目标声学特征以及目标实体特征输入至语音识别模型的拼接单元，得到拼接单元输出的拼接结果；最后将拼接结果输入至语音识别模型的语音识别单元，得到语音识别单元输出的语音识别结果。该方法通过对音频数据中目标实体特征的提取，可以大大提高语音识别结果的准确性，提升语音识别的效率并降低语音识别的成本。语音识别模型中的音频实体特征提取单元基于无文字标注的音视频训练样本训练得到，不仅不需要人工标注，降低标注成本，还可以充分挖掘音频数据和视频数据的内在联系，使该预训练过程更加关注于音频中的实体，可以应用于语音识别类下游任务中，使语音识别模型具有提升热词识别效果的能力。而且，该语音识别模型能够完成不同类型的语音识别任务，可以提高语音识别模型的泛化性，扩展了语音识别模型的应用场景。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音识别方法的流程示意图之一；

图2是本发明提供的语音识别方法中正例样本对示意图；

图3是本发明提供的语音识别方法的流程示意图之二；

图4是本发明提供的语音识别方法中音频实体特征提取单元训练过程示意图；

图5是本发明提供的语音识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的音视频预训练方案通常包括基于音视频同步思想设计的高级视频编码(Advanced Video Coding，AVC)、音频可视技术服务(AVTS)、跨模态深度聚类(Cross-ModalDeep Clustering，XDC)等方案。这些方案主要是基于视觉事件和声音事件通常会同时发生这一观察，构建出预训练任务：将无监督视频切成1～3s的短视频片段(clip)，则每个clip的视频特征和它对应音频特征应该是相关的，而与其它clip的音频特征应该是不相关的。由此可以构建网络结构分别提取音频特征和视频特征，并通过判断输入的音频和视频是否相关来进行模型学习。但这类预训练方案更多使用动作识别类、事件检测类视频数据进行预训练，应用于视频动作识别，声音事件检测等下游任务，关注的是视频中发生的事件，在语音识别类下游任务应用较少，且不具备提升热词识别效果的能力。

此外，现有技术中采用无监督音视频表征学习的模型大多学习，比如像声音事件分类场景中的短时实例级表征等全局特征，这样的学习目标可能不适合语音识别，因为语音识别需要连续变化并包含长期上下文依赖性的序列表征。

基于此，本发明实施例中提供了一种语音识别方法。

图1为本发明实施例中提供的一种语音识别方法的流程示意图，如图1所示，该方法包括：

S1，获取待处理的音频数据；

S2，将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征；

S3，将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元，得到所述拼接单元输出的拼接结果；

S4，将所述拼接结果输入至所述语音识别模型的语音识别单元，得到所述语音识别单元输出的语音识别结果；

具体地，本发明实施例中提供的语音识别方法，其执行主体为语音识别装置，该装置可以配置于计算机内，该计算机可以为本地计算机或云计算机，本地计算机可以是电脑、平板等，此处不作具体限定。

首先执行步骤S1，获取待处理的音频数据，该音频数据是指需要将其转换为文本的语音。该音频数据涉及的领域可以根据实际情况进行设定，此处不作具体限定。

然后执行步骤S2，引入语音识别模型，该语音识别模型可以包括声学特征提取单元、音频实体特征提取单元、拼接(concat)单元以及语音识别单元。此处，可以将音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到声学特征提取单元输出的目标声学特征以及音频实体特征提取单元输出的目标实体特征。该声学特征提取单元可以是编码器(Encoder)结构，音频实体特征提取单元可以是LSTM模型。目标声学特征可以用于表征音频数据中的声学信息，目标实体特征可以用于表征音频数据中的实体信息。

此后执行步骤S3，将目标声学特征以及目标实体特征输入至语音识别模型的拼接单元，得到拼接单元输出的拼接结果。该拼接单元可以将目标声学特征与目标实体特征在通道维度进行拼接。可以理解的是，若目标声学特征与目标实体特征的帧长维度不同，则需要通过复制的方式将二者的帧长维度调整为相同。

最后执行步骤S4，将拼接结果输入至语音识别模型的语音识别单元，得到语音识别单元输出的语音识别结果。该语音识别结果即为待处理的音频数据转换得到的文本。

其中，语音识别模型中的音频实体特征提取单元可以基于无文字标注的音视频训练样本进行无监督训练得到，该音视频训练样本可以是音视频数据，该音视频数据是指同步的音频数据以及视频数据。此处，可以利用音视频训练样本对初始音频特征提取单元以及初始视频特征提取单元同步进行自监督训练，可以分别得到目标音频特征提取单元以及目标视频特征提取单元。此后，可以将训练得到的目标音频特征提取单元作为音频实体特征提取单元。

由于音视频训练样本中的音频和视频具有同步性和跟随性，因此经过音视频训练样本的训练之后，可以使目标音频特征提取单元具有提取音频中实体特征的能力，使目标视频特征提取单元具有提取视频中实体特征的能力。基于此，将目标音频体特征提取单元作为音频实体特征提取单元，可以在语音识别过程中引入实体特征的提取，进而提高语音识别中实体识别的准确度，提高语音识别结果的准确性。

语音识别模型则是在音频实体特征提取单元的基础上，基于携带有文字标注的音频训练样本训练得到，即将音频实体特征提取单元的结构参数固定，训练得到语音识别模型中的其他单元。文字标注可以按照BPE分词的字词建模处理成字词形式，此处不作具体限定。

此处，可以理解为语音识别模型是利用携带有文字标注的音频训练样本，对初始语音识别模型进行训练得到，该初始语音识别模型包括需要训练的部分和不需要训练的部分，需要训练的部分包括初始声学特征提取单元、初始拼接单元以及初始语音识别单元，不需要训练的部分是指音频实体特征提取单元，因为该单元此前已完成自监督训练。

本发明实施例中提供的语音识别方法，首先获取待处理的音频数据；然后将音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到声学特征提取单元输出的目标声学特征以及音频实体特征提取单元输出的目标实体特征；此后将目标声学特征以及目标实体特征输入至语音识别模型的拼接单元，得到拼接单元输出的拼接结果；最后将拼接结果输入至语音识别模型的语音识别单元，得到语音识别单元输出的语音识别结果。该方法通过对音频数据中目标实体特征的提取，可以大大提高语音识别结果的准确性，提升语音识别的效率并降低语音识别的成本。语音识别模型中的音频实体特征提取单元基于无文字标注的音视频训练样本训练得到，不仅不需要人工标注，降低标注成本，还可以充分挖掘音频数据和视频数据的内在联系，使该预训练过程更加关注于音频中的实体，可以应用于语音识别类下游任务中，使语音识别模型具有提升热词识别效果的能力。而且，该语音识别模型能够完成不同类型的语音识别任务，可以提高语音识别模型的泛化性，扩展了语音识别模型的应用场景。

在上述实施例的基础上，本发明实施例中提供的语音识别方法，所述音视频训练样本包括成对的音频数据样本和视频数据样本；

所述音频实体特征提取单元基于如下步骤训练得到：

基于初始音频特征提取单元，对所述音频数据样本进行特征提取，得到音频样本特征；

基于初始视频特征提取单元，对所述视频数据样本进行特征提取，得到视频样本特征；

将结构参数迭代得到的目标音频特征提取单元作为所述音频实体特征提取单元。

具体地，本发明实施例中，音视频训练样本可以包括成对的音频数据样本和视频数据样本，该音视频训练样本中包括的音频数据样本和视频数据样本的对数可以根据需要进行设定，此处不作具体限定。成对的音频数据样本和视频数据样本既可以包括成对的正例样本对，也可以包括成对的负例样本对。正例样本对由在时间上相对应的音频数据样本和视频数据样本构成，负例样本对由时间上不对应的音频数据样本和视频数据样本构成。此处，在时间上相对应既可以是处于同一时段，也可以处于包含和被包含的时段内。例如，正例样本对包含的音频数据样本和视频数据样本的时段相同，且时长可以相同，均为3.2s，正例样本对包含的音频数据样本的时段还可以是包含有视频数据样本的时段在内的较长时段内多个3.2s时段的组合，较长时段可以为9.6s、16s等。

视频数据样本的帧率可以根据计算复杂度和模型效果进行设定，例如可以是10pfs，也可以是其他取值，此处不作具体限定。视频数据样本的通道数可以是RGB三通道，其每帧图像尺寸可以为112×112或其他尺寸。音频数据样本的通道数可以为单通道，采样率可以为16000Hz，也可以是其他取值。

在此基础上，在训练得到音频实体特征提取单元时，可以先将音频数据样本输入至初始音频特征提取单元，利用该初始音频特征提取单元对音频数据样本进行特征提取，得到音频样本特征。该初始音频特征提取单元的网络结构可以是LSTM模型。

将视频数据样本输入至初始视频特征提取单元，利用该初始视频特征提取单元对视频数据样本进行特征提取，得到视频样本特征。该初始视频特征提取单元的网络结构可以是3Dres18网络。该初始视频特征提取单元的网络尺寸可以为32×3×112×112。

此后，可以利用音频样本特征以及视频样本特征，计算第一损失函数，即可以将成对的音频样本特征与视频样本特征作为正例，将不成对的音频样本特征与视频样本特征作为负例，计算第一损失函数。进而，可以利用该第一损失函数，对初始音频特征提取单元以及初始视频特征提取单元同步进行结构参数迭代，直至达到预设条件，分别得到初始音频特征提取单元对应的目标音频特征提取单元以及初始视频特征提取单元对应的目标视频特征提取单元。其中，该预设条件可以包括达到预设迭代次数或第一损失函数收敛。

此后，可以直接将结构参数迭代得到的目标音频特征提取单元作为音频实体特征提取单元，用以进行后续音频数据中实体特征的提取。

本发明实施例中，利用音视频训练样本对初始音频特征提取单元以及初始视频特征提取单元进行联合训练，可以充分挖掘音频与视频中相关联的实体信息，进而可以提高语音识别中的实体识别准确度。

由于体育解说、游戏解说、直播带货等解说场景下的视频(即解说类视频)的解说带有一定随机性，解说员的解说内容与实际视频内容可能存在一定时间上的错位问题，即当前解说员的解说内容可能是与前几秒或后几秒的视频画面，而非与当前时刻的视频画面相对应。这是解说员的解说内容具有一定的发散性和滞后性，并不能做到完全与当前时刻的视频保持严格一致导致的。但于此同时，解说员的解说内容也并非空穴来风，所以一般在前后的一小段时间内可以找到与解说内容对应的视频画面。为此，可以在对应视频画面周围构建多个正例样本对，并认为正例样本对中有与视频画面完全对应的解说内容。

基于此，在上述实施例的基础上，本发明实施例中提供的语音识别方法，所述音视频训练样本中的正例样本对基于如下步骤确定：

采集音视频数据中预设时段的视频片段，所述预设时段的时长为预设时长；

采集所述音视频数据中包含所述预设时段在内的预设数量个所述预设时长的音频片段；

将所述视频片段与所述预设数量个所述音频片段确定为一个所述正例样本对。

具体地，本发明实施例中，在选取音视频训练样本中的正例样本对时，可以先获取音视频数据，该音视频数据可以是解说类音视频数据。该音视频数据可以先通过语音vad工具进行音频处理，将音视频数据中1s以上的静音视频片段去除。

此后，可以将音视频数据中的视频数据等分为多个预设时长的视频片段，每个视频片段对应的时段均可以作为预设时段。进而，可以采集音视频数据中包含有预设时段在内的预设数量个预设时长的音频片段。该预设数量可以根据需要进行设置，既可以为奇数，也可以为整数。例如可以是2、3、4、5等，此处不作具体限定。

最后，可以直接将预设时段的视频片段与预设数量个预设时长的音频片段作为一个正例样本对，即将预设时段的视频片段作为初始视频特征提取单元的输入，将预设数量个预设时长的音频片段作为初始音频特征提取单元的输入。如此可以保证音视频训练样本中包含有视频片段的预设时段前后的一段时间内的音频片段，可以解决音视频的错位问题，进而保证音频实体特征提取单元对实体特征识别的准确性，提高其性能。

在上述实施例的基础上，本发明实施例中提供的语音识别方法，所述采集所述音视频数据中包含所述预设时段在内的预设数量个所述预设时长的音频片段，包括：

确定所述视频片段的中间时刻；

以所述中间时刻为中心，以指定时长为间隔，选取所述预设数量个所述音频片段；

其中，所述指定时长小于或等于所述预设时长。

具体地，本发明实施例中，在采集音视频数据中包含预设时段在内的预设数量个预设时长的音频片段时，如图2所示，可以先确定视频片段v的中间时刻t0，然后以中间时刻t0为中心，以指定时长为间隔，选取预设数量个音频片段。其中，指定时长小于或等于预设时长，即采集的相邻时段内的音频片段存在重叠片段的情况，如此可以保证音频实体特征提取单元的训练效果。

若预设时长可以为3.2s，则指定时长可以小于或等于3.2s，例如可以是1.6s。图2中示出的是预设数量为5的情况。此时，共有5个音频片段，分别为a1、a2、a3、a4以及a5。进而，视频片段v与音频片段a1、a2、a3、a4以及a5作为一对音频数据样本和视频数据样本。

本发明实施例中，以视频片段的中间时刻为中心，以指定时长为间隔，选取预设数量个音频片段，可以使音频片段均匀分布于视频片段前后，使各音频片段与视频片段内容对应的概率更高。而且，指定时长小于或等于预设时长，使各音频片段之间存在重叠片段，可以使训练得到的音频实体特征提取单元的性能更优。

在上述实施例的基础上，本发明实施例中提供的语音识别方法，所述第一损失函数包括多示例学习噪声对比估计损失函数。

具体地，本发明实施例中，在训练得到音频实体特征提取单元的过程中，希望音频实体特征提取单元学习到的视频特征与正例样本对中的音频特征距离较近，而与负例样本对中的音频特征的距离均较远。但实际上，并不能确定正例样本对中的哪一个是真实正例。因此，采用的第一损失函数设定为多示例学习噪声对比估计损失函数(Multiple-instancelearning Noise-Constrastive Estimation Loss，MIL-NCE loss)，即将上述问题转为如下优化问题：

其中，n为训练批次数(pitch)，

它的思想是通过拉近所有正例样本对的距离来规避真实正例对未知的问题。而随着训练的进行，最终将逐渐由真实正例对的那一项占据主导作用，从而实现拉近真实正例对距离，拉远负例样本对距离的目的。

在解说场景，认为视频画面与讲解内容的对应关系主要由实体内容决定。举例来说，足球解说中视频中的运动员MX这一画面与讲解员语音中提到的“MX”一词是视频和音频构成强相关，训练过程倾向于让目标音频特征提取单元以及目标视频特征提取单元都学习到“MX”这一关键实体信息。因此，通过上述训练步骤，得到的目标音频特征提取单元以及目标视频特征提取单元能很好地学习到提取语音、视频中实体特征的能力，而这使得可以利用通过这种方式训练得到的目标音频特征提取单元辅助于语音识别，提升其中专有名词等实体特征的识别效果。

在上述实施例的基础上，本发明实施例中提供的语音识别方法，所述基于初始音频特征提取单元，对所述音频数据样本进行特征提取，得到音频样本特征，包括：

提取所述音频数据样本中的Fbank特征；

将所述Fbank特征输入至所述初始音频特征提取单元，得到所述初始音频特征提取单元输出的所述音频样本特征。

具体地，本发明实施例中，初始音频特征提取单元的输入既可以是音频数据样本，也可以是音频数据样本中的Fbank特征。因此，可以先提取出音频数据样本中的Fbank特征，例如可以是80维度的Fbank特征。在提取Fbank特征时，可以设置窗长为25ms，帧移为10ms。

此后，可以将提取出的Fbank特征输入至初始音频特征提取单元，得到初始音频特征提取单元输出的音频样本特征。

本发明实施例中，使用Fbank特征的原因有两点：1)Fbank特征是将音频从时域转化到频域上，可提取到稳定的音频特征；2)Fbank特征的频谱是二维特征，可以使用卷积和Transformer等深度神经网络进行处理。

在上述实施例的基础上，本发明实施例中提供的语音识别方法，所述语音识别模型基于如下步骤确定：

将所述样本声学特征以及所述样本实体特征输入至初始拼接单元，得到所述初始拼接单元输出的样本拼接结果；

将所述样本拼接结果输入至初始语音识别单元，得到所述初始语音识别单元输出的样本识别结果；

基于所述样本识别结果与所述文字标注，计算第二损失函数，并基于所述第二损失函数，对所述初始声学特征提取单元、所述初始拼接单元以及所述初始语音识别单元同步进行结构参数迭代，得到目标声学特征提取单元、目标拼接单元以及目标语音识别单元；

基于所述目标声学特征提取单元、所述目标拼接单元、所述目标语音识别单元以及所述音频实体特征提取单元，确定所述语音识别模型。

具体地，在对初始识别模型进行训练得到语音识别模型时，可以先将音频训练样本分别输入至初始声学特征提取单元以及音频实体特征提取单元，得到初始声学特征提取单元输出的样本声学特征以及音频实体特征提取单元输出的样本实体特征。

然后，将样本实体特征在帧长维度进行复制，并将复制所得结果与样本声学特征输入至初始拼接单元，利用初始拼接单元在通道维度对复制所得结果与样本声学特征进行拼接，得到样本拼接结果；此后将样本拼接结果输入至初始语音识别单元，得到初始语音识别单元输出的样本识别结果；最后可以利用样本识别结果与文字标注，计算第二损失函数。初始声学特征提取单元可以为编码器，初始语音识别单元可以为解码器，二者构成encoder-decoder结构。此时，该第二损失函数可以是交叉熵损失函数，例如可以是CEloss。初始语音识别单元还可以为全连接网络，此时该第二损失函数可以为CTC loss。

根据该第二损失函数，可以对初始声学特征提取单元、初始拼接单元以及初始语音识别单元同步进行结构参数迭代，最终得到目标声学特征提取单元、目标拼接单元以及目标语音识别单元。

最后，将目标声学特征提取单元、目标拼接单元以及目标语音识别单元与音频实体特征提取单元进行结合，共同构成语音识别模型。

综上所述，如图3所示，为本发明实施例中提供的一种语音识别方法的流程示意图，该方法采用的语音识别模型中，声学特征提取单元为编码器，音频实体特征提取单元为LSTM模型，语音识别单元为解码器。该方法包括：

1)获取待处理的音频数据Audio；

2)将音频数据Audio分别输入至编码器以及LSTM模型，得到编码器输出的目标声学特征以及LSTM模型输出的目标实体特征；

3)将目标声学特征以及目标实体特征输入至拼接单元，得到拼接单元输出的拼接结果；

4)将拼接结果输入至解码器，由解码器进行自回归解码，得到并输出语音识别结果。

如图4所示，在音频实体特征提取单元训练过程中，初始视频特征提取单元采用的网络结构是3Dres18网络，初始音频特征提取单元采用的网络结构是LSTM模型。初始视频特征提取单元的输入为3.2s的视频片段Video，处理成了32*3*112*112的形式，经过初始视频特征提取单元提取出视频样本特征g(y)；初始音频特征提取单元的单次输入为5段3.2s的音频片段Audio*5提取的Fbank特征，经过初始音频特征提取单元提取出5个音频样本特征f(x)。这里为了解决音视频错位问题，初始音频特征提取单元输入了初始视频特征提取单元对应的时段前后5段3.2s的音频片段，提取了5个音频特征作为后续的正例样本。

该训练过程中，采用MIL-NCE loss作为第一损失函数进行监督。

本发明实施例中提供的一种基于音视频预训练来提升解说场景下的语音识别效果，尤其是其中的热词识别效果的方案。首先收集大量无监督解说视频数据，然后进行数据清洗；再构建网络分别提取视频特征和音频特征，利用MIL-NCE loss解决解说类视频可能存在的视频音频错位问题，实现音视频预训练。由于解说类视频和音频中最显著的相关信息一般为人或者物这种实体，认为通过这种预训练可以显著增强模型提取实体信息的能力。预训练结束后，取出其中的目标音频特征提取单元，在下游有监督语音识别任务上，将该目标音频特征提取单元提取的信息与原语音识别网络中的encoder提取的特征进行拼接，并一同送入decoder中进行语音识别训练。该方案通过音视频预训练提升了语音识别模型抓取实体信息的能力，使得语音识别中实体词类的专有名词的识别效果进一步提升。

如图5所示，在上述实施例的基础上，本发明实施例中提供了一种语音识别装置，包括：

数据获取模块51，用于获取待处理的音频数据；

特征提取模块52，用于将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征；

特征拼接模块53，用于将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元，得到所述拼接单元输出的拼接结果；

语音识别模块54，用于将所述拼接结果输入至所述语音识别模型的语音识别单元，得到所述语音识别单元输出的语音识别结果；

在上述实施例的基础上，本发明实施例中提供的语音识别装置，所述音视频训练样本包括成对的音频数据样本和视频数据样本；

所述语音识别装置包括音视频预训练模块，用于：

基于初始音频特征提取单元，对所述音频数据样本进行特征提取，得到音频样本特征；

基于初始视频特征提取单元，对所述视频数据样本进行特征提取，得到视频样本特征；

将结构参数迭代得到的目标音频特征提取单元作为所述音频实体特征提取单元。

在上述实施例的基础上，本发明实施例中提供的语音识别装置，还包括正例样本对确定模块，用于：

采集音视频数据中预设时段的视频片段，所述预设时段的时长为预设时长；

采集所述音视频数据中包含所述预设时段在内的预设数量个所述预设时长的音频片段；

将所述视频片段与所述预设数量个所述音频片段确定为一个所述正例样本对。

在上述实施例的基础上，本发明实施例中提供的语音识别装置，所述正例样本对确定模块具体用于：

确定所述视频片段的中间时刻；

以所述中间时刻为中心，以指定时长为间隔，选取所述预设数量个所述音频片段；

其中，所述指定时长小于或等于所述预设时长。

在上述实施例的基础上，本发明实施例中提供的语音识别装置，所述第一损失函数包括多示例学习噪声对比估计损失函数。

在上述实施例的基础上，本发明实施例中提供的语音识别装置，所述音视频预训练模块具体用于：

提取所述音频数据样本中的Fbank特征；

将所述Fbank特征输入至所述初始音频特征提取单元，得到所述初始音频特征提取单元输出的所述音频样本特征。

在上述实施例的基础上，本发明实施例中提供的语音识别装置，还包括模型训练模块，用于：

将所述样本声学特征以及所述样本实体特征输入至初始拼接单元，得到所述初始拼接单元输出的样本拼接结果；

将所述样本拼接结果输入至初始语音识别单元，得到所述初始语音识别单元输出的样本识别结果；

基于所述目标声学特征提取单元、所述目标拼接单元、所述目标语音识别单元以及所述音频实体特征提取单元，确定所述语音识别模型。

具体地，本发明实施例中提供的语音识别装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(Processor)610、通信接口(Communications Interface)620、存储器(Memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述各实施例中提供的语音识别方法，该方法包括：获取待处理的音频数据；将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征；将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元，得到所述拼接单元输出的拼接结果；将所述拼接结果输入至所述语音识别模型的语音识别单元，得到所述语音识别单元输出的语音识别结果；其中，所述音频实体特征提取单元基于无文字标注的音视频训练样本训练得到，所述语音识别模型是在所述音频实体特征提取单元的基础上，基于携带有文字标注的音频训练样本训练得到。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例中提供的语音识别方法，该方法包括：获取待处理的音频数据；将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征；将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元，得到所述拼接单元输出的拼接结果；将所述拼接结果输入至所述语音识别模型的语音识别单元，得到所述语音识别单元输出的语音识别结果；其中，所述音频实体特征提取单元基于无文字标注的音视频训练样本训练得到，所述语音识别模型是在所述音频实体特征提取单元的基础上，基于携带有文字标注的音频训练样本训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的语音识别方法，该方法包括：获取待处理的音频数据；将所述音频数据分别输入至语音识别模型的声学特征提取单元以及音频实体特征提取单元，得到所述声学特征提取单元输出的目标声学特征以及所述音频实体特征提取单元输出的目标实体特征；将所述目标声学特征以及所述目标实体特征输入至所述语音识别模型的拼接单元，得到所述拼接单元输出的拼接结果；将所述拼接结果输入至所述语音识别模型的语音识别单元，得到所述语音识别单元输出的语音识别结果；其中，所述音频实体特征提取单元基于无文字标注的音视频训练样本训练得到，所述语音识别模型是在所述音频实体特征提取单元的基础上，基于携带有文字标注的音频训练样本训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：吴航;潘嘉;
专利申请人：科大讯飞股份有限公司;

上一篇：透镜组、光斑生成装置及投影仪
下一篇：用于操作转换器的方法、转换器以及计算机程序产品