掌桥专利:专业的专利平台
掌桥专利
首页

基于多层级标识的端到端语音识别模型及建模方法

文献发布时间:2023-06-19 11:57:35


基于多层级标识的端到端语音识别模型及建模方法

技术领域

本发明涉及语音识别技术领域,尤其涉及一种基于多层级标识的端到端语音识别模型及建模方法。

背景技术

基于编码-解码框架的端到端(End-to-End,E2E)自动语音识别(AutomaticSpeech Recognition,ASR)直接建模输入音频序列与输出文本间的序列映射关系。简洁的框架、无须语言学背景知识的优点让该结构逐渐受到学术界与工业界的追捧。

在端到端ASR中,输入的语音序列可以映射到不同层级的文本序列。语音序列与文本序列间的映射关系是一对多的。在中文ASR中,文本序列可以由拼音(pinyin)、汉字构成;英文中文本序列可以由单词(word)、字符(character)构成。

一般来说,在端到端语音识别中,采用词级文本序列进行建模是最理想的选择。模型输出不需要通过词典做进一步的转化,实现了完全意义上的端到端建模。但如果采用词级文本进行建模,模型的容量及所需的模型参数量都较大;另一方面,字符级(character)文本序列也是一种候选方案。字符文本序列能有效地控制模型大小和参数量上,但捕捉语音信号中长时序上下文相关性的能力不足,而且从已有研究工作来看,字符级文本序列在大词汇量连续语音识别任务上性能表现不佳。

近年来,受益于深度学习(Deep Learning,DL)的发展,自动语音识别(AutomaticSpeech Recognition,ASR)取得了巨大的进步。传统的基于深度学习的ASR框架基于混合架构,其由基于条件独立近似训练得来的几个独立的组件构成。另一方面,ASR方面新的研究着重于采用端到端的方法来建模输入音频到目标文本的序列间的映射关系。如,联结主义时间分类(Connectionist Temporal Classification,CTC)、循环神经网络转换器(Recurrent Neural Network Transducer,RNN-T)、分段条件随机场(SegmentalConditional Random Field,SCRF),基于注意力机制的编解码(Attention-basedEncoder-Decoder,AED)模型和Transformer模型。与传统的混合架构相比,端到端框架的ASR减少对语言学信息的依赖,简化系统结构。

端到端的序列映射方法将输入音频序列映射到目标文本。目标文本序列可以由不同层级的文本组成。如英文文本可以由单词(word)、子词(subword)或者字符(character)构成。不同层级的标识有其对应的优缺点。

词级文本表示是现实中最常见的文本表示方式。将其作为端到端语音识别的目标序列是最为理想的选择,也与端到端语音的应用设想相符。它的另一个优点在于:词级模型的输出与性能评测指标一致,避免了模型优化目标和评价指标的不匹配。在所需带文本标识的训练语料充足的情况下,词级文本是端到端语音识别建模最为理想的选择。其不足之处在于所需训练数据量大、样本分布不均的问题。为了避免直接采用词级文本存在的问题,研究人员尝试使用字符进行建模。字符级文本序列的文本单元较少,能较好的控制输出单元个数与模型大小,从而减少了对于训练数据量的需求。但字符级文本单元在构建上未考虑输出文本序列中相邻单元间的影响,无法考虑到语音的协同发音、不发音等问题。考虑到词建模单元的建模难度和字符文本单元在性能上的不足。已有工作使用子词进行建模,旨在建模难度与模型性能间寻求的平衡点。

对于多层级标识信息的使用,另一个研究方向是在ASR系统中结合多个文本序列而非挑选其中一个。多种文本序列共同表示输出序列内容可以为模型提供丰富、多层次的输出信息增强了目标文本的信息量。在端到端语音识别建模中,研究人员们已经采用过一些多层级标识端到端语音识别建模方法。目前的多层级标识端到端语音识别建模方法整体可分为多任务学习策略(multi-task learning,MTL)、预训练方法(pre-training)和得分融合(score fusion)三类。

发明内容

有鉴于此,本发明的主要目的在于提供一种基于多层级标识的端到端语音识别模型及建模方法,以期部分地解决上述技术问题中的至少之一。

为了实现上述目的,作为本发明的一方面,提供了一种基于多层级标识的端到端语音识别建模方法,包括解码推论,所述解码推论采用后推理算法,所述后推理算法包括:

对应细粒度文本序列的模型产生后验概率输出序列

所述输出序列

依据以上两步计算获得似然概率得分对于现有解码路径进行裁剪,保证搜索路径控制在束宽度范围内。

其中,所述后推理算法的核心在于,在解码推论阶段使用序列间对齐映射信息。

其中,在所述交叉验证的过程中并未生成新的解码路径,而是从另一个角度对于现有路径输出结果进行得分的重排序。

其中,每条解码路径的得分增量均由一个细粒度对数似然概率得分和多个粗粒度对数似然概率得分构成。

作为本发明的另一方面,提供了一种由上所述的建模方法所得到的端到端语音识别模型,所述语音识别模型包括交互解码器,所述交互解码器包括字符模块、交互模块、子词隐层模块和子词分类模块;其中,

所述字符模块用于建模字符子序列的输出预测

所述交互模块用于融合字符状态和子词状态,并使用融合后的交互状态作为交互注意力模块的计算。

其中,所述字符模块包括字符注意力模块计算、循环神经网络层和全连接层;所述字符模块的输入是字符历史输出的信息表征以及编码器输出序列

其中,所述交互模块包括交互注意力机制与循环神经网络层;所述交互模块的输入是字符历史状态、子词状态以及编码器输出序列

其中,所述子词隐层模块的输入是子词历史输出的信息表征以及编码器输出序列

其中,所述子词分类模块的的输入是交互状态和子词状态,将所述交互状态和子词状态分别通过全连接层实现对子词的输出预测,将两项输出分别称为子词输出和辅助子词输出。

其中,所述交互解码器生成三种类型的输出:字符输出、子词输出和辅助子词输出,这三类输出对应三项交叉熵损失,三者共同构成了模型训练的损失函数。

基于上述技术方案可知,本发明的基于多层级标识的端到端语音识别模型及建模方法相对于现有技术至少具有如下有益效果之一:

(1)本发明提出的后推理算法和交互解码器的应用使得本发明的端到端语音识别模型与现有的识别模型相比,提高了语音识别结果的准确率。

(2)本发明提出的后推理算法的应用不受端到端结构的限制。

附图说明

图1为本发明实施例提供的多层级标识间的对齐映射关系(此处以子词和字符为例);

图2为本发明实施例提供的基于MTL的多层级标识建模方法与端到端多层级标识序列对齐方法;

图3为本发明实施例提供的与多层级标识端到端模型联合条件概率相对应的图模型;

图4为本发明实施例提供的对齐映射关系在多层级标签端到端解码过程中的应用:联合解码算法(y

图5为本发明实施例提供的不同实验配置描述;

图6为本发明实施例提供的一种双层自回归解码的序列到序列语音合成声学模型结构图;

图7为本发明实施例提供的一种序列到序列语音合成声学模型中的交互解码器的结构图;

图8为本发明实施例提供的使用多粒度目标信息;其中,(a)交互解码器;(b)联合解码算法;

具体实施方式

从多层级的文本序列中挑选一项进行端到端语音识别建模并非是唯一选择,更非最优选择。语音识别端到端建模中所选取多种文本序列,记其为多层级标识(Multiple-Granularity Target Sequence)。本发明考虑选取多种文本序列共同用于端到端语音识别建模能实现更好的效果,提出了一多粒度序列对齐方法(Multi-Granularity SequenceAlignment,MGSA)。

端到端ASR系统整体可拆分成模型训练阶段(training stage)与解码推论(inference stage)两个部分。本专利所提出的MGSA方法将在这两个阶段中分别使用多层级标识信息对ASR系统进行优化。首先,在模型结构中,端到端ASR的解码器模块将依序生成多层级的文本序列,模型结构中将考虑不同层级标识间的相互影响。此外,在端到端的输出推论阶段中,本专利探索并利用不同层级标识之间隐性对齐映射关系进一步提升识别性能。所提出的后推理算法(Post Inference Algorithm)能使用多层级标识信息进一步校准输出序列的后验概率得分。WSJ-80hrs和Switchboard 300hrs数据集上的实验结果表明,该方法与传统的多任务方法以及单粒度基线系统相比具有明显的优越性。

本发明提出的MGSA方法目的旨在充分利用多粒度信息,在不增加整体输入信息量的情况下尽量提升端到端语音识别系统的性能。另一方面,多层级信息的提出从某种角度上起到了部分语言模型的作用,能减轻端到端模型对于外接语言模型的依赖。MGSA通过不同粒度单元之间的对齐映射关系,利用其交互信息,使得模型能够学习到其中的语义信息,进而提升模型性能。

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。

1、多层级标识间的序列对齐映射关系

在端到端的语音识别建模中,有三类文本单元——字符单元、子词单元和词级单元。在这三类文本单元中,前一文本单元(如字符)可以通过聚类形成后者(如子词),后者对应于前者中的一个或多个文本单元。例如,在图1中词单元“COURSE”对应于子词子串“_COUR SE”,子词单元“OUR”也唯一地映射到字符子序列“O U R”。上述各文本序列间隐性的序列间对齐映射关系,可以通过查询词典获得。文本序列间的对齐映射关系整体严格、明确且容易获得。我们将这样多层级文本之间存在的隐性、唯一的对应关系(如图1中中间实线所示)记为对齐映射关系。本发明将介绍如何在端到端语音识别建模中引入对齐映射关系的方法MGSA。

端到端ASR可以分为模型训练和解码推论两个阶段。MGSA方法在这两个阶段都考虑了对齐映射的使用。该方法的总体框架如图2(b)所示。与图2(a)中常用的基于MTL的传统方法相比,有三个主要区别。

首先,MGSA基于多层级标识的联合条件概率作为模型优化的目标,并在优化过程中充分考虑了序列间对齐映射关系的使用。其次是提出了一种全新的解码器模块,其在结构层面上体现多层级标识之间的信息传输。通过该结构多层级标识间的交互和融合就在模型内部得以实现(图2中的虚线);此外,在端到端ASR的输出解码阶段,本项专利提出的一种后推理算法,通过多层级标识输出之间的对应关系校验、纠正模型的识别结果(图2中的虚点线)。

2、多层级标识的编解码结构

2.1、优化目标的公式推导

对于任意两种的文本表示

公式(1)中的Δ将文本序列y

套用公式(1)中对于粗粒度文本序列y

多层级标识是相同文本在不同粒度下的表示。虽然各标识表示形式不同,但对应着相同的文本含义。其中各单元均与其他单元间存在相互关联。在图3(a)中,我们给出了与建模目标(公式(2))相对应的图模型表示。

考虑到多层级标识间的时序因果属性,图3(a)中两类文本序列间的相互影响是不合理的。首先,某一粒度文本序列中的单元应独立于另一粒度文本序列中时序相对靠前的单元。例如,

此时联合条件概率的图模型通过利用文本表示序列间的时序因果属性可简化如图3(b)所示。

对比公式(3),继续简化对应的图模型。在此基础上,假设文本序列的变量服从一阶马尔科夫假设。由此进一步地对联合条件概率进行简化,结果为

图3(c)与公式(4)相对应。联合条件概率中,文本子序列

公式(6)对应图3(d)。该公式表明两个文本序列的联合优化中,模型预测输出的生成过程需考虑两个层级对应时刻的历史信息。

从推导过程可得出构建模型时需满足的基本原则:

1.序列间对齐映射关系:对于同一文本内容的细粒度和粗粒度文本序列表达间存在严格的对应关系,即细粒度文本序列中每个文本单元均对应着一个或多个粗粒度文本序列中的文本单元。二者文本单元间存在严格的一对多映射关系,这是进行多层级标识端到端语音识别建模的根本所在。之后考虑的多层级标识间的相互影响需建立在此映射关系的前提下。

2.历史信息相互独立:要保证两个文本序列的历史信息

3.直接作用于分类:多层级标识的交互影响需直接作用于文本单元的分类过程。基于递归形式展开的端到端建模过程可拆分为:历史文本序列建模和对模型预测的估计。考虑到前面所提到的历史信息的独立性前提——多层级标识信息的交互过程需反映到分类过程中。

在上述推导中,多层级标识间的相互影响是双向的。但在实际使用中可以进行一定的简化。忽略细粒度文本序列y

2.2、多层级标识的编解码结构描述

所提出的模型结构由编码器和解码器两个部分构成。其编码器结构与传统编码器结构相同;在解码器部分,本发明提出了交互解码器结构。该结构由字符模块、交互模块、子词隐层模块和子词分类模块构成;另外,总共三个损失函数被用于指导模型训练。

编码器模块,该模块的输入是一句语音的特征序列x,编码器模块起到特征提取器的功能,用于增强输入序列在时间维度上的相关性,生成编码器输出序列

解码器模块。该模块包括字符模块、子词隐层模块、交互模块和子词分类模块,整体而言其输入是编码器输出序列

1.字符模块。该模块的输入是字符历史输出的信息表征以及编码器输出序列

2.子词隐层模块。该模块的输入是子词历史输出的信息表征以及编码器输出序列

3.交互模块。该模块的输入是字符历史状态、子词状态以及编码器输出序列

4.子词分类模块。该模块的输入是交互状态和子词状态,将它们分别通过全连接层实现对子词的输出预测。此处将两项输出分别称为子词输出和辅助子词输出。

在交互解码器中主要生成三种类型的输出:字符输出、子词输出和辅助子词输出,三类输出对应三项交叉熵损失,三者共同构成了模型训练的损失函数。其中,前面两种是为了保证字符模块、交互模块、子词分类模块的模型训练与收敛;最后一项辅助模型中子词隐层模块中子词注意力模块的训练。

3、后推论算法

序列间对齐映射信息的使用并不局限应用于模型结构中,在解码阶段同样可以使用。

以细粒度文本序列y

3.1、优化目标的公式推导

端到端ASR的解码阶段采用束搜索算法挑选在限定束宽度下的解码路径。一般使用现有解码路径的对数似然概率作为当前的路径得分值。解码阶段的公式表达如下

公式中

公式(9)中第二项

3.2、后推理算法(联合解码算法)思路介绍

具体介绍联合解码算法的实现细节。联合解码过程整体上可划分成预测,校验和裁剪三个步骤。图4给出了t时刻端到端语音识别解码过程。其中,预测:对应细粒度文本序列的模型产生后验概率输出

如图6所示,模型编码器的输入是语音特征序列,经过CNN和BLSTM抽取出其时间维度上的特征表示

给定一组多层级标注的训练样本[x;(y

模型的编码器模块起到特征提取器的功能,用于增强输入音频特征序列在时间维度上的相关性,生成编码器输出序列

在模型进行t时刻的子词预测输出前,需要先完成与t-1时刻子词对应的字符子序列

如图7所示,为序列到序列语音合成声学模型中的交互解码器的结构图,具体各部分如下详细介绍。

(1)字符模块

字符子序列

其中RNN表示单层循环神经网络(recurrent neural network)。

字符解码器状态

其中Attend表示通用的注意力模块;在此基础上进行字符的输出预测,根据

当忽略子词状态

公式中W

(2)子词隐层模块

完成字符部分的准备工作后,进行第t时刻子词的输出预测。同样进行解码状态的更新与注意力向量的计算。首先采用历史时刻的预测输出

而后更新后的状态信息

子词隐层模块的整体结构如图7所示。接下来的计算过程不同于传统的编码-解码模型。在子词预测

(3)交互模块

该模块整体由一个注意力模块和两层RNN构成,对应的计算过程如图7中中间区域示。进一步描述了交互模块的结构:通过单层RNN融合

包含该计算过程,交互解码器结构中总共包含三个Attend。为了将它们加以区分,本发明将上述Attend计算过程分别称为字符注意力模块、子词注意力模块和交互注意力模块。该处的交互注意力模块能生成兼顾子词和字符信息的交互上下文向量

完成上述过程便同时获得子词状态

公式中σ(.)和FC分别代指sigmoid激活函数和全连接层。获得融合向量

(4)子词分类模块

最后使用交互模块的状态

除却计算

在这两个公式中,W

(5)模型损失函数

在上述计算过程中,模型生成三种类型的输出:字符子序列的输出

公式中,λ∈[0,1]是模型训练过程中预设的超参数。在模型训练中我们选用交叉熵(cross entropy,CE)损失函数作为目标函数。公式中的第一项和第二项分别对应字符输出和子词输出的交叉熵损失,第三项是辅助子词输出

(6)信息使用差异

后推理算法和交互解码器模块均使用对齐映射信息,但使用的阶段不同。在图8中说明性地解释了解得字词

实验验证

为了验证所提出的帧间解码器模块和后推理算法的有效性,针对各种系统,根据在Switchboard-300hrs数据集上的误码率(WER)评估其ASR性能。Switchboard由大量的英语电话语音组成,选择了300小时的子集LDC97S62进行训练,保留10%做交叉验证。并选择Hub5 eval2000(即LDC2002S09)进行性能评估,它由两个子集组成:1)Switchboard(类似于训练集)和2)CallHome,它是从朋友之间以及家庭内部的对话中收集的。完整的Hub5eval2000,子集Switchboard和CallHome分别表示为“Full”,“SWD”和“CHE”。为了完整性,还评估了RT03 Switchboard测试集(即LDC2007S10)的ASR性能。

模型的编码器具有两个卷积层,它们使用3×3滤波器和32个通道对时间序列进行向下采样,随后是6层双向长短时记忆(LSTM),cell size大小为800。默认解码器是具有800个单元的2层单向LSTM。使用80维log-mel滤波器组系数,三个音高系数以及归一化的均值和方差作为输入特征。实验中的char目标是一组46个字符,其包含英文字母,数字,标点符号和特殊的转录符号;对于子词目标,使用基于BPE算法的SentencePiece进行分段;基于ESPnet中的默认设置,为Switchboard使用大小约为2000的词汇表。

使用的不同实验配置如图5所示,其中Baseline为基线,Baseline+在前者encoder模块中增加了一层BLSTM,目的为排除模型大小的影响,MultiTask为多任务学习方案,MGSA

实验结果如表I和表II所示:

表I switchboard数据集实验结果

表II后推理算法实验结果

1.实验一:联合解码算法

为了分析模型结构对性能的影响,我们首先在解码阶段考虑所有方法的传统束搜索算法。表I列出了在Switchboard两个验证集上实现的WER。显然,与基于eval2000数据集的MultiTask和Baseline相比,本发明提出的MGSA

2.实验二:交互解码器

由于多粒度目标不仅影响模型结构,而且影响解码,因此,我们在解码阶段通过实验评估了应用所提出的后推理算法的影响。为了简洁起见,下面将分别用MGSA

Switchboard数据集上的实验结果示于表II中。相比于MGSA

由于提出的后推理算法的应用不受端到端结构的限制,因此,在表II中的Switchboard数据集上展示了MultiTask+的性能。由于使用了后推理算法,与原始MultiTask方法相比,Switchboard上MultiTask的WER降低了1.2%。因此,得出的结论是,提出的后推理算法能够进一步改善ASR性能。值得注意的是,该算法在MGSA

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于多层级标识的端到端语音识别模型及建模方法
  • 用于端到端语音识别模型的训练方法及系统
技术分类

06120113114176