掌桥专利:专业的专利平台
掌桥专利
首页

一种中文民航空中交通管制语音识别方法及系统

文献发布时间:2023-06-19 11:57:35


一种中文民航空中交通管制语音识别方法及系统

技术领域

本发明涉及语音识别技术领域,特别是涉及一种中文民航空中交通管制语音识别方法及系统。

背景技术

空中交通管制主要对地面滑行和航线飞行的飞机进行指挥和调度,是空中交通安全和效率的重要保障,其对空中交通管制人员的依赖极强。空中交通管制人员和机组人员之间的陆空通话与飞行安全密切相关,有必要将陆空通话转化为文本记录并存档。

应用在中文民航空中交通管制语音识别领域的现有语音识别技术主要是基于深度学习的“CLDNN”神经网络,由多层CNN、多层LSTM、多层全连接神经网络组成,但现有技术方案的识别准确度还有待提高。

发明内容

本发明的目的是提供一种识别准确度高的中文民航空中交通管制语音识别方法及系统。

为实现上述目的,本发明提供了如下方案:

一种中文民航空中交通管制语音识别方法,包括:

获取语音特征数据,所述语音特征数据为基于语音信号提取得到的时序特征信息;

将所述语音特征数据输入经训练的声学模型,得到识别结果,所述识别结果表示所述语音信号对应的空中交通管制中文术语文字;所述声学模型包括:依次连接的TRM模块、BiGRU模块、全连接层和CTC模块,所述TRM模块包括依次连接的多头自注意力层、第一残差连接和层标准化层、前馈层以及第二残差连接和层标准化层,所述BiGRU模块包括双向门控循环单元网络,所述CTC模块包括连接时序分类层,所述声学模型由带有中文文字标签的空管指令术语语音样本训练得到。

可选的,在所述获取语音特征数据之前,还包括:

对所述语音信号进行分帧操作,得到多个语音帧;

根据所述语音帧,确定所述语音特征数据;每一所述语音特征数据对应多个连续的语音帧。

可选的,每一所述语音特征数据对应一基准语音帧以及所述基准语音帧前设定数量的语音帧和所述基准语音帧后设定数量的语音帧。

可选的,当所述基准语音帧为所述语音信号的前m帧或后n帧时,分别在所述基准语音帧所属的语音特征数据前补零或后补零,以使各所述语音特征数据的数据长度相同,其中,m和n均为正整数。

可选的,所述根据所述语音帧,确定所述语音特征数据,具体包括:

对所述语音帧进行采样,得到多个采样点;

基于所述采样点,确定所述语音特征数据,每一所述语音特征数据对应多个连续语音帧中的采样点。

可选的,所述语音特征数据为语音的梅尔频率倒谱系数。

可选的,在对所述语音信号进行分帧操作之前,还包括:

对所述语音信号进行去静音处理。

可选的,所述语音信号中相邻语音帧具有设定比例的重叠区域。

本发明还提供了一种中文民航空中交通管制语音识别系统,包括:

语音特征数据获取模块,用于获取语音特征数据,所述语音特征数据为基于语音信号提取得到的时序特征信息;

语音识别模块,用于将所述语音特征数据输入经训练的声学模型,得到识别结果,所述识别结果表示所述语音信号对应的空中交通管制中文术语文字;所述声学模型包括:依次连接的TRM模块、BiGRU模块、全连接层和CTC模块,所述TRM模块包括依次连接的多头自注意力层、第一残差连接和层标准化层、前馈层以及第二残差连接和层标准化层,所述BiGRU模块包括双向门控循环单元网络,所述CTC模块包括连接时序分类层,所述声学模型由带有中文文字标签的空管指令术语语音样本训练得到。

可选的,所述中文民航空中交通管制语音识别系统还包括:

去静音模块,用于对所述语音信号进行去静音处理;

分帧模块,用于对所述语音信号进行分帧操作,得到多个语音帧,相邻语音帧具有设定比例的重叠区域;

语音特征数据确定模块,用于根据所述语音帧,确定所述语音特征数据;每一所述语音特征数据对应多个连续的语音帧,所述语音特征数据为语音的梅尔频率倒谱系数。

根据本发明提供的具体实施例,公开了以下技术效果:本发明实施例提供的声学模型结构中,TRM模块能够将输入的语音特征进行编码,通过自注意力机制实现了输入语音帧与帧之间的相互联系,得到了一种关联上下文语音信息的特征表示。BiGRU是将双向循环神经网络与门控循环单元网络相结合的产物,兼具两者的优点,既可以同门控循环单元网络一样处理时序依赖关系,又可以与双向循环神经网络一样具有上下文信息。CTC解决了语音输入序列与标签序列不对齐的问题,从而实现端到端的语音识别。基于上述原因,本发明实施例提供的中文民航空中交通管制语音识别方法具有识别准确度高的优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的中文民航空中交通管制语音识别方法的流程示意图;

图2为本发明实施例提供的又一中文民航空中交通管制语音识别方法的流程示意图;

图3为本发明实施例中声学模型的结构示意图;

图4为本发明实施例中TRM模块的结构示意图;

图5为本发明实施例中TRM模块中Multihead Self-Attention的结构示意图;

图6为本发明实施例中BiGRU模块的结构示意图;

图7为本发明实施例中BiGRU模块中GRU的结构示意图;

图8为本发明实施例中的识别流程示意图;

图9为本发明实施例提供的中文民航空中交通管制语音识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种识别准确度高的中文民航空中交通管制语音识别方法及系统。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

参见图1,本实施例提供了一种中文民航空中交通管制语音识别方法,该方法包括以下步骤:

步骤101:获取语音特征数据,所述语音特征数据为基于语音信号提取得到的时序特征信息;

步骤102:将所述语音特征数据输入经训练的声学模型,得到识别结果,所述识别结果表示所述语音信号对应的空中交通管制中文术语文字;所述声学模型包括:依次连接的TRM模块、BiGRU模块、全连接层FC和CTC模块,所述TRM模块包括依次连接的多头自注意力层、第一残差连接和层标准化层、前馈层以及第二残差连接和层标准化层,所述BiGRU模块包括双向门控循环单元网络,所述CTC模块包括连接时序分类层,所述声学模型由带有中文文字标签的空管指令术语语音样本训练得到。声学模型的训练利用Adam优化器通过反向传播算法对训练数据进行拟合,在验证集上调整参数,并在测试数据上评估模型优劣。

在本发明实施例提供的声学模型结构中,TRM模块能够将输入的语音特征进行编码,通过自注意力机制分别计算每一帧特征与输入语音所有帧数据的相似度,充分考虑输入语音帧与帧之间发音和语义的相互联系,重新计算得到一种关联了上下文语音信息的特征表示。BiGRU是将双向循环神经网络与门控循环单元网络相结合的产物,兼具两者的优点,既可以同门控循环单元网络一样处理时序依赖关系,又可以与双向循环神经网络一样具有上下文信息,适合作为语音识别声学模型的重要模块。CTC是用来解决输入序列和输出序列难以一一对应的问题,而语音就是一个典型的输入序列与标签序列不对齐的问题,CTC正是针对这样的问题,使深度学习模型自动学习对齐,从而实现端到端的语音识别。基于上述原因,本发明实施例提供的中文民航空中交通管制语音识别方法具有识别准确度高的优势。另外,本发明实施例提供的声学模型结构仅由TRM和BiGRU层组成,不容易出现梯度消失和梯度爆炸等问题,模型训练过程容易收敛,并且对训练数据量要求相对较低,数据集标注成本低。

本实施例针对中文ATC指令与汉语普通话发音部分不兼容的问题,自建了ATC语音数据集,设计了一个包含自注意力机制的深度学习架构TRM-BiGRU-CTC,并在ATC数据集上进行训练与验证,得到一个中文民航空中交通管制语音识别声学模型。本发明提供的中文民航空中交通管制语音识别声学模型对测试语音识别准确率高,能够识别出在噪声的环境下录制的快语速的ATC语音内容。针对ATC语音中大量与普通话发音不同的数字、高度、字母等专业用语,也能够自动转化为对应的文字序列。

作为一种实施方式,本实施例提供的中文民航空中交通管制语音识别方法首先采集中文民航空中交通管制语音;然后自建ATC空管语音数据集并进行数据预处理,数据预处理包括去除静音段、提取空管语音的特征和进行特征处理;设计一个包含自注意力机制的声学模型TRM-BiGRU-CTC,并在预处理后的ATC语音数据集上进行训练;待识别空管语音经过特征提取和特征处理后输入训练后得到的声学模型;将声学模型的输出经过连接时序分类(Connectionist Temporal Classification,CTC)解码,得到空管语音内容对应的中文文字序列。

进一步的,文民航空中交通管制语音的格式规定为WAV格式,如果是其他不同格式,如MP3、OGG等,需先进行格式转换,确保语音数据具有统一的WAV格式。

自建的ATC空管语音数据集中的语音数据全部来源于某空管区域的实际操作环境,并且依据《空中交通无线电通话用语指南》对收集的ATC语音进行人工标注与校对,数据量规模足够涵盖该空管区域绝大部分情况下的通话用语,确保在该数据集上训练得到的语音识别模型贴合实际环境。

在本实施例中的步骤101之前,还可以包括:

对所述语音信号进行分帧操作,得到多个语音帧,优选的,语音信号中相邻语音帧具有设定比例的重叠区域;

根据所述语音帧,确定所述语音特征数据;每一所述语音特征数据对应多个连续的语音帧,优选的,本实施例中所述的语音特征数据为语音的梅尔频率倒谱系数。进一步的,每一所述语音特征数据可以对应一基准语音帧以及所述基准语音帧前设定数量的语音帧和所述基准语音帧后设定数量的语音帧。其中,当所述基准语音帧为所述语音信号的前m帧或后n帧时,分别在所述基准语音帧所属的语音特征数据前补零或后补零,以使各所述语音特征数据的数据长度相同。此外,所述根据所述语音帧,确定所述语音特征数据,具体包括:对所述语音帧进行采样,得到多个采样点;基于所述采样点,确定所述语音特征数据,每一所述语音特征数据对应多个连续语音帧中的采样点。

语音特征数据指的是语音的梅尔频率倒谱系数(Mel Frequency CepstralCoefficent,MFCC)特征,该特征具有符合人耳听觉的特性。由于每一帧特征仅包含很短时长内的语音信息,多数语音帧不足以表达一个中文字符,所以还需要针对这一问题进一步地做特征处理。具体的,对提取到的MFCC特征的每一帧数据进行左右拼帧操作,即对于当前帧,取其左m帧,右n帧的MFCC特征与当前帧拼接起来作为当前语音帧的特征,这一操作的目的是使输入声学模型的每一帧数据都具有更多上下文相关信息。

在本实施例中,在对所述语音信号进行分帧操作之前,还包括:对所述语音信号进行去静音处理。

参见图2,本实施例可以包括两个阶段:训练阶段与识别阶段。

首先,由于空中交通管制语音的特殊性,我们需要自建ATC语音数据集。在某空管区域实际操作环境下收集大量的ATC语音,并将语音文件的格式规范为WAV格式,比特率为128kbps,采样率为8000Hz。对ATC音频依据《空中交通无线电通话用语指南》进行人工标注与校对。下面就标注中的部分特殊发音对应的针对性标注做以下解释:(1)字母的发音均标注成大写字母,例如字母A,其空管发音为Alpha,则对应的标注为A;(2)数字的标注均尽量标注成阿拉伯数字,另外,关于高度数字的标注,不同的空管员或飞行员对同一高度可能有不同读法,例如2100米,若发音为两幺,则标注成21,若发音为两千一,则标注为2千1;(3)对于一些特殊的航路点,例如NASPA直接标注为NASPA,在识别时按照一个建模单元来看待,而不是将其看作独立的N、A、S、P和A五个建模单元。本实施例中的自建ATC数据集共有9300条语音样本,总时长约为47小时,其中7700条数据用来做训练集,540条数据用来做验证集,1060条数据用来做测试集。与现有技术提及的空管语音数据集相比,本实施例的ATC语音数据集具有较小的数据量,数据标注成本也随之降低。但是数据集的数据量依然足够涵盖该空管领域中地空对话绝大多数可能出现的字,并且由于此数据集中的中文字符类别数与拼音类别数差距不悬殊,故可以直接选择中文字符作为建模单元,其最直接的优点就是不需要额外的语言模型来进行转换,只需要训练声学模型即可。

接着,对去除静音段后的训练语音数据进行特征提取。特征提取首先需要进行分帧操作,即将N个采样点合成一个观测单位,由于语音信号具有短时平稳性(10-30ms内可以认为语音信号近似不变),故本实施例中设定一帧涵盖的时间是25ms,由于空管语音数据的采样率是8000Hz,所以每一帧内有200个采样点,为了避免前后相邻帧的特征参数会出现突变,因此一般会使相邻帧之间有一段重叠区域,本实施例中设定的重叠区域是12.5ms,即每隔12.5ms取一帧。但是本实施例中的部分ATC语音样本的帧数过长,导致对设备要求更高,本实施例中采取隔帧采样的降采样方式来缓解设备压力。本发明实施例提取26维的MFCC特征,即每一帧的特征向量具有26个特征。由于一帧语音只包含25ms的内容,一般情况下不足以表达一个音节,所以要对提取得到的MFCC特征进行拼帧处理,即对于当前帧,取左m帧、右n帧的MFCC特征,再与当前帧拼接起来作为当前帧的特征。在本实施例中,设置m=7、n=7,若当前帧位于本段语音的前7帧或者是结尾7帧时,就进行填零操作,而如果当前帧位于中间时,就将当前帧的左右各7帧的MFCC特征拼接到当前帧上。这样原本一帧仅仅只有26维的MFCC特征,经过拼帧处理后,每一帧就具有390((7+7+1)*26)维特征,包含375ms的语音内容信息,解决了单帧数据包含的信息量较少的问题,还可以使每一帧都具有上下文相关信息。

然后,搭建包含自注意力机制的中文民航空中交通管制语音识别方法声学模型,其模型结构如图3所示,本发明申请中称这种网络结构为“TRM-BiGRU-CTC”网络,其中TRM模块指Transformer模型中的Encoder Block,每个TRM模块由多头自注意力(MultiheadSelf-Attention)层和前馈(FeedForward)层组成,各层均加入残差连接和层标准化;BiGRU模块指双向门控循环单元网络;CTC模块指连接时序分类。

声学模型的一个重要组成模块为TRM,其结构如图4所示。TRM模块主要分为两个部分:多头自注意力(Multihead Self-Attention)层和前馈(Feed Forward)层,图中的“Add&Norm”表示的是残差连接和层标准化。残差连接可以有效改善梯度消失和网络退化问题,而层标准化可以加速网络收敛。

TRM模块的Feed Forward层由两层线性层组成,在本实施例中两层线性层的隐藏单元个数分别为1024和390,输出与输入维度相同便于残差连接,第一层线性层加入ReLU激活函数,无Dropout,第二层线性层无激活函数,Dropout的比例为0.3。

TRM模块的Multihead Self-Attention层的结构如图5所示,对于输入X先经过线性层Linear将X分别映射成Q,K,V三种不同的表示,Q表示查询,K表示键,V表示值,在本实施例中线性层的输出维度为390。在本实施例中的多头注意力的头数设为5,将输入X经过5种不同的线性变换得到5种不同的自注意力映射表示,拼接起来后作为新的特征编码。故将X经过Linear层的三种映射Q,K,V依据其特征维度顺序分割成5份,如图5的a1,a2,a3,a4,a5所示,每个a的特征维度为78(390/5),且包含Q,K,V三种表示,这三种表示再输入到Self-Attention层,图5中的Self-Attention表示的计算过程是

声学模型的另一个重要组成模块为BiGRU。一般的门控循环单元网络(GRU)中,其隐含层状态的传递方向是从前往后单向传播的,即位置的状态值仅与从位置0到位置i的输入有关,与位置i+1到结束的输入都没有关系,也就是当前状态仅仅与“上文”内容有关。但是在语音识别的任务中,当前位置的状态往往需要结合“上下文”的信息才更有效。双向门控循环单元网络(Bi-directional GRU,BiGRU)的基本思想是将两个单向的门控循环单元网络上下进行叠加。BiGRU的结构如图6所示,从下往上第一排通过右向箭头连接的圆圈表示的是前向GRU,从下往上第二排通过左向箭头相连的圆圈表示后向GRU。同一条训练序列[x1,x2,x3,x4,x5],从前往后依次输入到前向GRU中得到序列[b1,b2,b3,b4,b5],再从后往前输入到后向GRU中得到序列[a1,a2,a3,a4,a5],将两个序列对应拼接在一起,例如b1与a1拼接为y1,得到输出序列[y1,y2,y3,y4,y5],则这个输出序列就可以给每个时刻的状态提供完整的上下文信息,并且BiGRU的输出维度是单向GRU的两倍,故BiGRU与单向GRU相比具有更强的表达能力。

BiGRU模块中的单向GRU的原理结构如图7所示,Xt表示t时刻的输入,Ht表示t时刻的隐状态,Ht-1表示t-1时刻的隐状态,带星号的圆圈表示Hadamard乘法操作,带加号的圆圈表示加操作。GRU在原理上是通过一个更新门和一个重置门来实现长期时序依赖。更新门通过公式Zt=f(Wz[Xt,Ht-1])来计算,其中f为Sigmoid函数,得到一个0-1之间的值,其决定了当前时间步和过去时间步的多少信息要继续传递。重置门通过公式Rt=f(Wr[Xt,Ht-1])来计算,其中f同样为Sigmoid函数,得到一个0-1之间的值,其决定了要将多少过去时间步的信息遗忘,虽然重置门和更新门具有相同的计算公式,但具有不同的参数从而实现不同的功能。当前步记忆内容通过公式H`t=tanh(W[Ht,Rt*Ht-1])计算得到,而t时刻的隐状态通过公式Ht=H`t*Zt+(1-Zt)*Ht-1来计算,其中H`t*Zt表示t时间步更新的信息,(1-Zt)*Ht-1表示过去时间步继续传递的信息,两者结合起来得到经过t时间步时的输出。

在本实施例中,对声学模型的有关参数进行如下设置:TRM中Multihead Self-Attention层的多头机制的头数设为5,Linear层参数为390,则每个头的参数为78(390/5),Dropout比例为0.3;TRM中Feed Forward层的两个前馈子层的隐藏节点个数分别为1024和390,Dropout的比例为0.3;BiGRU模块中的前向与后向GRU的神经元节点数均为256,激活函数为Tanh激活函数,Dropout的比例设为0.3;BiGRU之后的第一个全连接层FC的隐藏节点设为256,激活函数为ReLU激活函数,Dropout的比例为0.3;由于声学模型最终识别目标为中文字符,ATC数据集中共有745个中文字符类,故连接CTC的全连接层FC的隐藏节点设为746(745+blank)且无激活函数、无Dropout;损失函数使用CTC损失函数。模型的训练采用Adam优化器来进行网络参数更新,其初始学习率设置为0.0005,Adam中的动量值分别取0.9和0.99。在训练过程中,每个批次选择12条音频的MFCC特征作为输入,由于每个批次的音频长度不同,而神经网络每个批次的输入数据要求对齐,故对每个批次的12条音频中的较短的11条语音的MFCC特征进行补零。

在得到训练好的声学模型以后,就可以对待识别的ATC语音数据进行识别。如图8识别流程图所示,先通过空管通话设备采集到ATC语音数据,并确保其格式为WAV格式,若不是WAV格式则需先行转换为WAV格式。然后去除静音段,再经过预加重、分帧、加窗后提取其MFCC特征,进行左右拼帧操作后输入训练好的声学模型中,声学模型的输出经过CTC解码后即得到对应的语音内容预测文本。CTC解码采用集束搜索(Beam Search)的方式。BeamSearch解码可以认为是保留次优解的广度优先搜索,对于一般的广度优先搜索,过程中保留了所有的历史路径,而Beam Search只保留了TOP-N(称为集束宽度Beam_width)的历史路径。本实施例中解码时的beam_width设为5。假设词表大小为100,当生成第一词的时候,由于beam_width等于5,所以从词表中选择概率最大的5个词,当生成第二个单词时,上一个词的可能序列为选中的5个词中的任意一个,分别与词表中的词进行组合,得到5*100个新的序列,然后从其中选择10条置信度最高的,当做当前的序列,后面到选择第三个词时也会有5*100种可能的序列,依然从中选出置信度最高的5条序列,之后就不断重复上述过程直到遇到终止符为止,最终选出5个得分最高的序列。Beam Search的方法属于贪心算法的思想,不一定能够达到全局最优解。但是考虑语音的帧数非常多,对应的字符类数也比较多,如果想得到全局最优解的话,搜索空间和路径就会无比巨大,搜索效率就会非常低,所以在本实施例中采用Beam Search得到的虽然是一个相对局部最优解,但在工程效果上也是可以接受的。

下面对本发明的效果进行验证

中文语音识别常用的评估指标:字错误率(CharacterError Rate,CER)。字错误率的计算方式为:为了使识别出序列和正确的序列之间保持一致,需要进行替换,删除或者是插入某些字符,这些插入、替换、删除的字的总个数,占正确序列中字符的总个数的百分比,即为CER,其计算公式如下:

语音识别技术领域的现有技术有很多,但应用在中文空中交通管制语音识别领域的现有技术主要是“CLDNN”结构,即由多层CNN、多层LSTM、多层全连接神经网络组成的深度学习架构(来自申请公布号为CN 110335609 A的专利“一种基于语音识别的地空通话数据分析方法及系统”)。由于在中文空中交通管制语音识别领域使用的语音数据集一般都是自建数据库,其语音音质、时长、采集设备和录制环境等等都有所区别,所以无法通过直接对比不同数据集上的准确率来评估识别方法的优劣。故本发明仅与“CLDNN”进行了对比实验,并针对ATC数据集的特点调整了其结构。本发明实施例中所提及的“CLDNN”的具体模型结构如下:两层CNN层,卷积核大小为3*3,步长为1,滤波器个数依次为32和64,第一层CNN后接最大池化层,池化窗口为2*2,窗口不重叠,第二层CNN后不接池化层;卷积层的输出作为全连接网络层的输入,以降低维度,全连接网络层的神经元个数为512;全连接网络层后接三层LSTM,神经元个数均为256,其后接一层全连接网络层和一层softmax层,神经元个数分别为256和字符类别数。对语音数据的预处理与本发明实施例相同,均提取语音的MFCC特征并进行左7帧和右7帧的拼帧,优化器同样采用Adam优化器,初始学习率为0.005,Adam中的动量值分别取0.9和0.99。此“CLDNN”模型对数据量的要求比较高,受限于数据规模,当其结构中的LSTM层数过大时,会出现严重的梯度消失问题,且受限于硬件性能故此实验中将LSTM层数设置为3。

此“CLDNN”模型已经针对ATC数据集进行了参数调整,降低了参数规模。尽管如此,其模型参数个数经统计为10050163,而本实施例的模型参数个数为3837483,对比之下,本实施例的参数规模较小,模型保持成本较低。

表1为声学模型“TRM-BiGRU-CTC”在测试集上的识别效果,表中还列出了BiGRU、CLDNN的字错率进行对比:

表1

由上述结果可知,在采取同样的数据预处理方法的情况下,本发明在ATC数据集上的识别效果优于“CLDNN”,也优于基准模型BiGRU。

本发明具有以下优势:

(1)ATC语音优势:本发明针对ATC语音的特点而专门设计了ATC空管语音数据集。

(2)模型优势:在本发明提供的声学模型结构中,TRM模块能够将输入的语音特征进行编码,通过自注意力机制分别计算每一帧特征与输入语音所有帧数据的相似度,充分考虑输入语音帧与帧之间发音和语义的相互联系,重新计算得到一种关联了上下文语音信息的特征表示。BiGRU是将双向循环神经网络与门控循环单元网络相结合的产物,兼具两者的优点,既可以同门控循环单元网络一样处理时序依赖关系,又可以与双向循环神经网络一样具有上下文信息。CTC是用来解决输入序列和输出序列难以一一对应的问题,而语音就是一个典型的输入序列与标签序列不对齐的问题,CTC正是针对这样的问题,使深度学习模型自动学习对齐,从而实现端到端的语音识别。综上所述,该声学模型结构具有合理性,同时,其主体结构仅由TRM和BiGRU层组成,不容易出现梯度消失和梯度爆炸等问题,模型训练过程容易收敛,并且对数据量要求相对较低,数据集标注成本低。与现有技术相比,本发明在数据量相对较少的ATC空管语音数据集上达到了更优的识别效果。

实施例2

参见图9,本实施例提供了一种中文民航空中交通管制语音识别系统,该系统包括:

语音特征数据获取模块901,用于获取语音特征数据,所述语音特征数据为基于语音信号提取得到的时序特征信息;

语音识别模块902,用于将所述语音特征数据输入经训练的声学模型,得到识别结果,所述识别结果表示所述语音信号对应的空中交通管制中文术语文字;所述声学模型包括:依次连接的TRM模块、BiGRU模块、全连接层FC和CTC模块,所述TRM模块包括依次连接的多头自注意力层、第一残差连接和层标准化层、前馈层以及第二残差连接和层标准化层,所述BiGRU模块包括双向门控循环单元网络,所述CTC模块包括连接时序分类层,所述声学模型由带有中文文字标签的空管指令术语语音样本训练得到。

作为本实施例的一种实施方式,所述中文民航空中交通管制语音识别系统还包括:

去静音模块,用于对所述语音信号进行去静音处理;

分帧模块,用于对所述语音信号进行分帧操作,得到多个语音帧,相邻语音帧具有设定比例的重叠区域;

语音特征数据确定模块,用于根据所述语音帧,确定所述语音特征数据;每一所述语音特征数据对应多个连续的语音帧,所述语音特征数据为语音的梅尔频率倒谱系数。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 一种中文民航空中交通管制语音识别方法及系统
  • 一种民航空中交通管制的场面监视引导系统
技术分类

06120113114181