一种机车司机作业标准语音识别装置及其语音识别方法

文献发布时间：2023-06-19 09:30:39

技术领域

本发明专利涉及语音识别技术领域，尤其涉及一种机车司机室司机作业标准语音识别装置。

背景技术

列车运行控制系统简称列控，是保证列车安全、快速运行的系统。列车运行控制系统的主要作用是完成列车的间隔控制和速度控制。完整的列车运行控制系统应包括车载设备和地面设备。

机车信号、列车自动停车装置、列车无线调度电话合称为“机车三大件”。自20世纪80年代开始在我国铁路迅速普及。它们对保证行车安全，提高运输效率起到了显著作用，也是我国列车运行控制系统的起点。

但长期以来，列车运行控制系统在我国铁路并未形成技术规范.未得到系统发展，一直是利用地面联锁和闭塞设备，配合车载机车信号和列车运行监控记录装置.采用司机人工控车为主的列车控制模式。直到2003年，原铁道部才制订发展中国列车运行控制系统(Chinese Train Control System，以下简称为CTCS)的规划。2007年，在第六次大提速工程中，开始采用CTCS-2级列控系统。

伴随我国高速铁路的发展.列车运行控制系统已由以地面信号为主的机车信号、列车运行监控记录装置发展为以车载信号为主的具有超速防护功能的CTCS-2级和CTCS-3级列控系统。目前，在我国高速铁路上广泛应用了列车运行控制系统。

而在列车运行控制系统的使用过程中，机车司机室司机在行车过程中的不同时间点需要说出不同的标准语音命令，现阶段并没有理想的设备对司机是否在固定时间按规定说出相应的语音指令进行监控，从而进一步的规范司机在行车过程中的操作行为。这样一来司机在驾驶过程中容易出现不规范的操作，从而提高了机车行驶的危险性。

因此，需要一个能够适应机车司机室环境、消除回声并降噪以及准确识别机车司机作业标准语音的语音识别装置来解决上述的问题。

发明内容

本发明的目的在于构建一套机车司机室司机作业标准语音识别装置。该装置包含两部分，一部分是前端拾音器，另一部分是后端处理设备，由于机车司机室环境及硬件条件的限制，因此硬件计算平台需要满足车载环境条件、硬件接口条件、软件功能条件。另一方面来说，同时也需要一个有足够高准确率的语音识别方法来对采集到的司机音频信息进行识别。

为解决上述技术问题，本专利采用下述技术方案：

一种机车司机作业标准语音识别装置，包括拾音器、扬声器和硬件计算平台，所述拾音器在特定时间点采集机车司机室的语音数据，所述硬件计算平台包括语音处理单元、储存单元和通信单元，所述语音处理单元将采集到的语音数据进行语音处理和语音识别，所述储存单元将所述语音处理单元的语音识别结果和其相关数据进行储存，所述通信单元用于实现所述硬件计算平台和外部设备的通信，所述扬声器播报语音根据所述语音识别结果对司机进行反馈。

进一步地，所述拾音器为多麦线型阵列拾音器，所述拾音器具有降噪及回声消除功能。

进一步地，所述硬件计算平台通过车载电源实现24V供电，拾音器及扬声器供电通过所述硬件计算平台将24V转换为12V实现。

进一步地，所述硬件计算平台为性能满足深度学习功能需要的开发计算平台。

进一步地，所述硬件计算平台装配有一个用于连接外部显示器的接口和一个用于传输所述存储单元数据的接口。

进一步地，所述拾音器和所述扬声器通过模拟信号与所述硬件计算平台通信，所述硬件计算平台通过Linein和Lineout接口以及防水DB9连接器来连接外界所述拾音器和所述扬声器。

进一步地，所述语音处理单元包括特征提取模块和语音识别模块，所述特征提取模块的输入为所述语音数据，所述特征提取模块获取所述语音数据的特征向量，将所述特征向量输出给解码器；所述语音识别模块为解码器，所述解码器包括声学模型模块和语言模型模块，所述解码器的输入为所述特征向量，所述解码器的输出为语音识别结果；所述声学模型模块通过以下步骤训练：获取语料库中音频库的音频信息，提取所述音频信息中的特征信息训练声学模型；所述语言模型模块通过以下步骤训练：获取语料库中文本库的文本信息，利用所述文本信息训练语言模型。

进一步地，所述声学模型模块的声学模型为循环神经网络RNN深度学习模型，所述语言模型模块的语言模型为2-Gram模型。

一种装配了上述任一种机车司机作业标准语音识别装置的轨道交通工具。

一种使用了上述任一种机车司机作业标准语音识别装置的语音识别方法，其步骤为：

机车司机在行车过程中不同时间点说出相应的标准语音命令词，在列车运行监控装置发出提示信号时间戳的前后一个特定时间段内，所述语音识别装置开启语音处理功能，拾音器对该语音数据进行采集，采集到的语音数据通过音频接口输入硬件计算平台的语音处理单元，所述语音处理单元对接收到的语音数据进行语音识别，所述处理单元输出文本信息，存储模块储存所述文本信息和相应的时间，若在这个时间段内没有匹配到任何有效的文本信息，则扬声器对机车司机进行报警提示。

本发明构建了一套满足轨道交通领域车载使用条件需求，用于机车司机室司机标准语音作业的实时语音识别装置，并将识别信息以文本形式记录存储，有效检测司机的行为规范。该装置前端采用的具有降噪、回声消除功能的多麦线型阵列拾音器，能够通过拾音器对环境噪声做降噪处理，提高司机语音的质量，进而提高后续语音识别的识别率。硬件计算平台不仅满足轨道交通领域环境等对硬件设备使用条件的要求，同时采用的Jetson TX2核心板支持更大、更深、更复杂的深度神经网络的算法，同时开发了相应的音频及通信接口满足拾音器及外部设备的连接需求。软件实时语音识别采用基于深度学习的方法完成。可通过前期基于司机室采集到的声音做模型训练，使得模型在机车司机室的识别效果更佳理想。

附图说明

本专利申请的以上技术内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是，附图仅作为所请求保护的技术方案的示例。在附图中，相同的附图标记代表相同或类似的元素。

图1是本发明的机车司机作业标准语音识别装置的构造图。

图2是本发明的机车司机作业标准语音识别装置的运行原理示意图。

图3是图2中灰色箭头连接的训练流程图。

图4是图2中白色箭头连接的识别流程图。

具体实施方式

以下在具体实施方式中叙述本专利申请的详细特征以及优点，其内容足以使本领域技术人员了解本专利的技术内容并据以实施，且根据本说明书、权利要求及附图，本领域技术人员可轻易地理解本专利相关的目的及优点。

如图1所示，机车司机作业标准语音识别装置，包括拾音器、扬声器和硬件计算平台。所述硬件计算平台通过车载电源实现24V供电，拾音器及扬声器供电通过所述硬件计算平台将24V转换为12V实现。所述硬件计算平台装配有一个用于连接外部显示器的接口，例如可以是HDMI接口，硬件计算平台还装配有一个用于传输所述存储单元数据的接口，例如可以是USB接口。在一个实施例中，所述拾音器和所述扬声器通过模拟信号与所述硬件计算平台通信，所述硬件计算平台通过Linein和Lineout接口以及防水DB9连接器来连接外界所述拾音器和所述扬声器。

由于轨道交通领域声音环境的复杂性使得语音交互技术的发展受到限制，噪声对语音交互的效果影响较大。前端如果能够通过采用降噪拾音设备进行声音的采集，对后端语音识别的效果会有大大的提升。降噪也将成为在轨道交通领域进行语音识别技术的先决条件。麦克风阵列只是完成了物理世界的声音信号处理，需要与后端软件系统相匹配才能得到最好的效果。为提高轨道交通领域语音识别的准确率，语音降噪是必须采用的关键技术。所述拾音器采集机车司机室的语音数据，所述拾音器为多麦线型阵列拾音器，所述拾音器具有降噪及回声消除功能。

所述扬声器播报语音对司机进行反馈。

所述硬件计算平台为性能满足深度学习功能需要的开发计算平台。所述硬件开发平台能为Jeston TX2核心板开发计算平台。

所述硬件计算平台包括语音处理单元、储存单元和通信单元。

所述语音处理单元包括特征提取模块和语音识别模块。所述语音处理单元的语音处理功能根据列车运行监控装置所发出提示信号的时间戳开启。

所述储存单元将所述语音处理单元的语音识别结果和其相关数据进行储存。

所述通信单元用于实现所述硬件计算平台和外部设备的通信。

所述特征提取模块的输入为所述语音数据，所述特征提取模块获取所述语音数据的特征向量，并将所述特征向量输出给所述语音识别模块。所述特征提取模块包括：

用于标注所述语音数据，将所述标注后的语音数据进行采样，输出处理过的语音数据的模块；

用于对所述语音处理过的语音数据采用汉明窗和帧移进行加窗分帧操作，输出以一帧为单位的语音数据片段的模块；

用于对所述语音数据片段进行短时傅里叶变换，输出处理过得语音数据片段的模块；

用于把所述处理过的语音数据片段沿着另一个维度堆叠起来，输出二维信号声谱图的模块；

用于通过梅尔倒谱滤波器组，将所述二维信号声谱图中不统一的频率转化为统一的频率，输出梅尔频率倒谱系数MFCC作为该帧语音数据的特征向量，所述特征向量为解码器的输入的模块。

所述语音识别模块包括解码器，所述解码器利用声学模型模块和语言模型模块，所述解码器的输入为所述特征向量，所述解码器的输出为语音识别结果。下述公式为所述解码器的公式表达式，建模后针对输入的所述特征向量O用贝叶斯决策最大后验概率方法估计得到最优输出序列W。其中，条件概率P(O|W)表示模型生成观察序列的概率，似然值P(W)表示序列W出现的一个先验概率。

所述声学模型模块的声学模型循环神经网络RNN深度学习模型。所述声学模型模块通过以下步骤训练：获取语料库中音频库的音频信息，提取所述音频信息中的特征信息训练声学模型。

循环神经网络(RNN)是一类用于处理序列数据的神经网络模型，序列数据有一个特点是后面的数据和前面的数据有关，语音数据满足该特点，因此，采用RNN网络对语音数据进行训练能够充分利用前面的语音数据信息对后面的语音输出做预测。RNN的训练过程如下，定义如下表示

(1)x(t)表示在时间序列维度为t时训练样本的输入

(2)h(t)表示在时间序列维度为t时网络的隐藏状态，由图中网络结构可以看到h(t)

由x(t)和h(t-1)一起决定；

(3)o(t)表示在时间序列维度为t时网络的输出，由图中网络结构可以看到o(t)只由

网络当前的隐藏状态h(t)决定；

(4)L(t)表示在时间序列维度为t时网络的损失函数；

(5)y(t)表示在时间序列维度为t时训练样本的真实值；

(6)U、W、V是网络的权重矩阵，与普通神经网络模型不同的是，RNN是带有环状结构的神经网络，其权值矩阵在网络结构中是共享的。

首先进行RNN前向传播算法，对于任意一个时间维度t时刻，隐藏状态h(t)与x(t)和h(t-1)二者相关：

h(t)＝σ(Ux(t)+Wh(t-1)+b)

σ为隐层的激活函数，b为针对隐层的线性关系的偏移量。同理，在此时间维度t时刻，网络的输出为：

o(t)＝Vh(t)+c

c为针对输出层的线性关系的偏移量。经激活后的输出值，即针对样本x的网络模型预测值为：

最后，可以通过比较模型的预测值与真实值之间的误差来量化模型的训练精度。

RNN反向传播算法的求解思路使用梯度下降法，通过一次次的迭代，求得适合该模型的最佳参数组合，包括3个权值矩阵(U、W、V)和2个线性关系偏移量(b、c)；但是RNN模型中多了时间维度，即传播过程是基于时间反向传播；其次所有的参数在时间维度的任意一个时刻上是共享的。由于RNN结构的特殊性，在时间序列维度的每一个时刻都有预测输出，也代表着每一个时刻都会有损失函数，所以总的损失为：

L＝∑ Lτ(t)t＝1

由此权值矩阵V和线性关系偏移量c的梯度可以表示为:

求解权值矩阵W和U以及偏移量b的梯度时，由于考虑到在反向传播时，在某一个时间序列维度t的梯度损失是由两个部分组成的，分别是当前位置的输出所对应的梯度损失和t+1时刻的梯度损失，因此需要借助于某一时间序列维度t的隐藏状态的梯度δ(t)来一步步计算以上三个参数的梯度：

则我们可以得到类似于普通神经网络误差反向传播中的递推公式

对于最后一个时刻τ的隐藏状态的梯度δ(τ)，有：

至此，可以求解其他3个参数的梯度如下：

所述语言模型模块的语言模型为2-Gram模型。所述语言模型模块通过以下步骤训练：获取语料库中文本库的文本信息，利用所述文本信息训练语言模型。

2-Gram模型为N-gram模型与链式规则的结合，将词序列w

本方案包括装配了所述的任一种机车司机作业标准语音识别装置的轨道交通工具。

下面以实施例1为例，来说明本机车司机作业标准语音识别装置的运行流程。

实施例1：机车司机在行车过程中不同时间点说出相应的标准语音命令词，在机车LKJ监控装置发出提示信号的所述时间戳的前后一个特定时间段内，例如一分钟内，本装置开启语音处理功能，拾音器对该语音数据进行采集，采集到的语音数据通过音频接口输入硬件计算平台的语音处理单元，所述语音处理单元对接收到的语音数据进行语音识别，所述处理单元输出文本信息，同时存储模块储存所述文本信息和相应的时间，若在这个时间段内没有匹配到任何有效的文本信息，则扬声器对机车司机进行报警提示。

这里基于的术语和表述方式只是用于描述，本专利并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。

同样，需要指出的是，虽然本专利已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本专利，在没有脱离本专利精神的情况下还可做出各种等效的变化或替换，因此，只要在本专利的实质精神范围内对上述实施例的变化、变型都将落在本专利的权利要求书的范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘悦;胡云卿;林军;罗潇;游俊;
专利申请人：中车株洲电力机车研究所有限公司;

上一篇：平衡系统及平衡系统的控制方法
下一篇：一种软包锂离子电池极片析锂的判定方法