掌桥专利:专业的专利平台
掌桥专利
首页

一种混合巴基斯坦口音的英语语音判别方法

文献发布时间:2024-04-18 19:48:15


一种混合巴基斯坦口音的英语语音判别方法

技术领域

本发明涉及语音识别技术领域,特别是涉及一种混合巴基斯坦口音的英语语音判别方法。

背景技术

目前机载语音识别系统大多是针对单一语种,然而实际使用中会面临着来自不同国家和地区的机载语音识别任务,现有设计无法满足多语种或多口音的识别需求。虽然英语作为全球国际化交流的通用语言,但是不同地区的英语口音差异巨大。例如巴基斯坦人说英语的发音因本民族语、教育背景以及接触地道标准英语程度的不同存在明显差距,使得对巴基斯坦口音英语的理解度普遍较低,这也给语音识别任务带来了巨大的挑战。

参考文献《李曜,夏小春.一种针对巴基斯坦口音英语的飞机座舱指令识别装置:CN110797009A[P].2020》中提出了一种针对巴基斯坦口音英语的飞机座舱指令识别装置,着重解决巴基斯坦口音英语在通用的英语模型和识别引擎下准确率较低的问题。但该装置具有一定的局限性,只能识别有巴基斯坦口音的英语。如果巴基斯坦口音英语说话人与其他标准英语说话人混杂使用同一架飞机,则此识别系统可能受巴基斯坦口音英语的专用用语模型影响,无法有效识别出通用英语。

这时,如果在识别装置之前有一个自动判别转换系统,将输入的语音进行语言种类判定,然后让机载语音识别系统选择相应的方言语言语料训练模型进行语音识别,就可以有效地提升语音识别的效率和速度,大大降低了在多种英语口音混杂的识别场景中由于指令识别错误引发的误操作和反复输入及识别。

发明内容

本发明的目的在于提供一种混合巴基斯坦口音的英语语音判别方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种混合巴基斯坦口音的英语语音判别方法,包含以下步骤:

步骤1、数据准备:通过加大机载指令术语的训练权重来提升对相关机载术语捕捉的敏感度;

步骤2、特征提取:对语音信号进行数字化处理,去除冗余信息,将语音信号中能代表语音数据的信息提取出来;

步骤3、模型训练,分别获取巴基斯坦口音英语和通用英语语料库的含有音素边界信息的语谱图,对得到的频谱图进行了裁剪,最后得到200*400的单通道频谱数据矩阵,接着将这些用矩阵表示的频谱图信息输入到分类模型中,数据的标签是巴基斯坦口音的英语和通用英语的二维向量,将语音信号提取的表征数据和数据标签作为输入,使用卷积神经网络训练判别模型,然后即可由输入的语音数据得到口音类别;

步骤4、口音判断,训练好上述判别模型后,根据输入语音,即可判断该条语音是巴基斯坦口音英语还是通用英语,便于选择、调用对应的语音识别模型。

作为本发明的进一步技术方案:所述步骤2需要选择一种语音特征来作为口音识别的判决模型输入向量。

作为本发明的进一步技术方案:所述步骤2中,选取语谱图作为能代表巴基斯坦口音英语发音的语音特征,语谱图表示语音频谱随时间的变化,可以提取输入语音信号的各个音素单元,作为后续模型训练的输入数据。

作为本发明的进一步技术方案:由于语音中音素的边界在语谱图中可反映为不连续的图像特征,此时使用一个条带去除算法能够发现这些不连续点。

作为本发明的进一步技术方案:除了图像特征,还结合了声学特征参数中的梅尔参数随时间变化的频谱变化特征,根据图像和声学特征构建了一个混合概率函数,来确定语谱图中的音素边界,进一步对语谱图特征执行了音素分割操作,最终得到了语音数据中音素级别的语谱图特征A47J。

与现有技术相比,本发明的有益效果是:

本发明针对巴基斯坦口音英语与通用英语的口音识别提出了有效的解决方法,可以在语音识别系统的前端选择是否使用巴基斯坦口音英语专用的识别模型,可以有效地提高多地区口音英语机载语音识别模型的识别效率。同时,也为其他语种口音变体的英语机载识别研发提供支撑。

附图说明

图1为本发明的整体原理图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种混合巴基斯坦口音的英语语音判别方法,适用于机载语音识别系统的前端,可以用来对是否含巴基斯坦口音的英语进行判决,从而选择是否使用巴基斯坦口音专用的英语语音识别模型,包括以下步骤:

S1、数据准备阶段:由于机载领域采用特定用语,机载设施的语音相对于巴基斯坦人在日常交流中使用的英语,有很大的不同,会包含大量机载飞行相关的指令术语,用词会更加简洁,特定的命令也会有特定的语调。考虑到具有巴基斯坦口音的英语机载指令特点,通过加大机载指令术语的训练权重来提升此方法对相关机载术语捕捉的敏感度;

S2、特征提取阶段:在特征提取阶段,需要对语音信号进行数字化处理,去除冗余信息,将语音信号中能代表语音数据的信息提取出来。此时,需要选择一种语音特征来作为口音识别的判决模型输入向量。

巴基斯坦的英语口音具有极大难度的理解性,这是因为巴基斯坦作为一个多民族语言的国家,将乌尔都语和英语作为官方语言,但同时该国内行政区的四个省也各具有自己的省内主流语言,导致多语言混合使用。即使是官方的乌尔都语也受到阿拉伯语、波斯语和印度语的影响。因此他们个别元辅音的发音与标准英语具有极大的不同。

元音方面的差异性如下:

1)巴基斯坦口音英语的元音长度以及发音的唇舌位置与标准英语有一定差异。如:英语发音中长元音

2)巴基斯坦口音英语中的双元音存在被简化的现象,发音中常用单元音替代双元音,双元音的发音不够饱满。如:受旁遮普语等不同母语的发音影响,巴基斯坦人遇到以字母o开头的单词时,习惯性地将双元音发成单元音

3)巴基斯坦口音的英语的双元音会存在混淆现象,如

辅音方面的差异性如下:

1)巴基斯坦英语和中国英语发音有相似之处,存在鼻音混淆现象。常将词尾的/η/与/n/、/g/相混淆。

2)巴基斯坦英语中还存在爆破音浊化现象,巴基斯坦英语口音中/p/与/b/、/k/与/g/会存在混淆问题。浊化问题有时候会带来很大的理解障碍。如:清辅音/k/的浊化问题会使得come、companies、conclusion被错误理解成gone、gampan、gonglue等。

3)巴基斯坦英语存在边音混淆现象。如:巴基斯坦英语不区分/v/和/w/的发音,Harvard和wanted可能会被错误理解成hardwork和voted、vote或veto。

4)此外,/l/与/r/的混淆也导致听力识别的障碍。巴基斯坦英语中/r/的发音通常是卷舌且带有强烈的颤音,听起来很像/l/的发音,因此Roy可能被理解成lao或者lie。

5)擦音混淆也是他们英语发音的一个显著问题。/θ/和

6)复数词尾的“s”常被读成/z/。

7)/t/在/st/中比单独以/t/开头的字母中需要送气更多,例如steal和teach。

8)巴基斯坦人可以意识到明音/l/和暗音/l/之间的不同,但是他们却不能发出这些不同之处,他们会把单词开始和结尾处的/l/都发成明音/l/。例如steal结尾的暗音/l/被发成了light中开头的明音/l/。

音素是语言中最小的单位,包含元音与辅音。在本发明中,选取语谱图作为能代表巴基斯坦口音英语发音的语音特征。语谱图表示语音频谱随时间的变化,可以提取输入语音信号的各个音素单元,作为后续模型训练的输入数据。

因为语谱图不仅可以将一般噪声信息去除,还可以保留所有音素的特征,也可以使训练模型捕捉到每一个音素的细节与差异,这样构建的模型对于音素上的差异具有很强的识别性,从而能提升对于巴基斯坦地区英语口音的判断。

另外,由于语音中音素的边界在语谱图中可反映为不连续的图像特征,此时使用一个条带去除算法就可以发现这些不连续点。除了图像特征,还结合了声学特征参数中的梅尔参数随时间变化的频谱变化特征。根据图像和声学特征构建了一个混合概率函数,来确定语谱图中的音素边界。进一步对语谱图特征执行了音素分割操作,最终得到了语音数据中音素级别的语谱图特征。

S3、模型训练阶段;

在S2语音特征提取阶段之后,可以分别获取巴基斯坦口音英语和通用英语语料库的含有音素边界信息的语谱图。为了更好地符合人声100Hz~10000Hz的频率,对得到的频谱图进行了裁剪,最后得到200*400的单通道频谱数据矩阵。接着将这些用矩阵表示的频谱图信息输入到分类模型中,数据的标签是巴基斯坦口音的英语和通用英语的二维向量。

将语音信号提取的表征数据和数据标签作为输入,使用卷积神经网络训练判别模型,然后即可由输入的语音数据得到口音类别。

S4、口音判断阶段;

训练好上述判别模型后,根据输入语音,即可判断该条语音是巴基斯坦口音英语还是通用英语,便于选择、调用对应的语音识别模型。

本发明作为语音识别模型之前的一个判别模型,先行判断调用系统内最适合当前输入语音的识别模型,极大地提升了巴基斯坦口音英语和通用英语交杂时的语音识别效率。具体地,当需要识别的语音指令为巴基斯坦口音的英语时,则本发明可以对该语音数据进行判决,从而选择具有巴基斯坦口音的英语模型。如果识别出来的语音不是具有巴基斯坦口音的英语,则选择通用英语的语音识别模型。由此可以自由切换巴基斯坦口音的英语口音和通用英语,则语音识别模型就可以拥有更强的普适性,能够更好地应用于巴基斯坦口音的英语与通用英语交杂使用的情况中。

虽然本方法只适用于巴基斯坦口音英语和通用英语,暂时无法保证所有地区口音英语的识别率,但是本发明可以用于其他方言变体英语和其他语种识别和提升模型利用率方法的基础。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

技术分类

06120116309488