导航：首页> 乐器；声学>语音识别方法、装置、电子设备及存储介质

语音识别方法、装置、电子设备及存储介质

文献发布时间：2024-04-18 20:02:18

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

语音识别技术(Automatic Speech Recognition，ASR)是一种将人的语音转写为文本的技术，其目标是将人类语音中的语音内容转换为可读的文本内容。

现有的语音文本转写服务主要是针对通用性语音文本转写的场景，使用现有的语音文本转写服务对语音中的通用性词汇或语句进行文本转写时，输出的文本内容较接近语音的真实内容，语音识别的准确度可以满足用户需求。

但在非通用的专业领域中，使用现有的语音文本转写服务对专业性较强的语音进行识别时，语音中的专业性词汇不能被正确识别，导致输出的文本内容与语音的真实内容差距较大，语音识别的准确度较低。

发明内容

本发明提供一种语音识别方法、装置、电子设备及存储介质，用以解决现有技术中语音识别的准确度较低的缺陷，实现提高语音识别准确度的目的。

本发明提供一种语音识别方法，包括：

获取待识别语音；

在所述待识别语音中包括目标领域对应的语音片段的情况下，提取所述待识别语音的logfbank特征；

将所述logfbank特征输入预先训练的语音识别模型，得到所述语音识别模型输出的语音识别文本，所述语音识别模型为基于目标领域内的多个第一语音样本、各所述第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各所述第二语音样本对应的第二文本样本进行训练得到的，所述第一语音样本中包括所述目标领域内的多个样本专业术语；

输出所述语音识别文本。

根据本发明提供的一种语音识别方法，所述多个第一语音样本为基于如下方式确定的：

采用TTS技术对第一训练文本进行语音合成，得到第一训练语音；

获取用户基于第二训练文本输入的第二训练语音；所述第一训练文本和所述第二训练文本中均包括所述目标领域内的样本专业术语；

将所述第一训练语音和所述第二训练语音确定为所述多个第一语音样本。

根据本发明提供的一种语音识别方法，所述待识别语音包括对话语音；

所述提取所述待识别语音的logfbank特征，包括：

提取所述对话语音中的各音色特征；

将同一音色特征对应的语音进行聚类，得到所述音色特征对应的聚类语音；

分别提取各所述聚类语音的logfbank特征；

所述将logfbank特征输入预先训练的语音识别模型，得到所述语音识别模型输出的语音识别文本，包括：

将各所述聚类语音的logfbank特征输入预先训练的语音识别模型，得到所述语音识别模型输出的语音识别文本。

根据本发明提供的一种语音识别方法，所述待识别语音包括至少两个语音片段和各所述语音片段对应的时间戳；所述语音识别文本中包括多个子文本和各子文本对应的时间戳，所述语音片段和所述子文本一一对应；

所述输出所述语音识别文本，包括：

基于各所述语音片段对应的时间戳的先后顺序和所述语音识别文本中的各子文本的时间戳，对各所述子文本进行排序，得到排序结果；

基于各所述音色特征，对所述排序结果中的各子文本添加对应的标识信息，得到目标语音识别文本；所述标识信息用于标识不同用户；

输出所述目标语音识别文本。

根据本发明提供的一种语音识别方法，所述获取待识别语音，包括：

获取初始待识别语音；

确定所述初始待识别语音中的静音片段，并在所述初始待识别语音中删除所述静音片段，得到所述待识别语音。

根据本发明提供的一种语音识别方法，所述输出所述语音识别文本，包括：

对所述语音识别文本进行语义分析，得到语义分析结果；

基于所述语义分析结果，在所述语音识别文本中添加标点符号；

输出添加标点后的语音识别文本。

根据本发明提供的一种语音识别方法，所述语音识别模型为基于如下方式训练得到的：

将所述第一语音样本和所述第二语音样本输入初始语音识别模型，得到所述第一语音样本对应的第一预测文本和所述第二语音样本对应的第二预测文本；

基于所述第一预测文本和所述第一文本样本，确定第一损失，并基于所述第二预测文本和所述第二文本样本，确定第二损失；

基于所述第一损失和所述第二损失，调整所述初始语音识别模型的模型参数，得到所述语音识别模型。

本发明还提供一种语音识别装置，包括：

获取模块，用于获取待识别语音；

提取模块，用于在所述待识别语音中包括目标领域对应的语音片段的情况下，提取所述待识别语音的logfbank特征；

处理模块，用于将所述logfbank特征输入预先训练的语音识别模型，得到所述语音识别模型输出的语音识别文本，所述语音识别模型为基于目标领域内的多个第一语音样本、各所述第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各所述第二语音样本对应的第二文本样本进行训练得到的，所述第一语音样本中包括所述目标领域内的多个样本专业术语；

输出模块，用于输出所述语音识别文本。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

本发明提供一种语音识别方法、装置、电子设备及存储介质，该方法中，对待识别语音进行语音识别的语音识别模型，是基于目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本进行训练得到的，且第一语音样本中包括目标领域内的多个样本专业术语，因此，训练得到的该语音识别模型可以在正确识别通用领域语音内容的基础上，还能正确识别目标领域语音中的专业术语，使语音识别模型输出的语音识别文本更接近待识别语音中的真实内容，语音识别文本的正确率较高，提高了语音识别的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音识别方法的流程示意图；

图2是本发明实施例提供的语音识别方法的流程框图；

图3是本发明实施例提供的语音识别装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明中为描述的对象所编序号本身，例如“第一”，“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

信息技术的快速发展，使得互联网中产生的数据呈现爆炸式增长。这些数据中不仅包括数值型的结构化数据，还包括海量的非结构化数据，其中，声音、文本和图像是较常见的三种非结构化数据。这些海量的非结构化数据中蕴藏着巨大的应用价值，如何将这些非结构化数据转换为机器可理解的语言是一个值得关注的问题。

ASR语音识别技术可以把声音转换为文本，计算机理解文本信息比理解声音信息更加容易。基于声音转换得到的文本数据，可以进行深度挖掘和应用，例如自动质检、智能文档或者精准营销等。因此，高准确度的ASR语音识别方法，是数据开发与应用的重要基础。

通用性的ASR接口服务能实现对非专业领域的语音进行文本转写，转写结果符合基本的应用需求。但对于垂直度较深的专业领域而言，语音信息中包含了大量的专业术语，采用通用性的ASR接口服务对专业领域的语音进行文本转写时，转写的文本内容与语音信息中的真实内容相差较大，语音识别结果的错误率较高。例如，在保险行业中通常使用大量关于保险和疾病的专业名词，通用性的ASR接口服务对包含专业名词的语音进行文本转写时，不能正确识别专业名词以及包括专业名词的语句，导致输出的文本内容错误率较高，影响后续的应用与开发。

针对以上存在的问题，本发明实施例提供一种语音识别方法，该方法基于语音识别模型对获取的待识别语音进行语音识别，其中，语音识别模型是基于包括目标领域内的多个样本专业术语的第一语音样本训练得到的，因此，语音识别模型可以正确识别待识别语音中目标领域内的专业术语，语音识别的准确度较高。下面结合图1和图2对本发明实施例提供的语音识别方法进行描述。

图1是本发明实施例提供的语音识别方法的流程示意图，本发明实施例可以适用于任意的需要进行语音识别的场景，例如可以是垂直度较深的专业领域的语音识别场景等。本方法的执行主体可以是手机、平板电脑、智能手表、智能音箱、翻译机、计算机或专门设计的语音识别设备等电子设备，也可以是设置在该电子设备中的语音识别装置，该语音识别装置可以通过软件、硬件或两者的结合来实现。如图1所示，该语音识别方法包括步骤110至步骤140。

步骤110，获取待识别语音。

具体地，待识别语音是需要进行语音识别的对象，例如，音频文件中的录音、视频文件中的录音或实时对话时说话人的语音等。待识别语音中可以包括由通用性词语组成的语音内容、由专业术语组成的语音内容或者由通用性词语与专业术语共同组成的语音内容。

示例性的，可以通过麦克风等语音采集装置获取待识别语音，也可以通过调取数据库中的音频文件或视频文件获取待识别语音，还可以是其他方式获取待识别语音。

步骤120，在待识别语音中包括目标领域对应的语音片段的情况下，提取待识别语音的logfbank特征。

具体地，目标领域可以是各专业领域中的领域，各专业领域可以理解为各垂直领域或各细分领域，例如，各专业领域包括医疗领域、保险领域、金融领域或教育领域等。

示例性的，可以按照字、词或句子对待识别语音进行分割处理，将待识别语音划分为多个语音片段。分别对各语音片段进行识别，当识别出语音片段中包括目标领域中的专业术语时，该语音片段即为目标领域对应的语音片段。在待识别语音中包括目标领域对应的语音片段的情况下，提取待识别语音的logfbank特征。

例如，对待识别语音的音频信号进行预处理，对预处理后的音频信号进行快速傅里叶变换得到该待识别语音对应的能量谱，其中，预处理可以包括分帧、预加重和加窗处理。进一步地，针对能量谱中的幅度谱进行梅尔滤波即可提取出该待识别语音对应的FBank特征。基于FBank特征进行对数变换即可得到该待识别语音对应的logfbank特征。logfbank特征的特征维度例如可以是80维的logfbank特征。logfbank特征与FBank特征之间的相关性较高，且相较于计算待识别语音的梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCC)，提取待识别语音的logfbank特征时的计算量更小。待识别语音的logfbank特征中包含的信息可以更充分地应用于神经网络模型，使语音识别的准确度得到提升。

步骤130，将logfbank特征输入预先训练的语音识别模型，得到语音识别模型输出的语音识别文本，语音识别模型为基于目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本进行训练得到的，第一语音样本中包括目标领域内的多个样本专业术语。

具体地，第一语音样本可以是包括目标领域内的多个样本专业术语的语音样本。例如目标领域为保险领域时，第一语音样本中包括保险领域内的多个样本专业术语，其中，样本专业术语例如可以是“被保险人”“受益人”“犹豫期”“生存金”或“大病险给付保险”等专业词语或专业用语。

第一语音样本对应的第一文本样本即将第一语音样本转写为文本后得到的文本。通用领域内的第二语音样本可以是包括非专业术语的语音样本，第二语音样本对应的第二文本样本即将第二语音样本转写为文本后得到的文本。

语音识别模型可以是基于初始语音识别模型、目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本进行训练后得到的神经网络模型。初始语音识别模型例如可以是ASR深度学习Conformer模型。

示例性的，针对Conformer模型，基于目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本对初始语音识别模型进行模型训练，得到语音识别模型。例如，基于PaddleSpeech模型库，使用A100 GPU进行训练。

Conformer模型通过注意力机制构建深度神经网络架构，可以更好地捕捉语音信息中的长期依赖关系，该模型结合了Transformer模型和CNN卷积神经网络(ConvolutionalNeural Network，CNN)模型的优点，采用混合架构，具有更高的计算效率和较低的模型大小，该模型强大的语言建模能力以及更紧密的语义表示能提升机器阅读理解和语言生成的性能。

将提取的logfbank特征输入预先训练的语音识别模型，可以得到语音识别模型输出的语音识别文本，该语音识别文本即为文本形式表示的待识别语音的内容。

步骤140，输出语音识别文本。

语音识别模型输出语音识别文本后，可以将该语音识别文本输出，便于后续应用。例如，语音识别模型输出语音识别文本后，将该语音识别文本通过显示屏显示，便于用户读取该语音识别文本；或者，语音识别模型输出语音识别文本后，将该语音识别文本存储在目标数据库中，便于应用程序调取该语音识别文本等。

本发明实施例提供的语音识别方法，该方法中对待识别语音进行语音识别的语音识别模型，是基于目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本进行训练得到的，且第一语音样本中包括目标领域内的多个样本专业术语，因此，训练得到的该语音识别模型可以在正确识别通用领域语音内容的基础上，还能正确识别目标领域语音中的专业术语，使语音识别模型输出的语音识别文本更接近待识别语音中的真实内容，语音识别文本的正确率较高，提高了语音识别的准确度。

第一语音样本中包括目标领域内的多个样本专业术语，基于第一语音样本训练得到的语音识别模型，可以使语音识别模型能够识别出待识别语音中的专业术语，因此，训练得到语音识别模型前，需要确定包括目标领域内的多个样本专业术语的第一语音样本。

在一实施例中，多个第一语音样本为基于如下方式确定的：采用TTS技术对第一训练文本进行语音合成，得到第一训练语音；获取用户基于第二训练文本输入的第二训练语音；第一训练文本和第二训练文本中均包括目标领域内的样本专业术语；将第一训练语音和第二训练语音确定为多个第一语音样本。

具体地，采用语音合成技术(Text To Speech，TTS)可以将文本转换为文本对应的语音。第一训练文本可以是包括目标领域内样本专业术语的训练文本，例如，提取目标领域专用文件中包括目标领域专业术语的段落或语句作为第一训练文本。采用TTS技术将文本形式的第一训练文本进行语音合成，可以得到第一训练文本对应的语音形式的第一训练语音。可以将第一训练语音确定为第一语音样本。

可选地，获取第一训练文本时可以将目标领域的音频转写为文本作为第一训练文本。例如，使用ASR接口服务将保险销售音频转为文字得到保险领域的第一训练文本。

第二训练语音可以是包括目标领域内样本专业术语的用户输入的训练语音，第二训练语音对应的文本即为第二训练文本。获取用户基于第二训练文本输入的第二训练语音，例如可以是通过语音采集装置获取用户朗读第二训练文本而生产的第二训练语音。可以将第二训练语音确定为第一语音样本。

可选地，针对不适合采用TTS技术进行语音合成得到第一训练语音的情况时，可以通过人工朗读专业词汇的方式获取用户基于第二训练文本输入的第二训练语音。不适合采用TTS技术进行语音合成得到第一训练语音的情况例如可以是采用TTS技术得到的第一训练语音的语音质量较差的情况。

在本实施例中，可以根据语音识别的需求针对目标领域灵活确定第一语音样本，确定出的第一语音样本中包括目标领域内的多个样本专业术语，使第一语音样本与目标领域具有较强的相关性。基于第一语音样本可以训练得到语音识别模型，基于语音识别模型进行语音识别可以识别出待识别语音中的专业术语，输出准确度较高的语音识别文本，符合业务场景下ASR转写服务的专业性要求。

为了提高语音识别的智能化水平，针对待识别语音包括对话语音时，提取待识别语音的logfbank特征，可以通过如下方式实现：提取对话语音中的各音色特征；将同一音色特征对应的语音进行聚类，得到音色特征对应的聚类语音；分别提取各聚类语音的logfbank特征。

具体地，对话语音可以是实时的对话语音，也可以是录制的对话语音，对话语音中包括至少两种音色的语音。在待识别语音包括对话语音的情况下，可以根据对话语音中各语音的音色信息提取对应的音色特征，其中，音色特征可以是基于声音的波形而提取的特征值。基于音色特征进行聚类，将同一音色特征对应的语音聚为同一类语音，即可得到各音色特征各自对应的聚类语音，进而可以针对各聚类语音分别提取logfbank特征。

举例来说，待识别语音中包括对话人甲、对话人乙和对话人丙三个人的对话语音，基于对话人各自发出声音的波形提取音色特征，将各音色特征作为对话人的标记对待识别语音中的各语音进行标记，即可区分各语音对应的对话人。将同一音色特征对应的语音进行聚类，得到音色特征对应的聚类语音，即可区分出对话人甲的语音、对话人乙的语音以及对话人丙的语音。分别对对话人甲的语音、对话人乙的语音以及对话人丙的语音提取logfbank特征。

进一步地，将logfbank特征输入预先训练的语音识别模型，得到语音识别模型输出的语音识别文本，具体可以是，将各聚类语音的logfbank特征输入预先训练的语音识别模型，得到语音识别模型输出的语音识别文本。

示例性的，将各聚类语音的logfbank特征输入预先训练的语音识别模型，可以得到语音识别模型输出的各聚类语音对应的语音识别文本，实现区分待识别语音中不同对话人的语音识别文本的目的。

例如，分别将提取的对话人甲、对话人乙以及对话人丙的语音的logfbank特征输入预先训练的语音识别模型，可以分别得到对话人甲、对话人乙以及对话人丙的语音对应的语音识别文本，使输出的语音识别文本与对话人分别对应，并于阅读和理解输出的语音识别文本。

在本实施例中，针对待识别语音包括对话语音的情况，基于各对话语音提取对话语音中的各音色特征，并将同一音色特征对应的语音进行聚类得到各聚类语音，将分别提取的各聚类语音的logfbank特征输入预先训练的语音识别模型，可以得到语音识别模型输出的语音识别文本。这样，可以对待识别语音中不同音色对应的语音内容进行区分识别，得到各音色对应的语音识别文本，提高了语音识别的智能化水平，能快速生成不同对话人对应的转写文本，方便快捷，便于语音识别文本的后续应用，提高使用效率。

为了进一步提高语音识别的智能化水平，使待识别语音对应的语音识别文本中的内容顺序与待识别语音中的内容顺序保持一致，可以基于时间戳对语音识别文本中的内容进行排序。

在一实施例中，待识别语音包括至少两个语音片段和各语音片段对应的时间戳；语音识别文本中包括多个子文本和各子文本对应的时间戳，语音片段和子文本一一对应；输出语音识别文本，具体可以通过如下方式实现：

基于各语音片段对应的时间戳的先后顺序和语音识别文本中的各子文本的时间戳，对各子文本进行排序，得到排序结果；基于各音色特征，对排序结果中的各子文本添加对应的标识信息，得到目标语音识别文本；标识信息用于标识不同用户；输出目标语音识别文本。

具体地，待识别语音包括至少两个语音片段和各语音片段对应的时间戳，其中，语音片段对应的时间戳可以是表征语音片段的时间顺序的标记，例如可以是自定义的时间标记，也可以是真实时间对应的时间标记等。

举例来说，时间戳为自定义的时间标记时，可以以待识别语音的起始时间为0时0分0秒进行记时，对待识别语音中各语音片段分别标记时间戳。例如，将语音片段起始的时间距离待识别语音起始时间之间的时长标记为该语音片段的时间戳。该方式的时间戳可以直观表示各语音片段距离待识别语音起始时间之间的时长，便于确定各语音片段处于待识别语音中的时间位置以及各语音片段之间的时间间隔。

时间戳为真实时间对应的时间标记时，可以将真实时间作为时间标记对待识别语音中的各语音片段进行标记，例如，将待识别语音中各语音片段产生时的日期及时间作为各语音片段对应的时间戳。该方式的时间戳可以便于确定各语音片段产生时的真实时间。各语音片段对应的时间戳可以是自定义的时间标记或真实时间对应的时间标记中的至少之一，通过各语音片段对应的时间戳可以对各语音片段进行时间维度的排序。

语音片段和子文本一一对应，可以理解为，对语音片段进行语音识别后输出对应于该语音片段的子文本，该语音片段与该子文本一一对应，进而，语音片段对应的时间戳，即为该语音片段对应的子文本对应的时间戳，二者的时间戳可以为同一时间标记。

基于各语音片段对应的时间戳的先后顺序和语音识别文本中的各子文本的时间戳，对各子文本进行排序，可以将各子文本按照各语音片段的时间先后顺序进行相同时间顺序的排序，得到排序结果，即，得到按照时间先后顺序进行排序的各子文本。

标识信息可以用于标识不同用户，例如，标识信息可以是用户的名称、代号或头像等。进一步地，基于各音色特征，对排序结果中的各子文本添加对应的标识信息，可以得到目标语音识别文本。根据各音色特征可以区分各语音片段对应的用户，则可以通过标识信息对各语音片段对应的子文本进行区分标示，便于分辨各子文本对应的用户。

目标语音识别文本中的各子文本可以包括其对应的标识信息以及其对应时间戳，将目标语音识别文本输出，可以更加方便地查阅或读取该目标语音识别文本，提高了语音识别的智能化水平，便于语音识别文本的后续应用，提高应用效率，相比于人工转写可以节约90％的时间。

为了进一步提高语音识别的效率和准确度，可以将待识别语音中的静音片段删除，得到连续性更高的待识别语音。

在一实施例中，获取待识别语音，具体可以是：获取初始待识别语音；确定初始待识别语音中的静音片段，并在初始待识别语音中删除静音片段，得到待识别语音。

具体地，可以通过麦克风等语音采集装置获取初始待识别语音，也可以通过调取数据库中的音频文件或视频文件获取初始待识别语音，还可以是其他方式获取初始待识别语音。

获取初始待识别语音后，可以基于待识别语音的语音信号确定初始待识别语音中的静音片段，其中，静音片段可以是初始待识别语音中没有语音内容的片段。在确定初始待识别语音中的静音片段时，可以基于预设时长确定静音片段。将小于或等于预设时长内没有语音内容的片段确定为静音片段。例如，预设时长设置为100ms时，将初始待识别语音中小于或等于100ms且没有语音内容的片段确定为静音片段。进一步地，将初始待识别语音中确定出的静音片段均删除后，即可得到待识别语音。

在本实施例中，针对初始待识别语音确定其中的静音片段，删除初始待识别语音中的静音片段，即可得到待识别语音，针对该待识别语音进行语音识别，可以提高语音识别的效率；同时，针对该待识别语音进行语音识别，可以避免静音片段对提取待识别语音的logfbank特征的影响，提高语音识别的准确度。

为了进一步提高语音识别的智能化水平，可以对语音识别文本进行语义分析，并在语义分析后的语音识别文本添加标点符号，使其便于用户阅读和理解。

在一实施例中，输出语音识别文本，具体可以通过如下方式实现：对语音识别文本进行语义分析，得到语义分析结果；基于语义分析结果，在语音识别文本中添加标点符号；输出添加标点后的语音识别文本。

具体地，可以通过语义分析模型对语音识别文本进行语义分析，得到语义分析结果，语义分析模型例如可以是对文本的语义进行分析的网络模型。将需要进行语义分析的语音识别文本输入语义分析模型，语义分析模型可以输出语义分析结果。针对语义分析结果，根据标点符号使用规则可以在语义分析后的语音识别文本中添加标点符号，即可输出添加标点后的语音识别文本。

示例性的，语义分析模型可以是基于初始语义分析模型通过以下的训练方式训练后得到的。

在语料库中抽取用于模型训练的训练词句样本，并对训练词句样本的语义进行样本标签的标注。对初始语义分析模型进行有监督的训练，将训练词句样本分别输入初始语义分析模型中，得到初始语义分析模型输出的目标语义标签，基于目标语义标签和训练词句样本的样本标签计算对应的损失函数的值，根据损失函数的值对初始语义分析模型的各参数进行参数调优，最终可以得到训练好的语义分析模型。其中，初始语义分析模型例如可以是深度神经网络(Deep Neural Networks，DNN)、CNN卷积神经网络、循环神经网络(Recurrent Neural Networks，RNN)、长短期记忆(Long short-term memory，LSTM)神经网络等其中的至少一种神经网络模型，但不限于此。

在本实施例中，对语音识别文本进行语义分析，基于语义分析结果，在语音识别文本中添加标点符号，通过添加标点符号可以使语音识别文本的语义更加清晰，避免阅读时没有标点符号导致的阅读障碍，进而可以提高用户阅读和理解语音识别文本的效率，提高本方法的智能化水平。

对待识别语音进行语音识别时，需要利用语音识别模型。为了能得到准确度较高的语音识别模型，在一实施例中，语音识别模型可以基于如下方式训练得到的：

将第一语音样本和第二语音样本输入初始语音识别模型，得到第一语音样本对应的第一预测文本和第二语音样本对应的第二预测文本；基于第一预测文本和第一文本样本，确定第一损失，并基于第二预测文本和第二文本样本，确定第二损失；基于第一损失和第二损失，调整初始语音识别模型的模型参数，得到语音识别模型。

具体地，语音识别模型可以是基于初始语音识别模型、第一语音样本和第二语音样本训练后得到的神经网络模型。其中，第一语音样本可以是包括目标领域内的多个样本专业术语的语音样本，第二语音样本可以是包括通用领域内词语的语音样本。初始语音识别模型可以是用于语音识别的初始的神经网络模型，例如可以是ASR深度学习Conformer模型、DNN深度神经网络、CNN卷积神经网络模型、RNN循环神经网络、LSTM长短期记忆神经网络等其中的至少一种神经网络模型，但不限于此。

将第一语音样本输入初始语音识别模型，得到初始语音识别模型输出的第一预测文本，基于第一预测文本和第一语音样本对应的第一文本样本可以确定出与第一预测文本对应的第一损失；将第二语音样本输入初始语音识别模型，得到初始语音识别模型输出的第二预测文本，基于第二预测文本和第二语音样本对应的第二文本样本可以确定出与第二预测文本对应的第二损失。确定第一损失和第二损失时可以通过训练时使用的损失函数来确定，损失函数例如可以为交叉熵损失函数等。

基于第一损失和第二损失，调整初始语音识别模型的模型参数，得到语音识别模型，例如可以是根据设置的调参阈值来确定模型参数。示例性的，当得到的第一损失或第二损失至少之一大于调参阈值时，可以确定当前的模型参数不优，需要继续调整；当得到的第一损失和第二损失均小于或等于调参阈值时，可以确定当前的模型参数较优，可以停止调整初始语音识别模型的模型参数，当前的初始语音识别模型即为训练后得到的语音识别模型。

在本实施例中，基于第一语音样本和第二语音样本对初始语音识别模型进行模型训练，可以得到语音识别模型。训练得到的该语音识别模型可以在正确识别通用领域语音内容的基础上，还能正确识别目标领域语音中的专业术语，使语音识别模型输出的语音识别文本更接近待识别语音中的真实内容，语音识别文本的正确率较高，提高了语音识别的准确度。

图2是本发明实施例提供的语音识别方法的流程框图，如图2所示，可以基于语音总时长为10000小时的通用领域语料库和语音总时长为10000小时的目标领域语料库对初始语音识别模型进行模型训练，以得到语音识别模型。10000小时的通用领域语料库例如可以是10000小时的WenetSpeech语料库，10000小时的目标领域语料库可以是垂直领域的语料库。对语料库中的语音样本分别进行特征提取，例如，提取80维logfbank特征。将提取的特征输入初始语音识别模型进行模型训练，即可得到训练后的语音识别模型，其中，初始语音识别模型可以包括编码器和译码器，初始语音识别模型可以是ASR深度学习Conformer模型，编码器可以是Transformer Encoder，译码器可以是CTC beam Decoder。

将待识别语音进行分段处理，可以得到至少两个语音片段，分别对语音片段进行特征提取，将提取的特征输入训练后的语音识别模型，可以得到语音识别模型输出的该待识别语音对应的语音识别文本。进一步地，可以对语音识别文本添加对应的标点符号，便于用户阅读和理解，将语音识别文本整理成带有时间戳和说话人标识信息的转写文本打包输出。

本发明实施例可以采用不同的方式快速收集确定语音样本，针对垂直的目标领域，提供对待识别语音进行语音识别的方法。本发明实施例提供的语音识别方法，可以将业务中的录音数据等待识别语音转写为准确度较高的文本数据，便于后续的开发和使用。相比于通用性的语音识别方法。该方案能够很好的拓展到非通用的垂直领域，并可以提高语音识别的准确度。

基于包括目标领域内的多个样本专业术语的第一语音样本训练得到的语音识别模型，可以避免使用外部的语音识别服务接口导致公司录音等私密数据泄露的问题，极大地保证了数据安全。同时，使用该方法将非结构化的语音数据转化为文本数据进行数字化存储，方便查看和分析，可以灵活开发多种应用，适应更多业务场景，实现降本增效的目的，并可以为外部企业提供垂直领域的语音识别解决方案。

下面对本发明实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

图3是本发明实施例提供的语音识别装置的结构示意图，参照图3所示，语音识别装置300包括：

获取模块310，用于获取待识别语音；

提取模块320，用于在待识别语音中包括目标领域对应的语音片段的情况下，提取待识别语音的logfbank特征；

处理模块330，用于将logfbank特征输入预先训练的语音识别模型，得到语音识别模型输出的语音识别文本，语音识别模型为基于目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本进行训练得到的，第一语音样本中包括目标领域内的多个样本专业术语；

输出模块340，用于输出语音识别文本。

在一种示例实施例中，多个第一语音样本为基于如下方式确定的：

采用TTS技术对第一训练文本进行语音合成，得到第一训练语音；

获取用户基于第二训练文本输入的第二训练语音；第一训练文本和第二训练文本中均包括目标领域内的样本专业术语；

将第一训练语音和第二训练语音确定为多个第一语音样本。

在一种示例实施例中，待识别语音包括对话语音；

提取模块320具体用于：提取对话语音中的各音色特征；将同一音色特征对应的语音进行聚类，得到音色特征对应的聚类语音；分别提取各聚类语音的logfbank特征；

处理模块330具体用于：将各聚类语音的logfbank特征输入预先训练的语音识别模型，得到语音识别模型输出的语音识别文本。

在一种示例实施例中，待识别语音包括至少两个语音片段和各语音片段对应的时间戳；语音识别文本中包括多个子文本和各子文本对应的时间戳，语音片段和子文本一一对应；

输出模块340具体用于：

基于各语音片段对应的时间戳的先后顺序和语音识别文本中的各子文本的时间戳，对各子文本进行排序，得到排序结果；

基于各音色特征，对排序结果中的各子文本添加对应的标识信息，得到目标语音识别文本；标识信息用于标识不同用户；

输出目标语音识别文本。

在一种示例实施例中，获取模块310具体用于：

获取初始待识别语音；

确定初始待识别语音中的静音片段，并在初始待识别语音中删除静音片段，得到待识别语音。

在一种示例实施例中，输出模块340具体用于：

对语音识别文本进行语义分析，得到语义分析结果；

基于语义分析结果，在语音识别文本中添加标点符号；

输出添加标点后的语音识别文本。

在一种示例实施例中，语音识别模型为基于如下方式训练得到的：

将第一语音样本和第二语音样本输入初始语音识别模型，得到第一语音样本对应的第一预测文本和第二语音样本对应的第二预测文本；

基于第一预测文本和第一文本样本，确定第一损失，并基于第二预测文本和第二文本样本，确定第二损失；

基于第一损失和第二损失，调整初始语音识别模型的模型参数，得到语音识别模型。

本实施例的装置，可以用于执行语音识别方法侧实施例中任一实施例的方法，其具体实现过程与技术效果与语音识别方法侧实施例中类似，具体可以参见语音识别方法侧实施例中的详细介绍，此处不再赘述。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行语音识别方法，该方法包括：获取待识别语音；在待识别语音中包括目标领域对应的语音片段的情况下，提取待识别语音的logfbank特征；将logfbank特征输入预先训练的语音识别模型，得到语音识别模型输出的语音识别文本，语音识别模型为基于目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本进行训练得到的，第一语音样本中包括目标领域内的多个样本专业术语；输出语音识别文本。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音识别方法，该方法包括：获取待识别语音；在待识别语音中包括目标领域对应的语音片段的情况下，提取待识别语音的logfbank特征；将logfbank特征输入预先训练的语音识别模型，得到语音识别模型输出的语音识别文本，语音识别模型为基于目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本进行训练得到的，第一语音样本中包括目标领域内的多个样本专业术语；输出语音识别文本。

又一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音识别方法，该方法包括：获取待识别语音；在待识别语音中包括目标领域对应的语音片段的情况下，提取待识别语音的logfbank特征；将logfbank特征输入预先训练的语音识别模型，得到语音识别模型输出的语音识别文本，语音识别模型为基于目标领域内的多个第一语音样本、各第一语音样本对应的第一文本样本、通用领域内的多个第二语音样本和各第二语音样本对应的第二文本样本进行训练得到的，第一语音样本中包括目标领域内的多个样本专业术语；输出语音识别文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：元保科创(北京)科技有限公司;

上一篇：石英谐振器及其制造方法
下一篇：一种存储辅助大数据多路径传输调度方法