掌桥专利:专业的专利平台
掌桥专利
首页

一种基于kaldi的在线语音对话方法、系统、电子设备及计算机可读存储介质

文献发布时间:2023-06-19 19:30:30


一种基于kaldi的在线语音对话方法、系统、电子设备及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域,尤其涉及一种基于kaldi的在线语音对话方法、系统、电子设备及计算机可读存储介质。

背景技术

语音是人类相互交流和通信最方便快捷的手段。如何高效地实现语音传输、存储和通过语音实现人机交互,是语音信号处理领域中的重要研究课题。有关语音识别技术的国外研究起始于上个世纪50年代,而在这一时期的研究内容主要只是关于语音学的一些基本概念和原理。90年代,语音识别的实用化研究却取得了很大进展,很多很有影响力的公司针对语音识别都推出了自己的语音助手系统。

随着人工智能领域的发展,语音交互系统逐渐被应用于各个领域。语音交互系统能够极大地方便用户操作,简化操作过程,提升操作效率。基于深度学习模型(DNN)的技术思路被提出来,将神经网络技术引入到语音识别问题中,这就改变了原来基于标准模板匹配的思路。极大的提高识别准确率。

发明内容

针对上述技术问题,本发明提供了一种基于kaldi的在线语音对话方法、系统、电子设备及计算机可读存储介质。

本发明实施例提供一种基于kaldi的在线语音对话方法,所述方法包括如下步骤:利用Kaldi识别语音;利用深度学习模型对目标语音进行解码,获取解码文本;对解码文本进行文本意图提取;根据文本意图,使用应答策略在线应答并给出相应文本答案;将文本答案转换成语音信号。

可选地,所述方法还包括:对目标语音提取高维度语音特征;使用声学模型将高维度语音特征转换为声学模型得分。

可选地,所述利用深度学习模型对目标语音进行解码,获取解码文本的步骤包括:利用深度学习模型对声学模型得分序列进行维特比解码,使得声学模型得分和语言模型得分的加权和为最大,得到解码文本。

可选地,所述对解码文本进行文本意图提取的步骤包括:对解码文本进行意图提取,并提取文本的关键词。

可选地,所述将文本答案转换成语音信号的步骤包括:通过深度学习模型将文本答案转换为梅尔倒频谱;通过声码器将梅尔倒频谱转换为语音信号。

优选的,所述方法还包括:通过DA转换将语音信号转换为模拟信号,并进行播放。

本发明还提供了一种基于kaldi的在线语音对话系统,所述系统包括,

语音识别模块,利用深度学习模型对目标语音进行解码,获取解码文本;意图识别模块,对解码文本进行文本意图提取;

语音合成模块,根据文本意图,使用应答策略在线应答并给出相应文本答案,将文本答案转换成语音信号。

优选的,所述语音识别模块还用于,

对目标语音提取高维度语音特征;

使用声学模型将高维度语音特征转换为声学模型得分。

本发明还提供了一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述任一项所述方法的步骤。

本发明实施例提供的技术方案中,利用深度学习模型对目标语音进行解码,获取解码文本;对解码文本进行文本意图提取;根据文本意图,使用应答策略在线应答并给出相应文本答案;将文本答案转换成语音信号,相比于现有技术,本发明将神经网络技术引入到语音识别问题中,极大的提高识别准确率,并通过应答策略进行文本应答并转换语音,实现了自动应答。

附图说明

图1为本发明一种基于kaldi的在线语音对话方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供一种基于kaldi的在线语音对话方法,利用Kaldi识别语音;请参考图1所示,所述方法包括如下步骤:

步骤S10,对目标语音提取高维度语音特征。

对目标语音通过预加重,分帧,加汉明窗,快速傅里叶变换,梅尔倒频谱系统提取,最后得到高维度语音特征。

步骤S20,使用声学模型将高维度语音特征转换为声学模型得分。

步骤S30,利用深度学习模型对目标语音进行解码,获取解码文本。解码文本是对应目标语音的文字信息。例如,解码文本是将通话的目标语音转换后得到的短句。

本发明利用深度学习模型对声学模型得分序列进行维特比解码,使得声学模型得分和语言模型得分的加权和为最大,得到解码文本。具体的,使用语言模型对声学模型得分序列进行维特比解码,寻找一条解码路径,使该路径里面的声学模型得分和语言模型得分的加权和为最大,从而得到解码文本。

本发明声学模型将高维度语音特征转换为声学模型得分,声学模型包括DNN,RNN等模型,与此同时,语言模型,也就是类似于N-Gram和RNN等模型,会得到一个语言模型得分,最后解码搜索阶段会针对声学模型得分和语言模型得分进行综合,将得分最高的词序列作为最后的识别结构。

对所述输入语音进行语音识别处理以得出输入文本具体可通过在服务器端调用语音识别工具实现,该语音识别工具包括但不限于基于HMM和N-gram模型的语音识别工具:CMU Sphinx,Kaldi,HTK,Julius和ISIP。

步骤S40,对解码文本进行文本意图提取。

对解码文本进行意图提取,并提取文本的关键词。具体的,使用意图提取技术对解码文本进行意图提取,使用序列标注技术(包括但不限于LSTM+CRF,Transformer)提取文字的关键词。

本发明可以通过预先训练完成的深度神经网络模型,可以对文本内容进行语义分析和理解,得到目标语音的意图和关键词。

步骤S50,根据文本意图,使用应答策略在线应答并给出相应文本答案。

根据文本的意图和提取的关键词,使用在线的应答策略生成相应的文本答案,本申请实施例应答来电的内容是针对目标语音的意图得到的,针对不同的目标语音的意图,有不同的回答方式,使来电的应答更加智能。

步骤S60,将文本答案转换成语音信号。本发明通过语音合成技术将文本答案转换为语音信号,具体语音合成技术可以为SAPI,即通过SAPI实现语音合成。将文本答案转换为语音输出,是应答系统的最后一个阶段,要求合成语音的质量在MOS值4分以上。目前针对中文的开源的语音合成系统资源不是很多。服务器端的语音合成使用的开源TTS引擎有eSpeak、微软SAPI(The MicrosoftSpeech API)等。但是eSpeak的语音合成效果不是很好,考虑到服务器采用Windows操作系统,可以直接调用Windows的SAPI接口合成应答语音。

在本发明的其中一实施例中,步骤S60包括如下步骤:

通过深度学习模型将文本答案转换为梅尔倒频谱;

通过声码器将梅尔倒频谱转换为语音信号。

步骤S70,通过DA转换将语音信号转换为模拟信号,并进行播放。

本发明使用开源语音识别工具Kaldi,并用DNN-HMM(深度神经网络-隐马尔科夫模型)框架完成了对非特定人连续语音的识别,实时率(处理时间与音频时长之比)低且受噪音影响较小,在低信噪比环境中表现较好,准确率达到项目要求。并通过自动应答策略

本发明还提供一种基于kaldi的在线语音对话系统,所述系统包括语音识别模块,意图识别模块和语音合成模块,所述语音识别模块利用深度学习模型对目标语音进行解码,获取解码文本;意图识别模块对解码文本进行文本意图提取;语音合成模块,根据文本意图,使用应答策略在线应答并给出相应文本答案,将文本答案转换成语音信号。

所述语音识别模块还用于,对目标语音提取高维度语音特征;使用声学模型将高维度语音特征转换为声学模型得分。

本发明语音识别模块可以内置语音识别系统,例如开源的KALDI平台等。

本发明还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一实施例方法的步骤。

其中,存储器包括非易失性存储介质和内存储器。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行所述的基于kaldi的在线语音对话方法。

在本发明的其中一实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述基于kaldi的在线语音对话的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRA)、存储器总线(Rambus)直接RAM(RDRA)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120115932469