掌桥专利:专业的专利平台
掌桥专利
首页

语音意图识别方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 19:53:33


语音意图识别方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域,具体涉及一种语音意图识别方法、装置、电子设备及存储介质。

背景技术

智能语音客服系统已经广泛应用于各个行业中,如保险、银行、电信、电商等。智能语音客服识别用户以语音形式提出的问题,通过语义分析理解用户意图,并以拟人化的方式与用户沟通,向用户提供信息咨询等相关服务。目前的智能语音客服系统的核心是进行用户意图识别,明确用户意图后给出针对性的回答。

发明人在实现本发明的过程中发现,现有技术中对用户意图识别的主要方式为先通过语音识别将用户语音转译为文本,再将转译文本输入NLU模块识别用户意图。NLU模块普遍的做法是用业务标注数据在预训练语言模型上进行微调。但是,通常业务标注数据和预训练语言模型的数据都是文本数据,而线上数据为语音识别的转译文本,两者的数据分布存在一定差异,对意图识别的准确度造成一定影响。

发明内容

鉴于以上内容,有必要提出一种语音意图识别方法、装置、电子设备及存储介质,能够提高语音意图识别的准确度。

本发明的第一方面提供一种语音意图识别方法,所述方法包括:

响应于对语音的意图识别指令,获取所述语音的转译文本及获取与所述转译文本对应的转写文本;

基于所述转译文本和所述转写文本生成相似文本对;

调用意图识别模型对所述相似文本对进行识别并输出所述语音的意图;

其中,所述意图识别模型为根据预训练语言模型进行微调得到的。

在一个可选的实施方式中,所述方法还包括:

获取多个文本语料、多个历史转译文本及每个历史转译文本对应的历史转写文本;

基于所述多个文本语料预训练所述语言模型;

基于所述多个历史转译文本及每个历史转译文本对应的历史转写文本对所述语言模型进行微调,得到意图识别模型。

在一个可选的实施方式中,所述获取所述语音的转译文本包括:

将所述语音切分为多个语音切片;

对每个所述语音切片进行语音识别,得到语音文本;

对多个所述语音文本进行文本聚合,得到所述语音的转译文本。

在一个可选的实施方式中,所述将所述语音切分为多个语音切片包括:

生成所述语音的波形图;

根据所述波形图中的语音波形,确定所述语音中的停顿;

根据所述语音中的停顿,将所述语音切分为多个语音切片。

在一个可选的实施方式中,所述获取与所述转译文本对应的转写文本包括:

对所述转译文本进行文本纠错,得到所述转写文本。

在一个可选的实施方式中,所述获取与所述转译文本对应的转写文本包括:

提供语音文本显示界面,在所述语音文本显示界面上显示所述语音的所述转译文本;

接收所述转译文本上触发的校正指令;

根据所述校正指令获取多个候选字词;

当所述多个候选字词中的任一候选字词上接收到确定指令时,将接收到确定指令的候选字词作为所述转写文本。

在一个可选的实施方式中,所述获取与所述转译文本对应的转写文本包括:

从预设文本对数据库中获取所述转译文本对应的关联文本;

当所述关联文本的数量为1时,将所述关联文本确定为所述转写文本;

当所述关联文本的数量大于1时,显示所述关联文本,并接收所述关联文本上触发的确定指令,将接收到确定指令的关联文本作为所述转写文本。

本发明的第二方面提供一种语音意图识别装置,所述装置包括:

获取模块,用于响应于对语音的意图识别指令,获取所述语音的转译文本及获取与所述转译文本对应的转写文本;

生成模块,用于基于所述转译文本和所述转写文本生成相似文本对;

识别模块,用于调用意图识别模型对所述相似文本对进行识别并输出所述语音的意图;

其中,所述意图识别模型为根据预训练语言模型进行微调得到的。

本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述语音意图识别方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述语音意图识别方法。

综上所述,本发明所述的语音意图识别方法、装置、电子设备及存储介质,在接收到语音的意图识别指令后,通过在现有的预训练语言模型的MLM任务基础上,获取所述语音的转译文本及获取与所述转译文本对应的转写文本,易混淆词的词向量在词向量空间中会被拉近,从而使词向量除了包含语义信息外,也包含了语音信息。包含转译错误的转译文本和正确的转写文本之间的差异被缩小,进而基于相似文本对对预训练语言模型进行微调得到的意图识别模型,对语音转译错误的鲁棒性更强,提升了整体意图识别的准确率。

附图说明

图1是本发明实施例一提供的语音意图识别方法的流程图。

图2是本发明实施例提供的意图识别模型的结构图。

图3是本发明实施例二提供的语音意图识别装置的结构图。

图4是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。

本发明实施例提供的语音意图识别方法由电子设备执行,相应地,语音意图识别装置运行于电子设备中。

本发明实施例可以基于人工智能技术对症状进行标准化处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

实施例一

图1是本发明实施例一提供的语音意图识别方法的流程图。所述语音意图识别方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

101,响应于对语音的意图识别指令,获取所述语音的转译文本及获取与所述转译文本对应的转写文本。

其中,所述语音是指需要进行意图识别的语音。

本发明实施例所述的语音意图识别方法可以应用于智能语音客服领域中,则所述语音可以是智能语音系统接收的用户的语音。

电子设备接收语音的意图识别指令之后进行响应,从而获取所述语音的转译文本及获取与所述转译文本对应的转写文本。

其中,所述转译文本是对所述语音进行语音识别得到的文本,电子设备可以采用语音识别技术对所述语音进行识别。

在一个可选的实施方式中,所述转写文本可以是人工输入的文本。

示例性的,假设使用语音识别技术对所述语音进行识别得到的转译文本为:首先查询,人工转写文本为:寿险查询。

用户可以通过点击触发按键触发所述语音的意图识别指令,所述触发按键可以是虚拟按键,可以是实体按键。用户还可以输入对应的语音指令,以作为所述语音的意图识别指令。用户还可以输入指纹信息,以触发所述语音的意图识别指令等。本发明对此不做任何限制。

在一个可选的实施方式中,所述获取所述语音的转译文本包括:

将所述语音切分为多个语音切片;

对每个所述语音切片进行语音识别,得到语音文本;

对多个所述语音文本进行文本聚合,得到所述语音的转译文本。

在本发明的一种可能的实施方式中,通过对待进行意图识别的语音进行分割的方式,来生成多个语音切片,每个语音切片即为待进行意图识别的语音的一部分。其中,语音切片是将一段语音剪成多段后,生成的类似切片形式的子音频。

电子设备可以将多个语音切片分发给多个语音识别单元,语音识别单元可以是电子设备的线程,也可以是能够提供语音识别功能的服务器或电子设备。语音识别单元的数量与语音切片的数量相同。将多个语音切片分发给多个语音识别单元,通过每个语音识别单元运行语音识别技术对对应的语音切片进行语音识别,得到语音文本。

一种可能的实施方式是语音识别算法通过预先分析出的语音特征参数,制作语音模板,并存放在语音参数库中;对语音切片进行分析,得到对应的语音切片参数,将语音切片参数与语音参数库中的语音模板进行比较,生成语音切片对应的文本。

在本发明的一种可能的实施方式中,语音识别单元之间相互独立,即每个语音识别单元只能接收对应的语音切片,无法获知其他的语音切片,以及其他语音切片对应的语音文本。如此,当语音切片为能够提供语音识别功能的服务器时,能够保证待进行意图识别的语音的保密性,防止待进行意图识别的语音被窃取或者篡改。

将多个语音切片分别发送给多个语音识别方,为了能够生成待进行意图识别的语音对应的转译文本,需要分别从每个语音识别方接收语音切片对应的语音文本,通过对语音切片对应的语音文本进行文本聚合,进而生成待进行意图识别的语音的识别结果,将所述识别结果作为转译文本。

其中,文本聚合是指对多个语音文本进行匹配关联,生成完整文本的过程。

在一个可选的实施方式中,所述将所述语音切分为多个语音切片包括:

生成所述语音的波形图;

根据所述波形图中的语音波形,确定所述语音中的停顿;

根据所述语音中的停顿,将所述语音切分为多个语音切片。

在本发明的一种可能的实施方式中,在对待进行意图识别的语音进行切分时,需要保证语音切片具有完整性和独立性,以便于每个语音识别方通过语音识别算法对接收到的语音切片进行语音识别。

其中,电子设备可以提取待进行意图识别的语音的语音信号,再根据语音信号的时域图得到波形图。

待进行意图识别的语音的波形图能够反映出语音信号随着时间的强弱变化。

当波形图中语音信号的强度为0时,即为待进行意图识别的语音中的静音区域。此外,通过确定波形图中语音信号的强度为0的时长,可以确定静音区域对应的静音时长。

在本发明的一种可能的实施方式中,通过静音区域的静音时长来确定待进行意图识别的语音中的停顿。应当理解,当静音区域的静音时长超过预设时长时,即将静音区域对应的语音信号作为待进行意图识别的语音中的停顿。

本实施方式,通过待进行意图识别的语音的波形图,来确定待进行意图识别的语音中的停顿,进而根据停顿将待进行意图识别的语音分割成多个语音切片,切分准确度较高。

在一个可选的实施方式中,所述获取与所述转译文本对应的转写文本包括:对所述转译文本进行文本纠错,得到所述转写文本。

待进行意图识别的语音是一个整体,语音内容具有连续性,上下文之间具有一定的逻辑关系。也就是说,不同语音切片对应的语音文本之间也具有一定的逻辑关系,因此,对多个语音切片对应的语音文本进行文本聚合,以生成待进行意图识别的语音的识别结果之后,可以利用聚合后的文本的上下文之间的逻辑关系,对待进行意图识别的语音的识别结果进行文本纠错。将进行纠错后的文本作为转译文本对应的转写文本。

在一个可选的实施方式中,可以使用文本纠错模型对待进行意图识别的语音的转译文本进行文本纠错。

在一个可选的实施方式中,文本纠错模型可以是基于N-gram模型进行训练得到的。

在一个可选的实施方式中,所述获取与所述转译文本对应的转写文本包括:

提供语音文本显示界面,在所述语音文本显示界面上显示所述语音的所述转译文本;

接收所述转译文本上触发的校正指令;

根据所述校正指令获取多个候选字词;

当所述多个候选字词中的任一候选字词上接收到确定指令时,将接收到确定指令的候选字词作为所述转写文本。

电子设备在获取到待进行意图识别的语音的转译文本后,显示语音文本显示界面。

在语音文本显示界面上显示所述转译文本,供用户查看转译文本中哪些字词是存在问题的。

当用户发现转译文本中存在问题的字词时,可以通过触摸存在问题的字词来触发校正指令,也可以通过语音的方式来触发校正指令,从而对存在问题的字词进行校正。

在触发校正指令之后,电子设备可以根据触发校正指令对应的字词,从本地数据库中获取多个候选字词,其中,多个候选字词的拼音与触发校正指令对应的字词的拼音相同。

电子设备可以悬浮框的形式显示多个候选字词,供用户在多个候选字词中选择正确的字词替换转译文本中存在问题的字词,替换后的文本则作为转写文本。

在一个可选的实施方式中,所述获取与所述转译文本对应的转写文本包括:

从预设文本对数据库中获取所述转译文本对应的关联文本;

当所述关联文本的数量为1时,将所述关联文本确定为所述转写文本;

当所述关联文本的数量大于1时,显示所述关联文本,并接收所述关联文本上触发的确定指令,将接收到确定指令的关联文本作为所述转写文本。

其中,预设文本对数据库中关联存储有转译文本及对应的转写文本。一个转译文本可以对应多个转写文本。

电子设备每次在获取到转译文本及对应的转写文本后,将转译文本及对应的转写文本关联存储在预设文本数据库中,实现对预设文本对数据库的自动更新。存储在预设文本数据库中的转写文本称之为转译文本的关联文本。

由于一个转译文本可以对应多个转写文本,因而从预设文本对数据库中获取所述转译文本对应的关联文本的数量可能为1,也可能大于1。当所述关联文本的数量为1时,直接将所述关联文本确定为所述转写文本。当所述关联文本的数量大于1时,将获取的多个关联文本在语音文本显示界面上进行显示,供用户确定哪一个关联文本作为所述转写文本。

在一个可能的实施方式中,当关联文本的数量为0时,即从预设文本对数据库中没有获取到所述转译文本对应的关联文本时,可以提供语音文本显示界面,显示所述语音的所述转译文本,并接收所述转译文本上触发的校正指令,根据所述校正指令获取多个候选字词,当所述多个候选字词中的任一候选字词上接收到确定指令时,将接收到确定指令的候选字词作为所述转写文本。

102,基于所述转译文本和所述转写文本生成相似文本对。

电子设备将转译文本和所述转写文本进行拼接,从而生成相似文本对。

103,调用意图识别模型对所述相似文本对进行识别并输出所述语音的意图。

电子设备将相似文本对作为意图识别模型的输入,将意图识别模型的输出,作为待进行意图识别的语音的意图。

在一个可能的实施方式中,意图识别模型可以是预先训练的,可以采用神经网络模型作为意图识别模型,模型训练阶段也就是训练神经网络模型中一些未知的参数信息的过程。之后,就可以基于所述意图识别模型进行相似文本对的意图了。

在一个可能的实施方式中,所述意图识别模型可以为根据预训练语言模型进行微调得到的。

在一个可选的实施方式中,对预训练语言模型进行微调的过程包括:

获取多个文本语料、多个历史转译文本及每个历史转译文本对应的历史转写文本;

基于所述多个文本语料预训练所述语言模型;

基于所述多个历史转译文本及每个历史转译文本对应的历史转写文本对所述语言模型进行微调,得到意图识别模型。

其中,多个文本语料可以从通用的语料库中获取,历史转译文本及每个历史转译文本对应的历史转写文本可以从预设文本对数据库中获取。

将每个历史转译文本及对应的历史转写文本进行拼接,得到历史拼接文本,输入所述历史拼接文本至预训练语言模型中。

如图2所示,通过所述预训练语言模型对所述历史转译文本进行双向attention编码,并对对应的所述历史转写文本进行单向attention编码,最后基于编码得到的编码向量进行迭代训练得到意图识别模型。

其中,预训练语言模型和下游任务的意图识别模型均可以使用UniLM(UnifiedLanguage Model Pre-training for Natural Language Understanding andGeneration)模型。

本实施方式,在传统的预训练语言模型加下游任务微调的模式中,通过获取语音的转译文本及其对应的转写文本组成相似文本对,增加了相似文本生成任务对预训练好的语言模型进行微调的过程。在微调后的预训练语言模型基础上,使用业务中意图识别任务的训练语料训练意图识别模型。

本发明实施方式提供的语音意图识别方法,在接收到语音的意图识别指令后,通过在现有的预训练语言模型的MLM任务基础上,获取所述语音的转译文本及获取与所述转译文本对应的转写文本,易混淆词(如寿险和首先)的词向量在词向量空间中会被拉近,从而使词向量除了包含语义信息外,也包含了语音信息。包含转译错误的转译文本和正确的转写文本之间的差异被缩小,进而基于相似文本对对预训练语言模型进行微调得到的意图识别模型,对语音转译错误的鲁棒性更强,提升了整体意图识别的准确率。

本发明实施方式提供的语音意图识别方法可以应用于提升智能语音客服系统意图识别准确率的框架,该框架可以在不增加额外人工标注数据的基础上,仅通过语言模型的预训练,提升整体的意图识别准确率。

实施例二

图3是本发明实施例二提供的语音意图识别装置的结构图。

在一些实施例中,所述语音意图识别装置30可以包括多个由计算机程序段所组成的功能模块。所述语音意图识别装置30中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)语音意图识别的功能。

本实施例中,所述语音意图识别装置30根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块301、生成模块302及识别模块303。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述获取模块301,用于响应于对语音的意图识别指令,获取所述语音的转译文本及获取与所述转译文本对应的转写文本。

其中,所述语音是指需要进行意图识别的语音。

本发明实施例所述的语音意图识别方法可以应用于智能语音客服领域中,则所述语音可以是智能语音系统接收的用户的语音。

电子设备接收语音的意图识别指令之后进行响应,从而获取所述语音的转译文本及获取与所述转译文本对应的转写文本。

其中,所述转译文本是对所述语音进行语音识别得到的文本,电子设备可以采用语音识别技术对所述语音进行识别。

在一个可选的实施方式中,所述转写文本可以是人工输入的文本。

示例性的,假设使用语音识别技术对所述语音进行识别得到的转译文本为:首先查询,人工转写文本为:寿险查询。

用户可以通过点击触发按键触发所述语音的意图识别指令,所述触发按键可以是虚拟按键,可以是实体按键。用户还可以输入对应的语音指令,以作为所述语音的意图识别指令。用户还可以输入指纹信息,以触发所述语音的意图识别指令等。本发明对此不做任何限制。

在一个可选的实施方式中,所述获取所述语音的转译文本包括:

将所述语音切分为多个语音切片;

对每个所述语音切片进行语音识别,得到语音文本;

对多个所述语音文本进行文本聚合,得到所述语音的转译文本。

在本发明的一种可能的实施方式中,通过对待进行意图识别的语音进行分割的方式,来生成多个语音切片,每个语音切片即为待进行意图识别的语音的一部分。其中,语音切片是将一段语音剪成多段后,生成的类似切片形式的子音频。

电子设备可以将多个语音切片分发给多个语音识别单元,语音识别单元可以是电子设备的线程,也可以是能够提供语音识别功能的服务器或电子设备。语音识别单元的数量与语音切片的数量相同。将多个语音切片分发给多个语音识别单元,通过每个语音识别单元运行语音识别技术对对应的语音切片进行语音识别,得到语音文本。

一种可能的实施方式是语音识别算法通过预先分析出的语音特征参数,制作语音模板,并存放在语音参数库中;对语音切片进行分析,得到对应的语音切片参数,将语音切片参数与语音参数库中的语音模板进行比较,生成语音切片对应的文本。

在本发明的一种可能的实施方式中,语音识别单元之间相互独立,即每个语音识别单元只能接收对应的语音切片,无法获知其他的语音切片,以及其他语音切片对应的语音文本。如此,当语音切片为能够提供语音识别功能的服务器时,能够保证待进行意图识别的语音的保密性,防止待进行意图识别的语音被窃取或者篡改。

将多个语音切片分别发送给多个语音识别方,为了能够生成待进行意图识别的语音对应的转译文本,需要分别从每个语音识别方接收语音切片对应的语音文本,通过对语音切片对应的语音文本进行文本聚合,进而生成待进行意图识别的语音的识别结果,将所述识别结果作为转译文本。

其中,文本聚合是指对多个语音文本进行匹配关联,生成完整文本的过程。

在一个可选的实施方式中,所述将所述语音切分为多个语音切片包括:

生成所述语音的波形图;

根据所述波形图中的语音波形,确定所述语音中的停顿;

根据所述语音中的停顿,将所述语音切分为多个语音切片。

在本发明的一种可能的实施方式中,在对待进行意图识别的语音进行切分时,需要保证语音切片具有完整性和独立性,以便于每个语音识别方通过语音识别算法对接收到的语音切片进行语音识别。

其中,电子设备可以提取待进行意图识别的语音的语音信号,再根据语音信号的时域图得到波形图。

待进行意图识别的语音的波形图能够反映出语音信号随着时间的强弱变化。

当波形图中语音信号的强度为0时,即为待进行意图识别的语音中的静音区域。此外,通过确定波形图中语音信号的强度为0的时长,可以确定静音区域对应的静音时长。

在本发明的一种可能的实施方式中,通过静音区域的静音时长来确定待进行意图识别的语音中的停顿。应当理解,当静音区域的静音时长超过预设时长时,即将静音区域对应的语音信号作为待进行意图识别的语音中的停顿。

本实施方式,通过待进行意图识别的语音的波形图,来确定待进行意图识别的语音中的停顿,进而根据停顿将待进行意图识别的语音分割成多个语音切片,切分准确度较高。

在一个可选的实施方式中,所述获取与所述转译文本对应的转写文本包括:对所述转译文本进行文本纠错,得到所述转写文本。

待进行意图识别的语音是一个整体,语音内容具有连续性,上下文之间具有一定的逻辑关系。也就是说,不同语音切片对应的语音文本之间也具有一定的逻辑关系,因此,对多个语音切片对应的语音文本进行文本聚合,以生成待进行意图识别的语音的识别结果之后,可以利用聚合后的文本的上下文之间的逻辑关系,对待进行意图识别的语音的识别结果进行文本纠错。将进行纠错后的文本作为转译文本对应的转写文本。

在一个可选的实施方式中,可以使用文本纠错模型对待进行意图识别的语音的转译文本进行文本纠错。

在一个可选的实施方式中,文本纠错模型可以是基于N-gram模型进行训练得到的。

在一个可选的实施方式中,所述获取与所述转译文本对应的转写文本包括:

提供语音文本显示界面,在所述语音文本显示界面上显示所述语音的所述转译文本;

接收所述转译文本上触发的校正指令;

根据所述校正指令获取多个候选字词;

当所述多个候选字词中的任一候选字词上接收到确定指令时,将接收到确定指令的候选字词作为所述转写文本。

电子设备在获取到待进行意图识别的语音的转译文本后,显示语音文本显示界面。

在语音文本显示界面上显示所述转译文本,供用户查看转译文本中哪些字词是存在问题的。

当用户发现转译文本中存在问题的字词时,可以通过触摸存在问题的字词来触发校正指令,也可以通过语音的方式来触发校正指令,从而对存在问题的字词进行校正。

在触发校正指令之后,电子设备可以根据触发校正指令对应的字词,从本地数据库中获取多个候选字词,其中,多个候选字词的拼音与触发校正指令对应的字词的拼音相同。

电子设备可以悬浮框的形式显示多个候选字词,供用户在多个候选字词中选择正确的字词替换转译文本中存在问题的字词,替换后的文本则作为转写文本。

在一个可选的实施方式中,所述获取与所述转译文本对应的转写文本包括:

从预设文本对数据库中获取所述转译文本对应的关联文本;

当所述关联文本的数量为1时,将所述关联文本确定为所述转写文本;

当所述关联文本的数量大于1时,显示所述关联文本,并接收所述关联文本上触发的确定指令,将接收到确定指令的关联文本作为所述转写文本。

其中,预设文本对数据库中关联存储有转译文本及对应的转写文本。一个转译文本可以对应多个转写文本。

电子设备每次在获取到转译文本及对应的转写文本后,将转译文本及对应的转写文本关联存储在预设文本数据库中,实现对预设文本对数据库的自动更新。存储在预设文本数据库中的转写文本称之为转译文本的关联文本。

由于一个转译文本可以对应多个转写文本,因而从预设文本对数据库中获取所述转译文本对应的关联文本的数量可能为1,也可能大于1。当所述关联文本的数量为1时,直接将所述关联文本确定为所述转写文本。当所述关联文本的数量大于1时,将获取的多个关联文本在语音文本显示界面上进行显示,供用户确定哪一个关联文本作为所述转写文本。

在一个可能的实施方式中,当关联文本的数量为0时,即从预设文本对数据库中没有获取到所述转译文本对应的关联文本时,可以提供语音文本显示界面,显示所述语音的所述转译文本,并接收所述转译文本上触发的校正指令,根据所述校正指令获取多个候选字词,当所述多个候选字词中的任一候选字词上接收到确定指令时,将接收到确定指令的候选字词作为所述转写文本。

所述生成模块302,用于基于所述转译文本和所述转写文本生成相似文本对。

电子设备将转译文本和所述转写文本进行拼接,从而生成相似文本对。

所述识别模块303,用于调用意图识别模型对所述相似文本对进行识别并输出所述语音的意图。

电子设备将相似文本对作为意图识别模型的输入,将意图识别模型的输出,作为待进行意图识别的语音的意图。

在一个可能的实施方式中,意图识别模型可以是预先训练的,可以采用神经网络模型作为意图识别模型,模型训练阶段也就是训练神经网络模型中一些未知的参数信息的过程。之后,就可以基于所述意图识别模型进行相似文本对的意图了。

在一个可能的实施方式中,所述意图识别模型可以为根据预训练语言模型进行微调得到的。

在一个可选的实施方式中,对预训练语言模型进行微调的过程包括:

获取多个文本语料、多个历史转译文本及每个历史转译文本对应的历史转写文本;

基于所述多个文本语料预训练所述语言模型;

基于所述多个历史转译文本及每个历史转译文本对应的历史转写文本对所述语言模型进行微调,得到意图识别模型。

其中,多个文本语料可以从通用的语料库中获取,历史转译文本及每个历史转译文本对应的历史转写文本可以从预设文本对数据库中获取。

将每个历史转译文本及对应的历史转写文本进行拼接,得到历史拼接文本,输入所述历史拼接文本至预训练语言模型中。

如图2所示,通过所述预训练语言模型对所述历史转译文本进行双向attention编码,并对对应的所述历史转写文本进行单向attention编码,最后基于编码得到的编码向量进行迭代训练得到意图识别模型。

其中,预训练语言模型和下游任务的意图识别模型均可以使用UniLM(UnifiedLanguage Model Pre-training for Natural Language Understanding andGeneration)模型。

本实施方式,在传统的预训练语言模型加下游任务微调的模式中,通过获取语音的转译文本及其对应的转写文本组成相似文本对,增加了相似文本生成任务对预训练好的语言模型进行微调的过程。在微调后的预训练语言模型基础上,使用业务中意图识别任务的训练语料训练意图识别模型。

本发明实施方式提供的语音意图识别装置,在接收到语音的意图识别指令后,通过在现有的预训练语言模型的MLM任务基础上,获取所述语音的转译文本及获取与所述转译文本对应的转写文本,易混淆词(如寿险和首先)的词向量在词向量空间中会被拉近,从而使词向量除了包含语义信息外,也包含了语音信息。包含转译错误的转译文本和正确的转写文本之间的差异被缩小,进而基于相似文本对对预训练语言模型进行微调得到的意图识别模型,对语音转译错误的鲁棒性更强,提升了整体意图识别的准确率。

本发明实施方式提供的语音意图识别装置可以应用于提升智能语音客服系统意图识别准确率的框架,该框架可以在不增加额外人工标注数据的基础上,仅通过语言模型的预训练,提升整体的意图识别准确率。

实施例三

本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音意图识别方法实施例中的步骤,例如图1所示的101-103:

101,响应于对语音的意图识别指令,获取所述语音的转译文本及获取与所述转译文本对应的转写文本;

102,基于所述转译文本和所述转写文本生成相似文本对;

103,调用意图识别模型对所述相似文本对进行识别并输出所述语音的意图;

其中,所述意图识别模型为根据预训练语言模型进行微调得到的。

或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图3中的模块301-303:

所述获取模块301,用于响应于对语音的意图识别指令,获取所述语音的转译文本及获取与所述转译文本对应的转写文本;

所述生成模块302,用于基于所述转译文本和所述转写文本生成相似文本对;

所述识别模块303,用于调用意图识别模型对所述相似文本对进行识别并输出所述语音的意图;

其中,所述意图识别模型为根据预训练语言模型进行微调得到的。

实施例四

参阅图4所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备4包括存储器41、至少一个处理器42、至少一条通信总线43及收发器44。

本领域技术人员应该了解,图4示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备4还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述电子设备4是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备4还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

所述电子设备4仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器41中存储有计算机程序,所述计算机程序被所述至少一个处理器42执行时实现如所述的语音意图识别方法中的全部或者部分步骤。所述存储器41包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中,所述至少一个处理器42是所述电子设备4的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备4的各个部件,通过运行或执行存储在所述存储器41内的程序或者模块,以及调用存储在所述存储器41内的数据,以执行电子设备4的各种功能和处理数据。例如,所述至少一个处理器42执行所述存储器中存储的计算机程序时实现本发明实施例中所述的语音意图识别方法的全部或者部分步骤;或者实现语音意图识别装置的全部或者部分功能。所述至少一个处理器42可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中,所述至少一条通信总线43被设置为实现所述存储器41以及所述至少一个处理器42等之间的连接通信。

尽管未示出,所述电子设备4还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器42逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术分类

06120116338576