导航：首页> 乐器；声学>语音交互方法及装置

语音交互方法及装置

文献发布时间：2024-04-18 19:58:30

技术领域

本申请涉及语音交互技术领域，具体涉及一种语音交互方法及装置。

背景技术

目前，随着人工智能行业的迅速发展，语音交互技术被广泛地应用于诸多人机交互系统中，例如智能客服系统，聊天机器人，个人智能助理以及智能家居等。

相关技术中，通过优化语音识别、语义理解以及语音合成三个模块的调用流程来提升语音交互时的响应速度，由于语义理解模块对识别到的每一帧语音均会重新解析，并输出多个语义理解结果，容易对信息相同的识别结果进行重复解析，造成计算资源浪费，导致语音交互时的响应速度慢。

发明内容

本申请实施例提供一种语音交互方法及装置，用以解决现有技术在语音交互过程中会对信息相同的语音内容进行重复解析，导致语音解析效率低，语音交互响应慢的技术问题。

第一方面，本申请实施例提供一种语音交互方法，包括：

接收用户语音输入；

对所述用户语音输入进行语音识别，得到识别文本，所述识别文本包括多个字段；

基于有向无环图按照句式模板对所述多个字段进行逐字识别，在结束所述有向无环图的字段识别的情况下，得到语义理解结果；

其中，所述句式模板包括多个槽位，每个槽位对应一类字段，每个槽位包括至少一个关键词，所述有向无环图包括开始节点，多个中间节点和结束节点，每个中间节点关联一个槽位；所述语义理解结果用于供用户进行业务处理。

在一个实施例中，所述在结束所述有向无环图的字段识别的情况下，得到语义理解结果，包括：

在依次遍历所述开始节点、所述多个中间节点和所述结束节点的情况下，确认结束所述有向无环图的字段识别；

基于被识别的字段，得到语义理解结果。

在一个实施例中，所述在结束所述有向无环图的字段识别的情况下，得到语义理解结果，还包括：

在目标字段与对应槽位的关键词不匹配的情况下，确认结束所述有向无环图的字段识别，所述目标字段属于所述多个字段中的任一项；

基于深度语义理解模型对所述识别文本进行识别，得到语义理解结果；

其中，所述深度语义理解模型基于分层识别技术确定，所述深度语义理解模型包括多个自注意力层和多个全连接层，每个自注意力层连接至少三个全连接层，所述至少三个全连接层分别用于识别所述识别文本的领域信息、意图信息和词槽信息。

在一个实施例中，所述至少三个全连接层包括第一全连接层、第二全连接层和第三全连接层；

所述基于深度语义理解模型对所述识别文本进行识别，得到语义理解结果，包括：

基于所述第一全连接层对所述识别文本的领域信息进行识别，得到领域识别结果；

基于所述第二全连接层对所述识别文本的意图信息进行识别，得到意图识别结果；

基于所述第三全连接层对所述识别文本的词槽信息进行识别，得到词槽识别结果；

基于所述领域识别结果、所述意图识别结果和所述词槽识别结果得到所述语义理解结果。

在一个实施例中，所述基于所述第一全连接层对所述识别文本的领域信息进行识别，得到领域识别结果，包括：

基于所述多个自注意力层分别对应的第一全连接层对所述识别文本的领域信息进行识别，得到多个领域识别结果；

基于所述多个领域识别结果和选举机制，得到所述领域识别结果。

在一个实施例中，所述基于所述第二全连接层对所述识别文本的意图信息进行识别，得到意图识别结果，包括：

基于所述多个自注意力层分别对应的第二全连接层对所述识别文本的意图信息进行识别，得到多个意图识别结果；

以所述领域识别结果为领域约束条件，基于选举机制和所述多个意图识别结果，得到所述意图识别结果。

在一个实施例中，所述基于所述第三全连接层对所述识别文本的词槽信息进行识别，得到词槽识别结果，包括：

基于多个自注意力层对应的第三全连接层对所述识别文本的词槽信息进行识别，得到多个词槽识别结果；

以所述意图识别结果为意图约束条件，基于词槽识别阈值和所述多个词槽识别结果，得到所述词槽识别结果。

第二方面，本申请实施例提供一种语音交互装置，包括：

语音接收模块，用于接收用户语音输入；

文本获取模块，用于对所述用户语音输入进行语音识别，得到识别文本，所述识别文本包括多个字段；

第三方面，本申请实施例提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述的语音交互方法的步骤。

第四方面，本申请实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的语音交互方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的语音交互方法的步骤。

本申请实施例提供的语音交互方法及装置，通过有向无环图按照句式模板对识别文本的多个字段进行逐字识别，在结束有向无环图的字段识别的情况下，得到语义理解结果，以供用户进行业务处理，能够在语音解析流程结束时仅输出一个语义理解结果，减少了因对信息相同的识别结果进行重复解析而造成的计算资源浪费，提高了语音解析效率，进而提高了语音交互的响应速度。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音交互方法的流程示意图之一；

图2是本申请实施例提供的语音识别和解析的交互示意图之二；

图3是本申请实施例提供有向无环图结构示意图；

图4是本申请实施例提供的语音交互方法的流程示意图之二；

图5是本申请实施例提供的深度语义理解模型的结构示意图；

图6是本申请实施例提供的语音交互装置的结构示意图；

图7是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的语音交互方法的流程示意图之一。参照图1，该语音交互方法包括如下步骤：

步骤110、接收用户语音输入。

在该步骤中，用户语音输入包括用户实时语音，例如，用户在线授课时的语音输入。

在该实施例中，通过声音采集单元获取(如麦克风)接收用户实时语音，并将该实时语音输入至语音识别单元进行识别。

在该实施例中，用户语音输入包括已保存的用户语音，例如，一节网课的缓存视频中携带的语音数据。

在该实施例中，通过调用本地存储的用户语音数据，并将该语音数据输入至语音识别单元进行识别。

步骤120、对用户语音输入进行语音识别，得到识别文本，所述识别文本包括多个字段。

在该步骤中，语音识别单元可以利用自动语音识别(Automatic SpeechRecognition，ASR)技术将用户语音输入转换为待识别文本。

在该步骤中，待识别的文本包括根据用户语音输入进行语音识别得到的文本。

比如，语音识别模块接收用户输入语音“今天天气如何”，语音识别模块将该语音转换内容为“今天天气如何？”的文本。

在该实施例中，语音识别模块还可以对用户输入语音进行逐帧输出，例如，将识别到的语音内容“今天天气如何？”转换为“今”、“今天”、“今天天”和“今天天气”等文本内容。

在该实施例中，识别文本中的字段可以是单个字，也可以是词组。

图2是本申请实施例提供的语音识别和解析的交互示意图之二，在图2所示的实施例中，语音识别模块接收到用户语音询问“今天天气”，对“今天天气”进行逐帧输出，即向语义理解模块分别发送“今”、“今天”、“今天天”和“今天天气”。

步骤130、基于有向无环图按照句式模板对多个字段进行逐字识别，在结束有向无环图的字段识别的情况下，得到语义理解结果；其中，句式模板包括多个槽位，每个槽位对应一类字段，每个槽位包括至少一个关键词，有向无环图包括开始节点，多个中间节点和结束节点，每个中间节点关联一个槽位；语义理解结果用于供用户进行业务处理。

在该步骤中，句式模板包括至少一种完整的句型，句型内容可根据用户的语音交互需求设置。

在该实施例中，句式模板包括多个槽位，每个槽位对应一个关键值。

比如，根据用户对歌曲点播的交互需求，设计句式模板可表示为：“$please$play$this？$song$ah？”，其中，“$please”、“$play”、“$this？”、“$song”和“$ah？”表示该句式模板的5个不同槽位，其中，$please”槽位中可以包括“请”、“帮我”等关键词，“$play”中可以包括“播放”、“打开”等关键词，“$this”中可以包括含“这个”和“那个”等关键词，“$this”后的问号“？”表示可以跳过该槽位匹配，“$song”中可以包括“歌曲1”、“歌曲2”和“歌曲3”等关键词，“$ah”中可以包括“吧”和“啊”等关键词；该句式模板可以包括如下几种句型：“请打开歌曲1”、“帮我播放歌曲1”和“帮我打开这个歌曲1吧”等。

在该实施例中，填充句式模板中各个槽位对应的关键词，构成一个由多个节点构成的有向无环图，最终识别过程类似于字典树匹配，从该有向无环图的起始节点逐个节点匹配直至图的终止节点，输出匹配结果，如果未能匹配至终止节点，则匹配失败。

在图2所示的实施例中，语义理解模块对接收的语音识别结果“今”、“今天”、“今天天”和“今天天气”分别进行语义理解，在得到完整语义的理解内容后进行相关业务处理，并在业务处理后向语音合成模块发送语音合成请求，语音合成模块根据语音合成请求向用户下发合成结果。

图3是本申请实施例提供有向无环图结构示意图，在图3所示的实施例中，将句式模板展开得到所示有向无环图，当用户语音完整输入为“帮我播放歌曲1”，语音识别模块进行流失识别时，每次的输出结果为“帮”、“帮我”、“帮我播”、“帮我播放”、“帮我播放歌”、“帮我播放歌曲”、“帮我播放歌曲1”，在第一次得到语音识别结果“帮”后从起始节点开始匹配，匹配到“$please”槽位中“帮我”的“帮”并将下次匹配的开始节点后移到“$please”槽位的“帮”节点，等接收到下一次语音识别的结果“帮我”，剔除已经识别的信息“帮”字，针对新增的信息“我”字，流失识别直接从“$please”槽位的“我”节点开始继续匹配，以此类推，直至结束有向无环图的字段匹配，若匹配到有向无环图的结束节点，则直接输出语义理解结果。

在该实施例中，若识别文本中的一个字段不属于对应槽位的关键词，也会结束有向无环图的字段匹配，此时，需要重新利用其他语义识别模型对识别文本进行语义解析，并获取相应的语义理解结果。

比如，规则匹配算法在第一次得到语音识别结果“帮”后从起始节点开始匹配，匹配到“$please”槽位中“帮我”的“帮”并将下次匹配的开始节点后移到“$please”槽位的“帮”节点，规则匹配算法寻找槽位中的关键词是否包括“我”，若不包括，则结束有向无环图的字段匹配；利用其他语义识别模型重新对识别文本进行语义识别。

图4是本申请实施例提供的语音交互方法的流程示意图之二，在图4所示的实施例中，通过对用户语音输入进行识别，转换成Asr文本，并基于有穷状态转换器(Finite StateTransducer，FST)的规则匹配算法(有向无环图+句式模板)对Asr文本进行逐字识别，在字段识别结束，且有匹配结果(被识别的字段能够组成完整语义)的情况下，针对识别结果进行业务处理，并向用户反馈处理结果；否则，利用带分层识别技术的深度语义李姐模型对Asr进行识别，在有匹配结果的情况下，针对识别结果进行业务处理，并向用户反馈处理结果，在没有匹配结果的情况下，终止模型识别流程。

本申请实施例的语音交互方法，通过有向无环图按照句式模板对识别文本的多个字段进行逐字识别，在结束有向无环图的字段识别的情况下，得到语义理解结果，以供用户进行业务处理，能够在语音解析流程结束时仅输出一个语义理解结果，减少了因对信息相同的识别结果进行重复解析而造成的计算资源浪费，提高了语音解析效率，进而提高了语音交互的响应速度。

在一些实施例中，在结束有向无环图的字段识别的情况下，得到语义理解结果，包括：在依次遍历开始节点、多个中间节点和结束节点的情况下，确认结束有向无环图的字段识别；基于被识别的字段，得到语义理解结果。

在该实施例中，利用有向无环图对识别文本的多个字段进行逐一识别，每次识别时需依次遍历有向无环图的所有节点，当识别文本中的每个字段都能在句式模板的对应槽位中匹配到相同的关键词，即有向无环图的字段识别流程从开始节点依次匹配至结束节点，输出句式模板中的一类句型，该类句型与识别文本内容一致，则以该句型作为语义理解结果。

比如，识别文本中的文字内容为“帮我播放XX歌曲”，从开始节点开始匹配，匹配到“$please”槽位中“帮我”的“帮”时，将当前匹配节点后移到“$please”槽位的“帮”节点；接收到待识别字段“帮我”时，剔除已经识别的信息“帮”字，针对新增的信息“我”字，将当前匹配节点后移到“$please”槽位的“我”节点，接收到待识别字段“帮我播”时，剔除已经识别的信息“帮我”字，针对新增的信息“播”，将当前匹配节点后移到“$play”槽位的“播”节点，以此类推，直至匹配节点成功移动到结束节点时，结束本次字段识别，输出一个语义理解结果为“帮我播放XX歌曲”。

在该实施例中，该语义理解结果可作为控制指令，用于控制终端执行相关业务功能；例如，以语义理解结果作为控制指令发送至播放器，播放器根据播放指令内容播放XX歌曲。

在该实施例中，利用有向无环图和句式模板对识别文本进行逐一语义理解，每次识别都在前一次识别内容的基础上进行，不会从头开始，并且只会在文本传输完成后输出一个语义理解结果，没有中间结果，既节省了计算资源，也提高了匹配效率。

本申请实施例的语音交互方法，通过遍历有向无环图所有节点确认结束有向无环图的字段识别流程，并将识别到的字段作为语音理解内容，由于每次匹配都是增量识别匹配，增强了语义解析过程的流式识别能力，在节省了计算资源的同时，提升了单次识别速度。

在一些实施例中，在结束有向无环图的字段识别的情况下，得到语义理解结果，还包括：在目标字段与对应槽位的关键词不匹配的情况下，确认结束有向无环图的字段识别，目标字段属于多个字段中的任一项；基于深度语义理解模型对识别文本进行识别，得到语义理解结果；其中，深度语义理解模型基于分层识别技术确定，深度语义理解模型包括多个自注意力层和多个全连接层，每个自注意力层连接至少三个全连接层，至少三个全连接层分别用于识别文本的领域信息、意图信息和词槽信息。

在该实施例中，在有向无环图根据句式模板无法完整识别出识别文本上内容的情况下，可以采用深度语义理解模型重新对识别文本进行语义识别，利用深度语义理解模型重新进行文本识别作为一种兜底补充，能够为整个语义理解系统提供泛化能力，保障识别覆盖率。

在该实施例中，深度语义理解模型包括多个自注意力层，每个自注意力层连接多个全连接层，每个全连接层用于识别文本中的一类特征信息，例如，待识别的文本包括领域、意图和词槽三类特征，则每个自注意力层后可以连接三个全连接层，分别用于检测文本中的领域信息、意图信息和词槽信息。

在该实施例中，在当深度语义理解模型的一个自注意力层连接的全连接层的输出结果的置信度高于预设阈值的情况下，直接输出语义理解结果并中止模型的计算，否则继续进行下一自注意力层的模型计算，能够让识别难度较低的文本只使用前几层的模型结构即可输出最终结果，提升了模型的整体识别速度，进而降低了整体语音交互的响应耗时。

图5是本申请实施例提供的深度语义理解模型的结构示意图，在图5所示的实施例中，各自注意力层连接了全连接层；全输出自注意力层1根据自注意力机制对识别文本的各字段进行语义分析，当语义识别结果高于预设阈值时，输出语义识别结果，否则，继续利用自注意力层2、自注意力层3进行字段识别，根据语义识别结果与阈值的大小，输出对应的语义识别结果。

本申请实施例的语音交互方法，通过在有向无环图未遍历所有节点而结束字段识别的情况下，利用深度语义理解模型对识别文本进行识别，得到语义理解结果，作为语义识别的兜底方案，能够为整个语义理解系统提供泛化能力，保障识别覆盖率。

在一些实施例中，至少三个全连接层包括第一全连接层、第二全连接层和第三全连接层；基于深度语义理解模型对识别文本进行识别，得到语义理解结果，包括：基于第一全连接层对识别文本的领域信息进行识别，得到领域识别结果；基于第二全连接层对识别文本的意图信息进行识别，得到意图识别结果；基于第三全连接层对识别文本的词槽信息进行识别，得到词槽识别结果；基于领域识别结果、意图识别结果和词槽识别结果得到语义理解结果。

在该实施例中，当识别文本中各字段对应的匹配特征为领域、意图和词槽时，可以在每个自注意力层后连接三个全连接层，分别用于识别文本中的领域信息、意图信息和词槽信息。

在该实施例中，每个自注意力层包括一个第一全连接层，每个第一全连接层输出一个领域识别结果，可以通过设置领域识别阈值，从多个领域识别结果筛选出可信度高的领域识别结果，以此提高领域识别的准确率。

同理，多个自注意力层对应多个第二全连接层，每个第二连接层可输出一个意图识别结果；由于领域、意图和词槽构成层级关系，例如，一个领域包括多个意图，一个意图包括多个词槽，当得到领域识别结果后，对应的意图识别结果应在该领域识别结果范围内；多个自注意力层对应多个第三全连接层，每个第三连接层可输出一个词槽识别结果，当得到意图识别结果后，对应的意图识别结果应属于该意图识别结果范围内。

在该实施例中，当自注意力层的输出结果高于对应的置信度阈值时，可直接根据输出的领域识别结果、意图识别结果以及词槽识别结果确定语义理解结果。

本申请实施例的语音交互方法，通过深度语义理解模型的第一全连接层、第二全连接层和第三全连接层分别对对识别文本的领域信息、意图信息和词槽信息进行识别，得到对应的领域识别结果、意图识别结果以及词槽识别结果，借助分层识别技术构建深度语义理解模型，提高了模型的语义解析速度。

在一些实施例中，基于第一全连接层对识别文本的领域信息进行识别，得到领域识别结果，包括：基于多个自注意力层分别对应的第一全连接层对识别文本的领域信息进行识别，得到多个领域识别结果；基于多个领域识别结果和选举机制，得到领域识别结果。

在该实施例中，多个自注意力层对应多个第一全连接层，每个第一全连接层可以输出一个领域识别结果，当领域识别结果存在多个时，可以采用选举机制从多个领域识别结果中选取可信度高的领域识别结果。

比如，深度语义理解模型包括6个自注意力层，每个自注意力层包括三个全连接层，其中，用于进行领域信息识别的全连接层为6个，若6个领域识别结果中包括5个A领域，1个B领域，则以A领域作为最终输出的领域识别结果。

本申请实施例的语音交互方法，通过选举机制从多个领域识别结果中获取可信度高的领域识别结果，提高了对识别文本的领域信息识别的准确率。

在一些实施例中，基于第二全连接层对识别文本的意图信息进行识别，得到意图识别结果，包括：基于多个自注意力层分别对应的第二全连接层对识别文本的意图信息进行识别，得到多个意图识别结果；以领域识别结果为领域约束条件，基于选举机制和多个意图识别结果，得到意图识别结果。

在该实施例中，多个自注意力层对应多个第二全连接层，每个第二全连接层可以输出一个意图识别结果，当意图识别结果存在多个时，可以采用选举机制从多个意图识别结果中选取置信度最高的结果

在该实施例中，可以在意图识别过程中加入领域限制，即将意图识别范围限制在已识别出的领域中，能够提高意图信息的识别速度，进而提高模型的语义解析效率。

比如，假设总共存在10个领域，50个意图、100个词槽，自注意力层输出的领域识别结果为A领域，只存在a1、a2和a3这三个意图，a1意图下只包含5个词槽，加入领域限制后，如果先预测出领域为A，则意图识别任务会从原先50选1变成3选1。

在该实施例中，领域限制本质是一种先验知识的融入，当一个文本的领域信息已经被识别出并且可信度很高，那么该文本的意图只会在该领域下，不会出现意图和领域不一致的问题。

本申请实施例的语音交互方法，通过以领域识别结果为领域约束条件，并利用选举机制从多个意图识别结果中获取可信度高的结果，提高了意图识别结果的识别速度，并提高了意图识别结果的准确率。

在一些实施例中，基于第三全连接层对识别文本的词槽信息进行识别，得到词槽识别结果，包括：基于多个自注意力层对应的第三全连接层对识别文本的词槽信息进行识别，得到多个词槽识别结果；以意图识别结果为意图约束条件，基于词槽识别阈值和多个词槽识别结果，得到词槽识别结果。

需要说明的是，考虑到深度语义理解模型包含领域识别、意图识别和词槽识别三个任务，不同的识别任务识别难度不同，如领域识别任务属于多分类任务，难度较低，可能只需要2、3层就能输出有效的识别结果，而词槽识别是多标签分类任务，难度较高，可能需要5、6层才会有比较好的识别效果。

在该实施例中，可以在每个第三全连接层的输出结果设置对应的词槽识别阈值，当自注意力层连接的第三全连接层输出的词槽识别结果超过词槽识别阈值的情况下，以词槽识别结果作为模型识别的语义理解结果，降低了词槽识别难度。

在该实施例中，词槽识别阈值可根据用户需求设置。

在该实施例中，可以在词槽识别过程中加入意图限制，即将词槽识别范围限制在已识别出的意图中，能够提高词槽识别速度，进而提高模型的语义解析效率。

比如，在词槽识别过程中加入意图限制，若识别到的意图a1，且a1意图下只包含5个词槽，则词槽识别任务会从原来的100选1变成5选1。

在该实施例中，通过在语义解析过程中加入领域限制和意图限制，排除了模型本身的一些不可控性，融入了人工总结的知识，提升了模型的识别能力。

本申请实施例的语音交互方法，通过以意图识别结果为意图约束条件，并通过词槽识别阈值快速筛选置信度高的词槽识别结果，提高了词槽识别结果的识别速度，并提高了词槽识别结果的准确率。

下面对本申请实施例提供的语音交互装置进行描述，下文描述的语音交互装置与上文描述的语音交互方法可相互对应参照。

图6是本申请实施例提供的语音交互装置的结构示意图，如图6所示，该语音交互装置，包括语音接收模块610、文本获取模块620和语义检测模块630。

语音接收模块610，用于接收用户语音输入；

文本获取模块620，用于获取识别文本，识别文本包括多个字段；

语义检测模块630，用于基于有向无环图按照句式模板对多个字段进行逐字识别，在结束所述有向无环图的字段识别的情况下，得到语义理解结果；其中，句式模板包括多个槽位，每个槽位对应一类字段，每个槽位包括至少一个关键词，有向无环图包括开始节点，多个中间节点和结束节点，每个中间节点关联一个槽位；语义理解结果用于供用户进行业务处理。

本申请实施例的语音交互装置，通过有向无环图按照句式模板对识别文本的多个字段进行逐字识别，在结束有向无环图的字段识别的情况下，得到语义理解结果，以供用户进行业务处理，能够在语音解析流程结束时仅输出一个语义理解结果，减少了因对信息相同的识别结果进行重复解析而造成的计算资源浪费，提高了语音解析效率，进而提高了语音交互的响应速度。

图7是本申请实施例提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communication Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的计算机程序，以执行语音交互方法的步骤，该语音交互方法包括：接收用户语音输入；对用户语音输入进行语音识别，得到识别文本，识别文本包括多个字段；基于有向无环图按照句式模板对多个字段进行逐字识别，在结束有向无环图的字段识别的情况下，得到语义理解结果；其中，句式模板包括多个槽位，每个槽位对应一类字段，每个槽位包括至少一个关键词，有向无环图包括开始节点，多个中间节点和结束节点，每个中间节点关联一个槽位；语义理解结果用于供用户进行业务处理。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例所提供的语音交互方法的步骤，该语音交互方法包括：接收用户语音输入；对用户语音输入进行语音识别，得到识别文本，识别文本包括多个字段；基于有向无环图按照句式模板对多个字段进行逐字识别，在结束有向无环图的字段识别的情况下，得到语义理解结果；其中，句式模板包括多个槽位，每个槽位对应一类字段，每个槽位包括至少一个关键词，有向无环图包括开始节点，多个中间节点和结束节点，每个中间节点关联一个槽位；语义理解结果用于供用户进行业务处理。

另一方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行上述各实施例提供的语音交互方法的步骤，该语音交互方法包括：接收用户语音输入；对用户语音输入进行语音识别，得到识别文本，识别文本包括多个字段；基于有向无环图按照句式模板对多个字段进行逐字识别，在结束有向无环图的字段识别的情况下，得到语义理解结果；其中，句式模板包括多个槽位，每个槽位对应一类字段，每个槽位包括至少一个关键词，有向无环图包括开始节点，多个中间节点和结束节点，每个中间节点关联一个槽位；语义理解结果用于供用户进行业务处理。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中移(杭州)信息技术有限公司;中国移动通信集团有限公司;

上一篇：音频质检的方法及系统
下一篇：一种语言智慧互通的数字机器人及其运行方法