导航：首页> 特别适用于特定应用领域的信息通信技术〔ICT〕〔2018.01〕>一种语音交互的方法、装置、电子设备及存储介质

一种语音交互的方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 09:27:35

技术领域

本发明涉及智能语音交互技术领域，特别地涉及一种语音交互的方法、装置、电子设备及存储介质。

背景技术

在如今的智能家居快速发展的过程中，越来越多的家电携带了语音对话的功能，例如空调，其已经成为应用语音交互技术最广的家电之一，目前空调产品上普遍配备有用于与用户进行语音交互的语音助手。而随着用户交互需求、交互体验要求的进一步提升，单轮对话已经难以满足使用需求，人们希望语音助手能够更加方便与智能，能够进行更加复杂的多轮对话以替代单轮对话。

单轮对话在每次唤醒时只能进行简单的单轮控制，往往无法明确用户的指令，需要用户重复地唤醒并交互，用户体验差。而多轮对话只需进行一次唤醒并多次交互，能够在初步明确用户意图之后，获取必要信息以最终得到明确的用户指令。多轮交互是空调语音对话系统的重要组成部分，而它也将适用于更多语音产品的应用。

发明内容

针对上述现有技术中的问题，本申请提出了一种语音交互的方法、装置、电子设备及存储介质，该语音交互的方法通过一次唤醒而连续进行多轮交互，在获取用户的初步意图后，利用多轮交互引导用户进行意图关键信息的补充，进而准确识别用户的意图并将意图转化为明确的指令，提升了用户语音交互的体验。

本发明的一种语音的交互方法，包括：

获取语音交互信息；

对所述语音交互信息进行解析，以获取发出所述语音交互信息的用户的意图以及对应所述意图的第一关键词槽；

进入所述意图的交互，判断所述第一关键词槽是否填满所述意图的必要槽位；

若所述第一关键词槽未填满所述意图的必要槽位，则进行至少一轮语音的补充交互以获取补充信息，对所述补充信息进行解析，获取对应所述意图的第二关键词槽以补充所述意图空缺的所述必要槽位。

在一个实施方式中，所述第一关键词槽包括：

目标词槽，所述目标词槽为通过对所述语音交互信息进行解析而直接获得的词槽；

特征词槽，所述特征词槽为基于所述用户的用户特征而隐含的词槽。

通过本实施方式，部分关键信息可以通过用户的用户特征来直接获取，无需进行对话交互，缩短用户意图识别的流程，提高用户的交互体验。

在一个实施方式中，所述用户特征包括用户画像与用户场景。

在一个实施方式中，还包括：

针对每一轮所述补充交互，获取对应的所述第二关键词槽，通过意图解析将所述第二关键词槽补充至对应的所述空缺的必要槽位；

判断所述空缺的必要槽位是否被填满；

若所述空缺的必要槽位未被填满，则继续进行下一轮所述补充交互直至获取的所述第二关键词槽填满所述空缺的必要槽位。

通过本实施方式，逐轮进行补充交互以获取第二关键词槽，并在每一轮获取第二关键词槽后进行空缺的必要槽位是否被填满的判断，保证用户意图对应的必要槽位被填满，以保证能够准确识别出用户的意图。

在一个实施方式中，还包括：

针对每一轮所述补充交互，若其对应的所述补充信息中不存在对应所述意图的第二关键词且不存在新意图时，判断为冗余轮，跳过意图解析并进行下一轮补充交互。

通过本实施方式，设置冗余轮的跳过，避免实际交互过程中因为用户部分无关联的对话而轻易的断开语音交互。

在一个实施方式中，还包括：当所述冗余轮的轮数超过预设轮数时，断开当前的语音交互。通过本实施方式，设置对应冗余轮轮数的预设轮数，在保证语音交互不会因为用户部分无关联的对话而轻易断开的前提下，适时断开交互，能够避免冗余轮的轮数过多而影响语音设备的正常运行。

在一个实施方式中，还包括：若所述补充信息中解析出新意图，则以新意图替换原意图并进入所述新意图的交互。通过本实施方式，可以一定程度上解决意外(如识别有误，用户闲聊)跳出意图的问题，提高每个意图服务的延续性。

在一个实施方式中，多个所述空缺的必要槽位通过对应的多轮所述补充交互进行补充，所述多轮补充交互的进行顺序根据对应的所述空缺的必要槽位的优先级确定。

本发明的一种语音交互装置，包括：

语音输入模块，用于接收用户的语音并获取语音交互信息；

处理模块，用于解析所述语音交互信息，并根据所述语音交互信息解析的结果输出控制指令；以及

语音输出模块，用于根据所述控制指令语音回复用户以实现语音交互。

本发明的一种电子设备，包括：

语音采集器，用于接收用户的语音并获取语音交互信息；

处理器，用于解析所述语音交互信息，并根据所述语音交互信息解析的结果输出控制指令；以及

语音播报器，用于根据所述控制指令语音回复用户以实现语音交互。

本发明的一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的语音的交互方法。

上述技术特征可以各种适合的方式组合或由等效的技术特征来替代，只要能够达到本发明的目的。

本发明提供的一种语音交互的方法、装置、电子设备及存储介质，与现有技术相比，至少具备有以下有益效果：

本发明的一种语音交互的方法、装置、电子设备及存储介质，通过一次唤醒而连续进行多轮交互，在获取用户的初步意图后，利用多轮交互引导用户进行意图关键信息的补充，最终得出明确的用户意图。本发明的方法能够准确识别用户的意图并将意图转化为明确的指令，提升了用户语音交互的体验。

附图说明

在下文中将基于实施例并参考附图来对本发明进行更详细的描述。其中：

图1显示了本发明的语音交互的方法的流程图。

在附图中，相同的部件使用相同的附图标记。附图并未按照实际的比例。

具体实施方式

下面将结合附图对本发明作进一步说明。

实施例一

本实施例主要阐述本发明的交互方法的原理。

如附图图1所示，本发明提供了一种语音的交互方法，该方法包括：

步骤S1：获取语音交互信息；

用户在进行语音交互前，需要唤醒相应的语音设备，唤醒可采用特定的唤醒词进行唤醒。语音设备被唤醒后，通过对语音的接收来获取语音交互信息。

步骤S2：对语音交互信息进行解析，以获取发出语音交互信息的用户的意图以及对应意图的第一关键词槽；

主要通过对语音交互信息的语义解析来判断并获取用户的意图，并从语音交互信息中解析出与意图对应相关的词槽，是为第一关键词槽。意图在此是代表用户的初步意图，词槽在此是代表语音交互信息中能够将用户的初步意图转化为明确的用户指令的关键信息。

第一关键词槽包括：目标词槽与特征词槽，目标词槽为通过对语音交互信息进行解析而直接获得的词槽、特征词槽为基于用户的用户特征而隐含的词槽，用户特征包括用户画像与用户场景。

如果未解析出用户的意图，那么会通过兜底的回复话术语音回复用户并引导用户再次进行语音交互，以重新获取语音交互信息并解析意图，兜底的回复话术如“我没听清，请再说一遍”、“我不明白，请再说一遍”等。

步骤S3：进入意图的交互，判断第一关键词槽是否填满意图的必要槽位；

用户通过语音给出了初步意图，那么进行该意图所对应的用户指令的转化与明确，是为意图的交互。明确用户初步意图所对应的用户指令需要多个必要的关键信息，是为必要槽位。

如果判断第一关键词槽已经填满必要槽位，则代表明确用户指令所需的必要的关键信息已经被满足，用户的初步意图能够被转化为明确的用户指令，进而执行用户指令。

步骤S4：若第一关键词槽未填满意图的必要槽位，则进行至少一轮语音的补充交互以获取补充信息，对补充信息进行解析，获取对应意图的第二关键词槽来补充意图空缺的必要槽位。

如果第一关键词槽未填满意图的必要槽位，代表明确用户指令所需的必要的关键信息只有部分满足，需要进行补充完善。进而通过进行语音的补充交互来获取补充信息，通过补充信息中的第二关键词槽来补充空缺的必要槽位，即补充明确用户指令所需的必要的关键信息。语音的补充交互过程中，会通过语音回复用户来引导用户对必要的关键信息进行补充完善，实现交互。

步骤S41：针对每一轮补充交互，获取对应的第二关键词槽，通过意图解析将第二关键词槽补充至对应的空缺的必要槽位；

判断空缺的必要槽位是否被填满；

若空缺的必要槽位未被填满，则继续进行下一轮补充交互直至获取的第二关键词槽填满空缺的必要槽位。

在第一关键词槽未填满意图的必要槽位时，通过进行语音的补充交互获取第二关键词槽，每一个第二关键词槽对应一轮补充交互。在一轮补充交互进行后，需要判断获取的第二关键词槽是否填满空缺的必要槽位；是，则代表用户的意图能够被转化为明确的指令，执行相关指令；否，则继续进行下一轮补充交互以获取其他第二关键词槽。

步骤S42：针对每一轮补充交互，若其对应的补充信息中不存在对应意图的第二关键词且不存在新意图时，判断为冗余轮，跳过意图解析并进行下一轮补充交互。

当冗余轮的轮数超过预设轮数时，断开当前的语音交互。

冗余轮代表用户在进行与其原意图不相关且未给出新意图的交互对话，该对话对于明确用户的指令来说是无意义的，进而跳过对其交互对话的关于原意图的解析，进行下一轮交互。

在冗余轮数过多且超过预设轮数时，判断用户在进行无意义的对话交互，进而断开当前的语音交互。语音交互断开后，相应的语音设备进入休眠，用户需要进行唤醒操作来再次进行语音交互。

进一步地，空缺的必要槽位对应的第二关键词对应从补充交互中获取，多个第二关键词需要进行多轮补充交互，多轮补充交互的进行顺序根据对应的空缺的必要槽位的优先级(必要性)确定，更优先的(更必要的)空缺的必要槽位对应的补充交互优先进行。

进一步地，如果进行补充信息解析时获取到了新意图，那么以新意图替换原意图并进入新意图的交互，相关的第一关键词槽与第二关键词槽也基于与新意图的相关性进行获取。即语音交互过程中出现多个意图，以最后出现的意图进行交互。

明确用户指令所需的必要的关键信息补充完善后，用户的初步意图能够被转化为明确的用户指令，而后执行用户指令。执行用户指令时，根据用户指令的具体类型，判断是否需要回复用户。

本实施例中的交互方法，在获取用户的初步意图后，通过引导用户进行多轮语音交互来补充完善意图所对应的必要的关键信息，进而将用户的初步意图转化为明确的用户指令，通过一次多轮的语音交互即可得出明确的用户指令，大大提高了用户语音交互的体验。

实施例二

本实施例主要通过语音交互实例来进一步阐述本发明的交互方法。本实施例中列举第一关键词槽直接填满必要槽位的情况。

用户发出语音：到X市XX机场打车的话80够吗？

获取用户的上述语音交互信息，从语义分析上解析该语音交互信息，得出用户的初步意图是询问行程价格，这一意图的必要槽位是出发地、交通方式、目的地以及价格。同时，从语音交互信息中获取到对应询问行程价格这一意图的第一关键词槽；其中，目标词槽为对应目的地的“XX机场”、对应交通方式的“打车”、对应价格的“80”(价格数值)；根据包括用户画像与用户场景的用户特征得出特征词槽，特征词槽包括对应出发地的“当前定位”、对应价格数值“80”的价格单位“人民币”(根据用户的定位在国内即可默认为人民币，不必在进行价格单位的交互对话)。

根据上述获取的第一关键词槽判断该第一关键词槽已经填满了意图的必要槽位，则用户的意图能够转化为明确的指令，即行程价格询问：“从当前位置打车到XX机场80块钱(人民币)够吗？”；执行用户指令，查询实时行程价格并通过语音回复用户。

回复：够，从当前位置打车到X市XX机场只需63块钱。

在语音回复用户时，回复的内容需要匹配意图的必要槽位，即记载回答“够”的基础上，需要对应出发地、交通方式、目的地以及价格进行详细的回答。同时，对于非必要槽位，回复时根据具体设置可以省略。如上述例子中，目的地“XX机场”只有“X市XX机场”这唯一结果，进而“X市”是为非必要槽位，回答时根据具体设置，可以省略。

实施例三

本实施例主要通过语音交互实例来进一步阐述本发明的交互方法。本实施例中列举在获取第一关键词槽的基础上继续获取第二关键词槽来填满必要槽位的情况。

用户发出语音：我想去机场。

获取用户的上述语音交互信息，从语义分析上解析该语音交互信息，得出用户的初步意图是行程规划，这一意图的必要槽位是出发地、交通方式、目的地。从语音交互信息中获取到对应行程规划这一意图的第一关键词槽，“机场”这一信息通常并不能指向唯一的目的地，进而不作为目标词槽；只有特征词槽中的“当前定位”对应必要槽位“出发地”；判断必要槽位未被第一关键词槽填满，进行语音补充交互，引导用户提供补充信息来获取第二关键词槽以填满空缺的必要槽位。

回复：请告诉我您的目的地。

具体地，也可以基于“机场”这一信息进行回复来引导用户进行补充完善，例如回复：请告诉我您想去哪一个机场。

用户：XX机场。

对“XX机场”这一补充信息进行语义解析，解析出对应必要槽位“目的地”的第二关键词槽“XX机场”，而后判断空缺的必要槽位仍未被填满，继续进行下一轮补充交互。

回复：告诉我您的交通方式。

用户：公交车。

对“公交车”这一补充信息进行语义解析，解析出对应必要槽位“交通方式”的第二关键词槽“公交车”，而后判断空缺的必要槽位已被填满，则用户的意图能够转化为明确的指令，即行程规划：“坐公交车怎么从当前位置到XX机场”；执行用户的指令，规划行程，同时通过回复话术对用户进行回复。

回复：从当前位置乘坐XX路公交车直达XX机场。

具体地，上述例子中，在获取对应“出发地”的第一关键词槽后，还存在两个空缺的必要槽位：“目的地”与“交通方式”，而“目的地”的优先级明显高于“交通方式”的优先级。则上述两轮补充交互中，对应“目的地”的补充交互优先进行。

实施例四

本实施例主要通过语音交互实例来进一步阐述本发明的交互方法。本实施例中列举未获取到第一关键词槽而通过获取第二关键词槽来填满必要槽位的情况。

用户发出语音：我想听歌。

获取用户的上述语音交互信息，从语义分析上解析该语音交互信息，得出用户的初步意图是播放歌曲，这一意图需要明确播放什么歌曲，进而必要槽位是能够明确歌曲具体选择的歌名、歌手或歌曲类型。同时，未获取到对应“播放歌曲”这一意图的第一关键词槽，进而必要槽位未能被第一关键词槽填满，从而进行语音补充交互，引导用户提供补充信息来获取第二关键词槽。

回复：想听什么歌？

用户：我好困啊。

针对“我好困啊”这一补充信息进行语义解析，未解析出对应“播放歌曲”这一意图的第二关键词槽以及新意图，判断为冗余轮，进行跳过。冗余轮可以是用户进行无意义的交互对话，也可以是用户回复的语音不清晰导致无法正常进行语义解析。

针对冗余轮，虽然跳过其意图解析，但是也需要进行回复，采用回复话术结合引导用户提供补充信息的内容进行回复。

回复：我没听清，请再说一遍，想听什么歌？

“我没听清，请再说一遍”是为回复话术，“想听什么歌”是为引导用户提供补充信息的内容。其中，回复话术可以进行不同设置，例如“我不明白，请再说一遍”、“能再说一次吗”等。

用户：听XX歌手的。

对“听XX歌手的”这一补充信息进行语义解析，解析出对应必要槽位“歌手”的第二关键词槽“XX歌手”，判断必要槽位已经被填满，则用户的意图能够转化为明确的指令，即：“播放XX歌手的歌曲”；执行用户的指令，播放XX歌手的歌曲，同时通过回复话术对用户进行回复。

回复：为您带来XX各歌手的歌曲《XX》。

进一步地，上述例子中，意图“播放歌曲”的必要槽位匹配到了第二关键词槽“XX歌手”，那么播放的歌曲是在XX歌手的歌曲中随机选取；优选地，也可以根据XX歌手所有歌曲的热度排序选取热度较高的歌曲进行播放。同时，一个必要槽位也可以对应多个关键词槽，在上述例子中，如果用户回复“听XX歌手的《XX》”，那么必要槽位匹配到了两个第二关键词槽“XX歌手”、“《XX》”，那么直接播放该歌曲。

实施例五

本实施例主要通过语音交互实例来进一步阐述本发明的交互方法。本实施例中列举存在新意图的情况。

用户发出语音：我想听歌。

回复：想听什么歌？

用户：我想看电影。

针对“我想看电影”这一补充信息进行语义解析，解析出了新意图“播放电影”，则以新意图“播放电影”替换原意图“播放歌曲”，并进行新意图“播放电影”的意图交互。意图“播放电影”的必要槽位为“电影名称”，而该轮对话中只解析出了新意图而没有获取到对应必要槽位的第一关键词槽，从而进行语音补充交互，引导用户提供补充信息来获取第二关键词槽。

在本实施例中，

回复：想看什么电影？

用户：《XXXX》

对“《XXXX》”这一补充信息进行语义解析，解析出对应必要槽位“电影名称”的第二关键词槽“《XXXX》”，判断必要槽位已经被填满，则用户的意图能够转化为明确的指令，即：“播放电影《XXXX》”；执行用户的指令，播放电影《XXXX》，同时通过回复话术对用户进行回复。

回复：为您带来电影《XXXX》。

在本发明的一个实施例中，还提供了一种语音交互装置，包括：

语音输入模块，用于接收用户的语音并获取语音交互信息；

处理模块，用于解析语音交互信息，并根据语音交互信息解析的结果输出控制指令；以及

语音输出模块，用于根据控制指令语音回复用户以实现语音交互。

具体地，本实施例中的语音交互装置预设有特定的唤醒词，用户发出语音后，语音输入模块接收到该语音信息，处理模块通过比对判断接收的语音信息是否匹配唤醒词；是，则唤醒语音交互装置；否，则保持休眠。

同时，语音交互装置还预设有回复话术，用于在语音交互过程中回复用户。

在本发明的一个实施例中，还提供了一种电子设备，包括：

语音采集器，用于接收用户的语音并获取语音交互信息；

处理器，用于解析语音交互信息，并根据语音交互信息解析的结果输出控制指令；以及

语音播报器，用于根据控制指令语音回复用户以实现语音交互。

具体地，用户的语音通过语音采集器采集并获取其语音交互信息，处理器解析语音交互信息并根据解析结果通过语音采集器、语音播报器与用户进行多轮交互，处理器通过多轮交互明确用户的指令并执行指令。处理器根据指令控制电子设备进行相应的运转。

在本发明的一个实施例中，还提供了一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时，实现上述的语音交互的方法。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：林跃杭;赵文静;李瑞;李梦瑶;李立辉;
专利申请人：珠海格力电器股份有限公司;珠海联云科技有限公司;

上一篇：一种谷物物料用干燥设备及其干燥方法
下一篇：基于临床表型和逻辑回归分析的食管鳞癌风险预测方法