语音设备的控制方法及装置、语音设备及存储介质

文献发布时间：2023-06-19 12:27:31

技术领域

本公开涉及人工智能技术领域，尤其涉及一种语音设备的控制方法及装置、语音设备及存储介质。

背景技术

2011年以来，语音助手已经成为对话式人工智能技术在各类语音智能终端最具代表性的应用场景。经典意义上的语音助手的运作流程一般为：用户自然语言输入、对输入进行自然语言处理得到意图、根据解析意图调用对应的服务、基于服务信息给用户做出交互反馈。但是当前的语音助手存在智能化程度不够高的问题。

发明内容

本公开提供一种语音设备的控制方法及装置、语音设备及存储介质。

根据本公开实施例的第一方面，提供一种语音设备的控制方法，应用于语音设备中，所述方法包括：

检测唤醒所述语音设备的语音助手的唤醒指令；

在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息。

在一些实施例中，所述历史语音的响应信息根据所述语音助手的数据库获得，所述数据库为在获取到所述历史语音之后更新的数据库。

在一些实施例中，所述历史语音包括：查询语音，所述历史语音的响应信息包括：所述查询语音的答复信息；

所述方法还包括：

若所述语音设备在历史唤醒所述语音助手后，基于更新前的数据库未获取到所述查询语音的答复信息，标识所述查询语音为未答复的查询语音；

所述在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息，包括：

在所述语音助手唤醒后，基于更新后的数据库输出所述未答复的查询语音的答复信息。

在一些实施例中，所述历史语音的响应信息还包括：与所述历史语音关联的所述答复信息之外的信息。

在一些实施例中，所述历史语音包括：附有时间信息的提醒语音，所述历史语音的响应信息包括：所述提醒语音关联的信息；

所述在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息，包括：

若所述语音助手唤醒，且当前时间满足所述时间信息指示的时间，输出所述提醒语音关联的信息。

在一些实施例中，所述方法还包括：

对存储的多条历史语音进行数据分析，获取所述语音设备的用户的偏好；

根据更新后的数据库，获取与所述用户的偏好相关联的信息；

所述在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息，包括：

在所述语音助手唤醒后，输出所述历史语音中与所述用户的偏好相关联的信息。

在一些实施例中，所述在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息，包括：

在所述语音助手唤醒后，语音输出所述历史语音的响应信息；

和/或，

在所述语音助手唤醒后，在所述语音设备的显示屏上显示所述历史语音的响应信息。

根据本公开实施例的第二方面，提供一种语音设备的控制装置，应用于语音设备中，所述装置包括：

检测模块，配置为检测唤醒所述语音设备的语音助手的唤醒指令；

输出模块，配置为在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息。

在一些实施例中，所述历史语音的响应信息根据所述语音助手的数据库获得，所述数据库为在获取到所述历史语音之后更新的数据库。

在一些实施例中，所述历史语音包括：查询语音，所述历史语音的响应信息包括：所述查询语音的答复信息；

所述装置还包括：

标识模块，配置为若所述语音设备在历史唤醒所述语音助手后，基于更新前的数据库未获取到所述查询语音的答复信息，标识所述查询语音为未答复的查询语音；

所述输出模块，还配置为在所述语音助手唤醒后，基于更新后的数据库输出所述未答复的查询语音的答复信息。

在一些实施例中，所述历史语音的响应信息还包括：与所述历史语音关联的所述答复信息之外的信息。

在一些实施例中，所述历史语音包括：附有时间信息的提醒语音，所述历史语音的响应信息包括：所述提醒语音关联的信息；

所述输出模块，还配置为若所述语音助手唤醒，且当前时间满足所述时间信息指示的时间，输出所述提醒语音关联的信息。

在一些实施例中，所述装置还包括：

分析模块，配置为对存储的多条历史语音进行数据分析，获取所述语音设备的用户的偏好；

获取模块，配置为根据更新后的数据库，获取与所述用户的偏好相关联的信息；

所述输出模块，还配置为在所述语音助手唤醒后，输出所述历史语音中与所述用户的偏好相关联的信息。

在一些实施例中，所述输出模块，还配置为在所述语音助手唤醒后，语音输出所述历史语音的响应信息；和/或，在所述语音助手唤醒后，在所述语音设备的显示屏上显示所述历史语音的响应信息。

根据本公开实施例的第三方面，提供一种终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如上述第一方面中所述的语音设备的控制方法。

根据本公开实施例的第四方面，提供一种存储介质，包括：

当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行如上述第一方面中所述的语音设备的控制方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

在本公开的实施例中，在语音助手唤醒后，语音设备主动输出存储的历史语音的响应信息，无需用户先发起交互，能进行主动推荐，且语音设备能将存储的所有历史语音作为一个整体，进行跨时域的信息组合计算并生成新的响应信息，极大提升了语音设备的智能化程度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例示出的一种语音设备的控制方法流程图。

图2为一种对话式人工智能交互的示例图。

图3是本公开实施例中一种输出历史语音的响应信息的示例图一。

图4是本公开实施例中一种输出历史语音的响应信息的示例图二。

图5是本公开实施例中一种输出历史语音的响应信息的示例图三。

图6是根据一示例性实施例示出的一种语音设备的控制装置图。

图7是本公开实施例示出的一种终端装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是本公开实施例示出的一种语音设备的控制方法流程图，如图1所示，应用于语音设备中，包括以下步骤：

S11、检测唤醒所述语音设备的语音助手的唤醒指令；

S12、在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息。

在本公开的实施例中，语音设备支持语音采集和音频输出的功能，在此基础上基于语音助手能实现人机间的语音交互。语音设备包括：智能手机、智能音箱或支持语音交互功能的可穿戴设备等。

例如，以语音设备是智能音箱为例，可以基于智能音箱所包含的语音采集组件采集用户输入的语音数据，并基于智能音箱的分析处理，通过智能音箱的语音输出组件输出采集的语音数据所对应的响应信息。智能音箱的语音采集组件可以是麦克风，智能音箱的语音输出组件可以是扬声器。

在步骤S11中，语音设备会检测唤醒语音设备的语音助手的唤醒指令。在一种实施例中，唤醒指令可以是包括预定唤醒词的唤醒语音，语音设备可以通过唤醒词检测模型对用户发出的语音进行实时检测，在确定用户发出的语音中包含该唤醒词时，唤醒语音助手。在另一种实施例中，唤醒指令可以是点击语音助手图标或按钮的操作指令，语音设备在检测到上述操作指令后，即唤醒语音助手。

在步骤S12中，语音设备在根据唤醒指令唤醒语音助手后，即输出历史语音的响应信息。其中，历史语音是指在本次唤醒语音助手之前，语音设备在唤醒语音助手后接收到的语音。语音设备可对历史语音进行存储，例如语音设备存储预定时长内的历史语音；或者，语音设备根据检测的语音的意图属性，选择性的存储历史语音。在根据语音的意图属性选择性的存储历史语音时，例如可以是存储询问类型的语音，还可以是存储与未来时间相关联的语音等。

需要说明的是，在本公开的实施例中，历史语音可以是一条也可以是多条，历史语音的响应信息也可以是一条或多条。例如，语音设备可基于一条历史语音获得一条或多条响应信息，也可基于多条历史语音来获得一条或多条响应信息。此外，在本公开的实施例中，语音设备可以在本次语音助手唤醒后生成历史语音的响应信息，也可以是在本次语音助手唤醒前生成历史语音的响应信息并在语音助手唤醒后输出，对此本公开实施例不做限制。

通常，语音设备支持语音交互的过程是：语音设备对当前检测的用户语音进行语音识别，获得语音文本信息；然后对语音文本信息的语义进行解析，提取关键信息进行意图识别，根据识别的意图在数据库中去查询获得相应资料，并基于在数据库查询获得的资料获得响应信息，例如，将查询获得的资料转化自然语言文本后转为对应的语音响应。

上述对话式人工智能交互，从交互层面来看，必须要求用户先发起交互再给出反馈，无法主动向用户传达信息；从系统层面来看，每一次输出都是用户当前次交互输入信息经过智能计算的结果，这导致海量的某一用户和对话式人工智能交互的信息没有进行有效的整体计算，不能自主生成新的反馈。

图2为一种对话式人工智能交互的示例图，如图2所示，语音设备被唤醒后，在显示屏上显示“在，请说……”的提示信息，以提示用户输入语音。当语音设备检测到用户的语音输入后，再给出相应的反馈。

然而，本公开中语音设备的控制方法不同于上述交互方式，本公开在语音设备的语音助手唤醒后，主动输出存储的历史语音的响应信息，无需用户先发起交互，能进行主动推荐，且语音设备能将存储的所有历史语音作为一个整体，进行跨时域的信息组合计算并生成新的响应信息，极大提升了语音设备的智能化程度。

在一种实施例中，所述在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息，包括：

在所述语音助手唤醒后，语音输出所述历史语音的响应信息；

和/或，

在所述语音助手唤醒后，在所述语音设备的显示屏上显示所述历史语音的响应信息。

在本公开实施例中，可通过语音方式输出响应信息，也可以在语音设备的显示屏上显示响应信息，例如通过卡片的形式显示，对此本公开实施例不做限制。

需要说明的是，在本公开的实施例中，语音设备在唤醒语音助手后主动输出历史语音的响应信息，可以是按顺序轮流输出不同历史语音的响应信息，也可以是固定输出某一预定类型历史语音的响应信息。语音设备在检测到新的用户语音输入后，即停止对历史语音的响应信息的输出。

在一种实施例中，所述历史语音的响应信息根据所述语音助手的数据库获得，所述数据库为在获取到所述历史语音之后更新的数据库。

如前所述的，语音设备在识别出用户输入语音的意图后，基于数据库查询获得相应资料并得到响应信息。而通常，该数据库是会不断更新的，例如，基于研发人员的主动完善来更新。

通过更新语音助手的数据库，能提供给用户更好的使用体验。例如，基于更新前的数据库，用户输入的语音无法查询获得对应的响应，通过更新数据库后即可给出响应；再例如基于更新前的数据库，给出的响应是错误的或者不完善的，通过更新数据库后能获得正确的或更完善的响应。

可以理解的是，本公开在更新了语音助手的数据库之后，获取历史语音的响应信息，能提升对历史语音的响应信息获取的精准度。

在一种实施例中，所述历史语音包括：查询语音，所述历史语音的响应信息包括：所述查询语音的答复信息；

所述方法还包括：

若所述语音设备在历史唤醒所述语音助手后，基于更新前的数据库未获取到所述查询语音的答复信息，标识所述查询语音为未答复的查询语音；

所述在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息，包括：

在所述语音助手唤醒后，基于更新后的数据库输出所述未答复的查询语音的答复信息。

在该实施例中，历史语音包括查询语音，语音设备可在检测到用户的语音输入后，通过意图识别来确定语音类型。针对查询类型的语音，若语音设备在历史唤醒语音助手后，基于更新前的数据库未获取到查询语音的答复信息，则语音设备对该类语音进行标识并存储，当语音设备更新了数据库之后再次唤醒语音助手，即可基于更新后的数据库获得该标识的未答复的查询语音的答复信息并输出。在该实施例中，历史语音的响应信息是查询语音的答复信息。

例如，在某一次语音交互过程中，智能音箱检测到用户输入的语音为：“张山身高多少？”，智能音箱基于当前的数据库无法给出答案，可能输出：“哎呀，这个问题我还不会，等我知道了再告诉你！”，同时智能音箱还标识用户输入的该语音为未答复的语音并存储作为历史语音。在当前次唤醒语音助手后，智能音箱即可基于更新后的数据库获得该历史语音的响应信息并输出。

需要说明的是，在本公开的实施例中，若语音设备未检测到数据库的更新，或者基于更新后的数据库仍未获得该历史语音的答复信息，也可在当前语音助手唤醒后，不输出该历史语音对应的响应信息。

在一种实施例中，所述历史语音的响应信息还包括：与所述历史语音关联的所述答复信息之外的信息。

在该实施例中，对查询类的历史语音，响应信息包括的答复信息之外的信息例如可以是与查询类历史语音中提及的人名关联的信息，或者是与查询类历史语音中提及的与时间或某一具体事件关联的信息等等。

图3是本公开实施中一种输出历史语音的响应信息的示例图一，如图3所示，历史语音的响应信息不仅包括张山身高的答复信息，还包括与张山关联的其他娱乐方面的信息。

再例如，历史语音包括：“今年的六一儿童节是星期几？”，则历史语音的响应信息可包括具体星期几的答复信息，还可包括六一儿童节的来源介绍，适宜儿童听的歌曲等相关联的信息。

在一种实施例中，所述历史语音包括：附有时间信息的提醒语音，所述历史语音的响应信息包括：所述提醒语音关联的信息；

所述在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息，包括：

在满足所述时间信息指示的时间，且所述语音助手唤醒后，输出所述提醒语音关联的信息。

在该实施例中，历史语音包括附有时间信息的提醒语音，语音设备也可通过意图识别来确定语音是否是附有时间信息的提醒语音。若语音设备在历史唤醒语音助手后，通过意图识别确定了语音为附有时间信息的提醒语音，则语音设备保存该语音。当语音设备再次唤醒语音助手，且当前时间满足时间信息指示的时间，则输出提醒语音关联的信息。

图4是本公开实施中一种输出历史语音的响应信息的示例图二，如图4所示，历史语音可能是：“下个星期二是我的生日”。则到下个星期二，语音设备的语音助手唤醒后，在语音设备的显示屏上输出“祝贺小谷最重要的人又成长了一岁”的响应信息，还可以以卡片形式输出生日祝福或者推荐适合生日聚会的去处等。

可以理解的是，在该实施例中，语音设备可根据历史语音的内容主动输出信息并进行语音设备的控制，极具智能性。

在一种实施例中，所述方法还包括：

对存储的多条历史语音进行数据分析，获取所述语音设备的用户的偏好；

根据更新后的数据库，获取与所述用户的偏好相关联的信息；

所述在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息，包括：

在所述语音助手唤醒后，输出所述历史语音中与所述用户的偏好相关联的信息。

如前所述的，语音设备中可存储有多条历史语音，本公开实施例中，语音设备可对存储的多条历史语音进行数据分析，获取语音设备的用户的偏好。例如，某一用户之前总是点周小杰的歌，语音设备通过对历史语音进行数据分析后，确定用户对周小杰比较感兴趣，则可在语音助手唤醒后，主动推荐周小杰演唱会相关的信息，或者基于更新后的数据库，主动推荐周小杰最新的娱乐动态等等。

图5是本公开实施中一种输出历史语音的响应信息的示例图三，如图4所示，历史语音可能是：“播放一首《彩虹》”、“播放一首《双节棍》”等。则在语音设备的语音助手唤醒后，在语音设备的显示屏上输出“推荐周小杰的最新歌曲《七里香》”的响应信息，还可以展示周杰伦的演唱会举办时间、场次等相关信息。

可以理解的是，本公开的语音设备根据历史语音的内容主动输出信息并进行语音设备的控制，极具智能性。

图6是根据一示例性实施例示出的一种语音设备的控制装置图，应用于语音设备中，参照图6，所述装置包括：

检测模块101，配置为检测唤醒所述语音设备的语音助手的唤醒指令；

输出模块102，配置为在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息。

在一些实施例中，所述历史语音的响应信息根据所述语音助手的数据库获得，所述数据库为在获取到所述历史语音之后更新的数据库。

在一些实施例中，所述历史语音包括：查询语音，所述历史语音的响应信息包括：所述查询语音的答复信息；

所述装置还包括：

标识模块103，配置为若所述语音设备在历史唤醒所述语音助手后，基于更新前的数据库未获取到所述查询语音的答复信息，标识所述查询语音为未答复的查询语音；

所述输出模块102，还配置为在所述语音助手唤醒后，基于更新后的数据库输出所述未答复的查询语音的答复信息。

在一些实施例中，所述历史语音的响应信息还包括：与所述历史语音关联的所述答复信息之外的信息。

在一些实施例中，所述历史语音包括：附有时间信息的提醒语音，所述历史语音的响应信息包括：所述提醒语音关联的信息；

所述输出模块102，还配置为若所述语音助手唤醒，且当前时间满足所述时间信息指示的时间，输出所述提醒语音关联的信息。

在一些实施例中，所述装置还包括：

分析模块104，配置为对存储的多条历史语音进行数据分析，获取所述语音设备的用户的偏好；

获取模块105，配置为根据更新后的数据库，获取与所述用户的偏好相关联的信息；

所述输出模块102，还配置为在所述语音助手唤醒后，输出所述历史语音中与所述用户的偏好相关联的信息。

在一些实施例中，所述输出模块102，还配置为在所述语音助手唤醒后，语音输出所述历史语音的响应信息；和/或，在所述语音助手唤醒后，在所述语音设备的显示屏上显示所述历史语音的响应信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种终端装置800的框图。例如，装置800可以是移动电话，移动电脑等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由语音设备的处理器执行时，使得语音设备能够执行语音设备的控制方法，所述方法包括：

检测唤醒所述语音设备的语音助手的唤醒指令；

在根据所述唤醒指令唤醒所述语音助手后，输出历史语音的响应信息。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李丹;王刚;秦斌;金琳;谭杰夫;
专利申请人：北京小米移动软件有限公司;北京小米松果电子有限公司;

上一篇：文件注释方法、装置、存储介质和计算设备
下一篇：一种超高、大截面的混凝土框架柱的施工方法