语音控制方法、装置及车机语音控制设备

文献发布时间：2024-04-18 20:01:30

技术领域

本申请涉及车辆语音服务技术领域，具体而言，涉及一种语音控制方法、装置及车机语音控制设备。

背景技术

随着汽车智能化进程的深入，车机的功能越来越丰富，越来越多的汽车都配备了一块或几块搭载着智能系统的大屏幕，但是由于车机屏幕离驾驶员较远，手指操作并不像手机等移动设备上一样方便，于是语音就成了车机系统中驾驶员最方便的操作方式，车机的语音能力也越来越成为消费者购车考虑的重点。

当前市面上，大部分车机的语音系统并不支持可见即可说功能，只有少部分应用支持该能力，为实现车机语音系统的可见即可说功能，常规方案需要对对应应用进行适配开发，其会耗费大量人力物力在商务谈判以及对应集成开发测试上，即传统方案的可见即可说能力开发适配困难，用户体验不佳。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音控制方法、装置及车机语音控制设备，以至少解决当前车机系统的语音服务难以提供可见即可说功能的技术问题。

根据本申请实施例的一个方面，提供了一种语音控制方法，应用于车机语音系统，该方法包括：从车机系统中获取目标信息，其中，目标信息中至少包括车机系统中的交互界面的界面信息；接收目标对象的语音指令；基于语音指令及目标信息确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；控制车机系统执行与目标动作脚本对应的操作。

可选地，响应于目标对象的开启指令，开启语音服务功能，并在交互界面中展示语音服务功能的状态信息；在展示语音服务功能的状态信息期间，通过语音服务功能从车机系统中获取目标信息。

可选地，在接收目标对象的语音指令之后，调用本地语音引擎对语音指令进行预处理以确定语音指令的类型，其中，语音指令的类型包括以下之一：本地语音引擎可识别的第一语音指令，本地语音引擎无法识别的第二语音指令。

可选地，在语音指令为第一语音指令时，调用本地语音引擎对语音指令及目标信息进行分析，以确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；在语音指令为第二语音指令时，将语音指令及目标信息发送至云端服务器，并接收云端服务器反馈的目标动作脚本，其中，云端服务器用于对语音指令及目标信息进行分析以确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本。

可选地，调用本地语音引擎对语音指令及目标信息进行分析，并依据分析结果确定语音指令与目标信息的关联程度；在关联程度低于预设阈值时，基于语音指令确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；在关联程度不低于预设阈值时，基于语音指令及目标信息确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本。

可选地，基于语音指令及目标信息预测目标对象的多个意图，并将多个意图在交互界面中进行展示；响应于目标对象的选择指令，从多个意图中确定目标意图。

可选地，响应于目标动作脚本，控制车机系统执行与目标动作脚本对应的操作，并在交互界面中以自定义的显示效果显示目标区域，其中，目标区域为交互界面中与语音指令相关联的区域。

根据本申请实施例的另一方面，还提供了一种语音控制装置，包括：获取模块，用于从车机系统中获取目标信息，其中，目标信息中至少包括车机系统中的交互界面的界面信息；接收模块，用于接收目标对象的语音指令；确定模块，用于基于语音指令及目标信息确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；控制模块，用于控制车机系统执行与目标动作脚本对应的操作。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，该非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述的语音控制方法。

根据本申请实施例的另一方面，还提供了一种电子设备，该电子设备包括：存储器和处理器，其中，存储器中存储有计算机程序，处理器被配置为通过计算机程序执行上述的语音控制方法。

在本申请实施例中，首先从车机系统中获取目标信息，该目标信息中至少包括车机系统中的交互界面的界面信息；接收目标对象的语音指令；然后基于语音指令及目标信息确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；最后控制车机系统执行与目标动作脚本对应的操作。其中，车机语音系统可以直接获取车机系统交互界面的界面信息，当接收用户的语音指令时，可以在本地或云端基于界面信息和语音指令分析用户的意图并做出响应，该过程无需第三方应用参与，实现了无侵入式的可见即可说功能，有效解决了当前车机系统的语音服务难以提供可见即可说功能的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的语音控制方法的流程示意图；

图2是根据本申请实施例的一种可选的语音控制过程的示意图；

图3是根据本申请实施例的一种可选的语音控制装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本申请实施例，提供了一种语音控制方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种可选的语音控制方法的流程示意图，如图1所示，该方法至少包括步骤S102-S108，其中：

步骤S102，从车机系统中获取目标信息，其中，目标信息中至少包括车机系统中的交互界面的界面信息。

步骤S104，接收目标对象的语音指令。

作为一种可选的实施方式，在获取目标信息时，车机语音系统可以先响应于目标对象的开启指令，开启语音服务功能，并在交互界面中展示语音服务功能的状态信息。

通常，车机语音系统的语音服务功能处于待机状态，在接收到用户发出的关键唤醒词后，车机语音系统会唤醒语音服务功能，使语音服务功能处于工作监听状态，以接收用户后续发出的语音指令；在语音服务功能被唤醒后，还可以在车机系统的交互界面中展示对应的语音形象，以让用户知晓语音服务功能处于可交互状态。

之后，车机语音系统可以在展示语音服务功能的状态信息期间，通过语音服务功能从车机系统中获取目标信息，也即在接收到用户的语音指令之前，可以预先加载目标信息，并将其存储至格式化后的本地缓存中，其中，目标信息中主要包括交互界面的界面信息，也可以包括车机系统的运行状态信息。通过这种预加载的方式，可以加快后续的语音指令响应时间。

其中，语音服务功能从车机系统中获取目标信息时，可以利用系统辅助服务功能获取所需的信息，如针对安卓系统，可以利用系统原生的辅助服务功能监听系统界面变化并获取系统界面树信息。

可选地，考虑到用户的语音指令通常与显示界面中的内容相关，车机语音系统也可以在接收到用户的语音指令后，再获取实时的目标信息。

步骤S106，基于语音指令及目标信息确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本。

作为一种可选的实施方式，车机语音系统在接收目标对象的语音指令之后，可以调用本地语音引擎对语音指令进行预处理以确定语音指令的类型，其中，语音指令的类型包括以下之一：本地语音引擎可识别的第一语音指令，本地语音引擎无法识别的第二语音指令。

具体地，可以先通过本地语音引擎对语音指令进行语义分析以及热词库匹配等预处理操作，判断该语音指令是否为复杂指令，也即判断该语音指令是否可以在本地处理。如果是简单的第一语音指令，则直接响应即可；如果是本地语音引擎无法理解或处理的复杂的第二语音指令，则需要由云端服务器进行处理。

其中，车机语音系统可以定期与云端服务器进行信息交互，远程更新升级本地语音引擎及热词库等资源，以使其处于不断更新与成长的状态，从而满足用户的需求。

作为一种可选的实施方式，在语音指令为第一语音指令时，车机语音系统调用本地语音引擎对语音指令及目标信息进行分析，以确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；在语音指令为第二语音指令时，车机语音系统将语音指令及目标信息发送至云端服务器，并接收云端服务器反馈的目标动作脚本，其中，云端服务器用于对语音指令及目标信息进行分析以确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本。

具体地，在本地进行处理时，车机语音系统可以先调用本地语音引擎对语音指令及目标信息进行分析，并依据分析结果确定语音指令与目标信息的关联程度；在关联程度低于预设阈值时，基于语音指令确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；在关联程度不低于预设阈值时，基于语音指令及目标信息确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本。其中，预设阈值可以根据实际经验进行设置。

例如，车机语音系统可以调用本地语音引擎判断当前语音指令是否与当前交互界面相关，若为打开天窗、打开空调等指令，即为与当前交互界面关联程度较弱的指令，该指令响应不需要依托于界面信息，则直接基于语音指令确定用户的意图，并生成对应的目标动作脚本即可。

如果当前语音指令与当前交互界面关联程度较高时，考虑到预加载的界面信息可能缺乏实时性，车机语音系统还可以判断当前界面信息与缓存的界面信息是否发生变化，例如在安卓系统中可以依托系统辅助服务功能监听系统界面变化，如果发生了变化，则重新从系统中获取当前界面信息，并刷新本地缓存。

作为一种可选的实施方式，还可以基于语音指令及目标信息预测目标对象的多个意图，并将多个意图在交互界面中进行展示；响应于目标对象的选择指令，从多个意图中确定目标意图。

可以理解地，无论是在本地还是在云端进行处理时，根据语音指令及目标信息预测用户意图时都可能出现同时预测出多个意图的情况，为了更准确地确定用户的实际意图，车机语音系统可以将预测出的多个意图在交互界面中进行弹窗展示以供用户进行选择，根据用户的选择指令从多个意图中确定目标意图，并生成与目标意图对应的目标动作脚本。

需要说明的是，一个动作脚本中可以包括多个动作，例如打开音乐应用并播放对应的歌曲，而每个动作脚本对应一个用户意图。

步骤S108，控制车机系统执行与目标动作脚本对应的操作。

作为一种可选的实施方式，车机语音系统可以响应于目标动作脚本，控制车机系统执行与目标动作脚本对应的操作，并在交互界面中以自定义的显示效果显示目标区域，其中，目标区域为交互界面中与语音指令相关联的区域。

具体地，语音服务功能在从车机系统中获取界面信息之后，便可以同步获取到对应控件的布局大小以及对应的界面位置信息，当接收到本地生成或者云端下发的目标动作脚本后，车机语音系统在进行响应的同时，可以在交互界面中的响应区域添加类似高亮等动效，该界面动效由语音服务功能在系统层窗口统一呈现，并且可以由用户进行个性化配置。

图2示出了一种可选的完整语音控制过程的示意图，其流程步骤如下：

S1、响应于用户的唤醒词，唤醒语音服务功能；

S2、展示语音形象，同时后台预加载系统状态及界面信息并格式化缓存；

S3、接收用户的语音指令；

S4、调用本地语音引擎对语音指令进行预处理；

S5、判断语音指令是否可以在本地进行预处理；若可以，则执行步骤S6；若不行，则执行步骤S9；

S6、判断语音指令是否与用户界面信息相关；若相关，则执行步骤S7；若不相关，则执行步骤S8；

S7、获取当前界面信息以刷新缓存的界面信息；

S8、调用本地语音引擎分析用户意图，并生成对应的动作脚本；执行步骤S11；

S9、将获取的系统状态及界面信息以及语音指令上传至云端服务器进行处理；

S10、接收云端服务器反馈的动作脚本；

S11、根据动作脚本做出响应，并展示响应动效。

实施例2

根据本申请实施例，还提供了一种用于实现上述语音控制方法的语音控制装置，如图3所示，该语音控制装置中至少包括获取模块31，接收模块32，确定模块33和控制模块34，其中：

获取模块31，用于从车机系统中获取目标信息，其中，目标信息中至少包括车机系统中的交互界面的界面信息。

接收模块32，用于接收目标对象的语音指令。

作为一种可选的实施方式，在获取目标信息时，获取模块可以先响应于目标对象的开启指令，开启语音服务功能，并在交互界面中展示语音服务功能的状态信息。

通常，车机语音系统的语音服务功能处于待机状态，获取模块在接收到用户发出的关键唤醒词后，会唤醒语音服务功能，使语音服务功能处于工作监听状态，以接收用户后续发出的语音指令；在语音服务功能被唤醒后，还可以在车机系统的交互界面中展示对应的语音形象，以让用户知晓语音服务功能处于可交互状态。

之后，获取模块可以在展示语音服务功能的状态信息期间，通过语音服务功能从车机系统中获取目标信息，也即在接收到用户的语音指令之前，可以预先加载目标信息，并将其存储至格式化后的本地缓存中，其中，目标信息中主要包括交互界面的界面信息，也可以包括车机系统的运行状态信息。通过这种预加载的方式，可以加快后续的语音指令响应时间。

可选地，考虑到用户的语音指令通常与显示界面中的内容相关，获取模块也可以在接收到用户的语音指令后，再获取实时的目标信息。

确定模块33，用于基于语音指令及目标信息确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本。

作为一种可选的实施方式，在接收目标对象的语音指令之后，确定模块可以先调用本地语音引擎对语音指令进行预处理以确定语音指令的类型，其中，语音指令的类型包括以下之一：本地语音引擎可识别的第一语音指令，本地语音引擎无法识别的第二语音指令。

具体地，确定模块可以先通过本地语音引擎对语音指令进行语义分析以及热词库匹配等预处理操作，判断该语音指令是否为复杂指令，也即判断该语音指令是否可以在本地处理。如果是简单的第一语音指令，则直接响应即可；如果是本地语音引擎无法理解或处理的复杂的第二语音指令，则需要由云端服务器进行处理。

其中，确定模块可以定期与云端服务器进行信息交互，远程更新升级本地语音引擎及热词库等资源，以使其处于不断更新与成长的状态，从而满足用户的需求。

作为一种可选的实施方式，在语音指令为第一语音指令时，确定模块调用本地语音引擎对语音指令及目标信息进行分析，以确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；在语音指令为第二语音指令时，确定模块将语音指令及目标信息发送至云端服务器，并接收云端服务器反馈的目标动作脚本，其中，云端服务器用于对语音指令及目标信息进行分析以确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本。

具体地，在本地进行处理时，确定模块可以先调用本地语音引擎对语音指令及目标信息进行分析，并依据分析结果确定语音指令与目标信息的关联程度；在关联程度低于预设阈值时，基于语音指令确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；在关联程度不低于预设阈值时，基于语音指令及目标信息确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本。其中，预设阈值可以根据实际经验进行设置。

例如，确定模块可以调用本地语音引擎判断当前语音指令是否与当前交互界面相关，若为打开天窗、打开空调等指令，即为与当前交互界面关联程度较弱的指令，该指令响应不需要依托于界面信息，则直接基于语音指令确定用户的意图，并生成对应的目标动作脚本即可。

如果当前语音指令与当前交互界面关联程度较高时，考虑到预加载的界面信息可能缺乏实时性，确定模块还可以判断当前界面信息与缓存的界面信息是否发生变化，例如在安卓系统中可以依托系统辅助服务功能监听系统界面变化，如果发生了变化，则重新从系统中获取当前界面信息，并刷新本地缓存。

作为一种可选的实施方式，确定模块还可以基于语音指令及目标信息预测目标对象的多个意图，并将多个意图在交互界面中进行展示；响应于目标对象的选择指令，从多个意图中确定目标意图。

可以理解地，无论是在本地还是在云端进行处理时，根据语音指令及目标信息预测用户意图时都可能出现同时预测出多个意图的情况，为了更准确地确定用户的实际意图，确定模块可以将预测出的多个意图在交互界面中进行弹窗展示以供用户进行选择，根据用户的选择指令从多个意图中确定目标意图，并生成与目标意图对应的目标动作脚本。

需要说明的是，一个动作脚本中可以包括多个动作，例如打开音乐应用并播放对应的歌曲，而每个动作脚本对应一个用户意图。

控制模块34，用于控制车机系统执行与目标动作脚本对应的操作。

作为一种可选的实施方式，控制模块可以响应于目标动作脚本，控制车机系统执行与目标动作脚本对应的操作，并在交互界面中以自定义的显示效果显示目标区域，其中，目标区域为交互界面中与语音指令相关联的区域。

具体地，语音服务功能在从车机系统中获取界面信息之后，便可以同步获取到对应控件的布局大小以及对应的界面位置信息，当接收到本地生成或者云端下发的目标动作脚本后，控制模块在进行响应的同时，可以在交互界面中的响应区域添加类似高亮等动效，该界面动效由语音服务功能在系统层窗口统一呈现，并且可以由用户进行个性化配置。

需要说明的是，本申请实施例中的语音控制装置中的各模块与实施例1中的语音控制方法的各实施步骤一一对应，由于实施例1中已经进行了详尽的描述，本实施例中部分未体现的细节可以参考实施例1，在此不再过多赘述。

实施例3

根据本申请实施例，还提供了一种非易失性存储介质，该非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行实施例1中的语音控制方法。

根据本申请实施例，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行实施例1中的语音控制方法。

根据本申请实施例，还提供了一种车机语音控制设备，该车机语音控制设备包括：存储器和处理器，其中，存储器中存储有计算机程序，处理器被配置为通过计算机程序执行实施例1中的语音控制方法。

具体地，程序运行时执行实现以下步骤：从车机系统中获取目标信息，其中，目标信息中至少包括车机系统中的交互界面的界面信息；接收目标对象的语音指令；基于语音指令及目标信息确定目标对象的目标意图，并生成与目标意图对应的目标动作脚本；控制车机系统执行与目标动作脚本对应的操作。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：亿咖通(湖北)技术有限公司;

上一篇：一种基于有机骨架多孔纳米材料优化热力循环的辅助冷凝装置及循环系统
下一篇：一种肾内科护理尿液取样装置