导航：首页> 乐器；声学>多屏幕语音控制方法、装置、设备及计算机可读存储介质

多屏幕语音控制方法、装置、设备及计算机可读存储介质

文献发布时间：2024-04-18 19:58:53

技术领域

本公开涉及语音识别技术领域，尤其涉及一种多屏幕语音控制方法、装置、设备及计算机可读存储介质。

背景技术

可见即可说是一种用语音控制指令替换触控操作、按键操作等的人机交互形式，即用户直接说系统屏幕的文本信息即可达到操作该文本区域的效果。

但是，当一个语音控制设备在一个空间内配置有多个屏幕的情况下，当用户发出一条语音控制指令时，如果语音控制设备不能很好地区分语音控制指令需要控制的屏幕，则会导致语音控制设备出现误操作，进而导致用户体验较差。

发明内容

为了解决上述技术问题，本公开提供了一种多屏幕语音控制方法、装置、设备及计算机可读存储介质。

第一方面，本公开实施例提供一种多屏幕语音控制方法，包括：

接收实时语音和实时语音所属空间内的实时图像；

基于实时图像，在多个屏幕中检测发出实时语音的用户看向的目标屏幕；

在目标屏幕对应的目标控制指令集中，查询与实时语音相匹配的目标控制指令，目标控制指令集包括根据目标屏幕正在显示的交互界面的控件数据生成的控制指令；

若查询到目标控制指令，控制目标屏幕执行目标控制指令对应的目标控制操作。

第二方面，本公开实施例提供一种多屏幕语音控制装置，包括：

接收模块，用于接收实时语音和实时语音所属空间内的实时图像；

检测模块，用于基于实时图像，在多个屏幕中检测发出实时语音的用户看向的目标屏幕；

查询模块，用于在目标屏幕对应的目标控制指令集中，查询与实时语音相匹配的目标控制指令，目标控制指令集包括根据目标屏幕正在显示的交互界面的控件数据生成的控制指令。

控制模块，用于若查询到目标控制指令，控制目标屏幕执行目标控制指令对应的目标控制操作。

第三方面，本公开实施例提供一种多屏幕语音控制设备，包括：

存储器；

处理器；

以及计算机程序；

其中，计算机程序存储在所述存储器中，并被配置为由处理器执行以实现如第一方面的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现第一方面的方法。

第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的多屏幕语音控制方法。

本公开实施例提供的多屏幕语音控制方法、装置、设备及计算机可读存储介质，在接收实时语音及实时语音所属空间内的实时图像后，能够利用实时图像，在多个屏幕中检测发出实时语音的用户看向的目标屏幕；确定目标屏幕后，在目标屏幕当前显示的交互界面对应的目标控制指令集中查找与实时语音相匹配的目标控制指令，并控制目标屏幕执行查询到的控制指令，使得当用户通过可见即可说的方式对任一屏幕进行语音控制时，可以从多个屏幕中确定用户想要语音控制的目标屏幕，减少了无屏幕响应或响应屏幕与用户实际想要控制屏幕不符等误操作情况，提高了用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种多屏幕语音控制方法的流程示意图；

图2为本公开实施例提供的另一种多屏幕语音控制方法的流程示意图；

图3为本公开实施例提供的又一种多屏幕语音控制方法的流程示意图；

图4为本公开实施例提供的多屏幕语音控制装置的结构示意图；

图5为本公开实施例提供的多媒体语音控制设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

在相关技术中，当在一个空间内如果有多个屏幕时，用户发出语音控制指令后，不能区分用户想要控制的屏幕。

以语音控制设备所在的空间为车辆的驾舱为例，目前大部分车辆驾舱内的语音控制设备能够支持可见即可说的人机交互形式。当语音控制设备配置有一个屏幕时，例如语音控制设备配置有主驾驶位置区域对应的中控屏，如果驾舱内的用户发出语音控制指令，该中控屏可以直接响应语音控制指令执行相应操作；但是当语音控制设备配置有多个屏幕时，例如语音控制设备配置有主驾驶位置区域对应的中控屏、副驾驶位置区域对应的副驾驶屏和后排位置区域对应的后排屏时，如果驾舱内的用户发出语音控制指令，语音控制设备并不能确定用户需要控制哪个屏幕，容易导致语音控制设备不控制任何屏幕响应语音控制指令或者语音控制设备控制响应语音控制指令的屏幕与用户实际想要控制的屏幕不一致，因此导致语音控制设备出现误操作，进而导致用户体验较差。

针对上述问题，本公开实施例提供了一种多屏幕语音控制方法、装置、设备及计算机可读存储介质。下面结合具体的实施例首先对该多屏幕语音控制方法进行介绍。图1为本公开实施例提供的多屏幕语音控制方法的流程示意图。

在本公开实施例中，该多屏幕语音控制方法可以由语音控制设备执行，其中，语音控制设备可以为配置有多个屏幕且具有语音控制功能的电子设备。

如图1所示，该多屏幕语音控制方法主要包括以下步骤：

S110、接收实时语音和实时语音所属空间内的实时图像。

在本公开实施例中，当用户想要对空间内多个屏幕中的某个屏幕进行语音控制时，用户可以发出实时语音，使语音控制设备可以接收用户在该空间内发出的实时语音，并且在接收实时语音的同时，获取该空间内的实时图像。

在本公开实施例中，实时语音所属空间具体可以是安装有语音控制设备的空间。可选地，空间可以包括车辆的驾舱、房屋的房间等，在此不作限制。

实时语音可以是用户实时发出的语音，该语音可以为包含用户控制需求的音频信号，如果用户控制需求符合可见及可说的交互形式，语音控制设备可以基于该用户控制需求对屏幕中正在显示的某个或某些功能进行控制操作。

在本公开实施例中，语音控制设备可以通过音频采集设备获取实时语音。

在一些实施例中，空间内可以安装一个音频采集设备，该音频采集设备可以实时采集语音所属空间内所有实时语音，语音控制设备可以接收该音频采集设备采集的实时语音。

在另一些实施例中，空间内可以安装多个音频采集设备，每个音频采集设备可以具有一个采集范围，所有音频采集设备的采集范围叠加后可以覆盖完整空间的范围，每个音频采集设备分别采集其采集范围内的实时语音，语音控制设备可以接收所有音频采集设备采集的实时语音。

其中，音频采集设备可以包括麦克风、录音机等，在此不作限制。

实时图像可以是在用户发出实时语音的时刻下空间内的图像。

在本公开实施例中，语音控制设备可以通过图像采集设备获取实时图像。

在一些实施例中，空间内可以安装一个图像采集设备，该图像采集设备可以采集该空间内的所有空间范围的图像，语音控制设备可以接收该图像采集设备采集的实时图像。

在另一些实施例中，空间内可以安装多个图像采集设备，每个图像采集设备可以具有一个采集范围，所有图像采集设备的采集范围叠加后可以覆盖完整空间的范围，每个图像采集设备分别采集其采集范围内的实时图像，语音控制设备可以接收所有图像采集设备采集的实时图像。

其中，图像采集设备可以为摄像头、摄像机、相机等，在此不作限制。

S120、基于实时图像，在多个屏幕中检测发出实时语音的用户看向的目标屏幕。

在本公开实施例中，语音控制设备可以响应于接收到的实时语音和实时图像，在多个屏幕中，根据实时图像检测发出实时语音的用户看向的目标屏幕。

由于在可见即可说场景下，用户在发出实时语音时，一般会看向其所要控制的屏幕，来保证该屏幕能够满足用户控制需求，并且实时图像能够体现用户在发出实时语音时的状态，因此，语音控制设备可以对实时图像进行图像检测，来在多个屏幕中分析出用户看向的屏幕，并将该屏幕作为用户想要控制的目标屏幕。

以空间为车辆的驾舱为例，当语音控制设备配置有主驾驶位置区域对应的中控屏、副驾驶位置区域对应的副驾驶屏和后排位置区域对应的后排屏时，语音控制设备可以对摄像头采集的驾舱内的实时图像进行图像检测，在中控屏、副驾驶屏和后排屏中分析出用户看向的屏幕，并将该屏幕作为用户想要控制的目标屏幕。

S130、在目标屏幕对应的目标控制指令集中，查询与实时语音相匹配的目标控制指令，其中，目标控制指令集包括根据目标屏幕正在显示的交互界面控件数据生成的控制指令。

在本公开实施例中，语音控制设备确定目标屏幕后，在一个或者多个控制指令集合中确定目标屏幕对应的目标控制指令集合，并查询与实时语音匹配的目标控制指令。

由于在可见即可说场景下，用户是对目标屏幕正在显示的交互界面中的某个或某些功能进行控制操作，因此语音控制设备确定目标屏幕后，需要首先确定目标屏幕对应的目标控制指令集，进而可以在目标控制指令集中查询与用户发出的实时语音相匹配的目标控制指令。

目标屏幕正在显示的交互界面可以是语音控制设备的主屏幕页面，还可以是语音控制设备中配置的应用程序的页面。该语音控制设备的主屏幕页面或语音控制设备中配置的应用程序的页面中至少包括一个页面控件，该页面控件可以为界面中的按钮、选项、图标或者链接等能够被用户操控的控件，在此不作限制。

控制指令可以是语音控制设备根据语音控制设备中配置的屏幕正在显示的交互界面界面控件数据中的静态控件数据和/或动态控件数据生成的控制指令。

以车辆的驾舱中的屏幕为例，当语音控制设备配置有主驾驶位置区域对应的中控屏、副驾驶位置区域对应的副驾驶屏和后排位置区域对应的后排屏时，语音控制设备可以根据各个屏幕正在显示的交互界面中的静态控件数据和/或动态控件数据生成控制指令。

静态控件数据可以是正在显示的交互界面中的静态控件对应的控件文本。静态控件可以为始终固定显示的界面控件，即静态控件不会随着用户喜好或者设置而改变。

以车辆的驾舱中的主驾驶位置区域对应的中控屏为例，当中控屏正在显示的交互界面是语音控制设备的主屏幕时，静态控件可以是语音控制设备内置的“设置”、“文件管理”等图标；当中控屏正在显示的交互界面是语音控制设备中配置的应用程序页面时，静态控件可以是点击“设置”图标后进入设置主页面中的“关闭”按钮。

动态控件数据可以为正在显示的交互界面中的动态控件对应的控件文本。动态控件可以为能够动态更新、或者随着用户喜好或设置而改变的界面控件。

还是以车辆的驾舱中的主驾驶位置区域对应的中控屏为例，当中控屏正在显示的交互界面是语音控制设备的主屏幕时，动态控件可以是语音控制设备配置的“音乐”、“地图”等图标；当中控屏正在显示的交互界面是语音控制设备中配置的应用程序页面时，动态控件可以是点击“音乐”应用程序的图标后进入音乐主页面中的“在线歌曲”列表。

语音控制设备根据上述正在显示的交互界面中的静态控件数据和/或动态控件数据，生成某一个或多个屏幕对应的控制指令集合。

在一些实施例中，语音控制设备可以在确定目标屏幕之后，根据目标屏幕正在显示的交互界面包括的静态控件数据和/或动态控件数据生成控制指令集，并将该控制指令集作为目标控制指令集。

在另一些实施例中，语音控制设备可以在确定目标屏幕之前，根据所有屏幕正在显示的交互界面包括的静态控件数据和/或动态控件数据预先生成控制指令集，同时语音控制设备会将预先生成的控制指令集与各个屏幕的标识信息进行对应。因此，当语音控制设备确定目标屏幕后，根据目标屏幕的标识信息从预先生成的控制指令集中找到目标屏幕对应的控制指令集，并将目标屏幕对应的控制指令集作为目标控制指令集。

其中，屏幕的标识信息具体可以是屏幕唯一编号，用于区分不同屏幕。

可选的，在目标屏幕对应的目标控制指令集中，查询与实时语音相匹配的目标控制指令可以是：将实时语音转换为语音文本，在目标控制指令集中查询与语音文本相匹配的所述目标控制指令。

具体地，可以将用户实时语音输入离线设置的自动语音识别(Automatic SpeechRecognition，ASR)引擎中，得到ASR引擎输出的目标语音文本，进而在目标控制指令集的各个控制指令中查询与目标语音文本相匹配的目标控制指令。

其中，目标控制指令与目标语音文本相匹配可以为目标语音文本包含目标控制指令中的任一动词和任一控件文本分词，也可以为目标语音文本中的动词与目标控制指令中的任一动词相同且目标语音文本中的名词与目标控制指令中的任一控件文本分词的相似度大于或等于预设的相似度阈值。

由此，可以通过在目标控制指令集中查询与用户控制语音相匹配的目标控制指令，来确定用户的语音控制意图。

S140、若查询到目标控制指令，控制目标屏幕执行目标控制指令对应的目标控制操作。

在本公开实施例中，如果语音控制设备确定其查询到与用户控制语音相匹配的目标控制指令，则可以执行该目标控制指令对应的目标控制操作；如果语音控制设备确定未查询到与用户控制语音相匹配的目标控制指令，则可以继续对用户语音进行检测，等待下一个用户控制语音。

可选地，查询到目标控制指令，控制目标屏幕执行目标控制指令对应的目标控制操作可以是针对目标控制指令所涉及的正在显示的交互界面的控件，执行目标控制操作。

由于每个控制指令是根据正在显示的交互界面控件的控件数据生成的，因此，每个控制指令能够用于触发对该控制指令所涉及的正在显示的交互界面控件执行目标控制操作，即每个控制指令能够用于触发生成该控制指令的控件数据所属的正在显示的交互界面控件执行目标控制操作。

进一步地，目标控制操作可以按照目标控制指令所指示的目标控制方式来实现的控制操作。

具体地，语音控制设备可以在查询到目标控制指令之后，按照目标控制指令所指示的目标控制方式，对生成该控制指令的控件数据所属的正在显示的交互界面控件进行控制操作。

在本公开实施例中，可选地，在步骤S140之后，语音控制设备可以进入新的交互界面，也可以保留在正在显示的交互界面中。

在一些实施例中，在语音控制设备保留在正在显示的交互界面中的情况下，语音控制设备无需重新生成控制指令集，可以继续基于目标控制指令集实现用户对目标交互界面的语音控制。

在另一些实施例中，在语音控制设备进入新的交互界面的情况下，语音控制设备需要重新生成新的交互界面对应的控制指令集，以基于重新生成的控制指令集实现用户对目标交互界面的语音控制。

本公开实施例提供的多屏幕语音控制方法、装置、设备及计算机可读存储介质，在接收实时语音及实时语音所属空间内的实时图像后，能够利用实时图像，在多个屏幕中检测发出发出实时语音的用户看向的目标屏幕；确定目标屏幕后，在目标屏幕当前显示的交互界面对应的目标控制指令集中查找与实时语音相匹配的目标控制指令，并控制目标屏幕执行查询到的控制指令，使得当用户通过可见即可说的方式对任一屏幕进行语音控制时，可以从多个屏幕中确定用户想要语音控制的目标屏幕，减少了无屏幕响应或响应屏幕与用户实际想要控制屏幕不符等误操作情况，提高了用户体验。

图2为本公开实施例提供的另一种多屏幕语音控制方法的流程示意图。

在本公开实施例中，该多屏幕语音控制方法由上述语音控制设备执行。

如图2所示，该多屏幕语音控制方法包括以下步骤：

S210、接收实时语音和实时语音所属空间内的实时图像。

在本公开实施例中，该步骤与S110步骤相同，在此不再赘述。

S220、基于实时语音，在实时图像中识别发出实时语音的用户对应的用户图像。

在本公开实施例中，语音控制设备响应于接收到的实时语音和实时图像，通过实时语音，确定发出实时语音的用户，然后在实时图像中，确定发出实时语音的用户图像。

其中，用户图像可以是用户发出实时语音的时刻下包含发出实时语音的用户的图像内容。

在一些实施例中，S220可以具体包括：确定实时语音的声源位置；在实时图像中识别声源位置对应的图像内容；将该图像内容作为用户图像。

语音控制设备根据用户发出的实时语音，使用声源定位方法，确定实时语音的声源位置，即用户位置。

在一些实施例中，当空间内安装一个音频采集设备，该音频采集设备可以采集空间内所有区域位置的实时语音，预先设置该音频采集设备与多个区域位置之间的方向和距离的对应关系。那么声源定位方法可以是语音控制设备利用该音频采集设备对空间内的不同区域位置的用户发出的实时语音的声音信号进行测量，由于不同区域位置的用户发出的实时语音的声音信号到达音频采集设备的时间有不同程度的延迟，利用算法对测量到的实时语音的声音信号进行处理，由此获得实时语音的声音信号的区域位置相对于音频采集设备的到达方向(包括方位角、俯仰角)和距离等，根据预先设置的音频采集设备与多个区域位置之间的方向和距离的对应关系，确定声源位置。

以空间为车辆的驾舱为例，车辆的驾舱内安装有1个麦克风，该麦克风可以实时采集车辆的驾舱内的主驾驶位置区域、副驾驶位置区域、后排左侧位置区域及后排右侧位置区域的实时语音。

例如当主驾驶位置区域区域的用户发出实时语音时，驾舱内安装的麦克风采集到该实时语音，并将该实时语音发送给语音控制设备，语音控制设备接收该实时语音，得到该实时语音的声音信号的位置区域相对于该麦克风的方向和距离，根据得到方向和距离及预先设置好的麦克风与主驾驶位置区域区域的方向和距离的对应关系，即可确定发出实时语音的用户处于主驾驶位置区域，进而确定主驾驶位置区域为声源位置。

在另一些实施例中，当空间内安装多个音频采集设备，每个音频采集设备具有一个采集范围，一个采集范围可以对应一个位置区域，预先设置每个音频采集设备与其对应的位置区域的对应关系。那么声源定位方法可以是每个音频采集设备在空间内采集其对应位置区域的用户发出的实时语音的声音信号，同时对其他位置区域的实时语音的声音信号进行屏蔽，并将采集到的声音信号发送给语音控制设备，语音控制设备接收到该音频采集设备发送的声音信号后，根据音频采集设备与其对应的位置区域的对应关系，将该音频采集设备对应的位置区域作为声源位置。

以空间为车辆的驾舱为例，车辆的驾舱内安装有4个麦克风，分别为主驾驶位置区域对应的麦克风、副驾驶位置区域对应的麦克风、后排左侧位置区域对应的麦克风、后排右侧位置区域对应的麦克风。每个麦克风负责采集各自对应的位置区域的用户发出的实时语音。

例如当主驾驶位置区域的用户发出实时语音时，安装在主驾驶位置区域的麦克风采集到该实时语音，并将该实时语音发送给语音控制设备，语音控制设备接收到主驾驶位置区域的麦克风发送过来的实时语音，根据预先设置的麦克风与其对应位置区域的对应关系，确定发出实时语音的用户处于主驾驶位置区域，进而确定主驾驶位置区域为声源位置。

进一步的，语音控制设备确定声源位置后，在实时图像中识别声源位置对应的图像内容。

在可见即可说场景下，因为需要根据用户图像确定用户看向的屏幕，因此，语音控制设备确定声源位置后，首先需要在实时图像中识别出声源位置对应的图像内容，进而根据声源位置对应的图像内容确定用户图像。

在一些实施例中，当空间内安装一个图像采集设备时，该图像采集设备可以采集空间内所有区域位置的实时图像，语音控制设备响应于接收到的实时图像，在空间内的实时图像中识别声源位置对应的图像内容。需要说明的是，当空间内安装有一个图像采集设备和音频采集设备时，该图像采集设备和音频采集设备的采集角度、采集范围等相同，然后将实时图像中的图像位置和图像深度与声源位置匹配，识别出声源位置上的用户，进而可以从实时图像中识别该用户的图像内容。

以空间为车辆的驾舱为例，车辆的驾舱安装有一个摄像头，例如该摄像头安装在驾舱的挡风玻璃上。当主驾驶位置区域的用户发出实时声音时，语音控制设备确定主驾驶位置区域为声源位置，然后在该摄像头采集的实时图像中识别出主驾驶位置区域对应的图像内容。

在另一些实施例中，当空间内安装多个图像采集设备，每个图像采集设备具有一个采集范围，一个采集范围对应空间内的一个位置区域，预先设置每个图像采集设备与其对应的位置区域的对应关系。当语音控制设备确定声源位置后，控制该声源位置的图像采集设备发送其采集到的实时图像，语音控制设备接收该实时图像并将该实时图像作为声源位置对应的图像内容。

以空间为车辆的驾舱为例，车辆的驾舱安装4个摄像头，例如主驾驶位置区域对应的摄像头、副驾驶位置区域对应的摄像头、后排左侧位置区域对应的摄像头、后排右侧位置区域对应的摄像头，各自对应的摄像头负责采集各自对应位置区域的用户的图像。当主驾驶位置区域的用户发出声音时，语音控制设备确定主驾驶位置区域是声源位置，并根据图像采集设备与其对应的位置区域的对应关系，控制主驾驶位置区域对应的摄像头发送其采集到的实时图像，并将该实时图像作为声源位置对应的图像内容。

进一步的，语音控制设备识别出图像内容后，将识别出的图像内容作为用户图像。

在另一些实施例中，S220可以具体包括：确定实时语音的声源位置；在实时图像中识别声源位置对应的图像内容；在图像内容中识别具有发声动作的用户图像。

具体的，语音控制设备确定实时语音的声源位置以及在实时图像中识别声源位置对应的图像内容与上述描述的确定实时语音的声源位置及在实时图像中识别声源位置对应的图像内容方法相同，在此不再赘述。

在一些实施例中，当语音控制设备在声源位置对应的图像内容中识别出多个用户，语音控制设备不能确定是哪个用户发出的声音，进而不能在图像内容中确定用户图像。因此需要在实时图像中找到具有发声动作的用户，进而确定用户图像。

以空间为车辆的驾舱为例，当车辆的驾舱内承载多人，并且后排位置上的用户距离较近时，当后排位置区域用户发出实时语音时，语音控制设备接收到该实时语音，通过声源定位方法可以定位到声源位置是后排位置区域(例如定位到后排左侧)，但是语音设备实时图像中识别到该声源位置对应的图像内容后，识别到该图像内容中有多个用户(例如两个)，因此语音控制设备不能确定发出实时语音的用户的用户图像，因此需要在声源位置对应的图像内容中识别具有发声动作的用户对应的用户图像，以保证可以进一步的确定发出实时语音的用户用户，进而确定该用户看向的屏幕。

在另一些实施例中，当语音控制设备在声源位置对应的图像内容中识别出一个用户，也同样可以在声源位置对应的图像内容中识别具有发声动作的用户图像，以保证可以更加准确的确定用户图像，在此不做限定。

在又一些实施例中，S220可以具体包括：确定实时语音的音频特征；根据该音频特征，确定发出实时语音的用户特征；在实时图像中识别与用户特征匹配的用户图像。

具体的，音频特征可以是音频类型中的感知特征，该感知特征可以用于区分用户的声音特征，例如，根据声音特征可以区分出发出实时语音的用户的性别、发出实时语音的用户是否是儿童等，因此，根据声音特征，可以确定用户特征，进而可以在实时图像中识别与用户特征相匹配的用户图像。

以实时语音所属空间为车辆的驾舱为例，例如语音控制设备响应于接收到的实时语音和实时图像，通过实时图像，识别出该车辆有一名男士和一名女士。通过对实时语音中的音频信号进行识别，识别出该实时语音具有音频振动频率低，发出音调低、声音传递远等特征，根据这些特征，确定发出实时语音的用户是一名男士，因此从实时图像中识别男士的图像内容，并将该图像内容作为用户图像。

需要说明的是，以上描述的在实时图像中识别发出实时语音的用户对应的用户图像只是几种可实现的方案，在其他的实施例中，还可以采用其他的可实现方法或者是将上述可实现方式任意组合等，在此不做限定。

S230、基于用户图像，在多个屏幕中确定用户看向的目标屏幕。

在本公开实施例中，语音控制设备响应于接收到的用户图像，在多个屏幕中，根据用户图像中显示的用户看向的屏幕确定目标屏幕。

由于在可见即可说的场景下，用户发出实时语音时，一般会看向所要控制的屏幕，来保证该屏幕能够满足用户控制需求，并且当用户看向所要控制的屏幕时，一般会有头部的转动和/或眼球的转动等动作，因此，语音控制设备可以根据用户图像中显示的用户头部转动图像和用户眼球转动图像确定用户看向的屏幕。

具体的，在多个屏幕中，语音控制设备根据用户图像中显示的用户头部转动图像和眼球转动图像确定用户看向的屏幕之前，需要预先设置不同的声源位置的用户头部转动角度的范围值及用户眼球转动方向与各个屏幕之间的对应关系。可选的，在一些示例中，可以将该对应关系整合成算法和/或模型等。

以空间为车辆的驾舱为例，车辆的驾舱内安装有三个屏幕，分别为主驾驶位置区域对应的中控屏、副驾驶位置区域对应的副驾驶屏、后排位置区域对应的后排屏。语音控制设备预先设置声源位置为主驾驶位置区域，用户头部转动角度的范围值及眼球转动方向与中控屏、副驾驶屏、后排屏的主驾驶位置区域的对应关系。例如语音控制设备设置主驾驶位置区域的用户头部转动角度为0度-20度、眼球转动方向为右侧时，主驾驶位置区域的用户看向的是中控屏；又例如语音控制设备设置主驾驶位置区域用户头部转动角度为30度-70度、眼球转动方向为右侧时，主驾驶位置区域用户看向的是副驾驶屏等等。语音控制设备依次设置声源位置为副驾驶位置区域、后排左侧位置区域、后排右侧位置区域，用户头部转动角度的范围值及用户眼球转动方向与中控屏、副驾驶屏、后排屏的对应关系。

语音控制设备根据用户图像中显示的用户头部的转动图像和眼球的转动图像，计算出用户头部的转动角度值及眼球的转动方向。

根据预先设置的声源位置的用户头部转动角度的范围值及眼球转动方向与各个屏幕之间的对应关系，确定计算出的用户头部的转动角度值及眼球的转动方向所在范围，进而可以确定用户看向的屏幕。

继续以空间为车辆的驾舱为例，例如语音控制设备首先根据实时语音确定声源位置为主驾驶位置区域，并根据声源位置，确定出主驾驶位置区域对应的用户图像，从用户图像中确定主驾驶位置区域用户头部转动角度是10度，眼球转动方向为右侧；根据预先设置的声源位置为主驾驶位置区域，用户头部转动角度的范围值及眼球转动方向与中控屏、副驾驶屏、后排屏的对应关系，确定用户图像中用户看向的屏幕为中控屏，因此确定中控屏为目标屏幕。

在一些实施例中，还可以只设置不同声源位置与用户头部转动角度的范围的对应关系，或只设置不同声源位置与用户眼球转动方向的对应关系等，在此不做限制。

S240、在目标屏幕对应的目标控制指令集中，查询与实时语音相匹配的目标控制指令，目标控制指令集包括根据目标屏幕正在显示的交互界面的控件数据生成的控制指令。

在本公开实施例中，该步骤与上述S130步骤相同，在此不再赘述。

S250、若查询到目标控制指令，控制目标屏幕执行目标控制指令对应的目标控制操作。

在本公开实施例中，该步骤与上述S140步骤相同，在此不再赘述。

本公开实施例通过根据实时语音确定发出实时语音的声源位置和/或识别具有发音动作的用户和/或音频特征，使得可以根据声源位置和/或识别具有发音动作的用户和/或用户特征确定用户图像，进而可以根据用户图像确定目标屏幕，使得可以更加精确的确定目标屏幕，减少了无屏幕响应或响应屏幕与实际想要控制屏幕不符的情况，提高了用户体验。

图3为本公开实施例提供的又一种多屏幕语音控制方法的流程示意图，在本公开实施例中，该多屏幕语音控制方法由上述语音控制设备执行。

如图3所示，该多屏幕语音控制方法主要包括以下步骤：

S310、接收实时语音和实时语音所属空间内的实时图像。

在本公开实施例中，该步骤与上述S110步骤相同，在此不再赘述。

S320、基于实时语音，在实时图像中识别发出实时语音的用户对应的用户图像。

具体的，在本公开实施例中，语音控制设备响应于接收到的实时语音和实时图像，在实时图像中确定发出实时语音的用户的声源位置，并根据声源位置确定发出该实时语音的用户对应的用户图像。

在一些实施例中，当空间内安装多个音频采集设备及多个图像采集设备，每个音频采集设备具有一个采集范围，一个采集范围对应空间内的一个位置区域。

预先设置每一个音频语音控制设备与每一个图像采集设备的对应关系。语音控制设备接收到每个音频采集设备采集的实时语音及每个图像采集设备采集的实时图像，根据预先设置的音频采集设备与图像采集设备的对应关系，确定用户图像。

以空间为车辆的驾舱为例，车辆的驾舱内安装有主驾驶位置区域对应的麦克风及摄像头、副驾驶位置区域对应的麦克风及摄像头、后排左侧区域对应的麦克风及摄像头、后排右侧区域对应的麦克风及摄像头，同一个位置区域的麦克风及摄像头具有对应关系。

当用户发出实时语音，该位置区域对应的麦克风接收到实时语音发送给语音控制设备，语音控制设备接收到该实时语音后，根据预先设置的麦克风及摄像头的对应关系，找到该麦克风对应的摄像头拍摄的图像，并接收该摄像头拍摄的图像作为用户图像。

S330、基于用户图像，识别用户的观看方向。

具体的，语音控制设备确定用户图像后，识别用户图像中显示的用户头部转动图像和用户眼球转动图像。并根据头部转动图像和用户眼球转动图像确定用户头部转动角度值和眼球转动方向。

S340、根据用户图像，确定用户所处的位置。

具体的，语音控制设备确定用户图像后，在实时图像中识别用户图像中的用户在实时图像中的位置，进而确定用户在实时语音所属空间内的位置。

以空间为车辆的驾舱为例，该车辆的驾舱内除了上述每个位置区域安装的图像采集设备外，还安装有一个图像采集设备负责采集空间内所有范围的实时图像，在该音频采集设备采集的实时图像中，显示有发出实时语音的用户在实时图像中的位置，根据该实时图像中显示的位置，可以确定用户在实时图像中的位置。进一步的，根据用户在实时图像中的位置确定用户在空间内所处的位置。

以空间为车辆的驾舱为例，例如实时图像中显示发出实时语音的用户处于主驾驶位置区域，因此可以确定用户在空间内所处的位置为主驾驶位置区域。

S350、根据用户所处的位置和用户的观看方向，在多个屏幕中确定目标屏幕。

具体的，语音控制设备在多个屏幕中，根据用户所处的位置和用户观看方向确定目标屏幕。

语音控制设备可以根据用户图像中显示的用户头部转动图像和用户眼球转动图像确定用户的观看方向。

在多个屏幕中，语音控制设备根据用户图像中显示的用户头部转动图像和眼球转动图像确定用户的观看方向之前，需要预先设置用户所处的不同位置的用户头部转动角度的范围值及用户眼球转动方向的与各个屏幕之间的对应关系。

以空间为车辆的驾舱为例，车辆的驾舱内安装有三个屏幕，分别为主驾驶位置区域对应的中控屏、副驾驶位置区域对应的副驾驶屏、后排位置区域对应的后排屏。车辆的驾舱内用户所处的位置可以为主驾驶位置区域、副驾驶位置区域、后排左侧位置区域、后排右侧位置区域。因此，语音控制设备预先设置声源位置为主驾驶位置区域时，用户头部转动角度的范围值及眼球转动方向与中控屏、副驾驶屏、后排屏的主驾驶位置区域的对应关系。例如语音控制设备设置主驾驶位置区域用户头部转动角度为0度-20度、眼球转动方向为右侧时，主驾驶位置区域的用户看向的是中控屏；又例如语音控制设备设置主驾驶位置区域用户头部转动角度为30度-70度、眼球转动方向为右侧时，主驾驶位置区域用户看向的是副驾驶屏等等。依次设置副驾驶位置区域、后排左侧位置区域、后排右侧位置区域，用户头部转动角度的范围值及用户眼球转动方向与中控屏、副驾驶屏、后排屏的对应关系。

语音控制设备根据用户图像中显示的用户头部的转动图像和眼球的转动图像，计算出用户头部的转动角度值及眼球的转动方向，再根据用户所处的位置，确定目标屏幕。

继续以空间为车辆的驾舱为例，例如语音控制设备确定用户头部转动角度为10度，眼球转动方向为右侧，同时语音控制设备确定用户处于主驾驶位置区域，因此根据预先设置的用户所处的不同位置区域时，用户头部转动角度的范围值及用户眼球转动方向的与各个屏幕之间的对应关系可以确定用户看向的是主驾驶位置区域对应的屏幕，因此将主驾驶位置区域对应的屏幕作为目标屏幕。

S360、在目标屏幕对应的目标控制指令集中，查询与实时语音相匹配的目标控制指令，目标控制指令集包括根据目标屏幕正在显示的交互界面的控件数据生成的控制指令。

在本公开实施例中，该步骤与上述S130步骤相同，在此不再赘述。

S370、若查询到目标控制指令，控制目标屏幕执行目标控制指令对应的目标控制操作。

在本公开实施例中，该步骤与上述S140步骤相同，在此不再赘述。

本公开实施例通过在实时图像中识别发出实时语音的用户所处的用户图像，并根据用户图像确定用户的观看方向及用户所处的位置，使得用户可以与想要控制的屏幕以可见即可说的方式进行交互，提高了用户体验。

图4为本公开实施例提供的多媒体语音控制装置的结构示意图。本公开实施例提供的多媒体语音控制装置可以执行多媒体语音控制方法实施例提供的处理流程，如图4所示，该多媒体语音控制装置40包括：

接收模块41，用于接收实时语音和实时语音所属空间内的实时图像。

检测模块42，用于基于实时图像，在多个屏幕中检测发出实时语音的用户看向的目标屏幕。

查询模块43，用于在目标屏幕对应的目标控制指令集中，查询与所述实时语音相匹配的目标控制指令，目标控制指令集包括根据目标屏幕正在显示的交互界面的控件数据生成的控制指令。

控制模块44，用于若查询到目标控制指令，控制目标屏幕执行目标控制指令对应的目标控制操作。

可选的，检测模块42还包括第一识别单元、确定单元，其中，第一识别单元用于基于实时语音，在实时图像中识别发出实时语音的用户对应的用户图像；确定单元用于基于用户图像，在多个屏幕中确定用户看向的目标屏幕。

可选的，第一识别单元包括第一确定子单元、第一识别子单元，其中，第一确定子单元用于确定实时语音的声源位置；第一识别子单元用于在实时图像中识别声源位置对应的图像内容；将图像内容作为用户图像。

可选的，检测模块42还包括第二识别单元。其中第二识别单元用于在实时图像中，识别具有发声动作的用户图像。

可选的，第二识别单元包括第二确定子单元、第二识别子单元。其中，第二确定子单元用于确定实时语音的声源位置；第二识别子单元用于在实时图像中识别声源位置对应的图像内容；在图像内容中识别具有发声动作的用户图像。

可选的，确定单元包括第三识别子单元、第三确定子单元，其中，第三识别子单元用于基于用户图像识别用户的观看方向；第三确定子单元用于在多个屏幕中，根据用户的观看方向确定目标屏幕。

可选的，查询模块43用于在目标屏幕对应的目标控制指令集中，查询与实时语音相匹配的目标控制指令时，具体用于：将实时语音转换为语音文本；在所述目标控制指令集中查询与语音文本相匹配的目标控制指令。

可选的，控制指令包括根据界面控件数据中的静态控件数据和/或动态控件数据生成的控制指令。

图4所示实施例的多媒体语音控制装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本公开实施例提供的多屏幕语音控制设备的结构示意图。本公开实施例提供的多屏幕语音控制设备可以执行多屏幕语音控制方法实施例提供的处理流程，如图5所示，设备50包括：存储器51、处理器52、计算机程序和通讯接口53；其中，计算机程序存储在存储器51中，并被配置为由处理器52执行如上的多屏幕语音控制方法。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的多屏幕语音控制方法。

此外，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的多屏幕语音控制方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京罗克维尔斯科技有限公司;

上一篇：一种基于人工智能的电动医疗床智能控制系统
下一篇：定影薄膜及其制造方法、加热定影装置以及电子照相图像形成装置