掌桥专利:专业的专利平台
掌桥专利
首页

一种基于车内用户信息生成自然语言的方法及装置

文献发布时间:2023-06-19 19:28:50


一种基于车内用户信息生成自然语言的方法及装置

技术领域

本申请涉及车辆人机交互技术领域,尤其涉及一种基于车内用户信息生成自然语言的方法以及基于车内用户信息生成自然语言的装置。

背景技术

目前一般使用自然语言生成仅考虑了语音交互发起人来进行自然语言生成。但是在车辆的使用场景下,存在多个用户同时在一个座舱内使用的情况。现有技术无法实现语音交互的过程中考虑多个用户的具体情况,根据不同用户的具体情况进行自然语言生成的问题。

因此,希望有一种技术方案来解决或至少减轻现有技术的上述不足。

发明内容

本发明的目的在于提供一种基于车内用户信息生成自然语言的方法来至少解决上述的一个技术问题。

本发明提供了下述方案:

根据本发明的一个方面,提供一种基于车内用户信息生成自然语言的方法,所述基于车内用户信息生成自然语言的方法包括:

获取车内人员语音信息;

获取车内人员基本信息;

根据车内人员语音信息获取待播放槽位信息;

根据所述车内人员基本信息以及车内人员语音信息获取待播放模板信息;

根据所述待播放模板信息与所述待播放槽位信息生成待播放自然语言信息。

可选地,所述根据车内人员语音信息获取待播放槽位信息包括:

解析所述车内人员语音信息,从而获取语义信息;

根据语义解析信息判断是否生成待播放自然语言信息,若是,则

根据语义信息获取待播放槽位信息。

可选地,所述获取车内人员基本信息包括:

获取车内的各个座椅上的压力传感器所传递的压力信息;

根据压力信息获取车内人员数量。

可选地,所述获取车内人员基本信息包括:

获取车内摄像装置所拍摄的车内图像信息;

识别所述图像信息,从而获取车内人员基本信息。

可选地,所述车内人员基本信息包括人员数量信息、人员脸部图像信息以及人员年龄信息。

可选地,所述根据所述车内人员基本信息以及车内人员语音信息获取待播放模板信息包括:

获取预设模板数据库,所述预设模板数据库包括至少两个预设模板以及预设人员条件,一个预设模板对应一个预设人员条件;

判断获取的所述人员数量信息、人员脸部图像信息以及人员年龄信息是否符合所述预设模板数据库中的一个预设人员条件,若是,则

获取符合的预设人员条件所对应的预设模板作为待播放模板信息。

可选地,基于车内用户信息生成自然语言的方法进一步包括:

获取预设人脸数据库,所述预设人脸数据库包括至少一个预设人脸信息;

为每个人员脸部图像信息进行如下操作:

将获取的人员脸部图像信息分别与各个预设人脸信息进行相似度计算,从而获取相似度值;

判断是否有一个相似度值大于预设阈值,若是,则

判断各个人脸脸部特征信息中,相似度值大于预设阈值的人脸脸部特征信息的数量是否超过一个,若否,则

获取预设特殊语音库,所述预设特殊语音库包括至少一个预设特殊语音类型以及预设人脸信息,一个预设特殊语音类型对应一个预设人脸信息;

获取相似度值大于预设阈值的预设人脸信息所对应的预设特殊语音类型;

通过所述预设特殊语音类型对所述待播放自然语言信息进行播报。

可选地,所述基于车内用户信息生成自然语言的方法进一步包括:

判断各个人脸脸部特征信息中,相似度值大于预设阈值的人脸脸部特征信息的数量是否超过一个,若是,则

获取人员关系图谱,所述人员关系图谱包括至少两个人员名称信息、预设人脸信息,其中,一个人员名称信息与至少一个除自身以外的其他的人员名称信息之间具有优先级关系,一个人员名称信息与一个预设人脸信息对应;

获取各个人脸脸部特征信息中相似度值大于预设阈值人脸脸部特征信息所分别对应的预设人脸信息;

分别获取各个预设人脸信息所对应的人员名称信息;

判断所获取的各个人员名称信息之间是否具有优先级关系,若是,则

获取其中优先级关系高的人员名称信息所对应的预设人脸信息所对应的预设特殊语音类型;

通过所述预设特殊语音类型对所述待播放自然语言信息进行播报。

可选地,在所述通过所述预设特殊语音类型对所述待播放自然语言信息进行播报之前,所述基于车内用户信息生成自然语言的方法进一步包括:

获取睡眠识别分类器;

获取各个所述人员脸部图像信息;

提取各个人员脸部图像信息中的特征信息;

将各个所述特征信息分别输入至所述睡眠识别分类器,从而获取分类标签,所述分类标签包括睡眠标签;

当有一个分类标签为睡眠标签时,获取当前系统播报语音的音量信息;

判断音量信息是否超过预设音量阈值,若是,则

将所述音量信息调低至所述预设音量阈值以下并对所述待播放自然语言信息进行播报。

本申请还提供了一种基于车内用户信息生成自然语言的装置,所述基于车内用户信息生成自然语言的装置包括:

车内人员语音信息获取模块,所述车内人员语音信息获取模块用于获取车内人员语音信息;

车内人员基本信息获取模块,所述车内人员基本信息获取模块用于获取车内人员基本信息;

待播放槽位信息获取模块,所述待播放槽位信息获取模块用于根据车内人员语音信息获取待播放槽位信息;

待播放模板信息获取模块,所述待播放模板信息获取模块用于根据所述车内人员基本信息以及车内人员语音信息获取待播放模板信息;

待播放自然语言信息生成模块,所述待播放自然语言信息生成模块用于根据所述待播放模板信息与所述待播放槽位信息生成待播放自然语言信息。

本申请所提供的基于车内用户信息生成自然语言的方法根据车内人员基本信息来获取待播放槽位信息,从而根据不同的车内人员基本信息来生成不同的待播放自然语音信息,从而使得语音交互更为人性化。

附图说明

图1是本发明一个或多个实施例提供的基于车内用户信息生成自然语言的方法的流程图。

图2是本发明一个或多个实施例提供的基于车内用户信息生成自然语言的方法的一种电子设备结构框图。

图3为图1所示的基于车内用户信息生成自然语言的方法中的待播放模板信息的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明一个或多个实施例提供的基于车内用户信息生成自然语言的方法的流程图。

如图1所示的基于车内用户信息生成自然语言的方法包括:

步骤1:获取车内人员语音信息;

步骤2:获取车内人员基本信息;

步骤3:根据车内人员语音信息获取待播放槽位信息;

步骤4:根据所述车内人员基本信息以及车内人员语音信息获取待播放模板信息;

步骤5:根据所述待播放模板信息与所述待播放槽位信息生成待播放自然语言信息。

本申请所提供的基于车内用户信息生成自然语言的方法根据车内人员基本信息来获取待播放槽位信息,从而根据不同的车内人员基本信息来生成不同的待播放自然语音信息,从而使得语音交互更为人性化。

在本实施例中,根据车内人员语音信息获取待播放槽位信息包括:

解析车内人员语音信息,从而获取语义信息;

根据语义解析信息判断是否生成待播放自然语言信息,若是,则

根据语义信息获取待播放槽位信息。

在一个实施例中,获取车内人员基本信息包括:

获取车内的各个座椅上的压力传感器所传递的压力信息;

根据压力信息获取车内人员数量。

通过压力传感器可以了解到哪些座位上有人坐,在该实施例中,还可以设置车内摄像装置,车内摄像装置可以是多个,一个车内摄像装置用于拍摄一个座位前边的人的图像,采用这种方式,在获取到哪些座位上有人后,开启对应的摄像装置就可以获取到座位上的人的图像信息。

在本实施例中,获取车内人员基本信息包括:

获取车内摄像装置所拍摄的车内图像信息;

识别所述图像信息,从而获取车内人员基本信息。

在本实施例中,不通过压力传感器去检测座椅的情况,而是直接开启各个摄像装置从而拍摄车内图像信息,通过图像识别的方式来获取车内人员基本信息。

在本实施例中,所述车内人员基本信息包括人员数量信息、人员脸部图像信息以及人员年龄信息。

在本实施例中,人员数量信息可以通过摄像装置所获取的各个图像进行识别获取,例如,可以通过人脸图像分类器判断各个图像中是否具有人脸,若具有人脸,则通过人脸的数量即可以知道人员数量信息。

在获取到每个人的人员脸部图像信息后,还可以提取各个人员脸部图像信息的特征,从而输入至预设的经过训练的年龄分类器中,从而获取每个人员的人员年龄信息。

在本实施例中,根据所述车内人员基本信息以及车内人员语音信息获取待播放模板信息包括:

获取预设模板数据库,所述预设模板数据库包括至少两个预设模板以及预设人员条件,一个预设模板对应一个预设人员条件;

判断获取的所述人员数量信息、人员脸部图像信息以及人员年龄信息是否符合所述预设模板数据库中的一个预设人员条件,若是,则

获取符合的预设人员条件所对应的预设模板作为待播放模板信息。

在本实施例中,基于车内用户信息生成自然语言的方法进一步包括:

获取预设人脸数据库,所述预设人脸数据库包括至少一个预设人脸信息;

为每个人员脸部图像信息进行如下操作:

将获取的人员脸部图像信息分别与各个预设人脸信息进行相似度计算,从而获取相似度值;

判断是否有一个相似度值大于预设阈值,若是,则

判断各个人脸脸部特征信息中,相似度值大于预设阈值的人脸脸部特征信息的数量是否超过一个,若否,则

获取预设特殊语音库,所述预设特殊语音库包括至少一个预设特殊语音类型以及预设人脸信息,一个预设特殊语音类型对应一个预设人脸信息;

获取相似度值大于预设阈值的预设人脸信息所对应的预设特殊语音类型;

通过所述预设特殊语音类型对所述待播放自然语言信息进行播报。

采用这种方式,一方面考虑了各个车内人员基本信息的情况,另一方面,也考虑了一些特殊人物的情况,例如,车内有某些经常坐车的孩子,孩子喜欢某一种特殊语音类型,例如喜欢哆啦A梦的配音,此时,在进行待播放自然语言信息时,要通过预设特殊语音类型(例如哆啦A梦的配音的声音)来体现待播放自然语言信息。

在本实施例中,基于车内用户信息生成自然语言的方法进一步包括:

判断各个人脸脸部特征信息中,相似度值大于预设阈值的人脸脸部特征信息的数量是否超过一个,若是,则

获取人员关系图谱,所述人员关系图谱包括至少两个人员名称信息、预设人脸信息,其中,一个人员名称信息与至少一个除自身以外的其他的人员名称信息之间具有优先级关系,一个人员名称信息与一个预设人脸信息对应;

获取各个人脸脸部特征信息中相似度值大于预设阈值人脸脸部特征信息所分别对应的预设人脸信息;

分别获取各个预设人脸信息所对应的人员名称信息;

判断所获取的各个人员名称信息之间是否具有优先级关系,若是,则

获取其中优先级关系高的人员名称信息所对应的预设人脸信息所对应的预设特殊语音类型;

通过所述预设特殊语音类型对所述待播放自然语言信息进行播报。

在一些情况下,可能出现有多个特殊人员的情况,此时,根据各个特殊人员的关系来判定用哪个预设特殊语音类型,例如,一家三口在车内,一般会以孩子为主,因此,孩子的优先级比较高,可以理解的是,该优先级关系可以根据情况自行设定。

在本实施例中,在所述通过所述预设特殊语音类型对所述待播放自然语言信息进行播报之前,所述基于车内用户信息生成自然语言的方法进一步包括:

获取睡眠识别分类器;

获取各个所述人员脸部图像信息;

提取各个人员脸部图像信息中的特征信息;

将各个所述特征信息分别输入至所述睡眠识别分类器,从而获取分类标签,所述分类标签包括睡眠标签;

当有一个分类标签为睡眠标签时,获取当前系统播报语音的音量信息;

判断音量信息是否超过预设音量阈值,若是,则

将所述音量信息调低至所述预设音量阈值以下并对所述待播放自然语言信息进行播报。

在一些情况下,可能播放的声音会吵醒正在熟睡的孩子,此时,通过这种方法,可以尽量以较轻的声音来进行播放。

下面以举例的方式对本申请进行进一步详细阐述,可以理解的是,该举例并不构成对本申请的任何限制。

在本举例中,以需要播放音乐为场景进行举例,可以理解的是,本申请还可以应用在其他交互场景上,例如导航等,在此不再赘述。

在该需要播放音乐场景中,基于车内用户信息生成自然语言的方法包括:

步骤1:获取车内人员语音信息;在本实施例中,车内人员语音信息为:播放歌唱祖国这首歌。

步骤2:获取车内人员基本信息,在本实施例中,车内人员基本信息为:车里共3个人,通过图像识别获取到车内人员基本信息为:驾驶员位置为男性,岁数为成年人(18到30岁),副驾驶员位置为女性(18到30岁),岁数为成年人,后排座椅位置为男性,岁数为孩童(6到10岁)。可以理解的是,上述岁数通过年龄分类器即可获得,在此不再赘述。

步骤3:根据车内人员语音信息获取待播放槽位信息,具体而言,解析所述车内人员语音信息,从而获取语义信息;

根据语义解析信息判断是否生成待播放自然语言信息,若是,则

根据语义信息获取待播放槽位信息,在本实施例中,语义信息为播放歌唱祖国,则待播放槽位信息为歌唱祖国。

步骤4根据所述车内人员基本信息以及车内人员语音信息获取待播放模板信息,在本实施例中,根据车内人员基本信息以及车内人员语音信息获取待播放模板信息包括:

获取预设模板数据库,所述预设模板数据库包括至少两个预设模板以及预设人员条件,一个预设模板对应一个预设人员条件;

判断获取的所述人员数量信息、人员脸部图像信息以及人员年龄信息是否符合所述预设模板数据库中的一个预设人员条件,若是,则

获取符合的预设人员条件所对应的预设模板作为待播放模板信息。

参见图3,在本实施例中,假设预设人员条件为:有用户年龄特征为儿童,则生成的待播放模板信息为:小朋友,让我们来听。

可以理解的是,预设人员条件可以设置很多种,如图3所示,如果是多个人的话,可以是图3中的模板4,如果是其他条件,也可以是其他对应模板,可以理解的是,当符合多个预设人员条件时,也可以通过优先级来进行选择,例如,以有小孩的模板为最优先模板,以多人模板为第二优先模板这种方式,设置各个模板的优先级,从而在获取模板时,获取优先级最高的模板。

步骤5:根据待播放模板信息与所述待播放槽位信息生成待播放自然语言信息,将生成的待播放槽位信息为:小朋友,让我们来听以及待播放槽位信息歌唱祖国结合,从而生成待播放自然语言信息:小朋友,让我们来听歌唱祖国。

在本实施例中,待播放自然语言信息包括待播放模板信息(TTSID(PlayMusic))与槽位信息(SongName、Singer)。待播放自然语言信息包括的内容属于现有技术,在此不再赘述。

当生成待播放自然语言信息后,还需要考虑采用什么样的语音类型来进行播报,此时,根据车辆内的人员的人脸进行判断,具体而言,获取预设人脸数据库,所述预设人脸数据库包括至少一个预设人脸信息;

为每个人员脸部图像信息进行如下操作:

将获取的人员脸部图像信息分别与各个预设人脸信息进行相似度计算,从而获取相似度值;

判断是否有一个相似度值大于预设阈值,若是,则

判断各个人脸脸部特征信息中,相似度值大于预设阈值的人脸脸部特征信息的数量是否超过一个,若否,则

获取预设特殊语音库,所述预设特殊语音库包括至少一个预设特殊语音类型以及预设人脸信息,一个预设特殊语音类型对应一个预设人脸信息;

获取相似度值大于预设阈值的预设人脸信息所对应的预设特殊语音类型;

通过所述预设特殊语音类型对所述待播放自然语言信息进行播报。

举例来说,以上述的三人为例,孩子的人脸脸部图像信息与预设人脸数据库中的预设人脸信息相同,则表示孩子已经登记在预设人脸数据库中,此时,其具有预设特殊语音类型,例如,哆啦A梦的语音类型,此时,通过所述预设特殊语音类型对所述待播放自然语言信息进行播报。

在本实施例中,在进行播报时,还要考虑是否其他乘客正在睡觉,例如,三个人中的女性正在睡觉,此时,应当降低声音播放。

本申请还提供了一种基于车内用户信息生成自然语言的装置,所述基于车内用户信息生成自然语言的装置包括车内人员语音信息获取模块、车内人员基本信息获取模块、待播放槽位信息获取模块、待播放模板信息获取模块以及待播放自然语言信息生成模块,其中,

车内人员语音信息获取模块用于获取车内人员语音信息;车内人员基本信息获取模块用于获取车内人员基本信息;待播放槽位信息获取模块用于根据车内人员语音信息获取待播放槽位信息;待播放模板信息获取模块用于根据所述车内人员基本信息以及车内人员语音信息获取待播放模板信息;待播放自然语言信息生成模块用于根据所述待播放模板信息与所述待播放槽位信息生成待播放自然语言信息。

图2是本发明一个或多个实施例提供的一种电子设备结构框图。

如图2所示,本申请还公开了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行基于车内用户信息生成自然语言的方法的步骤。

本申请还提供了一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行基于车内用户信息生成自然语言的方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

电子设备包括硬件层,运行在硬件层之上的操作系统层,以及运行在操作系统上的应用层。该硬件层包括中央处理器(CPU,CentralProcessingUnit)、内存管理单元(MMU,MemoryManagementUnit)和内存等硬件。该操作系统可以是任意一种或多种通过进程(Process)实现电子设备控制的计算机操作系统,例如,Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。并且在本发明实施例中该电子设备可以是智能手机、平板电脑等手持设备,也可以是桌面计算机、便携式计算机等电子设备,本发明实施例中并未特别限定。

本发明实施例中的电子设备控制的执行主体可以是电子设备,或者是电子设备中能够调用程序并执行程序的功能模块。电子设备可以获取到存储介质对应的固件,存储介质对应的固件由供应商提供,不同存储介质对应的固件可以相同可以不同,在此不做限定。电子设备获取到存储介质对应的固件后,可以将该存储介质对应的固件写入存储介质中,具体地是往该存储介质中烧入该存储介质对应固件。将固件烧入存储介质的过程可以采用现有技术实现,在本发明实施例中不做赘述。

电子设备还可以获取到存储介质对应的重置命令,存储介质对应的重置命令由供应商提供,不同存储介质对应的重置命令可以相同可以不同,在此不做限定。

此时电子设备的存储介质为写入了对应的固件的存储介质,电子设备可以在写入了对应的固件的存储介质中响应该存储介质对应的重置命令,从而电子设备根据存储介质对应的重置命令,对该写入对应的固件的存储介质进行重置。根据重置命令对存储介质进行重置的过程可以现有技术实现,在本发明实施例中不做赘述。

为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。

对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术分类

06120115919166