导航：首页> 计算；推算；计数>车用智能交互方法、后端服务器及前端设备

车用智能交互方法、后端服务器及前端设备

文献发布时间：2024-04-18 19:58:21

技术领域

本发明实施例涉及辅助驾驶技术领域，尤其涉及一种车用智能交互方法、后端服务器及前端设备。

背景技术

在商用车长途行车过程中，由于无聊、枯燥等原因，司机在长时间驾驶后，难以避免会陷入到注意力分散、疲劳等状况下。这些状况会导致事故率上升，对个人、家庭、社会造成极大的破坏。

为了减少事故率，目前已经有多种手段来帮助司机了解车辆实时状况，以及在危险时向司机发出提醒。但这些提醒是在即将发生危险时发出的，存在滞后、警告方式生硬等问题，使得司机接收信息过晚、不重视提醒，最终事故依然发。

发明内容

本发明提供一种车用智能交互方法、后端服务器及前端设备，用于实现与司机的智能交互，避免长途行车司机陷入到注意力分散、疲劳等状况。

第一方面，本发明实施例提供了一种车用智能交互方法，所述方法包括：

采集司机问题、司机驾驶状态的至少一种作为触发信息；

采集司机驾驶环境、司机个人信息、车辆信息中的至少一种作为附加信息；

组合触发信息和附加信息，得到描述司机当前状态的状态信息；

根据所述状态信息解析司机当前需求，生成满足司机当前需求的输出信息；

基于采集到的信息确定目标反馈方式，将输出信息以目标反馈方式反馈给司机，以实现与司机的智能互动。

进一步地，所述根据所述状态文本解析司机当前需求，生成满足司机当前需求的输出信息，包括：

提取状态信息的词语内容特征和词语位置特征，基于词语内容特征和词语位置特征对状态文本进行设定深度的语义解析；

基于语义解析结果及预学习的知识，输出响应司机的输出信息，其中预先学习的知识包括日常司机在长途行车时的交互数据及交互中涉及的知识。

进一步地，所述基于词语内容特征和词语位置特征进行设定深度的语义解析；基于语义解析结果及预学习的知识，输出响应司机的输出信息，其中预先学习的知识包括日常司机在长途行车时的交互数据及交互中涉及的知识，包括：

将词语内容特征和词语位置特征输入预训练的智能交互网络，输出按顺序排列的候选答复的词向量概率分布；

根据候选答复的词向量概率分布，确定输出信息的词向量；

合成并映射输出信息的词向量至输出信息文本，将输出信息文本作为响应司机的输出信息；

其中，所述智能交互网络由大语言模型利用日常司机在长途行车时的交互数据及交互中涉及的知识训练得到；所述智能交互网络的网络层数小于设定网络层数阈值。

进一步地，所述提取状态信息的词语内容特征，包括：

若状态信息是由触发信息中各词语的词向量矩阵和附加信息中各词语的词向量矩阵组合成的向量，则将状态信息的向量作为所述词语内容特征；

若状态信息是由触发信息的文本和附加信息的文本组合得到的文本，则对状态信息的文本进行分词，对分词后的词语进行向量转换，生成词向量矩阵，将生成的词向量矩阵作所述词语内容特征；

所述提取状态信息的词语位置特征，包括：

计算触发信息和附加信息中各词语的绝对位置和相对位置，并对绝对位置和相对位置进行编码，生成词语的位置向量矩阵，将生成的位置向量矩阵作为所述词语位置特征。

进一步地，所述若状态信息是由触发信息中各词语的词向量矩阵和附加信息中各词语的词向量矩阵组合成的向量，则将状态信息的向量作为所述词语内容特征之前，所述方法还包括：

对附加信息进行结构化处理；

分别对结构化处理后的附加信息和触发信息进行向量化；

以向量的形式组合附加信息与触发信息，得到描述司机当前状态的状态信息的向量。

进一步地，所述智能交互网络为Decoder解码层结构，解码层中采用GQA（GroupQuery Attention，多查询注意力）机制，该注意力机制中Key键、Value值设定的分支数小于设定分支数阈值，解码层中的归一化采用RMS Norm（Root Mean Square LayerNormalization，均方根层归一化）。

进一步地，所述基于采集到的信息确定目标反馈方式，将输出信息以目标反馈方式反馈给司机之后，所述方法还包括：

获取司机对输出信息的满意度，将满意度低于设定满意度阈值的输出信息及关联的状态文本作为badcase负样本；

修改负样本，基于修正后的数据修正预学习的知识内容；

或

根据司机对输出信息的满意度，识别司机的喜恶信息，针对司机的喜恶信息对预先学习的知识进行调整，以符合司机的喜好。

进一步地，所述根据所述状态文本解析司机当前需求之前，所述方法还包括：

判断所述状态信息是否大于设定长度阈值；

若所述状态信息长度大于设定长度阈值，则对所述状态文本进行过滤或替换。

第二方面，本发明实施例还提供了一种车用智能交互后端服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的车用智能交互方法。

第三方面，本发明实施例还提供了一种车用智能交互前端设备，所述设备包括：

车载传声器，负责接收司机语音信息；

信号接收器，与车载设备连接，用于接收车辆信息、司机驾驶状态和/或司机驾驶环境信息；

信号发射器，与所述的车用智能交互后端服务器连接，用于将接收到信息发送至所述车用智能交互后端服务器；

播放器，与所述信号接收器连接，用于将接收的反馈给司机的输出信息播放给司机。

本发明实施例提供的技术方案，通过采集司机问题和/或司机驾驶状态作为智能交互的触发信息，在司机主动交互或司机驾驶状态不良的时候与司机智能交互，避免司机陷入到注意力分散、疲劳等状况。

通过结合作为附加信息的司机驾驶环境、司机个人信息、车辆信息等信息，从而更准确的理解司机，进而准确地对司机进行响应或信息投喂，通过基于采集到的信息确定目标反馈方式，避免仅生硬提醒给司机到来的不良体验。

通过基于词语内容特征和词语位置特征对完整文本进行语义解析，因为词语位置特征的加入，从而提高语义解析的准确率。通过设定深度的语义解析，可以根据实际设备的算力进行设定。在司机驾驶环境中，需要综合智能交互反馈的实时性要求以及设备有限的算力，进行语义解析深度的设定，从而满足该场景的使用。

通过基于语义解析结果及预学习的知识，输出响应司机的输出信息，其中预先学习的知识包括日常司机在长途行车时的交互数据及交互中涉及的知识，从而满足司机的日常交互需求，进一步提高司机体验。

通过计算分词后各词语的绝对位置和相对位置，并对绝对位置和相对位置进行编码，生成词语的位置向量矩阵，将生成的位置向量矩阵作为所述词语位置特征，因为结合了词语的绝对位置和相对位置，所以可以更好的描述词语的位置特征。

针对车载实时反馈的应用场景，通过利用解码层结构、GQA注意力机制、RMS Norm搭建智能交互网络，其中解码层数小于设定层数阈值，该注意力机制中Key键、Value值设定的分支数小于设定分支数阈值，从而使得搭建的智能交互网络在满足准确率的基础上，尽可能的小型化，也即设计的模型链路具有一定深度，但又不过度复杂化，以满足商用车场景下用于危险提醒和陪聊的回复以简洁和高速反馈为主的实际应用场景。

为更好的迎合司机的喜好，在将输出信息以目标反馈方式反馈给司机之后，通过获取司机对输出信息的满意度，将满意度低于设定满意度阈值的输出信息及关联的状态文本作为badcase；修改badcase，基于修正后的数据修正或调整预学习的知识内容，以实现对积累知识的不断优化。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明实施例提供的一种车用智能交互方法的流程示意图；

图2是本发明实施例提供的另一种车用智能交互方法的流程示意图；

图3是本发明实施例提供的另一种车用智能交互方法的流程示意图；

图4是本发明实施例提供的一种车用智能交互后端服务器的结构示意图;

图5是本发明实施例提供的一种车用智能交互前端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

在本发明的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选的还包括其他没有列出的步骤或模块，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的附图通过具体实施例来进行说明。

图1是本发明实施例提供的一种车用智能交互方法的流程示意图。本方法适用于对长途驾车的司机进行智能陪伴的场景。该方法可以由后端服务器结合前端交互设备执行。参见图1，本发明实施例提供的车用智能交互方法，该方法包括：

S110、采集司机问题、司机驾驶状态的至少一种作为触发信息。

司机问题是指，司机输出的问题，输出形式可以是说出来，也可以文本输入。

司机驾驶状态是指，反应司机驾驶状态的信息，具体可以是疲劳、无聊、抽烟、注意力不集中等。

司机问题的采集可以基于现有技术任意方法实现，具体可以通过语音识别或文本采集得到。

司机驾驶状态也可以基于现有技术任意方法实现，具体可以通过采集司机驾驶图像，通过图像识别获得司机驾驶状态。

触发信息是指，触发本实施例所述车用智能交互方法执行的信息。

S120、采集司机驾驶环境、司机个人信息、车辆信息中的至少一种作为附加信息。

司机驾驶环境是指司机驾驶时外界的环境数据，具体可以包括日期、星期、时间段、季节、天气、风向、所在道路信息、所在城市名、即将靠近的城市名等。

司机个人信息是指描述司机个人画像的信息，具体可以包括年龄、性别、从业年限、家乡、方言类型、喜好、本次旅途当前花费时间、上次停车休息至现在的时间等。

车辆信息是指描述车辆当前行驶状态、车辆历史行驶信息以及车辆自身属性的信息，具体可以包括：当前车速、制动系统状态、盲区预警、油箱油量、轮胎状态、历史行驶里程数、历史维保记录、车辆部件型号等。

附加信息是指，辅助进行智能交互的信息。

S130、组合触发信息和附加信息，得到描述司机当前状态的状态信息。

状态信息是指描述司机当前状态的信息，对该信息的形式不作限定，可以是文本，也可以是向量。

具体组合触发信息和附加信息可以是：直接添加在触发信息前面或后面。

若状态信息为文本形式，因为相同词语在文本不同位置表述出的文本语义相差较大，例如张三欠李四3000元，李四欠张三3000元。所以为方便通过状态文本对司机当前状态的准确理解，组合触发信息和附加信息可以是：

根据语法结构设定各类信息的文本组合模板；

根据文本组合模板组合触发信息和附件信息，得到描述司机当前状态，且符合语法结构的状态文本。

具体，文本组合模板可以是：司机驾驶环境，司机驾驶状态，司机问题，车辆信息，司机个人信息。

司机驾驶环境信息又可以有具体的环境描述模板，例如今天是“日期”，“天气”，司机驾驶在从“所在城市名”到“即将靠近的城市名”的“所在道路名

示例性的，状态文本可以是：今天是2023年9月8日星期五，天气晴，司机驾驶在从A城市到B城市的路上，司机说：今天是什么天气？车辆当前行驶状态为：当前速度100km/h，制动系统正常，盲区无预警，邮箱油量大于预警阈值，轮胎胎压正常等；司机画像为：男，36岁，喜欢的运动是足球，喜欢的音乐是摇滚等。

S140、根据所述状态信息解析司机当前需求，生成满足司机当前需求的输出信息。

可选地，可以通过预先统计的映射关系实现需求的识别和输出。

具体，若匹配到天气怎么样或天气是什么，则将天气信息输出。

若匹配到司机状态疲劳，则根据司机喜好，选择并播放预制的提神音频。

S150、基于采集到的信息确定目标反馈方式，将输出信息以目标反馈方式反馈给司机，以实现与司机的智能互动。

采集到的信息包括司机喜好、司机的方言类型等。

根据司机喜好和/或司机的方言类型确定反馈方式。

例如，若匹配到天气怎么样或天气是什么，则按照司机喜欢的描述方式，基于司机的方言类型，将天气信息输出。

描述方式可以是女声、男声、调皮可爱、知性、沉稳等。

本发明实施例的技术方案，通过采集司机问题和/或司机驾驶状态作为智能交互的触发信息，在司机主动交互或司机驾驶状态不良的时候与司机智能交互，避免司机陷入到注意力分散、疲劳等状况。

为更好的满足对司机进行长途驾驶陪伴的场景需求，需要减少计算量，提高响应速度，为此进一步改进车用智能交互方法。具体所述根据所述状态文本解析司机当前需求之前，所述方法还包括：

判断所述状态信息是否大于设定长度阈值；

若所述状态信息长度大于设定长度阈值，则对所述状态信息进行过滤或替换。

设定长度阈值可以根据实际需要设定。

若状态信息为文本形式，则具体对文本的过滤可以是：识别文本中无意义的词语，删除无意义词语或重复描述词语。

对文本的替换可以是：识别文本中的长度大于设定长度阈值的词语，查找该词语的相似词语，从相似词语中选择长度相对较短的词语进行词语替换。

通过对状态文本进行过滤或替换，以限定输入量，降低计算量，加快响应时间。

若状态信息为向量形式，则可以基于上述原理，以向量形式对状态信息进行过滤和替换。

为提高状态文本语义识别的准确性，所述根据所述状态文本解析司机当前需求，生成满足司机当前需求的输出信息，包括：

提取状态文本的词语内容特征和词语位置特征，基于词语内容特征和词语位置特征对状态文本进行设定深度的语义解析；

基于语义解析结果及预学习的知识，输出响应司机的输出信息，其中预先学习的知识包括日常司机在长途行车时的交互数据及交互中涉及的知识。

其中，词语内容特征是指描述词语内容的特征，词语位置特征是描述词语在状态文本中位置的特征。

深度可以理解为对文本进行语义解析计算的次数，次数越多，解析越准确，但计算时间越长。

为满足场景的实时响应需求，计算深度可以根据需求设定，典型的，该深度不能超过设定深度阈值。

图2是本发明实施例提供的另一种车用智能交互方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2，本发明实施例提供的一种车用智能交互方法，包括：

S210、采集司机问题、司机驾驶状态的至少一种作为触发信息。

S220、采集司机驾驶环境、司机个人信息、车辆信息中的至少一种作为附加信息。

S230、对触发信息进行分词，对分词后的词语进行向量转换，生成词向量矩阵；对附加信息进行结构化处理，对结构化处理后的附加信息进行向量化。

其中，结构化的结构模板可以从容易被语音解析的角度进行设定。

S240、以向量的形式组合附加信息与触发信息，得到描述司机当前状态的状态信息的向量，并将生成的状态信息的向量作为所述词语内容特征。

S250、计算触发信息和附加信息中各词语的绝对位置和相对位置，并对绝对位置和相对位置进行编码，生成词语的位置向量矩阵，将生成的位置向量矩阵作为词语位置特征。

可选地，可以通过RoPe旋转编码对状态信息的向量进行编码，得到词语位置特征。

S260、将词语内容特征和词语位置特征输入预训练的智能交互网络，输出按顺序排列的候选答复的词向量概率分布。

因为在商用车内聊天场景下，司机主要的关注点会基于车辆运行相关方面，兼顾自身的部分兴趣爱好，周边环境、城市的信息资讯等。而系统需要提供包括司机聊天话题、司机状态关怀与提醒功能。因此需要考虑如何引入相关的先验知识，并对重点关注的信息方面予以更高的权重（例如危险提醒），使得聊天时模型会优先对相关方面产生反馈。为此，所述智能交互网络由大语言模型利用日常司机在长途行车时的交互数据及交互中涉及的知识训练得到。

由于现在AI大模型追求的是对存在于世的综合知识的全面掌握，且追求高度精确的回答，而且采用的是自回归的推理模式，使得模型整体参数极为庞大。而且其回复篇幅往往较长。即便是在网络上与投入了大量算力的ChatGPT直接对话，其推理速度都显得不够快，更遑论商用车内的相关设备支持下的推理性能。基于这一点，需要对模型进行精简化改造，保留其在固定领域内的推理能力，更重视推理性能，保证在商用车端设备支持下实现流畅对话推理。为此，所述智能交互网络的网络层数小于设定网络层数阈值，以提高网络推理速度。

为进一步提高网络推理速度，所述智能交互网络为Decoder解码层结构，解码层中采用GQA机制，该注意力机制中Key、Value设定的分支数小于设定分支数阈值，解码层中的归一化采用RMS Norm。分支数是指将每个Key、Value拆分出来的分支个数，多个分支也称多头，有多少个分支就是多少头，其实质同多头注意力机制中的多头的概念。

S270、根据候选答复的词向量概率分布，确定输出信息的词向量；合成并映射输出信息的词向量至输出信息文本，将输出信息文本作为响应司机的输出信息。

S280、将输出信息文本转换成语音，播放给司机。

本实施例在ChatGPT的基础上，为适配场景需求，组合网络结构、注意力机制算法和归一化算法实现对网络的精简化。

为更好的迎合司机的喜好，所述基于采集到的信息确定目标反馈方式，将输出信息以目标反馈方式反馈给司机之后，所述方法还包括：

获取司机对输出信息的满意度，将满意度低于设定满意度阈值的输出信息及关联的状态文本作为负样本；

修改负样本，基于修正后的数据修正预学习的知识内容；

或

根据司机对输出信息的满意度，识别司机的喜恶信息，针对司机的喜恶信息对预先学习的知识进行调整，以符合司机的喜好。

具体针对司机的喜恶信息对预先学习的知识进行调整，可以是增加司机喜欢的知识，删除司机反感的知识。

图3是本发明实施例提供的另一种车用智能交互方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3，本发明实施例提供的一种车用智能交互方法，包括：

S310、采集司机问题、司机驾驶状态的至少一种作为触发信息。

S320、采集司机驾驶环境、司机个人信息、车辆信息中的至少一种作为附加信息。

S330、组合触发信息的文本和附加信息的文本得到状态信息的文本，对状态信息的文本进行分词，对分词后的词语进行向量转换，生成词向量矩阵，将生成的词向量矩阵作词语内容特征。

S340、计算触发信息和附加信息中各词语的绝对位置和相对位置，并对绝对位置和相对位置进行编码，生成词语的位置向量矩阵，将生成的位置向量矩阵作为词语位置特征。

S350、将词语内容特征和词语位置特征输入预训练的智能交互网络，输出按顺序排列的候选答复的词向量概率分布。

S360、根据候选答复的词向量概率分布，确定输出信息的词向量；合成并映射输出信息的词向量至输出信息文本，将输出信息文本作为响应司机的输出信息。

S370、将输出信息文本转换成语音，播放给司机。

本发明实施例的技术方案，通过在模型链路开始处增加附加信息向量进行信息补偿，从而保证信息接入的同时尽量不干扰作为核心内容的触发信息的推理，使得模型旁支的计算尽可能小。

图4是本发明实施例提供的一种车用智能交互后端服务器的结构示意图。如图4所示，该设备包括处理器40、存储器41、输入装置42和输出装置43；设备中处理器40的数量可以是一个或多个，图4中以一个处理器40为例；设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的车用智能交互方法对应的程序指令/模块。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的目标检测方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。

图5是本发明实施例提供的一种车用智能交互前端设备的结构示意图。如图5所示，所述设备包括：

车载传声器51，负责接收司机语音信息；

信号接收器52，与车载设备连接，用于接收车辆信息、司机驾驶状态和/或司机驾驶环境信息；

信号发射器53，与上述实施例所述的车用智能交互后端服务器连接，用于将接收到信息发送至所述车用智能交互后端服务器；

播放器54，与所述信号接收器连接，用于将接收的反馈给司机的输出信息播放给司机。

可选地，只要能实现上述功能即可，本实施例对具体部件形式不作限定，具体可以根据实际需要设定。

为附加其他功能，也可以在上述部件设置的基础上，增设相关功能部件，本实施例对此不进行设定。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：天津所托瑞安汽车科技有限公司;所托(杭州)汽车智能设备有限公司;

上一篇：一种一锅法制备有机酸锂-L-脯氨酸盐的方法
下一篇：一种脱硫废水三联箱装置氧化处理工艺