掌桥专利:专业的专利平台
掌桥专利
首页

基于负面情绪的设备功能检测方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:01:30


基于负面情绪的设备功能检测方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域,具体地涉及一种基于负面情绪的设备功能检测方法、装置、设备及存储介质。

背景技术

目前市面上关于监测负面舆论信息的应用基本用于电商或者社交的评论平台,平台通过关键词来监测负面舆论信息,但是针对于像冰箱语音实时交互的平台还未出现实时监测用户负面情绪的工具方法,而且对于冰箱某项功能的用户体验,还停留在使用问卷调查、抽样访谈等方法,这些方法一般会存在样本量少或者样本量不均衡等问题,无法实时监测到用户的真实或者当下所需。

发明内容

本发明的目的在于提供一种基于负面情绪的设备功能检测方法、装置、设备及存储介质。

本发明提供种基于负面情绪的设备功能检测方法,包括:

获取第一时间段内用户的视频数据和语音数据,将所述语音数据识别为语音文本数据,

获取所述视频数据中的用户表情帧;

在所述语音文本数据中识别文本特征,在所述用户表情帧中识别表情特征,结合所述文本特征和所述表情特征判断用户是否产生负面情绪;

当判断用户产生负面情绪时,对所述第一时间段时长进行补偿得到第二时间段,在所述第二时间段内检测设备功能的使用情况。

作为本发明的进一步改进,所述获取所述视频数据中的用户表情帧,具体包括:

检测所述语音数据中反应用户情绪变化的特征项的变化波动情况;

根据所述特征项的变化波动情况使用热图对所述视频数据进行渲染;

在所述视频数据中,选择渲染强度最高的前N帧图像帧过滤识别后获得用户表情帧。

作为本发明的进一步改进,所述检测所述语音数据中反应用户情绪变化的特征项的变化波动情况,具体包括:

检测所述语音数据中音调和/或语速和/或音量的变化波动情况。

作为本发明的进一步改进,所述选择渲染强度最高的前N帧图像帧过滤识别后获得用户表情帧,具体包括:

在获得N帧渲染强度最高的图像后,对N帧图像通过图像识别模型进行过滤,识别出图像中用户表情属于负面情绪的用户表情帧。

作为本发明的进一步改进,所述在所述语音文本数据中识别文本特征,在所述用户表情帧中识别表情特征,结合所述文本特征和所述表情特征判断用户是否产生负面情绪,具体包括:

将所述语音文本数据进行编码后输入文本模型,提取文本特征向量;

将所述用户表情帧进行编码后输入图像模型,提取表情特征向量;

将所述文本特征向量和所述表情特征向量进行矩阵相乘运算后,进行归一化处理得到计算结果,将计算结果与判断阈值进行比较判断用户是否产生负面情绪。

作为本发明的进一步改进,所述对所述第一时间段时长进行补偿得到第二时间段,具体包括:

获取所述第一时间段的起始时间点和持续时长,在所述第一时间段之前增加一补偿时长得到所述第二时间段。

作为本发明的进一步改进,所述获取所述第一时间段的起始时间点和持续时长,在所述第一时间段之前增加一补偿时间段得到所述第二时间段,具体包括:

分别检测所述视频和所述语音的开始时间点,将两者的开始时间点进行比较,选择较早的开始时间点作为第一时间段起始时间点;

分别计算所述视频和所述语音的时长,将两者的时长进行比较,选择较长的时长作为第一时间段持续时长;

将所述第一时间段起始时间点向前推所述补偿时长得到第二时间段起始时间点,将所述第一时间段持续时长增加所述补偿时长得到第二时间段持续时长。

作为本发明的进一步改进,所述在所述第二时间段内检测设备功能的使用情况,具体包括:

自所述第二时间段起始时间点开始,在所述第二时间段持续时长范围内,检测设备各功能的使用频率;

记录使用频率超过预设的频率阈值的功能。

作为本发明的进一步改进,在所述第二时间段内检测设备功能的使用情况,还包括:

在所述第二时间段内,获取用户的心率,当所述心率超过频率阈值时,在所述第二时间段内检测设备各功能的使用情况。

作为本发明的进一步改进,所述获取第一时间段内用户的视频数据和语音数据,将所述语音数据识别为语音文本数据,还包括:

对所述视频数据和所述语音数据进行去噪处理。

作为本发明的进一步改进,还包括:

当判断用户产生负面情绪时,记录所述视频数据和所述语音数据的序列号。

基于同一发明思路,本发明还提供一种基于负面情绪的设备功能检测装置,包括:

语音获取模块,其被配置用于获取第一时间段内的用户语音;

视频拍摄模块,其被配置用于拍摄第一时间段内的用户视频;

语音转译文本模块,其被配置用于将所述语音数据识别为语音文本数据;

表情帧获取模块,其被配置用于获取所述视频数据中的用户表情帧;

负面情绪判断模块,其被配置用于在所述语音文本数据中识别文本特征,在所述用户表情帧中识别表情特征,结合所述文本特征和所述表情特征判断用户是否产生负面情绪;

设备功能检测模块,其被配置用于当判断用户产生负面情绪时,对所述第一时间段时长进行补偿得到第二时间段,在所述第二时间段内检测设备功能的使用情况。

基于同一发明思路,本发明还提供一种电器设备,包括:

存储器,用于存储可执行指令;

处理器,用于运行所述存储器存储的可执行指令时,实现上述的基于负面情绪的设备功能检测方法。

基于同一发明思路,本发明还提供一种冰箱,包括:

存储器,用于存储可执行指令;

处理器,用于运行所述存储器存储的可执行指令时,实现上述的基于负面情绪的设备功能检测方法。

基于同一发明思路,本发明还提供一种计算机可读存储介质,其存储有可执行指令,所述可执行指令被处理器执行时实现上述的基于负面情绪的设备功能检测方法。

本发明的有益效果是:本发明所提供的一种基于负面情绪的设备功能检测方法,通过使用视觉-语音(VL,Vision-Language)智能模型,将视频数据和语音数据的特点相结合,利用面部表情特征与文本特征协同识别用户负面情绪,提高了识别用户负面情绪微表情的准确率。并且,通过使用语音数据中特征项的变化来对视频进行热图渲染从而来获取用户微表情图像,判别方法简单,获取准确率高。收集引起用户负面情绪的设备功能信息,能够有效为后续设备功能的迭代改进提供第一手资料。

附图说明

图1是本发明一实施方式中的基于负面情绪的设备功能检测方法步骤示意图。

图2是本发明一实施方式中的基于负面情绪的设备功能检测方法步骤S2的步骤示意图。

图3是本发明一实施方式中的基于负面情绪的设备功能检测方法步骤S3的步骤示意图。

图4是本发明一实施方式中的基于负面情绪的设备功能检测方法步骤S4的步骤示意图。

图5是本发明一实施方式中的基于负面情绪的设备功能检测装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施方式及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施方式仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

下面详细描述本发明的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

本发明提供一种基于负面情绪的设备功能检测方法,用于对用户在操作设备过程中产生的负面情绪进行判断,并收集在用户负面情绪持续时间段内设备各功能的被使用情况,记录引起用户负面情绪的设备功能。这里所述的负面情绪主要包括焦躁、愤怒、不耐烦等用户在不满意某设备功能时容易产生的情绪。通过本方法能够获取第一手的用户负面体验数据,从而为设备功能的迭代更新提供了有力数据。

在本实施方式中,基于已训练好的模型和智能冰箱对本方法进行说明,智能冰箱包括语音采集装置和视频拍摄装置,语音采集装置能够采集用户在使用过程中发出的语音,视频拍摄装置能够拍摄用户在智能冰箱附近的影像。在本发明的其他实施方式中,本方法也可应用于其他同时设置有语音采集装置和视频拍摄装置的智能电器设备。

如图1所示,基于负面情绪的设备功能检测方法包括:

S1:获取第一时间段内用户的视频数据和语音数据,将语音数据识别为语音文本数据。

S2:获取视频数据中的用户表情帧。

S3:在语音文本数据中识别文本特征,在用户表情帧中识别表情特征,结合文本特征和表情特征判断用户是否产生负面情绪。

S4:当判断用户产生负面情绪时,对第一时间段时长进行补偿得到第二时间段,在第二时间段内检测设备功能的使用情况。

在步骤S1中,其具体包括:

当检测到启动信号后,设备启动语音采集装置和视频拍摄装置,分别获取第一时间段内用户的视频数据和语音数据,将语音数据和视频数据进行去噪处理,并将去噪处理后的语音数据识别为语音文本数据。

在本实施方式中,启动信号可以为检测到用户朝向智能冰箱的语音采集装置如内置麦克风等发出语音、或检测到用户与智能冰箱产生交互等而发出的信号,对于不同的启动信号,语音和视频可能并不处于同步开始及同步结束的情况,因此选择获取第一时间段内的语音和视频数据,以保证获取的数据量能够用以对用户情绪进行判定。

视频拍摄装置可以为设置于智能冰箱顶部区域的摄像头,视频拍摄装置在开始拍摄后,其跟踪用户的头部位置进行拍摄,并同时进行面部检测,确保在视频数据中能够获得用户的面部表情图像。

对语音和视频进行去噪以提高语音数据和视频数据的可辨识性,从而提高后续对用户情绪判断的准确性,针对语音和视频的去噪算法及语音识别转写算法可使用现有的算法,具体在此不再赘述。

如图2所示,在步骤S2中,其具体包括:

S21:检测语音数据中反应用户情绪变化的特征项的变化波动情况。

S22:根据特征项的变化波动情况使用热图对视频数据进行渲染。

S23:在视频数据中,选择渲染强度最高的前N帧图像帧过滤识别后获得用户表情帧。

在步骤S21中,所述的反应用户情绪变化的特征项,为用户的音调、语速、音量等特征项,当用户情绪产生波动时,尤其是产生负面情绪时,其音调、音量通常会升高,语速根据不同用户习惯可能会变慢或加快,因此当上述特征项产生变化时,可以判断用户产生情绪波动的可能性较大。

具体的,在本实施方式中,步骤S21包括:检测语音数据中音调和/或语速和/或音量的变化波动情况。

在获得上述特征项的变化波动情况后,根据变化波动情况使用热图对视频进行渲染,热图能够基于时间轴将上述特征项的变化幅度情况与视频各帧图像之间形成对应关系,各帧图像的渲染强度能够用以反映用户实时的情绪变化幅度,因此,选择选择渲染强度最高的前N帧图像帧过滤识别后获得用户表情帧,有较大概率在图像中获得能够反应用户情绪的微表情。

N为用户可以调整的参数值,或者为预设的数值,对N进行调整,以使算法在识别精度和反应时间中获得良好平衡。

步骤S23具体包括:在获得N帧渲染强度最高的图像后,对N帧图像通过图像识别模型进行过滤,识别出图像中用户表情属于负面情绪的用户表情帧。

在本发明的一些其他实施方式中,也可将符合渲染强度阈值的图像帧作为用户表情帧、或将符合渲染强度阈值且渲染强度最高的前N帧图像帧过滤识别后获得用户表情帧,以保证用户表情帧确实反映了用户的情绪变化,避免当用户没有产生情绪变化时,依然采用本算法而进行无效计算。

这里,通过结合语音特征项的动态变化,在视频图像中识别用户产生负面情绪的微表情图像,捕获到用户负面情绪微表情的可能性更高,且判别方法更加简单,降低了表情随机性对判断的干扰。

如图3所示,在步骤S3中,其具体包括:

S31:将语音文本数据进行编码后输入文本模型,提取文本特征向量。

S32:将用户表情帧进行编码后输入图像模型,提取表情特征向量。

S33:将文本特征向量和表情特征向量进行矩阵相乘运算后,进行归一化处理得到计算结果,将计算结果与判断阈值进行比较判断用户是否产生负面情绪。

在步骤S3中,通过视觉和语音的多模态模型对负面情绪进行识别,所使用的文本模型可以为Transformer模型等现有技术中的模型,图像模型可以为ResNet模型等现有技术中的模型,在此不再赘述。将文本特征向量和表情特征向量矩阵相乘后得到两者的Matmul特征,将数据归一化后即可判断用户是否产生负面情绪。

进一步的,在本发明一些实施方式中,还包括步骤:当判断用户产生负面情绪时,记录视频数据和语音数据的序列号。保存相关数据,其可以作为视觉和语音的多模态模型进一步训练的训练样本,并且相关数据在判断用户产生负面情绪后,还能用于记录用户负面情绪的产生次数和情绪波动时间等数据,结合深度学习模型能够对提供其他功能服务,比如针对智能冰箱,能够结合用户负面情绪提供菜谱推荐、健康监测等功能服务。

综上,本实施方式通过使用视觉和语音的多模态模型,将视频数据和语音数据的特点相结合,利用面部表情特征与文本特征协同识别用户负面情绪,提高了识别用户负面情绪微表情的准确率。

如图4所示,在步骤S4中,其具体包括:

S41:分别检测视频和语音的开始时间点,将两者的开始时间点进行比较,选择较早的开始时间点作为第一时间段起始时间点。

S42:分别计算视频和语音的时长,将两者的时长进行比较,选择较长的时长作为第一时间段持续时长。

S43:将第一时间段起始时间点向前推补偿时长得到第二时间段起始时间点,将第一时间段持续时长增加补偿时长得到第二时间段持续时长。

S44:自第二时间段起始时间点开始,在第二时间段持续时长范围内,检测设备各功能的使用频率。

S45:记录使用频率超过预设的频率阈值的功能。

由于语音和视频的开始时间点和持续时长可能存在不统一的情况,因此选择两者中较早的时间点作为第一时间段起始点、较长的持续时间作为第一时间段的持续时长。

并且,由于在实际操作情况中,通常是用户先开始使用设备某功能,当产生不满后,才有可能产生负面情绪并发出相关语音,因此在第一时间段内实际并不存在用户对相关功能进行操作的情况。为解决上述问题,在第一时间段之前增加一补偿时长,确保能够检测到引起用户负面情绪的相关设备功能。

示例性的,在本实施方式中,由于用户在使用智能冰箱时,短时间内对于某功能通常只会使用一次,如调整温度、进行制冰、对食材进行识别等,因此频率阈值设置为1,即在第二时间段内,某功能被使用就对该功能进行记录。另外,由于在智能冰箱的应用场景中,对于其个功能的使用时长也不会过长,因此补偿时长可以设置为20s。在本发明的其他实施方式中,也可根据不同设备的使用特点,对频率阈值和补偿时长具体数值进行调整。

在本发明的一些实施方式中,步骤S4还包括:

在第二时间段内,获取用户的心率,当心率超过频率阈值时,在第二时间段内检测设备各功能的使用情况。

由于用户在产生负面情绪时,其心率也会产生变化,因此通过增加对用户心率的判断,来进一步提高对用户负面情绪判断的准确率。心率阈值的设定可以基于用户的平均心率而进行自动调整设定,或者由用户自行进行调整。心率数值的获得可以通过与智能冰箱通信连接的智能手环等可以监测用户心率的智能设备来进行获取。

如图5所示,基于同一发明思路,本实施方式还提供一种基于负面情绪的设备功能检测装置,其包括:

语音获取模块1,其被配置用于获取第一时间段内的用户语音。

视频拍摄模块2,其被配置用于拍摄第一时间段内的用户视频。

语音转译文本模块3,其被配置用于将所述语音数据识别为语音文本数据。

表情帧获取模块4,其被配置用于获取所述视频数据中的用户表情帧。

负面情绪判断模块5,其被配置用于在所述语音文本数据中识别文本特征,在所述用户表情帧中识别表情特征,结合所述文本特征和所述表情特征判断用户是否产生负面情绪。

设备功能检测模块6,其被配置用于当判断用户产生负面情绪时,对所述第一时间段时长进行补偿得到第二时间段,在所述第二时间段内检测设备功能的使用情况。

基于同一发明思路,本实施方式还提供一种电器设备,其包括:

存储器,用于存储可执行指令;

处理器,用于运行所述存储器存储的可执行指令时,实现上述的基于负面情绪的设备功能检测方法。

基于同一发明思路,本实施方式还提供一种冰箱,其包括:

存储器,用于存储可执行指令;

处理器,用于运行所述存储器存储的可执行指令时,实现上述的基于负面情绪的设备功能检测方法。

一种计算机可读存储介质,其存储有可执行指令,所述可执行指令被处理器执行时实现上述的基于负面情绪的设备功能检测方法。

综上所述,本实施方式所提供的一种基于负面情绪的设备功能检测方法,通过使用视觉-语音智能模型,将视频数据和语音数据的特点相结合,利用面部表情特征与文本特征协同识别用户负面情绪,提高了识别用户负面情绪微表情的准确率。并且,通过使用语音数据中特征项的变化来对视频进行热图渲染从而来获取用户微表情图像,判别方法简单,获取准确率高。收集引起用户负面情绪的设备功能信息,能够有效为后续设备功能的迭代改进提供第一手资料。

应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

技术分类

06120116556131