基于情感特征融合的智能家居设备控制系统和方法

文献发布时间：2023-06-19 13:26:15

技术领域

本申请涉及智能控制和智能家居设备领域，并且更为具体地，涉及一种基于情感特征融合的智能家居设备控制系统和方法。

背景技术

语音控制技术在当今社会中已经被广泛地应用，而智能家居设备也已经普遍应用于我们的日常生活。目前，智能家居设备中所使用的语音控制技术，主要是对语音进行收集后，对语音数据进行分析、判别，然后发送指令到智能家居设备，使其执行相关操作。当前市场中存在的很多智能家居设备，由于所收到的指令较为单一，更多的是用户单方面与机器进行通信，因此无法针对每个用户进行个性化、人性化、多样化的操作，进而无法完成人与机器间更智能的交互。面对日益兴起的智能家居设备市场，如何针对个体用户的实际需求，使智能家居设备更贴合用户的实际情况，迎合个体用户的个性化偏好则显得至关重要。

人类作为唯一可以进行如此复杂的语音交流的动物，语音是能反映其情感的重要的行为信号。不同的语音、语调，语音的大小、节奏等都蕴含着很多的人的情感信息。例如，人在开心或者唤起状态变高的时候，音调、响度会随之升高，节奏也会随之变快；而声音的颤抖和持续时间也会随着人抑郁而变得相对迟缓。

现有技术中存在的对智能家居设备进行语音控制的技术显然根本不可能满足上述需求。因此，本领域中急需一种能够通过语音学习人类的情感特征，进而基于情感特征的融合来对智能家居设备进行智能控制的系统和方法。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以作为稍后给出的更加详细的描述之序。

针对现有技术中存在的问题，本申请提出一种基于深度学习情感特征融合的智能家居设备控制系统和方法。该系统和方法能够从用户的语音中获取到声学特征和文本特征数据信息，之后进行特征融合以得到混合特征并加以分析，最终获得用户情绪、心理变化等方面的信息，从而使控制设备发出相关指令。当智能设备接收到指令后，根据用户当前的情绪、心理状态来调整该设备，从而使用户处于适宜的场景中，能给用户带来舒适的产品体验并且更好地满足了用户的需求。

根据本申请的第一方面，公开了一种基于情感特征融合的智能家居设备控制系统，包括：

数据处理模块，用于收集用户输入的语音信息，并对该信息进行预处理；

数据分析模块，用于对经预处理的信息进行分析以获取该用户的情感状态；

指令生成分发模块，用于基于该用户的情感状态来生成指令并将其下发给该智能家居设备；以及

执行模块，用于基于所下发的指令来控制该智能家居设备并上报当前设备信息。

根据本申请的优选实施例，该预处理包括提取特征和特征融合，其中该提取特征包括提取声学信息特征和文本信息特征两者，而该特征融合包括将该声学信息特征和该文本信息特征相加或按照权重分配以获得经融合特征。

根据本申请的优选实施例，对经预处理的信息进行分析包括训练数据和结果验证，并基于此来获得该用户的情感状态。

该指令生成分发模块还在生成指令后查询其他智能家居设备并向其下发该指令。

根据本申请的优选实施例，该声学信息特征包括音调、响度、结构，而该文本信息特征包括词性、词频、关键词。

根据本申请的第二方面，公开了一种基于情感特征融合的智能家居设备控制方法，包括：

收集用户输入的语音信息，并对该信息进行预处理；

对经预处理的信息进行分析以获取该用户的情感状态；

基于该用户的情感状态来生成指令并将其下发给该智能家居设备；以及

基于所下发的指令来控制该智能家居设备。

为能达成前述及相关目的，这一个或多个方面包括在下文中充分描述并在所附权利要求中特别指出的特征。以下描述和附图详细阐述了这一个或多个方面的某些解说性特征。但是，这些特征仅仅是指示了可采用各种方面的原理的各种方式中的若干种，并且本描述旨在涵盖所有此类方面及其等效方案。

附图说明

为了能详细理解本申请的以上陈述的特征所用的方式，可参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中解说。然而应该注意，附图仅解说了本申请的某些典型方面，故不应被认为限定其范围，因为本描述可允许有其他等同有效的方面。

在附图中：

图1是解说根据本申请的实施例的基于情感特征融合对智能家居设备进行控制的系统的模块图；

图2是解说根据本申请的实施例的提取声学信息特征的示意图；

图3是解说根据本申请的实施例的提取文本信息特征的示意图；

图4是解说根据本申请的实施例的数据处理模块和数据分析模块的功能框图；

图5是解说根据本申请的实施例的将提取的声学信息特征和文本信息特征进行特征融合的示意图；

图6是解说根据本申请的实施例的指令生成分发模块的功能框图；

图7是解说根据本申请的实施例的执行模块的功能框图；以及

图8是解说根据本申请的实施例的数据分析模块基于融合特征向量来判断用户的情绪状态的示意图。

具体实施方式

以下结合附图阐述的详细描述旨在作为各种配置的描述，而无意表示可实践本文所描述的概念的仅有配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而，对于本领域技术人员将显而易见的是，没有这些具体细节也可实践这些概念。在某些实例中，以框图形式示出众所周知的组件以便避免淡化此类概念。

应当理解，基于本公开，其他实施例将是显而易见的，并且可以在不脱离本公开的范围的情况下做出系统、结构、过程或机械改变。

参照附图，可执行本文所描述的动作或功能的一个或多个组件以及一种或多种方法描绘了诸方面。在一方面，本文使用的术语“组件”或“模块”可以是构成系统的诸部分之一，可以是硬件或软件或其某种组合，并且可以被划分成其他组件。尽管以下在附图中所描述的操作以特定次序呈现和/或如由示例组件执行，但应理解这些动作的次序以及执行动作的组件可取决于实现而变化。此外，应当理解，以下动作或功能可由专门编程的处理器、执行专门编程的软件或计算机可读介质的处理器、或由能够执行所描述的动作或功能的硬件组件和/或软件组件的任何其他组合来执行。

图1中解说根据本申请的实施例的基于情感特征融合对智能家居设备进行控制的系统的模块图。

如图1中所示，本申请的系统可分为四个模块：数据处理模块；数据分析模块；指令生成分发模块；以及执行模块。以下结合附图1来详细描述各个模块的功能。

数据处理模块用于收集用户输入的语音信息，并对该信息进行数据的预处理，包括：提取语音中的诸如音调、响度、节奏等声学信息特征和诸如词语等文本信息特征，并将上述特征进行融合后形成混合特征向量。这些与情绪相关的特征向量接着会被用来训练分类器或者回归系统(参见图 4)。

声学信息特征提取的过程是先将声音过滤降噪处理(预加重)后，进行分帧。分帧后的语音信号便于处理。语音信号进行频域变换(FFT、滤波器、DCT)后，利用MFCC提取其声学信息特征(参见图2)。众所周知，在语音识别(Speech Recognition)和话者识别(SpeakerRecognition)方面，最常用到的语音特征就是梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients，简称MFCC)。

它是根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。经过上面整个过程的结果，就把一帧语音信号用一个12～20维向量简洁地表示了出来。

文本信息特征的提取是将语音转化为文字后，对语句进行分词，利用 word2vec(谷歌2013年提出的词嵌入模型，是目前最常用的文本表示模型之)训练词向量，从而得到语句的特征向量(参见图4)。

以上关于特征提取的过程在本领域中是熟知的，因此在此不做赘述。

由于现有技术往往只关注声学信息或文本信息这一单独的特征，因此对于情感的捕捉是非常具有局限性的。本申请的技术方案同时采用两种不同维度的信息特征进行融合，能更为全面地提取语音信息的特征，从而更有效地提高系统的识别性能(参见图5)。

在一实施例中，可采用逐个位相加的模式进行特征融合，用数学式表达为:现有特征向量为V1、V2。

为了融合这两个特征向量，直接进行对应元素进行相加，即V＝V1+V2。即是V＝{x

其中V表示特征向量，x表示特征向量每一维度的数值，n表示征向量的维度。

当然，除了逐个位相加的模式进行特征融合外，本领域也存在按权重分配的融合方法等其他方法。所有这些方式都落入到本申请的范围之内。

数据分析模块用于对经预处理的语音数据进行分析。具体地，数据分析模块采用深度学习的方法，诸如，CNN+LSTM，对所获得的融合特征向量打标签后进行训练和验证，并基于此来判断用户当前处于何种情绪状态，比如，开心(happiness)、难过(sadness)、生气(anger)、恶心(disgust)、害怕(fear)、惊讶(surprise)等(参见图8)。

指令生成分发模块用于在得到用户的情感状态信息之后，由控制中心根据用户所处的情感状态，向智能设备分发不同情境的指令。例如，人工智能语音交互控制设备作为智能家居设备的控制中心，当用户对该设备发出语音后，该设备接收信息、分析信息后会切换相应场景，从而改变与用户交互的人工智能的语音语调。同时，根据分析后的用户情感状态，查询系统内所绑定的其他智能家居设备，然后向其他智能家居设备发送相应的指令(参见图6)。

执行模块，其位于相应的智能家居设备中。处在同一环境下的智能家居设备，会查收从指令生成分发模块下发的指令，根据该指令来判断是否由自己来执行指令。得到结果后查询并匹配相应所要进行的操作并开始执行，即根据该指令来调整自身参数，并将设备信息上报给控制中心(参见图7)。

以下结合具体实施例来详细描述根据本申请的基于情感特征融合的系统和方法的具体实现。

当用户A回到家中，此时心情愉快，音调稍高，节奏轻快。通过语音唤醒设备控制中心(例如，智能音箱)。当音箱感应到语音后被唤醒，同时读取用户的语音，通过内置的数据分析处理模块，分析判断当前用户的情绪，得到用户此时情绪愉快这一数据后，智能音箱用相应欢快的语气与用户对话，并且将情绪数据作为情感因子传送给指令生成和分发模块。指令生成和分发模块根据所获得情感因子生成指令，查询室内的其他智能设备后，下发指令给各智能家居设备。执行模块负责调控房间的门窗、温度、灯光、音乐等智能设备，进行相应的参数调控，并上报设备信息给控制中心。因此，智能家居设备的设置此时更贴合用户的实际情况，迎合个体用户的个性化偏好，用户的个性化体验感更加强烈。

根据本申请的实施例的系统和方法，采用情感特征与语音特征融合的方式，通过音调、响度、节奏等声学信息特征和词性、词频等文本信息特征共同来分析用户语音中所蕴含的情感信息。

同时，利用分析出的情感信息对智能设备进行控制，这不但进一步发展了智能家居设备的全新控制方法，并且进一步加深了人与机器之间的智能交互。并且，本申请并不受限于具体的产品和领域，因此其生命周期可以很长，能够延续10年甚至更长的时间。

如本领域技术人员能够领会的，尽管以上结合智能家居设备来描述了本申请，但该系统和方法并不限于智能家居领域，而是可以推广至如本领域技术人员所能理解的任何其他智能设备控制领域。

当前市场对智能家居设备的自动控制不具有针对性，而且大部分的语音控制也只是单纯的执行语音的表面释义指令，用户的体验感并不好。与现有技术中存在的诸多控制系统和方法相比，本申请显然具有突出的技术优势。

第一，采用情感特征融合的系统和方法，通过音调、响度、节奏等声学信息特征和词性、词频等本文信息特征融合后，综合分析用户语音中所蕴含的信息，从而可以使智能设备的使用更加贴近用户实际情况，增强了用户对于智能家居设备的体验感。

第二，此种控制方法趋于个性化的定制，灵活度与敏感性较高，使设备更加智能化。

第三，通过不断优化指令，使智能家居设备的联动更加快捷，从而加深了用户与机器之间的交互。

应该理解，所公开的方法中各步骤的具体次序或阶层是示例性过程的解说。基于设计偏好，应该理解，可以重新编排本文描述的方法或方法体系中各步骤的具体次序或阶层。所附方法权利要求以样本次序呈现各种步骤的要素，且并不意味着被限定于所呈现的具体次序或阶层，除非在本文中有特别叙述。

提供先前描述是为了使本领域任何技术人员均能够实践本文中所述的各种方面。对这些方面的各种改动将容易为本领域技术人员所明白，并且在本文中所定义的普适原理可被应用于其他方面。因此，权利要求并非旨在被限定于本文中所示出的各方面，而是应被授予与权利要求的语言相一致的全部范围，其中对要素的单数形式的引述并非旨在表示“有且仅有一个”(除非特别如此声明)而是“一个或多个”。除非特别另外声明，否则术语“一些”指的是一个或多个。引述一列项目中的“至少一个”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一者”旨在涵盖：至少一个a；至少一个b；至少一个c；至少一个a和至少一个b；至少一个a和至少一个c；至少一个b和至少一个c；以及至少一个a、至少一个b和至少一个c。本公开通篇描述的各种方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此，且旨在被权利要求所涵盖。此外，本文中所公开的任何内容都并非旨在贡献给公众，无论这样的公开是否在权利要求书中被显式地叙述。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李鸣秋;杭云;郭宁;施唯佳;
专利申请人：天翼智慧家庭科技有限公司;