掌桥专利:专业的专利平台
掌桥专利
首页

长时语音情感状态识别方法、装置、电子设备及存储介质

文献发布时间:2024-07-23 01:35:21


长时语音情感状态识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域,尤其涉及一种长时语音情感状态识别方法、装置、电子设备及存储介质。

背景技术

长时语音情感分析是人工智能领域的一个重要研究方向,涉及到理解长时间对话中情感状态的演变和模式。现有的长时语音情感分析技术主要包括传统机器学习方法和深度学习方法等。然而,现有技术在识别长时语音情感状态的准确性和实时性方面存在一定的局限性。

发明内容

本申请实施例的主要目的在于提出一种长时语音情感状态识别方法、装置、电子设备及存储介质,以提高长时语音情感状态识别的准确性和实时性。

为实现上述目的,本申请实施例的一方面提出了一种长时语音情感状态识别方法,所述方法包括:

获取达到设定时长的语音数据;

对所述语音数据进行预处理;

从预处理后的所述语音数据中提取语音特征;

将所述语音特征输入经过预先训练的语音识别模型,得到所述语音识别模型对所述语音特征预测的情感状态;其中,所述语音识别模型包括长短记忆网络,所述长短记忆网络包括记忆单元,所述记忆单元用于存储和更新的所述情感状态,所述语音识别模型以标注有情感状态标签的语音数据样本作为训练数据训练得到。

在一些实施例中,所述对所述语音数据进行预处理,包括:

对所述语音数据进行去除噪声和切割分段,得到预处理后的所述语音数据。

在一些实施例中,所述从预处理后的所述语音数据中提取语音特征,包括:

利用梅尔频率倒谱系数算法、梅尔倒谱系数算法以及谱熵算法从预处理后的所述语音数据中提取语音特征。

在一些实施例中,所述方法还包括构建和训练所述语音识别模型的步骤,所述构建和训练所述语音识别模型的步骤包括:

利用循环神经网络和所述长短记忆网络构建所述语音识别模型;

确定所述语音识别模型的学习率;

获取包括多个所述训练数据的训练集;

根据所述学习率利用所述训练集训练所述语音识别模型。

在一些实施例中,所述根据所述学习率利用所述训练集训练所述语音识别模型,包括:

利用所述训练集获取所述语音识别模型中隐藏层的权重向量和偏置向量;

分别计算所述语音识别模型的损失函数对所述权重向量和所述偏置向量的梯度;

根据所述梯度和所述学习率更新所述权重向量和所述偏置向量,以训练所述语音识别模型。

在一些实施例中,所述将所述语音特征输入经过预先训练的语音识别模型,得到所述语音识别模型对所述语音特征预测的情感状态,包括:

利用所述经过预先训练的语音识别模型中的输入层接收所述语音特征中与情感状态相关的声学特征;

利用所述经过预先训练的语音识别模型中的隐藏层提取所述声学特征之间的关联信息,得到关联特征;

利用所述经过预先训练的语音识别模型中的输出层输出所述关联特征的分类结果;

利用所述经过预先训练的语音识别模型中的全连接层通过softmax函数对所述分类结果进行归一化处理,得到所述语音数据对应的情感状态的概率分布。

在一些实施例中,所述方法还包括:

将所述概率分布中最大概率对应的情绪状态确定为所述语音数据对应的情绪状态。

为实现上述目的,本申请实施例的另一方面提出了一种长时语音情感状态识别装置,所述装置包括:

语音获取单元,用于获取达到设定时长的语音数据;

语音预处理单元,用于对所述语音数据进行预处理;

特征提取单元,用于从预处理后的所述语音数据中提取语音特征;

情绪识别单元,用于将所述语音特征输入经过预先训练的语音识别模型,得到所述语音识别模型对所述语音特征预测的情感状态;其中,所述语音识别模型包括长短记忆网络,所述长短记忆网络包括记忆单元,所述记忆单元用于存储和更新的所述情感状态,所述语音识别模型以标注有情感状态标签的语音数据样本作为训练数据训练得到。

为实现上述目的,本申请实施例的另一方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。

为实现上述目的,本申请实施例的另一方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。

本申请实施例至少包括以下有益效果:

本申请获取达到设定时长的语音数据;对语音数据进行预处理;从预处理后的语音数据中提取语音特征;将语音特征输入经过预先训练的语音识别模型,得到语音识别模型对语音特征预测的情感状态。本申请的语音识别模型包括长短记忆网络,可利用长短记忆网络中的记忆单元存储和更新的情感状态,因此能够更好地捕捉长时语音中情感状态的演变和模式,同时整合先前的情感状态,提高对当前情感状态的理解,从而提高情感状态识别的准确性。而且,本申请通过采用长短记忆网络,实现对情感状态的快速识别和预测,满足实时应用的需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种长时语音情感状态识别方法的流程示意图;

图2为本申请实施例提供的一种长时语音情感状态识别方法的示例流程图;

图3为本申请实施例提供的一种长时语音情感状态识别装置的结构示意图;

图4为本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式,它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。

可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。例如,在不脱离本申请实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“若”、“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指多个中的任意一个。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

在对本申请实施例进行详细说明之前,首先对本申请实施例中涉及的部分相关技术进行说明,如下:

长时语音情感分析是人工智能领域的一个重要研究方向,涉及到理解长时间对话中情感状态的演变和模式。现有的长时语音情感分析技术主要包括传统机器学习方法和深度学习方法等。然而,现有技术在识别长时语音情感状态的准确性和实时性方面存在一定的局限性。

现有技术仍存在以下问题和不足包括:

情感状态的短期记忆:现有技术在处理长时间对话时,往往难以捕捉到情感状态的长期演变趋势,导致准确性受限。

情感状态的误解:部分现有技术在识别情感状态时,可能出现对情感状态的误解,从而影响分析结果的准确性。

实时性不足:部分现有技术在处理长时语音情感分析任务时,计算复杂度高,实时性较差,难以满足实时应用的需求。

跨语种和文化的适应性:部分现有技术在不同语言和文化背景下表现不佳,限制了其应用范围。

为至少解决上述问题之一,本申请实施例提供了一种长时语音情感状态识别方法、装置、电子设备及存储介质。本申请的技术方案包括:获取达到设定时长的语音数据;对语音数据进行预处理;从预处理后的语音数据中提取语音特征;将语音特征输入经过预先训练的语音识别模型,得到语音识别模型对语音特征预测的情感状态。本申请的语音识别模型包括长短记忆网络,可利用长短记忆网络中的记忆单元存储和更新的情感状态,因此能够更好地捕捉长时语音中情感状态的演变和模式,同时整合先前的情感状态,提高对当前情感状态的理解,从而提高情感状态识别的准确性。而且,本申请通过采用长短记忆网络,实现对情感状态的快速识别和预测,满足实时应用的需求。

本申请实施例提供了一种长时语音情感状态识别方法,涉及语音识别技术领域。本申请实施例提供的长时语音情感状态识别方法可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表以及车载终端等,但并不局限于此;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器,服务器还可以是区块链网络中的一个节点服务器;软件可以是实现长时语音情感状态识别方法的应用等,但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

参照图1,本申请实施例提供了一种长时语音情感状态识别方法,该方法可以包括但不限于包括S100至S130,具体如下:

S100:获取达到设定时长的语音数据。

具体地,本实施例中语音数据的设定时长可以任意设定,语音数据的时长可以根据实际应用需求而定义,例如几分钟到十几分钟不等,还可以是其他可选时长,本实施例不一一举例。

本实施例的语音数据可以包括:采集自然状态下的人声语音数据,该语音数据可以覆盖不同的情感状态,如快乐、悲伤、愤怒、惊讶等;语音数据还可以是预先录制的语音库、电影对话、电话通话录音、现场演讲等多种形式。

S110:对所述语音数据进行预处理。

进一步地,S100可以包括:

对所述语音数据进行去除噪声和切割分段,得到预处理后的所述语音数据。

本实施例的预处理过程还可以包括对语音数据进行标注情感状态。

为便于后续语音识别,本实施例可以将预处理后的语音数据存储为预设格式,如.wav或.mp3等。

S120:从预处理后的所述语音数据中提取语音特征。

具体地,本实施例可从语音数据中提取情绪状态相关的语音特征。

进一步地,S120可以包括:

利用梅尔频率倒谱系数算法、梅尔倒谱系数算法以及谱熵算法从预处理后的所述语音数据中提取语音特征。

具体地,本实施例可以使用合适的特征提取算法,如MFCC(Mel频率倒谱系数)、PLP(倒谱)、SPEC(谱熵)等,从预处理后的语音数据中提取情感状态相关的语音特征。

作为更进一步的实施方式,本实施例可以将提取的语音特征进行归一化处理,以确保不同情感状态下的语音特征具有可比性。然后将归一化后的语音特征输入到语音识别模型中。

S130:将所述语音特征输入经过预先训练的语音识别模型,得到所述语音识别模型对所述语音特征预测的情感状态。

其中,所述语音识别模型包括长短记忆网络,所述长短记忆网络包括记忆单元,所述记忆单元用于存储和更新的所述情感状态,所述语音识别模型以标注有情感状态标签的语音数据样本作为训练数据训练得到。

具体地,本实施例可以利用经过预先训练的语音识别模型对语音特征进行识别,获取语音数据中包含的情感状态。

为更清楚说明本申请实施例的实现过程,接下来对该语音识别模型进行说明。

本申请实施例还可以包括S140,构建和训练语音识别模型的步骤,S140可以包括S141~144:

S141:利用循环神经网络和所述长短记忆网络构建所述语音识别模型;

S142:确定所述语音识别模型的学习率;

S143:获取包括多个所述训练数据的训练集;

S144:根据所述学习率利用所述训练集训练所述语音识别模型。

具体地,本实施例构建的语音识别模型可以包括编码器和解码器,编码器可以用于编码语音特征,解码器可以用于生成情感状态的序列预测。在语音识别模型中引入长期记忆机制,如记忆单元,以捕捉和利用先前的情感状态信息,记忆单元能够存储和更新先前的情感状态信息。长期记忆机制有助于语音识别模型在处理长时间对话时,能够记住先前的情感状态,并利用这些信息来预测当前和未来的情感状态。

本实施例中语音识别模型的网络结构可以包括输入层、隐藏层和输出层。输入层负责接收情感状态相关的声学特征,隐藏层用于提取特征之间的关联,输出层用于输出情感状态分类结果。

历史情感状态数据:通过语音识别模型可以利用过去对话中情感状态的数据,这些数据可以是先前的情感状态标签或模型预测的情感状态。时间序列分析:通过语音识别模型可以分析情感状态随时间的变化趋势,以便更好地理解情感状态的演变模式。

记忆单元:长短记忆网络中的记忆单元(Memory Cell)可以存储和更新先前的情感状态信息。长期依赖关系:记忆单元能够捕捉和利用长时间对话中情感状态的长期依赖关系,这有助于语音识别模型记住先前的情感状态,并在当前的情感状态下利用这些信息。然后本实施例可以确定语音识别模型的学习参数,如学习率、迭代次数等,再利用训练集对语音识别模型进行训练,优化语音识别模型的参数。

更进一步地,S144,根据所述学习率利用所述训练集训练所述语音识别模型,包括:

利用所述训练集获取所述语音识别模型中隐藏层的权重向量和偏置向量;

分别计算所述语音识别模型的损失函数对所述权重向量和所述偏置向量的梯度;

根据所述梯度和所述学习率更新所述权重向量和所述偏置向量,以训练所述语音识别模型。

接下来以一个示例对识别情感状态进行说明。

本实施例示例性地提供一个语音识别模型,用于识别三种情感状态:快乐、悲伤和愤怒。语音识别模型的输出层有三个神经元,分别对应三种情感状态,语音识别模型可以输出未归一化的实数向量(即logits)作为分类结果。

其中,权重矩阵、偏置向量和学习率是语音识别模型中的关键参数,它们共同决定了语音识别模型如何从语音数据中学习特征并做出预测。将隐藏层的输出与权重矩阵和偏置向量进行矩阵乘法运算,再加上偏置向量可以得到logits。该运算过程可以表示为:

z=W@h+b;

其中z是logits,W是权重矩阵,h是隐藏层的输出向量,b是偏置向量。

在情感状态识别任务中,权重矩阵W的每个元素都是语音识别模型对隐藏层中特定特征与输出情感状态之间关联的学习。例如,如果语音识别模型发现某些语音特征(如频率变化)与快乐情感状态相关联,相应的权重就会较大。权重矩阵W的初始值是随机分配的,并在训练过程中通过反向传播算法不断更新,以最小化预测情感状态与实际情感状态之间的差异。

在情感状态识别任务中,偏置向量b可以代表语音识别模型对情感状态的内在倾向或偏爱。例如,如果语音识别模型倾向于高估悲伤的情感状态,相应的偏置项可能会被调整得更大。偏置向量也是在训练过程中通过反向传播算法更新的,以优化模型的预测性能。

需要说明的是,logits的数值:权重矩阵W和偏置向量b的参数不是人为设定的,而是通过语音识别模型的训练过程中不断迭代和学习得到的,迭代和学习过程可以自动调整权重矩阵和偏置向量等参数,以最小化损失函数,从而训练权重矩阵,计算损失函数对每个参数的梯度,进而可以使用梯度和学习率来更新参数。

进一步地,S130可以包括S131~S134:

S131:利用所述经过预先训练的语音识别模型中的输入层接收所述语音特征中与情感状态相关的声学特征;

S132:利用所述经过预先训练的语音识别模型中的隐藏层提取所述声学特征之间的关联信息,得到关联特征;

S133:利用所述经过预先训练的语音识别模型中的输出层输出所述关联特征的分类结果;

S134:利用所述经过预先训练的语音识别模型中的全连接层通过softmax函数对所述分类结果进行归一化处理,得到所述语音数据对应的情感状态的概率分布。

具体地,本实施例的语音识别模型可以包括输入层、隐藏层、输出层和全连接层。输出层输出的未归一化的实数向量(即logits)指的是一个包含多个实数的向量,这些实数的值可以是任意大小,没有经过任何形式的标准化或缩放处理。这意味着该实数向量中的每个元素都可以有不同的数值范围,进而可能会影响语音模型在训练过程中的学习效率和最终性能。logits即为未归一化的实数向量,而通过softmax函数转换后得到的概率分布则是归一化的,因为它们的值被缩放到了0到1之间,并且它们的和为1。

具体地,logits的数值:最后,logits的数值是由隐藏层输出的线性组合决定的。在一些例子中,假设权重矩阵W的一个元素是[100,200],隐藏层输出的一个元素是[2.0,-1.0],偏置向量b的一个元素是[5.0,-3.0],那么对应的logits的一个元素可以通过以下计算得到:

logit_1=(100*2.0+200*-1.0)+5.0=200-200+5.0=5.0;

logit_2=(100*-1.0+200*2.0)+-3.0=-100+400-3.0=297.0;

因此,logits向量将是[5.0,297.0],而不是[2.0,-1.0]或[100,200]。

作为更进一步的实施方式,在得到语音数据对应的情绪状态的概率分布后,本申请实施例还可以包括:

S150:将所述概率分布中最大概率对应的情绪状态确定为所述语音数据对应的情绪状态。

示例性地,为了得到概率分布,本实施例可以使用softmax函数对logits进行转换。假设logits=[2.0,-1.0,3.0],则softmax函数的计算公式如下:

P(y_i|x)=exp(logits[i])/sum(exp(logits));

其中,y_i为情绪状态,x为语音数据。

将logits值代入softmax函数,得到:

P(快乐|x)=exp(2.0)/(exp(2.0)+exp(-1.0)+exp(3.0));

P(悲伤|x)=exp(-1.0)/(exp(2.0)+exp(-1.0)+exp(3.0));

P(愤怒|x)=exp(3.0)/(exp(2.0)+exp(-1.0)+exp(3.0));

计算上述式子,得到:

P(快乐|x)=exp(2.0)/(exp(2.0)+exp(-1.0)+exp(3.0))≈0.5987;

P(悲伤|x)=exp(-1.0)/(exp(2.0)+exp(-1.0)+exp(3.0))≈0.2582;

P(愤怒|x)=exp(3.0)/(exp(2.0)+exp(-1.0)+exp(3.0))≈0.1431;

上述概率值表示语音识别模型对输入语音数据x属于每种情感状态的信心程度。在上述例子中,语音识别模型预测情感状态“快乐”的概率最高,约为0.5987,语音识别模型认为输入语音数据x最有可能属于情感状态“快乐”。

总结来说,语音识别模型输出的概率分布是通过softmax函数将输出层的神经元值转换为概率值来计算得来的,这些概率值表示输入数据属于每个情感类别的概率。

本申请实施例相较于现有技术具有以下有益效果:

提高情感识别准确性:通过采用情感状态的长期记忆网络,本申请实施例能够更好地捕捉长时间对话中情感状态的演变和模式。长期记忆网络能够整合先前的情感状态信息,提高对当前情感状态的理解,从而提高情感状态识别的准确性。

实时性优化:本申请实施例在保证准确性的同时,具有较好的实时性。通过采用深度学习技术,如RNN(循环神经网络)或LSTM(长短记忆网络),实现对情感状态的快速识别和预测,满足实时应用的需求。

跨语种和文化适应性:本申请实施例在不同语言和文化背景下表现良好,具有较强的跨语种和文化适应性。由于长期记忆网络能够自适应地学习不同语言和文化下的情感状态特征,从而拓展了应用范围。

易于扩展和应用:本申请实施例可以很容易地扩展到其他语音处理任务,如语音识别、语音合成等。此外,本申请实施例在实际应用中具有较高的可操作性和易用性,可广泛应用于智能语音交互、智能客服等领域。

提高情感交互体验:通过准确识别和预测长时间对话中的情感状态,本申请实施例有助于提高人机情感交互的体验。例如,在语音助手等服务中,根据用户情感状态的识别和预测,可以实现更智能、更贴心的对话回应,提升用户满意度。

综上所述,本申请实施例通过其技术方案实现了一系列有益效果,为长时语音情感分析领域提供了有效的技术支持和解决方案。

接下来将结合具体的应用例子,对本申请实施例的方案作介绍和说明:

参照图2,本实施例提供了一种长时语音情感状态识别方法的示例流程图。

首先获取待识别的语音数据,然后对语音数据进行预处理,再将预处理后的语音数据输入到经过预先训练的语音识别模型(该语音识别模型包括长短记忆网络)中,进行情感状态的识别。

根据语音识别模型输出的情感状态的概率分布,对语音数据进行情感状态的预测。语音识别模型的输出层生成一个概率分布,表示输入语音数据对应的情感状态,该概率分布可以是一个softmax函数的输出。语音识别模型输出一个概率分布的过程涉及到语音识别模型中的最后一个全连接层使用softmax函数对输出进行归一化处理,归一化后可以提供语音识别模型的学习和训练。

具体示例1:

假设用于正在和一个客户服务代表进行电话交谈。在交谈过程中,客户服务代表使用了一个基于情感状态的语音识别模型来分析用户的语音数据。

语音数据经过语音识别模型处理后,语音识别模型可以输出一个情感状态的概率分布,其中“快乐”的概率为0.8,“悲伤”的概率为0.1,“愤怒”的概率为0.05,“中性”的概率为0.05。

根据这个概率分布,客户服务代表可以预测用户在当前时刻的情感状态为“快乐”。该预测可以帮助客户服务代表更好地理解用户的情绪,并提供更合适的帮助和解决方案,还根据预测的情感状态,对后续语音数据进行情感状态的追踪和预测。

具体示例2:

假设一段长时间对话中,用户1表示高兴情感,用户2表示生气情感。对话过程如下:

用户1:今天天气真好,我们一起去公园吧。用户2:哼,我才不想去呢。

首先对两个用户的语音数据进行预处理,包括去除噪声、切割语音信号等。然后,提取情感状态相关的语音特征,如音高、能量、语速等。将提取的语音特征输入到语音识别模型中进行训练。

训练完成后,将新的语音数据输入到语音识别模型中进行情感状态的识别和预测。例如,当用户1说:“今天天气真好”,通过语音识别模型可以根据先前学习的情感状态信息,识别出用户1处于高兴情感。当用户2说:“我才不想去呢”,通过语音识别模型可以识别出用户2处于生气情感,从而实现对长时间对话中情感状态的准确识别和预测。

参照图3,本申请实施例还提供了一种长时语音情感状态识别装置,可以实现上述的长时语音情感状态识别方法,该装置包括:

语音获取单元,用于获取达到设定时长的语音数据;

语音预处理单元,用于对所述语音数据进行预处理;

特征提取单元,用于从预处理后的所述语音数据中提取语音特征;

情绪识别单元,用于将所述语音特征输入经过预先训练的语音识别模型,得到所述语音识别模型对所述语音特征预测的情感状态;其中,所述语音识别模型包括长短记忆网络,所述长短记忆网络包括记忆单元,所述记忆单元用于存储和更新的所述情感状态,所述语音识别模型以标注有情感状态标签的语音数据样本作为训练数据训练得到。

可以理解的是,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本申请实施例还提供了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述长时语音情感状态识别方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

可以理解的是,上述方法实施例中的内容均适用于本设备实施例中,本设备实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

请参阅图4,图4示意了另一实施例的电子设备的硬件结构,电子设备包括:

处理器401,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;

存储器402,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器402可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器402中,并由处理器401来调用执行本申请实施例的长时语音情感状态识别方法;

输入/输出接口403,用于实现信息输入及输出;

通信接口404,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;

总线405,在设备的各个组件(例如处理器401、存储器402、输入/输出接口403和通信接口404)之间传输信息;

其中处理器401、存储器402、输入/输出接口403和通信接口404通过总线405实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述长时语音情感状态识别方法。

可以理解的是,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

相关技术
  • 语音识别方法、装置、电子设备及计算机可读存储介质
  • 文本情感识别方法及装置、电子设备、存储介质
  • 商品状态识别方法、装置、电子设备及可读存储介质
  • 交通指示灯的状态识别方法、装置、电子设备及存储介质
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 长语音情感智能识别方法、系统及计算机可读存储介质
  • 基于语音的情感识别方法和装置、电子设备及存储介质
技术分类

06120116679074