一种语音意图识别方法及装置

文献发布时间：2023-06-19 10:27:30

技术领域

本说明书涉及信息技术领域，尤其涉及一种语音意图识别方法及装置。

背景技术

随着信息技术和人工智能的发展，语音识别技术得到了广泛的应用。例如，一些企业会用智能语音技术代替客服人员来协助用户办理业务或提供服务，而为了提高服务效率，通常还可对用户说的话进行意图识别，根据识别出的用户意图选择相应的回应或操作。或者，一些智能机器人，也需要根据获取到的语音信息，来识别对应用户的意图，以做出恰当的反应。而要对获取到的语音信息做出正确或恰当的反应和操作，就需要对获取到的语音信息进行意图识别，来确定该语音信息对应的用户的真实意图。

在现有技术中，对语音信息进行意图识别时，往往是把用户的语音信息和该语音信息转换成的文本输入到预先训练好的用于识别用户意图的模型中，来对用户的语音信息进行意图识别，得到一个意图识别结果。

但是，现有技术根据语音信息和文本确定出的意图识别结果不够准确，导致基于意图识别结果执行的业务效率难以提高。

发明内容

本说明书提供一种语音意图识别方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种语音意图识别方法，具体包括：

获取用户的语音数据，根据所述语音数据，确定所述语音数据对应的文本数据；

根据所述语音数据，通过意图识别模型的第一分支网络，确定第一特征向量，以及根据所述文本数据，通过所述意图识别模型的第二分支网络，确定第二特征向量；

获取所述用户的关联数据，根据所述关联数据，通过所述意图识别模型的第三分支网络，确定第三特征向量，其中，所述关联数据包括用户信息数据、用户行为数据以及历史交互数据中的至少一种，所述历史交互数据是在与所述用户交互的过程中，向所述用户发送的语音；

将所述第一特征向量、所述第二特征向量以及所述第三特征向量进行融合，确定总特征向量，将所述总特征向量输入所述意图识别模型的中间分支网络，确定所述中间分支网络输出的用户意图向量；

将所述用户意图向量输入所述意图识别模型的各输出分支网络，并根据各输出分支网络分别输出的各分类结果，确定所述用户的意图识别结果，所述用户的意图用于确定回复所述用户的语音信息，不同输出分支网络用于输出不同意图类型的分类结果。

可选地，根据所述语音数据，通过意图识别模型的第一分支网络，具体包括：

去除所述语音数据中的无效数据，得到待识别数据；

将确定出的待识别数据输入到意图识别模型的第一分支网络，确定第一特征向量。

可选地，根据所述关联数据，通过所述意图识别模型的第三分支网络，确定第三特征向量，具体包括：

根据所述用户的用户信息数据，确定该用户对应的各预设类型的用户信息数据；

针对每个预设类型，对该类型的用户信息数据进行编码，确定画像编码；

将各类型的画像编码，分别输入所述第三分支网络中各预设的类型对应的神经网络层，得到各画像编码对应的画像向量；

将各画像编码对应的画像向量进行融合，确定综合画像向量；

将所述综合画像向量作为输入，输入所述第三分支网络中的融合网络层，确定所述融合网络层的输出，作为所述第三特征向量。

可选地，所述用户行为数据为在与所述用户交互的过程之前，记录的所述用户行为数据；

根据所述关联数据，通过所述意图识别模型的第三分支网络，确定第三特征向量，具体包括：

根据所述用户行为数据，对所述用户的各行为进行编码；

根据所述用户各行为的编码，确定各用户行为向量；

将各用户行为向量作为输入，依次输入所述意图识别模型的第三分支网络，根据所述意图识别模型的第三分支网络的隐层特征，确定第三特征向量。

可选地，根据所述关联数据，通过所述意图识别模型的第三分支网络，确定第三特征向量，具体包括：

根据历史交互数据，确定与所述用户交互过程中发送的各语音；

按照各语音的发送排序，确定目标语音；

将所述目标语音对应的文本数据作为输入，输入所述意图识别模型的第三分支网络，确定第三特征向量。

可选地，各输出分支网络至少包括：用于输出用户情绪的输出分支网络、用于输出用户态度的输出分支网络以及输出用户是否肯定的输出分支网络中的两种。

可选地，采用下述方法训练所述意图识别模型，其中：

获取历史上与不同用户交互过程产生的语音数据；

针对每段语音数据，确定对应该段语音数据的文本数据以及对应该段语音数据的用户的关联数据，将所述语音数据以及所述关联数据作为训练样本；

根据各交互过程的语音数据以及交互结果，确定各训练样本的样本标签，所述样本标签包含各输出分支网络对应的标签；

将所述训练样本输入待训练的意图识别模型，得到所述待训练的意图识别模型的各输出分支网络的输出结果；

根据得到的各输出分支网络的输出结果以及所述样本标签对应的各输出分支网络的标签，确定各输出分支网络的输出结果对应的损失；

根据各输出分支网络的输出结果对应的损失确定总损失，以总损失最小为优化目标，调整所述待训练的意图识别模型中的参数。

本说明书提供了一种语音意图识别装置，所述装置具体包括：

文本数据确定模块，用于获取用户的语音数据，根据所述语音数据，确定所述语音数据对应的文本数据；

特征向量第一确定模块，用于根据所述语音数据，通过意图识别模型的第一分支网络，确定第一特征向量，以及根据所述文本数据，通过所述意图识别模型的第二分支网络，确定第二特征向量；

特征向量第二确定模块，用于获取所述用户的关联数据，根据所述关联数据，通过所述意图识别模型的第三分支网络，确定第三特征向量，其中，所述关联数据包括用户信息数据、用户行为数据以及历史交互数据中的至少一种，所述历史交互数据是在与所述用户交互的过程中，向所述用户发送的语音；

用户意图向量确定模块，用于将所述第一特征向量、所述第二特征向量以及所述第三特征向量进行融合，确定总特征向量，将所述总特征向量输入所述意图识别模型的中间分支网络，确定所述中间分支网络输出的用户意图向量；

意图识别模块，用于将所述用户意图向量输入所述意图识别模型的各输出分支网络，并根据各输出分支网络分别输出的各分类结果，确定所述用户的意图识别结果，所述用户的意图用于确定回复所述用户的语音信息，不同输出分支网络用于输出不同意图类型的分类结果。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音意图识别方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述语音意图识别方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的语音意图识别方法中，获取用户的语音数据，并确定其对应的文本数据，通过第一以及第二分支网络，分别确定第一以及第二特征向量。根据用户信息数据、用户行为数据以及历史交互数据中的至少一种，通过第三分支网络确定第三特征向量。将第一、第二以及第三特征向量进行融合得到的总特征向量，输入意图识别模型的中间分支网络，确定该中间分支网络输出的用户意图向量，将用户意图向量输入意图识别模型的各输出分支网络，得到各输出分支网络分别输出的各分类结果，并基于各分类结果确定用户的意图。

从上述方法中可以看出，本方法不局限于通过用户的语音数据确定用户意图，且意图识别模型可以输出不同意图类型的分类结果，使得可以基于多种意图类型的分类结果，更准确的确定用户意图，使基于该意图识别结果执行的业务效率更高。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种语音意图识别方法的流程示意图；

图2为本说明书提供的语音交互的示意图；

图3为本说明书提供的一种意图识别模型的示意图；

图4为本说明书提供的一种第三分支网络的结构示意图；

图5为本说明书提供的一种第三分支网络的结构示意图；

图6为本说明书提供的一种第三分支网络的结构示意图；

图7为本说明书提供的一种第三分支网络的结构示意图；

图8为本说明书提供的一种语音意图识别装置的示意图；

图9为本说明书提供的对应于图1的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

目前，现有技术在基于用户的语音信息对用户进行意图识别时，往往是将用户的语音信息和该语音信息转换成的文本，作为识别用户意图的模型的输入，并根据该识别用户意图的模型的输出，确定出一个该用户的意图。但是，单一的输出结果，只能对一些用户意图较为简单的语音进行意图识别，若用户的意图较为复杂，则只根据用户的语音信息和对应文本难以准确确定出用户意图。例如在与用户交互时，用户可能会说反语，这时用户的肯定答复实际要表达的却是否定的意思。或者，在交互过程中，用户使用了容易被识别成同音字词或者谐音字词的字或词汇，导致在将该用户的语音转换成文本后，文本被错误识别成对应的同音字词或者谐音字词，导致文本含义改变。而在现有技术中，仅根据用户的语音信息和对应文本难以识别出这些情况下用户的真正意图，这就导致用户意图识别不准确，使基于意图识别结果而执行的业务不能顺利进行，甚至出错。

为了解决现有对用户的语音意图识别不准确的情况，本申请提供了一种语音意图识别方法。

图1为本说明书中一种语音意图识别方法的流程示意图，具体包括以下步骤：

S100：获取用户的语音数据，根据所述语音数据，确定所述语音数据对应的文本数据。

在本说明书中，该语音意图识别方法可用于在智能客服的场景中，具体是在语音智能客服的应用场景中，在业务平台的智能客服在与用户交互的过程时，通过对用户的语音信息进行识别，确定该用户的真实意图，使智能客服在交互过程可根据识别得到的意图识别结果，确定如何继续与用户交互，顺利且准确执行对应的业务。为了方便描述，后续本说明书中以智能客服指代语音智能客服。

在本说明书一个或多个实施例中，该语音意图识别方法具体可以由语音意图识别结果对应业务的提供方的服务器执行，该服务器可以是单独的一台设备，或者有多台设备组成的系统，如分布式系统，本说明书对于服务器的具体形式不做限定，可根据需要设置。该服务器上可运行用于与用户交互的智能客服的程序，该程序用于根据业务场景以及用户的语音，确定向用户发送的语音数据，也就是执行客服业务。

在本说明书一个或多个实施例中，当该服务器执行智能客服业务，向用户提供智能客服服务时，该服务器可根据用户的语音数据识别该用户的意图。首先，该服务器可获取需要进行意图识别的语音数据，该语音数据可以是最近一次该用户的客户端发送至该服务器的语音数据。

例如，在用户使用智能客服服务时，用户与智能客服的对话如图2所示，图2为本说明书提供的语音交互的示意图，其中气泡栏表示用户或者智能客服发送的语音数据，则该服务器可确定最近该用户发送的语音数据，即图2中深色的气泡栏，作为进行意图识别的语音数据。

然后，将获取到的语音数据转换为文本数据，以便于在后续步骤中输入意图识别模型，识别该用户的意图。其中，在将该用户的语音数据转化为文本数据时，可以采用DeepSpeech技术，也可以采用自动语音识别技术(Automatic Speech Recognition，ASR)，或是其它可以将语音信号转化为对应文本的技术，当然具体采用哪种方式进行语音识别，本说明书不做限制，可根据需要设置。

S102：根据所述语音数据，通过意图识别模型的第一分支网络，确定第一特征向量，以及根据所述文本数据，通过所述意图识别模型的第二分支网络，确定第二特征向量。

图3为本说明书提供的一种意图识别模型的示意图，如图，该意图识别模型包括第一分支网络、第二分支网络、第三分支网络、中间分支网络以及若干输出分支网络。图中可见，将用户的语音数据、该语音数据对应的文本数据、用户的关联数据分别输入到该意图识别模型的第一分支网络、第二分支网络、第三分支网络后，分别得到第一特征向量、第二特征向量以及第三特征向量。将第一、第二以及第三特征向量融合后得到的总特征向量输入中间分支网络，可以确定一个融合了该用户所有特征的用户意图向量，再将该用户意图向量分别输入到各输出分支网络后，得到各输出分支网络对应的意图分类结果。根据各输出分支网络对应的意图分类结果，可最终确定针对该用户的语音数据的意图识别结果。

在本说明书一个或多个实施例中，服务器在获取到用户的语音数据后，可以将该语音数据输入意图识别模型的第一分支网络，得到该语音数据对应的第一特征向量。

具体的，服务器可以在获取到用户的语音数据后，对该语音数据进行预处理。先去除该语音数据中的无效数据，得到待识别数据，然后将该待识别数据进行分帧、加窗，得到加窗后的各数据帧，确定各数据帧对应的频谱图，然后将各频谱图输入到该意图识别模型的第一分支网络，确定第一特征向量。其中，该无效数据是指在该语音数据中该用户未发声时的静音数据或者该用户未发声时的纯背景噪音数据，去除无效数据的方法可以是采用语音端点检测(Voice Activity Detection，VAD)技术。

在本说明书一个或多个实施例中，也可以在得到各数据帧后，直接对各数据帧进行语音特征的提取，并根据各语音特征，确定第一特征向量。其中，各语音特征可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征、i-vector特征、声强、基频等特征。

在本说明书一个或多个实施例中，服务器在获取到的用户的语音数据对应的文本数据后，可以将该文本数据输入到意图识别模型的第二分支网络，得到该文本数据对应的第二特征向量。

具体的，可以将用户的语音数据对应的文本数据进行拆分，得到若干词汇数据，并把拆分后得到的各词汇数据输入到意图识别模型的第二分支网络中，得到该第二分支网络输出的第二特征向量。其中，该第二分支网络可以是word2vec(word to vector)网络，用于将拆分后的各词汇数据转化为词向量，并将各词向量进行融合，得到一个表示该语音数据对应文本数据的向量，即该文本数据对应的第二特征向量。或者，该第二分支网络也可以是transformer网络，用于对该文本数据进行特征提取，确定第二特征向量，具体可根据需要设置，本说明书在此不做限制。

S104：获取所述用户的关联数据，根据所述关联数据，通过所述意图识别模型的第三分支网络，确定第三特征向量。

在本说明书中，为了提高对于用户的语音意图识别的准确性，服务器还可以获取该用户的关联数据，并把该用户的关联数据输入到意图识别模型的第三分支网络，得到第三特征向量。其中，该用户的关联数据包括用户信息数据、用户行为数据以及历史交互数据中的至少一种，该历史交互数据是在与该用户交互的过程中，向该用户发送的语音。由于不同用户的不同生长环境、所处地域的文化差异、受教育程度、年龄对不同用户的说话习惯、说话态度和性格有着不同的不可忽视的影响，并且在交互过程中，用户当前的情绪和意图可能与交互前该用户的一系列行为相关，并受交互过程中智能客服的回复内容影响，所以获取这些关联数据，并通过意图识别模型的第三分支网络，得到第三特征向量，可以在后续步骤中得到更准确的用户的意图识别结果。例如在交互之前，假设用户在业务平台浏览到了较为感兴趣的内容，则该用户在交互过程中与智能客服的交互态度可能更为积极，该用户的意图也可能与在业务平台浏览到的内容相关。或者，假设用户在交互之前于业务平台发起了投诉，则该用户在交互过程中与智能客服的交互态度可能更为消极，该用户的意图也可能与其在业务平台的投诉内容更具有关联性。

具体的，在本说明书一个或多个实施例中，服务器可以根据用户的用户信息数据，确定该用户对应的各预设类型的用户信息数据，然后针对每个预设类型，对该类型的用户信息数据进行编码，确定画像编码。其中，各预设类型的用户信息数据包括该用户的个人基本数据以及与该交互过程对应的业务相关联的数据。例如，假设该交互过程是向用户催还在该交互过程对应的业务平台欠款的过程，则各预设类型的用户信息数据可以包括用户的金融特征、属性特征以及消费特征。金融特征可以包括该用户的借款金额、欠款时长、历史借款还款情况等。属性特征可以包括该用户的年龄、学历、籍贯、职业等基本信息。消费特征可以包括该用户在该业务平台的消费次数、消费金额等信息。图4为本说明书提供的一种第三分支网络的结构示意图，如图，第三分支网络包括神经网络层和融合网络层，用户信息数据包括用户的金融特征、属性特征以及消费特征……该用户的各用户信息数据分别对应一个画像编码。在确定各类型的画像编码后，可以将各类型的画像编码，分别输入第三分支网络中的神经网络层，将各画像编码通过神经网络层中的嵌入(embedding)层进行压缩降维，得到各画像编码对应的画像向量，并将各画像编码对应的画像向量进行融合，确定综合画像向量。最后，将该综合画像向量作为输入，输入第三分支网络中的融合网络层，并确定该融合网络层的输出，作为第三特征向量。

另外，在本说明书一个或多个实施例中，针对各预设类型的用户信息数据，可以采用独热编码(One-Hot Encoding)来确定各预设类型对应的画像编码。

进一步地，在本说明书一个或多个实施例中，服务器还可以根据用户行为数据，对该用户的各行为进行编码，并根据该用户各行为的编码，确定各用户行为向量。然后将各用户行为向量作为输入，依次输入意图识别模型的第三分支网络，根据意图识别模型的第三分支网络的隐层特征，确定第三特征向量。此时，该意图识别模型的结构如图5所示。图5为本说明书提供的一种第三分支网络的结构示意图，如图可见，第三分支网络包括向量化网络层和融合网络层，将获取到的用户的各用户行为数据分别输入到向量化网络层后，可以得到各行为数据对应的各用户行为向量，将各行为向量依次输入到融合网络层，该融合网络层具体为循环神经网络(Recurrent Neural Network，RNN)，或者其变形网络如，长短期记忆网络(Long Short-Term Memory，LSTM)等等，则可将最后该融合网络层的隐层特征，作为第三特征向量。

其中，用户行为数据为在与该用户交互的过程之前，记录的该用户行为数据，例如该用户行为数据可以是记录该用户在交互前点击的该业务平台的某些页面标识数据、页面浏览时长等。在对该用户的各行为进行编码时，可以通过独热编码的方式来得到各用户行为向量，或者，也可以通过embedding方法对该用户的各行为进行编码，具体可根据需要设置，本说明书在此不做限制。

另外，在本说明书一个或多个实施例中，服务器还可以根据历史交互数据，确定与该用户交互过程中发送的各语音，并按照各语音的发送排序，确定目标语音，然后将该目标语音对应的文本数据作为输入，输入意图识别模型的第三分支网络，确定第三特征向量。其中，该历史交互数据是指在与该用户的当前交互过程中，在该语音数据之前产生的历史数据。此时，该意图识别模型的第三分支网络的结构如图6所示。图6为本说明书提供的一种第三分支网络的结构示意图，如图可见，第三分支网络包括文本化网络层以及向量化网络层。图6中根据历史交互数据确定第三特征向量的过程可以与步骤S102中，根据语音数据确定文本数据，并根据文本数据确定第二特征向量的过程类似。其中，该历史交互数据可以是智能客服在交互过程中向用户发送的最近一条语音，当然，也可以获取交互过程中的多条语音作为历史交互数据。当历史交互数据有多条时，可以通过与图5类似结构的第三分支网络，将多个历史交互数据转化成的各历史交互文本，按照各历史交互文本对应的各历史交互数据在该交互过程中的发送顺序，依次输入到RNN网络或者LSTM等网络中，并将该网络的隐层特征作为第三特征向量。

在本说明书一个或多个实施例中，还可以将上述三种数据进行任意组合，作为用户的关联数据，即用户的关联数据可以包括用户信息数据以及用户行为数据，也可以包括用户信息数据以及历史交互数据，也可以包括用户行为数据以及历史交互数据。当然，该用户的关联数据也可以包括用户信息数据、用户行为数据以及历史交互数据三种，此时，第三分支网络的结构如图7所示。

图7为本说明书提供的一种第三分支网络的结构示意图，如图可见，将用户信息数据、用户行为数据以及历史交互数据三种关联数据分别输入第三分支网络中的用户信息网络层、用户行为网络层、历史交互数据网络层后，分别得到综合画像向量、行为向量、历史交互向量，然后将得到的用户信息向量、综合画像向量、历史交互向量融合后得到总关联向量，之后，把该总关联向量输入到第三分支网络的融合网络层后，可根据融合网络层的输出确定第三特征向量。其中，用户信息网络层的结构与图4所示结构一致，用户行为网络层的结构与图5所示结构一致，历史交互数据网络层的结构与图6所示结构一致。

S106：将所述第一特征向量、所述第二特征向量以及所述第三特征向量进行融合，确定总特征向量，将所述总特征向量输入所述意图识别模型的中间分支网络，确定所述中间分支网络输出的用户意图向量。

在本说明书一个或多个实施例中，服务器在确定出第一特征向量、第二特征向量以及第三特征向量后，可以将各特征向量进行融合，得到总特征向量，然后将总特征向量输入意图识别模型的中间分支网络，确定该中间分支网络输出的用户意图向量。

S108：将所述用户意图向量输入所述意图识别模型的各输出分支网络，并根据各输出分支网络分别输出的各分类结果，确定所述用户的意图识别结果，所述用户的意图用于确定回复所述用户的语音信息，不同输出分支网络用于输出不同意图类型的分类结果。

在本说明书一个或多个实施例中，服务器在确定出用户意图向量后，可以将该用户意图向量输入到意图识别模型的各输出分支网络，并根据各输出分支网络分别输出的各分类结果，确定用户的意图识别结果。其中，各输出分支网络至少包括：用于输出用户情绪的输出分支网络、用于输出用户态度的输出分支网络以及输出用户是否肯定的输出分支网络中的两种，不同输出分支网络用于输出不同意图类型的分类结果。根据确定出的用户意图，服务器可以进一步确定回复该用户的语音信息。

需要说明的是，本说明书中的中间分支网络以及各输出分支网络的结构具体可以是多层感知机(Multilayer Perceptron，MLP)，也可以是全连接网络(Full ConnectedNetwork，FCN)，具体可根据需要设置，本说明书在此不做限制。

基于图1所示的语音意图识别方法，获取用户的语音数据，并确定其对应的文本数据，通过第一以及第二分支网络，分别确定第一以及第二特征向量。根据用户信息数据、用户行为数据以及历史交互数据中的至少一种，通过第三分支网络确定第三特征向量。将第一、第二以及第三特征向量进行融合得到的总特征向量，输入意图识别模型的中间分支网络，确定该中间分支网络输出的用户意图向量，将用户意图向量输入意图识别模型的各输出分支网络，得到各输出分支网络分别输出的各分类结果，并基于各分类结果确定用户的意图。

从上述方法中可以看出，本方法可根据用户的语音数据、文本数据以及关联数据，通过意图识别模型，确定各输出分支网络分别输出的不同意图类型的分类结果，以准确确定出该用户的真实意图，使基于该意图识别结果执行的业务效率更高。

另外，在本说明书一个或多个实施例中，在训练意图识别模型时，可以先获取历史上与不同用户交互过程产生的语音数据，并针对每段语音数据，确定对应该段语音数据的文本数据以及对应该段语音数据的用户的关联数据，然后将该语音数据以及该关联数据作为训练样本。之后，根据各交互过程的语音数据以及交互结果，确定各训练样本的样本标签，其中，该样本标签包含各输出分支网络对应的标签。进一步地，可以将该训练样本输入待训练的意图识别模型，得到待训练的意图识别模型的各输出分支网络的输出结果。更进一步地，可以根据得到的各输出分支网络的输出结果以及该样本标签对应的各输出分支网络的标签，确定各输出分支网络的输出结果对应的损失。最后，根据各输出分支网络的输出结果对应的损失确定总损失，以总损失最小为优化目标，调整待训练的意图识别模型中的参数。

确定总损失的公式为：

其中，N为意图识别模型中的输出分支网络的个数，C

以上为本说明书的一个或多个实施例提供的语音意图识别方法，基于同样的思路，本说明书还提供了相应的语音意图识别装置，如图8所示。

图8为本说明书提供的一种语音意图识别装置示意图，该装置包括：文本数据确定模块、特征向量第一确定模块、特征向量第二确定模块、用户意图向量确定模块、意图识别模块，其中：文本数据确定模块，用于获取用户的语音数据，根据所述语音数据，确定所述语音数据对应的文本数据；

可选地，所述特征向量第一确定模块201，用于去除所述语音数据中的无效数据，得到待识别数据，将确定出的待识别数据输入到意图识别模型的第一分支网络，确定第一特征向量。

可选地，所述特征向量第二确定模块202，根据所述用户的用户信息数据，确定该用户对应的各预设类型的用户信息数据，针对每个预设类型，对该类型的用户信息数据进行编码，确定画像编码，将各类型的画像编码，分别输入所述第三分支网络中各预设的类型对应的神经网络层，得到各画像编码对应的画像向量，将各画像编码对应的画像向量进行融合，确定综合画像向量，将所述综合画像向量作为输入，输入所述第三分支网络中的融合网络层，确定所述融合网络层的输出，作为所述第三特征向量。

可选地，所述特征向量第二确定模块202，根据所述用户行为数据，对所述用户的各行为进行编码，根据所述用户各行为的编码，确定各用户行为向量，将各用户行为向量作为输入，依次输入所述意图识别模型的第三分支网络，根据所述意图识别模型的第三分支网络的隐层特征，确定第三特征向量。

可选地，所述特征向量第二确定模块202，根据历史交互数据，确定与所述用户交互过程

中发送的各语音，按照各语音的发送排序，确定目标语音，将所述目标语音对应的文本数据作为输入，输入所述意图识别模型的第三分支网络，确定第三特征向量。

可选地，获取历史上与不同用户交互过程产生的语音数据，针对每段语音数据，确定对应该段语音数据的文本数据以及对应该段语音数据的用户的关联数据，将所述语音数据以及所述关联数据作为训练样本，根据各交互过程的语音数据以及交互结果，确定各训练样本的样本标签，所述样本标签包含各输出分支网络对应的标签，将所述训练样本输入待训练的意图识别模型，得到所述待训练的意图识别模型的各输出分支网络的输出结果，根据得到的各输出分支网络的输出结果以及所述样本标签对应的各输出分支网络的标签，确定各输出分支网络的输出结果对应的损失，根据各输出分支网络的输出结果对应的损失确定总损失，以总损失最小为优化目标，调整所述待训练的意图识别模型中的参数。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的语音意图识别方法。

本说明书还提供了图9所示的电子设备的示意结构图。如图9所示，在硬件层面，该电子设备包括处理器、内部总线、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1提供的语音意图识别方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李世杰;包梦蛟;陈欢;钱瑞峰;
专利申请人：北京三快在线科技有限公司;

上一篇：一种凸字体银行卡号图像的合成方法、识别方法及装置
下一篇：一种报送信息存储管理方法和系统