掌桥专利:专业的专利平台
掌桥专利
首页

意图识别方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:53:33


意图识别方法、装置、设备及存储介质

技术领域

本申请涉及意图识别技术领域,特别地涉及一种意图识别方法、装置、设备及存储介质。

背景技术

在现代人机交互领域,意图识别是一项重要任务。传统的意图识别方法主要基于单一模态数据,如语音或文本。然而,单一模态数据的使用可能无法充分捕捉用户的意图信息,在处理嘈杂环境和语音变化时识别的意图的准确性较差,丧失了实际应用的鲁棒性。

发明内容

针对上述问题,本申请提供一种意图识别方法、装置、设备及存储介质,能够提高意图识别的准确性。

本申请实施例提供一种意图识别方法,包括:

获取用户的语音数据和所述用户的口型数据;

基于所述语音数据和所述口型数据确定融合特征;

将所述融合特征输入至预先建立的神经网络模型中,确定所述用户的意图。

在一些实施例中,所述方法还包括:

获取样本数据集,所述样本数据集中的样本数据包括:样本语音数据、样本口型数据及样本语音数据、样本口型数据对应的标签;

基于所述样本数据集训练得到神经网络模型。

在一些实施例中,所述基于所述样本数据集训练得到神经网络模型,包括:

对所述样本语音数据进行特征提取得到各个样本语音数据中每个语音帧的样本语音特征信息;

对所述样本口型数据进行特征提取得到所述样本口型数据对应的样本口型特征;

将所述样本语音特征信息和所述样本口型特征进行融合得到样本融合特征;

基于所述样本融合特征和所述样本融合特征对应的标签进行训练得到所述神经网络模型。

在一些实施例中,所述对所述样本语音数据进行特征提取得到各个样本语音数据中每个语音帧的样本语音特征信息,包括:

对所述样本语音数据进行采样处理和滤波处理;

将采样处理和滤波处理后的样本语音数据分割为短时帧;

基于语音特征提取算法提取每个短时帧的样本语音特征信息,以得到所述样本语音数据中每个语音帧的样本语音特征信息。

在一些实施例中,所述将所述样本语音特征信息和所述样本口型特征进行融合得到样本融合特征,包括:

将所述样本语音特征信息和所述样本口型特征进行串联,得到样本融合特征;或,

基于每个时间步对所述样本语音特征信息和所述样本口型特征进行加权并求和,得到样本融合特征;或,

通过注意力模型将所述样本语音特征信息和所述样本口型特征进行融合,得到样本融合特征,其中,所述注意力模型能够调整样本语音特征信息对应的权重和样本口型特征对应的权重。

在一些实施例中,所述基于所述样本融合特征和所述样本融合特征对应的标签进行训练得到所述神经网络模型,包括:

构建初始神经网络模型;

将所述样本融合特征输入至初始神经网络模型中确定预测意图;

基于所述样本融合特征对应的标签和预测意图确定损失值;

基于所述损失值对所述初始神经网络模型的模型参数进行优化,得到所述神经网络模型。

在一些实施例中,所述神经网络模型包括:编码层、上下文聚合层、分类层,所述编码层用于对所述样本融合特征进行编码并生成隐藏状态,所述上下文聚合层用于基于时间步对所述隐藏状态进行聚合得到所述样本融合特征对应的上下文表示,所述分类层用于以所述上下文表示为输入通过全连接层和激活函数输出意图的概率分布。

本申请实施例提供一种意图识别装置,包括:

获取模块,用于获取用户的语音数据和所述用户的口型数据;

确定模块,用于基于所述语音数据和所述口型数据确定融合特征;

识别模块,用于将所述融合特征输入至预先建立的神经网络模型中,确定所述用户的意图。

本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如上述任意一项所述意图识别方法。

本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现上述所述意图识别方法。

本申请提供的一种意图识别方法、装置、设备及存储介质,通过获取用户的语音数据和所述用户的口型数据;基于所述语音数据和所述口型数据确定融合特征;将所述融合特征输入至预先建立的神经网络模型中,确定所述用户的意图,能够提高意图识别的准确性。

附图说明

在下文中将基于实施例并参考附图来对本申请进行更详细的描述。

图1为本申请实施例提供的一种意图识别方法的实现流程示意图;

图2为本申请实施例提供的一种意图识别方法的实现流程示意图;

图3为本申请实施例提供的电子设备的组成结构示意图。

在附图中,相同的部件使用相同的附图表记,附图并未按照实际的比例绘制。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一第二第三”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一第二第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一第二第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

基于相关技术中存在的问题,本申请实施例提供一种意图识别方法,所述方法的执行主体可以是电子设备,电子设备可以移动终端、计算机等,所述计算机可以是服务器,在一些实施例中,所述电子设备可以是移动终端、计算机的控制器。

本申请实施例提供的意图识别方法所实现的功能可以通过电子设备的处理器调用程序代码来实现,其中,程序代码可以保存在计算机存储介质中。

本申请实施例提供一种意图识别方法,图1为本申请实施例提供的一种意图识别方法的实现流程示意图,如图1所示,包括:

步骤S101,获取用户的语音数据和所述用户的口型数据。

本申请实施例中,所述语音数据可以是语音,所述口型数据可以是包括口型的图像,所述图像可以是图片或视频。

本申请实施例中,电子设备可以和语音采集设备通信连接,通过语音采集设备来获取用户的语音数据,所述语音采集设备可以包括:麦克风。所述通信连接可以包括:有线连接、无线连接等。

本申请实施例中,电子设备可以和图像采集设备通信连接,通过图像采集设备来获取用户的口型数据,所述图像采集设备可以包括:摄像头。所述通信连接可以包括:有线连接、无线连接等。

在一些实施例中,电子设备可以从网络中获取用户的语音数据和所述用户的口型数据。

在一些实施例中,用户可以通过输入设备来输入用户的语音数据和用户的口型数据,所述输入设备可以包括:存储设备,采集设备等。

步骤S102,基于所述语音数据和所述口型数据确定融合特征。

本申请实施例中,可以对所述语音数据进行采样处理和滤波处理;将采样处理和滤波处理后的语音数据分割为短时帧;基于语音特征提取算法提取每个短时帧的语音特征信息,以得到所述语音数据中每个语音帧的语音特征信息。然后,对所述口型数据进行特征提取得到所述口型数据对应的口型特征。

本申请实施例中,通过对语音数据进行采样处理和滤波处理,能够消除噪声和其他干扰。

本申请实施例中,语音特征提取算法可以包括:梅尔频率倒谱系数算法,过零率算法等。

本申请实施例中,对于口型数据,可以根据口型图像的特征提取需求,采取适当的预处理步骤,示例性地,对于口型视频,可以使用面部检测和跟踪算法来提取面部区域,并获取面部关键点的位置信息。对于图像数据,可以应用图像分割和特征提取算法来捕捉与口型相关的特征。确保提取的口型特征与意图识别任务相关,并具有一定的表征能力。

本申请实施例中,在确定了语音数据的语音特征信息、口型数据的口型特征后,可以将所述语音数据和所述口型数据进行融合,得到融合特征。

本申请实施例中,在进行融合时,可以采用串联方法、加权求和方法或采用注意力机制的方法。

本申请实施例中,将所述语音特征信息和所述口型特征进行串联,得到融合特征。

本申请实施例中,将所述语音特征信息和所述口型特征进行串联,可以得到一个更长的特征向量,通过将两种特征按一定的顺序连接,可以保留每种特征的信息,从而形成一个更丰富的融合特征。

在一些实施例中,可以基于每个时间步对所述语音特征信息和所述口型特征进行加权并求和,得到融合特征。

本申请实施例中,对于每个时间步,对语音特征信息和口型特征进行加权,然后将他们相加,得到融合特征,权重可以根据实际需要进行调整,以平衡语音特征信息和口型特征的权重。

在一些实施例中,还可以通过注意力模型将所述语音特征信息和所述口型特征进行融合,得到融合特征,其中,所述注意力模型能够调整样本语音特征信息对应的权重和样本口型特征对应的权重。

本申请实施例中,可以学习一组注意力权重来自适应调整融合的语音特征和口型特征,注意力权重可以根据输入数据的上下文和相关性自动调整,从而提高融合后特征的表达能力。

步骤S103,将所述融合特征输入至预先建立的神经网络模型中,确定所述用户的意图。

本申请实施例中,所述神经网络模型的输入为融合特征,所述神经网络模型的输出为用户的意图。

本申请实施例中,所述神经网络模型为循环神经网络模型。

本申请实施例提供的方法,通过获取用户的语音数据和所述用户的口型数据;基于所述语音数据和所述口型数据确定融合特征;将所述融合特征输入至预先建立的神经网络模型中,确定所述用户的意图,能够提高意图识别的准确性。

在一些实施例中,在步骤S101之前,所述方法还包括:

步骤S1,获取样本数据集,所述样本数据集中的样本数据包括:样本语音数据、样本口型数据及样本语音数据、样本口型数据对应的标签。

本申请实施例中,可以通过在实验环境中录制用户的语音和口型视频或图像来实现。确保数据集中包含正确的标签和对应的意图类别,以便用于训练和评估模型。

步骤S2,基于所述样本数据集训练得到神经网络模型。

本申请实施例中,步骤S2可以通过以下步骤实现:

步骤S21,对所述样本语音数据进行特征提取得到各个样本语音数据中每个语音帧的样本语音特征信息。

本申请实施例中,对所述样本语音数据进行采样处理和滤波处理;将采样处理和滤波处理后的样本语音数据分割为短时帧;基于语音特征提取算法提取每个短时帧的样本语音特征信息,以得到所述样本语音数据中每个语音帧的样本语音特征信息。

本申请实施例中,通过对样本语音数据进行采样处理和滤波处理,能够消除噪声和其他干扰。

本申请实施例中,语音特征提取算法可以包括:梅尔频率倒谱系数算法,过零率算法等。

步骤S22,对所述样本口型数据进行特征提取得到所述样本口型数据对应的样本口型特征。

本申请实施例中,对于样本口型数据,可以根据样本口型图像的特征提取需求,采取适当的预处理步骤,示例性地,对于样本口型视频,可以使用面部检测和跟踪算法来提取面部区域,并获取面部关键点的位置信息。对于样本图像数据,可以应用图像分割和特征提取算法来捕捉与口型相关的特征。确保提取的口型特征与意图识别任务相关,并具有一定的表征能力。

步骤S23,将所述样本语音特征信息和所述样本口型特征进行融合得到样本融合特征。

在一些实施例中,将所述样本语音特征信息和所述样本口型特征进行串联,得到样本融合特征。

本申请实施例中,将所述语音特征信息和所述口型特征进行串联,可以得到一个更长的特征向量,通过将两种特征按一定的顺序连接,可以保留每种特征的信息,从而形成一个更丰富的融合特征。

在一些实施例中,可以基于每个时间步对所述样本语音特征信息和所述样本口型特征进行加权并求和,得到样本融合特征。

本申请实施例中,对于每个时间步,对语音特征信息和口型特征进行加权,然后将他们相加,得到融合特征,权重可以根据实际需要进行调整,以平衡语音特征信息和口型特征的权重。

在一些实施例中,还可以基于每个时间步对所述语音特征信息和所述口型特征进行加权并求和,得到融合特征。

在一些实施例中,通过注意力模型将所述样本语音特征信息和所述样本口型特征进行融合,得到样本融合特征,其中,所述注意力模型能够调整样本语音特征信息对应的权重和样本口型特征对应的权重。

本申请实施例中,可以学习一组注意力权重来自适应调整融合的语音特征和口型特征,注意力权重可以根据输入数据的上下文和相关性自动调整,从而提高融合后特征的表达能力。

步骤S24,基于所述样本融合特征和所述样本融合特征对应的标签进行训练得到所述神经网络模型。

在一些实施例中,步骤S24可以通过以下步骤实现:

步骤S241,构建初始神经网络模型。

本申请实施例中,深度学习模型,用于训练和分类多模态意图识别任务。采用循环神经网络(RNN)作为基本模型结构。

步骤S242,将所述样本融合特征输入至初始神经网络模型中确定预测意图。

本申请实施例中,所述初始神经网络模型包括:编码层、上下文聚合层、分类层,所述编码层用于对所述样本融合特征进行编码并生成隐藏状态,所述上下文聚合层用于基于时间步对所述隐藏状态进行聚合得到所述样本融合特征对应的上下文表示,所述分类层用于以所述上下文表示为输入通过全连接层和激活函数输出意图的概率分布。

本申请实施例中,样本融合特征输入到编码层,编码层输出隐藏状态,上下文聚合层的输入为隐藏状态,输出为上下文表示,分类层的输入为上下文表示,输出为意图的概率分布。

步骤S243,基于所述样本融合特征对应的标签和预测意图确定损失值。

本申请实施例中,使用交叉熵损失函数来度量预测意图和样本融合特征对应的标签之间的差异。

步骤S244,基于所述损失值对所述初始神经网络模型的模型参数进行优化,得到所述神经网络模型。

本申请实施例中,可以使用优化算法(如随机梯度下降法)迭代地更新模型参数,使损失最小化。

本申请实施例中,使用多模态数据集进行模型的训练和调优。将数据集划分为训练集、验证集和测试集。在训练过程中,使用训练集进行模型参数的更新,并利用验证集进行模型选择和调整超参数。最后,使用测试集评估模型的性能,包括准确性、召回率、精确率等指标。

基于前述的各个实施例,本申请实施例在提供一种意图识别方法,所述方法利用语音数据和口型视频或图像的特征来推断用户的意图,通过融合不同模态数据的信息,提供更准确和全面的意图推断结果。

图2为本申请实施例提供的一种意图识别方法的实现流程示意图,如图2所示,包括:

1、数据采集和预处理:

首先,需要收集包含语音和口型信息的多模态数据集。这可以通过在实验环境中录制用户的语音和口型视频或图像来实现。确保数据集中包含正确的标签和对应的意图类别,以便用于训练和评估模型。

对于语音数据,进行采样和预处理步骤。例如,使用合适的麦克风设备进行语音录制,并将语音信号进行采样和滤波处理以消除噪声和其他干扰。然后,将语音信号分割为短时帧,并应用语音特征提取算法,如梅尔频率倒谱系数(MFCC)、过零率等,以获得每个语音帧的特征表示。

对于口型数据,根据口型视频或图像的特征提取需求,采取适当的预处理步骤。例如,对于视频数据,可以使用面部检测和跟踪算法来提取面部区域,并获取面部关键点的位置信息。对于图像数据,可以应用图像分割和特征提取算法来捕捉与口型相关的特征。确保提取的口型特征与意图识别任务相关,并具有一定的表征能力。

2、模态融合:

在该步骤中,将语音和口型的特征进行融合,以便在后续步骤中进行联合建模和分类。常见的融合方法包括串联、加权求和、注意力机制等。

一种常见的融合方法是将语音和口型特征串联起来,形成一个更长的特征向量。通过将两种特征按照一定的顺序连接,可以保留每种特征的信息,并形成一个更丰富的特征表示。

另一种常见的方法是加权求和。对于每个时间步,对语音和口型特征进行加权,然后将它们相加,得到融合后的特征表示。权重可以根据实际需求进行调整,以平衡两种模态的贡献。

还可以使用注意力机制,通过学习一组注意力权重来自适应地融合语音和口型特征。注意力权重可以根据输入数据的上下文和相关性自动调整,从而提高融合后特征的表达能力。

3、意图识别模型设计:

设计一个深度学习模型,用于训练和分类多模态意图识别任务。采用循环神经网络(RNN)作为基本模型结构,可以对序列数据进行建模。该模型包括以下步骤:

a.序列编码:将融合后的多模态特征输入到RNN中。可以使用双向RNN以捕捉前后文信息。RNN可以逐步处理输入序列并生成隐藏状态,将特征序列编码为固定维度的隐藏表示。

b.上下文聚合:通过将所有时间步的隐藏状态进行聚合,得到整个序列的上下文表示。可以采用平均池化、最大池化或注意力机制来获得上下文表示。

c.分类层:将上下文表示作为输入,通过全连接层和softmax激活函数进行意图分类。该层将对输入进行分类,并输出每个类别的概率分布。

d.损失函数和训练:使用交叉熵损失函数来度量预测结果和真实标签之间的差异。使用优化算法(如随机梯度下降法)迭代地更新模型参数,使损失最小化。

4、模型训练和评估:

使用多模态数据集进行模型的训练和调优。将数据集划分为训练集、验证集和测试集。在训练过程中,使用训练集进行模型参数的更新,并利用验证集进行模型选择和调整超参数。最后,使用测试集评估模型的性能,包括准确性、召回率、精确率等指标。

5、实时意图识别系统:

将训练好的模型部署到一个实时意图识别系统中。该系统可以接收实时的语音和口型输入,并使用模型进行意图识别。系统应具备高效、可扩展和实时性的特点,以便在实际应用中能够满足实时交互的要求。

本申请实施例提供的方法,利用语音信号和口型视频或图像的特征来推断用户的意图,通过融合不同模态数据的信息,提供更准确和全面的意图推断结果。

基于前述的实施例,本申请实施例提供一种意图识别装置,该装置包括的各模块、以及各模块包括的各单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU,Central ProcessingUnit)、微处理器(MPU,Microprocessor Unit)、数字信号处理器(DSP,Digital SignalProcessing)或现场可编程门阵列(FPGA,Field Programmable Gate Array)等。

本申请实施例提供一种意图识别装置,包括:

获取模块,用于获取用户的语音数据和所述用户的口型数据;

确定模块,用于基于所述语音数据和所述口型数据确定融合特征;

识别模块,用于将所述融合特征输入至预先建立的神经网络模型中,确定所述用户的意图。

在一些实施例中,所述意图识别装置还用于:

获取样本数据集,所述样本数据集中的样本数据包括:样本语音数据、样本口型数据及样本语音数据、样本口型数据对应的标签;

基于所述样本数据集训练得到神经网络模型。

在一些实施例中,所述基于所述样本数据集训练得到神经网络模型,包括:

对所述样本语音数据进行特征提取得到各个样本语音数据中每个语音帧的样本语音特征信息;

对所述样本口型数据进行特征提取得到所述样本口型数据对应的样本口型特征;

将所述样本语音特征信息和所述样本口型特征进行融合得到样本融合特征;

基于所述样本融合特征和所述样本融合特征对应的标签进行训练得到所述神经网络模型。

在一些实施例中,所述对所述样本语音数据进行特征提取得到各个样本语音数据中每个语音帧的样本语音特征信息,包括:

对所述样本语音数据进行采样处理和滤波处理;

将采样处理和滤波处理后的样本语音数据分割为短时帧;

基于语音特征提取算法提取每个短时帧的样本语音特征信息,以得到所述样本语音数据中每个语音帧的样本语音特征信息。

在一些实施例中,所述将所述样本语音特征信息和所述样本口型特征进行融合得到样本融合特征,包括:

将所述样本语音特征信息和所述样本口型特征进行串联,得到样本融合特征;或,

基于每个时间步对所述样本语音特征信息和所述样本口型特征进行加权并求和,得到样本融合特征;或,

通过注意力模型将所述样本语音特征信息和所述样本口型特征进行融合,得到样本融合特征,其中,所述注意力模型能够调整样本语音特征信息对应的权重和样本口型特征对应的权重。

在一些实施例中,所述基于所述样本融合特征和所述样本融合特征对应的标签进行训练得到所述神经网络模型,包括:

构建初始神经网络模型;

将所述样本融合特征输入至初始神经网络模型中确定预测意图;

基于所述样本融合特征对应的标签和预测意图确定损失值;

基于所述损失值对所述初始神经网络模型的模型参数进行优化,得到所述神经网络模型。

在一些实施例中,所述神经网络模型包括:编码层、上下文聚合层、分类层,所述编码层用于对所述样本融合特征进行编码并生成隐藏状态,所述上下文聚合层用于基于时间步对所述隐藏状态进行聚合得到所述样本融合特征对应的上下文表示,所述分类层用于以所述上下文表示为输入通过全连接层和激活函数输出意图的概率分布。

需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的意图识别方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,ReadOnly Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。

相应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现上述实施例中提供的意图识别方法中的步骤。

本申请实施例提供一种电子设备;图3为本申请实施例提供的电子设备的组成结构示意图,如图3所示,所述电子设备500包括:一个处理器501、至少一个通信总线502、用户接口503、至少一个外部通信接口504、存储器505。其中,通信总线502配置为实现这些组件之间的连接通信。其中,用户接口503可以包括控制屏,外部通信接口504可以包括标准的有线接口和无线接口。所述处理器501配置为执行存储器中存储的意图识别方法的程序,以实现以上述实施例提供的意图识别方法中的步骤。其中,意图识别方法,包括:

获取用户的语音数据和所述用户的口型数据;

基于所述语音数据和所述口型数据确定融合特征;

将所述融合特征输入至预先建立的神经网络模型中,确定所述用户的意图。

在一些实施例中,所述方法还包括:

获取样本数据集,所述样本数据集中的样本数据包括:样本语音数据、样本口型数据及样本语音数据、样本口型数据对应的标签;

基于所述样本数据集训练得到神经网络模型。

在一些实施例中,所述基于所述样本数据集训练得到神经网络模型,包括:

对所述样本语音数据进行特征提取得到各个样本语音数据中每个语音帧的样本语音特征信息;

对所述样本口型数据进行特征提取得到所述样本口型数据对应的样本口型特征;

将所述样本语音特征信息和所述样本口型特征进行融合得到样本融合特征;

基于所述样本融合特征和所述样本融合特征对应的标签进行训练得到所述神经网络模型。

在一些实施例中,所述对所述样本语音数据进行特征提取得到各个样本语音数据中每个语音帧的样本语音特征信息,包括:

对所述样本语音数据进行采样处理和滤波处理;

将采样处理和滤波处理后的样本语音数据分割为短时帧;

基于语音特征提取算法提取每个短时帧的样本语音特征信息,以得到所述样本语音数据中每个语音帧的样本语音特征信息。

在一些实施例中,所述将所述样本语音特征信息和所述样本口型特征进行融合得到样本融合特征,包括:

将所述样本语音特征信息和所述样本口型特征进行串联,得到样本融合特征;或,

基于每个时间步对所述样本语音特征信息和所述样本口型特征进行加权并求和,得到样本融合特征;或,

通过注意力模型将所述样本语音特征信息和所述样本口型特征进行融合,得到样本融合特征,其中,所述注意力模型能够调整样本语音特征信息对应的权重和样本口型特征对应的权重。

在一些实施例中,所述基于所述样本融合特征和所述样本融合特征对应的标签进行训练得到所述神经网络模型,包括:

构建初始神经网络模型;

将所述样本融合特征输入至初始神经网络模型中确定预测意图;

基于所述样本融合特征对应的标签和预测意图确定损失值;

基于所述损失值对所述初始神经网络模型的模型参数进行优化,得到所述神经网络模型。

在一些实施例中,所述神经网络模型包括:编码层、上下文聚合层、分类层,所述编码层用于对所述样本融合特征进行编码并生成隐藏状态,所述上下文聚合层用于基于时间步对所述隐藏状态进行聚合得到所述样本融合特征对应的上下文表示,所述分类层用于以所述上下文表示为输入通过全连接层和激活函数输出意图的概率分布。

这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。

应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所控制或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元控制的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台控制器执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

技术分类

06120116337367