掌桥专利:专业的专利平台
掌桥专利
首页

一种意图识别模型的确定方法、装置、设备及介质

文献发布时间:2024-07-23 01:35:21


一种意图识别模型的确定方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种意图识别模型的确定方法、装置、设备及介质。

背景技术

意图识别是面向任务的对话系统中的一个重要部分,随着数字时代的来临,对话系统以不同的方式被引入到日常生活中,具有多个维度的应用价值。意图识别(检测)可以从一系列预先定义好的类别集合中自动检测用户所提问题所属的类别(即意图),并将其转移到人工客服来处理和意图相关的事务。

在相关技术的人机交互应用场景中,当可用的训练数据集较小,而无法采用依赖于大规模的经过标注的数据集的神经网络方法时,无法进行意图识别或者意图识别的结果不准确,导致人机对话无法流畅地进行,用户体验较差。

发明内容

本发明提供了一种意图识别模型的确定方法、装置、设备及介质,可以实现基于有限数据集就可高效、快速地确定语音意图识别结果,有助于人机对话更加流畅地进行,提升用户的通话体验。

根据本发明的一方面,提供了一种意图识别模型的确定方法,该方法包括:

确定至少一个语音数据,根据所述语音数据确定语音文本数据;所述语音文本数据包括至少一个中文字符;所述语音数据的数量小于预设阈值;

对所述语音文本数据进行处理得到所述语音数据的汉字部件序列集合;

对所述汉字部件序列集合进行处理得到所述语音数据的部件特征向量;

将各所述部件特征向量输入至预设的机器学习分类算法中确定意图识别模型,以使所述意图识别模型根据语音输入数据确定意图识别结果。

根据本发明的另一方面,提供了一种意图识别模型的确定装置,该装置包括:

语音文本数据确定模块,用于确定至少一个语音数据,根据所述语音数据确定语音文本数据;所述语音文本数据包括至少一个中文字符;所述语音数据的数量小于预设阈值;

第一处理模块,用于对所述语音文本数据进行处理得到所述语音数据的汉字部件序列集合;

第二处理模块,用于对所述汉字部件序列集合进行处理得到所述语音数据的部件特征向量;

意图识别结果确定模块,用于将各所述部件特征向量输入至预设的机器学习分类算法中确定意图识别模型,以使所述意图识别模型根据语音输入数据确定意图识别结果。

根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的意图识别模型的确定方法。

根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的意图识别模型的确定方法。

本发明实施例的技术方案,确定至少一个语音数据,根据语音数据确定语音文本数据;语音文本数据包括至少一个中文字符;语音数据的数量小于预设阈值;对语音文本数据进行处理得到语音数据的汉字部件序列集合;对汉字部件序列集合进行处理得到语音数据的部件特征向量;将各部件特征向量输入至预设的机器学习分类算法中确定意图识别模型,以使意图识别模型根据语音输入数据确定意图识别结果。通过执行本发明实施例提供的方案,可以实现无需通过大数据集训练得到的深度神经网络就可高效、快速地确定意图识别结果,有助于人机对话更加流畅地进行,提升用户的通话体验。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种意图识别模型的确定方法的流程图;

图2是本发明实施例提供的一种意图识别模型的确定装置的结构示意图;

图3是实现本发明实施例的意图识别模型的确定方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、适用范围以及使用场景等告知用户并获得用户的授权。

为了对用户意图进行分类,对话系统需要分析用户输入的消息。消息被称为话语(utterances)或言语行为(speech acts)。在人机交互场景下,它们可视为经由语音识别后所产生的文本,大致为一个句子的长度,也可简称为语句。意图分类功能的设定是基于每个语句的,而每个语句是可以包含多个意图类别。本方案所提出的意图识别模型的确定方法,是基于每句用户的语音数据,只属于一个类别的场景。本方案所提出的意图识别模型的确定方法是由数量有限的用户语音数据的特征向量表达模型和所选定的机器学习分类算法组合而成。

在意图分类中,给定一句用户的语音输入数据u∈U(U为整个对话系统中的用户的语音输入数据空间),一个预先定义的、具有固定大小的意图集合M={m

本方案所提出的语义哈希模型,首先对一段中文文本进行分解,提取字符及字符构字部件(如部首、偏旁、笔划),形成中文字符组件序列,然后将中文字符组件序列,转换为数字化特征向量。最后,可将所转换的数字化特征向量,作为基于特征工程的机器学习分类算法的输入,形成具有语义的意图识别模型。本方案所提出的语义哈希模型,可看作是一种特征化和向量化的方法,可作为词嵌入向量的一种替代方法,其核心是如何将中文文本转换为具有语义表达的特征向量。

图1是本发明实施例提供的意图识别模型的确定方法的流程图,本实施例可适用于人机交互对话中对用户的语音输入数据进行意图识别的情况,该方法可以由意图识别模型的确定装置来执行,该意图识别模型的确定装置可以采用硬件和/或软件的形式实现,该意图识别模型的确定装置可配置于用于意图识别模型的确定的电子设备中。如图1所示,该方法包括:

S110:确定至少一个语音数据,根据所述语音数据确定语音文本数据。

其中,所述语音文本数据包括至少一个中文字符;所述语音数据的数量小于预设阈值。

示例性的,预设阈值可以根据实际需要设置。本方案可以对有限训练数据集中的语音数据进行语音识别得到语音数据对应的语音文本数据,实现语音信号到文本数据的转化。语音数据应该为中文,语音文本数据应该由至少一个中文字符组成。

S120:对所述语音文本数据进行处理得到所述语音数据的汉字部件序列集合。

其中,汉字部件序列可以包括部首、偏旁、笔划等汉字构字部件。通过对语音文本数据进行处理得到语音数据的汉字部件序列集合,可以实现对语音文本数据进行汉字拆分,为后续语音输入数据的意图识别的准确性提供了可靠的数据基础。

在本实施例中,可选的,对所述语音文本数据进行处理得到所述语音数据的汉字部件序列集合,包括:对所述语音文本数据进行字符切分得到至少一个中文字符;依序对各所述中文字符分别进行汉字拆分得到所述语音文本数据的汉字部件序列集合。

示例性的,假设语音文本数据T包含m个中文词,即T={w1,w2,…,wm},其中每个词wi(1≤i≤m)是独立存在的,并由数个中文字符组成:wi={c1,c2,…ck,…,cn}。同时,对每个中文字符ck,通过查询新华字典,也可继续被分解为由部首、偏旁和笔划所组成的构字部件集,即ck={r1,r2,…rt,…,rs},其中,rt可表示为经由中文字符分解所形成的构字部件(部首、偏旁、笔划组合)。例如,对于语音文本数据“哦,我们对这个不感兴趣。”,本方案可以先对语音文本数据“哦,我们对这个不感兴趣。”进行字符切分得到至少一个中文字符,然后按照偏旁部首字根依序对各个中文字符进行汉字拆解,其结果为含有中文字符部件的列表{口我,手戈人門业羊寸辶言人固一丿丨丶咸心臼同大走取。},即语音文本数据“哦,我们对这个不感兴趣。”的汉字部件序列集合。可以实现对语音文本数据进行汉字拆分,为后续语音输入数据的意图识别的准确性提供了可靠的数据基础。

S130:对所述汉字部件序列集合进行处理得到所述语音数据的部件特征向量。

其中,部件特征向量为数字特征向量,可以用于对语音文本数据的语义特征进行表征。

在本实施例中,可选的,对所述汉字部件序列集合进行处理得到所述语音数据的部件特征向量,包括:对所述汉字部件序列集合进行处理得到所述语音数据的文本特征向量;对所述文本特征向量进行处理得到所述语音数据的部件特征向量。

其中,本方案在确定语音数据的汉字部件序列集合之后,还需要对汉字部件序列集合进行处理得到语音数据的文本特征向量。由于文本特征向量仍然为文本形式,无法被机器识别,本方案在得到文本特征向量之后,还可以对文本特征向量进行处理,得到文本特征向量的数字化表示,即部件特征向量。为后续语音输入数据的意图准确性识别提供了可靠的数据基础。

在一个可行的实施方式中,可选的,对所述汉字部件序列集合进行处理得到所述语音数据的文本特征向量,包括:按照预设长度的移动窗口对所述汉字部件序列集合依次进行部件提取得到所述文本特征向量。

示例性的,本方案可以对汉字部件序列集合按照预设长度的移动窗口依次进行部件提取得到语音数据的文本特征向量,预设长度可以根据实际需要进行设置,例如预设长度可以为3。例如对于汉字部件序列集合{#口我,手戈人門业羊寸辶言人固一丿丨丶咸心臼同大走取。#},应用大小为3的移动窗口提取字符,那么语音数据的文本特征向量可表达为{‘#口我’,‘口我,’,‘我,手’,‘,手戈’,‘手戈人’,‘戈人門’,‘人門业’,‘門业羊’,…,‘臼同大’,‘同大走’,‘大走取’,‘走取。’,‘取。#’}。

在另一个可行的实施方式中,可选的,对所述文本特征向量进行处理得到所述语音数据的部件特征向量,包括:基于文档词频-反向文档频率算法对所述文本特征向量进行处理得到所述部件特征向量。

其中,文档词频-反向文档频率算法可以是在所构建的文本特征向量中,每个token的数值是由token频率(token frequency,简写为tf)和反向文档频率(inversedocument frequency,简写为idf)相乘而来:

tf-idf(t,d)=tf(t,d)×idf(t)

其中,n为整个语料库所含有的文档数目(这里特指句子数目,每个句子被视为一个文档d),df(t)则为语料库中含有token t的文档数目。文本特征向量经过Euclideannorm进行规范化后得到部件特征向量FV。可以实现文本向量数据到数字向量数据的转换,为后续步骤提供了可靠的数据来源。

在又一个可行的实施方式中,可选的,对所述文本特征向量进行处理得到所述语音数据的部件特征向量,包括:基于特征哈希算法对所述文本特征向量进行处理得到所述部件特征向量。

其中,本方案可以对于文本特征向量应用哈希函数(hash function)进行哈希计算得到的特征向量(即:用哈希函数值作为文本特征向量中每个token的数值),作为文本特征向量的语义表达向量,即部件特征向量。特征哈希方法可视作语义哈希模型的一种变体。可以实现文本向量到数字向量的转换,为后续步骤提供了可靠的数据来源。

S140:将各所述部件特征向量输入至预设的机器学习分类算法中确定意图识别模型,以使所述意图识别模型根据语音输入数据确定意图识别结果。

示例性的,机器学习分类算法可以根据实际场景需要进行设置,例如机器学习分类算法可以是SVM(支持向量机)算法、LR(逻辑回归)算法、K-nearest Neighbors(KNN)算法、LightGBM2算法中的一种。本方案在得到有限训练数据集中各语音数据的部件特征向量之后,可以将部件特征向量输入至预设的机器学习分类算法中进行训练,得到意图识别模型,意图识别模型可以对用户的语音输入数据进行意图识别得到语音输入数据的意图识别结果。

其中,语音输入数据为预先经过处理的对用户的待识别语音数据进行处理得到对应的语音文本数据,然后根据语音文本数据得到的待识别语音数据的汉字部件序列集合。

在又一个可行的实施方式中,可选的,在对所述语音文本数据进行字符切分得到至少一个中文字符之后,所述方法还包括:对各所述中文字符进行向量化处理得到所述语音数据的字符特征向量;将各所述部件特征向量输入至预设的机器学习分类算法中确定意图识别模型,包括:将所述字符特征向量与所述部件特征向量进行拼接得到所述语音数据的目标特征向量;将各所述目标特征向量输入至预设的机器学习分类算法中确定意图识别模型。

具体的,本方案还可以对有限训练数据集中的语音文本数据进行字符切分得到中文字符序列集合,按照预设窗口依次对中文字符序列集合进行字符提取得到语音数据的文本向量。然后对语音数据的文本向量进行向量化处理得到语音数据的字符特征向量。然后将前述步骤中确定的部件特征向量与字符特征向量进行拼接得到语音数据的目标特征向量。将各目标特征向量输入到预设的机器学习分类算法中确定意图识别模型。或者,本方案还可以将字符特征向量与前述步骤中确定的部件特征向量进行拼接得到语音数据的拼接向量,将各语音数据的拼接向量输入到预设的机器学习分类算法中确定意图识别模型。向量化处理可以包括特征哈希算法或者文档词频-反向文档频率算法。可以使语音输入数据的意图识别结果更加准确。

本方案可以从三个不同应用领域的对话交互数据,验证本方案对于意图识别任务的有效性。下述评测实验从不同角度,证明了本方案的正确性、有效性、稳定性和多样性。特别是对于需要大量标注数据的基于神经网络的意图识别模型的确定方法而言,在实际应用场景中,很难满足其适用条件的情形下,本方案的意图识别模型的确定方法是一种良好的替代选择。因本方案所提出的意图识别模型的可快速训练的特性,特别适于需要实时处理的对话服务。

(1)实验设置

在下述实施例中的所有分类评测均是基于十折交叉验证而得到的结果。在评测实验中,将经典文本特征表达模型(即基于词袋的tf-idf模型)表示为:‘bow+tf-idf’,作为基线版(baseline),和应用本方案所生成的文本特征表达向量,对意图识别任务的性能进行比较。当所用文本单元的粒度不同(字符或字符分解部件),其所转换的文本特征向量可分别表示如下:

1)应用本方案所提出的语义哈希模型对中文字符进行哈希编码:当移动窗口的大小为1时,所生成的文本特征向量模型(即字符特征向量)可表示为‘cchar-s1fh’;当移动窗口的大小为2时,所表达的文本特征向量模型(即字符特征向量)为‘cchar-s2fh’。

2)应用本方案所提出的语义哈希模型对经由中文字符拆解后所形成的构字部件进行哈希编码:当移动窗口的大小为1时,所表达的文本特征向量模型(即部件特征向量)为‘cchar-comp-s1fh’;当移动窗口的大小为2时,所表达的文本特征向量模型(即部件特征向量)为‘cchar-comp-s2fh’。哈希编码所采用的哈希函数为MurmurHash3。

3)应用本方案所提出的语义哈希模型对中文字符进行tf-idf编码时:当移动窗口的大小为1时,所生成的文本特征向量模型(即字符特征向量)可表示为‘cchar-s1+tf-idf’;当移动窗口的大小为2时,所生成的文本特征向量模型(即字符特征向量)可表示为‘cchar-s2+tf-idf’。

4)应用本方案所提出的语义哈希模型对经由中文字符拆解所形成的构字部件进行tf-idf编码:当移动窗口的大小为1时,所表达的文本特征向量模型(即部件特征向量)为:‘cchar-comp-s1+tf-idf’;当移动窗口的大小为2时,所表达的文本特征向量模型(即部件特征向量)为:‘cchar-comp-s2+tf-idf’。

评测实验中所选用的机器学习分类算法,包括:SVM(支持向量机)算法、LR(逻辑回归)算法、K-nearest Neighbors(KNN)算法以及LightGBM2算法。

(2)评测指标

分类评测使用以下所定义的评测指标,计算其识别结果,用以评测和比较本方案所提出的语义哈希模型,在意图识别任务中的性能。

在分类评测实验中,对每个意图类别,分别计算其Precision、Recall、F-score(F1),然后取其平均数作为评测结果。其中,对于任一意图类别i,其Precision、Recall及F-score(F1)的计算方法可以参考相关技术。

(3)呼叫中心电话交互数据应用场景

本样本实验的应用场景来自于某地电话呼叫中心所提供的用户和话务员之间的电话交互数据。在每一轮用户和话务员的语音交互过程中,系统会将用户的语音输入数据经由语音识别转为语音文本数据,并对语音文本数据所含有的意图进行分类,根据所识别的分类标签,导向不同的客服处理单元。该数据集包含有35925条用户查询语句(query),隶属于4类意图,其数据分布如表1所示:

表1

将本方案所提出的语义哈希模型应用于电话交互数据,生成相应的基于字符的文本特征向量模型:“cchar-s1+tf-idf”、“cchar-s2+tf-idf”,基于字符拆解的文本特征向量模型:“cchar-comp-s1+tf-idf”、“cchar-comp-s2+tf-idf”,并应用基线版于电话交互数据生成相应的特征向量模型:“bow+tf-idf”,分别将他们输入不同的机器学习分类算法模型,对分类结果进行比较,其结果可分别由表2、3、4所示,其中,表2表示根据电话交互数据集形成的不同文本特征向量模型与SVM相结合的意图识别结果;表3表示根据电话交互数据集形成的不同文本特征向量模型与LR相结合的意图识别结果;表4表示根据电话交互数据集形成的不同文本特征向量模型与LightGBM相结合的意图识别结果。

表2

表3

表4

从表2–表4中可明显看出,基于汉字字符或汉字字符拆解所得到的语义哈希模型,其分类性能要明显优于基线版,同时也从意图识别角度,验证了本方案所提出的语义哈希模型的有效性和健壮性。

(4)智能音箱对话交互数据应用场景

其数据来自SMP2017-中文人机对话技术评测任务1(用户意图领域分类),其中包括闲聊和垂直领域两大类,垂直领域又细分为30个子领域,共计31个类别。该数据集包含有3736条用户查询语句(query),分别属于31类意图,其数据分布,智能音箱对话交互数据集的样本分布如表5所示:

表5

将本方案所提出的语义哈希模型应用于智能音箱对话交互数据集,所得到的基于字符的文本特征向量模型:cchar-s1+tf-idf、cchar-s2+tf-idf,基于字符分解组件的文本特征向量模型:cchar-comp-s1+tf-idf、cchar-comp-s2+tf-idf;应用基线模型于前述数据集所得到的文本特征向量模型:bow+tf-idf。应用不同的机器学习分类算法于前述所得的各类特征向量模型,其分类结果可如表6-8所示。其中,表6表示根据智能音箱对话交互数据集得到的不同文本特征向量模型与SVM结合的意图识别结果;表7表示根据智能音箱对话交互数据集得到的不同文本特征向量模型与LR结合的意图识别结果;表8表示根据智能音箱对话交互数据集得到的不同文本特征向量模型与LightGBM结合的意图识别结果。

表6

表7

表8

对于智能音箱交互数据来讲,所有算法模型的性能都达到可应用的程度。其中,所有基于汉字字符和汉字字符拆解的文本特征向量模型生成的意图识别模型,其分类性能都要优于基线版本;而基于汉字字符的文本特征向量模型对于不同机器学习算法的适应性要优于基于汉字字符拆解的语义哈希算法模型。同时,这也说明了在不同的应用场景下,本方案所提出的语义哈希模型对于意图识别的性能提升,仍然表现优异,其有效性得到了进一步验证。

(5)手机助手交互应用场景

本实验所应用的场景为手机助手交互,其数据来自NLPCC2018口语理解评测任务数据集,是基于一个商用的任务型对话系统的线上数据,由三个领域组成:music、navigation、phone_call(其余的标注为others)。该数据集包含有14459条用户查询语句(query),共有6类意图,其分布如表9表示:

表9

将本方案所提出的语义哈希模型应用于NLPCC2018数据集,所产生的文本特征向量模型:cchar-s1+tf-idf、cchar-s2+tf-idf、cchar-comp-s1+tf-idf、cchar-comp-s2+tf-idf,与基线模型应用于NLPCC2018数据集所产生的文本特征向量模型(bow+tf-idf),输入不同的机器学习分类算法模型而得到的意图识别模型的分类结果,分别如表10、11、12所示。其中,表10表示根据手机助手交互数据形成不同文本特征向量模型与SVM结合的意图识别结果;表11表示根据手机助手交互数据形成不同文本特征向量模型与LR结合的意图识别结果;表12表示根据手机助手交互数据形成不同文本特征向量模型与LightGBM结合的意图识别结果。

表10

表11

表12

对于手机助手交互数据而言,基于汉字字符和汉字字符拆解的语义哈希模型仍然在分类性能方面要优于经典的基线版本,然而,基于汉字字符的语义哈希模型要强于基于汉字字符拆解的语义哈希模型。

(6)基于字符和字符分解组件的哈希特征向量的拼接

本实施例在电话语音交互场景中,首先对应用本方案所提出的语义哈希模型生成的基于字符的文本特征向量模型:“cchar-s2fh”,和基于字符分解组件的文本特征向量模型:“cchar-comp-s2fh”,进行直接拼接,表示为:“cchar-s2fh+cchar-comp-s2fh”,然后应用不同的机器学习分类算法:KNN、LightGBM、SVM进行训练得到意图识别模型,进行意图识别得到的分类结果。通过分类结果可知,本方案所提出的基于字符的哈希特征向量模型,应用3种不同的分类算法,其分类性能均要优于经典文本特征生成的方法。而由本方案所提出的基于字符的特征哈希向量和基于字符分解组件的特征哈希向量,拼接而成的组合特征向量模型,在不同分类算法下,其分类性能还要优于基于字符的哈希特征向量方法。这也说明了基于字符及字符分解组件拼接而成的特征哈希向量,含有一定的语义信息,比单独只计算词频的词袋模型,更加有利于区分内在语义不同、而表达形式相近的话语,这对于口语化形式占比较重的客服电话数据尤为重要。

(7)基于数据增强的语义哈希算法

本实施例验证在利用数据增强技术,扩展前述步骤中所用的电话交互数据集规模的条件下,本方案所提出的语义哈希模型,在意图识别任务上的性能表现是否要优于不附加数据增强技术的情形。本实施例所采用的数据增强技术包括:同义词替换、随机插入、随机交换、随机删除、回译法(Back Translation)。本方案将LightGBM分类算法应用于本方案所提出的语义哈希模型所生成的特征向量,与基线版模型所生成的特征向量进行分类性能的比较。在前述任一种数据增强技术的加持下,所有基于LightGBM的意图分类结果都得到了提高,基于5种数据增强技术,应用不同特征向量表达法的LightGBM分类结果比较如表13所示:

表13

由表13可知,经过数据增强后,将汉字字符的哈希编码和汉字字符分解部件的哈希编码相结合的特征向量生成方法(表中最后一行),取得了比其他方法都要好的分类效果,特别是表中后四种基于本方案所提出的语义哈希模型而生成的特征向量方法,其分类效果显著优于经典特征向量生成的方法。这也从另一角度说明了本方案所提出的语义哈希模型,不仅适用于小规模数据,同时也适用于经过数据扩展(增强)后的较大规模数据。

另外,将汉字字符的哈希编码和汉字字符分解组件的哈希编码进行拼接,可以融合汉字自身所蕴含的信息,以及构字部件所带有的语义信息,丰富了短文本的语义表示,对口语化短文本意图识别任务效果的提升具有帮助,并且哈希编码速度快,适合在线运行。

本发明实施例的技术方案,确定至少一个语音数据,根据语音数据确定语音文本数据;语音文本数据包括至少一个中文字符;语音数据的数量小于预设阈值;对语音文本数据进行处理得到语音数据的汉字部件序列集合;对汉字部件序列集合进行处理得到语音数据的部件特征向量;将各部件特征向量输入至预设的机器学习分类算法中确定意图识别模型,以使意图识别模型根据语音输入数据确定意图识别结果。通过执行本发明实施例提供的方案,可以实现无需通过大数据集训练得到的深度神经网络就可高效、快速地确定意图识别结果,有助于人机对话更加流畅地进行,提升用户的通话体验。

图2是本发明实施例提供的意图识别模型的确定装置的结构示意图。如图2所示,该装置包括:

语音文本数据确定模块210,用于确定至少一个语音数据,根据所述语音数据确定语音文本数据;所述语音文本数据包括至少一个中文字符;所述语音数据的数量小于预设阈值;

第一处理模块220,用于对所述语音文本数据进行处理得到所述语音输数据的汉字部件序列集合;

第二处理模块230,用于对所述汉字部件序列集合进行处理得到所述语音数据的部件特征向量;

意图识别结果确定模块240,用于将各所述部件特征向量输入至预设的机器学习分类算法中确定意图识别模型,以使所述意图识别模型根据语音输入数据确定意图识别结果。

可选的,第一处理模块220,具体用于对所述语音文本数据进行字符切分得到至少一个中文字符;依序对各所述中文字符分别进行汉字拆分得到所述语音文本数据的汉字部件序列集合。

可选的,所述装置还包括字符特征向量确定模块,用于在对所述语音文本数据进行字符切分得到至少一个中文字符之后,对各所述中文字符进行向量化处理得到所述语音数据的字符特征向量;意图识别结果确定模块240,具体用于将所述字符特征向量与所述数字特征向量进行拼接得到所述语音数据的目标特征向量;将各所述目标特征向量输入至预设的机器学习分类算法中确定意图识别模型。

可选的,第二处理模块230,包括文本特征向量确定单元,用于对所述汉字部件序列集合进行处理得到所述语音数据的文本特征向量;部件特征向量确定单元,用于对所述文本特征向量进行处理得到所述语音数据的部件特征向量。

可选的,文本特征向量确定单元,具体用于按照预设长度的移动窗口对所述汉字部件序列集合依次进行部件提取得到所述文本特征向量。

可选的,部件特征向量确定单元,具体用于基于文档词频-反向文档频率算法对所述第文本特征向量进行处理得到所述部件特征向量。

可选的,部件特征向量确定单元,具体用于基于特征哈希算法对所述文本特征向量进行处理得到所述部件特征向量。

本发明实施例所提供的意图识别模型的确定装置可执行本发明任意实施例所提供的意图识别模型的确定方法,具备执行方法相应的功能模块和有益效果。

图3示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图3所示,电子设备40包括至少一个处理器41,以及与至少一个处理器41通信连接的存储器,如只读存储器(ROM)42、随机访问存储器(RAM)43等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序,来执行各种适当的动作和处理。在RAM 43中,还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。

电子设备40中的多个部件连接至I/O接口45,包括:输入单元46,例如键盘、鼠标等;输出单元47,例如各种类型的显示器、扬声器等;存储单元48,例如磁盘、光盘等;以及通信单元49,例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理,例如意图识别模型的确定方法。

在一些实施例中,意图识别模型的确定方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元48。在一些实施例中,计算机程序的部分或者全部可以经由ROM 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时,可以执行上文描述的意图识别模型的确定方法的一个或多个步骤。备选地,在其他实施例中,处理器41可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行意图识别模型的确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与对象的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向对象显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),对象可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与对象的交互;例如,提供给对象的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自对象的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形对象界面或者网络浏览器的对象计算机,对象可以通过该图形对象界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括用户端和服务器。用户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有用户端-服务器关系的计算机程序来产生用户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 一种音频设备的确定方法、装置、设备和存储介质
  • 文字识别模型建立及文字识别方法、装置、介质及设备
  • 水印识别模型建立及识别方法、装置、介质及电子设备
  • 实体标注方法、意图识别方法及对应装置、计算机存储介质
  • 一种问卷调查对象确定方法、装置、电子设备和存储介质
  • 意图类别识别模型的确定方法、装置、设备和存储介质
  • 意图识别模型的超参数确定方法、装置、设备及存储介质
技术分类

06120116679061