掌桥专利:专业的专利平台
掌桥专利
首页

语料泛化方法及用于工业领域的人机对话情感分析方法

文献发布时间:2023-06-19 11:08:20


语料泛化方法及用于工业领域的人机对话情感分析方法

技术领域

本发明涉及数据处理技术领域,尤其涉及一种语料泛化方法及用于工业领域的人机对话情感分析方法。

背景技术

在工业等相关专业领域中实现人机交互、聊天对话等功能需要大量的语料数据作为支撑进行模型训练和效果评估,而这些场景往往很难积累相关的语料。因此,需要进行语料泛化,以增加用于模型训练和效果评估的语料。

语料泛化是指将某个特定的句子,扩展为具有相同含义或者类似场景中的一类句子,目前,通常采用人工定义固定应用场景的句式模板的方式进行语料泛化。这种通过人工定义句式模板的方式对应用场景和效果都会有很大的局限性。

发明内容

本发明提供一种语料泛化方法及用于工业领域的人机对话情感分析方法,用以解决现有技术中通过人工定义句式模板进行语料泛化具有很大局限性的缺陷,实现工业领域的人机对话中的语料泛化。

本发明提供一种语料泛化方法,包括:

获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;

对所述初始文本语料和/或所述第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;

对所述初始文本语料、所述第一类文本语料以及所述第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对所述至少一项进行句式变换,得到第三类文本语料;

基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化。

根据本发明提供一种的语料泛化方法,所述对所述初始文本语料中的实体词进行替换,之前还包括:

构建与所述初始文本语料具有相同业务场景的实体词典;

基于实体识别模型和/或所述实体词典,识别所述初始文本语料中的实体词;所述实体识别模型基于携带有实体词标签的文本语料训练得到。

根据本发明提供的一种语料泛化方法,所述对所述初始文本语料中的实体词进行替换,具体包括:

确定所述初始文本语料中的实体词对应的实体槽;

基于所述初始文本语料中的实体词与所述实体词典中各实体词的相似度,选取所述实体词典中的实体词对所述实体槽进行填充。

根据本发明提供的一种语料泛化方法,所述基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料,之前还包括:

确定分词处理得到的词语中属于目标词性的目标词语;

基于词向量模型,计算所述目标词语的近义词;

相应的,所述基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料,具体包括:

基于所述目标词语的近义词,对所述目标词语进行替换,得到所述第二类文本语料。

根据本发明提供的一种语料泛化方法,所述获取工业领域的初始文本语料,之后还包括:

获取所述初始文本语料的目标模板;

对所述目标模板进行填充,确定第四类文本语料;

相应地,所述基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料,对所述初始文本语料进行泛化,具体包括:

基于所述第一类文本语料、所述第二类文本语料、所述第三类文本语料以及所述第四类文本语料中的至少两项,对所述初始文本语料进行泛化。

根据本发明提供的一种语料泛化方法,所述获取工业领域的初始文本语料,之后还包括:

将初始文本语料先翻译后再回译,确定第五类文本语料;

相应地,所述基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料,对所述初始文本语料进行泛化,具体包括:

基于所述第一类文本语料、所述第二类文本语料、所述第三类文本语料、所述第四类文本语料以及所述第五类文本语料中的至少两项,对所述初始文本语料进行泛化。

本发明还提供一种用于工业领域的人机对话情感分析方法,包括:

获取待分析人机对话文本数据;

将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;

其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于上述任一项所述的语料泛化方法进行泛化得到。

本发明还提供一种语料泛化系统,包括:

第一类文本语料生成模块,用于获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;

第二类文本语料生成模块,用于对所述初始文本语料和/或所述第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;

第三类文本语料生成模块,用于对所述初始文本语料、所述第一类文本语料以及所述第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对所述至少一项进行句式变换,得到第三类文本语料;

语料泛化模块,用于基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语料泛化方法或用于工业领域的人机对话情感分析方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语料泛化方法或用于工业领域的人机对话情感分析方法的步骤。

本发明提供的语料泛化方法及用于工业领域的人机对话情感分析方法,通过实体词替换、近义词替换和句式变换对初始文本语料进行了有效的扩充,积累了更多的可用于工业领域中人机交互或聊天对话等功能所需要的文本语料。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语料泛化方法的流程示意图之一;

图2是本发明实施例提供的语料泛化方法的流程示意图之二;

图3是本发明实施例提供的语料泛化方法的流程示意图之三;

图4是本发明实施例提供的用于工业领域的人机对话情感分析方法的流程示意图;

图5是本发明实施例提供的语料泛化系统的结构示意图;

图6是本发明实施例提供的用于工业领域的人机对话情感分析系统的结构示意图;

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

由于目前的语料泛化方法具有局限性,无法适用于快速的应用和实现,为解决上述技术问题,本发明实施例提供一种语料泛化方法,该方法包括:

S1,获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;

S2,对所述初始文本语料和/或所述第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;

S3,对所述初始文本语料、所述第一类文本语料以及所述第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对所述至少一项进行句式变换,得到第三类文本语料;

S4,基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化。

具体地,本发明实施例中提供的语料泛化方法,其执行主体可以是独立的服务器,该服务器可以是本地服务器,也可以是云端服务器,本地服务器可以是计算机、平板电脑或智能手机等,本发明实施例对此不作具体限定。

首先执行步骤S1。在步骤S1中,工业领域包括机械工业领域、制造工业领域、电子设备工业领域及能源工业领域等众多工业领域。语料是指语言材料,工业领域的初始文本语料可以是工业领域中的人机互动或聊天互动中实际产生的文本语料,可以通过人工采集,或者自动获取。

实体词是指文本语料中具有特定意义的词,它是对话的核心概念,在一定程度上和用户的意图相关。本发明实施例中,实体词可以分为两类:第一类型实体词包括通用的人名、公司、组织、地点、时间;第二类型实体词是指业务场景下的实体,包括工业产品、工业配件、工业原材料、工业品牌。例如,“请介绍A公司生产的作业机械的功能”,其中,“A公司”是公司名实体词,“作业机械”是工业产品实体词。通过对初始文本语料中的实体词进行替换,例如,将“A公司”替换成“B公司”、“C公司”及“D公司”等,获取第一类文本语料。

然后执行步骤S2。在步骤S2中,可以对初始文本语料进行分词处理,也可以对第一类文本语料进行分词处理,或者将初始文本语料和第一类文本语料合并后去重,再对合并去重后的文本语料进行分词处理。

本发明实施例中,分词是指将初始文本语料和/或第一类文本语料切分成一个个单独的词,也就是将连续的字序列按照一定的规范重新组合成词序列的过程。词是表达完整含义的最小单位,分词可以方便后续的处理。例如,“微信是很好的社交软件”,在进行分词后,会将这一句子分解为“微信/是/很好的/社交/软件”。

本发明实施例中,可以采用基于词典匹配的分词方法对初始文本语料和/或第一类文本语料进行分词。该分词方法首先将待分词的文本语料根据一定规则切分和调整,然后跟词典中的词语进行匹配,匹配成功则按照词典的词分词,匹配失败通过调整或者重新选择,如此反复循环即可。其中,词典可以是常用的汉语词典,也可以是人工搜集整理或通过计算机程序自动生成的汉语词典。

本发明实施例中,也可以采用基于条件随机场(conditional random field,CRF)的方法对初始文本语料和/或第一类文本语料进行分词。该方法对汉字进行标注训练,在分类的基础上增加了时序的考虑,即开始(B),中间(M),结尾(E),以及单字构成的词(S)。在将词进行标注后,将开始和结尾中间的词以及单字构成分词。

本发明实施例中,在对初始文本语料和/或第一类文本语料进行分词后,会得到若干个单个的词语,例如上述的分词后的“微信/是/很好的/社交/软件”,即可获取“微信”、“是”、“很好的”、“社交”“软件”,再通过获取这些词语的近义词并用近义词对这些词语进行替换,获取第二类文本语料。

再执行步骤S3。在步骤S3中,可以对初始文本语料进行依存句法分析,也可以对第一类文本语料进行依存句法分析,还可以对第二类文本语料进行依存句法分析,或者将初始文本语料、第一类文本语料及第二类文本语料合并后去重,再对合并去重后的文本语料进行依存句法分析。

本发明实施例中,依存句法分析是自然语言处理中语法分析的一种方法。依存句法分析认为词与词之间存在主从关系,这是一种二元不等价的关系。在句子中,如果一个词修饰另一个词,则称修饰词为从属词,被修饰的词语称为支配词,两者之间的语法关系称为依存关系。依存关系包括主谓关系、动宾关系、前置宾语等语法关系。

本发明实施例中,可以使用基于图的依存句法分析方法。将初始文本语料中的句子中所有词语的依存关系以有向边的形式表示出来,就会得到一棵树,称为依存句法树。依存句法树是完全图的一个子图。在获取依存句法树后,将整棵树的分数分解为每条边上的分数之和,然后在图上搜索最优解即可完成依存句法分析。通过依存句法分析可以得到文本语料的句子中的语法关系,基于语法关系可以对原始句子进行句式变换,如删除掉连续的修饰结构对应的依存节点,对动宾结构等句式进行节点顺序的变换及将把字句变为被字句等。例如,原始句子是“我把面包吃掉了”可以变换成“面包被我吃掉了”。通过对初始文本语料、第一类文本语料及第二类文本语料中的至少一种做句式变换,可以获取第三类文本语料。

最后执行步骤S4。在步骤S4中,通过将第一类文本语料、第二类文本语料和第三类文本语料中的至少两项进行合并,再对合并后的文本语料去重,以此达到对初始文本语料泛化的目的。

本发明实施例提供的一种语料泛化方法,通过对获取的工业领域的初始文本语料进行实体词替换得到第一类型文本语料,实现对初始文本语料的第一次泛化;再对初始文本语料和/或第一类型文本语料分词后进行近义词替换得到第二类文本语料,完成对初始文本语料的第二次泛化;最后对初始文本语料、第一类型文本语料及第二类型文本语料中的至少一种进行依存句法分析后进行句式结构变化,完成对初始文本语料的第三次泛化。该方法通过三次不同的语料泛化方法对初始文本语料进行了有效的扩充,积累了更多的可用于工业领域中人机交互或聊天对话等功能所需要的文本语料,且该方法实现起来简单快速,节省了语料积累的成本。

在上述实施例的基础上,本发明实施例提供的语料泛化方法,所述对所述初始文本语料中的实体词进行替换,之前还包括:

构建与所述初始文本语料具有相同业务场景的实体词典;

基于实体识别模型和/或所述实体词典,识别所述初始文本语料中的实体词;所述实体识别模型基于携带有实体词标签的文本语料训练得到。

具体地,业务场景是指包含了人、事、物及相关要素的集合。本发明实施例中,构建与初始文本语料具有相同业务场景的实体词典可以采用人工搜集整理的方法。即通过人工预先确定初始文本语料对应对的业务场景,再通过书籍、互联网等多种渠道搜集与此业务场景相关的实体词,整理后形成实体词典。也可以通过计算机程序,通过对初始文本语料的分析,自动获取相关实体词,生成实体词典。

本发明实施例中,实体词典包括专业实体词典以及常用实体词典。其中,专业实体词典是指业务场景下的专业实体词典,包括工业产品、工业配件、工业原材料、工业品牌等词典。例如,初始文本语料中的业务场景与手机相关,则专业实体词典中可以包括显示屏、芯片、处理器、锂等相关实体词。常用实体词典是指与初始文本语料相同的业务场景下的通用的人名、公司、组织、地点、时间。若初始文本语料中的业务场景仍与手机相关,则常用实体词典可以包括:小米公司、雷军、华为、三星等实体词。

本发明实施例中,实体识别模型是神经网络模型,在对初始文本语料进行实体词识别前,实体识别模型预先经过了大量的携带有实体词标签的文本语料训练。本发明实施例中的一种实施方式中可以采用双向长短时记忆网络(Bi-directional Long Short-TermMemory,Bi-LSTM)和CRF构建实体识别模型。Bi-LSTM-CRF的方法是输入句子中的各个字的字符嵌入,字符嵌入可以通过随机初始化方式获取,输出经过Bi-LSTM-CRF模型得到的每个单个的词对应的预测标签。通过预先定义实体词类别,对Bi-LSTM-CRF模型进行大量训练,可以使该模型识别各种类型的实体词。

本发明实施例中,可以通过预先定义专业实体词和/或常用实体词,对实体识别模型进行预先训练,使其能够对初始文本语料中的专业实体词和/或常用实体词进行识别。将初始文本语料输入至实体识别模型,返回初始文本语料中的专业实体词和/或常用实体词。或者通过专业实体词典或常用实体词典,对初始文本语料中的专业实体词或常用实体词进行识别。先对初始文本语料进行分词,将分词后得到的待匹配词与专业实体词典或常用实体词典进行匹配,若待匹配词与专业实体词典或常用实体词典中的实体词成功匹配,则将其认定为专业实体词或常用实体词。匹配是指待匹配词与专业实体词典或常用实体词典中的实体词的相似程度,可以使用词向量的方法进行相似度计算。该方法将需要匹配的词表示成向量的形式,然后计算两个向量之间的余弦距离,若余弦距离在预设范围内,则证明匹配成功。

本发明实施例中,也可以先通过实体识别模型识别初始文本语料中的所有实体词,再将识别出的实体词与相对应的实体词典进行匹配,保留匹配成功的实体词,增加识别的准确率。

本发明实施例提供的一种语料泛化方法,通过构建与初始文本语料具有相同业务场景的实体词典,提高了实体词识别的效率,节省了实体词识别需要的时间。通过识别初始文本语料中的实体词,方便了后续的语料泛化过程。

在上述实施例的基础上,本发明实施例提供的语料泛化方法,所述对所述初始文本语料中的实体词进行替换,具体包括:

确定所述初始文本语料中的实体词对应的实体槽;

基于所述初始文本语料中的实体词与所述实体词典中各实体词的相似度,选取所述实体词典中的实体词对所述实体槽进行填充。

本发明实施例中,在识别出专业实体词和/或常用实体词后,根据识别出的实体词设置对应的实体槽。实体槽是指实体词已经明确定义的属性。例如,“我明天要从武汉去北京”,其中,出发地点槽、目的地槽和出发时间槽中的属性分别对应的是“出发地点”、“目的地”和“出发时间”。

实体槽填充是指从大规模的语料库中抽取给定实体词的被明确定义的属性的值。即通过计算初始文本语料中识别出的实体词与所构建的实体词典中的实体词的相似度,将实体词典中与识别出的实体词相似度高的实体词填充至预先设置的实体槽中。其中,计算识别出的实体词与所构建的实体词典中的实体词的相似度可以用上述基于词向量的方法。

本发明实施例提供的语料泛化方法通过对识别出的实体词设置实体槽,再将与实体词相似的其他实体词填入实体槽中,扩充了初始文本语料,获取了更多的同一业务场景下的语料。

在上述实施例的基础上,本发明实施例提供的语料泛化方法,所述基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料,之前还包括:

确定分词处理得到的词语中属于目标词性的目标词语;

基于词向量模型,计算所述目标词语的近义词;

相应的,所述基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料,具体包括:

基于所述目标词语的近义词,对所述目标词语进行替换,得到所述第二类文本语料。

本发明实施例中,基于上述的分词方法,可以对初始文本语料和/或第一类文本语料进行分词,在分词处理后,即可获取单个的词。采用词性标注可以获取分词处理得到的目标词语的目标词性。词性是词语基本的语法属性,它包括名词、形容词、动词等。词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。

本发明实施例中,可以采用基于字符串匹配的字典查找算法进行词性标注。对于分词后的词语,直接从现有的字典中查找其词性进行标注。也可以采用基于隐马尔科夫模型进行词性标注。该方法通过大规模语料统计,得到起始概率、发射概率和转移概率。计算词语在不同的情况下,每种词性对应的概率,然后基于上述起始概率、发射概率和转移概率使用维比特算法将分词后的词语转化为词性标注序列。

词向量是指从词性、感情色彩、程度等方面量度,用一套分值代表一个词,从而词之间可以替换,比较。词与向量间的转换过程就是词的向量化。本发明实施例的一种实施方式中,可以采用Word2Vec的词向量模型。该模型主要包含两个模型:跳字模型(Skip-Gram)和连续词袋模型(Continuous Bag of Words,CBOW)。该模型通过训练,可以把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此可以利用计算两个词向量之间的余弦距离来确定分词得到的词的近义词。

基于上述方法得到初始文本语料分词后的所有目标词语的全部近义词后,可以将初始文本语料中的目标词语进行近义词替换,将替换完成后的所有文本语料合并,得到第二类文本语料。

本发明实施例提供的语料泛化方法通过对分词后的目标词语进行词性标注,简化了后续近义词计算的过程。再通过对分词后的词语进行近义词替换,有效扩充了初始文本语料和/或第一类文本语料,积累了更多相同业务场景下的文本语料。

在上述实施例的基础上,本发明实施例提供的语料泛化方法,所述获取工业领域的初始文本语料,之后还包括:

获取所述初始文本语料匹配的目标模板;

对所述目标模板进行填充,确定第四类文本语料;

相应地,所述基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料,对所述初始文本语料进行泛化,具体包括:

基于所述第一类文本语料、所述第二类文本语料、所述第三类文本语料以及所述第四类文本语料中的至少两项,对所述初始文本语料进行泛化。

本发明实施例中,获取初始文本语料的目标模板,可以先基于上述的实体词识别方法对初始文本语料进行实体词识别。在识别出初始文本语料中的实体词后,将实体词抽取出来,根据抽取出的实体词设定目标模板。在确定目标模板后,根据模板中抽取出的实体词计算与其相似度高的替代词,将对应的替代词填入模板中相应的位置,以此确定第四类文本语料。

本发明实施例中,基于第一类文本语料、第二类文本语料、第三类文本语料以及第四类文本语料中的至少两项,对所述初始文本语料进行泛化是指,将第一类文本语料、第二类文本语料、第三类文本语料以及第四类文本语料中的至少两项进行合并,由于在进行实体词替换、近义词替换、句式变换和目标填充时,会出现相同的文本语料,因此需要对合并后的文本语料进行去重,剔除重复的文本语料,以此完成对初始文本语料的泛化。

本发明实施例提供的语料泛化方法通过构建与初始文本语料相关的句式模板对初始文本语料进行扩充,得到了更多与初始文本语料相同业务场景下的文本语料。

在上述实施例的基础上,本发明实施例提供的语料泛化方法,所述获取工业领域的初始文本语料,之后还包括:

将初始文本语料先翻译后再回译,确定第五类文本语料;

相应地,所述基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料,对所述初始文本语料进行泛化,具体包括:

基于所述第一类文本语料、所述第二类文本语料、所述第三类文本语料、所述第四类文本语料以及所述第五类文本语料中的至少两项,对所述初始文本语料进行泛化。

本发明实施例中,可以将初始文本语料先翻译成英文或其他外语,再将翻译后的初始文本语料回译成中文。翻译使用的工具可以是百度翻译、有道词典及谷歌翻译等常用的翻译软件或者其他小众的语言翻译软件。由于在翻译的过程中,中文和外语的语法不同,所以经过翻译再回译后的初始文本语料也会有变化。

本发明实施例中,基于第一类文本语料、第二类文本语料、第三类文本语料、第四类文本语料及第五类文本语料中的至少两项,对所述初始文本语料进行泛化是指,将第一类文本语料、第二类文本语料、第三类文本语料、第四类文本语料以及第五类文本语料中的至少两项进行合并,由于在进行实体词替换、近义词替换、句式变换、目标填充以及回译时,会出现相同的文本语料,因此需要对合并后的文本语料进行去重,剔除重复的文本语料,以此完成对初始文本语料的泛化。

本发明实施例提供的语料泛化方法通过将初始文本语料翻译后再回译对初始文本语料进行扩充,得到了更多与初始文本语料相同业务场景下的文本语料。

在上述实施例的基础上,本发明实施例提供的语料泛化方法,所述基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化,具体包括:

将所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项进行合并去重,得到泛化后的文本语料。

在本发明实施例中,由于生成的第一类文本语料、第二类文本语料以及第三类文本语料中有重复的文本语料,因此在对其中的至少两项进行合并后,需要再对合并后的文本语料去重。可以采用simhash的方法对合并后的文本语料进行去重。simhash主要思想是降维,将高维的特征向量映射成低维的特征向量,通过两个向量的汉明距离来确定文章是否重复或者高度近似。其中汉明距离,在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。

对需要合并的文本语料进行分词,得到有效的特征向量,然后为每一个特征向量设置1-5等5个级别的权重。其中数字代表单词在整条语句中的重要程度,数字越大代表越重要。

通过hash函数计算各个特征向量的hash值,hash值为二进制数0与1组成的签名,此时可以将字符串变成一系列数字。在hash值的基础上,给所有特征向量进行加权,遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘。将上述各个特征向量的加权结果累加,变成只有一个序列串。对于上述签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后通过各个文本语料的simhash的汉明距离来判断它们的相似度,若某两个或两个以上文本的汉明距离在预设范围内,则认为这些文本语料相似。将相似度高的文本只保留一个,其余剔除,达到去重的目的。

本发明实施例提供的语料泛化方法,通过对合并后的文本语料去重,可以获取更准确的文本语料,能够更好的支撑人机交互或聊天对话场景。

图2是本发明实施例提供的语料泛化方法的具体流程示意图。如图2所示,该方法包括:

S21,获取初始文本语料。

在S21执行结束后,同时执行S22,对初始文本语料中的实体词进行替换,生成第一类文本语料;S23,对初始文本语料进行分词,计算分词后的词的近义词并进行近义词替换,生成第二类文本语料;S24,对初始文本语料进行依存句法分析及句式变换,生成第三类文本语料。

S25,基于第一类文本语料、第二类文本语料及第三类文本语料进行语料泛化。

图3是本发明另一实施例提供的语料泛化方法的具体流程示意图。如图3所示,该方法包括:

S31,获取初始文本语料。

S32,对初始文本语料中的实体词进行替换,生成第一类文本语料。

S33,对第一文本语料进行分词,计算分词后的词的近义词并进行近义词替换,生成第二类文本语料。

S34,对第一类文本语料和/或第二类文本语料进行依存句法分析及句式变换,生成第三类文本语料。

S35,基于第一类文本语料、第二类文本语料及第三类文本语料进行语料泛化。

在工业领域,由于语料缺乏、专业术语较多,若依然采用目前的情感分析技术则分析效果并不好,会导致分析结果不准确,进而得到错误的情感类型。因此,本发明实施例中提供了一种用于工业领域的人机对话情感分析方法。

图4为本发明实施例中提供的一种用于工业领域的人机对话情感分析方法的流程示意图,如图4所示,该方法包括:

S41,获取待分析人机对话文本数据;

S42,将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;

其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于上述任一实施例提供的语料泛化方法进行泛化得到。

具体地,本发明实施例中提供的用于工业领域的人机对话情感分析方法,其执行主体为服务器,可以为本地服务器,也可以为云端服务器,本地服务器可以为计算机、平板电脑以及智能手机等,本发明实施例中对此不作具体限定。本发明实施例中提供的用于工业领域的人机对话情感分析方法的执行主体可以与上述实施例中提供的语料泛化相同也可以与其不同。

首先执行步骤S41。其中,待分析人机对话文本数据可以指工业领域中人机对话场景下需要确定其中情感类型的人机对话文本数据。人机对话场景是指用户与机器进行对话的场景,进行对话的机器可以是后台服务机器人等。人机对话场景下可以得到人机对话语音数据。人机对话文本数据是指人机对话语音数据对应的文本数据,可以通过对人机对话语音数据进行语音识别得到。人机对话语音数据可以是包含有用户语音数据以及机器语音数据的完整语音数据,也可以仅包含有用户语音数据。用户语音数据可以从用户端设备获取,机器语音数据可以从机器端设备获取,本发明实施例中对此不作具体限定。在得到待分析人机对话文本数据之后,可以对待分析人机对话文本数据进行清洗、去除特殊字符、做繁体转简体等预处理操作。

然后执行步骤S42。其中,采用的情感分类模型用于对输入的待分析人机对话数据进行情感分析,得到并输出待分析人机对话数据对应的情感类型。情感类型可以是指待分析人机对话数据中关于工业领域的产品和/或服务等目标对象的情感倾向,情感倾向可以包括正向情感倾向、中性情感倾向以及负向情感倾向。相应地,情感类型可以包括正向情感、中性情感和负向情感,正向情感可以是对目标对象的积极回应,例如“产品质量很好”等。中性情感可以是对目标对象的既不积极也不消极的回应,例如“产品质量一般”等。负向情感可以是对目标对象的消极回应,例如“产品漏油”等。

情感分类模型可以通过神经网络构建,并基于携带有情感类型标签的人机对话数据样本训练得到。具体而言,可以通过卷积神经网络构建情感分类模型,然后通过携带有情感类型标签的人机对话数据样本对情感分类模型进行训练,将人机对话数据样本输入至情感分类模型,得到情感分类模型输出的分类结果,并计算该分类结果与携带的情感类型标签的差值,基于该差值计算损失函数。调整情感分类模型的模型参数直至损失函数最小,训练结束,即得到训练后的情感分类模型。

需要说明的是,情感分类模型训练过程中,采用的人机对话数据样本是通过上述任一实施例提供的语料泛化方法对工业领域的语料文本数据进行泛化得到的,以使人机对话数据样本的数量可以足够用于对情感分类模型进行训练。

可以先获取工业领域人机对话场景中关于工业产品和服务评价等带有情感倾向的语料文本数据,并对语料文本数据进行清洗、去除特殊字符、做繁体转简体等预处理操作。然后,对预处理后的语料文本数据,采用上述任一实施例提供的语料泛化方法进行泛化,最后结合上述构建的实体词典,对语料文本数据标注正向情感、中性情感以及负向情感等情感类型标签,得到人机对话文本数据样本。

本发明实施例中提供的用于工业领域的人机对话情感分析方法,包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的待分析人机对话文本数据对应的情感类型。由于情感分类模型在训练过程中采用的人机对话文本数据样本是基于上述任一实施例提供的语料泛化方法对工业领域的语料文本数据进行泛化得到,可以增加工业领域的语料文本数据量,进而增加人机对话文本数据样本量,使得情感分类模型具有充足的训练样本,保证了训练得到的情感分类模型的准确性以及稳定性,使情感分类模型得到的情感类型更加准确。

图5是本发明实施例提供的一种语料泛化系统。如图5所示,该系统包括:

第一类文本语料生成模块501,用于获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;

第二类文本语料生成模块502,用于对所述初始文本语料和/或所述第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;

第三类文本语料生成模块503,用于对所述初始文本语料、所述第一类文本语料以及所述第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对所述至少一项进行句式变换,得到第三类文本语料;

语料泛化模块504,用于基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化。

具体地,本发明实施例提供的一种语料泛化系统可以适用于本地服务器,也可以适用于云端。

本发明实施例中,第一类文本语料生成模块可以对初始文本语料进行实体词替换,生成第一类文本语料。

本发明实施例中,第二类文本语料生成模块可以对初始文本语料和/或第一类文本语料进行分词,并对分词后得到的单个词语进行近义词计算和近义词替换,生成第二类文本语料。

本发明实施例中,第三类文本语料生成模块可以对初始文本语料、第一类文本语料和第二类文本语料中的至少一种进行依存句法分析,在得到句子的依存关系后,对其进行句式变换,生成第三类文本语料。

本发明实施例中,语料泛化模块可以对上述的第一类文本语料、第二类文本语料和第三类文本语料中的至少两种进行合并,获得合并后的文本语料,以此对初始文本语料进行泛化。

本发明实施例提供的语料泛化系统,通过三个文本语料生成模块生成新的文本语料,并通过语料泛化模块将新的文本语料合并,完成了对初始文本语料的扩充。

在上述实施例的基础上,本发明实施例提供的语料泛化系统,还包括:

实体词典生成模块,用于构建与所述初始文本语料具有相同业务场景的实体词典。

实体词识别模块,用于基于实体识别模型和/或所述实体词典,识别所述初始文本语料中的实体词;所述实体识别模型基于携带有实体词标签的文本语料训练得到的。

在上述实施例的基础上,本发明实施例提供的语料泛化系统,所述第一类文本语料生成模块,具体包括:

实体槽确定子模块,用于确定所述初始文本语料中的实体词对应的实体槽;

实体槽填充子模块,用于基于所述初始文本语料中的实体词与所述实体词典中各实体词的相似度,选取所述实体词典中的实体词对所述实体槽进行填充。

在上述实施例的基础上,本发明实施例提供的语料泛化系统,还包括:

目标词语确定模块,用于确定分词处理得到的词语中属于目标词性的目标词语;

近义词确定模块,用于基于词向量模型,计算所述目标词语的近义词;

相应地,所述第二类文本语料生成模块,还具体用于:

基于所述目标词语的近义词,对所述目标词语进行替换,得到所述第二类文本语料。

在上述实施例的基础上,本发明实施例提供的语料泛化系统,还包括:

目标模板获取模块,用于获取所述初始文本语料的目标模板;

模板填充模块,用于对所述目标模板进行填充,确定第四类文本语料;

相应地,所述语料泛化模块,具体用于:

基于所述第一类文本语料、所述第二类文本语料、所述第三类文本语料以及所述第四类文本语料中的至少两项,对所述初始文本语料进行泛化。

在上述实施例的基础上,本发明实施例提供的语料泛化系统,还包括:

翻译模块,用于将初始文本语料先翻译后再回译,确定第五类文本语料;

相应地,所述语料泛化模块,还具体用于:

基于所述第一类文本语料、所述第二类文本语料、所述第三类文本语料、所述第四类文本语料以及所述第五类文本语料中的至少两项,对所述初始文本语料进行泛化。

在上述实施例的基础上,本发明实施例提供的语料泛化系统,所述语料泛化模块,还具体用于:

将所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项进行合并去重,得到泛化后的文本语料。

图6是本发明实施例提供的用于工业领域的人机对话情感分析系统的结构示意图。如图6所示,该系统包括:

文本数据获取模块601,用于获取待分析人机对话文本数据;

情感分析模块602,用于将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;

其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于上述任一实施例提供的语料泛化方法对工业领域的语料文本数据进行泛化得到。

具体地,本发明实施例中提供的用于工业领域的人机对话情感分析系统中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。

图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行上述各实施例中提供的语料泛化方法或用于工业领域的人机对话情感分析方法。其中,语料泛化方法包括:获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;对所述初始文本语料和/或所述第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;对所述初始文本语料、所述第一类文本语料以及所述第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对所述至少一项进行句式变换,得到第三类文本语料;基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化。用于工业领域的人机对话情感分析方法包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于上述任一实施例所述的语料泛化方法进行泛化得到。

此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例中提供的语料泛化方法或用于工业领域的人机对话情感分析方法。其中,语料泛化方法包括:获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;对所述初始文本语料和/或所述第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;对所述初始文本语料、所述第一类文本语料以及所述第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对所述至少一项进行句式变换,得到第三类文本语料;基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化。用于工业领域的人机对话情感分析方法包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于上述任一实施例所述的语料泛化方法进行泛化得到。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现执行上述各实施例中提供的语料泛化方法或用于工业领域的人机对话情感分析方法。其中,语料泛化方法包括:获取工业领域的初始文本语料,并对所述初始文本语料中的实体词进行替换,得到第一类文本语料;对所述初始文本语料和/或所述第一类文本语料进行分词处理,并基于分词处理得到的词语的近义词,对分词处理得到的词语进行替换,得到第二类文本语料;对所述初始文本语料、所述第一类文本语料以及所述第二类文本语料中的至少一项进行依存句法分析,并基于分析的结果对所述至少一项进行句式变换,得到第三类文本语料;基于所述第一类文本语料、所述第二类文本语料以及所述第三类文本语料中的至少两项,对所述初始文本语料进行泛化。用于工业领域的人机对话情感分析方法包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于上述任一实施例所述的语料泛化方法进行泛化得到。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 语料泛化方法及用于工业领域的人机对话情感分析方法
  • 用于工业领域的人机对话情感分析方法及系统
技术分类

06120112810742