掌桥专利:专业的专利平台
掌桥专利
首页

基于多模态特征融合和图卷积的短文本分类方法与系统

文献发布时间:2023-06-19 19:30:30


基于多模态特征融合和图卷积的短文本分类方法与系统

技术领域

本发明涉及计算机自然语言处理的技术领域,更具体地,涉及一种基于多模态特征融合和图卷积的短文本分类方法与系统。

背景技术

随着众多社交媒体平台的蓬勃发展,很多平台的短文本数据呈指数增长,对海量数据的正确归类任务非常有必要性;通过对短文本分类可以帮助网络上各平台以及用户高效地处理文本数据,例如新闻分类、用户意图分析等。由于这些信息一般比较短小导致语义特征稀疏,在分类过程中无法做到准确的分类,另外,目前大多数分类方法更加适用于长文本,当运用到短文本时,分类效果较差。

目前,针对短文本的分类方法有两种,一种是将待分类的短文本输入到已经训练好的深层神经网络模型中,将输出作为最终的分类结果;另一种是利用外部知识库来拓展文本内容,以达到提高分类准确率的目的。但是由于短文本数据的稀疏性以及模糊性的问题,传统的深层神经网络无法充分捕捉到短文本数据的关键词的重要性,而且文本所属的类标签信息往往被忽略掉;而且模型训练中,网络太深、网络权值更新不稳定会造成梯度消失和梯度爆炸的问题;而使用外部知识库对短文本进行扩展的技术,虽然扩长了短文本的数据,但也增加了冗余特征,分类的准确性也很容易受到外部知识库的质量影响。

现有技术公开了一种基于图注意力网络的中文短文本分类方法,包括以下步骤:对文本数据进行预处理,得到文本对应的词列表集合;文本特征提取:对本文对应的词列表集合,采用特征嵌入工具进行词嵌入处理,得到对应的词向量;采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图;建立图注意力网络文本分类模型;采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型;输出文本所属类别:将节点特征通过softmax分类层得到最终分类的类别;该申请忽视了单词的重要程度,忽略了文本所属的标签信息,存在文档节点特征表达较弱的问题,导致最终分类类别不准确。

发明内容

本发明为克服上述现有技术对短文本分类不准确的缺陷,提供一种基于多模态特征融合和图卷积的短文本分类方法与系统,有效提升了短文本分类的准确性和分类模型的泛化能力,避免了梯度爆炸和消失。

为解决上述技术问题,本发明的技术方案如下:

本发明提供了一种基于多模态特征融合和图卷积的短文本分类方法,包括:

S1:获取短文本数据和对应的标签,对短文本数据进行预处理,获得预处理后的短文本数据;

S2:将预处理后的短文本数据转化为文本图,所述文本图包括文档节点、单词节点、文档-单词的边和单词-单词的边;

S3:构建短文本分类模型,包括文本向量子模型和图卷积网络子模型;

S4:将单词节点及其对应的标签输入文本向量子模型,获得文档节点初始特征和文本特征;并将文档节点初始特征嵌入到文本图中,获得优化后的文本图;

S5:将优化后的文本图输入图卷积网络子模型,获得文本图最终特征;

S6:对文本特征和文本图最终特征进行融合,获得最终分类特征,并计算短文本数据的预测分类概率;

S7:设置交叉熵损失函数,对短文本分类模型进行优化,调整短文本分类模型的模型参数,获得优化后的短文本分类模型;

S8:获取待分类短文本数据,输入优化后的短文本分类模型,获得待分类短文本数据的预测分类概率,确定待分类短文本数据的类别。

优选地,所述步骤S1中,对短文本数据进行的预处理包括去噪、去重、去除特殊符号和去除停用词操作。

优选地,所述步骤S2中,将预处理后的短文本数据转化为文本图的具体方法为:

将预处理后的短文本数据中的所有文档作为文档节点,将预处理后的短文本数据中的所有单词作为单词节点;利用PMI算法计算单词间的边权,实现单词间连边,获得单词-单词的边;利用改进的词频统计算法计算单词与文档间的边权,实现单词与文档的连边,获得文档-单词的边。

单词-单词的边通过传统的PMI算法计算,如果两个单词总是在同一条文本中出现,那么就认为这两个单词是相关的,可以根据这两个单词出现的频数与所有单词对的总频数的关系来设定单词与单词之间的边权值;传统的词频方法并不能有效地反映单词的重要程度和特征词的分布情况,故使用改进的词频统计算法,利用单词与全局的词频关系对单词在文档的权重进行加权,降低了语料库中同类型文本对单词权重的影响和权值过小的问题。

优选地,利用PMI算法计算单词间的边权,实现单词间连边,获得单词-单词的边的具体方法为:

式中,PMI(t

优选地,利用改进的词频统计算法计算单词与文档间的边权,实现单词与文档的连边,获得文档-单词的边的具体方法为:

式中,TF-IDF-Pro(t

优选地,所述步骤S4中,获得文档节点初始特征的具体方法为:

将文档节点包含的文本表示为向量集合W

计算文本类别特征:

式中,LE[i]表示文档中第i条文本的文本类别特征,WE[t

计算文档节点初始特征:

式中,H

为了强化文档节点的表达,首先收集每条文本和文本标签的特征向量,之后引入共同的特征空间内进行相似度计算;通过设定相似度阈值进行的特征选择操作,将文本中与标签超过相似度阈值条件的近义性质的单词特征留下来,减少了冗杂特征的影响,并且做到强化特征的表达效果;最后通过累加特征向量取均值的方式赋予文档节点,嵌入到对应的文本图中;当标签由不止一个单词组成时,此时可以拆分单词对,分别作为标签的特征在特征空间内参与计算。

优选地,所述步骤S5中,图卷积网络子模型包括第一图卷积层和第二图卷积层;

将优化后的文本图输入图卷积网络子模型,优化后的文本图的原始特征矩阵输入第一图卷积层进行信息传播,自适应学习边距离为1的特征信息,获得第一文本图特征:

式中,L

式中,D表示优化后的文本图的的度矩阵,A表示优化后的文本图的邻接矩阵,I表示单位矩阵;

为了解决网络训练过程中梯度消失、爆炸以及特征丢失的问题,利用跳跃式融合特征的方法,将第一文本图特征和优化后的文本图的原始特征矩阵结合后,输入第二图卷积层进行信息传播,自适应学习边距离为2的特征信息,获得文本图最终特征:

式中,Z

优选地,所述步骤S6中,对文本特征和文本图最终特征进行融合,获得最终分类特征的具体方法为:

R=Z

式中,R表示最终分类特征,ε表示平衡参数,Z

优选地,所述步骤S6中,计算短文本数据的预测分类概率的具体发方法为:

式中,softmax(R

优选地,所述步骤S7中,交叉熵损失函数具体为:

式中,Loss表示交叉熵损失值,y

交叉熵损失函数计算损失值后,通过计算每次迭代的前向计算结果与真实值的差距,调节短文本分类模型训练过程中的权重参数,从而下一步的训练向正确的方向进行。

本发明还提供了一种基于多模态特征融合和图卷积的短文本分类系统,用于实现上述的基于多模态特征融合和图卷积的短文本分类方法,包括:

数据获取及预处理模块,用于获取短文本数据和对应的标签,对短文本数据进行预处理,获得预处理后的短文本数据;

文本图转化模块,用于将预处理后的短文本数据转化为文本图,所述文本图包括文档节点、单词节点、文档-单词的边和单词-单词的边;

分类模型构建模块,用于构建短文本分类模型,包括文本向量子模型和图卷积网络子模型;

初始特征获取模块,用于将单词节点及其对应的标签输入文本向量子模型,获得文档节点初始特征和文本特征;并将文档节点初始特征嵌入到文本图中,获得优化后的文本图;

文本图特征获取模块,用于将优化后的文本图输入图卷积网络子模型,获得文本图最终特征;

特征融合模块,用于对文本特征和文本图最终特征进行融合,获得最终分类特征,并计算短文本数据的预测分类概率;

分类模型优化模块,用于设置交叉熵损失函数,对短文本分类模型进行优化,调整短文本分类模型的模型参数,获得优化后的短文本分类模型;

短文本分类模块,用于获取待分类短文本数据,输入优化后的短文本分类模型,获得待分类短文本数据的预测分类概率,确定待分类短文本数据的类别。

与现有技术相比,本发明技术方案的有益效果是:

本申请对短文本数据进行预处理后,将其转化为文本图,包括文档节点、单词节点、文档-单词的边和单词-单词的边;构建包含文本向量子模型和图卷积网络子模型的短文本分类模型,将单词节点和对应的标签输入文本向量子模型,联合文本特征和标签信息存在的近义特征,利用标签信息强化了文本图中文档节点的特征表示,有效地反映单词的重要程度,解决了文档节点特征表达较弱的问题,降低特征平滑的影响,获得文档节点初始特征和文本特征,并将文档节点初始特征嵌入到文本图中;之后将优化后的文本图输入图卷积网络子模型,利用跳跃式融合特征的方法,获得文本图最终特征,进一步的减少初始特征丢失,也可以避免图卷积网络训练过程中存在的梯度消失和爆炸问题;最后对文本特征和文本图最终特征进行融合,获得最终分类特征,并计算短文本数据的预测分类概率,并设置交叉熵损失函数,对短文本分类模型进行优化,联合了文本向量子模型和图卷积网络子模型两种不同模型学习到的多样特征,有效提升了短文本数据的分类质量和文本向量子模型的泛化能力;利用优化后的短文本分类模型进行短文本数据的类别预测,有效决绝了短文本数据特征稀缺和标签信息利用不足造成的分类过程中语义模糊和分类效果差的问题,获得准确的类别。

附图说明

图1为实施例1所述的基于多模态特征融合和图卷积的短文本分类方法的流程图。

图2为实施例2所述的获得文档节点初始特征的示意图。

图3为实施例3所述的基于多模态特征融合和图卷积的短文本分类系统的结构示意图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供了一种基于多模态特征融合和图卷积的短文本分类方法,如图1所示,包括:

S1:获取短文本数据和对应的标签,对短文本数据进行预处理,获得预处理后的短文本数据;

S2:将预处理后的短文本数据转化为文本图,所述文本图包括文档节点、单词节点、文档-单词的边和单词-单词的边;

S3:构建短文本分类模型,包括文本向量子模型和图卷积网络子模型;

S4:将单词节点及其对应的标签输入文本向量子模型,获得文档节点初始特征和文本特征;并将文档节点初始特征嵌入到文本图中,获得优化后的文本图;

S5:将优化后的文本图输入图卷积网络子模型,获得文本图最终特征;

S6:对文本特征和文本图最终特征进行融合,获得最终分类特征,并计算短文本数据的预测分类概率;

S7:设置交叉熵损失函数,对短文本分类模型进行优化,调整短文本分类模型的模型参数,获得优化后的短文本分类模型;

S8:获取待分类短文本数据,输入优化后的短文本分类模型,获得待分类短文本数据的预测分类概率,确定待分类短文本数据的类别。

在具体实施过程中,本实施例对短文本数据进行预处理后,将其转化为文本图,包括文档节点、单词节点、文档-单词的边和单词-单词的边;构建包含文本向量子模型和图卷积网络子模型的短文本分类模型,将单词节点和对应的标签输入文本向量子模型,联合文本特征和标签信息存在的近义特征,利用标签信息强化了文本图中文档节点的特征表示,有效地反映单词的重要程度,解决了文档节点特征表达较弱的问题,降低特征平滑的影响,获得文档节点初始特征和文本特征,并将文档节点初始特征嵌入到文本图中;之后将优化后的文本图输入图卷积网络子模型,利用跳跃式融合特征的方法,获得文本图最终特征,进一步的减少初始特征丢失,也可以避免图卷积网络训练过程中存在的梯度消失和爆炸问题;最后对文本特征和文本图最终特征进行融合,获得最终分类特征,并计算短文本数据的预测分类概率,并设置交叉熵损失函数,对短文本分类模型进行优化,联合了文本向量子模型和图卷积网络子模型两种不同模型学习到的多样特征,有效提升了短文本数据的分类质量和文本向量子模型的泛化能力;利用优化后的短文本分类模型进行短文本数据的类别预测,有效决绝了短文本数据特征稀缺和标签信息利用不足造成的分类过程中语义模糊和分类效果差的问题,获得准确的类别。

实施例2

本实施例提供了一种基于多模态特征融合和图卷积的短文本分类方法,包括:

S1:获取短文本数据和对应的标签,对短文本数据进行预处理,获得预处理后的短文本数据;

所述预处理包括去噪、去重、去除特殊符号和去除停用词操作;

S2:将预处理后的短文本数据转化为文本图,所述文本图包括文档节点、单词节点、文档-单词的边和单词-单词的边;

将预处理后的短文本数据中的所有文档作为文档节点,将预处理后的短文本数据中的所有单词作为单词节点;利用PMI算法计算单词间的边权,实现单词间连边,获得单词-单词的边;具体的:

式中,PMI(t

利用改进的词频统计算法计算单词与文档间的边权,实现单词与文档的连边,获得文档-单词的边;具体的:

式中,TF-IDF-Pro(t

单词-单词的边通过传统的PMI算法计算,如果两个单词总是在同一条文本中出现,那么就认为这两个单词是相关的,可以根据这两个单词出现的频数与所有单词对的总频数的关系来设定单词与单词之间的边权值;传统的词频方法并不能有效地反映单词的重要程度和特征词的分布情况,故使用改进的词频统计算法,利用单词与全局的词频关系对单词在文档的权重进行加权,降低了语料库中同类型文本对单词权重的影响和权值过小的问题。

S3:构建短文本分类模型,包括文本向量子模型和图卷积网络子模型;

S4:将单词节点及其对应的标签输入文本向量子模型,获得文档节点初始特征和文本特征;并将文档节点初始特征嵌入到文本图中,获得优化后的文本图;

所述获得文档节点初始特征的具体方法为:

将文档节点包含的文本表示为向量集合W

计算文本类别特征:

式中,LE[i]表示文档中第i条文本的文本类别特征,WE[t

计算文档节点初始特征:

式中,H

为了强化文档节点的表达,首先收集每条文本和文本标签的特征向量,之后引入共同的特征空间内进行相似度计算;通过设定相似度阈值进行的特征选择操作,将文本中与标签超过相似度阈值条件的近义性质的单词特征留下来,减少了冗杂特征的影响,并且做到强化特征的表达效果;最后通过累加特征向量取均值的方式赋予文档节点,嵌入到对应的文本图中;当标签由不止一个单词组成时,此时可以拆分单词对,分别作为标签的特征在特征空间内参与计算。如图2所示,x表示文本中所有的单词向量,y表示对应的标签,m表示维度;将两者引入特征空间内进行相似度筛选,将超过相似度阈值的近义性质的单词特征留下进行特征融合,作为文档节点初始特征。

S5:将优化后的文本图输入图卷积网络子模型,获得文本图最终特征;

所述图卷积网络子模型包括第一图卷积层和第二图卷积层;

将优化后的文本图输入图卷积网络子模型,优化后的文本图的原始特征矩阵输入第一图卷积层进行信息传播,自适应学习边距离为1的特征信息,获得第一文本图特征:

式中,L

式中,D表示优化后的文本图的的度矩阵,A表示优化后的文本图的邻接矩阵,I表示单位矩阵;

为了解决网络训练过程中梯度消失、爆炸以及特征丢失的问题,利用跳跃式融合特征的方法,将第一文本图特征和优化后的文本图的原始特征矩阵结合后,输入第二图卷积层进行信息传播,自适应学习边距离为2的特征信息,获得文本图最终特征:

式中,Z

S6:对文本特征和文本图最终特征进行融合,获得最终分类特征,并计算短文本数据的预测分类概率;

所述最终分类特征的为:

R=Z

式中,R表示最终分类特征,ε表示平衡参数,Z

所述短文本数据的预测分类概率为:

式中,softmax(R

S7:设置交叉熵损失函数,对短文本分类模型进行优化,调整短文本分类模型的模型参数,获得优化后的短文本分类模型;

所述交叉熵损失函数具体为:

式中,Loss表示交叉熵损失值,y

交叉熵损失函数计算损失值后,通过计算每次迭代的前向计算结果与真实值的差距,调节短文本分类模型训练过程中的权重参数,从而下一步的训练向正确的方向进行。

S8:获取待分类短文本数据,输入优化后的短文本分类模型,获得待分类短文本数据的预测分类概率,确定待分类短文本数据的类别。

实施例3

本实施例提供了一种基于多模态特征融合和图卷积的短文本分类系统,用于实现实施例1或2所述的基于多模态特征融合和图卷积的短文本分类方法,如图3所示,包括:

数据获取及预处理模块,用于获取短文本数据和对应的标签,对短文本数据进行预处理,获得预处理后的短文本数据;

文本图转化模块,用于将预处理后的短文本数据转化为文本图,所述文本图包括文档节点、单词节点、文档-单词的边和单词-单词的边;

分类模型构建模块,用于构建短文本分类模型,包括文本向量子模型和图卷积网络子模型;

初始特征获取模块,用于将单词节点及其对应的标签输入文本向量子模型,获得文档节点初始特征和文本特征;并将文档节点初始特征嵌入到文本图中,获得优化后的文本图;

文本图特征获取模块,用于将优化后的文本图输入图卷积网络子模型,获得文本图最终特征;

特征融合模块,用于对文本特征和文本图最终特征进行融合,获得最终分类特征,并计算短文本数据的预测分类概率;

分类模型优化模块,用于设置交叉熵损失函数,对短文本分类模型进行优化,调整短文本分类模型的模型参数,获得优化后的短文本分类模型;

短文本分类模块,用于获取待分类短文本数据,输入优化后的短文本分类模型,获得待分类短文本数据的预测分类概率,确定待分类短文本数据的类别。

相同或相似的标号对应相同或相似的部件;

附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

技术分类

06120115934344