掌桥专利:专业的专利平台
掌桥专利
首页

一种基于知识共享与自适应学习的蒙汉跨语言情感分析方法

文献发布时间:2024-04-18 20:01:55


一种基于知识共享与自适应学习的蒙汉跨语言情感分析方法

技术领域

本发明属于人工智能技术领域,涉及自然语言处理的情感分析,特别涉及一种基于知识共享与自适应学习的蒙汉跨语言情感分析方法。

背景技术

网络平台的评论数据中包含大量有价值的信息,对这些数据进行情感分析,既能了解人们对某些事件和事物的看法,也能了解相关的价值取向。

有监督的情感分析研究往往需要大量带有情感标签的数据,然而,现有的情感分析研究大多基于汉语,尽管也有一些其他语言的情感分析研究,但从总体来说是远落后于汉语的情感分类研究。由于蒙古语的情感语料比较匮乏,而人工标注的方式在时间和人力上的耗费是非常大的。对此,其中一种常见的做法是借助已有标注语料来促进研究。跨语言情感分析是使用情感资源丰富的源语言帮助目标语言完成情感分分析的方法,能够促进情感资源匮乏的语言的情感分析研究。

在实现手段上,跨语言情感分析将资源丰富且质量较高的语言作为源语言数据,资源相对匮乏且质量较低的语言作为目标语言数据,其目的是利用源语言资源帮助目标语言资源实现情感分析。由于不同语言之间存在结构差异。因此跨语言的研究难点在于:其一,怎样实现两种不同语言之间的空间转换或知识迁移,即怎样能够更好的在保留语言自身含义的同时进行迁移学习;其二,在实现跨语言的基础上,怎样能够更加充分的获取情感信息,并且能够更好的进行情感分析。例如,对于蒙古语而言,由于有关蒙古语的情感分析研究起步较晚以及蒙古语自身词法形态变化相比较英、汉等语言语法复杂且蒙古语语料库相对匮乏等原因,使得传统的跨语言情感分析方法难以直接转用至蒙古语中。

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种基于知识共享与自适应学习的蒙汉跨语言情感分析方法,借助汉语丰富的语料资源,构建蒙汉双语之间的知识关联,实现蒙汉特征资源共享,从而在一定程度上解决蒙古语资源匮乏导致的跨语言情感分析困难的问题。

为了实现上述目的,本发明采用的技术方案是:

一种基于知识共享与自适应学习的蒙汉跨语言情感分析方法,包括如下步骤:

步骤1,对蒙古语情感语料和汉语情感预料进行预处理,分别得到两种语言的初始词向量;

步骤2,利用个性化适配器分别学习蒙汉单词的个性化偏移,并与各自的初始词向量相结合,得到校准后的蒙古语词嵌入向量和汉语词嵌入向量;

步骤3,使用Householder投影将校准后的蒙古语词嵌入向量空间和汉语词嵌入向量空间正交地映射到一个共享的隐空间,并在模型优化中保持映射的正交性;

步骤4,提取出所述隐空间中词向量的全局特征,并对不同的词赋予不同的情感权重;

步骤5,在分类层进行情感分类。

在一个实施例中,所述步骤2,给定一个单词的词向量x,首先对其邻居单词的词向量x

之后,以向量

最后,将初始词向量x与个性化偏移A

在一个实施例中,所述Householder投影,源语言与目标语言的Householder投影参数不共享;即,蒙古语词嵌入向量空间和汉语词嵌入向量空间分别有一个单独的Householder投影模块,且两个投影模块具有不同的参数。

在一个实施例中,所述步骤4,使用Bi-LSTM层和注意力层对所述共享的隐空间的词向量进行处理,用前后两个方向的LSTM网络提取出全局特征。

在一个实施例中,所述步骤4,利用注意力机制重点关注文本中的情感信息,对不同的词赋予不同的情感权重。

在一个实施例中,所述分类层为SoftMax层。

与现有技术相比,本发明的有益效果是:

本发明对蒙汉词语特征进行对齐,采用基于自适应学习的方法构建蒙汉跨语言词向量,使用一种可学习的个性化适配器,基于单语词向量和双语词典,利用单词上下文语义信息为每个词生成个性化偏移,使得原本的词向量被校准到更合适的位置。跨语言词嵌入的核心在于设计一个理想的映射函数,将它们映射到共享的隐空间中。在得到校准的词向量后,引入Householder矩阵,并基于Householder矩阵构造出一种在优化中严格保持正交映射性质的Householder投影,可以更好地保证词向量空间的结构信息不被破坏。

附图说明

图1是本发明整体流程示意图。

图2是共享空间示意图。

图3是BiLSTM模型图。

图4是注意力机制结构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

在情感分析的过程中,需要对互联网中产生的文本数据进行分析并做出情感倾向判断。这一过程往往需要大量带标签的文本资源,但是由于不同语言之间的数据资源差异导致情感分析在不用语言之间发展不平衡。这一现状,促使了跨语言情感分析的诞生。对于蒙古语,一方面其语料资源匮乏,另一方面蒙古语单词语法的形态变化较为特殊且复杂,因此传统跨语言情感分析在蒙古语的应用中效果尚需提升。

本发明即借助汉语来完成蒙古语的情感分析研究,在具体原理上,本发明使用基于自适应学习的跨语言词嵌入,以更好地实现空间转换,并结合双向BiLSTM和注意力机制进行蒙汉跨语言情感分析。

如图1所示,本发明基于知识共享与自适应学习的蒙汉跨语言情感分析方法,主要分两个部分。第一部分:共享空间。首先,个性化适配器(Personalized adapter)基于单语词向量和种子词典,利用单词上下文语义信息(Contextual semantic information)为每个词生成个性化偏移,使得原本的词向量被校准到更合适的位置;接着,Householder投影(Householder projection)将两个校准后的词向量空间正交地映射到一个共享的隐空间,并在模型优化中保持映射的正交性。第二部分:情感分类。使用Bi-LSTM层和注意力层对词向量进行处理,用前后两个方向的LSTM网络提取出全局特征,再利用注意力机制重点关注文本中的情感信息,对不同的词赋予不同的情感权重,最后进入SoftMax层进行情感分类,得到最终的准确率。

再次参考图1,本发明的方法具体包括如下步骤:

步骤1,对蒙古语情感语料和汉语情感预料进行预处理,将预处理后的语料进行词向量表示。

先对蒙古语情感语料和汉语情感语料进行数据清洗操作,然后进行分词操作。对于分词操作,按照每个蒙古语单词为最小单元分开。以汉语语句“商品质量还不错,但服务态度差”为例,其对应的蒙古语表示为

步骤2,利用个性化适配器分别学习蒙古语单词和汉语单词的个性化偏移,并与各自的初始词向量相结合,得到校准后的蒙古语词嵌入向量和汉语词嵌入向量。

蒙古语和汉语拥有自己独特的个性化适配器,以源语言(汉语)为例。给定源语言中的一个单词的词向量x。首先通过对其邻居单词的词向量x

M

其中m

之后,个性化适配器能够基于上下文语义向量

其中σ表示激活函数,它可以是线性的或非线性的。W

步骤3,使用Householder投影将校准后的蒙古语词嵌入向量空间和汉语词嵌入向量空间正交地映射到一个共享的隐空间,并在模型优化中保持映射的正交性。

根据图2所示,在对初始词向量进行校准之后,还需要理想的映射函数,将它们映射到共享的潜在空间中,以方便进行下游的情感分析任务。先前的工作已经证明映射函数的正交性对模型性能至关重要。一种通用的方法是在目标函数中添加额外的约束,以迫使映射矩阵正交。然而,这种约束只能实现近似正交矩阵,而不能实现严格的正交矩阵。本发明准备使用Householder投影。因为Householder矩阵是正交矩阵。基于这样的Householder矩阵,使用一种映射函数Householder投影来保证映射过程是严格正交的。

Householder矩阵表示关于包含原点的超平面的反射。给定单位向量

H(v)=I-2vv

其中||v

基于Householder矩阵,可以设计一个Householdr投影作为映射函数,以确保严格的正交变换。Householder投影是由一组连续的Householder矩阵组成的。具体地说,给定单位向量集

H(v

H(v

其中||v

具体到情感分析任务,在Householder投影中,源语言与目标语言的Householder投影参数不共享。在使用Householder投影将两个校准后的词嵌入向量空间正交地映射到一个共享的隐空间,为了保持映射的正交性,参数不共享是必要的。如果参数是共享的,那么映射可能会失去正交性,导致信息的混淆和丢失。通过使用参数不共享的Householder投影模块,蒙古语汉语都有自己的映射函数,可以保证映射后的词向量在共享空间中能够充分表示任意的正交矩阵。这样可以确保在模型优化中不会破坏映射的正交性,从而更好地进行情感分析任务。所以,参数不共享是为了保持映射的正交性和准确性。在使用Householder投影将两个校准后的词嵌入向量空间正交地映射到一个共享的隐空间,参数不共享指的蒙古语词嵌入向量空间和汉语词嵌入向量空间分别有一个单独的Householder投影模块,且两个投影模块具有不同的参数。以蒙古语为例,其Householder投影模块使用参数n″,其中n″的大小取值为d(词向量的维度),以确保能够充分表示任意的正交矩阵。这个参数n″限定了Householder投影模块的维度,使其能够适应不同维度的词向量。

具体地,对于源语言,即汉语,给定校准的源词嵌入向量

对于目标语言,即蒙古语,给定校准的目标词嵌入向量

其中,V

无论梯度下降中Householder投影的参数被优化成任何数值,整个Householder投影的过程依然是严格正交的。并且通过数学公式的简化和推导,保证了整个计算过程仍然具有与简单的线性变换相同的时间复杂度。

在使用Householder投影将源语言和目标语言映射到同一个空间时,可以通过计算两个向量之间的余弦相似度来判断它们的匹配程度。余弦相似度是一个常用的衡量向量之间相似性的指标。

首先,需要对这两个向量进行归一化,即将它们转化为单位向量。归一化可以通过将每个向量除以其范数来实现。然后,使用余弦公式来计算两个向量之间的余弦相似度:

其中,

因此,当计算得到的余弦相似度接近于1时,可以认为映射后的两个向量更加匹配。反之,如果余弦相似度接近于-1,则表示两个向量匹配程度较低。即,计算得到的余弦相似度越接近1,认为

步骤4,使用Bi-LSTM层和注意力层对所述共享的隐空间的词向量进行处理。具体地,用前后两个方向的LSTM网络提取出全局特征,再利用注意力机制重点关注文本中的情感信息,对不同的词赋予不同的情感权重。

将蒙古语和汉语映射到共享空间后,在共享表示空间中,两种语言的词只要语义相似,就会表现出很高的相似度。例如,“商品”与

LSTM是以长短期记忆细胞为隐藏单元的网络结构,考虑了单词序列之间的顺序依赖性,因此它可以捕捉长距离和近距离的依赖性。LSTM适用于提取长文本的信息,但基本的LSTM扫描只在序列的一个方向进行,Bi-LSTM是它的进一步发展。Bi-LSTM是双向的长短期记忆网络,由前向LSTM与后向LSTM组合而成,可以从前后两个方向对文本数据进行处理,从而解决了LSTM网络无法从后向前编码的问题。Bi-LSTM利用两个方向的LSTM实现了序列中上下文信息的依赖,能更好地利用上下文信息。本发明使用BiLSTM进行建模,如图3所示。Bi-LSTM层提取出文本的特征后,无法对其中信息的重要程度进行区分,鉴于语句中的不同部分对于整段语料的情感极性贡献不同,语句中的某些词语可能对情感极性影响很大,有些词语则无关紧要,比如本案例中的“服务态度”“差”的影响就很大,所以在BiLSTM上加入注意力层对情感信息进行加权处理,以突出对句子情感影响更大的部分,如图4所示。这样输出的特征向量包含了单词的情感特征信息和计算出的权重,用于判断该词的重要程度。

步骤5,进入SoftMax层进行情感分类,得到最终的准确率。。

在经过了BiLSTM和注意力层之后输出的特征向量包含了单词的情感特征信息和计算出的权重,用于判断该词的重要程度。之后可以进行最后的情感分类。情感分类层用于判断文档的情感极性,用线性函数将文本得到的特征表示转化为实值向量,并将该向量映射到一个类别数是C的向量空间上,最后加上softmax层,将经过模型处理的文本信息进行情感分类,输出的分类概率为p

其中,W表示Attention机制层到输出层的待训练的权重系数矩阵,b

技术分类

06120116575931