掌桥专利:专业的专利平台
掌桥专利
首页

一种基于自然语言处理和语义相似任务的元嵌入系统

文献发布时间:2023-06-19 11:02:01



技术领域

本发明涉及自然语言处理技术领域,更具体而言,涉及一种基于自然语言处理和语义相似任务的元嵌入系统。

背景技术

过去的二十年中,人们进行了大量的研究,想要提出了一个单一的模型来解决所有主要的NLP(自然语言处理)任务,但是一直没法取得突破性进展。对于现在的NLP任务有太多的选择。因此,对于NLP的从业者来说,选择适合自己使用的模型的任务就成了一项挑战。虽然NLP已经经过长足的发展在许多领域都得到了可喜的成就,但目前仍然没有一个模型能通用于所有常见的NLP任务,而且对于NLP初从业者来说,选择合适自己的模型仍有较大难度。为了解决上述问题本发明设计了一种基于自然语言处理和语义相似任务的元嵌入系统。

发明内容

为解决上述技术问题,本发明采用的技术方案为:

一种基于自然语言处理和语义相似任务的元嵌入系统,包括语言模型嵌入模块、通用句子编码模块、Infersent模块和评估模块;

所述语言模型嵌入模块根据预先处理的自然语言的语义特征,采用多种嵌入方法对预处理后的自然语言进行重新建模;

所述通用句子编码模块将自然语言文本编码为大维度向量,用于语义相似性和聚类自然语言任务;

所述通用句子编码模块用于监督训练从而获取句子嵌入和词嵌入,并形成元嵌入;

所述评估模块用于对Infersent模块所形成的元嵌入的嵌入效果进行评估的,评估指标包括余弦相似度、皮尔森相关系数和准确度。

所述多种嵌入方法包括级联嵌入CON、奇异值分解嵌入SVD、广义典型相关分析嵌入GCCA、动态元嵌入DME和上下文动态元嵌入CDME。

所述预先处理的自然语言是深度上下文化的词向量,所述词向量是深度双向语言模型内部状态biLM的学习函数,并且在大型文本语料库上预先进行训练。

所述通用句子编码模块包括Transformer编码器、DNA编码器和双向LSTM编码器,所述编码器通过使用斯坦福自然语言推断数据集进行训练。

所述余弦相似度是一种度量,用于确定如何区分两个相似的嵌入文本,它是两个向量(A,B)的点积,余弦相似度具体表达如下:

所述A和B表示两个向量形式的标记/句子嵌入,余弦相似度产生介于0-1之间的分数,其中1.00表示最大相似度,0.00表示最小相似度;病态的R&STS-B数据集得分在0-5之间,因此对余弦相似性评分进行了相应的标度。

所述皮尔森相关系数是度量两个连续变量X和Y之间关联的强度,即测量原始数据集的余弦相似度分数与预测之间的关联强度,皮尔森相关系数具体表达如下:

所述n表示样本大小,所述X

本发明与现有技术相比,具有的有益效果是:

本发明提供了一种基于自然语言处理和语义相似任务的元嵌入系统,提出了一种基于少数状态模型(Sota)的元嵌入方法来有效地处理主流的NLP任务,如分类、语义相关性和文本相似度等。通过对集成和动态变量进行了比较,以确定一种有效的方法。元嵌入可以使用多个好的单个嵌入并集成它们,从而覆盖单词语义的各个方面,从而使其更加丰富,并形成一个更大的词汇表,在跨域任务中提供了巨大的优势。

附图说明

图1为本发明的系统框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种基于自然语言处理和语义相似任务的元嵌入系统,包括语言模型嵌入模块、通用句子编码模块、Infersent模块和评估模块;

所述语言模型嵌入模块根据预先处理的自然语言的语义特征,采用多种嵌入方法对预处理后的自然语言进行重新建模;

所述通用句子编码模块将自然语言文本编码为大维度向量,用于语义相似性和聚类自然语言任务;

所述通用句子编码模块用于监督训练从而获取句子嵌入和词嵌入,并形成元嵌入;

所述评估模块用于对Infersent模块所形成的元嵌入的嵌入效果进行评估的,评估指标包括余弦相似度、皮尔森相关系数和准确度。

优选的,所述多种嵌入方法包括级联嵌入CON、奇异值分解嵌入SVD、广义典型相关分析嵌入GCCA、动态元嵌入DME和上下文动态元嵌入CDME。

优选的,所述预先处理的自然语言是深度上下文化的词向量,所述词向量是深度双向语言模型内部状态biLM的学习函数,并且在大型文本语料库上预先进行训练。

优选的,所述通用句子编码模块包括Transformer编码器、DNA编码器和双向LSTM编码器,所述编码器通过使用斯坦福自然语言推断数据集进行训练。

优选的,所述余弦相似度是一种度量,用于确定如何区分两个相似的嵌入文本,它是两个向量(A,B)的点积,余弦相似度具体表达如下:

优选的,所述A和B表示两个向量形式的标记/句子嵌入,余弦相似度产生介于0-1之间的分数,其中1.00表示最大相似度,0.00表示最小相似度;病态的R&STS-B数据集得分在0-5之间,因此对余弦相似性评分进行了相应的标度。

优选的,所述皮尔森相关系数是度量两个连续变量X和Y之间关联的强度,即测量原始数据集的余弦相似度分数与预测之间的关联强度,皮尔森相关系数具体表达如下:

优选的,所述n表示样本大小,所述X

优选的,所述准确度是一个直接的度量标准,是以总正确的百分比来衡量的。

实施例:

参照图1,一种基于自然语言处理和语义相似任务的元嵌入系统,包括:

语言模型嵌入模块,用于根据预先处理的自然语言的语义特征,采用多种嵌入方法对预处理后的自然语言进行重新建模。具体地,语言模型嵌入ELMo是一种深度上下文化的词汇表示,它对复杂单词的语法和语义结构等使用特征以及多义词建模都进行了重新建模。所述预先处理的自然语言是深度上下文化的词向量,这些词向量是深度双向语言模型内部状态biLM的学习函数,是在大型文本语料库上预先训练的。语言模型嵌入ELMo可以相对容易地应用到现有的模型中,并大大提高了处理各种复杂的NLP问题的技术水平,包括回答问题、分类文本蕴涵等。所述多种嵌入方法包括级联嵌入CON、奇异值分解嵌入SVD、广义典型相关分析嵌入GCCA、动态元嵌入DME和上下文动态元嵌入CDME。

通用句子编码模块,将自然语言文本编码为大维度向量,用于语义相似性、聚类和其他自然语言任务。具体地,所述通用句子编码模块包括Transformer编码器、DNA编码器和双向LSTM编码器,句子编码器使用斯坦福自然语言推断数据集进行训练。它们都有精确度和计算需求的权衡,该数据集包含570k人类生成的英语句子对,被认为是构建句子语义理解的最大的高质量标记数据集之一。虽然带有Transformer编码器的编码器精度更高,但在计算方面更昂贵。用DNA编码的方法计算成本更低,准确度也相对较低。实验发现使用双向LSTM(BiLSTM)编码器可以获得最佳效果。通过实验表明ELMo在9个任务中的5个下游任务中取得了最好的结果。而在转述检测以及在疾病e(蕴涵)中,InferSent取得了最好的结果。在此基础上,采用变压器(Transformer)模型的通用语句编码器在语义关联和文本相似度任务中取得了良好的效果。因此,可以认为这些SOTA可以用作源嵌入。

Infersent模块,用于监督训练来获取句子嵌入和词嵌入,并形成元嵌入。具体地,不同于传统的语句嵌入方法(sentence2vec)所采用的是无监督学习方法,InferSent是包含有监督的训练来获取句子嵌入,是为数不多的有监督训练句向量的方法,而且效果也不错。

评估模块,用于对嵌入效果进行评估,评估指标包括余弦相似度、皮尔森相关系数和准确度。

所述余弦相似度是一种度量,用于确定如何区分两个相似的嵌入文本,它是两个向量(A,B)的点积,余弦相似度具体表达如下:

其中,A和B表示两个向量形式的标记/句子嵌入,余弦相似度产生介于0-1之间的分数,其中1.00表示最大相似度,0.00表示最小相似度;病态的R&STS-B数据集得分在0-5之间,因此对余弦相似性评分进行了相应的标度。

所述皮尔森相关系数是度量两个连续变量X和Y之间关联的强度,即测量原始数据集的余弦相似度分数与预测之间的关联强度,皮尔森相关系数具体表达如下:

其中,n表示样本大小,X

准确度AUC是一个直接的度量标准,是以总正确的百分比来衡量的。

上述基于自然语言处理和语义相似任务的元嵌入系统中,通过对源模型执行了最初的评估任务有了一个性能基准,有4种可能的源代码嵌入组合,包括语言模型嵌入ELMo+通用句子编码USE+Infersent、语言模型嵌入ELMo+通用句子编码USE、通用句子编码USE+Infersent、语言模型嵌入ELMo+Infersent。上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

相关技术
  • 一种基于自然语言处理和语义相似任务的元嵌入系统
  • 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
技术分类

06120112773600