掌桥专利:专业的专利平台
掌桥专利
首页

语料处理模型训练方法以及语料处理方法

文献发布时间:2024-04-18 19:58:30


语料处理模型训练方法以及语料处理方法

技术领域

本申请实施例涉及人工智能领域,尤其涉及语料处理模型训练方法以及语料处理方法。

背景技术

相关技术中的自然语言处理任务通常以语义相似度为核心,语义相似度的建模基础是对同义词进行判断,也就是说,从同义词角度准确表征语料的语义对于自然语言处理任务而言十分重要。但是,相关技术目前对于语料的表征能力不足,导致语料的表征信息在同义词判断场景中的表现不佳,从而影响了自然语言处理任务的实施效果。

发明内容

为了解决上述至少一个技术问题,本申请实施例提供语料处理模型训练方法以及语料处理方法,以解决相关技术对于语料的表征能力不足,导致语料的表征信息在同义词判断场景中的表现不佳,从而影响了自然语言处理任务的实施效果的技术问题。

一方面,本申请实施例提供了一种语料处理模型训练方法,所述方法包括:

获取多个样本语料,每一所述样本语料包括样本语料信息和所述样本语料信息中的目标分词的分词信息;

针对每一所述样本语料执行下述操作:基于第一网络对所述样本语料信息进行语料特征提取,得到样本语料特征;基于第二网络和所述分词信息,对所述样本语料特征进行基于语境的分词特征提取,得到样本语境实体特征;基于所述分词信息和第三网络,融合所述样本语料特征和所述样本语境实体特征,得到所述目标分词对应的样本表征信息;

根据同义词分布,以及各所述目标分词分别对应的样本表征信息,在固定所述第一网络的参数的情况下调整所述第二网络的参数,所述同义词分布表征所述多个样本语料中的各所述目标分词中同义词的分布情况;

基于所述第一网络、所述第三网络和调参后的第二网络,得到语料处理模型。

另一方面,本申请实施例提供一种语料处理方法,所述方法包括:

获取目标语料,所述目标语料包括语料信息和所述语料信息中的目标分词的分词信息;

基于语料处理模型对所述目标语料进行处理,得到所述目标分词对应的表征信息,所述语料处理模型前述的语料处理模型训练方法训练得到。

另一方面,本申请实施例提供一种语料处理模型训练装置,所述装置包括:

样本获取模块,用于获取多个样本语料,每一所述样本语料包括样本语料信息和所述样本语料信息中的目标分词的分词信息;

数据处理模块,用于针对每一所述样本语料执行下述操作:基于第一网络对所述样本语料信息进行语料特征提取,得到样本语料特征;基于第二网络和所述分词信息,对所述样本语料特征进行基于语境的分词特征提取,得到样本语境实体特征;基于所述分词信息和第三网络,融合所述样本语料特征和所述样本语境实体特征,得到所述目标分词对应的样本表征信息;

训练模块,用于根据同义词分布,以及各所述目标分词分别对应的样本表征信息,在固定所述第一网络的参数的情况下调整所述第二网络的参数,所述同义词分布表征所述多个样本语料中的各所述目标分词中同义词的分布情况;

基于所述第一网络、所述第三网络和调参后的第二网络,得到语料处理模型。

另一方面,本申请实施例提供一种语料处理装置,所述装置包括:

语料获取模块,用于获取目标语料,所述目标语料包括语料信息和所述语料信息中的目标分词的分词信息;

语料处理模块,用于基于语料处理模型对所述目标语料进行处理,得到所述目标分词对应的表征信息,所述语料处理模型根据前述的语料处理模型训练方法训练得到。

另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种语料处理模型训练方法或语料处理方法。

另一方面,本申请实施例提供了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现上述的一种语料处理模型训练方法或语料处理方法。

另一方面,本申请实施例提供了一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述的一种语料处理模型训练方法或语料处理方法。

本申请实施例提供语料处理模型训练方法以及语料处理方法。该方法在训练语料处理模型的过程中,可以固定用于对语料进行整体的特征提取的第一网络中的参数,并调整用于对语料进行基于语境的分词特征提取的第二网络中的参数,第二网络关注的是语料的语境以及目标分词自身的实体特征,并且第二网络的参数的调整是在不影响第一网络的参数的情况下进行的,这就使得对于同义词自身的信息挖掘以及与同义词相关的上下文信息挖掘的结果对于语料整体特征的提取不会产生不良影响,也就是说,避免第一网络产生语义遗忘,有利于维持第一网络的语义理解能力。第二网络综合考虑到了同义词的上下文天然的敏感性,因此,可以兼容同义词由于上下文敏感所造成的歧义性,达到了兼容歧义性的基于上下文的同义词信息提取的目的,避免了相关技术中由于忽视歧义性导致的同义词表征能力下降的弊端。通过解决了歧义性问题和语义遗忘问题,本申请实施例训练得到的语料处理模型显然具备更好的同义词表征能力。

基于该语料处理模型可以提取到目标语料中目标分词的更为准确的表征信息。语料是由分词构成的,分词的表征信息是执行自然语言任务的基础,因此,本申请实施例中提供的高准确度的目标分词的表征信息,对于提升自然语言处理任务在各个下游业务中的应用中对于目标语料的处理效果而言都具备明显的性能提升作用。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案和优点,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1是本申请实施例提供的语料处理模型训练方法以及语料处理方法的实施框架示意图;

图2是本申请实施例提供的一种语料处理模型训练方法的流程示意图;

图3是本申请实施例提供的实施自注意力机制的自注意力层的结构示意图;

图4是本申请实施例提供的第二网络结构示意图;

图5是本申请实施例提供的语料处理模型的结构示意图;

图6是本申请实施例提供的语料处理方法流程示意图;

图7是本申请实施例提供的一种语料处理模型训练装置的框图;

图8是本申请实施例提供的一种语料处理装置的框图;

图9是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图;

图10是本申请实施例提供的一种电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。

需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本申请实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请实施例,并不用于限定本申请实施例。

以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。为了便于理解本申请实施例上述的技术方案及其产生的技术效果,本申请实施例首先对于相关专业名词进行解释:

云技术(Cloud technology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个资源都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交换系统、机电一体化等技术。人工智能软件技术包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

深度学习:深度学习的概念源于人工神经网络的研究,其属于机器学习领域。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。

卷积神经网络:Convolutional Neural Networks,CNN。是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为平移不变人工神经网络。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括语料处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

Transformer:一种采用自注意力结构抽取序列各元素之间两两交互关系的模型,被广泛应用于自然语言处理、图像处理、和时序预测领域。Transformer就是一个基于多头注意力机制的模型,本质上是一个Encoder-Decoder(编码-解码)模型。TransformerEncoder模型的输入是一句话的字嵌入表示和其对应的位置编码信息,模型的核心层是一个多头注意力机制。多头注意力机制就是使用多个注意力机制进行单独计算,以获取更多层面的语义信息,然后将各个注意力机制获取的结果进行拼接组合,得到最终的结果。Add&Norm层会把Multi-Head Attention(多注意力)层的输入和输出进行求和并归一化处理后,传递到Feed Forward(前向传递)层,最后会再进行一次Add&Norm处理,输出最终的词向量矩阵。Transformer是一个全连接(或者是一维卷积)加Attention的结合体。算法的并行性好,符合目前的硬件环境。

BERT模型的全称是:Bidirectional Encoder Representations fromTransformer。BERT模型是双向Transformer的编码器。目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的表征,即文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。BERT模型的主要输入是文本中各个字/词的原始词向量,输出是文本中各个字/词融合了全文语义信息后的向量表示。

相关技术中的自然语言处理任务(NLP任务)通常以语义相似度为核心,比如实体链接,实体消歧,实体对齐,单词简化,知识图谱策展等均是自然语言处理任务在下游业务中的应用,这类任务的核心挑战是如何建模实体在复杂上下文情况下的语义相似度,语义相似度的建模基础是对同义词进行判断,因此,同义词建模对于NLP任务而言十分重要。

相关技术中通常基于人工智能技术训练相关的语料处理模型来完成NLP任务的建模,其中较为常用的是以BERT为代表的语料处理模型,BERT以掩码遮蔽(Masked LanguageModel)作为训练任务,主要通过单词共现的方式学习语言知识,但是单纯的BERT模型并不能够很好的建模实体间的同义词关系。具体地,本申请实施例指出,直接使用BERT模型对同义词进行表征建模可能破坏了BERT本身的语义理解能力,这是由于同义词所表达的确切的语义相似性和掩码语言模型所蕴含的广义的概念相关性往往是相互矛盾的,这就使得这种破坏并不仅仅体现在BERT模型上,而是体现在各种以掩码遮蔽为预训练任务的自然语言处理模型上。以BERT为例来说明这种破坏产生的原因就是采用掩码遮蔽作为预训练任务的BERT获得了基于单词共现的语义理解能力,但是这类模型的特征空间中的邻接词是相关词而不是同义词,例如,BERT中good的前10个近邻包含bad这样的反义词。如果直接在这一类的模型基础上粗暴注入同义词知识,这将不可避免地导致语义冲突,削弱模型原有的语义理解能力,从而产生语义遗忘。因此,本申请实施例指出直接在这类模型自身上进行同义词建模是以牺牲语义理解为代价的建模,这也导致这类技术不具备通用性。

相关技术还可以训练基于知识图谱增强的语料处理模型,随着大量通用和特定领域的知识图谱的出现,知识图谱成为语料处理模型重要的知识源,从而产生了较多通过将知识图谱知识融入模型后得到的基于知识图谱增强的语料处理模型,这一类模型对结构化三元组(主体(subject),关系(relation),对象(object))的知识进行学习,从而学习实体在知识图谱中的表示,并将实体的知识表示融入实体的语义表示中。但是,本申请实施例提出,对于以语义相似度为核心建模来进行处理的任务,虽然结构化知识(特别是知识图谱)中隐含的同义词知识可能对这类任务的执行效果有一定程度的增益,但是相比于直接融入同义词知识,这类方法是低效的,更为不利的是,知识图谱中存在对冗余和不相关的知识,这反而可能导致负作用的知识融入,甚至降低这类语料处理模型对于同义词的表征效果。可见,单纯的基于知识图谱得到的语料处理模型可能会受到噪声知识的影响,从而降低同义词的表征能力。

相关技术还可以训练基于同义词知识增强的语料处理模型。这类模型目前比较少,而且,这类模型输入的是无上下文的实体对,使得这类模型本身的语义理解能力遭到了抑制或破坏。

本申请实施例指出,这种基于同义词知识增强的语料处理模型还可能忽视了同义词的歧义性。同义词是天然上下文敏感的,直观地说,有些实体是同义词,因此在语义空间中彼此接近,但在某些特定语境下却有比较大的差异,因此在相应的语义空间中彼此相距甚远。然而,目前基于同义词知识增强的语料处理模型的训练过程忽略了这种歧义性,并强行地将同义词对在语义空间中拉近,这导致训练得到的基于同义词知识增强的语料处理模型缺少基于上下文对同义词进行建模的能力,对同义词的表征能力也就受到影响。本申请实施例指出如果两个词是同义词,则这两个同义词分别对应的表征信息在不包括上下文的情况下的语义空间中的距离应当是接近的,但是,如果某些特定语境下同义词在语义空间中彼此相距甚远,则相应的表征信息也应该在包括上下文的语境对应的语义空间中彼此距离也是远的。这样的同义词的表征信息才是好的。

经过前述可知,直接在BERT的基础上进行同义词表征可能产生语义遗忘,直接基于知识图谱进行同义词表征可能学习到噪声知识从而降低了表征效果,而基于同义词知识增强的语料处理模型又可能忽视同义词的歧义性导致降低表征效果,因此,相关技术中尚无法提出能够对同义词进行有效准确的表征的技术方案。有鉴于此,本申请实施例提供一种语料处理模型训练方法以及基于训练得到的语料处理模型进行语料处理的方法。

语料处理模型训练方法在训练语料处理模型的过程中,可以固定用于对语料进行整体的特征提取的第一网络中的参数,并调整用于对语料进行基于语境的分词特征提取的第二网络中的参数,第二网络关注的是语料的语境以及目标分词自身的实体特征,并且第二网络的参数的调整是在不影响第一网络的参数的情况下进行的,这就使得对于同义词自身的信息挖掘以及与同义词相关的上下文信息挖掘的结果对于语料整体特征的提取不会产生不良影响,也就是说,避免第一网络产生语义遗忘,有利于维持第一网络的语义理解能力。第二网络综合考虑到了同义词的上下文天然的敏感性,因此,可以兼容同义词由于上下文敏感所造成的歧义性,达到了兼容歧义性的基于上下文的同义词信息提取的目的,避免了相关技术中由于忽视歧义性导致的同义词表征能力下降的弊端。通过解决了歧义性问题和语义遗忘问题,本申请实施例训练得到的语料处理模型显然具备更好的同义词表征能力。

语料处理方法基于该语料处理模型可以提取到目标语料中目标分词的更为准确的表征信息。语料是由分词构成的,分词的表征信息是执行自然语言任务的基础,因此,本申请实施例中提供的高准确度的目标分词的表征信息,对于提升自然语言处理任务在各个下游业务中的应用中对于目标语料的处理效果而言都具备明显的性能提升作用。

请参阅图1,图1是本说明书实施例提供的语料处理模型训练方法以及语料处理方法的实施框架示意图,如图1所示,该实施框架可以至少包括客户端10、服务器20,客户端10和服务器20通过网络30通信,该实施框架也可以被认为是语料处理系统,该语料处理系统用于训练语料处理模型以及基于该模型提供语料处理服务。服务器20可以位于云环境,该服务器20为该云环境中的语料处理系统中的节点,该节点为云环境中的任意节点。

该服务器20可以首先训练语料处理模型。宏观来说,可以获取多个样本语料,每一上述样本语料包括样本语料信息和上述样本语料信息中的目标分词的分词信息;针对每一上述样本语料执行下述操作:基于第一网络对上述样本语料信息进行语料特征提取,得到样本语料特征;基于第二网络和上述分词信息,对上述样本语料特征进行基于语境的分词特征提取,得到样本语境实体特征;基于上述分词信息和第三网络,融合上述样本语料特征和上述样本语境实体特征,得到上述目标分词对应的样本表征信息;根据同义词分布,以及各上述目标分词分别对应的样本表征信息,在固定上述第一网络的参数的情况下调整上述第二网络的参数,上述同义词分布表征上述多个样本语料中的各上述目标分词中同义词的分布情况;基于上述第一网络、上述第三网络和调参后的第二网络,得到语料处理模型。

在得到语料处理模型的情况下,服务器20可以对外提供语料处理服务。在获取到客户端10发出的语料处理请求的情况下,可以获取目标语料,上述目标语料包括语料信息和上述语料信息中的目标分词的分词信息;基于语料处理模型对上述目标语料进行处理,得到上述目标分词对应的表征信息,上述语料处理模型根据前述的语料处理模型训练方法训练得到。

本申请实施例的上述框架可以提供各种场景下的应用所需的语料处理能力,该应用包括但不限于云技术、云游戏、云渲染、人工智能、智慧交通、辅助驾驶、视频媒体、智能社区、即时通信等。该框架中各组件可以是终端设备或服务器。终端设备包括但不限于手机、电脑、智能语音交换设备、智能家电、车载终端等。

以下介绍本申请实施例的一种语料处理模型训练方法,图2示出了本申请实施例提供的一种语料处理模型训练方法的流程示意图,该语料处理模型训练方法可以基于前文的服务器20执行。本申请实施例提供了如实施例或流程图上述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统、终端设备或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境),上述方法可以包括:

S201.获取多个样本语料,每一上述样本语料包括样本语料信息和上述样本语料信息中的目标分词的分词信息。

本申请实施例中的样本语料信息用于记录样本语料中的内容,比如,其可以是完整的一句话或者一段话,也可以是对该一句话或者一段话进行分词之后得到的分词序列。上述分词信息用于指示样本语料中的内容中哪个词是目标分词。因此,分词信息可以通过该目标分词在该一句话或者该一段话中的所在位置来表征。

在一个实施例中,可以通过x={UID,w,p

本申请实施例是基于同义词来训练语料处理模型的方案,因此,目标分词可以被认为具备形成同义词能力的标的词。在一个具体的实施方式中,可以使用{S

S202.针对每一上述样本语料执行下述操作:基于第一网络对上述样本语料信息进行语料特征提取,得到样本语料特征;基于第二网络和上述分词信息,对上述样本语料特征进行基于语境的分词特征提取,得到样本语境实体特征;基于上述分词信息和第三网络,融合上述样本语料特征和上述样本语境实体特征,得到上述目标分词对应的样本表征信息。

本申请实施例中第一网络可以被理解为对语料的整体特征进行提取的网络,本申请实施例并不限定该第一网络的具体结构,其可以使用相关技术中的BERT模型完成语料特征提取操作,当然,也可以使用其他进行NLP处理的神经网络来实施该语料特征提取操作,本申请实施例不做限定。在一个实施例中,上述样本语料信息包括样本语料分词序列,上述基于第一网络对上述样本语料信息进行语料特征提取,得到样本语料特征,包括将上述样本语料分词序列输入上述第一网络,得到上述样本语料特征。具体来说,可以将该样本语料分词序列输入BERT模型,得到上述样本语料特征。

本申请实施例中可以设置多个自注意力网络,自注意力网络关注的并不是整体语义,而是每个自注意力网络关注其所对应的某个内容领域的语料中与目标分词关联的信息,也就是说,不同自注意力网络学习的是不同领域的同义词知识。本申请实施例可以在基于第二网络和上述分词信息,对上述样本语料特征进行基于语境的分词特征提取,得到样本语境实体特征之前,确定至少两个自注意力网络,不同的上述自注意力网络对应不同的语料内容领域;将上述样本语料对应的语料内容领域指向的自注意力网络,确定为上述第二网络。比如,可以将样本语料分为生活领域、生物领域、医疗领域、通用领域、电器领域等各个领域,如果样本语料为一条生物领域中的语料,则将生物领域对应的自注意力网络确定为第二网络,使用各个领域的样本语料,可以训练各个领域分别对应的自注意力网络。

各个自注意力网络都是基于自注意力机制来工作的,从本质上理解,自注意力机制是从大量信息中有筛选出少量重要信息,并聚焦到这些重要信息上,忽略大多不重要的信息的一种信息处理机制。下述公式(1-2)可以被认为是自注意力机制的公式化表达:

其中,

为了提供一种可以高效准确地进行基于自注意力机制的、实现基于语境的分词特征提取的网络结构,本申请实施例以第二网络为例进行详述。上述第二网络包括若干顺次连接的自注意力层,也就是说包括位于首部的第一自注意力层,和位于第一自注意力层之后的自注意力层。每一自注意力层的结构可以相同或不同。第一自注意力层包括顺次连接的至少一个第一特征提取层和至少一个第二特征提取层,上述第一特征提取层和上述第二特征提取层均为基于自注意力机制的网络层。本申请实施例并不限定第一特征提取层和第二特征提取层各自的具体数量,比如,第一特征处理层有K个,K为大于或等于1的正整数,第二特征处理层有1个。请参考图3,其示出实施自注意力机制的自注意力层的结构示意图。图3中包括顺次连接的第一个映射层、第一个Transformer层、第二个Transformer层和第二个映射层,其中映射层用于进行常规的特征提取,Transformer层用于进行基于自注意力机制的特征提取,可以认为Transformer层就是前文的特征提取层,当然,映射层和Transformer层各自的数量和排列方式也可以根据情况进行设计,本申请实施例不做限定。

在一个实施方式中,如果某个自注意力层为上述第二网络中除第一自注意力层之外的任一自注意力层,在上述第一网络包括至少两个顺序连接的语料特征提取层的情况下,可以将该自注意力层作为第二自注意力层,上述第二自注意力层与第一关联层连接,并且上述第二自注意力层与第二关联层连接;上述第一关联层为上述第一网络中与上述第二自注意力层连接的语料特征提取层,上述第二关联层为上述第二网络中上述第二自注意力层的前一个自注意力层。请参考图4,其示出第二网络结构示意图。对于第T个自注意力层而言,T为大于1的正整数,该第T个自注意力层可以以与该第T个自注意力层连接的语料特征提取层的输出Out1和第T-1个自注意力层的输出Out2共同作为输入,从而实现残差连接。在一些实施例中,也可以将Out1和Out2的融合结果,比如相加结果或者卷积结果,作为上述输入以实现残差连接,当然,本申请实施例并不限定具体的融合方式。

在一个具体的实施例中,各个自注意力层的数据处理方式类似,以第一自注意力层为例,可以将各上述第一特征提取层的注意力进行全局分配,基于分配后的各上述第一特征提取层对上述样本语料特征进行特征提取,得到样本语境中间特征;将各上述第二特征提取层的注意力全部分配至上述目标分词对应的信息,基于各上述第二特征提取层对上述样本语境中间特征进行特征提取,得到上述样本语境实体特征。本申请实施例中由第一网络各个语料特征处理层输出的数据都被称之为样本语料特征。

也就是说,多个第一特征提取层可以执行顺序的多次基于全局注意力的特征提取,而第二特征提取层在样本语境中间特征的数据基础上捕获目标分词的词义信息,从而使得最终输出的样本语境实体信息中充分关注到上下文语境同时也得到目标分词的词义信息,也就是完成了基于语境的分词特征提取。

为了实现第一特征提取层和第二特征提取层不同的注意力分配方式,本申请实施例提供一种基于掩码控制注意力分配的方式。具体来说,上述将各上述第一特征提取层的注意力进行全局分配,基于各上述第一特征提取层对上述样本语料特征进行特征提取,得到样本语境中间特征,包括:确定各上述第一特征提取层分别对应的第一掩码矩阵,上述第一掩码矩阵中各个元素均大于第一阈值,每一上述第一特征提取层根据对应的上述第一掩码矩阵进行自注意力特征提取,得到上述样本语境中间特征。将各上述第二特征提取层的注意力全部分配至上述目标分词对应的信息,基于各上述第二特征提取层对上述样本语境中间特征进行特征提取,得到上述样本语境实体特征,包括:确定各上述第二特征提取层分别对应的第二掩码矩阵,上述第二掩码矩阵中对应于上述目标分词的位置的元素均小于第二阈值,并且其他元素均大于上述第一阈值,上述第二阈值小于上述第一阈值;每一上述第二特征提取层根据对应的上述第二掩码矩阵,对上述样本语境中间特征进行特征提取,得到上述样本语境实体特征。

本申请实施例并不对第一阈值和第二阈值进行限定,可以确定的是第一阈值越大,第一掩码矩阵指示全局关注的能力越强,第二阈值越小,第二掩码矩阵指示对目标分词进行重点关注的能力越强。在一个实施例中,第一掩码矩阵各个元素可以被设置为无穷大,或者一个足够大的数,第二掩码矩阵中可以设置两种数,一种是无穷大或者足够大的数,一种是0。第一掩码矩阵和第二掩码矩阵的设置方式的原理在于本申请实施例所提出的基于掩码控制的注意力分配方式,该注意力分配方式的核心就在于根据掩码矩阵的元素分配注意力,对于掩码矩阵的某个元素

因此,在一个实施例中,可以设置通过公式(3)表示第一掩码矩阵和第二掩码矩阵。

在一个具体的实施方式中,上述分词信息包括上述目标分词的首尾位置;上述基于上述分词信息和第三网络,融合上述样本语料特征和上述样本语境实体特征,得到上述目标分词对应的样本表征信息,包括基于上述第三网络执行下述操作:融合上述样本语料特征和上述样本语境实体特征,得到样本融合特征;根据上述目标分词的首尾位置,在上述样本融合特征中提取上述目标分词对应的样本表征信息。

当然,本申请实施例并不限定第三网络的具体结构,其可以是任何能够实现信息融合的神经网络。在一个实施方式中,可以设置聚合器并将该聚合器作为上述第三网络。该聚合器可以拼接特征H

S203.根据同义词分布,以及各上述目标分词分别对应的样本表征信息,在固定上述第一网络的参数的情况下调整上述第二网络的参数,上述同义词分布表征上述多个样本语料中的各上述目标分词中同义词的分布情况。

同义词分布可以根据样本语料中目标分词的同义词分布规律得到,本申请实施例并不限定分布规律的获取方式。在一个实施方式中,每个样本语料的分词信息都包括同义词标识,因此,可以基于同义词标识在多个样本语料中划分正负样本对。即根据上述多个样本语料中的各上述目标分词分别对应的同义词标识,生成正样本对和负样本对,上述正样本对中各上述目标分词具备相同的同义词标识,上述负样本对中各上述目标分词具备不同的同义词标识。然后,根据各上述目标分词分别对应的样本表征信息,通过对比学习进行第二网络的调参,上述对比学习用于缩短正样本对中各上述目标分词分别对应的样本表征信息之间的距离,并且放大负样本对中各上述目标分词分别对应的样本表征信息之间的距离。显而易见,本申请实施例中对于第一网络的参数是固定的,通过冻结第一网络的参数可以解决语义遗忘问题。

既然划分正负样本对,就可以通过对比学习的方式来进行调参,关于对比学习可以参考相关技术,本申请实施例不做赘言。本申请实施例使用对比学习来让第二网络学习特征空间,使得同义词实体被聚拢而非同义词实体之间的表示远离。本申请实施例并不限定对比学习使用的损失函数,比如,可以使用三元组损失或者InfoNCE损失,其中InfoNCE损失是在Representation Learning with Contrastive Predictive Coding这篇论文中提出的用于进行对比学习使用的损失函数。

为了取得较好的对比学习效果,本申请实施例提出可以使得对比学习过程中负样本对产生的损失的权重与上述负样本对中的两个样本表征信息的相似度正相关,从而达到更好的对比学习效果,也就是说,利用面向困难负样本的对比学习拉进正样本对距离,即针对同义词而言,尽量拉远负样本对距离,负样本对越困难,这种拉远的努力也越大,当然,只需要达到负样本对产生的损失的权重与上述负样本对中的两个样本表征信息的相似度正相关的技术效果即可,本申请实施例并不限定具体的实施方式,比如,可以在三元组损失函数的基础上加上根据相似度确定的权值即可。在一个具体的实施方式中,根据前文,本申请实施例中使用同义词标识来表征同义词,同义词标识使用UID来表示。可以从多个样本语料形成的批次样本中生成正负样本对,具体来说,可以针对锚点样本xi,得到正样本对。锚点样本xi可以被理解为任意一个批次样本的其中某个样本语料。正样本为一个批次中和他拥有相同UID的样本语料,其他的则为负样本。即xi的正样本pos(x

其中,

本申请实施例中可以基于梯度下降法对第二网络的参数进行调整。梯度下降法是机器学习和深度学习领域中进行网络参数调整时经常使用的、通过梯度下降的方式对网络参数进行一阶最优化调整的方法。本申请实施例中梯度下降法可以引导上述参数向减少损失的方向进行调整。当调整次数达到预设的次数阈值,或者当损失小于预设的损失阈值的情况下,停止调参,得到上述语料处理模型。

S204.基于上述第一网络、上述第三网络和调参后的第二网络,得到语料处理模型。

具体来说,语料处理模型中上述第一网络、调参后的第二网络和上述第三网络为顺序连接的状态,上述第一网络和上述第三网络也是连接状态。

请参考图5,其示出语料处理模型的结构示意图。该语料处理模型包括了第一网络,在训练阶段该第一网络被冻结参数,示例性的,可以使用BERT作为骨架,其中的语料特征提取层也可以通过Transformer构建。训练阶段的样本语料经固定的BERT得到对应的隐特征H

本申请实施例训练得到的语料处理模型被命名为PICSO,为了验证PICSO的效果,本申请实施例在实体链接和通用语言理解基准任务中对PICSO的效果进行验证。具体地,收集了通用领域知识库和医学领域知识库的同义词训练数据,分别训练两个自注意力网络,完整的有两个自注意力网络的PICSO被简写为PICSO(W+U)。携带基于通用领域知识库训练的自注意力网络的PICSO为PICSO(W),携带另一个自注意力网络的PICSO为PICSO(U)。PICSO(w/o K)代表有一个随机初始化的自注意力网络的PICSO,即没有同义词知识注入的PICSO。

实体链接是指将自然语言文本中出现的实体提及(entity mention)关联到对应知识图谱实体上去的任务。在使用经典的AIDA数据集作为训练样本的情况下,在5个不同领域的数据集上测试,分别是AQUAINT,MSNBC,ACE2004,CWEB和WIKI,AIDA是一个成熟的文本实体链接系统,AQUAINT,MSNBC,ACE2004,CWEB和WIKI是五个开源数据集,测试用的指标是Acc@k,测试结果请参考表1。Acc指标一般用在检索里面的,前k个检索到的样本中包含了有效的样本,就认为这次检索是正确的,Acc表示的是检索准确度。

表1

/>

表1中BERT、ERNIE-THU、LIBERT、SAPBERT都是相关技术中提出的模型,具体可以参考相关论文,在此不做赘述。根据表1所示,本申请实施例指出相比其他模型,PICSO(W+U)在六个数据集上都取得了最好的效果。除了LIBERT在AQUAINT上的表现,LIBERT和SAPBERT的性能出现了普遍的下降,特别是SAPBERT,这也印证了其使用的训练方式对于模型语义的破坏。并且也说明了图谱知识对于实体链接也并不一定是有益的,ERNIE-THU相比于它的基础模型BERT普遍地出现了小幅度的性能下降。PICSO(W)和PICSO(U)的性能同样超过了其他模型,但PICSO(W)的涨幅更高,这与领域分布是有关的。尽管这些数据集都包含医疗相关的数据,但医疗数据并不占据主导地位,PICSO(W)的训练数据的领域分布与这些数据集更加匹配。

通用语言理解基准任务的测试结果如表2所示,显然,PICSO在8个任务上的平均得分是最高的,这证明了同义词知识同样有益于通用语言理解任务。而SAPBERT仍然无法处理上下文参与的任务,取得了对比模型中最差的结果。

表2

同时,通用语言理解基准任务中有两个主要的任务类型。第一类是相似程度判断任务,包括了MRPC,STS-B和QQP,MRPC,STS-B和QQP是具体的任务名称,这些任务的具体内容可以参考相关论文。这些任务要求模型判断句子对的相似程度。因此这类任务中,同义词知识是有用的,在这三个任务上,PICSO取得了显著的效果。

另一类是自然语言推理任务,其中,CoLA、ST-2MRPC、STS-B、MNLI、QNLI和RTE都是具体的任务名称,这些任务的具体内容可以参考相关论文,这些任务的目标是判断句子对是否是蕴含关系,即是否可以从句子A推理出句子B的结论,这需要事实知识。因此PICSO的优化幅度相对较小,但是平均得分Avg依然高出相关技术中的各个模型。

本申请实施例提供语料处理模型训练方法,可以固定用于对语料进行整体的特征提取的第一网络中的参数,并调整用于对语料进行基于语境的分词特征提取的第二网络中的参数,第二网络关注的是语料的语境以及目标分词自身的实体特征,并且第二网络的参数的调整是在不影响第一网络的参数的情况下进行的,这就使得对于同义词自身的信息挖掘以及与同义词相关的上下文信息挖掘的结果对于语料整体特征的提取不会产生不良影响,也就是说,避免第一网络产生语义遗忘,有利于维持第一网络的语义理解能力。通过使用不同领域的样本语料,可以训练各个领域分别适配的第二网络(自注意力网络)。

第二网络综合考虑到了同义词的上下文天然的敏感性,因此,可以兼容同义词由于上下文敏感所造成的歧义性,达到了兼容歧义性的基于上下文的同义词信息提取的目的,避免了相关技术中由于忽视歧义性导致的同义词表征能力下降的弊端。通过解决了歧义性问题和语义遗忘问题,本申请实施例训练得到的语料处理模型显然具备更好的同义词表征能力。

在一些具体的实施方式中,语料处理模型中可以插接多个自注意力网络,这样就拥有了对各个领域的同义词的表征能力,自注意力网络作为一种即插即用的模块用于存储同义词知识,而不会破坏语料处理模型本身的语义知识。,自注意力网络中的每一自注意力层的自注意力机制视野范围的调整可以实现实体感知效果,即可以更关注于实体(目标分词)在上下文中的语义而不仅仅是整句话的语义。该训练方法得到的语料处理模型在一系列以相似度为核心的自然语言处理任务上都取得了较好的效果。

在得到语料处理模型的基础上,本申请实施例还提供一种语料处理方法,如图6所示,上述方法包括:

S601.获取目标语料,上述目标语料包括语料信息和上述语料信息中的目标分词的分词信息。

目标语料中的语料信息可以被认为包含了目标分词的上下文信息,根据这些上下文信息和目标分词的分词信息即可进行针对目标分词的表征信息提取处理。目标语料、语料信息和分词信息的具体内容与前文训练阶段使用的样本语料中的对应信息是一样的,在此不做赘述。

S602基于语料处理模型对上述目标语料进行处理,得到上述目标分词对应的表征信息,上述语料处理模型根据前述的语料处理模型训练方法训练得到。

在一个实施例中,上述语料处理模型包括第一网络,以及分别与上述第一网络串联的至少两个训练后的自注意力网络,也就是说,在第一网络的骨架上插接了各个领域分别对应的自注意力网络,这些自注意力网络的调参方式与前文第二网络的调参方式基于同一发明构思,各个自注意力网络分别存储了对应的领域的同义词知识。上述基于语料处理模型对上述目标语料进行处理,得到上述目标分词对应的表征信息,包括:将上述语料信息输入上述第一网络得到目标语料特征;基于各上述自注意力网络分别处理上述目标语料特征,得到各目标语境实体特征;融合上述目标语料特征和上述各目标语境实体特征,得到上述表征信息。本申请实施例并不限定融合的具体方法,比如,可以拼接,相加等。各个网络的数据处理方式在训练阶段都有详述,在此不做赘述。

在另一个实施例中,上述语料处理模型包括第一网络,和上述目标语料对语料内容领域指向的第二网络,上述基于语料处理模型对上述目标语料进行处理,得到上述目标分词对应的表征信息,包括:将上述语料信息输入上述第一网络得到目标语料特征;基于上述第二网络处理上述目标语料特征,得到目标语境实体特征;融合上述目标语料特征和上述目标语境实体特征,得到上述表征信息。本申请实施例并不限定融合的具体方法,比如,可以拼接,相加等。各个网络的数据处理方式在训练阶段都有详述,在此不做赘述。

语料处理模型中的第二网络或者各自注意力网络其实本质上都是一种即插即用的模块用于存储对应的领域的同义词知识,而不会破坏语料处理模型中第一网络本身对语义知识的理解。第二网络或者各自注意力网络控制其中每一自注意力层的自注意力机制视野范围,使得其可以更关注于实体在上下文中的语义而不仅仅是整句话的语义。这样使得语料处理模型对于目标分词的表征能力大幅度提升。

该语料处理模型对于各类以建模相似度为核心的自然语言处理任务都有效果,比如实体链接,实体消歧,实体对齐,单词简化,知识图谱策展等,因此有广泛的应用空间。该语料处理模型可以对语料进行准确的表征,得到语料的表征信息,表征信息可以被理解为语料的抽象表达,根据该抽象表达可以执行各种以该语料为素材的自然语言处理任务。实体链接是指将自然语言文本中出现的实体关联到对应知识图谱实体上去的任务。在实体链接场景下,需要得到自然语言文本中的实体对应的表征信息,以及得到知识图谱中的实体对应的表征信息,通过对各表征信息进行关联或者相似度计算来进行实体链接。举个例子,将该语料处理模型用于增强搜索系统中实体链接的场景中,比如当遇到“苹果”时,可以根据上下文更好地判断用户希望搜索的是苹果这种水果还是苹果这种智能产品,这样可以使得增强搜索系统能够更准确地理解用户的搜索。具体地,“苹果”的表征信息可以区别出语境下的苹果究竟是水果还是智能产品,根据该表征信息关联到对应的知识图谱中的实体,并将关联到的实体反馈给用户,显著提升搜索准确度。再比如,实体对齐的场景中,对异构知识图谱中的实体进行对齐的操作是基于异构知识图谱中各实体的表征信息来实施的,计算各实体的表征信息之间的距离,并根据该距离完成异构知识图谱的融合。该语料处理模型可以使得各实体对应的表征信息中不仅包括实体本身的信息还包括实体所在语境的信息,也就是说,表征信息对实体的表征能力显著被增强,这样可以更好地对齐2个异构的知识图谱,更好地进行知识融合,构建规模更大的知识图谱。

请参考图7,其示出本实施例中一种语料处理模型训练装置的框图,上述装置包括:

样本获取模块701,用于获取多个样本语料,每一上述样本语料包括样本语料信息和上述样本语料信息中的目标分词的分词信息;

数据处理模块702,用于针对每一上述样本语料执行下述操作:基于第一网络对上述样本语料信息进行语料特征提取,得到样本语料特征;基于第二网络和上述分词信息,对上述样本语料特征进行基于语境的分词特征提取,得到样本语境实体特征;基于上述分词信息和第三网络,融合上述样本语料特征和上述样本语境实体特征,得到上述目标分词对应的样本表征信息;

训练模块703,用于根据同义词分布,以及各上述目标分词分别对应的样本表征信息,在固定上述第一网络的参数的情况下调整上述第二网络的参数,上述同义词分布表征上述多个样本语料中的各上述目标分词中同义词的分布情况;以及,基于上述第一网络、上述第三网络和调参后的第二网络,得到语料处理模型。

在一个实施例中,上述数据处理模块702,用于执行下述操作:

确定至少两个自注意力网络,不同的上述自注意力网络对应不同的语料内容领域;

将上述样本语料对应的语料内容领域指向的自注意力网络,确定为上述第二网络。

在一个实施例中,上述第二网络包括位于首部的第一自注意力层,第一自注意力层包括顺次连接的至少一个第一特征提取层和至少一个第二特征提取层,上述第一特征提取层和上述第二特征提取层均为基于自注意力机制的网络层,上述数据处理模块702,用于执行下述操作:

将各上述第一特征提取层的注意力进行全局分配,基于分配后的各上述第一特征提取层对上述样本语料特征进行特征提取,得到样本语境中间特征;

将各上述第二特征提取层的注意力全部分配至上述目标分词对应的信息,基于各上述第二特征提取层对上述样本语境中间特征进行特征提取,得到上述样本语境实体特征。

在一个实施例中,上述数据处理模块702,用于执行下述操作:

确定各上述第一特征提取层分别对应的第一掩码矩阵,上述第一掩码矩阵中各个元素均大于第一阈值,每一上述第一特征提取层根据对应的上述第一掩码矩阵进行自注意力特征提取,得到上述样本语境中间特征;

将各上述第二特征提取层的注意力全部分配至上述目标分词对应的信息,基于各上述第二特征提取层对上述样本语境中间特征进行特征提取,得到上述样本语境实体特征,包括:

确定各上述第二特征提取层分别对应的第二掩码矩阵,上述第二掩码矩阵中对应于上述目标分词的位置的元素均小于第二阈值,并且其他元素均大于上述第一阈值,上述第二阈值小于上述第一阈值;

每一上述第二特征提取层根据对应的上述第二掩码矩阵,对上述样本语境中间特征进行特征提取,得到上述样本语境实体特征。

在一个实施例中,上述分词信息包括上述目标分词的首尾位置;上述数据处理模块702,用于执行下述操作:

融合上述样本语料特征和上述样本语境实体特征,得到样本融合特征;

根据上述目标分词的首尾位置,在上述样本融合特征中提取上述目标分词对应的样本表征信息。

在一个实施例中,上述分词信息包括同义词标识,上述训练模块用于执行下述操作:

根据上述多个样本语料中的各上述目标分词分别对应的同义词标识,生成正样本对和负样本对,上述正样本对中各上述目标分词具备相同的同义词标识,上述负样本对中各上述目标分词具备不同的同义词标识;

根据各上述目标分词分别对应的样本表征信息,通过对比学习进行调参,上述对比学习用于缩短正样本对中各上述目标分词分别对应的样本表征信息之间的距离,并且放大负样本对中各上述目标分词分别对应的样本表征信息之间的距离。

在一个实施例中,对比学习过程中负样本对产生的损失的权重与上述负样本对中的两个样本表征信息的相似度正相关。

在一个实施例中,上述第一网络包括至少两个顺序连接的语料特征提取层,第二自注意力层与第一关联层连接,并且上述第二自注意力层与第二关联层连接;

其中,上述第二自注意力层为上述第二网络中除第一自注意力层之外的任一自注意力层,上述第一关联层为上述第一网络中与上述第二自注意力层连接的语料特征提取层,上述第二关联层为上述第二网络中上述第二自注意力层的前一个自注意力层。

在一个实施例中,上述数据处理模块702用于执行下述操作:

上述样本语料信息包括样本语料分词序列,上述基于第一网络对上述样本语料信息进行语料特征提取,得到样本语料特征,包括将上述样本语料分词序列输入上述第一网络,得到上述样本语料特征。

本申请实施例中装置部分与方法实施例基于相同发明构思,在此不做赘述。

请参考图8,其示出本实施例中一种语料处理装置的框图,上述装置包括:

语料获取模块801,用于获取目标语料,上述目标语料包括语料信息和上述语料信息中的目标分词的分词信息;

语料处理模块802,用于基于语料处理模型对上述目标语料进行处理,得到上述目标分词对应的表征信息,上述语料处理模型前述的语料处理模型训练方法训练得到。

在一个实施例中,上述语料处理模型包括第一网络,以及分别与上述第一网络串联的至少两个训练后的自注意力网络,上述语料处理模块802,用于执行下述操作:

将上述语料信息输入上述第一网络得到目标语料特征;

基于各上述自注意力网络分别处理上述目标语料特征,得到各目标语境实体特征;

融合上述目标语料特征和上述各目标语境实体特征,得到上述表征信息。

在一个实施例中,上述语料处理模型包括第一网络,和上述目标语料对语料内容领域指向的第二网络,上述语料处理模块802,用于执行下述操作:

将上述语料信息输入上述第一网络得到目标语料特征;

基于上述第二网络处理上述目标语料特征,得到目标语境实体特征;

融合上述目标语料特征和上述目标语境实体特征,得到上述表征信息。

本申请实施例中装置部分与方法实施例基于相同发明构思,在此不做赘述。

进一步地,图9示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图,上述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图9所示,设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分地体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中上述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种语料处理模型训练方法或语料处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交换。

图10是根据一示例性实施例示出的一种电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图10所示,该电子设备用于实施或参与实施一种语料处理模型训练方法或语料处理方法。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语料处理模型训练方法或语料处理方法。

本领域技术人员可以理解,图10中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,上述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

上述存储介质中的指令可以执行一种语料处理模型训练方法,上述方法包括:

获取多个样本语料,每一上述样本语料包括样本语料信息和上述样本语料信息中的目标分词的分词信息;

针对每一上述样本语料执行下述操作:基于第一网络对上述样本语料信息进行语料特征提取,得到样本语料特征;基于第二网络和上述分词信息,对上述样本语料特征进行基于语境的分词特征提取,得到样本语境实体特征;基于上述分词信息和第三网络,融合上述样本语料特征和上述样本语境实体特征,得到上述目标分词对应的样本表征信息;

根据同义词分布,以及各上述目标分词分别对应的样本表征信息,在固定上述第一网络的参数的情况下调整上述第二网络的参数,上述同义词分布表征上述多个样本语料中的各上述目标分词中同义词的分布情况;

基于上述第一网络、上述第三网络和调参后的第二网络,得到语料处理模型。

在一个实施例中,上述基于第二网络和上述分词信息,对上述样本语料特征进行基于语境的分词特征提取,得到样本语境实体特征之前,上述方法还包括:

确定至少两个自注意力网络,不同的上述自注意力网络对应不同的语料内容领域;

将上述样本语料对应的语料内容领域指向的自注意力网络,确定为上述第二网络。

在一个实施例中,上述第二网络包括位于首部的第一自注意力层,第一自注意力层包括顺次连接的至少一个第一特征提取层和至少一个第二特征提取层,上述第一特征提取层和上述第二特征提取层均为基于自注意力机制的网络层,上述基于第二网络和上述分词信息,对上述样本语料特征进行基于语境的分词特征提取,得到样本语境实体特征,包括:

将各上述第一特征提取层的注意力进行全局分配,基于分配后的各上述第一特征提取层对上述样本语料特征进行特征提取,得到样本语境中间特征;

将各上述第二特征提取层的注意力全部分配至上述目标分词对应的信息,基于各上述第二特征提取层对上述样本语境中间特征进行特征提取,得到上述样本语境实体特征。

在一个实施例中,上述将各上述第一特征提取层的注意力进行全局分配,基于各上述第一特征提取层对上述样本语料特征进行特征提取,得到样本语境中间特征,包括:

确定各上述第一特征提取层分别对应的第一掩码矩阵,上述第一掩码矩阵中各个元素均大于第一阈值,每一上述第一特征提取层根据对应的上述第一掩码矩阵进行自注意力特征提取,得到上述样本语境中间特征;

将各上述第二特征提取层的注意力全部分配至上述目标分词对应的信息,基于各上述第二特征提取层对上述样本语境中间特征进行特征提取,得到上述样本语境实体特征,包括:

确定各上述第二特征提取层分别对应的第二掩码矩阵,上述第二掩码矩阵中对应于上述目标分词的位置的元素均小于第二阈值,并且其他元素均大于上述第一阈值,上述第二阈值小于上述第一阈值;

每一上述第二特征提取层根据对应的上述第二掩码矩阵,对上述样本语境中间特征进行特征提取,得到上述样本语境实体特征。

在一个实施例中,上述分词信息包括上述目标分词的首尾位置;上述基于上述分词信息和第三网络,融合上述样本语料特征和上述样本语境实体特征,得到上述目标分词对应的样本表征信息,包括基于上述第三网络执行下述操作:

融合上述样本语料特征和上述样本语境实体特征,得到样本融合特征;

根据上述目标分词的首尾位置,在上述样本融合特征中提取上述目标分词对应的样本表征信息。

在一个实施例中,上述分词信息包括同义词标识,上述根据同义词分布,以及各上述目标分词分别对应的样本表征信息,在固定上述第一网络的参数的情况下调整上述第二网络的参数,包括:

根据上述多个样本语料中的各上述目标分词分别对应的同义词标识,生成正样本对和负样本对,上述正样本对中各上述目标分词具备相同的同义词标识,上述负样本对中各上述目标分词具备不同的同义词标识;

根据各上述目标分词分别对应的样本表征信息,通过对比学习进行调参,上述对比学习用于缩短正样本对中各上述目标分词分别对应的样本表征信息之间的距离,并且放大负样本对中各上述目标分词分别对应的样本表征信息之间的距离。

在一个实施例中,对比学习过程中负样本对产生的损失的权重与上述负样本对中的两个样本表征信息的相似度正相关。

在一个实施例中,上述第一网络包括至少两个顺序连接的语料特征提取层,第二自注意力层与第一关联层连接,并且上述第二自注意力层与第二关联层连接;

其中,上述第二自注意力层为上述第二网络中除第一自注意力层之外的任一自注意力层,上述第一关联层为上述第一网络中与上述第二自注意力层连接的语料特征提取层,上述第二关联层为上述第二网络中上述第二自注意力层的前一个自注意力层。

在一个实施例中,上述样本语料信息包括样本语料分词序列,上述基于第一网络对上述样本语料信息进行语料特征提取,得到样本语料特征,包括将上述样本语料分词序列输入上述第一网络,得到上述样本语料特征。

上述存储介质中的指令可以执行一种语料处理方法,上述方法包括:

获取目标语料,上述目标语料包括语料信息和上述语料信息中的目标分词的分词信息;

基于语料处理模型对上述目标语料进行处理,得到上述目标分词对应的表征信息,上述语料处理模型根据前述的语料处理模型训练方法训练得到。

在一个实施例中,上述语料处理模型包括第一网络,以及分别与上述第一网络串联的至少两个训练后的自注意力网络,上述基于语料处理模型对上述目标语料进行处理,得到上述目标分词对应的表征信息,包括:

将上述语料信息输入上述第一网络得到目标语料特征;

基于各上述自注意力网络分别处理上述目标语料特征,得到各目标语境实体特征;

融合上述目标语料特征和上述各目标语境实体特征,得到上述表征信息。

在一个实施例中,上述语料处理模型包括第一网络,和上述目标语料对语料内容领域指向的第二网络,上述基于语料处理模型对上述目标语料进行处理,得到上述目标分词对应的表征信息,包括:

将上述语料信息输入上述第一网络得到目标语料特征;

基于上述第二网络处理上述目标语料特征,得到目标语境实体特征;

融合上述目标语料特征和上述目标语境实体特征,得到上述表征信息。

需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本申请实施例中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。

本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。

以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 一种语料预处理方法、语料预标注方法及电子设备
  • 图像处理方法及其模型的训练方法、装置和电子系统
  • 语料生成模型的训练方法、语料生成方法、电子设备、存储介质
  • 语料分类模型的训练方法、装置及语料分类方法、装置
技术分类

06120116503608