掌桥专利:专业的专利平台
掌桥专利
首页

一种文本匹配方法、装置、系统以及存储介质

文献发布时间:2024-04-18 19:58:21


一种文本匹配方法、装置、系统以及存储介质

技术领域

本发明主要涉及文本匹配技术领域,具体涉及一种文本匹配方法、装置、系统以及存储介质。

背景技术

现有的文本匹配方法通常很难对长文本进行更好的建模,处理长文本匹配任务时,模型需要考虑更多的语义信息和上下文关系。这导致模型的计算复杂性增加,训练和推理的速度变慢。同时,由于长文本通常具有更长的序列长度,模型可能会受到序列截断的限制,导致一些重要的语义信息丢失。

发明内容

本发明所要解决的技术问题是针对现有技术的不足,提供一种文本匹配方法、装置、系统以及存储介质。

本发明解决上述技术问题的技术方案如下:一种文本匹配方法,包括如下步骤:

导入原始文本数据集,对所述原始文本数据集进行分词处理,得到多个分词后文本句子;

将所有所述分词后文本句子两两分为一组,得到多个分词后文本句子组;

分别对各个所述分词后文本句子组进行更新,得到与各个所述分词后文本句子组对应的目标文本句子组;

分别对各个所述目标文本句子组进行预测,得到与各个所述目标文本句子组对应的预测分数,并将所有所述预测分数作为文本匹配结果。

本发明解决上述技术问题的另一技术方案如下:一种文本匹配装置,包括:

导入模块,用于导入原始文本数据集;

分词处理模块,用于对所述原始文本数据集进行分词处理,得到多个分词后文本句子;

分组模块,用于将所有所述分词后文本句子两两分为一组,得到多个分词后文本句子组;

更新模块,用于分别对各个所述分词后文本句子组进行更新,得到与各个所述分词后文本句子组对应的目标文本句子组;

文本匹配结果获得模块,用于分别对各个所述目标文本句子组进行预测,得到与各个所述目标文本句子组对应的预测分数,并将所有所述预测分数作为文本匹配结果。

基于上述一种文本匹配方法,本发明还提供一种文本匹配系统。

本发明解决上述技术问题的另一技术方案如下:一种文本匹配系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本匹配方法。

基于上述一种文本匹配方法,本发明还提供一种计算机可读存储介质。

本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本匹配方法。

本发明的有益效果是:通过对原始文本数据集的分词处理得到分词后文本句子,将分词后文本句子两两分为一组得到分词后文本句子组,对分词后文本句子组的更新得到目标文本句子组,对目标文本句子组的预测得到文本匹配结果,提高了特征提取的效果,增强了数据效率以及模型的泛化能力,同时,减少了计算量,较好的节省了训练成本,能够更好的获取句子的全局信息,解决了长文本匹配中的长程依赖等问题。

附图说明

图1为本发明实施例提供的一种文本匹配方法的流程示意图;

图2为本发明实施例提供的一种文本匹配装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

图1为本发明实施例提供的一种文本匹配方法的流程示意图。

如图1所示,一种文本匹配方法,包括如下步骤:

导入原始文本数据集,对所述原始文本数据集进行分词处理,得到多个分词后文本句子;

将所有所述分词后文本句子两两分为一组,得到多个分词后文本句子组;

分别对各个所述分词后文本句子组进行更新,得到与各个所述分词后文本句子组对应的目标文本句子组;

分别对各个所述目标文本句子组进行预测,得到与各个所述目标文本句子组对应的预测分数,并将所有所述预测分数作为文本匹配结果。

上述实施例中,通过对原始文本数据集的分词处理得到分词后文本句子,将分词后文本句子两两分为一组得到分词后文本句子组,对分词后文本句子组的更新得到目标文本句子组,对目标文本句子组的预测得到文本匹配结果,提高了特征提取的效果,增强了数据效率以及模型的泛化能力,同时,减少了计算量,较好的节省了训练成本,能够更好的获取句子的全局信息,解决了长文本匹配中的长程依赖等问题。

可选地,作为本发明的一个实施例,所述对所述原始文本数据集进行分词处理,得到多个分词后文本句子的过程包括:

利用jieba分词库对所述原始文本数据集进行分词处理,得到多个分词后文本句子。

应理解地,首先对原始数据集进行预处理,利用python功能包jieba(即jieba分词库)对数据集进行分词,将句子中词与词之间用空格隔开,并建立词典文件。

具体地,所述jieba分词库是一个流行的中文分词库,用于将中文文本切分成一个个独立的词语。它是一个开源项目,具有易于使用和高性能的特点,被广泛应用于中文自然语言处理任务中,总之,jieba是一个强大的中文分词库,提供了简单易用的接口和多种分词模式,能够在中文文本处理中起到重要作用。无论是在信息检索、文本分类、情感分析等任务中,jieba都能为中文文本的分词需求提供可靠的解决方案。

上述实施例中,利用jieba分词库对原始文本数据集进行分词处理得到多个分词后文本句子,能够建立词典文件,为后续数据处理奠定基础,增强了数据效率以及模型的泛化能力,同时,减少了计算量,较好的节省了训练成本。

可选地,作为本发明的一个实施例,所述分别对各个所述分词后文本句子组进行更新,得到与各个所述分词后文本句子组对应的目标文本句子组的过程包括:

通过预训练模型SimBERT分别对各个所述分词后文本句子组进行向量化处理,得到与各个所述分词后文本句子组对应的隐藏层文本向量;

分别对各个所述隐藏层文本向量进行向量更新,得到与各个所述分词后文本句子组对应的更新后文本向量;

分别对各个所述隐藏层文本向量以及与各个所述分词后文本句子组对应的更新后文本向量进行拼接,得到与各个所述分词后文本句子组对应的目标文本句子组。

应理解地,所述预训练模型SimBERT是一个基于BERT模型的模型,由微软设计,基于UniLM思想,将检索和生成任务结合起来,以进一步微调模型。它具有相似问题生成和相似句子检索能力12。它在各种应用中被使用,例如生成同义词2和文本相似性检索3。

具体地,将句子1和句子2(即分词后文本句子组)导入预训练模型SimBERT每个句子分别包含位置向量、段向量和词向量3个部分。并用标记[CLS]和[SEP]区别不同的句子,[CLS]代表分辨输出的特定符号,[SEP]代表分隔非连续token序列的特定符号,同时保持各句子的位置信息;词向量为输入句子中每一个token对应的词向量。利用孪生网络共享权值的特点。将结果引入Transformer编码器中,用双向编码的结果表示各个token。Transformer编码器包括自注意层、残差层、归一化层、前馈神经网络层。编码器将叠加后的字符级向量作为输入,最终得到具有语义信息的隐层向量,即预训练模型的最后一层输出,其包含[CLS]和[SEP]。得到隐藏层向量(P,Q)(即隐藏层文本向量)。

上述实施例中,分别对各个分词后文本句子组进行更新得到目标文本句子组,更好的提取了句子的全局信息以及上下文关系,实现了句子之间的权值共享,解决了匹配过程中很难捕获句子的全局信息以及上下文关联的问题。

可选地,作为本发明的一个实施例,所述分别对各个所述隐藏层文本向量进行向量更新,得到与各个所述分词后文本句子组对应的更新后文本向量的过程包括:

通过Bi-LSTM模型分别对各个所述隐藏层文本向量进行全局词义的提取,得到与各个所述分词后文本句子组对应的全局词义向量,所述全局词义向量包括多个全局词义节点;

分别对与各个所述分词后文本句子组对应的多个全局词义节点进行节点更新,得到与各个所述分词后文本句子组对应的多个更新后全局词义节点;

通过第一式分别对与各个所述分词后文本句子组对应的多个更新后全局词义节点进行最大池化处理,得到与各个所述分词后文本句子组对应的更新后文本向量,所述第一式为:

其中,conv

应理解地,将上层网络的输出(P,Q)(即隐藏层文本向量)送入Bi-LSTM层(即Bi-LSTM模型),获得全局词义信息,如下式:

其中

应理解地,所述Bi-LSTM模型,即双向长短期记忆网络(Bidirectional LSTM,简称BiLSTM)是一种基于循环神经网络(RNN)的模型。与传统单向LSTM模型相比,BiLSTM可以同时考虑到历史信息和未来信息,从而提高了模型对序列数据的建模能力。BiLSTM通过将输入序列分别按照时间顺序和逆时间顺序输入两个LSTM层,并将它们的输出沿时间轴进行拼接得到最终的输出。这样,模型就能够同时从过去和未来的上下文中提取特征,而且能够更好地捕捉序列数据中的长期依赖关系。BiLSTM在自然语言处理、音频信号处理、手写体识别等领域均有广泛应用,特别是在需要对序列数据进行分类、标注、生成等任务时,BiLSTM已经成为一种常用的模型。

具体地,DPCNN主要由Redion embedding层(文本区域嵌入层)、两个convolutionblock(每层block由两个固定卷积核为3的conv卷积函数构成)(两个block构建的层可以通过pre-activation直接连接)、Repeat结构,在conv之前、pre-activate之后加了个Max-polling层。

具体地,将两个重新计算过节点信息的向量(即更新后全局词义节点)进行如下计算,如下式:

其中函数f代表激活函数ReLU,U代表权重矩阵,b代表偏置。计算得到两个句子的最大池化(即更新后文本向量),如下式:

conv=max pool(X,X

上述实施例中,分别对各个隐藏层文本向量进行向量更新得到更新后文本向量,能够更好地捕捉文本的全局信息,可以减轻梯度消失的问题,且更有效地学习特征表示,有利于提取上下文关系。

可选地,作为本发明的一个实施例,所述分别对与各个所述分词后文本句子组对应的多个全局词义节点进行节点更新,得到与各个所述分词后文本句子组对应的多个更新后全局词义节点的过程包括:

通过第二式分别计算各个所述全局词义节点与剩下的全局词义节点的注意力系数,得到与各个所述分词后文本句子组对应的多个注意力系数,所述第二式为:

其中,(α

通过第三式分别对与各个所述分词后文本句子组对应的多个注意力系数以及与各个所述分词后文本句子组对应的多个全局词义节点进行节点更新的计算,得到与各个所述分词后文本句子组对应的多个更新后全局词义节点,所述第三式为:

其中,

应理解地,将上层网络的输出的向量

具体地,计算句子词向量中心节点和邻居节点的注意力分数,如下式:

其中,ij分别代表两个相邻的邻居节点,w是一个对节点进行训练的权值矩阵,

引入softmax对所有i的相邻节点j进行正则化,如下式:

注意力机制a是一个单层的前馈神经网络,之后引入下式:

其中LeaKyReLU为非线性激活函数,如下式:

应理解地,分别得到计算过新的节点信息的输出(即更新后全局词义节点),如下式:

上述实施例中,分别对多个全局词义节点进行节点更新,得到更新后全局词义节点,能够更好地捕捉文本的全局信息,可以减轻梯度消失的问题,且更有效地学习特征表示,有利于提取上下文关系。

可选地,作为本发明的一个实施例,所述分别对各个所述隐藏层文本向量以及与各个所述分词后文本句子组对应的更新后文本向量进行拼接,得到与各个所述分词后文本句子组对应的目标文本句子组的过程包括:

通过第四式分别对各个所述隐藏层文本向量以及与各个所述分词后文本句子组对应的更新后文本向量进行拼接,得到与各个所述分词后文本句子组对应的目标文本句子组,所述第四式为:

其中,

应理解地,将两个句子经过预训练编码层,送入GAT层进行句子整体的建模,在通过DPCNN进行句子特征的抽取,最后将两个句子的输出(即更新后文本向量和隐藏层文本向量)在最后接一个全连接层,进行最终的分类预测(即目标文本句子组)。

具体地,将预训练编码层的输出(即隐藏层文本向量)和DPCNN的输出(即更新后文本向量)做残差连接,得到输出(即目标文本句子组),如下式:

y

Concat是深度学习中比较常用的向量拼接操作,concat是指将两个或多个张量沿着某个维度进行连接的操作,这个操作会在指定的维度上将输入的张量拼接起来,形成一个新的张量,这一操作可使用pytorch中的numpy工具包进行操作,这一步可以更好体现出两个文本之间的差异性,并且减少网络的复杂度。

上述实施例中,通过第四式分别对各个隐藏层文本向量以及更新后文本向量进行拼接,得到目标文本句子组,可以更好体现了两个文本之间的差异性,并且减少了网络的复杂度。

可选地,作为本发明的一个实施例,所述分别对各个所述目标文本句子组进行预测,得到与各个所述目标文本句子组对应的预测分数的过程包括:

通过第五式分别对各个所述目标文本句子组进行预测,得到与各个所述目标文本句子组对应的预测分数,所述第五式为:

其中,

具体地,进行softmax的分类预测,如下式:

U

上述实施例中,通过第五式分别对各个目标文本句子组进行预测得到预测分数,提高了特征提取的效果,增强了数据效率以及模型的泛化能力,同时,减少了计算量,较好的节省了训练成本,能够更好的获取句子的全局信息,解决了长文本匹配中的长程依赖等问题。

可选地,作为本发明的另一个实施例,本发明首先对原始数据集进行处理,构建适合输入到网络中的向量句子。其次,将匹配的两个句子分别输入预训练模型孪生BERT网络(SimBERT),得到向量表示。之后构建用句子关系表示的图,送入到图注意力网络GAT之中。之后通过DPCNN网络提取获得的句子特征,最后接入全连接层,进行结果的分类处理。

本发明主要在文本匹配任务中引入图的概念,用句子中每一个词向量作为图的节点,向量之间的关系作为图的边。利用图注意力网络能够更好的获取句子的全局信息,解决长文本匹配中的长程依赖等问题。同时发挥SimBERT预训练模型的权值共享机制,权值共享可以减少模型的参数数量,提高特征提取的效果,增强数据效率,以及增强模型的泛化能力。DPCNN也同时减少了计算量,较好的节省了训练成本。

可选地,作为本发明的另一个实施例,本发明利用图这一能够对全局信息更好的建模的数据结构,更好的提取句子的全局信息以及上下文关系。同时利用SimBERT孪生预训练模型和DPCNN网络能够更好的节省训练成本,减少计算量,提升模型匹配过程中的效率。该方法增强了句子之间的交互性,使得模型更好获得文本的全局上下文关系。

可选地,作为本发明的另一个实施例,本发明所要解决的技术问题如下:

目前文本匹配模型针对长文本句子匹配捕获前后之间联系以及获取全局主题信息不佳,使得语义匹配效果大大减弱。

同时,目前长文本匹配的模型计算量和参数量都偏大,这不利于节省匹配的成本。

可选地,作为本发明的另一个实施例,本发明解决问题的技术方法如下:

对于匹配过程中很难捕获句子的全局信息以及上下文关联等问题。构建一种基于孪生预训练模型和图注意力网络结合的文本表示方法。利用图这一能够对全局信息更好的建模的数据结构,更好的提取句子的全局信息以及上下文关系。构建孪生预训练模型SimBERT网络,实现句子之间的权值共享,构建有利于提取上下文关系的匹配模型。

最后提取句子特征过程中,利用DPCNN(深度金字塔卷积模型),使用残差连接来跨层级传递信息,允许模型能够更好地捕捉文本的全局信息。残差连接可以减轻梯度消失问题,并帮助模型更有效地学习特征表示。

图2为本发明实施例提供的一种文本匹配装置的模块框图。

可选地,作为本发明的另一个实施例,如图2所示,一种文本匹配装置,包括:

导入模块,用于导入原始文本数据集;

分词处理模块,用于对所述原始文本数据集进行分词处理,得到多个分词后文本句子;

分组模块,用于将所有所述分词后文本句子两两分为一组,得到多个分词后文本句子组;

更新模块,用于分别对各个所述分词后文本句子组进行更新,得到与各个所述分词后文本句子组对应的目标文本句子组;

文本匹配结果获得模块,用于分别对各个所述目标文本句子组进行预测,得到与各个所述目标文本句子组对应的预测分数,并将所有所述预测分数作为文本匹配结果。

可选地,本发明的另一个实施例提供一种文本匹配系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本匹配方法。该系统可为计算机等系统。

可选地,本发明的另一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本匹配方法。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于文本的元器件识别方法、系统、装置和存储介质
  • 文本属性字段的匹配方法、装置、电子设备及存储介质
  • 一种地图地址匹配方法、装置、终端设备及存储介质
  • 一种电力负荷匹配方法、装置、设备及可读存储介质
  • 一种画面匹配方法、装置、设备和存储介质
  • 文本匹配方法、文本匹配系统及计算机存储介质
  • 文本匹配方法、文本匹配装置、电子设备及存储介质
技术分类

06120116485182