掌桥专利:专业的专利平台
掌桥专利
首页

一种主题感知的长文本语义匹配方法

文献发布时间:2023-06-19 19:28:50


一种主题感知的长文本语义匹配方法

技术领域

本发明属于自然语言处理技术领域,特别涉及一种主题感知的长文本语义匹配方法。

背景技术

文本匹配对于给定的两段文本,依据某种标准(如:蕴含,同义,冲突)判断其是否相关。文本检索从多个候选文本中,逐一判断其和给定关键字是否相关,并返回相关的文本。文本匹配是文本检索的基础组成。

现存且广泛利用的文本检索方法主要以查询关键字是否在候选文本中出现作为判断依据,该种方法要求查询关键字必须在候选文档中出现,否则就不能被正确检索。在此基础上,还有结合关键字扩增技术的检索方法,可以从给定查询关键字联想其近义词,并返回包含这些近义词的文档。另外,在机器学习领域,存在判断一对单个的句子的语义是否相关的方法,这些方法对于较短的文本有较好的准确性。

当待匹配的文本过长时,可以对文本进行特征编码,然后以编码后的特征相匹配。常见的编码方法有词袋模型,TF-IDF模型,卷积神经网络,循环神经网络等。这些方法均将整个文本编码为固定维数的向量。当文本长度超过一定量级时可能会失效,概因以此方法编码长文本会混入大量的噪声,使后续的匹配流程无法聚焦到匹配所须的关键部分。

在现代社会生产中,存在大量对长文本作语义匹配和语义检索的需求。例如:在司法领域,常需要就嫌疑人的行为情节在既往判决中查找类似案件。大多数判决书长度在千字以上,且表述差异较大。传统方法难以判别行为情节的相关性,从而返回大量判决书,只能由专家人工阅读并筛选。在出版领域,常需要就出版物在既存的文献中进行查重,其中涉及引用和通识的部分常因表述类同而被误判为抄袭,需要人工二次确认。

发明内容

本发明的目的是提供一种主题感知的长文本语义匹配方法,该方法不需要人工标注匹配文本的具体匹配语句位置,能够自动进行语句划分和文本匹配,大大提高了长文本作语义相关的匹配和检索效率。

本发明提出一种主题感知的长文本语义匹配方法,包括:

对长文本A进行摘取和重排,输出摘取文本A’;

对长文本B进行摘取和重排,输出摘取文本B’和基准摘取文本B’

计算

对长文本A进行摘取和重排,输出摘取文本A’之前,还包括对神经网络模型进行训练:

建立一个具有K隐主题和V词汇数的神经主题模型(Neural Topic Model,NTM),其中K,V是人为选定的参数,随机初始化其参数W

从文本集D中选取一个匹配的长文本样本d

使用词袋模型方法将所选的样本

计算参照输出r:

其中

令e

μ=tanh(W

σ=exp(tanh(W

z=μ+σ⊙∈

B=softmax(Φ·W)

θ=softmax(W

t=θ·Φ

e′=θ·B

其中,μ,σ分别为对文档进行采样的均值和方差向量,ε是服从标准正态分布的噪声随机向量,z为文本的采样编码向量,B是主题-词分布矩阵,θ是主题分布向量,W

计算经验损失I:

其中,|V|是词库大小,数值上等同于e的维度数;

计算I对参数W

重复训练,直到经验损失I收敛。

对长文本A进行摘取和重排,输出摘取文本A’包括:

对长文本A以动态编程方法进行切分,输出有序语句集S={s

对语句集S中的每个语句使用Transformer Encoder逐一进行编码,输出语句编码集

对语句编码集E

依据语句编码集E

依据语句编码集E

设立开始符号编码BOS和结束符号编码EOS,将EOS加入到语句编码集E

将当前摘录语句集的最后一个元素,当前为BOS,和主题向量t

h

其中,TransformerDecoder表示Transformer Decoder模型,T

将h

a

其中,v,W

选出a

上式中,t

重复步骤直到达到预先设置的上限数量,或选出结束符号EOS;

对T进行排序,令T中语句的顺序和它们在S中的相对顺序相同,得到摘取文本A’,A’的长度显著小于A。

对长文本B进行摘取和重排,输出摘取文本B’和基准摘取文本B’

设立开始符号编码BOS和结束符号编码EOS,将EOS加入到语句编码集E

将当前摘录语句集的最后一个元素,当前为BOS,和主题向量t

h

将h

a

其中,v,W

以权重a

其中,t

重复步骤直到达到预先设置的上限数量,或选出结束符号EOS;

对T进行排序,令T中语句的顺序和它们在S中的相对顺序相同,得到摘取文本B’,B’的长度显著小于B。

计算

使用BERT Classifier对摘取文本对

logits=BERTClassifier(A′,B′

score=softmax(logits)

上式中,logits和score是维数为2的向量,logits是相关强度指示,score是归一化的相关概率,若score

若A和B事实上是相关的,且B’≠B’

logits

若logits

reward=logits

计算reward相对于语句摘取器中各参数的梯度,并以梯度上升算法对参数进行调整,令语句摘取器倾向以摘取B’的策略进行摘取。

一种主题感知的长文本语义匹配系统,包括:

语句选择器:分离长文本中的噪声,将长文本切分为短的语句,并摘取与长文本有相关性的语句;

相关性判别器:判断两个长文本是否相关。

本发明能够有效分离长文本中的噪声,摘取输入的长文本中与文本主题相关的语句,能根据匹配器的输出调整语句摘取器的参数,令语句摘取器摘取与文本相关性有关的语句,本发明不需要人工标注匹配文本的具体匹配语句位置,大大节省了人力资源消耗,提高了工作效率,并且,本发明可以指示具体匹配语句位置,能为人工检查提供高效辅助。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,标示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提出的一种主题感知的长文本语义匹配方法的流程图;

图2为本发明提出的一种主题感知的长文本语义匹配方法的神经网络主题模型图;

图3为本发明提出的一种主题感知的长文本语义匹配方法的主题感知的长文本语义匹配模型图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一种该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

实施例1

本发明提出一种主题感知的长文本语义匹配方法,包括:

S100,对长文本A进行摘取和重排,输出摘取文本A’;

S200,对长文本B进行摘取和重排,输出摘取文本B’和基准摘取文本B’

S300,计算

本发明能够有效分离长文本中的噪声,摘取输入的长文本中与文本主题相关的语句,能根据匹配器的输出调整语句摘取器的参数,令语句摘取器摘取与文本相关性有关的语句,本发明不需要人工标注匹配文本的具体匹配语句位置,大大节省了人力资源消耗,提高了工作效率,并且,本发明可以指示具体匹配语句位置,进行精确查找,提高了文本匹配的精度。

S100对长文本A进行摘取和重排,输出摘取文本A’之前,还包括对神经网络模型进行训练:

建立一个具有K隐主题和V词汇数的NTM,其中K,V是人为选定的参数,随机初始化其参数W

从文本集D中选取一个匹配的长文本样本d

使用词袋模型方法将所选的样本

计算参照输出r:

/>

其中

令e

μ=tanh(W

σ=exp(tanh(W

z=μ+σ⊙∈

B=softmax(Φ·W)

θ=softmax(W

t=θ·Φ

e′=θ·B

其中,μ,σ分别为对文档进行采样的均值和方差向量,ε是服从标准正态分布的噪声随机向量,z为文本的采样编码向量,B是主题-词分布矩阵,θ是主题分布向量,W

计算经验损失I:

其中,|V|是词库大小,数值上等同于e的维度数;

计算I对参数W

重复训练,直到经验损失I收敛。

S100对长文本A进行摘取和重排,输出摘取文本A’包括:

对长文本A以动态编程方法进行切分,输出有序语句集S={s

对语句集S中的每个语句使用Transformer Encoder逐一进行编码,输出语句编码集

对语句编码集E

依据语句编码集E

依据语句编码集E

设立开始符号编码BOS和结束符号编码EOS,将EOS加入到语句编码集E

h

其中,TransformerDecoder表示Transformer Decoder模型,T

将h

a

其中,v,W

选出a

上式中,t

重复步骤直到达到预先设置的上限数量,或选出结束符号EOS;

对T进行排序,令T中语句的顺序和它们在S中的相对顺序相同,得到摘取文本A’,A’的长度显著小于A。

S200对长文本B进行摘取和重排,输出摘取文本B’和基准摘取文本B’

设立开始符号编码BOS和结束符号编码EOS,将EOS加入到语句编码集E

将当前摘录语句集的最后一个元素,当前为BOS,和主题向量t

h

将hi输入到指针网络,计算得选取权重a

a

其中,v,W

以权重a

其中,t

重复步骤直到达到预先设置的上限数量,或选出结束符号EOS;

对T进行排序,令T中语句的顺序和它们在S中的相对顺序相同,得到摘取文本B’,B’的长度显著小于B。

与将长文本A输入神经网络模型,得到摘取文本A’和主题编码向量t

S300计算

使用BERT Classifier对摘取文本对

logits=BERTClassifier(A′,B′

score=softmax(logits)

上式中,logits和score是维数为2的向量,logits是相关强度指示,score是归一化的相关概率,若score

若A和B事实上是相关的,且B’≠B’

logits

若logits

reward=logits

计算reward相对于语句摘取器中各参数的梯度,并以梯度上升算法对参数进行调整,令语句摘取器倾向以摘取B’的策略进行摘取。

实施例2

一种主题感知的长文本语义匹配系统,包括:

语句选择器:分离长文本中的噪声,将长文本切分为短的语句,并摘取与长文本有相关性的语句;

相关性判别器:判断两个长文本是否相关。

本发明能够有效分离长文本中的噪声,摘取输入的长文本中与文本主题相关的语句,能根据匹配器的输出调整语句摘取器的参数,令语句摘取器摘取与文本相关性有关的语句,本发明不需要人工标注匹配文本的具体匹配语句位置,大大节省了人力资源消耗,提高了工作效率,并且,本发明可以指示具体匹配语句位置,能为人工检查提供高效辅助。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

相关技术
  • 确定主题文本段落相对于参考文本段落匹配准确度的系统及其方法
  • 一种语义匹配模型的训练方法以及文本匹配方法
技术分类

06120115920198