掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多路召回的垂直领域实体链指系统

文献发布时间:2023-06-19 09:35:27


一种基于多路召回的垂直领域实体链指系统

技术领域

本发明属于人工智能领域,特别涉及一种基于多路召回的垂直领域实体链指系统。

背景技术

随着互联网的快速发展和普及,越来越多的人选择通过互联网以在线问答的形式向专业咨询人员进行在线的中文咨询,这种方法比较方便高效地促进咨询人员和用户之间的交流,但是很多时候,由于我国各领域内专业人士资源相对紧张,很多用户的在线中文咨询问题,往往不能得到及时的专业答复。与此同时,随着人工智能技术在文本处理方面的应用,越来越多的机构构造了垂直领域的相关知识库。如何通过自然语言处理技术,自动的从用户的中文在线咨询文本中获取用户询问的意图,结合现有的垂直领域知识库为用户提供专业的回答,具有重要的应用意义。

其中,信息抽取技术是从中文在线咨询文本中获取用户意图的关键技术,其包括实体抽取和关系抽取,而实体抽取包括实体识别与实体链指两个技术。其中命名实体识别是实现信息抽取的先决技术,其命名实体识别的质量将直接影响到后续关系抽取等步骤的效果。命名实体识别技术具体指的是对文本中的人名,时间,地名,机构名称等指定类型的实体进行有效的识别提取,在中文在线咨询文本中主要指的是对用户咨询主体,进行命名实体识别。而实体链指是指对实体识别的结果中的实体提及集合,判断其中的两个或者多个实体是否为同一实体,将具有相同指称的命名实体聚集在一起。

在有标注的垂直领域咨询文本量较少的情况下,常用的深度神经网络进行在线咨询文本命名实体识别与实体链指时,模型容易发生过拟合现象,从而不能达到较好的效果。与此同时,中文在线咨询的用户语料中,用户的问题较为口语化,经常出现一些实体被连词等无效词汇隔开,导致实体在文本中不连贯,而现有的深度学习模型对于非连贯的实体识别效果较差,通过基于词的检索算法和基于字的相似度匹配算法,我们可以将非连贯的实体更好的识别出来。而且由于各个机构构造的垂直领域相关知识库不尽相同,所以在基于不同的知识图谱中进行实体识别时,不能进行准确的实体对齐。

发明内容

为了解决上述问题,本发明提供了一种基于多路召回的垂直领域实体链指系统,能够充分利用用户输入文本的字词信息,解决由于中文咨询文本命名实体识别标注语料口语化严重导致实体链指低准确率,低召回率的问题,从而提升人工智能咨询的质量。

本发明的技术方案如下所示:

一种基于多路召回的垂直领域实体链指系统,包括:

文本处理模块:用于对用户得到输入文本进行分词、筛选,并拼接为有效文本;

相似度匹配模块:用于对有效文本与实体之间的相似度进行计算,并根据相似度对实体进行排序、筛选后放入第一候选实体集;

词典匹配模块:用于检索用户输入有效文本,获得候选实体并放入第二候选实体集中;

实体识别模块:将现有的语料整理成CRF模型的训练集与测试集,并构建训练模型,利用模型对有效文本对应进行命名实体识别,并将生成的实体放入第三候选实体集中;

文本二分类模型:基于现有的法律领域的数据集,构建二分类模型,基于二分类模型进行实体是否匹配的文本的判断,制定规则进行后校验操作。

优选的,所述文本处理模块的具体实现步骤为:对用户的输入文本进行数据预处理:基于现有的法律领域词典,使用jieba对用户的输入文本进行分词,所述jieba加载法律领域的自定义词库,生成用户输入文本分词后的结果集,基于该分词后结果集和现有的法律领域无效词汇词典,对所述分词后结果集进行筛选,并且按照筛选前的顺序拼接为有效文本。

优选的,所述相似度匹配模块的具体实现步骤为:

S2.1:预先训练BERT相似度模型:以现有的用户咨询文本为语料,获得Embedding字典;通过LCS字符串匹配提取语料的将匹配到的实体提及认为是正确对应的实体,将所述Embedding字典作为相似模型的Embedding,并将提取所得的实体和原语料作为BERT模型的输入,经训练获得BERT相似度模型;

S2.2:相似度计算:基于所述有效文本,使用基于字词的算法,找到与输入文本匹配的实体,并获取实体在知识图谱中的描述信息,利用步骤S2.1中训练的BERT相似度模型,计算有效文本与候选实体集的实体以及实体描述的相似度的分值;

S2.3:对步骤S2.2中获取的有效文本与实体之前的相似度进行排序,筛选前五且分值大于预设的阈值的实体记为候选实体,放入第一候选实体集中。

优选的,所述词典匹配模块具体实现步骤为:

S3.1:基于前缀词典树,和现有的法律领域词典,构建法律领域词典树;

S3.2:基于现有的法律领域词典,针对有效文本,利用完全词匹配或者部分词匹配算法获得候选实体,并将候选实体放入第二候选实体集中。

优选的,所述实体识别模块的具体实现步骤为:

S4.1:训练命名实体识别模型:以现有的用户咨询文本为语料,获得Embedding字典;利用BIO标注对语料进行自动标注,将所述Embedding字典作为相似模型的Embedding,并将语料中的字、词输入到BiLSTM中,最后使用CRF层作为序列标注层,进行训练,获得BERT+BiLSTM+CRF命名实体识别模型;

S4.2:针对有效文本使用BERT+BiLSTM+CRF命名实体识别模型算法,生成候选实体,放入第三候选实体集中。

优选的,所述Embedding字典的获取方法为:以现有的用户咨询文本为语料,将语料分为训练集与测试集,对训练集进行预处理,在预处理的过程中,使用jieba分词对训练集进行分词,其中jieba加载法律领域的自定义词库,再使用BERT预训练模型,对已经分词的训练集进行训练,获得所有字、词的表示向量作为Embedding字典。

优选的,所述文本二分类模型的具体实现步骤为:

S5.1:基于现有的法律领域的数据集,利用BERT二分类模型,根据实体与用户输入的是否匹配生成二分类的正负样本训练集,并通过二分类的正负样本训练集,基于BERT模型训练生成文本二分类模型;

S5.2:合并第一候选实体集、第二候选实体集和第三候选实体集为第四候选实体集;

S5.3:将第四实体候选集中的所有实体输入文本二分类模型,计算每一个实体作为与用户输入文本的实体对应可能性并输出得分;

S5.4:根据得分对所有实体进行排序,将其中排名前2且得分大于预设阈值的实体记为识别实体,并进行去重输出形成实体结果集合,其中实体结果集合包含每个实体词以及其对应的得分。

优选的,还包括步骤S5.5:针对输出的实体结果集合,制定规则进行后校验操作,所述规则包括全字匹配和后筛选。

优选的,所述全字匹配为:针对实体结果集合中连续排名前2的实体词,若该实体词的每个字都被包含在用户输入文本中,则将这些实体词作为最终的识别结果。

优选的,所述后筛选为:针对实体结果集合中的实体词,依据得分高低排序依次判断得分高的实体词中的每个字是否包含在用户输入文本中,若不被包含在内则将该实体词信息记录,最后将记录的实体词作为最终的识别结果。

本发明的有益效果为:本发明提供的系统能够充分利用用户输入文本的字词信息,解决由于中文咨询文本命名实体识别标注语料口语化严重导致实体链指低准确率,低召回率的问题,从而提升人工智能咨询的质量,解决咨询人员资源少导致无法将各种专业领域普及到偏远地区的问题。

附图说明

图1为本发明系统中各模块的实现功能的流程示意图。

图2为本发明提出的以BERT模型为例的基于相似度计算的相似度匹配方法的模块架构图和文本二分类算法架构图。

图3为本发明提出的基于BERT+BiLSTM+CRF的命名实体算法的模块架构图。

具体实施方式

下面将结合说明书附图对本发明的实施例进行详细说明。

目前实体链指技术在垂直领域的应用准确性仍有很大的改进之处,本发明提出的基于多路召回的垂直领域实体链指指的是将信息检索中的多路召回技术优势融合到信息抽取中的实体链指技术中继而应用于法律、医疗、金融等垂直领域,进而达到针对给定的中文短文本识别出相关联的实体指称的目的。具体而言,针对某个特定的垂直领域如法律,针对给定的中文短文本,首先利用多路召回从多个语义维度召回与给定文本中实体相关的候选实体集合,不再局限于上下文语义或者序列状态等单一特征,随后针对召回的候选实体集合利用经典相似度计算模型衡量候选实体与给定实体的相似度,进而根据相似度高低得出最终的实体指称,进而达到利用多路召回实现实体链指的目的。

如图1所示,本发明提供了一种一种基于多路召回的垂直领域实体链指系统,包括用于对用户得到输入文本进行分词、筛选,并拼接为有效文本的文本处理模块,用于对有效文本与实体之间的相似度进行计算,并根据相似度对实体进行排序、筛选后放入第一候选实体集的相似度匹配模块,用于检索用户输入有效文本,获得候选实体并放入第二候选实体集中的词典匹配模块,将现有的语料整理成CRF模型的训练集与测试集,并构建训练模型,利用模型对有效文本对应进行命名实体识别,并将生成的实体放入第三候选实体集中的实体识别模块,基于现有的法律领域的数据集,构建二分类模型,基于二分类模型进行实体是否匹配的文本的判断,制定规则进行后校验操作的文本二分类模型。

作为本发明的一种实施方式,以BERT模型为例的基于相似度计算的相似度匹配模块架构图如图2所示,该方法具体实现有如下步骤:

步骤1,预先训练BERT相似度模型.

以现有的用户咨询文本为语料,将语料分为训练集与测试集,对训练集进行预处理,在预处理的过程中,使用jieba分词对训练集进行分词,其中jieba加载法律领域的自定义词库,再使用BERT预训练模型,对已经分词的训练集进行训练,获得所有字、词的表示向量,作为Embedding字典。对于训练集中的语料,通过LCS字符串匹配提取对应实体,将先前生成的Embedding字典作为相似模型的Embedding,然后将提取所得的对应实体和原语料作为BERT模型的输入输入BERT模型,例如语料:“法律是如何定义遗产继承权的,”,通过LCS字符串匹配可以获得实体集合“遗产,继承权,遗产继承权”,将语料“[1,0]法律是如何定义遗产继承权的,[SEP]遗产”,“[1,0]法律是如何定义遗产继承权的,[SEP]继承权”,“[1,0]法律是如何定义遗产继承权的,[SEP]遗产继承权”作为BERT模型的正样本,进行训练,最后获得BERT相似度模型M1。

步骤2,对用户的输入文本进行数据预处理。

基于现有的法律领域词典,使用jieba对用户的输入文本进行分词,其中jieba加载法律领域的自定义词库,生成用户输入文本分词后结果集,基于该分词后结果集和现有的法律领域无效词汇词典,对分词后结果集进行筛选,并且按照原有的顺序拼接成,用户输入文本的有效文本。

步骤3,相似度计算。

基于用户的输入有效文本,使用基于字词的算法,找到该输入文本的实体候选集,然后获取这些实体在知识图谱中的描述信息,然后使用上述训练的BERT相似度模型M1,计算用户输入有效文本与实体候选集的实体以及实体描述的相似度,如:(“法律是如何定义遗产继承权的,遗产继承权,0.891),(“法律是如何定义遗产继承权的,遗产继承权指继承人根据法律的规定或者被继承人所立的合法有效的遗嘱享有的被继承人遗产的继承权利。0.861)。基于实体与实体的名词解释分别与用户输入文本之间的相似度,获得最后的得分(“法律是如何定义遗产继承权的,遗产继承权,0.8761),其中相似度为两者相似度的平均值。

步骤4,生成候选实体集。

基于上述步骤产生的各个实体与用户输入文本之间的相似度,将其中排名前5且分值大于0.5的实体记为候选实体,放入候选实体集中。

作为本发明的一种实施方式,以词匹配算法为基础的基于实体词典匹配的词典匹配模块具体实现包括如下步骤:

步骤1,构建词典树。

基于前缀词典树,和现有的法律领域词典,构建法律领域词典树。

步骤2,对用户的输入文本进行数据预处理。

基于现有的法律领域词典,使用jieba对用户的输入文本进行分词,其中jieba加载法律领域的自定义词库,生成用户输入文本分词后结果集,基于该分词后结果集和现有的法律领域无效词汇词典,对分词后结果集进行筛选,并且按照原有的顺序拼接成,用户输入文本的有效文本。

步骤3,使用词匹配算法筛选候选集。

基于现有的法律领域词典,对用户的输入文本使用完全词匹配或者部分词匹配算法,例如ahocorasick检索算法,检索获得候选实体,放入候选实体集中。

作为本发明的一种实施方式,基于CRF的命名实体算法的模块架构图如图3所示,该方法具体实现有如下步骤:

步骤1,预先训练BERT+BiLSTM+CRF命名实体识别模型.

以现有的用户咨询文本为语料,将语料分为训练集与测试集,对训练集进行预处理,在预处理的过程中,使用jieba分词对训练集进行分词,其中jieba加载法律领域的自定义词库,再使用BERT预训练模型,对已经分词的训练集进行训练,获得所有字、词的表示向量,作为Embedding字典。然后使用BIO标注对语料进行自动标注。对于训练集中的语料,将先前生成的Embedding字典作为相似模型的Embedding,然后将语料中的字、词输入到BiLSTM中,最后使用CRF层作为序列标注层,进行训练,最后获得BERT+BiLSTM+CRF命名实体识别模型M2。

步骤2,对用户的输入文本进行数据预处理。

基于现有的法律领域词典,使用jieba对用户的输入文本进行分词,其中jieba加载法律领域的自定义词库,生成用户输入文本分词后结果集,基于该分词后结果集和现有的法律领域无效词汇词典,对分词后结果集进行筛选,并且按照原有的顺序拼接成,用户输入文本的有效文本。

步骤3,使用BERT+BiLSTM+CRF命名实体识别模型算法生成候选集。

对用户的输入文本使用BERT+BiLSTM+CRF命名实体识别模型算法,生成候选实体,放入候选实体集中。

作为本发明的一种实施方式,以BERT模型为例的文本二分类算法架构图如图2所示,该方法具体实现有如下步骤:

步骤1,预先训练BERT二分类模型。

以现有的用户咨询文本为语料,将语料分为训练集与测试集,例如语料:“推定婚生子女是什么意思,”,生成样本语料“[1,0]推定婚生子女是什么意思[SEP]婚生子女推定”,“[0,1]推定婚生子女是什么意思,[SEP]抚养权”,进行训练,最后获得BERT二分类模型M2。

步骤2,二分类计算。

基于用户的输入有效文本,使用三路匹配算法,找到该输入文本的实体候选集,将候选集中的实体与用户输入文本拼接后输入BERT二分类模型M2中,计算每一个实体作为与用户输入文本的实体对应可能性。

步骤3,输出识别实体。

基于上述步骤产生的每一个实体作为与用户输入文本的实体对应可能性。将其中排名前2且分值大于0.8的实体记为识别实体,并进行去重输出,其输出结果包含每个实体词以及其对应的得分。

步骤4,规则后校验.

由于垂直领域知识库中的实体词大多有很强的领域知识代表性,大多数情况下用户输入文本几乎都会明显包括这些实体词。因此针对实体输出的结果集合,制定两种规则进行后校验操作:

规则1:全字匹配。针对结果集合中连续排名前2的实体词,若该实体词的每个字都被包含在用户输入文本中,则将这些实体词作为最终的识别结果;

规则2:后筛选。针对结果集合中的实体词,依据得分高低排序依次判断得分高的实体词中的每个字是否包含在用户输入文本中,若不被包含在内则将该实体词信息记录,最后将记录的实体词作为最终的识别结果。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 一种基于多路召回的垂直领域实体链指系统
  • 一种基于实体话题关联度的领域命名实体去噪方法及系统
技术分类

06120112227346