掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及自然语言处理技术领域,更具体地,涉及一种实体抽取方法及装置。

背景技术

实体抽取是知识图谱构建的基本技术之一,与实体链接、实体关系抽取、事件抽取是知识图谱构建的关键。实体抽取,又称命名实体识别(Named Entity Recognition,NER),是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。实际应用中,NER模型通常只要识别出人名、地名、组织机构名、日期时间即可,一些系统还会给出专有名词结果(比如缩写、会议名、产品名等)。货币、百分比等数字类实体可通过正则搞定。另外,在一些应用场景下会给出特定领域内的实体,如书名、歌曲名、期刊名等。NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。

在基于机器学习的方法中,NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。目前实体抽取的研究状态:只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果;与其他信息检索领域相比,命名实体识别评测语料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性能很差。

在基于机器学习的方法中,实体抽取NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。这类方法对于序列标注任务的处理方式是类似的:采用word2vec将token从离散one-hot表示映射到低维空间中成为稠密的词向量embedding,随后将句子的词向量embedding序列输入到循环神经网络RNN中,用循环神经网络自动提取特征,Softmax来预测每个字或词的标签。

首先,对于深度学习方法,一般需要大量标注语料,否则极易出现过拟合,无法达到预期的泛化能力。其次,这种方法使得模型的训练成为一个端到端的过程,而非传统的pipeline,不依赖于特征工程,是一种数据驱动的方法,但网络种类繁多、对参数设置依赖大,模型可解释性差。此外,这种方法的一个缺点是对每个token打标签的过程是独立的进行,不能直接利用上文已经预测的标签(只能靠隐含状态传递上文信息),进而导致预测出的标签序列可能是无效的,例如标签I-PER后面是不可能紧跟着B-PER的,但Softmax不会利用到这个信息。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的实体抽取方法及装置。

第一方面,本发明实施例提供一种实体抽取方法,包括:

获取待识别文本;

将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;

其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。

其中,将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果,具体包括:

将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;

将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;

将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。

其中,训练获得所述实体抽取模型的步骤,具体包括:

利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;

利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。

其中,所述获取待识别文本,具体为:

利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。

第二方面,本发明实施例提供一种实体抽取装置,包括:

文本获取模块,用于获取待识别文本;

实体抽取模块,用于将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;

其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。

其中,所述实体抽取模块具体用于:

将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;

将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;

将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。

其中,还包括训练模块,所述训练模块具体用于:

利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;

利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。

其中,所述文本获取模块具体用于:

利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。

第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的实体抽取方法的步骤。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的实体抽取方法的步骤。

本发明实施例提供的实体抽取方法及装置,采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,利用标签转移概率来做句子级别的标签预测,使得实体标注过程是整体的,可以直接利用上文已经预测的标签,并且不仅能够对通用的多种类型的命名实体进行识别,还可以对特定的命名实体进行识别,识别精度高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的实体抽取方法的流程示意图;

图2为本发明实施例提供的实体抽取模型的结构示意图;

图3为本发明实施例提供的将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果的流程示意图;

图4为本发明实施例提供的实体抽取装置的结构示意图;

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,为本发明实施例提供的实体抽取方法的流程示意图,包括:

步骤100、获取待识别文本;

具体地,通过进行数据清洗等预处理操作获取待识别文本,待识别文本中仅保留了有用的文本信息。

在一个实施例中,利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。

步骤101、将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;

值得说明的是,本发明实施例提出了一种基于BERT语言模型的实体抽取模型。采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。

所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的。

所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。如图2所示,为本发明实施例提供的实体抽取模型的结构示意图。

本发明实施例提供的实体抽取方法,采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,利用标签转移概率来做句子级别的标签预测,使得实体标注过程是整体的,可以直接利用上文已经预测的标签,并且不仅能够对通用的多种类型的命名实体进行识别,还可以对特定的命名实体进行识别,识别精度高。

如图3所示,为本发明实施例提供的将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果的流程示意图,具体包括:

步骤300、将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;

步骤301、将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;

步骤302、将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。

具体地,将待识别文本输入至BERT语言模型中,获得所述待识别文本对应的实体相关的字向量序列;

然后,将待识别文本对应的字向量序列输入至双向长短期记忆网络LSTM层中进行上下文语义关系提取;

在所述实体抽取模型的输出层接入条件随机场CRF层,利用标签转移概率来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。

基于上述实施例的内容,训练获得所述实体抽取模型的步骤,具体包括:

利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;

利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。

具体地,本发明实施例通过对预训练的BERT语言模型进行微调,来实现对文本中的实体相关字向量序列进行提取。

首先,利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练,得到预训练的BERT语言模型;

然后,利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。

本发明实施例提出一种基于BERT预训练的实体抽取方法,构建一个底层的BERT基础模型来彻底建模上下文关系,而通过fine-tuning来进一步构造出针对特定中文命名实体识别问题的特定模型,可充分描述字符级、词级、句子级甚至句间关系特征。应用于NER中的biLSTM-CRF模型主要由Embedding层(主要有词向量,字向量以及一些额外特征),双向LSTM层,以及最后的CRF层构成。在神经网络的输出层接入CRF层,利用标签转移概率来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。

如图4所示,为本发明实施例提供的实体抽取装置的结构示意图,包括:

文本获取模块410,用于获取待识别文本;

具体地,文本获取模块410通过进行数据清洗等预处理操作获取待识别文本,待识别文本中仅保留了有用的文本信息。

在一个实施例中,文本获取模块410具体用于利用解析器对HTML网页进行解析,将所述HTML网页解析成文本,并进行数据清洗,仅保留有用的文本信息,获得待识别文本。

实体抽取模块420,用于将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;

值得说明的是,本发明实施例提出了一种基于BERT语言模型的实体抽取模型。实体抽取模块420采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。

所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的。

所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。

本发明实施例提供的实体抽取装置,采用BERT构建一个底层的基础模型来彻底建模上下文关系,进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,利用标签转移概率来做句子级别的标签预测,使得实体标注过程是整体的,可以直接利用上文已经预测的标签,并且不仅能够对通用的多种类型的命名实体进行识别,还可以对特定的命名实体进行识别,识别精度高。

基于上述实施例的内容,所述实体抽取模块420具体用于:

将所述待识别文本输入至所述BERT语言模型中,获得所述待识别文本对应的字向量序列;

将所述待识别文本对应的字向量序列输入至所述双向长短期记忆网络LSTM层中进行语义关系提取;

将所述双向长短期记忆网络LSTM层的输出结果输入至所述条件随机场CRF层,通过利用标签转移概率来进行句子级别的标签预测,获得所述待识别文本的实体抽取结果。

具体地,实体抽取模块420将待识别文本输入至BERT语言模型中,获得所述待识别文本对应的实体相关的字向量序列;

然后,将待识别文本对应的字向量序列输入至双向长短期记忆网络LSTM层中进行上下文语义关系提取;

在所述实体抽取模型的输出层接入条件随机场CRF层,利用标签转移概率来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。

基于上述实施例的内容,所述实体抽取装置还包括训练模块,其中,所述训练模块具体用于:

利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练;

利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。

具体地,本发明实施例通过对预训练的BERT语言模型进行微调,来实现对文本中的实体相关字向量序列进行提取。

首先,训练模块利用通用语料样本和所述通用语料样本对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练,得到预训练的BERT语言模型;

然后,训练模块利用特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调,获得训练好的实体抽取模型。

本发明实施例提出一种基于BERT预训练的实体抽取装置,构建一个底层的BERT基础模型来彻底建模上下文关系,而通过fine-tuning来进一步构造出针对特定中文命名实体识别问题的特定模型,可充分描述字符级、词级、句子级甚至句间关系特征。应用于NER中的biLSTM-CRF模型主要由Embedding层(主要有词向量,字向量以及一些额外特征),双向LSTM层,以及最后的CRF层构成。在神经网络的输出层接入CRF层,利用标签转移概率来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。

图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序,以执行上述各方法实施例所提供的实体抽取方法,例如包括:获取待识别文本;将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。

此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的实体抽取方法,例如包括:获取待识别文本;将所述待识别文本输入至预先训练好的实体抽取模型中,获得所述待识别文本的实体抽取结果;其中,所述实体抽取模型是基于语料样本和所述语料样本对应的实体标注进行训练获得的,所述实体抽取模型包括BERT语言模型、双向长短期记忆网络LSTM层和条件随机场CRF层。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 实体抽取方法、实体抽取模型的训练方法、装置及设备
  • 实体关系的联合抽取方法和联合抽取装置
技术分类

06120113083274