掌桥专利:专业的专利平台
掌桥专利
首页

工业领域文本要素抽取系统及方法

文献发布时间:2023-06-19 19:16:40


工业领域文本要素抽取系统及方法

技术领域

本发明属于自然语言处理(NLP)算法领域,涉及机器阅读理解模型、深度学习算法、神经网络算法,具体涉及一种工业领域文本要素抽取系统及方法。

背景技术

要素抽取属于文本分类应用,其通过模型自动抽取非结构化文本中用户所需要的字段信息,作为结构化知识保存起来。工业领域文本中,如工艺说明书、维修记录等,时常面对以下两种问题:

1.标注数据少:工业领域应用由于专业性较强或保密要求等因素,在公开领域中很难收集数据,在应用时,部分类别甚至只有几篇文档;同时,一般不会有标注数据,或者标注数据极少。

2.字段多:在工业领域应用中,时常遇见成百上千的字段需要抽取。

传统的基于监督学习分类的抽取模型,如RNN+CRF及基于BERT类模型的文本抽取应用均采用同一个模式:针对一个抽取字段获取训练数据,然后训练序列标注模型,训练结束后方可进行该字段的预测。在拥有充分标注数据的场景下,此方案是适用的。但这样的方案直接应用于字段多且标注数据稀少的专业领域内的文档抽取则存在下列不足:

1.在小标注数据量情况下极容易过拟合,造成模型泛化能力下降,预测效果差;

2.在动态增加字段的情况下需要频繁训练更改模型,对硬件造成很大压力。

发明内容

本发明的目的在于克服上述现有技术中存在的不足,将泛化能力强的基于大量数据的预训练阅读理解模型跨方向应用在抽取任务之上,在小数据场景可以避免过拟合;阅读理解模型应用在抽取任务上具有形式通用性,避免在实际应用中频繁重新训练模型。

为实现上述发明目的,第一方面,本发明提供一种工业领域文本要素抽取系统,包括阅读理解模型单元、字段抽取模型单元、待抽取文本输入单元、待抽取字段输入单元和字段抽取结果输出单元;所述阅读理解模型单元、待抽取文本输入单元和待抽取字段输入单元三者分别连接至所述字段抽取模型单元的输入端,所述字段抽取结果输出单元连接至所述字段抽取模型单元的输出端;所述阅读理解模型单元内具有基于BERT的阅读理解模型,其阅读理解的训练数据为SQUAD类型的抽取式阅读理解任务;所述字段抽取模型单元内具有所述阅读理解模型,所述字段抽取模型单元适于围绕所述待抽取字段输入单元所输入的待抽取字段设置字段相关问题,并将该字段相关问题输入所述阅读理解模型,所述待抽取文本输入单元向所述阅读理解模型输入待抽取文本,所述阅读理解模型适于根据所述待抽取文本及所述字段相关问题抽取出工业领域文本要素,并向所述字段抽取结果输出单元输出该字段抽取结果。

进一步地,所述阅读理解模型单元内还包括非结构化文本数据模块及基于BERT的语言模型,所述非结构化文本数据模块的输出端连接至所述基于BERT的语言模型的输入端,所述基于BERT的语言模型的输出端连接至所述基于BERT的阅读理解模型的输入端。

进一步地,所述阅读理解模型单元内还包括阅读理解标注数据模块,所述阅读理解标注数据模块的输出端连接至所述基于BERT的阅读理解模型的输入端。

进一步地,所述字段抽取模型单元包括问题设置模块和字段配置数据库模块,所述字段配置数据库模块的输出端连接至所述问题设置模块的输入端,所述待抽取字段输入单元的输出端连接至所述问题设置模块的输入端。

进一步地,所述字段抽取模型单元还包括数据格式转化/继续训练模块,所述数据格式转化/继续训练模块与所述基于BERT的阅读理解模型之间信息交互。

进一步地,所述工业领域文本要素抽取系统还包括字段抽取标注数据单元,所述字段抽取标注数据单元的输出端连接至所述数据格式转化/继续训练模块的输入端。

第二方面,本发明提供一种工业领域文本要素抽取方法,通过基于BERT的阅读理解模型对待抽取文本进行理解,通过字段抽取模型对待抽取字段设置字段相关问题,所述基于BERT的阅读理解模型综合所述待抽取文本及所述字段相关问题抽取出工业领域文本要素。

进一步地,所述基于BERT的阅读理解模型至少通过以下两种途径进行训练:一、以非结构化文本数据先训练基于BERT的语言模型,再以所述基于BERT的语言模型训练所述基于BERT的阅读理解模型;二、以阅读理解标注数据所述基于BERT的阅读理解模型。

进一步地,所述字段相关问题基于字段配置数据库进行设置。

进一步地,通过字段抽取标注数据对所述基于BERT的阅读理解模型进行数据格式转化/继续训练。

与现有技术相比,本发明的有益效果为:

1.在大量通用领域数据上训练通用的阅读理解模型,可以有效理解语言特性。在新的字段之极小数据集上可以不另行训练,或只进行小样本训练,通过其在通用数据上学习到的语言知识避免过拟合现象导致的泛化能力差。

2.增加抽取字段只需要对配置相应的自然语言问题后即可生效,不需要重新训练模型,应用方便,对标注数据量要求低。

附图说明

图1是本发明系统/方法一个实施例的架构图/流程图。

具体实施方式

下面结合附图和具体实施例,对本发明的技术方案做进一步说明。

如图1所示,本发明工业领域文本要素抽取系统的一个实施例,包括阅读理解模型单元、字段抽取模型单元、待抽取文本输入单元、待抽取字段输入单元和字段抽取结果输出单元;所述阅读理解模型单元、待抽取文本输入单元和待抽取字段输入单元三者分别连接至所述字段抽取模型单元的输入端,所述字段抽取结果输出单元连接至所述字段抽取模型单元的输出端;所述阅读理解模型单元内具有基于BERT的阅读理解模型,其阅读理解的训练数据为SQUAD类型的抽取式阅读理解任务;所述字段抽取模型单元内具有所述阅读理解模型,所述字段抽取模型单元适于围绕所述待抽取字段输入单元所输入的待抽取字段设置字段相关问题,并将该字段相关问题输入所述阅读理解模型,所述待抽取文本输入单元向所述阅读理解模型输入待抽取文本,所述阅读理解模型适于根据所述待抽取文本及所述字段相关问题抽取出工业领域文本要素,并向所述字段抽取结果输出单元输出该字段抽取结果。

在一个实施例中,所述阅读理解模型单元内还包括非结构化文本数据模块及基于BERT的语言模型,所述非结构化文本数据模块的输出端连接至所述基于BERT的语言模型的输入端,所述基于BERT的语言模型的输出端连接至所述基于BERT的阅读理解模型的输入端。

在一个实施例中,所述阅读理解模型单元内还包括阅读理解标注数据模块,所述阅读理解标注数据模块的输出端连接至所述基于BERT的阅读理解模型的输入端。

在一个实施例中,所述字段抽取模型单元包括问题设置模块和字段配置数据库模块,所述字段配置数据库模块的输出端连接至所述问题设置模块的输入端,所述待抽取字段输入单元的输出端连接至所述问题设置模块的输入端。

在一个实施例中,所述字段抽取模型单元还包括数据格式转化/继续训练模块,所述数据格式转化/继续训练模块与所述基于BERT的阅读理解模型之间信息交互。

在一个实施例中,所述工业领域文本要素抽取系统还包括字段抽取标注数据单元,所述字段抽取标注数据单元的输出端连接至所述数据格式转化/继续训练模块的输入端。

如图1所示,本发明工业领域文本要素抽取方法的一个实施例,通过基于BERT的阅读理解模型对待抽取文本进行理解,通过字段抽取模型对待抽取字段设置字段相关问题,所述基于BERT的阅读理解模型综合所述待抽取文本及所述字段相关问题抽取出工业领域文本要素。

在一个实施例中,所述基于BERT的阅读理解模型至少通过以下两种途径进行训练:一、以非结构化文本数据先训练基于BERT的语言模型,再以所述基于BERT的语言模型训练所述基于BERT的阅读理解模型;二、以阅读理解标注数据所述基于BERT的阅读理解模型。

在一个实施例中,所述字段相关问题基于字段配置数据库进行设置。

在一个实施例中,通过字段抽取标注数据对所述基于BERT的阅读理解模型进行数据格式转化/继续训练。

具体地,可以按以下步骤实现本发明的方法:

1.训练抽取式阅读理解模型

阅读理解模型基于BERT(Bidirectional Encoder Representation fromTransformers,基于转换器的双向编码表征)架构。阅读理解训练数据为SQUAD(StanfordQuestion-Answering Dataset,斯坦福问答数据集)类型的抽取式阅读理解任务。

在训练结束后,阅读理解模型拥有在文章中找到特定问题答案的能力。抽取式阅读理解任务的形式化定义为:

有一篇文本C,其由n个字符构成,记为{w

2.对于每个字段,配置一个或多个相关问题。

对于待抽取字段E,构思一个或多个问题Q,这些问题需要是关于待抽取字段E的问题,期望答案为字段E的内容。

3.在无标注样本时使用阅读理解模型直接提取答案。

针对一篇文档D,将D和Q同时输入阅读理解模型,因为阅读理解模型已经在大量的阅读理解问答数据集上进行过训练,具有对语言的建模和上下文感知能力,所以可以输出问题Q在文档D中的答案A及其概率。而根据2中的定义,我们构造问题Q时,其期望答案正好是字段E的内容。

如果阅读理解模型输出的答案A的概率超过了一定阈值,我们便有理由认为,答案A便是文档D中待抽取的E字段内容。

4.在有少量标注时,微调阅读理解模型。

如果待抽取字段E积累了少量的数据,可将其形式转化为抽取式阅读理解数据的格式。即E相关的问题作为Q,文档作为文本C,而标注的抽取字段为答案A。

转换后,以阅读理解任务的形式训练阅读理解模型。

更具体地,可按如下步骤实现本发明的方法

一、系统准备阶段

1.在网络上爬取大量文本,训练基于自注意力架构的语言模型。

2.通过公开数据集训练阅读理解模型。

二、实施阶段:

1.对于一个待抽取字段“内径”,定义一个和字段相关的问题,比如“零件的内径是多少”。

2.输入一篇待抽取的文档D,文档内容为一个零件的介绍,文本中有以下内容“....,xxx零件经过测量,长度100毫米,内径为10毫米,外径为12毫米。....”。

3.将字段相关问题“零件的内径是多少”与文档D结合输入阅读理解模型中,阅读理解便能得到文档的答案“10毫米”,并且概率为0.92。因此,便将“10毫米”作为文档D中字段“内径”的抽取值。

4.如果新增一个需要抽取的字段“外径”,则定义一个和字段相关的问题,如“零件的外径是多少”,重复3中的过程,得到阅读理解模型的输出“12毫米”作为字段的抽取值。

可选项:

5.经过一段时间的使用,字段“外径”“内径”积累了一定量的标注数据。此时可将抽取标注转化为阅读理解式的标注,对阅读理解模型进行进一步训练。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

相关技术
  • 一种长文本的关键要素抽取方法、系统及终端设备
  • 一种长文本的关键要素抽取方法、系统及终端设备
技术分类

06120115856757