掌桥专利:专业的专利平台
掌桥专利
首页

表单信息抽取方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:59:31


表单信息抽取方法、装置、设备及存储介质

技术领域

本发明涉及文件数据提取技术领域,尤其涉及一种表单信息抽取方法、装置、设备及存储介质。

背景技术

表单与实际应用紧密相关,具有强烈的领域特性,样式往往跟内容相关,不同应用设计的表格样式往往不同,导致表单样式灵活多样,没有固定的样式有关系的二元组相对位置和绝对位置不固定,难以使用规则等方式进行有效抽取,局限性强、可扩展性差,难以维护、编写繁琐,一旦表单类型或者结构发生变更,就需要重新编写规则模板。

表单的来源也包括学校、银行、证券等不同类型的机构制作的各类信息登记表,以及生活中的房产证、营业执照、个人信息表、发票等等。不同类型的表单可能具有特定的表达和描述倾向。因此,如何从这样复杂、多源和冗余的半结构化表单数据中准确、有效地提取出有价值、高质量、结构化的信息成为一个迫切需要解决的问题。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种表单信息抽取方法、装置、设备及存储介质,旨在解决表格信息抽取效果差的技术问题。

为实现上述目的,本发明提供了一种表单信息抽取方法,所述方法包括以下步骤:

对待处理表单进行识别,得到待处理数据集,其中,所述待处理数据集中包括多个实体;

同步对所述多个实体进行实体识别与关系判断,得到识别判断结果;

根据所述识别判断结果,对所述待处理表单进行实体信息抽取,得到目标实体信息。

可选地,所述对待处理表单进行识别,得到待处理数据集,包括:

对所述待处理表单进行初步识别,得到初步处理数据集;

对所述初步处理数据集进行重新排序,得到待处理数据集。

可选地,在所述对所述初步处理数据集进行重新排序,得到待处理数据集之前,还包括:

判断所述初步处理数据集中每一文本的长度是否超过预设长度阈值;

若超过,则采用预设替换字符替换对应文本,并对所述对应文本进行序列裁剪。

可选地,所述同步对所述多个实体进行实体识别与关系判断,得到识别判断结果,包括:

构建初始联合模型;

对所述初始联合模型进行实体识别训练与关系判别训练,得到联合训练模型;

根据所述联合训练模型,对所述多个实体进行实体识别与关系判断,得到所述识别判断结果。

可选地,所述构建初始联合模型,包括:

将词嵌入模型、文本分布模型、文本位置信息提取模型、特征图像提取模型与预训练编码器模型进行组合,得到编码器模型;构建抽取解码器模型,并将所述编码器模型与所述抽取解码器模型进行组合,得到所述初始联合模型。

可选地,所述对所述初始联合模型进行实体识别训练与关系判别训练,得到联合训练模型,包括:

根据离散分类标签,确定概率分布标签;

根据所述离散分类标签与所述概率分布标签的权重分布,分别采用所述离散分类标签与所述概率分布标签对所述初始联合模型进行实体识别训练与关系判别训练,得到联合训练模型。

可选地,在所述根据所述识别判断结果,对所述待处理表单进行实体信息抽取,得到目标实体信息之后,还包括:

根据所述目标实体信息,确定所述表单信息抽取的精确率与召回率;

根据所述表单信息抽取的精确率与召回率,确定模型抽取评估指标,并根据所述模型抽取评估指标对抽取效果进行评估。

此外,为实现上述目的,本发明还提出一种表单信息抽取装置,所述表单信息抽取装置包括:

识别模块,用于对待处理表单进行识别,得到待处理数据集,其中,所述待处理数据集中包括多个实体;

实体识别判断模块,用于同步对所述多个实体进行实体识别与关系判断,得到识别判断结果;

信息抽取模块,用于根据所述识别判断结果,对所述待处理表单进行实体信息抽取,得到目标实体信息。

此外,为实现上述目的,本发明还提出一种表单信息抽取设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表单信息抽取程序,所述表单信息抽取程序配置为实现如上文所述的表单信息抽取方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有表单信息抽取程序,所述表单信息抽取程序被处理器执行时实现如上文所述的表单信息抽取方法的步骤。

本发明通过对待处理表单进行识别,得到待处理数据集,其中,待处理数据集中包括多个实体;同步对多个实体进行实体识别与关系判断,得到识别判断结果;根据识别判断结果,对待处理表单进行实体信息抽取,得到目标实体信息。本发明通过识别待处理表单,识别出多个实体,然后同步对实体进行实体识别与关系判断,考虑到了多个实体间的相互关系以及上下文联系,最后根据实体识别与关系判断的结果对该待处理表单进行实体信息抽取以得到目标实体信息,提高了表单信息抽取的效果与效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的表单信息抽取设备的结构示意图;

图2为本发明表单信息抽取方法第一实施例的流程示意图;

图3为本发明表单信息抽取方法第二实施例的流程示意图;

图4为本发明表单信息抽取方法第三实施例中一子流程示意图;

图5为本发明表单信息抽取方法一实施例中对初步处理数据集进行重新排序的步骤示意图;

图6为本发明表单信息抽取方法第三实施例中又一子流程示意图;

图7为本发明表单信息抽取装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的表单信息抽取设备结构示意图。

如图1所示,该表单信息抽取设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对表单信息抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及表单信息抽取程序。

在图1所示的表单信息抽取设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明表单信息抽取设备中的处理器1001、存储器1005可以设置在表单信息抽取设备中,所述表单信息抽取设备通过处理器1001调用存储器1005中存储的表单信息抽取程序,并执行本发明实施例提供的表单信息抽取方法。

本发明实施例提供了一种表单信息抽取方法,参照图2,图2为本发明表单信息抽取方法第一实施例的流程示意图。

在本实施例中,所述表单信息抽取方法包括以下步骤:

步骤S1:对待处理表单进行识别,得到待处理数据集,其中,所述待处理数据集中包括多个实体;

需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等,还可以是能够实现相同或相似功能的其他电子设备。此处以上述表单信息抽取设备对本实施例和下述各实施例提供的表单信息抽取方法进行具体说明。

具体的,待处理表单为用于收集或提交用户信息的文档或页面。通常包含各种字段,如文本框、复选框、单选按钮等。在本实施例中,待处理表单的来源包括银行、证券等不同类型机构制作的各类报告、登记表、文书等。待处理数据集指的是对待处理表单进行信息提取与解析后(即将图像中的文本转换为可处理的数据)得到的可处理的数据。实体指的是文本中具体命名的对象,例如人名、地名、组织机构名等。

进一步的,实体识别指的是从表单(文本)中自动识别和分类实体,便于理解文本,并为信息提取、知识图谱构建等任务奠定基础。

步骤S2:同步对所述多个实体进行实体识别与关系判断,得到识别判断结果;

具体的,实体识别可识别出表单(文本)中的具体实体,关系判断可推断文本中不同实体之间的关系。同步进行实体识别与关系判断,有利于构建知识图谱、信息检索和推理等,便于将文本信息转化为结构化的知识,进而更好地理解和利用文本中的信息。

进一步的,识别判断结果包括文档信息中各实体的实体信息与各实体间的关系信息,通过识别判断结果,便于后续进行表单信息的抽取。

步骤S3:根据所述识别判断结果,对所述待处理表单进行实体信息抽取,得到目标实体信息;

具体的,根据识别判断结果中各实体的实体信息与各实体间的关系信息,对待处理表单进行实体信息抽取,得到目标实体信息。其中,目标实体信息即用户需要从表单中获得的信息。

需要说明的是,表单中的语义信息混杂,同一个语义的实体在不同的文档可能是不同类型的实体。而且实体的具体类型和关系可能跟所处位置、上下文关系以及整个文档内容有关,单纯利用规律很难考虑周全,对于整个文档的语义信息和位置信息等也很难兼顾,因此通过同步对多个实体进行实体识别与关系判断,提升了信息抽取效果。

本发明通过对待处理表单进行识别,得到待处理数据集,其中,待处理数据集中包括多个实体;同步对多个实体进行实体识别与关系判断,得到识别判断结果;根据识别判断结果,对待处理表单进行实体信息抽取,得到目标实体信息。本发明通过识别待处理表单,识别出多个实体,然后同步对实体进行实体识别与关系判断,考虑到了多个实体间的相互关系以及上下文联系,最后根据实体识别与关系判断的结果对该待处理表单进行实体信息抽取以得到目标实体信息,提高了表单信息抽取的效果与效率。

请参阅图3,图3为本发明表单信息抽取方法第二实施例的流程示意图。

基于上述第一实施例,在本实施例中,步骤S1包括:

S11:对所述待处理表单进行初步识别,得到初步处理数据集;

S12:对所述初步处理数据集进行重新排序,得到待处理数据集;

具体的,先采用OCR(光学字符识别)对待处理表单进行初步识别,得到初步处理数据集,再对初步处理数据集进行重新排序,以得到有序的待处理数据集。

进一步的,由于采用OCR(光学字符识别)识别结果的顺序可能存在混杂,所以要根据从左到右,从上到下的顺序对于实体进行排序。另外,对于过长的文档进行序列调整,通过截断的方法调整过长的序列,以便于识别。

需要说明的是,OCR(Optical Character Recognition)为光学字符识别。它是一种通过光学识别设备将可见字符快速识别转化为电子计算机能够识别的信号,并在电脑中以可编辑的字符显示出来的技术。OCR可以将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。由于采用OCR进行识别得到的初步处理数据集的顺序和实际阅读理解顺序并不是完全一致,根据OCR提取的结果按照识别出的版面信息、空间位置和语义信息重新进行排序,便于后续模型学习任务,进而提高表单信息抽取效果。

请参阅图4,图4为本发明表单信息抽取方法第三实施例中一子流程示意图;

基于上述第二实施例,在本实施例中,在步骤S12之前,还包括:

S12a:判断所述初步处理数据集中每一文本的长度是否超过预设长度阈值;

S12b:若超过,则采用预设替换字符替换对应文本,并对所述对应文本进行序列裁剪;

请参阅图5,图5为本发明表单信息抽取方法一实施例中对初步处理数据集进行重新排序的步骤示意图;

具体的,如图5所示,重新排序具体包括以下内容:

对于文档D,假设它的长度为W,高度为H。对于文档D的实体序列

进一步的,由于需通过构建联合模型来实现表单信息的二元组抽取。同自然语言一样,表单在结构和内容上也具有不确定性,模型输入序列需要进行裁剪使其长度小于BERT模型的最大输入长度510(去掉了序列头部的[CLS]和序列尾部的[SEP]两个token),输入长度的分布影响模型学习的效果。由于实体长度是固定的,如果粗暴的剪短,会导致实体缺失,所以要根据实体个数来分配序列,其次,用填充方法填充序列会出现大量过长的batch导致训练难度上升,所以需要来合理的分割batch从而平衡batch。同样对于文本中过长的部分,使用特殊字符“$$$$$”替换。

需要说明的是,对应文本指的是长度超过预设长度阈值的文本,预设长度阈值用户可根据实际情况(表单的类型,用途等)进行设定,预设替换字符也可根据用户习惯等进行设定,在此不做具体限制。

在该实施例中,通过进行重新排序以及采用预设替换字符替换长度过长的文本,提升了模型学习的效果(过长的文本模型无法识别学习),进而提升了表单信息抽取的效果。

应当理解的是,当初步处理数据集中文本的长度未超过预设长度阈值时,即不对该文本进行裁剪,照常进行重新排序即可。

基于上述第二实施例,在本实施例中,步骤S2包括:

S21:构建初始联合模型;

S22:对所述初始联合模型进行实体识别训练与关系判别训练,得到联合训练模型;

S23:根据所述联合训练模型,对所述多个实体进行实体识别与关系判断,得到所述识别判断结果;

步骤S21包括:

S211:将词嵌入模型、文本分布模型、文本位置信息提取模型、特征图像提取模型与预训练编码器模型进行组合,得到编码器模型;

S212:构建抽取解码器模型,并将所述编码器模型与所述抽取解码器模型进行组合,得到所述初始联合模型;

具体的,分别构建词嵌入模型、文本分布模型、文本位置信息提取模型、特征图像提取模型与预训练编码器模型,并将词嵌入模型、文本分布模型、文本位置信息提取模型、特征图像提取模型与预训练编码器模型进行组合以得到编码器模型。然后构建抽取解码器模型,并将该编码器模型与抽取解码器模型进行组合,以得到初始联合模型。

需要说明的是,在使用机器学习或深度学习处理自然语言处理问题时,首先需要将文本转化为向量形式,以便能够输入神经网络模型进行处理。为了保持句子中不同字词之间的语义关联,引入词向量是必要的。词向量将每个词语编码为一个向量,使得语义相近的词在向量空间中具有较大的相似度,而语义相反的词则具有较小的相似度。词向量的编码能影响后续任务对文本语义的理解和处理的准确性。

具体的,在完成词向量的编码过程中,通常采用词嵌入技术,如Word2Vec、GloVe和BERT等。这些技术可以通过基于上下文的方法或基于预训练模型的方法来学习词向量。通过这些方法,模型可以学习到词语之间的语义关联,从而在后续任务中更好地理解文本的含义。

在本实施例中,采用BERT模型词向量编码技术。该技术基于Transformer模型结构,可以全面考虑整个句子的所有词语,从而获取更多的语义信息。BERT模型经过大规模预训练,具有强大的泛化能力,并可以通过在特定任务上进行微调(finetune)来获得更强的任务特定性能。

进一步的,LayoutLM预训练模型是在BERT预训练模型的基础上,针对表单特性,利用了光学字符识别的结果,在模型训练中添加了文本二维位置和图片信息。通过预测文本内容、文本内容和图片信息的对齐等方式进行预训练,LayoutLM获得了在文档领域具有强大泛化能力的特点。类似于BERT模型,LayoutLM也可以通过微调来获得更强的任务特定性能。

需要说明的是,LayoutXLM是在LayoutLM的基础上把视觉信息融合到预训练任务之中,并且在二维位置嵌入的基础上引入一维位置嵌入用来学习词之间的相对关系,使用卷积神经网络的编码器得到视觉特征,获得比LayoutLM更强的效果。

在本实施例中,词嵌入模型为LayoutXLM的词嵌入模型,联合训练模型以LayoutXLM的预训练模型为基础。通过文本分布模型可以得到文本的二维位置信息,通过特征图像提取模型可以得到图片信息。

进一步的,联合模型编码器使用LayoutXLM,解码器使用双仿射全连接层和全连接层结合的结构。需要说明的是,预设抽取编码器模型为词嵌入模型、文本分布模型、特征图像提取模型、LayoutXLM预训练模型,预设抽取解码模型为信息抽取解码器模型,通过将训练后的词嵌入模型、文本分布模型、特征图像提取模型、LayoutXLM预训练模型与信息抽取解码器模型组合为初始联合模型,得到了强大的联合抽取模型,增强了模型的泛化性和准确度。

在本实施例中,基于联合模型信息抽取技术,采用端到端的方式,同时完成表单实体的识别和关系抽取。通过构建初始联合模型,并对其进行实体识别训练与关系判别训练,得到联合训练模型,以对实体进行实体识别与关系判断,通过设计联合模型结构,能够准确而快速地实现二元组抽取,提升了表单信息抽取的效果与效率。通过将训练后的词嵌入模型、文本分布模型、特征图像提取模型、LayoutXLM预训练模型与信息抽取解码器模型组合为初始联合模型,增强了模型的泛化性和准确度。

步骤22包括:

S221:根据离散分类标签,确定概率分布标签;

S222:根据所述离散分类标签与所述概率分布标签的权重分布,分别采用所述离散分类标签与所述概率分布标签对所述初始联合模型进行实体识别训练与关系判别训练,得到联合训练模型;

需要说明的是,联合抽取技术,旨在从文本中同时提取多个相关实体或关系。它可以应用于信息抽取、关系抽取、命名实体识别等任务,以获取更丰富和全面的信息。传统的信息抽取方法通常是针对特定的实体或关系进行单独抽取,而联合抽取技术通过同时考虑多个实体或关系之间的相互关系和上下文信息,能够更好地理解文本中的语义和结构。联合抽取技术的关键在于将多个实体或关系的抽取任务建模为一个联合模型,通过共享参数和上下文信息来进行联合推断。这种方法可以充分利用实体和关系之间的上下文信息,从而提高模型的整体性能和泛化能力。联合抽取技术的优点是可以减少模型的复杂性,同时提高模型的效率和准确性。通过共享特征表示和联合优化,可以更好地捕捉实体和关系之间的关联性,从而提高任务的整体性能。

在本实施例中,对实体识别和关系分类两个分开的任务,在同一个模型中同时完成。通过向该联合训练模型提供表单的文本信息、位置信息和图像信息,通过模型输入,模型可以一次以此得到完整的二元组结果。

需要说明的是,在本实施例中,要判别的实体主要包括标题实体、键实体、值实体和其他实体。二元组指的是键实体与值实体。在深度学习中,软标签是一种在训练深度神经网络时使用的标签,也称为概率标签。与硬标签(即0/1标签)不同,软标签是一组实数,表示每个类别的概率分布,用于描述样本属于每个类别的不确定性。使用软标签进行训练的好处在于它可以提供更多的信息并帮助网络更好地学习。在传统的硬标签中,每个样本只能属于一个类别,而使用软标签可以表示样本可能属于多个类别的情况。这对于多标签分类和目标检测等任务非常有用。

进一步的,现有技术使用的深度学习方法的,往往要使用OCR(光学字符识别)的结果,光学字符检测的检测误差很容易传导到信息抽取部分;同样现有技术往往采用流水线的方法完成表单的信息抽取,命名实体识别模型先对表单文本进行命名实体识别,获得实体的类型,然后根据命名实体识别的结果用关系判别模型进行关系分类,两个相关的任务的误差得到叠加,严重影响信息抽取效果。

在本实施例中,软标签与硬标签的结合具体包括以下内容:

软标签的计算方法如下:假设标签个数:

进一步的,对于实体分类任务中得到的软标签概率,计算软标签嵌入作为模型中的label embedding(标签嵌入)。并且引入过渡机制,即在模型训练初期还是采用硬标签训练,等模型训练到有初步能力以后,再使用软标签训练,并且为硬标签和软标签的转换提供了过渡过程。在过渡过程中,使用一个跟训练轮次线性相关的系数,对于硬标签和软标签的权重进行调整,实现从硬标签到软标签的过渡。

在本实施例中,通过离散分类标签(硬标签)与概率分布标签(软标签)的权重分布,采用离散分类标签与概率分布标签共同对初始联合模型进行训练,提高了模型的泛化性。并且根据硬标签和软标签的权重分布,采用过渡机制对模型进行训练,提高了模型对表单信息进行抽取的准确性。

基于上述第二实施例,在本实施例中,在步骤S3之后,还包括:

S3a:根据所述目标实体信息,确定所述表单信息抽取的精确率与召回率;

S3b:根据所述表单信息抽取的精确率与召回率,确定模型抽取评估指标,并根据所述模型抽取评估指标对抽取效果进行评估;

请参阅图6,图6为本发明表单信息抽取方法第三实施例中又一子流程示意图;

具体的,在上述步骤中,根据预测结果,可以根据Classification Task(分类任务)得到预测实体类别的预测向量进而可以推出实体的类别,Relations ClassficationTask(关系分类任务)可以得到预测实体对的预测向量,进而可以推出实体对之间是否存在类别。

进一步的,在完成表单信息抽取后,为了方便后续系统中的使用和管理,可对其进行标准化调整。

对于表单的实体识别任务,可以使用实体粒度的分类准确率作为评判指标。实体粒度的分类准确率可以通过以下公式计算:实体粒度的分类准确率=(正确分类的实体数量)/(总实体数量)。其中,"正确分类的实体数量"是指在标准化调整后,被正确识别和分类的实体的数量。"总实体数量"是指标准化调整后表单中的总实体数量。

对于表单的关系抽取任务,可以使用F1分数(F1-score)来衡量抽取指标的效果。F1分数是综合考虑了精确率(Precision)和召回率(Recall)的指标,可以评估模型对关系抽取任务的准确性和完整性。精确率=(真正预测为正类的关系)/预测为正类的样本数,召回率=(真正预测为正类的样本数)/真实正类样本数。

F1=2×(精确率×召回率)/(精确率+召回率)。通过计算F1分数,可以综合评估模型对于表单关系抽取任务的准确性和召回率,并为进一步改进和优化提供指导。

需要说明的是,目标实体信息为从表单中进行信息抽取后得到的所需要的信息,包括有实体识别信息与实体关系信息。模型抽取评估指标即为F1分数。

进一步的,通过精确率与召回率确定模型抽取评估指标,以对抽取效果进行评估,有利于实现表单信息抽取的标准化管理,便于进一步改进优化。

在本实施例中,对于表单OCR提取的结果,进行重新排序修正,对于过长的文本使用预设字符进行替换,并且进行序列裁剪,减轻模型学习压力,增强模型抽取的精准度。通过设计联合模型结构和训练方式,能够准确而快速地实现二元组抽取,节约了模型参数量和训练成本,并且通过联合训练共享参数,增强模型的泛化性和准确度。在模型训练过程中,使用软标签和硬标签的结合,并且引入过渡机制,增强了模型的泛化性。并且使用实体级别的准确率衡量实体识别任务,使用实体级别的f1-score衡量抽取效果,实现了更加精准的描述任务效果,便于后续进行改进与优化。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有表单信息抽取程序,该表单信息抽取程序被处理器执行时实现如上文所述的表单信息抽取方法的步骤。

参照图7,图7为本发明表单信息抽取装置第一实施例的结构框图。该表单信息抽取装置包括:

识别模块801,用于对待处理表单进行识别,得到待处理数据集,其中,所述待处理数据集中包括多个实体;

实体识别判断模块802,用于同步对所述多个实体进行实体识别与关系判断,得到识别判断结果;

信息抽取模块803,用于根据所述识别判断结果,对所述待处理表单进行实体信息抽取,得到目标实体信息。

可选地,识别模块801还用于对所述待处理表单进行初步识别,得到初步处理数据集;对所述初步处理数据集进行重新排序,得到待处理数据集。

可选地,识别模块801还用于判断所述初步处理数据集中每一文本的长度是否超过预设长度阈值;若超过,则采用预设替换字符替换对应文本,并对所述对应文本进行序列裁剪。

可选地,实体识别判断模块802还用于构建初始联合模型;对所述初始联合模型进行实体识别训练与关系判别训练,得到联合训练模型;根据所述联合训练模型,对所述多个实体进行实体识别与关系判断,得到所述识别判断结果。

可选地,实体识别判断模块802还用于将词嵌入模型、文本分布模型、文本位置信息提取模型、特征图像提取模型与预训练编码器模型进行组合,得到编码器模型;构建抽取解码器模型,并将所述编码器模型与所述抽取解码器模型进行组合,得到所述初始联合模型。

可选地,实体识别判断模块802还用于根据离散分类标签,确定概率分布标签;根据所述离散分类标签与所述概率分布标签的权重分布,分别采用所述离散分类标签与所述概率分布标签对所述初始联合模型进行实体识别训练与关系判别训练,得到联合训练模型。

可选地,信息抽取模块803还用于根据所述目标实体信息,确定所述表单信息抽取的精确率与召回率;根据所述表单信息抽取的精确率与召回率,确定模型抽取评估指标,并根据所述模型抽取评估指标对抽取效果进行评估。

本发明通过对表单OCR提取的结果进行重新排序修正,对于过长的文本使用预设字符进行替换,并且进行序列裁剪,减轻模型学习压力,增强模型抽取的精准度。通过设计联合模型结构和训练方式,能够准确而快速地实现二元组抽取,节约了模型参数量和训练成本,并且通过联合训练共享参数,增强模型的泛化性和准确度。在模型训练过程中,使用软标签和硬标签的结合,并且引入过渡机制,增强了模型的泛化性。并且使用实体级别的准确率衡量实体识别任务,使用实体级别的f1-score衡量抽取效果,实现了更加精准的描述任务效果,便于后续进行改进与优化。

本发明表单信息抽取装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 一种含葛根的降血压配制酒及其制作方法
  • 一种大鲵酒(娃娃鱼酒)的制备方法
  • 一种低酒度葡萄酒及其制备方法
  • 一种含有葛根醇溶蛋白的复合可食性保鲜膜及制备方法
  • 葛根保健酒的制备方法及该方法制成的葛根保健酒
  • 一种富含葛根黄酮的葛根酒及其制备方法
技术分类

06120116516693