掌桥专利:专业的专利平台
掌桥专利
首页

一种半结构文本的信息提取装置

文献发布时间:2023-06-19 12:24:27


一种半结构文本的信息提取装置

技术领域

本发明涉及AI技术领域,具体涉及一种半结构文本的信息提取装置。

背景技术

在文本处理中,一个通用的需求是将一段文本中有价值的信息提取出来。如基于知识图谱的问答技术,需要提前将非结构的文本信息提取出三元组,从而形成知识图谱的结构化信息。在金融领域各个业务场景中同样存在这样的需求,从非结构或半结构的文本信息中提取有价值的信息。在各个领域都存在很多半结构化数据,它并不是完全的结构信息,但是又有一定的结构;需要基于结构(文本的行、列信息)来确定要素的的类别,如下图所示,是金融领域债券投标的一个交易信息,带有“债券名,指导区间,债券评级,边际倍数,以及某些机构的某个交易员他们的投标标位、标量等信息”。通过文本的内容,以及它们的结构、位置信息综合起来,便于人们识别。

但是现有的技术深度学习模型框架,主要针对的是完全非结构化的数据,针对上图中的例子,其处理办法是将“所有行的数据拼接成一行”进行处理,这在一定程度上丢失了“结构”这种信息的学习;其次,虽然Bert等预训练模型,能够加入位置信息。但它加入的是低阶的位置信息,即“所有数据拼接成一行后,每个字符在句子中的顺序信息”。它并不能表达、或者学习“表结构式”的更高阶的“结构特征”信息;再次,针对中文的优化模型,如LGN,Graph4NER等,融入的是高阶的“词”的信息,根据“词”的边界,对位置信息有一定的学习能力,但是它同样没有“显式的”将位置结构信息额外加入到模型中。对半结构数据的信息提取效果提升有限。

发明内容

本发明的目的在于针对现有技术的缺陷和不足,提供一种半结构文本的信息提取装置,它能够实现对文本中“结构特征”的学习,在针对金融领域的数据抽取中能提升2%-5%以上的准确率。

为实现上述目的,本发明采用以下技术方案是:它包括了对句子的分词和结构提取;编码层模块,采用Albert或LSTM对文本的字符进行embedding;图注意力网络结构层,用于将融合了“结构特征”的词向量融合到“字符”向量的表达上;不同粒度特征的聚合层,采用transformer的decoder方式进行聚合;解码层,采用成熟的CRF算法,对编码结果R进行解码,获得最终序列标注的结果。

所述对句子的分词和结构提取包括了:A、利用现有的分词算法,对一段话中的文本进行分词切割,形成单个的词;B、通过采用三种粒度的分词方式,对应地可以提取出三种结构信息;C、通过换行符“\n”判断每个词所在的行号,以及每个词在该行的位置信息,确定该词的列号。

所述编码层模块包括了:A、采用基于金融对话数据进行预训练后的AlBert模型,对字符进行特征编码;B、通过词的编码,基于图网络,构建一套词的encoding层;C、根据K-NN邻近算法,利用每个词的“结构信息”构建出词的结构拓扑图;D、根据细、中、粗粒度的分词,分别形成三种图,F-Encoding-Graph、M-Encoding-Graph、C-Encoding-Graph,它们分别对应三个对称的邻接矩阵,AF、AM、AC。对于有M*N的拓扑结构,我们构建出M*N*M*N的的邻接矩阵,根据是否相连,确定邻接矩阵中的值;E、根据细、中、粗粒度的分词,采用相同的编码方式,同时采用GAT的算法,对邻接矩阵AF、AM、AC进行特征学习。

所述图注意力网络结构层包括了:某“词”中包含有该字符的,则该“词”与该字符是连接的;每个字符和“词”与自身是连接的;其它则是不连接的。

所述不同粒度特征的聚合层的聚合步骤为:A、采用直接拼接的方式,对不同粒度形成的图特征进行直接拼接,得到G=[Q

本发明的工作原理:通过对文本的内容特征提取上,采用已有的框架,在这个框架上融入“结构特征”的学习能力,首先通过编码层模块,采用Albert或LSTM对文本的字符进行embedding;同时采用分词器,对文本中的字符进行分词,利用字符中的换行符“\n”对分词的位置和结构信息进行标定,同时采用图结构对分词和结构信息进行Graphattention来获得词级的embedding。在上层,采用多个Graphattention结构,将字符的向量信息、分词的向量信息和词的位置结构信息进行融合、联合学习,最终输出字符的向量信息,再通过CRF算法对字符向量进行系列标注的解码。

采用上述技术方案后,本发明有益效果为:它能够实现对文本中“结构特征”的学习,在针对金融领域的数据抽取中能提升2%-5%以上的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明中基于图网络的融入“结构特征”的信息抽取模型框架图。

图2是本发明中粗粒度切割形成的“结构信息”示意图。

图3是本发明中词的结构拓扑图。

图4是本发明中网络结构的连接方式图。

图5是本发明中针对金融数据的训练、学习流程图。

具体实施方式

参看图1-图5所示,本具体实施方式采用的技术方案是:它包括了对句子的分词和结构提取;编码层模块,采用Albert或LSTM对文本的字符进行embedding;图注意力网络结构层,用于将融合了“结构特征”的词向量融合到“字符”向量的表达上;不同粒度特征的聚合层,采用transformer的decoder方式进行聚合;解码层,采用成熟的CRF算法,对编码结果R进行解码,获得最终序列标注的结果。

所述对句子的分词和结构提取包括了:A、对于一段文本,利用现有的分词算法,如jieba分词(包括但不限于)这种分词方法,本方案加入私有域的词典(如金融债券代码、名称等一些金融规则的分词词典。对一段话中的文本进行分词切割,形成单个的词;B、采用三种粒度的分词方式,对应地可以提取出三种结构信息,以“19XX城投MTN002”这个债券名为例,第一种是细粒度的分词切割方式,将“数字和中文字符”明确的区分的方式,会切割为[19,XX,城投,MTN,002],第二种是中粒度的切割方式,会切割为[19,XX城投,MTN002],第三种是粗粒度的切割方式,切割为[19XX城投MTN002];C、结构信息提取,通过换行符“\n”判断每个词所在的行号,以及每个词在该行的位置信息,确定该词的列号。一段文本形成如下的结构信息,该结构包含了每个词的文本信息,以及这个词在表格的位置信息,在程序上,每个词在表中的位置标记为(1-1,1-2,2-1,2-2,3-1,3-2)的形式第一个数字表示为行号,第二个数字表示为列号,同时通过字表的形式(如19XX城投MTN002:1-1)和词进行关联。本方案采用了三种不同粒度的分词切割方式,所以会形成三种“结构信息”,具体形式参看附图2。

所述编码层模块包括了:A、采用基于金融对话数据进行预训练后的AlBert模型,对字符进行特征编码,这个字符编码模块采用的是现成的技术,最后每个字符({c1,c2,...,cm})形成长度是768(包括但是不限于)的特征向量SE;B、词的编码,基于图网络,构建一套词的encoding层,首先通过预训练模型,如word2vec对词进行向量化,形成300(包括但是不限于)维的词向量,作为下层拓扑图节点的输入向量;C、根据K-NN邻近算法,利用每个词的“结构信息”构建出词的结构拓扑图,结构拓扑图参看附图3;D、根据细、中、粗粒度的分词,分别形成三种图,F-Encoding-Graph、M-Encoding-Graph、C-Encoding-Graph,它们分别对应三个对称的邻接矩阵,AF、AM、AC,对于有M*N的拓扑结构,我们构建出M*N*M*N的的邻接矩阵,根据是否相连,确定邻接矩阵中的值。AF、AM、AC它们的生成方式是相同,只是矩阵的维度不同,邻接矩阵中的值要么是1,表示相连,要么是0,表示不相连。以邻接矩阵AF为例,AF[i,j]=1表示拓扑结构中位置i和位置相连,AF[i,j]=0表示拓扑结构中位置i和位置j不相连;E、编码上,细、中、粗粒度的分词,采用相同的编码方式。本方案采用GAT的算法,对邻接矩阵AF、AM、AC进行特征学习。以针对于邻接矩阵AF为例,在GAT操作中,第t层的输入是一个点集,同时存在一个邻接矩阵G,使用带有多头的GAT操作如下:

(公式1)

(公式2)

(公式3)

所述图注意力网络结构层针对三种不同粒度的词编码,构建三个图网络结构,将融合了“结构特征”的词向量融合到“字符”向量的表达上,其中包括了:A、某“词”中包含有该字符的,则该“词”与该字符是连接的;每个字符和“词”与自身是连接的;其它则是不连接的。以19XX城投MTN002的细粒度分词为例,连接方式如附图4所示,然后对邻接矩阵进行编码的时候,首先将不同粒度的词拼接到字符后面形成一个点序列,若两节点相连则赋值为1,反之赋值为0。假设表示图的邻接矩阵为A,若A[i,j]=1表示节点i和节点j相连,若A[i,j]=0表示节点i和节点j不相连,由此形成N*N的标准正定的邻接矩阵。由于有三种粒度的词,因此形成三个邻接矩阵,定义为AAF,AAM和AAC;B、根据(公式3)可以得到GAT(AAF)、GAT(AAM)、GAT(AAC),然后通过下列公式得到最终的图特征:

Q

Q

Q

所述不同粒度特征的聚合层通过图注意网络层,得到了三个不同的特征表达Q

最后通过解码层采用成熟的CRF算法,对编码结果R进行解码,获得最终序列标注的结果。

本发明的工作原理:通过对文本的内容特征提取上,采用已有的框架,在这个框架上融入“结构特征”的学习能力,首先通过编码层模块,采用Albert或LSTM对文本的字符进行embedding;同时采用分词器,对文本中的字符进行分词,利用字符中的换行符“\n”对分词的位置和结构信息进行标定,同时采用图结构对分词和结构信息进行Graphattention来获得词级的embedding。在上层,采用多个Graphattention结构,将字符的向量信息、分词的向量信息和词的位置结构信息进行融合、联合学习,最终输出字符的向量信息,再通过CRF算法对字符向量进行系列标注的解码。

采用上述技术方案后,本发明有益效果为:它能够实现对文本中“结构特征”的学习,在针对金融领域的数据抽取中能提升2%-5%以上的准确率。

以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种半结构文本的信息提取装置
  • 一种基于语义分析的文本关键信息提取方法及装置
技术分类

06120113283700