掌桥专利:专业的专利平台
掌桥专利
首页

一种基于连续数字压缩编码的长数字实体抽取方法

文献发布时间:2023-06-19 11:29:13


一种基于连续数字压缩编码的长数字实体抽取方法

技术领域

本发明涉及人工智能的自然语言处理领域,特别涉及一种基于连续数字压缩编码的长数字实体抽取方法。

背景技术

命名实体识别(Named Entity Recognition,NER)是信息抽取、问答系统、句法分析、机器翻译、信息检索等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。NER的任务目标是识别出文本中的三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。例如,在“朱明在2020年12月6日参加了中国计算机协会举办的计算机能力认证考试。”中,“朱明”是人名类实体,“2020年12月6日”是时间类实体,“中国计算机协会”是机构名实体。

NER任务是信息检索、对话推荐、对话生成等应用研究的子任务之一,一直是自然语言处理领域研究的热点。

现有研究普遍将NER问题作为一个序列标注任务。主要提出的研究方法包括SoftWord特征技术、条件随机场(Conditional Random Field,CRF)、长短时记忆网络模型(Long Short-term Model,LSTM)、LSTM+CRF、Lattice-LSTM等。其中, SoftLexicon+Bi-LSTM+CRF是目前最被广泛认可的一种方法。它使用一种 SoftLexicon方法,首先将与某字符相关的候选词的信息融合到该字符的表示 (embedding)中,然后构建Bi-LSTM+CRF模型进行实体抽取,从而提高模型的识别率和训练速度。虽然SoftLexicon+Bi-LSTM+CRF方法在常用的cluener数据集、weibo数据集中实体识别准确率分别为92.0%、94.0%,但对带噪音的长数字实体的识别准确率均为53.0%。总体来看,由于较少有专门针对带噪音的长数字实体抽取方法的研究,使带噪音的长数字实体识别准确率偏低。

主要原因为:一是现有模型主要通过设置一定大小的观察窗口来抽取实体,当数字实体较长时,可能超出观察窗口,使实体提取不完整;二是现有的模型对长数字实体中的噪音没有专门的处理方法,将噪音数据当作普通的非实体类字符进行标注。这将打乱模型原标签间的共现规则,使模型在预测正常的长数字实体时产生理解偏差,从而影响实体识别的准确率。

发明内容

本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于连续数字压缩编码的长数字实体抽取方法。

为了实现本发明的上述目的,本发明提供了一种基于连续数字压缩编码的长数字实体抽取方法,包括:

S1,将实体词典中的实体信息融合到单个字符的表示中;

S2,对带噪音的长数字实体进行压缩编码和标注;

S3,送入Bi-LSTM+CRF模型进行实体识别训练,然后对长数字实体进行抽取,得到所需的命名实体。

进一步地,所述S1包括:

S1-1,找到含有字符C

其中SupB是候选实体中字符C

S1-2,融合SupB、SupM、SupE和SupS中的实体信息,得到字符C

进一步地,所述S1-1包括:

S1-1-1,令

S1-1-2,以字符C

S1-1-3,对于每一个候选实体集SUPC中的实体w

S1-1-4,如果w

S1-1-5,如果w

S1-1-6,如果w

S1-1-7,结束;

令实体词典为L,w

其中,

将S1-1-3中所述的候选实体集SUPC中的实体w

其中,V

由此得到每个字符的四个候选实体集的嵌入,将它们与字符本身的嵌入拼接,得到该字符融合了词典信息后的嵌入,如(式6)所示:

其中←表示赋值,v

进一步地,所述标注包括带噪音标注的BMEOH标签体系,用于标注带噪音的长数字实体:

判断将训练集中字符,若位于实体的起始位置则用B标签标注,若字符位于一个实体的中间位置则用M标签标注,若字符位于一个实体的结束位置则用E标签标注,若字符不属于任意一个实体则用O标签标注,若字符为噪音数据用则用H标签标注;

经过标注,实体抽取任务就被进一步描述为预测每个字符的标签和实体类别的问题,而以上标注的序列,则作为预测模型的训练数据。

进一步地,所述压缩编码包括长数字实体压缩编码方法:

S2-1,输入字符序列C=[C

S2-2,temp用于临时存放连续数字串,初始化为空;

S2-3,判断字符C

S2-4,如果temp的字符长度大于或者等于阈值s,则C_result中加入两个特殊字符;同时,将temp字符串中第一个字符和最后一个字符对应的标签依次加入L_result;如果temp的字符长度小于等于阈值s,则执行下一步骤;

S2-5,将temp字符串中的所有字符复制到C_result,其对应的标签复制到L_result;

S2-6,将当前第i个字符与其对应的标签复制到C_result与L_result中,并将temp重置为空;

S2-7,判断i是否小于或者等于n,若是则跳转执行步骤S2-4,若否则执行下一步骤;

S2-8,输出新的字符序列C_result=[C

综上所述,由于采用了上述技术方案,本发明的有益效果是:在NER任务的实体标注阶段增加一种新的H标签,专门对长数字实体中的噪音数据进行标注,使模型通过学习H标签;规范的和带噪音的长数字实体,同时保证对其他类型实体的识别率正确率。还提出了一种对连续长数字串进行压缩编码的方法,从而缩短长数字实体的长度,使其能被模型观测窗口完整地观测和提取。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明SoftLexicon+Bi-LSTM+CRF模型架构图;

图2是本发明SoftLexicon方法示例图;

图3是本发明BMEO标签体系示例图;

图4是本发明用BMEO标签标注含噪音的长数字实体示例图;

图5是本发明用BMEOH标签标注含噪音的长数字实体示例图;

图6是本发明加入H标签后的模型架构图;

图7是本发明观测窗口过大对模型的影响图;

图8是本发明观测窗口过小对模型的影响图;

图9是本发明CNCD技术原理图;

图10是本发明数据集文本长度分布直方图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

1.长数字实体抽取任务

在实际应用的网页、日志文件、问卷调查结果数据中,常常包含用户信息,其中,手机号、QQ号、邮箱等实体,一般都包含若干个连续数字字符,例如:

示例一:商务合作、业务探讨请联系我们,手机:132※※※※※※※76;

示例二:如果以上内容让您感到不适,或侵犯了您的合法权益请联系我们,我们将会尽快处理。联系人:王经理。QQ:1969※※※※76。邮箱:54※※※※※ 671@sina.com;

示例三:为服务广大考生报考,欢迎来电咨询我校招生办。联系人:彭老师。手机:1735※※※5124。邮箱:194※※※※361@2020.cqut.edu.cn。

一般地,手机号是11位、电话号码是7-8位、QQ号是10位、二代身份证号码是18位、邮箱号为十几位到二十位不等。本发明将包含7个及以上连续数字字符的实体称为长数字实体(Long Numerical Entities,LNE),其中数字字符为“0”~“9”,抽取LEN的任务就是长数字实体抽取任务,它是NER任务的一个子类。

如果长数字实体书写正确,可以用正则表达式等方法进行抽取。但如果出现编辑错误,例如手机号被编辑为12位、QQ号中出现了小写字母等,就形成了带噪音的长数字实体。表1列举了常见的带噪音的长数字实体。

表1长数字实体中的噪音信息示例

噪音信息将影响现有模型的实体识别性能。在ccf数据集(详见:https://www.datafountain.cn/competitions/472/datasets)中,SoftLexicon+Bi-LSTM+CRF 等模型对带噪音的连续长数字实体识别的正确率为51.0~53.0%,远低于其平均识别识别正确率87.5%。

针对长数字实体抽取任务,本发明提出了一种连续数字压缩编码技术(Compressn consecutive digits,CNCD),用于长数字实体抽取。CNCD技术能有效识别规范的和带噪音的长数字实体,同时保证对其他类型实体的识别率正确率。

2.基于CNCD的长数字实体抽取方法

2.1SoftLexicon+Bi-LSTM+CRF实体抽取模型

本发明采用SoftLexicon+Bi-LSTM+CRF模型来进行实体抽取,模型架构如图1 所示。

该模型采用SoftLexicon技术,将实体词典中的实体信息融合到单个字符的表示中。对任意字符C

其中,SupB、SupM、SupE、SupS为字符C

Step1的流程为:

令实体词典为L,w

其中,

例如i=5,表示观测第5个字符,设观测窗口大小为3,则观测字符串下标区间为[2,3,...,8],j=2,k=8。

对文本“民主革命积极分子孙中山上书李鸿章”,为得到C

得到每个字符的候选实体集SupB、SupM、SupE和SupS后,用(式5)计算每个候选实体集的嵌入(embedding)。

其中,V

其中←表示赋值,v

2.2CNCD技术

现有Bi-LSTM+CRF模型并未专门对带噪音的长数字实体进行处理。本发明提出了一种CNCD技术,首先对带噪音的长数字实体进行压缩编码和标注,然后再送入Bi-LSTM+CRF模型进行实体识别训练。

CNCD技术包含两方面,一是提出了一种带噪音标注的BMEOH标签体系,用于标注带噪音的长数字实体;二是长数字实体压缩编码方法。

2.2.1带噪音标注的BMEOH标签体系

模型Bi-LSTM+CRF在用于NER任务时,需要使用带标签标注的序列进行训练。目前主要采用的标签标注体系为BMEO(详见论文:Simplify the Usage of Lexicon inChinese NER),它用“标签-实体类别”的形式标注文本中的字符序列。

对字符序列“QQ:1341436055。”,用BMEO标签标注的情况如图3所示。

其中:

B(Begin)标签代表字符位于实体的起始位置。例如字符“1”是实体“1341436055”的起始字符,所以为B标签,由于实体“1341436055”属于QQ类,所以字符“1”最终被标注为“B-QQ”;

M(Middle)标签代表字符位于一个实体的中间位置,例如字符“0”位于“1341436055”的中间,因此标注为“M-QQ”;

E(End)标签代表字符位于一个实体的结束位置,例如字符“5”位于“1341436055”的末尾,因此标注为“E-QQ”;

O(Other)标签代表该字符不属于任意一个实体,例如字符“。”标注为“O”。

实体“1341436055”被标注后的标签序列为:

{B-QQ,M-QQ,M-QQ,……,M-QQ,E-QQ}

经过标注,实体抽取任务就被进一步描述为预测每个字符的标签和实体类别的问题,而以上标注的序列,则作为预测模型的训练数据。

但如果字符序列中存在噪音,如“QQ:1341s43-6055。”中字符“s”、“-”是噪音信息,则标注情况如图4所示。

由此将得到以下标签序列:

{B-QQ,M-QQ,M-QQ,M-QQ,O,M-QQ,M-QQ,O,B-QQ,M-QQ,M-QQ,E-QQ}

在后续模型训练中,用以上标签序列进行训练,会令模型难以理解标签间的共现规则。这是由于对规范的实体,B标签总是后跟M或E标签,而M标签后只能跟E标签。但带噪音的不规范实体中,如果用O标签标记噪音数据,就会与规范实体的规则冲突,从而影响模型对其他类别实体的识别能力。

为此,提出了增加一个H(Hidden)标签,专门用于标记数字实体中的噪声,形成BMEOH标签体系。对字符序列“QQ:1341s43-6055。”,其标注如图5所示。

增加H标签,意味着从语义层面允许出现噪音数据,从预测标签的规则上增加了一条标签规则,使M标签之间可以出现H标签,从而使模型能够识别长数字实体中的噪音。

用BMEOH标签标注的方法是:

将训练集中的噪音数据用H标签标注,其他真实的数字实体仍保留其原有标签,以此保证模型在学习到噪音特征的同时,避免因加入H标签而影响模型识别其他原标签。

加入H标签之后,图1的模型架构图的Prediction层和CRF层如图6所示。Prediction层除预测B、M、E、O四类标签外,还增加了对H标签的预测。

2.2.2长数字实体的压缩编码方法

实体抽取模型SoftLexicon+Bi-LSTM+CRF以字符C

其中,W

对于第一个字符“华”,如果W

SupB={}、SupM={}、SupE={“王华”}、SupS={“华”}

其中选实体集SupB、SupM、SupE和SupS;其中SupB是候选实体中字符C

如果W

SupB={“华丽”}、SupM={}、SupE={“王华”}、SupS={“华”}

当W

综上分析,本发明按照目前广泛采用的经验设置,将W

受观察窗口大小所限,对长度超过9的长数字实体,如QQ号、QQ邮箱、身份证号码等不能完全呈现在窗口内,使长数字实体无法被完整提取。窗口大小对长数字实体的影响如图8所示。

设W

为此,本发明提出了一种连续数字压缩编码算法(Compress n consecutivedigits, CNCD),其方法为:

其中,C

CNCD技术将长数字实体进行压缩,使其能够被观测窗口观测到。设阈值为s,这种方法将数据中连续的、长度超过s的数字串用两个特殊符号替换,预测结果还原时,可对比原文本将相应位置的特殊符号还原为原数字,从而实现了对长数字实体的压缩。该技术原理如图9所示。

其中虚线上方的原文本是长度13的含噪音的手机号,其中字符“c”和“+”是噪音数据。经过阈值s=4的CNCD技术,对实体中连续的超过4个数字的数字串替换为两个“*”号,得到图9虚线下方的长度为7的实体。通过压缩,在宽度为4的观测窗口内就能观测到整个实体,从而提高了模型对噪音数据的识别率。

3.实验结果及分析

3.1数据准备

本发明实验使用的三个数据集如表2所示,分别为cluener数据集、weibo数据集、ccf数据集。

表2各数据集信息

其中cluener数据集和weibo数据集是命名实体识别问题常用的数据集,ccf数据集是CCF和BDCI联合举办的非结构化商业文本信息中隐私信息识别比赛提供的数据集。目前,除ccf数据集外并没有公开的长数字实体数据集。ccf数据集中有14 类实体,其中数字实体有4类,分别是QQ、手机、邮箱、微信,这4类数字实体占 ccf数据集总实体数的2.84%。

为获得更多含噪音的长数字实体语料,本发明编写了一个长数字实体生成器和一个噪音生成器,用于生成含噪音的长数字实体,并加入现有数据集中。对数据集的每一篇文章,本发明生成一条噪音数据附加在文章末尾,以避免打乱原数据集文章中标注的标签顺序。原文及添加信息后的对比如下:

按照以上方法,本发明向表2的三个数据集分别加入含噪音的长数字实体,得到本发明实验数据。

3.2结果及分析

用CNCD技术对带噪音长数字实体进行压缩,设置阈值s为4。得到压缩后的数据与原始数据一起送入模型作为对照组。本发明用Word2vec预训练模型得到语料库词典的embedding,embedding维度设置为64,用SoftLexicon技术得到每个字符的embedding。使用Bi-LSTM+CRF模型进行实体识别训练。

图10是模型迭代30轮,batch_size为16,隐藏层维度为128,dropout为0.5的结果,模型每训练5轮用测试集测试一次。为了获得较好的结果,选择适合的模型参数,对三个数据集的文本长度进行分析,得到了图10所示结果,图10(a)为ccf 数据集文本长度分布直方图,图10(b)为cluener数据集文本长度分布直方图,图 10(c)为weibo数据集文本长度分布直方图:

由图10可知:ccf数据集文本长度集中分布在100附近,cluener数据集文本长度集中分布在50附近,而weibo数据集文本长度集中分布在50附近。因此,本发明将模型的主要超参数之一的最大文本长度分别设置为100、50、50。

将三个数据集的原始数据和经CNCD技术处理后的数据分别送进相同的模型进行测试。本发明用准确率作为评价指标,调用sklearn库中的Metrics包的评估函数对模型进行评估,其中Metrics是已经封装好的分类评估类,将真实标签序列和模型预测的标签序列输入,即可打印每类标签的评估报告。对长数字实体中H标签预测的评价结果如表3所示。其中CNCD为本发明方法,ORG即原来的 SoftLexicon+Bi-LSTM+CRF模型为原方法。

表3模型在三个数据集上原方法和CNCD技术结果对比

由表3可以看出,针对含噪音的长数字实体,经过CNCD技术处理后得到的结果普遍比原方法得到的结果好。

在实验中发现以前的SoftLexicon+Bi-LSTM+CRF模型应用在含有噪音的长数字实体的识别任务上,效果并不好。主要是因为含有噪音的长数字实体的字长超出模型观测窗口大小。比如常见的长数字实体中:QQ号10位、手机号11位、邮箱号在十到二十几位不等。如果再加上2~3位的噪音数据,那么实体字长更大。原模型由于观测窗口大小的限制,对于这些超出观测窗口大小的实体并不能有效地识别。

使用B、M、E、H、O标签体系,即使观测窗口的大小设置恰当,对长数字实体中的噪音数据的识别率也并不高。因为前文提到含有噪音的长数字实体的长度在十几到二十几不等,观测窗口不能太大或太小一般设置为4或5,因此只能观测到9 或11个字符,这样依旧不能观测到含有噪音的长数字实体,模型只能根据前后字符的标签来判别当前标签,因此得到的结果并不理想,噪音数据的识别率一般在40-50%左右。

使用CNCD技术对长数字实体进行压缩后,使模型能完整地观测到整个实体,从而提高了模型对噪音数据的识别率。从表中可以看出,针对模型中的噪音数据, CNCD技术明显优于传统技术。

由表3可以看出:模型对噪音标签H的识别率仍有一个阈值,达到阈值后即使继续训练模型也无法提高识别率。经过分析发现造成这一现象的原因是:噪音数据中有数字出现,这点模拟了用户输入过程中多按、错按一个数字的现象。这类噪音数据即使人工都无法辨别,因此模型对于这类噪音数据的识别率很低,这点目前没有好的解决办法。而CNCD技术只是对含噪音的数字实体进行处理,并不影响原模型对其他类别实体的识别性能。

实验表明,CNCD技术在识别长数字实体中的噪音数据时表现良好,在ccf数据集(详见:https://www.datafountain.cn/competitions/472/datasets)上可以达到84%的正确率,在cluener数据集(详见:https://github.com/CLUEbenchmark/CLUE)上可以达到85%的正确率,在weibo数据集(详见: https://download.csdn.net/download/shuihupo/10809067)上可以达到84%的正确率。

尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

相关技术
  • 一种基于连续数字压缩编码的长数字实体抽取方法
  • 一种基于连续数字压缩编码的长数字实体抽取方法
技术分类

06120112940742