掌桥专利:专业的专利平台
掌桥专利
首页

一种智慧社区数据命名实体识别方法、终端及计算机介质

文献发布时间:2023-06-19 19:30:30


一种智慧社区数据命名实体识别方法、终端及计算机介质

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种智慧社区数据命名实体识别方法、终端及计算机介质。

背景技术

随着互联网技术的普及与高速发展,产生了海量且类型不统一的数据。然而,面向海量的文本数据,如何有效对获取到的数据进行提取分析成为一个关键问题。因此,自然语言处理技术应运而生,并扮演着越来越重要的作用,越来越受到学术界和产业界的关注。

在早期自然语言处理发展阶段中,主要采用基于规则的方法来实现问答、语义分析等任务,有利于快速实现任务目标,但规范化管理和可扩展能力尚未完善;在中期发展阶段中,基于统计的机器学习(Machine Learning, ML)开始盛行,其主要利用带标注的数据,经过学习来确定机器学习的参数并解码输出,但人工标注会导致效率低下、主观意识较强等问题。

现阶段,深度学习在自然语言处理中大放异彩,其可主要通过深度学习方法进行特征建模学习并训练。其中,命名实体识别算法作为自然语言处理领域中的一项核心算法方法,与事件抽取、问答系统、信息检索等其他自然语言处理基础任务息息相关,能够为特定领域识别出所需要的实体信息。

针对数据命名实体识别,目前面向社区等特定领域的数据命名实体识别算法的研究成果较少,主流命名实体识别算法并没有针对社区等特定领域进行语料库学习;同时,由于长文本信息存在信息遗忘、梯度消失、梯度爆炸和单向信息学习等问题,且目前主流算法并未充分学习上下文的特征信息,无法有效结合数据特点进行分析,因此难以准确且高效地实现特定领域的命名实体识别。

发明内容

为了解决上述技术问题,针对以上问题点,本发明公开了一种智慧社区数据命名实体识别方法、终端及计算机介质,解决现有技术中主流命名实体识别算法并没有针对社区等特定领域进行语料库学习;同时,由于长文本信息存在信息遗忘、梯度消失、梯度爆炸和单向信息学习等问题,且目前主流算法并未充分学习上下文的特征信息,无法有效结合数据特点进行分析,因此难以准确且高效地实现特定领域的命名实体识别的技术问题。

为了达到上述发明目的一种智慧社区数据命名实体识别方法,所述方法包括:

S1.获取智慧社区服务中心海量文本数据;

S2.标注数据实体并构建数据集;

S3.结合位置信息进行文本数据向量化;

S4.构建改进增强表示模型;

S5.获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;

S6.判断是否完成所有文本数据计算,若否,则返回S5;

S7.若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息;

S8.计算特征向量映射到标签的得分;

S9.通过softmax归一化产生标签序列集合概率;

S10.判断是否完成标签序列集合中每一个元素的计算,若否,则重复步骤S8-S10;

S11.若是,则计算损失函数值;

S12.判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签;

S13.若否,则重复步骤S11-S12。

优选地,所述获取智慧社区服务中心海量文本数据,包括:

通过智慧社区数据服务中心系统获取海量文本数据,获取方式分为线上和线下两种方式;线上获取,采用语音识别软件将获取的语音数据转成所需要的文本数据格式;线下获取,通过提交给社区管理人员的各类纸质数据,转化为文本数据格式。

优选地,所述标注数据实体并构建数据集,包括:采用支持多语言的文本标注工具Doccano,将每条文本中的数据实体进行序列标注,自行构建数据集和标注训练集。

优选地,所述结合位置信息进行文本数据向量化,包括:

数据实体序列标注完成之后,令Q={Q

将文本信息Q

令/>

其中,pos表示文本信息中

将512维的向量

其中,

优选地,所述构建改进增强表示模型,包括:

将文本输入向量Token={T

除以

其中,SelfAttention()表示自注意力函数,softmax()表示归一化指数函数,d

通过公式(4)计算上下文中每个字对一段文本中所有字的关系,从而判断出文本中不同字之间的相关性与重要程度;结合不同字之间的相关度来修改每个字的权重,从而获得每个字的新表示;

利用多头自注意力机制来学习句子中的特征表示,即令第j次投影自注意力函数计算后的值head

其中,head

Multihead(Q,K,V)=Concat(head

其中,Concat()表示将h个head进行拼接,得到一个新的向量表示,W

通过公式(7)对多头自注意力函数输出的结果进行残差连接;

其中,

通过公式(7)对残差连接后的结果进行归一化

其中,LayerNorm()表示归一化函数,μ表示为均值,σ表示为标准方差,α与β表示为弥补归一化过程中损失信息的可训练参数,δ表示防止分母中值为0的参数;

将经过残差连接和归一化处理后的文本信息LayerNorm()作为前馈神经网络的输入,即

其中,X

优选地,所述获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;判断是否完成所有文本数据计算,若否,则返回S5;若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息,包括:

采用基于注意力机制的改进BiGRU算法方法来实现上述预训练语言模型所输出的长文本向量信息,从而有效提取每条句子中局部的特征。

6.1)获取上一个传输下来的隐藏状态h

r

γ

其中,X

6.2)将当前第z条信息的文本输入数据X

h′

其中,h′

6.3)通过更新门的输出值γ

o

其中,o

6.4)根据前向GRU输出的隐藏状态值

其中,p

6.5)根据获得的隐藏特征集合H,通过注意力机制来获取文本向量局部的特征信息,从而更好抓取实体的数据。因此进行权重计算与分配,即

s

其中,s

其中,c

优选地,所述计算特征向量映射到标签的得分,包括:

令标签序列集合U={y

根据特征向量集合C,通过公式(16)计算特征向量映射到标签的得分 E(C,U):

其中,

优选地,所述通过softmax归一化产生标签序列集合概率,包括:

利用Softmax函数指数归一化的思想,产生标签序列集合U的概率,即:

其中,P(U|C)表示标签序列集合U的概率,U

优选地,在训练过程中,迭代计算所有可能的序列标签集合中的每个元素所对应的得分以及产生标签的概率,若计算完成序列标签集合中每一个元素的计算,所述计算损失函数值;判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签,包括:

通过公式(18)计算损失值;

其中,loss表示损失函数值;

当损失函数值大于阈值ε,则更新模型参数,继续训练;

通过迭代计算得到模型的最小化损失函数值,即为模型训练的最终目标;

求解得到模型所对应的得分值E(C,U),在解码阶段采用维特比方法解码出得分最大所对应的最佳序列标签,即为数据命名实体识别模型的标注结果:

其中,

通过遍历计算得到所有最佳序列预测标签集合

本发明还提供一种智慧社区数据命名实体识别终端,包括:输入设备、输出设备、存储器、处理器;所述输入设备、所述输出设备、所述存储器和所述处理器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所护处理器被配置调用所述程序指令,执行如前任一所述的智慧社区数据命名实体识别方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存介质在存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器所执行时执行前述任一所述的智慧社区数据命名实体识别方法。

实施本发明实施例,具有如下有益效果:

本发明提供的技术方案针对智能社区数据分析等部分应用中语料库规模较小的问题,引入ERNIE(Enhanced Representation through Knowledge Integration)预训练语言模型,结合自身数据并在大型语料库的模型上进行语义特征学习的预训练,增加自身语料库的文本特征表示。同时ERNIE 利用Transformer模型充分学习上下文的信息来提升模型的抽取能力,从而能够更好的确认地址实体的位置关系,进而解决自身语料库规模较小的问题。考虑传统算法对于长文本信息存在信息遗忘、梯度消失、梯度爆炸和学习单向信息等问题,提出一种基于BiGRU(Bi-Gated Recurrent Unit) 的文本特征提取方法,包括利用隐藏状态完成文本信息的记录与传输,通过更新门与重置门计算隐藏状态的参数值,获取文本对应的隐藏状态的输出信息,从而实现文本特征提取。在文本特征提取后的基础上,利用注意力机制来加强对文本信息中局部特征的学习。同时针对输出的数据特征尚未包含文本的序列信息,对输出的隐藏特征信息进行序列约束,得到输入序列与对应标签序列概率,最后通过维比特解码获得最优标注序列。

本发明不仅结合自身数据并在大型语料库的模型上进行语义特征学习的预训练,增加自身语料库的文本特征表示,而且能对于文本特征进行充分学习并结合注意力机制来增强对局部特征的理解,同时根据输出的数据特征尚未包含文本的序列信息的问题,通过约束序列条件方法进行解决,提高标注序列识别的准确性。

附图说明

为了更清楚地说明本发明所述的一种智慧社区数据命名实体识别方法、终端及计算机介质,附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1为本发明实施例提供的一种智慧社区数据命名实体识别方法流程图;

图2为本发明实施例提供的一种智慧社区数据命名实体识别终端结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1,图1示出了可用于实施本发明实施例方案的一种智慧社区数据命名实体识别方法,所述方法包括:

一种智慧社区数据命名实体识别方法,所述方法包括:

S1.获取智慧社区服务中心海量文本数据;

S2.标注数据实体并构建数据集;

S3.结合位置信息进行文本数据向量化;

S4.构建改进增强表示模型;

S5.获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;

S6.判断是否完成所有文本数据计算,若否,则返回S5;

S7.若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息;

S8.计算特征向量映射到标签的得分;

S9.通过softmax归一化产生标签序列集合概率;

S10.判断是否完成标签序列集合中每一个元素的计算,若否,则重复步骤S8-S10;

S11.若是,则计算损失函数值;

S12.判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签;

S13.若否,则重复步骤S11-S12。

优选地,所述获取智慧社区服务中心海量文本数据,包括:

通过智慧社区数据服务中心系统获取海量文本数据,获取方式分为线上和线下两种方式;线上获取,采用语音识别软件将获取的语音数据转成所需要的文本数据格式;线下获取,通过提交给社区管理人员的各类纸质数据,转化为文本数据格式。

所述语音识别软件可以选用科大讯飞等语音识别软件;

优选地,所述标注数据实体并构建数据集,包括:采用支持多语言的文本标注工具Doccano,将每条文本中的数据实体进行序列标注,自行构建数据集和标注训练集。

优选地,所述结合位置信息进行文本数据向量化,包括:

数据实体序列标注完成之后,令Q={Q

针对传统词嵌入算法方法仅考虑文本中字的特征,忽视了每个字的位置信息,造成文本语义不通顺,从而影响识别效果。,因此将文本信息中的每一个字通过词嵌入(TokenEmbedding,TE)操作,转化成512维向量。同时考虑到每个词的具体位置信息可方便后续ERNIE层中的Transformer 了解每个文本信息中的单词顺序关系。

将文本信息Q

令/>

其中,pos表示文本信息中

将512维的向量

其中,

优选地,文本数据经过向量化以后,引入迁移学习的方法对自身数据语料库的相关特征进行融合,所述构建改进增强表示模型,包括:

将文本输入向量Token={T

考虑到数据信息较为复杂且数据量大的特点,在进行模型构建中查询向量Q和键向量K的乘积会导致向量维度较大时值会比较大,从而向量之间的相对差距会比较大,进而softmax后的有些值会更加靠近于1,剩下的值会更加靠近于0,导致计算梯度时会较小,因此需要除以

其中,SelfAttention()表示自注意力函数,softmax()表示归一化指数函数,d

通过公式(4)计算上下文中每个字对一段文本中所有字的关系,从而判断出文本中不同字之间的相关性与重要程度;结合不同字之间的相关度来修改每个字的权重,从而获得每个字的新表示;

为了提高模型专注于不同位置的能力,扩大向量表示的空间,利用多头自注意力机制来学习句子中的特征表示,即令第j次投影自注意力函数计算后的值head

其中,head

Multihead(Q,K,V)=Concat(head

其中,Concat()表示将h个head进行拼接,得到一个新的向量表示,W

通过公式(7)对多头自注意力函数输出的结果进行残差连接;

其中,

通过公式(7)对残差连接后的结果进行归一化,从而减少数据的偏差,最终提高训练和收敛的速度。

其中,LayerNorm()表示归一化函数,μ表示为均值,σ表示为标准方差,α与β表示为弥补归一化过程中损失信息的可训练参数,δ表示防止分母中值为0的参数;

将经过残差连接和归一化处理后的文本信息LayerNorm()作为前馈神经网络的输入,即

其中,X

优选地,所述获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;判断是否完成所有文本数据计算,若否,则返回S5;若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息,包括:采用基于注意力机制的改进BiGRU 算法方法来实现上述预训练语言模型所输出的长文本向量信息,从而有效提取每条句子中局部的特征。

6.1)获取上一个传输下来的隐藏状态h

r

γ

其中,X

6.2)将当前第z条信息的文本输入数据X

h′

其中,h′

6.3)通过更新门的输出值γ

o

其中,o

6.4)根据前向GRU输出的隐藏状态值

其中,p

6.5)根据获得的隐藏特征集合H,通过注意力机制来获取文本向量局部的特征信息,从而更好抓取实体的数据。因此进行权重计算与分配,即

s

其中,s

其中,c

优选地,所述计算特征向量映射到标签的得分,包括:

令标签序列集合U={y

根据特征向量集合C,通过公式(16)计算特征向量映射到标签的得分 E(C,U):

其中,

优选地,所述通过softmax归一化产生标签序列集合概率,包括:

利用Softmax函数指数归一化的思想,产生标签序列集合U的概率,即:

其中,P(U|C)表示标签序列集合U的概率,U

优选地,在训练过程中,迭代计算所有可能的序列标签集合中的每个元素所对应的得分以及产生标签的概率,若计算完成序列标签集合中每一个元素的计算,所述计算损失函数值;判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签,包括:

通过公式(18)计算损失值;

其中,loss表示损失函数值;

当损失函数值大于阈值ε,则更新模型参数,继续训练;

通过迭代计算得到模型的最小化损失函数值,即为模型训练的最终目标;

求解得到模型所对应的得分值E(C,U),在解码阶段采用维特比方法解码出得分最大所对应的最佳序列标签,即为数据命名实体识别模型的标注结果:

/>

其中,

通过遍历计算得到所有最佳序列预测标签集合

以下结合图2介绍本发明还提供一种智慧社区数据命名实体识别终端,包括:输入设备、输出设备、存储器、处理器;所述输入设备、所述输出设备、所述存储器和所述处理器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所护处理器被配置调用所述程序指令,执行如前任一所述的智慧社区数据命名实体识别方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存介质在存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器所执行时执行前述任一所述的智慧社区数据命名实体识别方法。

在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处,相关之处参见方法实施例的部分说明即可。

相关技术
  • 一种身份识别方法、计算机可读存储介质及终端设备
  • 一种识别码识别方法、终端及计算机可读存储介质
  • 知识社区中内容数据的管理及查看方法及其装置、设备/终端/服务器、计算机可读介质
  • 一种数据处理方法、终端、服务器和计算机存储介质
  • 一种数据处理方法、终端、服务器和计算机存储介质
  • 命名实体的识别方法、计算机设备及计算机可读存储介质
  • 命名实体识别方法、装置、计算机装置及计算机可读存储介质
技术分类

06120115929759