掌桥专利:专业的专利平台
掌桥专利
首页

一种基于Bi-LSTM的法律命名实体识别方法

文献发布时间:2023-06-19 18:30:43


一种基于Bi-LSTM的法律命名实体识别方法

技术领域

本发明属于自然语言处理领域,涉及一种基于Bi-LSTM的法律命名实体识别方法。

背景技术

近年来,由于神经网络全面引入到自然语言处理,再加上大规模的数据和强有力的算力,自然语言处理发展到新的阶段。目前,自然语言处理已经广泛应用于客服、诊断、法律等场景,在这些应用场景的基础任务就是使计算机具备人类的语言理解能力,例如,听、说、读、写、译、问、答等。命名实体识别作为自然语言处理的基础任务,实体识别的是否准确将直接影响下游任务的效果,如文本分类、阅读理解等。命名实体识别技术也可以为法律工作者提供特定实体用以形成法律文书中相关条款。因此,如何提高命名实体识别准确性,成为了自然语言处理及相关应用领域的热点讨论问题。

随着司法数据公开化,领域数据共享不断推进,法律文书作为法律领域较常见的文本数据,具有数据大,种类多,易获取等特性。因此,选择海量法律文书作为原始数据集,通过本发明提出的命名实体识别算法,对司法领域信息化发展具有积极意义。

发明内容

为了更好地适用于法律领域命名实体识别及其领域特殊性,本发明将word2vec的方法与BiLSTM和CRF相结合,有效提高司法领域命名实体识别地效果。

本发明所采用的技术方案是:

步骤1:原始语料数据预处理

步骤2:基于word2vec完成词向量训练

步骤3:将词向量送入Bi-LSTM网络提取特征

步骤4:CRF层限制标签间的关系

与现有技术相比,本发明的有益效果是:

(1)相比传统的机器学习的命名实体识别算法,提高了模型地准确度和召回率;

(2)在保证模型精确度的情况下,减少模型复杂度。

附图说明

图1为:skip-gram模型结构图

图2为:样本构建的示例

图3为:LSTM网络结构图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。

本具体实施方式中,针对法律领域词典生成的方法包括下述处理步骤:

步骤1:原始语料数据预处理;

本发明使用的法律文本数据集来自法律文书网。对数据集进行清洗,去除噪声干扰,首先进行筛选,对信息不全的样本进行筛除处理。每篇法律文书只保留正文部分,时间、原告被告等格式性的内容不保留,正文部分去停用词,去特殊字符。数据的标注方式采用BIO的标注方式,B表示实体的开始,I表示属于实体的一部分,O表示不属于实体。

步骤2:基于word2vec完成词向量训练

1)统计训练语料中词语个数N,输入层的输入为一个词的one-hot向量表示。这个向量长度为N。假设这个词在词库中的ID为i,则输入向量的第i个分量为1,其余为0。

2)隐藏层的神经元个数即词向量的长度,参数是一个[N,M]的矩阵。经过隐藏层,实际上就是把N维的one-hot向量映射成了最终想要得到的M维的词向量。

3)输出层的神经元个数为总词数N,参数矩阵尺寸为[M,N]。词向量经过矩阵计算后再加上softmax归一化,重新变为N维的向量,每一维对应词库中的一个词与输入的词共同出现在上下文中的概率。

4)实际训练时使用的模型可以采用CBOW和skip-gram,本发明训练语料较为充足,因此模型选择为skip-gram,即用一个词语作为输入,来预测它周围的上下文,图1为skip-gram模型结构图。图2为一个样本构建的例子,在这里窗口长度为2,中心词一个一个移动,遍历所有文本。每一次中心词的移动,最多会产生4对训练样本(input,label)。

步骤3:将词向量送入Bi-LSTM网络提取特征

利用LSTM神经网络的超强非线性拟合能力,在训练时将samples通过高阶高纬度异度空间的非线性变换,学习出一个模型,然后再预测出一条指定的sample的每个token的label,其中LSTM网络结构图如图3所示。将输入序列经过一个embeddig层转化为一个向量序列输入两个双向的LSTM单元,将每个时间序列的正向反向输出拼接,经过一个全连接层映射为一个维度为输出标签数量的一个向量,使用Softmax将输出归一化作为每种标签的概率。

步骤4:CRF层限制标签间的关系

对Bi-LSTM输出的相邻标签概率加上约束条件。在序列标注任务中,考虑相邻标签之间的关系对于选择最佳的标签链是很有必要的。用CRF层替代传统的Softmax层发现标签之间的一个组合规律。

使用x={x

得到条件概率p(y|x;W,b)后,很容易就可以得到损失函数L(W,b)。如此CRF参数就可以进行训练了,公式如下

使用对数最大条件似然估计的方法来进行参数更新。此时需要做的是找出合适的条件概率使得损失函数达到最大值。经过研究发现条件概率是最终结果必不可少的前提,借助条件概率,可以确定最终的标记序列。通常情况下,使用Viterbi算法来训练CRF模型并进行预测。

以上所述,仅为本发明的具体实施方式,本说明中所公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征或/和步骤外,均可以任何方式组合。

相关技术
  • 基于Mixup和BQRNN的法律命名实体识别方法
  • 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
技术分类

06120115595128