掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的民航突发事件抽取方法

文献发布时间:2023-06-19 11:57:35


一种基于深度学习的民航突发事件抽取方法

技术领域

本发明属于自然语言处理领域,特别涉及一种基于深度学习的民航突发事件抽取方法。

背景技术

信息抽取技术是从非结构的,松散的文本中抽取出人们感兴趣的实体,关系,事件等信息,然后以结构化的形式呈现。信息抽取包括事件抽取,命名实体识别和关系抽取等。事件抽取是从非结构的事件文本中抽取事件信息,以结构化的形式保存下来,供后续分析使用。事件抽取是信息抽取领域重要的研究方向之一,在信息检索,问答系统,自动摘要,知识图谱等领域有着广泛的应用。随着互联网的发展,文本越来越多,文本中蕴含的丰富信息也值得探索。

在民航业的不断发展中,突发事件也越来越多,而且种类也在不断增加。通过事件抽取技术,可以让民航突发事件预警和应急更加完善,做出更好的应急决策,减轻民用航空运输业带来的损失,提升民航突发事件的应急水平。

目前,中文事件抽取还处于起步阶段,由于中文表述复杂多样,词语之间也不存在分隔符,给事件抽取带来一定的困难。事件抽取的方法有很多种,基于模式匹配的方法,需要结合专业的背景知识,对事件制定规则,设计事件框架。传统的机器学习方法有CRF(条件随机场),HMM(隐马尔可夫)。传统的机器学习方法需要对文本进行分词,词性分析,词向量训练,得到词的特征向量。将训练的特征向量输入分类器,根据触发词来识别事件类型,然后进行事件参数的抽取。基于深度学习的方法主要有CNN(卷积神经网络),RNN(循环神经网络),LSTM(长短期记忆神经网络)。CNN在事件抽取中,加入了事件类型编码,考虑词语间的位置信息。RNN是专门用来处理序列数据的,它包含一种隐藏状态,可以得到文本序列的内部联系,但RNN训练的文本特征无法得到边特征。LSTM是特殊的RNN,在RNN的基础上加入了记忆单元,解决了长期依赖的问题,BiLSTM(双向长短期记忆神经网络)可以根据上下文信息进行抽取。

现有的事件抽取方法主要问题有:一是中文存在着一词多义,可能造成一个事件有多个触发词的现象。二是民航领域没有形成通用的突发事件框架,需要设计事件框架。三是民航突发事件的实体一般比较长,而且会有中英文和数字混合,造成实体模糊。

发明内容

本发明提供了一种基于深度学习的民航突发事件抽取方法,通过将深度学习的方法运用到事件抽取中,解决了民航突发事件抽取中的问题。

为了实现上述目的,本发明采用以下技术方案:

一种基于深度学习的民航突发事件抽取方法,包括以下步骤:

步骤一、通过阅读民航突发事件分类的文献资料,对民航突发事件类型进行分类并确定事件参数;

步骤二、在民用航空安全信息网上爬取民航突发事件的新闻报道,构建民航突发事件数据集并随机分为训练集和测试集,建立领域词典进行分词,词性分析和BIO标注,将每个元素标注为“B-X”,“I-X”,“O”;

步骤三、用BERT将文本转化成向量并进行词向量训练;

步骤四、采用BiLSTM获取民航突发事件文本的文本序列特征;

步骤五、将特征向量输入到CRF得到文档的最优序列标注;

步骤六、民航突发事件的事件触发词识别和事件参数抽取。

进一步的,所述步骤一具体为:

通过阅读有关民用航空运输企业突发事件分类的文献,针对现在民航突发事件发生的特点,分析各类民航突发事件的紧要程度,对民航突发事件按照事件发生的原因进行分类,并确定事件参数;

民航突发事件分为以下四类:

(a)、航空器类民航突发事件,因为航空器本身出现故障或航空器运行过程中出现的航空器事故,航空器相撞,航空器失联各类突发事件;

(b)、旅客类民航突发事件,因为旅客生命财产安全受到威胁造成的各类突发事件;

(c)、生产运行类民航突发事件,因为天气原因,运行故障造成运行效率降低的各类突发事件;

(d)、重大任务类民航突发事件,因为救援任务引起的各类突发事件;

然后确定民航突发事件的事件参数,包括事件触发词,突发事件的发生时间,发生地点,起飞时间,起飞地点,飞机型号,飞机机型,机上人数,遇难人数及遇难情况,飞机遇难前后的飞行状态,所属航空公司。

进一步的,所述步骤二具体为:

在民用航空安全信息网上爬取民航突发事件的新闻报道,构建民航突发事件数据集并随机分为训练集和测试集,建立领域词典进行分词,词性分析和BIO标注;

触发词与事件参数的标注的子步骤为:

(a)、对爬取的数据进行去重处理,清洗,得到可以标注的数据;

(b)、建立触发词词典和事件参数词典,对数据进行标注;

(c)、采用BIO标注,B为Begin代表标签的开始,I为In代表标签的中间,O为Out代表不需要标注的词汇;

将触发词及事件参数生成BIO标签。

进一步的,所述步骤三具体为:

用BERT对文本进行词向量训练,BERT更能捕捉到语句间的双向关系,使用MLM(Mask Language Model)和NSP(Next Sentence Prediction)进行多任务训练,得到词语的特征表示。

进一步的,所述步骤四具体为:

采用BiLSTM获取民航突发事件文本的文本序列特征,通过正向和逆向将文本输入到BiLSTM中得到文本的文本序列特征,预测标签的概率,并根据标签的概率建立损失函数。

LSTM(长短期记忆神经网络)在RNN(循环神经网络)的基础上加入的记忆单元,所述记忆单元包含三个门:输入门,输出门和遗忘门;公式如下:

输入门i

i

输出门o

o

遗忘门f

f

其中:h

根据上下文特征向量预测标签的概率

其中,

然后定义损失函数L:

其中,|D|是训练集的大小,j是第j个词,L

进一步的,所述步骤五具体为:

将文本的特征向量输入到CRF中得到文档的最优标注序列。

(a)、用维特比算法将输入序列转化成标签序列,预测序列概率公式为:

其中:K(X,y)是输入序列转化成标签序列的概率,X是输入序列,y是句子的标签序列,

(b)、对K(X,y)求幂标准化后,得到句子的标签序列y的概率P(y|S);

其中:S是原始的句子,K(X,y)是输入序列转化成标签序列的概率,Y

(c)、为了使正确标记序列的概率最大化,利用极大似然估计原理,得到了模型的标记序列似然函数log(P(y|S)):

其中:Y

(d)、用CRF模型预测标签时,根据公式可以得到最高的总概率序列y

其中:Y

进一步的,所述步骤六具体为:通过BERT-BiLSTM-CRF模型对事件文本的特征提取和识别,对民航突发事件进行抽取,即对民航突发事件触发词的识别和事件参数的抽取。

与现有技术相比,本发明具有以下有益效果:

本发明通过构建民航突发事件数据集和领域字典,对民航突发事件进行分类和确定事件参数,构建民航突发事件的事件框架,然后对文本进行分词,词性分析和事件参数标注。用BERT训练词向量,BiLSTM对文本特征向量进行训练,通过CRF得到最优的文本标注序列,对民航突发事件进行抽取。

附图说明

图1是本发明提供的民航突发事件抽取方法的一个事件抽取过程的流程图。

图2是本发明提供的民航突发事件数据集的标注方法示意图。

图3是本发明提供的民航突发事件抽取方法的模型结构示意图。

具体实施方式

下面结合实施例对本发明作更进一步的说明。

本发明提供的基于深度学习的民航突发事件抽取方法,包括民航突发事件的分类,事件框架的构建,数据集和领域词典的构建,词向量训练,文本的训练。通过神经网络获取文本的特征向量,设置神经网络参数对文本进行训练。训练的模型有更好的泛化能力,可以更好的完成民航突发事件抽取。以下结合图1-3和实施例进一步阐述。

本发明的一种基于深度学习的民航突发事件抽取方法,包括以下步骤:

步骤一、通过阅读大量民航突发事件分类的文献资料,对民航突发事件类型进行分类并确定事件参数;

步骤二、在民用航空安全信息网上爬取民航突发事件的新闻报道,构建民航突发事件数据集并随机分为训练集和测试集,建立领域词典进行分词,词性分析和BIO标注,将每个元素标注为“B-X”,“I-X”,“O”;

步骤三、用BERT将文本转化成词向量并进行词向量训练;

步骤四、采用BiLSTM获取民航突发事件文本的文本序列特征;

步骤五、将特征向量输入到CRF得到文档的最优序列标注;

步骤六、民航突发事件的事件触发词识别和事件参数抽取。

本实施例中,所述步骤一对民航突发事件类型进行分类并确定事件参数为:

通过阅读有关民用航空运输企业突发事件分类的文献,针对现在民航突发事件发生的特点,分析各类民航突发事件的紧要程度,对民航突发事件按照事件发生的原因进行分类,并确定事件参数;

根据民航突发事件的紧急程度和事发原因对民航突发事件进行分类,主要分为以下四类:

(a)、航空器类民航突发事件,主要是因为航空器本身出现故障或航空器运行过程中出现的航空器事故,航空器相撞,航空器失联等各类突发事件。

(b)、旅客类民航突发事件,主要是因为旅客生命财产安全受到威胁造成的各类突发事件。

(c)、生产运行类民航突发事件,主要是因为一些天气原因,运行故障等造成运行效率降低的各类突发事件。

(d)、重大任务类民航突发事件,主要是因为一些救援任务等引起的各类突发事件。然后确定民航突发事件的事件参数,主要有事件触发词,突发事件发生的时间,发生地点,起飞时间,起飞地点,飞机型号,飞机机型,机上人数,遇难人数及遇难情况,飞机遇难前后的飞行状态,所属航空公司等。

本实施例中,所述步骤二具体为:

对民航突发事件进行分词,词性分析和标注。标注方式是BIO标注。参照图2:“一架安26飞机在萨拉托夫州迫降时起火,造成1人死亡,4人受伤”。这句话包含四种实体:安26为飞机型号,萨拉托夫州为事发地点,起火为事件触发词,1人死亡,4人受伤为伤亡人数。

本实施例中把安26标注为“B-planno I-planno I-planno”,萨拉托夫州标注为“B-location I-location I-location I-location I-location”起火标注为“B-triggerI-trigger”,1人死亡,4人受伤标注为“B-victim I-victim I-victim I-victim I-victimI-victim I-victim I-victim I-victim”其他标注为“O”。例子中飞机型号用planno表示,事发地点用location表示,触发词用trigger表示,伤亡人数用victim表示。

本实施例中,所述步骤三具体为:用BERT对文本进行词向量训练。BERT更能捕捉到语句间的双向关系,使用MLM(Mask Language Model)和NSP(Next Sentence Prediction)进行多任务训练,得到词语的特征表示。

本实施例中,所述步骤四具体为:采用BiLSTM获取民航突发事件文本的文本序列特征,通过正向和逆向将文本输入到BiLSTM中得到文本的上下文信息,预测标签的概率,并根据标签的概率建立损失函数。

LSTM(长短期记忆神经网络)在RNN(循环神经网络)的基础上加入的记忆单元,所述记忆单元包含三个门:输入门,输出门和遗忘门;公式如下:

输入门i

i

输出门o

o

遗忘门f

f

其中:h

根据上下文特征向量预测标签的概率

其中,

然后定义损失函数L:

其中,|D|是训练集的大小,j是第j个词,L

本实施例中,所述步骤五具体为:将文本的特征向量输入到CRF中得到文档的最优标注序列。

(a)、用维特比算法将输入序列转化成标签序列,预测序列概率公式为:

其中:K(X,y)是输入序列转化成标签序列的概率,X是输入序列,y是句子的标签序列,

(b)、对K(X,y)求幂标准化后,得到句子的标签序列y的概率P(y|S);

其中:S是原始的句子,K(X,y)是输入序列转化成标签序列的概率,Y

(c)、为了使正确标记序列的概率最大化,利用极大似然估计原理,得到了模型的标记序列似然函数log(P(y|S)):

其中:Y

(d)、用CRF模型预测标签时,根据公式可以得到最高的总概率序列y

其中:Y

本实施例中,所述步骤六具体为:通过BERT-BiLSTM-CRF模型对事件文本的特征提取和识别,对民航突发事件进行抽取,主要是对民航突发事件触发词的识别和事件参数的抽取。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 一种基于深度学习的民航突发事件抽取方法
  • 一种基于深度学习的短突发水声通信信号调制识别方法
技术分类

06120113117063