掌桥专利:专业的专利平台
掌桥专利
首页

基于自然语言处理化学品事故案例的方法及系统

文献发布时间:2023-06-19 13:46:35


基于自然语言处理化学品事故案例的方法及系统

技术领域

本发明涉及自然语言处理技术领域,具体地涉及一种基于自然语言处理化学品事故案例的方法以及一种基于自然语言处理化学品事故案例的系统。

背景技术

石化行业具有高温高压、易燃易爆、有毒有害、腐蚀性强等特点,同时,由于资金密集、装置大型化、工艺复杂、连续作业、点多面广,任何一项设备隐患、制度缺陷、程序遗漏、工作疏忽或个人违章都可能造成事故,引发严重后果。事故研究的主要目的是查清事故发生的过程,分析事故发生的原因,研究事故发展的规律,吸取事故教训,提出有针对性的整改措施,进而改善企业的安全管理系统,避免类似事故的重复发生。

目前石化事故信息的收集还处在依靠人工录入到信息化系统的阶段,目前获取事故信息后由人工录入、分级的工作方式,无法及时、全面的掌握事故信息,导致事故录入效率低,缺乏有效的智能化处理手段是事故案例管理分析的主要缺点。

发明内容

本发明实施方式的目的是提供一种基于自然语言处理化学品事故案例的方法和系统,实现了通过智能分析事故信息,将事故进行文本提取、分词,为事故录入人员提供有力的技术支撑。

为了实现上述目的,本发明第一方面提供一种基于自然语言处理化学品事故案例的方法,所述方法包括:

获取化学品事故短文本数据,确定化学品事故短文本数据对应的事故类别;

通过分析所述化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构;

根据所述依存句法结构,从所述化学品事故短文本数据中提取化学品事故关键信息;

根据所述化学品事故关键信息对化学品事故进行分级,按照化学品事故等级存储所述化学品事故短文本数据、所述事故类别和所述化学品事故关键信息。

可选的,所述获取化学品事故短文本数据,确定所述化学品事故短文本数据对应的事故类别,包括:

通过网络爬虫爬取化学品事故短文本数据,当前主要的新闻媒体对化工突发事件报道数量呈几何性增长的趋势,这类报道具有内容篇幅短、更新速度快等特点,面对海量的中文报道数据,网络爬虫根据搜索规则,自动对相关的网站新闻进行全部或者局部的内容爬取,网络爬虫爬取数据速度快,覆盖面广;

对爬取的化学品事故短文本数据去重,网络爬虫爬取的化学品事故短文本数据量大,重合度高,因此需要结合危险化学品事故新闻的文本特征,利用SimHash算法自动去除重复的事故新闻;

对去重后的化学品事故短文本数据进行分类处理,确定所述化学品事故短文本数据对应的事故类别,通过对危险化学品事故新闻的特征研究,利用基于机器学习的逻辑回归算法Logistic regression,设计化学品事故短文本分类器,准确快速的对化学品事故短文本数据进行分类处理,将化学品事故短文本数据归类到火灾、爆炸、泄漏、中毒等事故类别中,完成危险化学品事故的短文本数据爬取。可选的系统还设置“其他”这个事故类别来表示不属于火灾、爆炸、泄漏、中毒这四种事故类别的所有化学品事故短文本数据,当然随着数据的增加,当其他这个事故类别中所包含的化学品事故短文本数据中存在一部分具有相同特点的化学品事故短文本数据时,可以新增一个事故类别用于表示这一类的化学品事故短文本数据。

可选的,所述获取化学品事故短文本数据,确定所述化学品事故短文本数据对应的事故类别,包括:

手动录入化学品事故短文本数据,人工进行挑选后直接手动录入化学品事故的基础信息,在这种情况下获取到的短文本数据单一,因此不需要进行数据清洗去重;

对录入的化学品事故短文本数据进行分类处理,确定所述化学品事故短文本数据对应的事故类别,与通过网络爬虫爬取的化学品事故短文本数据相同,手动录入的化学品事故短文本数据同样需要进行化学品事故短文本数据分类处理,通过对危险化学品事故新闻的特征研究,利用基于机器学习的逻辑回归算法Logistic regression,设计化学品事故短文本分类器,准确快速的对化学品事故短文本数据进行分类处理,将化学品事故短文本数据归类到火灾、爆炸、泄漏、中毒、其他等事故类别中,完成危险化学品事故短文本数据爬取。

可选的,获取学品事故短文本数据还可以兼具网络爬虫爬取和手动录入化学品事故短文本数据两种方式,在某些情况下,有些事故并不会被公开到网上,不会有新闻进行报道,这些事故就不能够被网络爬虫爬取到,需要手动录入化学品事故的基础信息。兼具两种数据获取方式,实现了事故案例的全面采集和存储。

可选的,所述通过分析所述化学品事故短文本数据,得到所述化学品事故短文本数据的依存句法结构,包括:采用基于神经网络的依存句法分析模型分析化学品事故短文本数据,得到所述化学品事故短文本数据的依存句法结构:

W

其中,W

可选的,所述化学品事故关键信息,包括:事故时间、事故地点、事故单位、事故类型、事故级别、事故板块、人员伤亡以及经济损失。

可选的,所述根据所述化学品事故关键信息对化学品事故进行分级,包括:

根据事故造成的人员伤亡或者直接经济损失来确定所述化学品事故等级。

本发明第二方面提供一种基于自然语言处理化学品事故案例的系统,该系统应用基于自然语言处理化学品事故案例的方法,处理化学品事故案例,所述的系统包括:

数据获取单元,用于获取化学品事故短文本数据,确定所述化学品事故短文本数据对应的事故类别;

数据分析单元,用于通过分析所述化学品事故短文本数据,得到所述化学品事故短文本数据的依存句法结构;

关键信息提取单元,用于根据所述依存句法结构从所述化学品事故短文本数据中提取化学品事故关键信息;以及

分级存储单元,用于根据所述化学品事故关键信息对化学品事故进行分级,按照化学品事故等级存储所述化学品事故短文本数据、所述事故类别和所述化学品事故关键信息。化学品事故分级依据事故造成的人员伤亡或者直接经济损失对事故进行分级,同一级别的化学品事故案例对应的化学品事故短文本数据、事故类别和化学品事故关键信息存储在同一个案例库中。

可选的,所述数据获取单元包括:

数据爬取模块,用于通过网络爬虫爬取化学品事故短文本数据,网络爬虫根据搜索规则,自动对相关的网站新闻进行全部或者局部的内容爬取;

数据清洗模块,用于对爬取的化学品事故短文本数据去重,网络爬虫爬取的化学品事故短文本数据量大,重合度高,因此需要结合危险化学品事故新闻的文本特征,利用SimHash算法自动去除重复的事故新闻;

数据分类模块,用于对去重后的化学品事故短文本数据进行分类处理,确定所述化学品事故短文本数据对应的事故类别。通过对危险化学品事故新闻的特征研究,利用基于机器学习的逻辑回归算法Logistic regression,设计化学品事故短文本分类器,准确快速的对化学品事故短文本数据进行分类处理,将化学品事故短文本数据归类到火灾、爆炸、泄漏、中毒、其他等事故类别中,完成危险化学品事故的短文本数据爬取。其中“其他”这个事故类别表示的是不属于火灾、爆炸、泄漏、中毒这四种事故类别的所有化学品事故短文本数据,当然随着数据的增加,当其他这个事故类别中所包含的化学品事故短文本数据中存在一部分具有相同特点的化学品事故短文本数据时,可以新增一个事故类别用于表示这一类的化学品事故短文本数据。

可选的,所述数据获取单元包括:

数据录入模块,用于人工录入化学品事故短文本数据;

数据分类模块,用于对录入的化学品事故进行分类处理,确定所述化学品事故短文本数据对应的事故类别。人工录入的化学品事故的基础信息就是单一事故的信息,不存在重复,不需要进行清洗去重,直接由数据分类模块进行化学品事故短文本数据进行分类处理,确定化学品事故短文本数据对应的事故类别就行。

可选的,所述的数据获取单元包括数据爬取模块、数据录入模块、数据清洗模块和数据分类模块。数据获取单元集合了网络爬虫爬取和人工录入化学品事故短文本数据,兼具两种数据获取方式,一方面获取网路上报导的各种事故新闻短文本数据,另一方面通过人工录入的方式录入没有公开报导的事故信息,进一步完善事故案例库。

可选的,所述数据分析单元采用基于神经网络的依存句法分析模型分析所述化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构:

W

其中,W

另一方面,本发明提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行如上所述的基于自然语言处理化学品事故案例的方法。

通过上述技术方案,基于获取的事故案例短文本数据,利用基于神经网路的依存句法分析算法,提取关键信息,例如事故时间、事故地点、事故单位等信息,并根据事故管理方法,将事故进行分级后,保存事故信息,为事故录入人员的工作提供更为便捷的途径。

本发明针对化工火灾爆炸事故、中毒窒息事故等事故信息,事故时间、事故地点、事故单位、事故级别、事故类型、事故板块等不同的信息需求,对各种事故信息实现从获取事故信息后进行依存句法分析、关键词提取等处理操作,不仅避免了各种化工事故调查现场勘查、智能管理和信息处理项目的重复开展、研发工作,节省了人力物力和开发成本,而且能够确保信息的采集、处理和控制更加系统高效,使化工事故调查更加快捷高效,调查结果更加科学准确。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对本发明实施方式的限制。在附图中:

图1是本发明第一种实施方式提供的基于自然语言处理化学品事故案例的方法流程图;

图2是本发明第二种实施方式提供的基于自然语言处理化学品事故案例的方法流程图;

图3是本发明第一种实施方式提供的基于自然语言处理化学品事故案例的系统框图;

图4是本发明第二种实施方式提供的基于自然语言处理化学品事故案例的系统框图;

图5是本发明第三种实施方式提供的基于自然语言处理化学品事故案例的系统框图;

图6是本发明依存句法分析结果例句展示图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

图1是本发明第一种实施方式提供的基于自然语言处理化学品事故案例的方法流程图。如图1所示,所述方法包括:

通过网络爬虫爬取化学品事故短文本数据,当前主要的新闻媒体对化工突发事件报道数量呈几何性增长的趋势,这类报道具有内容篇幅短、更新速度快等特点,面对海量的中文报道数据,网络爬虫根据搜索规则,自动对相关的网站新闻进行全部或者局部的内容爬取,网络爬虫爬取数据速度快,覆盖面广。

对爬取的化学品事故短文本数据去重,网络爬虫爬取的化学品事故短文本数据量大,重合度高,因此需要结合危险化学品事故新闻的文本特征,利用SimHash算法自动去除重复的事故新闻。

对去重后的化学品事故短文本数据进行分类处理,确定所述化学品事故短文本数据对应的事故类别,通过对危险化学品事故新闻的特征研究,利用基于机器学习的逻辑回归算法Logistic regression,设计化学品事故短文本分类器,准确快速的对化学品事故短文本数据进行分类处理,将事化学品事故短文本数据归类到火灾、爆炸、泄漏、中毒事故类别中,完成危险化学品事故的短文本数据爬取。

通过分析化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构,采用基于神经网络的依存句法分析模型分析化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构:

W

其中,W

根据所述依存句法结构,从所述化学品事故短文本数据中提取化学品事故关键信息,包括提取事故时间、事故地点、事故单位、事故类型、事故级别、事故板块、人员伤亡以及经济损失;

根据化学品事故关键信息中事故造成的人员伤亡或者直接经济损失对化学品事故进行分级,按照化学品事故等级存储化学品事故短文本数据、事故类别和化学品事故关键信息。同一级别的化学品事故案例对应的化学品事故短文本数据、事故类别和化学品事故关键信息存储在同一个案例库中。

图2是本发明第二种实施方式提供的基于自然语言处理化学品事故案例的方法流程图。如图2所示,所述方法包括:

手动录入化学品事故短文本数据,人工进行挑选后直接手动录入化学品事故的基础信息,在这种情况下获取到的短文本数据单一,因此不需要进行数据清洗去重。

对录入的化学品事故短文本数据进行分类处理,确定化学品事故短文本数据对应的事故类别,与通过网络爬虫爬取的化学品事故短文本数据相同,手动录入的化学品事故短文本数据同样需要进行化学品事故短文本数据分类处理,通过对危险化学品事故新闻的特征研究,利用基于机器学习的逻辑回归算法Logistic regression,设计化学品事故短文本分类器,准确快速的对化学品事故短文本数据进行分类处理,将化学品事故短文本数据归类到火灾、爆炸、泄漏、中毒等事故类别中,完成危险化学品事故的短文本数据爬取。

通过分析化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构,采用基于神经网络的依存句法分析模型分析化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构:

W

其中,W

根据所述依存句法结构从化学品事故短文本数据中提取化学品事故关键信息,包括提取事故时间、事故地点、事故单位、事故类型、事故级别、事故板块、人员伤亡以及经济损失;

根据化学品事故关键信息中事故造成的人员伤亡或者直接经济损失对化学品事故进行分级,按照化学品事故等级存储化学品事故短文本数据、事故类别和化学品事故关键信息。同一级别的化学品事故案例对应的化学品事故短文本数据、事故类别和化学品事故关键信息存储在同一个案例库中。

在本方明的另一个实施例中,还提供一种基于自然语言处理化学品事故案例的方法,该方法兼具网络爬虫爬取和手动录入化学品事故短文本数据两种方式,可以根据不同的情景使用不同的获取化学品事故短文本数据的方式。在某些情况下,有些事故并不会被公开到网上,不会有新闻进行报道,这些事故就不能够被网络爬虫爬取到,需要手动录入化学品事故的基础信息,兼具两种数据获取方式,实现了事故案例的全面采集和存储。

图3是本发明第一种实施方式提供的基于自然语言处理化学品事故案例的系统框图。如图3所示,所述的系统包括:

数据获取单元,用于获取化学品事故短文本数据,确定化学品事故短文本数据对应的事故类别;

数据分析单元,用于通过分析化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构;

关键信息提取单元,用于根据所述依存句法结构,从所述化学品事故短文本数据中提取化学品事故关键信息;

分级存储单元,用于根据所述化学品事故关键信息对化学品事故进行分级,按照化学品事故等级存储化学品事故短文本数据、事故类别和化学品事故关键信息。

在本实施例中,数据获取单元包括数据爬取模块、数据清洗模块和数据分类模块,所述数据爬取模块通过网络爬虫爬取化学品事故短文本数据,网络爬虫根据搜索规则,自动对相关的网站新闻进行全部或者局部的内容爬取;所述的数据清洗模块对爬取的化学品事故短文本数据去重,网络爬虫爬取的化学品事故短文本数据量大,重合度高,因此需要结合危险化学品事故新闻的文本特征,利用SimHash算法自动去除重复的事故新闻;所述的数据分类模块对去重后的化学品事故短文本数据进行分类处理,确定化学品事故短文本数据对应的事故类别。通过对危险化学品事故新闻的特征研究,利用基于机器学习的逻辑回归算法Logistic regression,设计化学品事故短文本分类器,准确快速的对化学品事故短文本数据进行分类处理,将化学品事故短文本数据归类到火灾、爆炸、泄漏、中毒等事故类别中,完成危险化学品事故的短文本数据爬取。

图4是本发明第二种实施方式提供的基于自然语言处理化学品事故案例的系统框图。如图4所示,所述的系统包括:

数据获取单元,用于获取化学品事故短文本数据,确定化学品事故短文本数据对应的事故类别;

数据分析单元,用于通过分析化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构;

关键信息提取单元,用于根据所述依存句法结构,从所述化学品事故短文本数据中提取关化学品事键信息;

分级存储单元,用于根据所述化学品事故关键信息对化学品事故进行分级,按照化学品事故等级存储化学品事故短文本数据、事故类别和化学品事故关键信息。

在本实施例中,数据获取单元包括数据录入模块和数据分类模块,所述的数据录入模块用于人工录入化学品事故短文本数据;所述的数据分类模块对录入的化学品事故短文本数据进行分类处理,确定化学品事故短文本数据对应的事故类别。人工录入的化学品事故的基础信息就是单一事故的信息,不存在重复,不需要进行清洗去重,直接由数据分类模块进行化学品事故进行分类处理,确定事故类别就行。

图5是本发明第三种实施方式提供的基于自然语言处理化学品事故案例的系统框图。如图5所示,所述的系统包括:

数据获取单元,用于获取化学品事故短文本数据,确定化学品事故短文本数据对应的事故类别;

数据分析单元,用于通过分析化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构;

关键信息提取单元,用于所述依存句法结构从化学品事故短文本数据中提取化学品事故关键信息;

分级存储单元,用于根据化学品事故关键信息对化学品事故进行分级,按照化学品事故等级存储化学品事故短文本数据、事故类别和化学品事故关键信息。

在本实施例中,数据获取单元包括数据爬取模块、数据录入模块、数据清洗模块和数据分类模块。数据获取单元集合了网络爬虫爬取和人工录入化学品事故短文本数据,兼具两种数据获取方式,一方面获取网路上报道的各种事故新闻数据,另一方面通过人工录入的方式录入没有公开报道的事故信息,进一步完善事故案例库。

在本发明提供的基于自然语言处理化学品事故案例的系统的所有实施方式中,数据分析单元和分级存储单元均相同,数据分析单元采用基于神经网络的依存句法分析模型分析化学品事故短文本数据,得到化学品事故短文本数据的依存句法结构:

W

其中,W

分级存储单元用于根据所述化学品事故关键信息对化学品事故进行分级,按照化学品事故等级存储所述化学品事故短文本数据、所述事故类别和所述化学品事故关键信息。事故分级依据事故造成的人员伤亡或者直接经济损失对事故进行分级,同一级别的化学品事故案例对应的化学品事故短文本数据、事故类别和化学品事故关键信息存储在同一个案例库中。分级标准参考我国2007年6月1日起施行的《生产安全事故报告和调查处理条例》。(一)特别重大事故,是指造成30人以上死亡,或者100人以上重伤(包括急性工业中毒,下同),或者1亿元以上直接经济损失的事故;(二)重大事故,是指造成10人以上30人以下死亡,或者50人以上100人以下重伤,或者5000万元以上1亿元以下直接经济损失的事故;(三)较大事故,是指造成3人以上10人以下死亡,或者10人以上50人以下重伤,或者1000万元以上5000万元以下直接经济损失的事故;(四)一般事故,是指造成3人以下死亡,或者10人以下重伤,或者1000万元以下直接经济损失的事故。

可选的,除了火灾、爆炸、泄漏、中毒四个类别外,系统还设置“其他”这个事故类别来表示不属于火灾、爆炸、泄漏、中毒这四种事故类别的所有化学品事故短文本数据,当然随着数据的增加,当其他这个事故类别中所包含的化学品事故短文本数据中存在一部分具有相同特点的化学品事故短文本数据时,可以新增一个事故类别用于表示这一类的化学品事故短文本数据。

在本申请中所提到的依存句法结构包括:主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立结构和核心关系。采用基于神经网络的依存句法分析模型分析化学品事故短文本数据,分析事故短文本数据中句子各个语言单位之间的语义关联,并将语义关联以依存句法结构呈现。使用语义依存刻画句子语义,通过词汇所承受的语义框架来描述词汇,实现跨越事故短文本句子表层句法结构的束缚,直接获取深层的语义信息,从而直观反映出句子各成分之间的语义修饰关系,从而获得长距离的搭配信息。通过分析句子成分,并对事故短文本中的句子进行依存句法结构标注,完成文本结构分析。

下面结合具体事故短文本数据对本发明的方法进行说明。

日常状态下,事故案例库系统主机服务器在运行中,则本发明的基于自然语言处理化学品事故案例的系统在运行,在设置有数据爬取模块的系统中,数据爬取模块根据设定的时间间隔定时从网络上爬取需要的数据,然后数据清洗模块对数据进行去重,去重后的数据再进行分类;若系统仅包含数据录入模块,则用户登录事故案例库系统后,将系统所需要的基础信息录入到数据字典中,录入的数据同样进行分类。分类后的数据由数据分析单元采用基于神经网络的依存句法分析模型进行分析。

假设人工录入或者网络爬虫爬取到的数据为:

11月7日,英国伯明翰市第10大道和第16大街南部,一条主要天然气管线破裂,发生泄漏,当局赶到现场,撤离附近的学校。

伯明翰消防和救援队长Sebastian Carrillo说,一条主要的天然气管道工作期间发生了破裂。危险团队赶到现场监控泄漏,同时进行维修。

数据分析单元采用基于神经网络的依存句法分析模型进行分析,以“一条主要天然气管线破裂”此句为例,其依存句法分析结果如图6所示。其他句子以此类推,可以得到数据的全部依存句法结构,通过关键信息提取单元提取关键信息,与系统中的字段进行匹配,得到如下关键信息。

(1)事故名称为英国伯明翰天然气泄漏事故

(2)事故地点为国外、英国

(3)事故时间为2018-11-07

(4)事故类型为泄漏

(5)事故板块为储存

(6)事故级别为一般以下

(7)人员伤亡均为0

分级存储单元根据所述化学品事故关键信息对化学品事故进行分级,按照化学品事故等级存储所述化学品事故短文本数据、所述事故类别和所述化学品事故关键信息。

本发明实施方式还提供一种机器可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上所述的基于自然语言处理化学品事故案例的方法。

本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上结合附图详细描述了本发明的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。

此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。

技术分类

06120113807854