掌桥专利:专业的专利平台
掌桥专利
首页

基于频繁模式挖掘的城市气象灾害致灾因子识别方法

文献发布时间:2023-06-19 18:25:54


基于频繁模式挖掘的城市气象灾害致灾因子识别方法

技术领域

本发明涉及气象灾害技术领域,尤其涉及一种基于频繁模式挖掘的城市气象灾害致灾因子识别方法。

背景技术

在全球气候变暖的大背景下,各种气象灾害和极端气候事件的发生频率和强度都呈现出逐渐增多的趋势,同时随着城市规模扩大,城镇化水平的不断提高,当极端性天气气候事件发生时,在同样烈度的情况下,城市受灾影响通常也更为严重,从而对人民生命财产安全和社会的可持续发展造成严重的挑战。

近年来,已有不少学者开展了针对气象灾害风险分析及脆弱性评估方面的研究工作,并且现有研究根据评价方法大致可分为基于实地调查的脆弱性评价、基于历史灾情数据的脆弱性评价、基于指标体系的脆弱性评价以及基于情景模拟的脆弱性评价。其中高歌等人收集了马洋溪典型村庄的灾情数据并构建室内财产脆弱性曲线;邱粲等人基于1984-2019年的山东省县级暴雨洪涝历史灾情与123个国家地面气象观测站数据统计分析了山东地区暴雨洪涝灾害损失的时空特征变化以及不同因子的影响;史军等人利用时空分析法研究了暴雨积水和降水强度以及累积雨量的关系,并建立了中心城区暴雨内涝的阈值指标;杨辰等人利用上海暴雨内涝评估模型开展了城市暴雨内涝情景模拟及致灾阈值分析。由于当前研究大多基于传统的静态灾害数据,不能很好地满足脆弱性动态评估的需要,近年来也有不少学者开展了基于110灾情以及微博等社交媒体数据的气象灾害风险分析研究。其中,杨辰等人采用自然语言识别方法分析了110气象灾情的时空特征以及致灾的气象条件;Wang Y等人基于新浪微博数据开展了2012年北京暴雨的致灾案例研究。

由于灾害系统的复杂性,承灾体往往受到多个致灾因子的耦合作用,这种耦合关系是各类灾害造成灾难的链锁关系的总称。但是当前研究大多只针对单一致灾因子,对于多灾种间的相互作用关系、多灾种对于不同承灾体的叠加效应分析还有待深入。

发明内容

为克服现有技术中存在的缺陷,本发明提出了一种基于频繁模式挖掘的城市气象灾害因子识别方法,通过多种气象因子致灾的分析挖掘,构建定量化的气象致灾影响知识框架,从而加深对于灾害性天气致灾影响的认识,为特定天气条件的提前应对和应急处置提供技术支撑。

本发明通过以下技术方案来实现:

一种基于频繁模式挖掘的城市气象灾害因子识别方法,其包括:

将气象条件划分不同的区间,并与相应区间下发生的110气象灾情进行组合,在Python语言环境下采用FP-Growth算法对气象条件和气象灾情进行频繁模式挖掘,并形成典型承灾体致灾的频繁模式挖掘结果和相应致灾阈值;

基于频繁模式挖掘结果,构建涵盖气象条件和致灾影响的知识图谱规则库,通过归纳和表达气象与110灾情之间的关联,形成气象条件触发典型承灾体致灾的知识框架。

本发明进一步的改进在于,基于R语言和Python语言环境,以110气象灾情和同期气象观测数据作为研究资料,采用FP-Growth频繁模式挖掘算法开展气象灾害的因子识别,并得到不同气象条件对于典型承灾体的致灾影响阈值。

本发明进一步的改进在于,所述110气象灾情数据来源于市民电话报警,通过接警员将报警电话记录为文字描述信息并存储。

本发明进一步的改进在于,所述110气象灾情数据字段包括日期时间、案件发生地址、接警员记录的灾情文字描述以及根据报警人所在位置识别的经纬度信息。

本发明进一步的改进在于,所述气象观测数据来源于布设在对象城市全市范围的自动气象观测站,参与分析的气象要素包括降水量和风速,时间分辨率为1小时。

本发明进一步的改进在于,将气象条件划分不同的区间的步骤包括:选取3小时、6小时、12小时和24小时的累积降水和最大风速统计值构建气象特征,并将气象特征划分为不同的区间。

本发明进一步的改进在于,采用FP-Growth算法对气象条件和气象灾情进行频繁模式挖掘的步骤包括:通过FP-Growth算法挖掘气象条件与承灾体致灾之间的频繁模式,分析出与气象条件相关度较高、发生数量较多以及增量较明显的典型致灾类型,根据频繁模式挖掘气象条件和承灾体致灾中存在的潜在规则,并对规则的可信度进行量化。

本发明进一步的改进在于,构建涵盖气象条件和致灾影响的知识图谱规则库的步骤包括:基于FP-Growth频繁模式挖掘结果,整理为实体-属性-属性值和实体-关系-实体两种模式,并通过对子集超集进行处理,完成知识图谱规则库,呈现气象与承灾体致灾之间的链接关系。

由于采用上述技术方案,使得本发明取得的有益效果是:

本发明采用频繁模式挖掘领域的FP-Growth算法,基于110灾情数据开展了气象对于典型承灾体受灾影响的大数据分析挖掘,并且构建了涵盖气象条件和致灾影响的知识图谱规则库,为城市精准治理提供技术支撑和决策参考,也为相关研究提供了一个新的思路。本发明成果将有助于加深对灾害性天气致灾影响的认识,所形成的知识图谱也可用于指导台风等灾害性天气的人员疏散和应急物资储备等工作,为特定天气条件的提前应对和应急处置提供技术支撑。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为以“学校”为例的气象条件与典型承灾体致灾的知识图谱。

图2为以“园区”为例的气象条件与典型承灾体致灾的知识图谱。

图3为LDA主题模型的贝叶斯网络图。

具体实施方式

由于灾害系统的复杂性,承灾体往往受到多个致灾因子的耦合作用。但是当前研究大多只针对单一致灾因子,对于多灾种间的相互作用关系、多灾种对于不同承灾体的叠加效应分析还有待深入,且缺乏定量的分析研究。因此本发明创新性地采用频繁模式挖掘领域的FP-Growth算法,基于110报警灾情数据开展了气象对于典型承灾体受灾影响的大数据分析挖掘,并且构建了涵盖气象条件和致灾影响的知识图谱规则库,为城市精准治理提供技术支撑和决策参考,也为相关研究提供了一个新的思路。

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

一种基于频繁模式挖掘的城市气象灾害因子识别方法,主要包括以下步骤:

步骤S1:频繁模式(frequent pattern)是频繁地出现在数据集中的模式(如项集、子序列或子结构),本发明通过将气象条件划分不同的区间,并与相应区间下发生的110气象灾情进行组合,在Python语言环境下采用FP-Growth算法对气象条件和气象灾情进行频繁模式挖掘,并形成典型承灾体致灾的频繁模式挖掘结果和相应致灾阈值(表1);

基于FP-Growth频繁模式挖掘结果,可以得到一些较为明显的致灾特征。如24小时100mm以上的强降水会导致工厂、加油站、市场、学校、幼儿园、仓库、车库等积水(支持度分别为0.39、0.30、0.54、0.73、0.33、0.42和0.34),同时12小时70mm以上的强降水和6小时60mm以上的强降水也会导致加油站、市场、学校、园区等受淹(支持度分别为0.30、0.31、0.40和0.36);并且24小时8级以上的强风会导致电信设施、加油站、围墙和大棚受损(支持度分别为0.33、0.30、0.33和0.32)。此外,强降水和大风的共同影响还会造成加油站、学校、幼儿园等灾情高发。

表1.气象条件与典型承灾体的频繁模式挖掘结果(支持度0.3以上)

步骤S2:基于频繁模式挖掘结果,本发明以“学校”和“园区”为例,构建涵盖气象条件和致灾影响的知识图谱规则库(图1和图2),通过归纳和表达气象与110灾情之间的关联,形成气象条件触发典型承灾体致灾的知识框架,从而有助于特定气象条件下致灾风险和城市运行态势的预先研判和提前处置。

更具体的,本发明致灾因子识别的数据选取及来源如下:

数据资料选取了近10年的110气象类报灾数据及同期气象观测资料。110气象报灾数据来源于市民电话报警,通过接警员将报警电话记录为文字描述信息录入系统,并经由城市应急联动平台实时接入城市气象局值班业务平台,数据字段包括日期时间、案件发生地址、接警员记录的灾情文字描述以及根据报警人所在位置识别的经纬度信息等。

气象观测数据来源于城市气象局布设在全市范围的共246个自动气象观测站,要素包含时间、站号、降水量、气温、气压、相对湿度、风向、风速、能见度等信息,时间分辨率为1小时。由于气象灾害主要发生在暴雨、大风等天气背景下,因此本发明主要选取了降水量和风速两种气象要素参与分析。

进一步的,本发明致灾因子识别的还对上述数据进行了数据清洗及处理,具体如下:

1.经纬度识别和验证

由于灾情经纬度识别为报警人所在位置,在异地报警的情况下,经纬度坐标会存在较大偏差,因此本发明在进行空间位置匹配分析的过程中,基于百度地图开放平台提供的接口对报警信息中记录的灾情发生地址进行经纬度解析,并剔除与原经纬度偏差大于0.1°的灾情记录。

2.气象要素与灾情信息匹配

本发明以灾情所在经纬度为基准,在R语言环境下,分别获取距离灾情位置最近和次近的3个气象站信息,如距离最近的自动站点该时次数据缺测,则依次采用次近站点的同时次数据进行填充,以保证分析数据的完整性。同时,为了构建频繁模式挖掘所用的气象特征,研究中分别计算6小时、12小时和24小时的累积降水和最大风速,从而得到融合了气象灾情与各气象特征的分析数据集。

更进一步的,本发明致灾因子识别的研究方法中还采用了LDA主题聚类,具体如下:

LDA(隐含狄利克雷分布)是由Blei等人于2003年提出的三层贝叶斯主题模型,其结构包含文本层、主题层以及单词层,目的是通过无监督学习的方法从文本中发现隐含的语义维度。LDA模型的基本思想是每条文本由多个主题以多项式分布构成,每个主题又由多个单词以多项式分布构成,而多项式分布的先验概率分布为狄利克雷分布。LDA目前被广泛应用于文本主题识别、文本分类、文本相似度计算等文本挖掘的热门研究领域,本发明基于关键词识别+LDA的方法对灾情描述信息进行主题聚类,由于雷电、冰雹、低温寒潮等灾情数量占比很少,因此首先基于关键词提取的方式,识别雷电、冰雹和低温寒潮等灾种,然后基于R建立语料库,结合LDA主题模型参数先验知识得到经验性取值方法,对暴雨和大风和进行文本分类,最终得到暴雨和大风的气象灾害数据集。图3为LDA的贝叶斯网络图,注:图中φ表示主题下词项的分布;θ表示文本下主题的分布;z表示某词项所对应的主题;w表示构成某文本的词项;N表示词的个数;|D|表示整个语料库中文本的数量;k表示某文本所可能具有的主题数。

频繁模式增长(Frequent Pattern Growth,FP-Growth)算法是数据挖掘技术在关联规则发现领域的重要应用,其通过采用分治策略,将项集满足最小支持度的数据库事务压缩到一棵频繁模式树(FP-Tree),相同事务间保留关联联系,根据项头表中的每一个频繁1项集来找出对应的条件FP-Tree,并挖掘出频繁项集,直到把所有的条件FP-Tree挖掘完毕。相比于其他关联规则挖掘算法,FP-Growth算法的显著特征是高效性能,可以高效发现数据集合中的频繁项集以及数据间隐藏的关联规则。由于该算法旨在挖掘特定气象条件与承灾体致灾之间频繁出现的一种模式,可以一定程度上消除随机发生的非气象因素造成的干扰。因此本发明采用该算法进行气象条件与承灾体致灾的相关规则和模式挖掘。

研究中选取3小时、6小时、12小时和24小时的累积降水和最大风速统计值构建气象特征,并将气象特征划分为不同的区间(表2)。研究中通过FP-Growth算法挖掘气象条件与承灾体致灾之间的频繁模式,分析出与某些气象条件相关度较高、发生数量较多以及增量较明显的典型致灾类型,根据频繁模式挖掘气象条件和这些承灾体致灾中存在的潜在规则,并对规则的可信度进行量化。

表2.气象要素特征区间

知识图谱通过采用图形结构来描述知识和事物及事物间的关系,可将信息表达成更接近人类认知的形式,提供了一种组织、管理和认识理解海量信息的能力,现已被应用于多个行业领域。本发明通过引入知识图谱技术,基于FP-Growth频繁模式挖掘结果,将其整理为实体-属性-属性值和实体-关系-实体两种模式,并通过对子集超集进行处理,完成知识图谱规则库,从而可以更好地呈现气象与承灾体致灾之间的链接关系。

本发明致灾因子识别的结果如下:

1.承灾体类型分布

气象灾情数据在类别上以大风和暴雨致灾为最多,占比分别达到64.7%和33.3%。在去除了无法识别的承灾体表述后,共包含39类承灾体。结论:在大风灾情中,主要承灾体类型为车辆、道路、树木、房屋以及雨棚、信号灯、广告牌、门窗等构筑物,同时大风还会对电力设施、电线等造成影响;对于暴雨灾情,主要承灾体类型为房屋、车辆、道路和小区,此外诸如车库、工厂、店铺等也会受到内涝积水的影响。

2.不同气象要素区间下的灾情发生特征分析

通过将110气象灾情匹配不同的气象特征区间,可以看到暴雨和大风灾害与气象条件关系密切。在暴雨灾情分布上,对于24小时和12小时累积降水量,其频数落在100-250mm的大暴雨区间为最多,其次为50-100mm的暴雨区间,而24小时和12小时累积降水量小于50mm的灾情数量仅占全部暴雨灾情数的14.3%和23.3%;对于6小时和3小时的累积降水量,其频数也主要落在50-100mm的暴雨区间,并且25mm以上的灾情数占比分别达到81.0%和60.9%。承灾体分布上,暴雨灾情以车辆、房屋、小区和村庄等的占比为最高,表明城市低洼地区内涝是暴雨灾害的主要致灾影响。

大风灾情也呈现出比较明显的分布特征,对于不同统计时段的极大风速,其频数最大值均出现在10.8-17.1m/s区间(6-7级风),其次为17.2-24.4m/s(8-9级风)以及5.5-10.7m/s(4-5级风)区间范围,而4级风以下区间的受灾比例在不同统计时段均小于7%。承灾体分布上,大风灾害以车辆、道路、树木等占比为最高。可知,极端性的大风和暴雨是引发气象灾害的主要原因。

此外,通过将上述气象灾情分别匹配降水量和风速区间可以得到针对不同统计时段的风雨影响。可知,对于不同统计时段,灾情通常都集中于风雨共同影响的区间范围,呈现出较为明显的对角线分布特征。其中,对于24小时统计时段,灾情主要集中于暴雨至特大暴雨的降水区间以及6-9级的大风区间;对于12h、6h和3h统计时段,其降水量的灾情聚集区间较24小时统计时段略有降低,但风速的聚集区间则仍然维持在6-9级大风区间内。因此,强风和暴雨共同作用往往是引发致灾的重要原因。

综上所述,本发明基于R语言和Python语言环境,以近10年的110气象灾情和同期气象观测数据作为研究资料,采用FP-Growth频繁模式挖掘算法开展了气象灾害的致灾因子识别,得到气象条件对于典型承灾体的致灾影响阈值,并且基于挖掘结果构建了气象条件与典型承灾体的气象致灾知识图谱,主要结论如下:

(1)灾情类别上以大风和暴雨为最多,占比分别达到64.7%和33.3%。大风灾情的承灾体主要以车辆、道路、树木、房屋以及相关构筑物为主,暴雨灾情承灾体主要为房屋、车辆、道路和小区,此外诸如车库、工厂、店铺等也会受到内涝积水的影响。

(2)在暴雨灾情分布上,对于24小时和12小时累积降水量,其频数落在100-250mm的大暴雨区间为最多,对于6小时和3小时的累积降水量,其频数主要落在50-100mm的暴雨区间;大风灾情也呈现出比较明显的分布特征,对于不同统计时段的极大风速,其频数最大值均出现在10.8-17.1m/s区间(6-7级风)。此外,在不同统计时段灾情通常都集中于风雨共同影响的区间范围,呈现出较为明显的对角线分布特征。因此,强风和暴雨共同作用往往是引发致灾的重要原因。

(3)采用FP-Growth算法可以进行气象条件和典型承灾体之间的频繁模式挖掘,并得到相应的致灾阈值和一些较为明显的致灾特征。如24小时100mm以上的强降水会导致工厂、加油站、市场、学校、幼儿园、仓库、车库等积水,同时12小时70mm以上的强降水和6小时60mm以上的强降水也会导致加油站、市场、学校、园区等受淹;并且24小时8级以上的强风会导致电信设施、加油站、围墙和大棚受损。此外,强降水和大风的共同影响还会造成加油站、学校、幼儿园等灾情高发。

(4)本发明通过引入知识图谱技术,构建了涵盖气象条件和致灾影响的知识图谱规则库,通过归纳和表达气象与110灾情之间的关联,形成气象条件触发典型承灾体致灾的知识框架,从而有助于不同气象条件下致灾风险和城市运行态势的预先研判和提前处置。

本发明采用频繁模式挖掘领域的FP-Growth算法,基于110灾情数据开展了气象对于典型承灾体受灾影响的大数据分析挖掘,并且构建了涵盖气象条件和致灾影响的知识图谱规则库,为城市精准治理提供技术支撑和决策参考,也为相关研究提供了一个新的思路。本发明将有助于加深对灾害性天气致灾影响的认识,所形成的知识图谱也可用于指导台风等灾害性天气的人员疏散和应急物资储备等工作,为特定天气条件的提前应对和应急处置提供技术支撑。

以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

技术分类

06120115566654