掌桥专利:专业的专利平台
掌桥专利
首页

一种基于细粒度话题探测的台风灾情态势感知方法及装置

文献发布时间:2023-06-19 18:34:06


一种基于细粒度话题探测的台风灾情态势感知方法及装置

技术领域

本发明涉及台风灾情态势快速感知技术领域,尤其涉及一种基于细粒度话题探测的台风灾情态势感知方法及装置。

背景技术

自然灾害对社会具有严重破坏性。随着全球环境和经济的迅速发展,洪水、暴雨、地震等自然灾害的发生频率及强度急剧增加,造成了大量人员伤亡、经济损失和社会不稳定现象。因此,快速获取自然灾害相关的灾情信息是开展救援行动的关键。由于灾情发展具有实时动态的特点,这为灾情损失信息的及时收集和更新带来了挑战。

长期以来,实地调查和新闻报道等回顾性数据主要用于自然灾害事件。但此类方法存在着报告偏差、受访者回忆偏差及费时费力等局限性。近年来,随着遥感技术的发展,利用遥感影像数据成为自然灾害中收集损害信息的主要方法,但是遥感数据具有一定的时间周期(如1天),导致实时数据获取困难;此外,遥感数据是对客观物理环境的描述,缺少对人类在灾害情景下的行为反应的刻画,导致人本信息收集的缺乏。目前,新兴的社交媒体成为用户分享他们对自身环境的看法和观点的重要平,为遥感提供了有价值的补充,主要体现在:(1)公众可以获得近实时的灾情相关报道信息;(2)社交媒体数据蕴含的多维文本、时间戳和地理位置等属性特征为灾情描述提供了精确时空信息。因此,这些优势使得社交媒体数据在收集最新信息、增强自然灾害态势感知方面发挥了作用。

由于社交媒体活动与灾害破坏有很强的相关性,因此社交媒体在探测相关事件和感知灾害发展状态方面具有重要作用,尤其是其文本信息中蕴含的灾情信息对实时感知灾情发展态势、快速感知灾害发展态势具有重要价值。其中有效感知灾害发展态势的关键在于社交媒体数据中话题分类的高效性与准确性。目前关于灾害相关主题的分类方法可分为:(1)警告与建议;(2)伤亡与损失;(3)灾情事件相关;(4)捐赠与援助;(5)人员伤亡;(6)交通主题。由于受标签样本的限制,通常灾情信息的识别主要聚焦于某些特定类别,这使得灾情信息的全面描述变得困难。同时由于社交媒体文本具有简短、非正式及多样的主题表达的特点,一条微博文本中往往蕴含多个主题,传统微博文本主题单一分类方法会导致部分类别信息丢失。

发明内容

根据现有技术的不足,本发明的目的是提供一种基于细粒度话题探测的台风灾情态势感知方法及装置,能够快速收集灾情相关信息、无监督的对微博文本中蕴含的灾损信息进行分类,完成灾损信息的快速感知。

为了解决上述技术问题,本发明采用的技术方案为:

一种基于细粒度话题探测的台风灾情态势感知方法,包括以下步骤:

步骤S1、数据收集和预处理,包括收集指定范围地理定位的微博数据、过滤灾害相关数据和文本预处理;

步骤S2、细粒度主题提取,包括词向量映射、语义图构建、主题检测和关键词识别;

步骤S3、灾情分析与灾情态势感知,利用时空可视化分析技术,对主题词进行可视化,通过主题词分布的强度和范围感知台风灾情发展态势。

进一步地,所述步骤S1具体包括:

步骤S11、灾情发生地理范围格网划分,通过微博place/nearby_timeline API访问半径为一定距离以内的微博,通过细化区域和细化时间段,获取所有查询数据;

步骤S12、微博数据库存储,将数据存储到MongoDB数据库中,存储字段如下:微博ID、用户ID、时间、地点和文本;

步骤S13、灾害相关微博过滤,利用关键词,过滤出和灾害相关的微博进行进一步分析;

步骤S14、文本预处理,包括文本去重,过滤掉停用词和特殊字符,保留名词、动词和形容词作为特征词,利用SVM将数据分为台风灾情相关和不相关两类,最终每条微博文本可以分解为一组单词。

进一步地,所述步骤2具体包括:

步骤S231、将语义图中每个单词看成一个独立社区,此时每个社区数等同于单词个数;

步骤S232、对每个单词p,依次计算将其分配到其余邻居单词所在社区q,计算分配前后的模块度变化,并记录模块度变化最大的那个节点,如果模块度变化>0,则把节点p分配到模块度变化最大的那个邻居节点所在的社区,否则保持不变;

步骤S233、依次迭代,重复上述过程,直到所有单词所处社区不再发生变化;

步骤S234、对图进行压缩,将所有在同一个社区的单词压缩成一个新的节点,社区内单词之间的权重重新化为新的节点的环的权重,社区间的边权重转化为新单词间的边权重;

步骤S235、重复步骤S231,直到整个的模块度不变化。

进一步地,所述Word2vec网络包含输入层、隐藏层和输出层,所述Word2vec网络采用CBOW模型;

输入层为一个形状为

隐藏层h具有N个神经元,其中N为映射的词向量的维度,为512维;

输出层为V的神经元,即语料中单词的个数,输出层使用softmax计算各个词的输出概率,在训练过程中为降低模型反向传播更新模型参数时的计算复杂度,采用负采样方法,构建负类样本来减少训练样本,模型训练速度。

进一步地,所述步骤S22中,语义图表达为:

G=(V,E)

其中,G表示语义图,V表示单词,E表示节点间的连边;

边的权重通过单词之间的相似性的计算公式为:

其中,

进一步地,所述步骤S23具体包括:

步骤S231、将语义图中每个单词看成一个独立社区,此时每个社区数等同于单词个数;

步骤S232、对每个单词p,依次计算将其分配到其余邻居单词所在社区q,计算分配前后的模块度变化,并记录模块度变化最大的那个节点,如果模块度变化>0,则把节点p分配到模块度变化最大的那个邻居节点所在的社区,否则保持不变;

步骤S233、依次迭代,重复上述过程,直到所有节点所处社区不再发生变化;

步骤S234、对图进行压缩,将所有在同一个社区的节点压缩成一个新的节点,社区内节点之间的权重重新化为新的节点的环的权重,社区间的边权重转化为新节点间的边权重;

步骤S235、重复步骤S231,直到整个的模块度不变化。

进一步地,所述步骤S24中,根据度中心性识别每个主题中加权度最高的前m个单词,其中度最高的单词定义为核心词,表明主题的核心含义;其余m-1个单词定义为重要单词,提供主题的补充信息。

一种基于细粒度话题探测的台风灾情态势感知装置,包括:

数据收集和预处理模块,用于数据收集和预处理,包括收集指定范围地理定位的社交媒体数据、过滤灾害相关数据和文本预处理;

细粒度主题提取模块,用于细粒度主题提取,包括词向量映射、语义图构建、主题检测和关键词识别;

灾情分析与灾情态势感知模块,用于灾情分析与灾情态势感知,利用时空可视化分析技术,对主题词进行可视化,通过主题词分布的强度和范围感知台风灾情发展态势。

一种基于细粒度话题探测的台风灾情态势感知设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,处理器用于运行计算机程序时,执行上述任一项所述基于细粒度话题探测的台风灾情态势感知方法的步骤。

一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述基于细粒度话题探测的台风灾情态势感知方法的步骤。

与现有技术相比,本发明具有以下优点和有益效果:。

本发明提供的一种基于细粒度话题探测的台风灾情态势感知方法及装置,能够快速收集灾情相关信息、无监督的对微博文本中蕴含的灾损信息进行分类,通过细粒度主题提取,以识别社交媒体中蕴含的精细化灾情相关主题,进而提高决策者利用社交媒体对灾情信息的感知能力,能够迅速进行灾情响应及灾情援助,且不会导致部分类别信息丢失。

附图说明

为了更清楚地说明本实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于细粒度话题探测的台风灾情态势感知方法的流程图。

图2为本发明一个实施例实施的总体流程图。

图3为Word2vec网络模型框架。

图4为社区主题生成示意图。

图5为不同相似度阈值下主题生成对比。

图6为7个受灾城市主题时空变化图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

一种基于细粒度话题探测的台风灾情态势感知方法,如图1所示,包括以下步骤:

步骤S1、数据收集和预处理,包括收集指定范围地理定位的微博数据、过滤灾害相关数据和文本预处理,为快速提取灾情主题进行标准化数据准备;

步骤S2、细粒度主题提取,包括词向量映射、语义图构建、主题检测和关键词识别,通过细粒度主题提取,以识别社交媒体中蕴含的精细化灾情相关主题,进而提高决策者利用社交媒体对灾情信息的感知能力,能够迅速进行灾情响应及灾情援助;

步骤S3、灾情分析与灾情态势感知,利用GIS时空可视化分析技术,对主题词进行可视化,通过主题词分布的强度和范围感知台风灾情发展态势。

本发明提供的一种基于细粒度话题探测的台风灾情态势感知方法及装置,能够快速收集灾情相关信息、无监督的对微博文本中蕴含的灾损信息进行分类,完成灾损信息的快速感知。

所述步骤S1具体包括:

步骤S11、灾情发生地理范围格网划分,通过微博place/nearby_timeline API访问半径为一定距离以内的微博,通过细化区域和细化时间段,获取所有查询数据;

步骤S12、微博数据库存储,将数据存储到MongoDB数据库中,存储字段如下:微博ID、用户ID、时间、地点和文本;

步骤S13、灾害相关微博过滤,利用关键词,过滤出和灾害相关的微博进行进一步分析;

步骤S14、文本预处理,包括文本去重,过滤掉停用词和特殊字符,保留名词、动词和形容词作为特征词,利用SVM将数据分为台风灾情相关和不相关两类,最终每条微博文本可以分解为一组单词。

在本发明实施例中,所述步骤S11中,微博place或nearby_timeline API访问半径为10到15公里。

所述步骤S13中,关键词为“台风”等。

本发明中,所述步骤2具体包括:

步骤S21、词向量映射,输入为预处理的微博文本,采用Word2vec对文本进行词嵌入处理,将单词转换为向量表示;

步骤S22、语义图构建,通过语义相似度的计算识别相似性高的共现单词,构建单词共现网络;

步骤S23、主题检测,利用社区探测方法对所构建的网络进行社区识别,所识别的社区对应各个不同主题;

步骤S24、关键词识别,进行聚类,通过网络的属性特征提取每个主题中的关键词,输出为聚类后的主题及关键词。

本发明步骤S21中,所述Word2vec网络包含输入层、隐藏层和输出层,Word2vec的网络结构具有词袋模型CBOW)和词跳模型(Skip-gram)两种。本发明采用CBOW模型,该网络模型输入为一系列的上下文,输出为待预测的单词。

输入层为一个形状为

隐藏层h具有N个神经元,其中N为映射的词向量的维度,为512维;

输出层为V的神经元,即语料中单词的个数,输出层使用softmax计算各个词的输出概率,在训练过程中为降低模型反向传播更新模型参数时的计算复杂度,采用负采样方法,构建负类样本来减少训练样本,模型训练速度。

本发明中,所述步骤S22中,语义图表达为:

G=(V,E)

其中,G表示语义图,V表示单词,E表示节点间的连边;

边的权重通过单词之间的相似性的计算公式为:

其中,

本发明中,所示步骤S23基于Louvain社区探测,所述步骤S23具体包括:

步骤S231、将语义图中每个单词看成一个独立社区,此时每个社区数等同于单词个数;

步骤S232、对每个单词p,依次计算将其分配到其余邻居单词(节点)所在社区q,计算分配前后的模块度变化,并记录模块度变化最大的那个节点,如果模块度变化>0,则把节点p分配到模块度变化最大的那个邻居节点所在的社区,否则保持不变;

步骤S233、依次迭代,重复上述过程,直到所有单词所处社区不再发生变化;

步骤S234、对图进行压缩,将所有在同一个社区的单词压缩成一个新的节点,社区内单词之间的权重重新化为新的节点的环的权重,社区间的边权重转化为新单词间的边权重;

步骤S235、重复步骤S231,直到整个的模块度不变化。

本发明中,关键词识别为了使每个主题更加简洁可读,利用每个主题中单词网络属性进行关键词识别。首先根据度中心性识别每个主题中加权度最高的前m个单词,其中度最高的单词定义为核心词,表明主题的核心含义;其余m-1个单词定义为重要单词,可以提供主题的补充信息。度中心性是复杂网络理论中的识别网络中关键节点的重要指标。度中心性是节点的连边数,高的度中心性意味着更活跃的流动。度中心性是一个简单却重要的指标。本发明通过计算每个主题单词的度中心性来衡单词的重要程度。

本发明实施例中,m为15。

在本发明的一个实施例中,涉及矢量数据坐标系统选用“WGS84”,投影系统选用“横轴墨卡托”投影。本实施例中采用台风“天鸽”和“帕卡”作为研究案例,这两个台风均对我国东南沿海地区产生了严重影响,为本实施例中的社交媒体细粒度话题探测的台风灾情态势快速感知提供了良好的研究案例。2017年8月20日,台风“天鸽”在太平洋西北部形成。8月22日8时,它增强为强热带风暴,15时又增强为台风。23日7时,“台风”增强为强台风。它在大约12:50以强台风级别(每秒14 45米)降落在中国珠海市。台风“天鸽”导致中国中央气象台在2017年首次发布台风红色预警信号。此外,台风登陆时恰逢天文潮汐,给珠海、香港、澳门等城市带来巨大损失,造成24人死亡,经济损失68.2亿美元。台风“帕卡”于2017年8月24日在西北太平洋形成。25日21时,“Pakhar”增强为热带风暴,在菲律宾吕宋岛东部沿海登陆。它于8月27日9点在中国江门市东南海岸着陆。8月20日减弱为热带低气压。台风“Pakhar”影响了广东、广西、贵州和云南4省(自治区)30个县(市、区)和11个市(自治州)的8.3万人,造成8人死亡,1.4万人转移。8月23日台风“天鸽”登陆珠海,4天后台风“帕哈尔”登陆珠海,这在历史上是罕见的。这两个台风的路径相似,登陆地点都在100公里以内。研究区域涉及主要受影响的三个省份:广东、广西和福建,共有44个地级市。

对在基于社交媒体细粒度话题探测的台风灾情态势快速感知过程中,参见图2,主要包括以下步骤:

步骤1、数据收集和预处理:包括收集地理定位的社交媒体数据、过滤灾害相关数据和文本预处理。灾情发生地理范围格网划分,通过微博place/nearby_timeline API访问半径为11公里以内的微博。由于一个访问请求返回的最大微博数量是1000条,细化时间段可以获得更多的数据。通过区域和时间细分,理论上可以获取所有查询数据。

本实例从2017年8月22日到8月30日,共包含712,112条来自广东、福建和广西带有地理位置信息的微博数据集。将微博数据入库存储,属性如下:微博ID、用户ID、时间、地点和文本。对灾害相关微博进行过滤,利用“台风”等关键词,过滤出和灾害相关的微博进行进一步分析;其中,有21781个数据(总数据的3.1%)带有关键词“台风”(台风),“暴雨”(暴雨),“天鸽”(Hato),和“帕卡”(Pakhar),这些数据被认为是和台风相关的数据。

除社交媒体数据,其他辅助数据收集,包括灾害数据和台风相关的地理数据。受灾数据为中国国家海洋局公布的广东省几个受灾最严重城市的直接经济损失。该数据来源的优点是,数据来自官方政府统计,因此可以提供城市一级的官方损害评估。台风相关的地理数据,包括飓风路径、登陆位置和台风风力由美国国家飓风中心提供(https://www,nhc.noaa.gov/gis)

文本预处理,过滤掉停用词、和特殊字符,保留名词、动词和形容词作为潜在的关键词,最终将每条微博文本分解为一组单词。

步骤2、如图3所示为实现细粒度主题抽取,将微博地理定位数据全部作为语料库,使用Word2Vec生成词向量;然后对台风相关数据生成的词向量进行词相似度计算。将单词相似度转换为两个单词之间的边权值;如图4所示,最后通过社区检测算法得到词的聚类,不同的社区对应不同的主题。最终台风微博相关的文本分为七个主题:(a)“交通”(b)“行动”(c)“大雨”(d)“树木倒伏”(e)“情感”(f)“灾害事件描述”(g)基础设施损坏,如图5所示,在图形可视化的结果,一个节点表示一个单词,和节点的大小表示程度的大小。节点越大,表示与其他词的语义相似度越高。相似度阈值的大小决定了最终识别的主题精细程度,阈值较大,则识别的主题越相似,如图5。

其中,Word2vec输入层为一个形状6x45312的经过独热编码的张量。上下文单词的数量为6,即考虑上下6个单词窗口中的上下文语义信息;经过过滤后的语料单词总个数为45312;隐藏层h设置为512个神经元;输出层为45312个神经元,即语料中单词的个数。

步骤3,灾情分析与态势感知:利用时空可视化分析技术,对主题词进行可视化,如图6所示,通过主题词分布的强度和范围快速感知台风灾情发展态势。本实例通过对探测的灾情主题数量与官方公布的经济损失数据发现,所有主题都与经济损失呈正相关。特别是(g)基础设施损坏、(b)行动和(d)树木倒伏与官方公布的经济损失数据有着极其显著的正相关关系。

本发明还提供一种基于细粒度话题探测的台风灾情态势感知装置,包括:

数据收集和预处理模块,用于数据收集和预处理,包括收集指定范围地理定位的社交媒体数据、过滤灾害相关数据和文本预处理;

细粒度主题提取模块,用于细粒度主题提取,包括词向量映射、语义图构建、主题检测和关键词识别;

灾情分析与灾情态势感知模块,用于灾情分析与灾情态势感知,利用时空可视化分析技术,对主题词进行可视化,通过主题词分布的强度和范围感知台风灾情发展态势。

本发明还提供一种基于细粒度话题探测的台风灾情态势感知设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,处理器用于运行计算机程序时,执行上述任一项所述基于细粒度话题探测的台风灾情态势感知方法的步骤。

本发明实施例中的存储器用于存储各种类型的数据以支持基于细粒度话题探测的台风灾情态势感知设备的操作。这些数据的示例包括:用于在基于细粒度话题探测的台风灾情态势感知设备上操作的任何计算机程序。

本发明实施例揭示的基于细粒度话题探测的台风灾情态势感知方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,基于细粒度话题探测的台风灾情态势感知方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,Digital SignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本发明实施例提供的基于细粒度话题探测的台风灾情态势感知方法的步骤。

在示例性实施例中,基于细粒度话题探测的台风灾情态势感知设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable LogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU,MicroController Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。

可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本发明还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述基于细粒度话题探测的台风灾情态势感知方法的步骤。

综上所示,本发明采用一种基于细粒度话题探测的台风灾情态势感知方法及装置,在细粒度级别上识别与灾害相关的主题,避免了人工标注的成本高和效率低的问题;本发明中细粒度主题提取包括词向量映射、语义图构建、主题检测和关键词识别;本发明词向量映射采用Word2vec对文本进行词嵌入处理,将语料库中的单词映射成为特定分布式词特征向量,使得具有相似含义的单词具有相似表示,在降低特征维度的同时能够保存单词之间上下文关系,有效表达文本中蕴含的语义信息;本发明主题检测通过对语义图中话题社区的发现,实现潜在主题无监督识别;本发明关键词识别能够对挖掘得到的主题进行代表性表示,赋予准确的主题标签,能够有效表征主题间的差异性、区分和揭示不同灾害主题,本发明通过细粒度主题提取,以识别社交媒体中蕴含的精细化灾情相关主题,进而提高决策者利用社交媒体对灾情信息的感知能力,能够迅速进行灾情响应及灾情援助,且不会导致部分类别信息丢失。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 基于态势感知的电网数据处理方法和装置
  • 一种基于风险评估的网络安全态势感知方法
  • 一种基于微博话题热度的台风灾害灾情分析方法
  • 一种基于微博话题热度的台风灾害灾情分析方法
技术分类

06120115615189