掌桥专利:专业的专利平台
掌桥专利
首页

一种基于数据挖掘的环境风险感知评价方法

文献发布时间:2023-06-19 09:58:59


一种基于数据挖掘的环境风险感知评价方法

技术领域

本发明涉及环境风险感知评价技术领域,具体涉及一种基于数据挖掘的环 境风险感知评价方法。

背景技术

媒体对环境污染信息的不断披露和公众健康意识的日益增强,促使越来越 多的公众感知到环境风险。环境风险感知是公众对环境风险特征、环境保护的 重要性和紧迫性以及人与环境关系的认识。公众的环境保护行为取决于他们感 知到的环境风险。研究公众的环境风险感知对引导公众做出正确的风险感知判 断,激发公众保护环境的紧迫感和责任感,鼓励环境保护行为,提高环境风险 管理政策的合理性和适用性均具有重要现实意义。目前对公众环境风险感知进 行评价主要采用问卷调查、深度访谈和现场调研等定性研究方法,存在主观性 强、随机误差大等问题,且研究空间尺度较小,无法满足整体性评估要求。对 公开环境指标进行统计的定量研究方法,存在信息量小,时效低,对风险感知 有显著放大等不足,也无法对大尺度的公众风险感知进行精确量化和评价。

利用大数据挖掘与分析方法对环境风险感知进行量化,以表征公众的风险 感知程度,是实现环境风险感知评价的一项关键技术方法。实施该方法的关键 在于对海量环境风险感知数据的挖掘与清洗,现有的方法主要包括:统计公众 环境纠纷诉讼量或公众对环境问题的关注度等可公开获得的管理大数据,如公 众环境信访投诉量、来访人数或来访人次、报刊关于环境问题的报道数量等, 存在信息量不足、时效性低下等问题,不能切实反映公众的环境风险感知程度。

发明内容

针对现有技术中的上述不足,本发明提供了一种基于数据挖掘的环境风险 感知评价方法。

为了达到上述发明目的,本发明采用的技术方案为:

一种基于数据挖掘的环境风险感知评价方法,包括以下步骤:

S1、获取公众大气环境风险感知数据源;

S2、设定公众大气环境风险感知关键词,从步骤S1获取的数据源中挖掘并 整合与关键词对应的文本数据;

S3、对步骤S2挖掘的文本数据进行数据清洗和预处理;

S4、采用LDA主题模型将文本数据中的每一篇文档分解成多个主题及对应 的关键词,并统计关键词的频数;

S5、采用TF-IDF算法对步骤S4提取的关键词进行赋权,对每一篇公众大 气环境风险感知文档进行综合评分,得到对应公众大气环境风险感知程度。

本方案的有益效果是:首先从海量的公众环境诉求数据中快速挖掘出与公 众环境风险感知相关的文本信息,并采用数据清洗和预处理方法去除与环境质 量无关的文本数据,再基于非监督及学习技术进行关键词检索,最后采用TF-IDF 算法对投诉文本进行综合评分,能够有效识别公众高度关注的环境健康影响因 素,提高公众环境风险感知程度评价的时效性和准确性。

进一步地,所述步骤S4具体包括以下分步骤:

S41、获取步骤S3预处理后的文本数据,并设定LDA主题模型参数;

S42、判断LDA主题模型参数是否满足设定条件;若是,则进行步骤S43; 否则返回步骤S31重新设定;

S43、随机选取一篇文档为其中每个关键词分配一个主题;

S44、判断是否还有未选取的文档;若是,则返回步骤S43;否则进行步骤 S45;

S45、计算该文档中第K个主题的关键词总数和第K个主题在所有文档中生 成的第i个关键词的总数;

S46、去掉当前关键词i的主题,并根据该文档中其它关键词的主题计算当 前关键词被赋予各个主题的概率;

S47、根据第i个关键词的主题概率分布为该关键词采用一个新的主题;

S48、判断是否还有未处理的文档;若是,则返回步骤S45;否则进行步骤 S49;

S49、判断主题概率分布和关键词概率分布是否收敛;若是,则保持主题概 率分布和关键词概率分布;否则返回步骤S45。

该进一步方案的有益效果是:在一篇文档中,首先以一定概率选择某个主 题,在这个主题下以一定概率选出一个关键词,不断重复该过程,可获得不同 主题涵盖的关键词及其相应词频数,为公众环境风险感知分析提供了基础语料 库。

进一步地,所述步骤S5具体包括以下分步骤:

S51、采用TF-IDF算法对步骤S4提取的关键词进行赋权;

S52、根据每篇文档的主题及对应关键词,结合各关键词的权重,选取每个 主题及包含的权重排序前设定数量的关键词;

S53、设定主题为二级指标,关键词为三级指标,根据主题所包含关键词的 词性特征,采用文本分类法对所有主题进行分类,得到一级指标;

S54、采用文本检索法对一级指标和二级指标进行评分;

S55、根据步骤S54得到的的评分值,采用熵值法对一级指标和二级指标进 行赋权;

S56、采用迭置指数法对包含文档的文本数据进行评分。

该进一步方案的有益效果是:采用TF-IDF算法对提取的关键词进行赋权, 为后续公众环境风险感知程度评价中一级指标评分值的确定提供各二级指标的 权重值。

更进一步地,所述TF-IDF算法计算关键词权重的计算公式为:

TF

其中,TF

该更进一步方案的有益效果是:以某一个给定词语在文件中的出现频率与 该词语相对于文档的重要程度的乘积,表示该字词对于一个文件集或语料库中 其中一份文件的重要程度。同时考虑了字词在文件中的出现频率和其相对于文 件的重要程度,为公众环境风险感知程度评价确定了准确的关键词权重。

更进一步地,所述一级指标包括环境风险事实感知、生活安全感知、诉求 还原感知、身心健康感知、利益主体感知;

所述二级指标包括环境改变、企业行为、直观感受、时间感知、空间感知、 整改措施、投诉部门、自身健康、家人健康、心理感受、个体利益感知和群体 利益感知;

所述三级指标包括公众大气环境风险感知关键词。

该更进一步方案的有益效果是:基于LDA主题模型提取的主题类别,首先 对各主题进行特征分类,采用共现矩阵对不同感知维度的特征词汇进行分析, 进而从特征集中筛选重要特征指标,建立了普适性的公众风险感知指标体系, 提高了公众环境风险感知程度评价模型的准确性。

更进一步地,所述采用文本检索法对二级指标进行评分具体为:

将所有三级指标词汇作为基础检索词,在原始文本数据中进行检索,每出 现一次三级指标所代表的检索词,相应的二级指标记一分。

该更进一步方案的有益效果是:采用文本检索法在原始文本中对所有三级 指标涵盖的基础检索词进行逐一遍历检索,完备的基础检索词库及遍历检索方 法精准的确定了公众环境风险感知程度评价中的二级指标评分值。

更进一步地,所述采用文本检索法对一级指标进行评分具体为:

在每个一级指标下,将其所有二级指标的评分值与相应指标权重的加权平 均数作为该一级指标的评分值。

该更进一步方案的有益效果是:利用二级指标的评分值与相应指标权重确 定了公众环境风险感知程度评价中的一级指标评分值。

更进一步地,所述采用熵值法对一级指标和二级指标进行赋权具体包括以 下分步骤:

S551、对一级指标或二级指标的评分值进行归一化处理,表示为:

其中,f

S552、计算一级指标或二级指标归一化后的评分值的熵f

S553、计算一级指标或二级指标内在信息的发散度f

f

S554、计算一级指标或二级指标的熵权f

该更进一步方案的有益效果是:采用熵值法以原始数据差异大小为赋权依 据,减少了主观因素对各指标相对重要程度的影响,避免了主观判断的不确定 性,客观实际的确定了公众环境风险感知程度评价模型中的指标权重。

更进一步地,所述采用迭置指数法对包含文档的文本数据进行评分的计算 公式为:

其中,Z表示每一条文本数据的评分值,w

该更进一步方案的有益效果是:通过迭置指数法给每一条投诉文本进行评 分,综合考虑了各级指标相对于原始文本的重要程度,全面表征了各投诉文本 对应的公众环境风险感知程度。

附图说明

图1为本发明基于数据挖掘的环境风险感知评价方法流程示意图;

图2为本发明实施例中LDA主题模型的矩阵表示示意图;

图3为本发明实施例中LDA主题模型提取流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理 解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的 普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精 神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保 护之列。

如图1所示,本发明实施例提供了一种基于数据挖掘的环境风险感知评价 方法,包括以下步骤S1至S5:

S1、获取公众大气环境风险感知数据源;

在本实施例中,步骤S1主要进行语料选取,即选择能全面反映公众对环境 风险主观感受的原始语料数据源;具体而言,从一个或多个系统中获取所有与 大气环境问题相关的原始投诉文本,选定数据源。

例如,本发明以能全面反映公众对环境质量评价的人民网领导留言板作为 数据源,从中挖掘公众对大气环境质量相关的投诉文本数据。

S2、设定公众大气环境风险感知关键词,从步骤S1获取的数据源中挖掘并 整合与关键词对应的文本数据;

在本实施例中,步骤S2主要进行大数据挖掘,即利用大数据技术挖掘并整 合数据源文本中与所关注环境问题关键词相关的投诉文本信息;具体而言,在 选定数据源后,确定代表公众大气环境风险感知的关键词汇,在选定时间段条 件下,利用Python语言挖掘并整合数据源文本中与关键词相关的投诉文本。

例如,基于Python语言以“大气污染”、“大气质量”、“空气污染”、“空 气质量”为挖掘关键词,在领导留言板中挖掘并整合2015年至2019年期间与 上述大气环境质量相关关键词的投诉文本。

S3、对步骤S2挖掘的文本数据进行数据清洗和预处理;

在本实施例中,步骤S3主要数据清洗和预处理,即利用分词、去除停用词 及过滤中文符号去除与研究内容无关的文本数据;具体而言,通过对选定的投 诉文本内容进行中文分词,去除停用词及过滤中文符号来去除与研究内容无关 的文本数据。

其中中文分词具体为采用Python语言中的jieba分词函数库对原始文本进行 分词,同时添加与本领域相关的专用名词词典,实现词汇正确切分,输出关键 词并统计频数。

去除停用词及过滤中文符号具体为将连接词和无意义词汇组合成停用词词 表,过滤停用词。同时对获取到的词汇语料库进行中文符号过滤,输出纯文本 TXT词汇语料库。

S4、采用LDA主题模型将文本数据中的每一篇文档分解成多个主题及对应 的关键词,并统计关键词的频数;

在本实施例中,步骤S4主要进行LDA主题模型提取,即采用非监督及学 习技术对一篇具有多个主题及不同关键词的文档进行主题和关键词检索;具体 而言,基于非监督及学习技术,对一篇具有多个主题及不同关键词的文档进行 关键词检索,统计关键词频。

LDA主题模型包含文档、主题、词三层结构,从上到下依次包含文档集层、 主题层和特征词层。LDA主题模型将整个文档看成是文档词条矩阵,其可以分 解成文档主题矩阵和主题词条矩阵,三者之间的关系可以表示如图2所示。

其中文档词条矩阵表示每篇文档关于特征词的概率分布,文档主题矩阵表 示每篇文档关于主题的概率分布,主题词条矩阵表示每个主题关于特征词的概 率分布。设文本数据库中有M篇文档,K个主题,N

任意给定一组参数(α,β),LDA文档主题的生成过程为:

(1)对于第m篇文档,根据超参数α得到其主题分布θ

(2)从主题的多项式分布θ

(3)对于主题Z

(4)从特征词的多项式分布

如图3所示,步骤S4具体包括以下分步骤:

S41、获取步骤S3预处理后的文本数据,并设定LDA主题模型参数;

S42、判断LDA主题模型参数是否满足设定条件;若是,则进行步骤S43; 否则返回步骤S31重新设定;

S43、随机选取一篇文档为其中每个关键词分配一个主题;

S44、判断是否还有未选取的文档;若是,则返回步骤S43;否则进行步骤 S45;

S45、计算该文档中第K个主题的关键词总数和第K个主题在所有文档中生 成的第i个关键词的总数;

S46、去掉当前关键词i的主题,并根据该文档中其它关键词的主题计算当 前关键词被赋予各个主题的概率;

S47、根据第i个关键词的主题概率分布为该关键词采用一个新的主题;

S48、判断是否还有未处理的文档;若是,则返回步骤S45;否则进行步骤 S49;

S49、判断主题概率分布和关键词概率分布是否收敛;若是,则保持主题概 率分布和关键词概率分布;否则返回步骤S45。

本发明利用LDA主题模型将一篇文档分解成多个主题及对应的关键词, 统计所有关键词的频数。输出词频数排序前45的关键词,如表1所示.

表1、投诉文本中词频数排序前45的关键词统计表

S5、采用TF-IDF算法对步骤S4提取的关键词进行赋权,对每一篇公众大 气环境风险感知文档进行综合评分,得到对应公众大气环境风险感知程度。

在本实施例中,步骤S5主要进行指标权重确定及评分,即采用TF-IDF算 法对提取的关键词进行赋权并评分;具体而言,采用TF-IDF算法对提取的关键 词进行赋权,对每一条投诉文本进行综合评分,以表征对应公众的风险感知程 度。

步骤S5具体包括以下分步骤:

S51、采用TF-IDF算法对步骤S4提取的关键词进行赋权;

本发明采用TF-IDF算法对提取的关键词(即三级指标)进行赋权,表示某 一字词对于文档集或一个语料库中其中一份文档的重要程度。TF指某一给定词 语在该文档中的出现频率,IDF表示一个词语的普遍重要程度。TF-IDF算法计 算关键词权重的计算公式为:

TF

其中,TF

本发明通过对提取的关键词(即三级指标)进行指标权重确定及评分。输 出权重排序前45的关键词,如表2所示。

表2、投诉文本中权重排序前45的关键词统计表

S52、根据每篇文档的主题及对应关键词,结合各关键词的权重,选取每个 主题及包含的权重排序前设定数量的关键词;

本发明基于LDA主题模型提取的每篇文档的主题及对应关键词,结合各 关键词的权重,输出每个主题及包含的权重排序前6的关键词,如表3所示。

表3、主题及对应关键词表

S53、设定主题为二级指标,关键词为三级指标,根据主题所包含关键词的 词性特征,采用文本分类法对所有主题进行分类,得到一级指标;

本发明中三级指标包括公众大气环境风险感知关键词;二级指标根据对应 关键词的属性对主题进行概括描述得到,包括环境改变、企业行为、直观感受、 时间感知、空间感知、整改措施、投诉部门、自身健康、家人健康、心理感受、 个体利益感知和群体利益感知;一级指标包括环境风险事实感知、生活安全感 知、诉求还原感知、身心健康感知、利益主体感知。

本发明根据各主题所包含关键词的特征,采用文本分类法对所有主题进行 分类,输出不同感知维度(一级指标)及相应特征主题(二级指标)和对应的 关键词(三级指标),如表4所示。

表4、公众风险感知指标体系

S54、采用文本检索法对一级指标和二级指标进行评分,具体为:

将所有三级指标词汇作为基础检索词,在原始文本数据中进行检索,每出 现一次三级指标所代表的检索词,相应的二级指标记一分;

在每个一级指标下,将其所有二级指标的评分值与相应指标权重的加权平 均数作为该一级指标的评分值。

S55、根据步骤S54得到的的评分值,采用熵值法对一级指标和二级指标进 行赋权,具体包括以下分步骤:

S551、对一级指标或二级指标的评分值进行归一化处理,表示为:

其中,f

S552、计算一级指标或二级指标归一化后的评分值的熵f

S553、计算一级指标或二级指标内在信息的发散度f

f

S554、计算一级指标或二级指标的熵权f

S56、采用迭置指数法对包含文档的文本数据进行评分,计算公式为:

其中,Z表示每一条文本数据的评分值,w

本发明通过对上述指标体系中各级指标进行权重确定及评分,得到投诉文 本的评分值,即该文本对应的公众大气环境风险感知程度,如图表5所示。

表5、投诉文本评分表

本发明从海量的公众环境诉求数据中快速挖掘出与公众环境风险感知相关 的文本信息,并采用数据清洗和预处理方法去除与环境质量无关的文本数据, 为进一步识别公众高度关注的环境健康影响因素,量化公众环境风险感知程度 提供基础数据。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的 流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框 图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。 可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他 可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程 数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程 和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流 程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理, 从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程 或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上 实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领 域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有 改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理 解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和 实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种 不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明 的保护范围内。

相关技术
  • 一种基于数据挖掘的环境风险感知评价方法
  • 一种基于数据挖掘的产业化人员画像评价方法
技术分类

06120112378428