掌桥专利:专业的专利平台
掌桥专利
首页

一种基于数据挖掘的智慧交通安全舆情热度评估方法

文献发布时间:2023-06-19 19:28:50


一种基于数据挖掘的智慧交通安全舆情热度评估方法

技术领域

本发明涉及数据挖掘技术领域,尤其涉及一种基于数据挖掘的智慧交通安全舆情热度评估方法。

背景技术

随着社交媒体和计算机技术的快速发展,以社交软件为载体的舆论传播途径也受到越来越多用户青睐。近年来,数字经济赋能交通运输,交通运输行业与其他行业深度融合,智慧交通发展迅猛,但智慧交通安全问题难以忽略。突发事件发生后,不同受众产生不同的态度和行为,随着用户关系网络的传播不断发生交流并产生共鸣,事件信息更加丰富完备,在社交软件上形成广泛传播的舆论。

为有效估计受众对交通安全相关主题的讨论热度,国内外各方学者提出了热度计算模型。当前热度计算模型目前分为两类:单因素主题热度模型和多因素主题热度模型。其中,单因素主题热度模型通常直接用单一信息传播特征评估主题热度,如主题评论数、主题词出现的频次、主题相关微博数等。2020年杨秀璋仅考虑主题评论数估计主题热度,挖掘受众关注的热点话题。2022年崔海燕则考虑主题词在某个时间段出现的频次估计主题热度。虽然信息传播特征均与主题热度紧密相关,但单一信息传播特征不能完全等价于主题热度。考虑相关话题的信息传播特征度量话题热度,如微博数、转发数、评论数、点赞数等定量指标进行加权处理,得到线性的热度计算公式。考虑博主间接用户关系网络信息的影响,并设计融合传播深度与传播广度的微博热度计算方式,实现微博热度预测任务。

随着最热主题识别研究的不断深入,许多主题热度模型的研究数据已从单源数据逐渐向多元数据扩展。但将多源数据分析应用于主题热度估计的研究较少,且现有的主题热度估计研究多为单变量输入,忽视了主题特征变量与主题热度之间的关联。

发明内容

本发明的目的是为了解决现有技术中的舆情监控系统的无法实现舆情主题热度的自动评估问题,及传统主题热度模型未考虑情感因素对舆情主题热度值大小的影响的问题,而提出的一种基于数据挖掘的智慧交通安全舆情热度评估方法。

本发明为实现上述发明目的,采取的技术方案如下:

一种基于数据挖掘的智慧交通安全舆情热度评估方法,包括以下步骤:

S1、获取智慧交通安全舆情数据;

S2、预处理智慧交通安全舆情数据;

S3、利用LDA主题模型进行智慧交通安全舆情主题提取;

S4、利用LSTM神经网络模型预测各主题下的文本情感;

S5、构建多因素主题热度模型并识别最热主题。

进一步地,所述步骤S1具体包括以下步骤:

S1.1、在社交软件搜索框中搜索关于“智慧交通安全”的话题,获取对应内容的网络链接url;

S1.2、利用Python工具,引入requests模块并封装网络链接url,向服务器请求数据Data;

S1.3、将Data封装为json数据,并定义为Data_json;

S1.4、获取Data_json数据集中“智慧交通安全”话题下的舆论内容;

S1.5、引入BeautifulSoup模块,将抓取的舆论内容解析为对象进行处理,共爬取了b

S1.6、得到原始舆情数据集Text和基变量数据集Number,其中基变量主要包括:评论文本的单篇评论量、单篇转发量、单篇点赞量和用户等级。

进一步地,所述步骤S2具体包括以下步骤:

S2.1、定义原始舆情数据集Text和基变量数据集Number,即:

Text={text

Number={number

number

其中text

S2.2、判断下标i是否满足i≤b

S2.3、对原始舆情数据集Text进行数据清洗,读取text

S2.4、建立停用表S,删除text

S2.5、得到清洗后的舆情数据集CText和基变量数据集CNumber,即:

CText={ctext

CNumber={cnumber

cnumber

其中,ctext

S2.6、利用jieba分词工具对ctext

S2.7、定义ctext

S2.8、导入停用表S;

S2.9、判断下标i是否满足i≤b

S2.10、判断下标j是否满足j≤m

S2.11、判断关键词w

S2.12、得到关键词表Key,定义

进一步地,所述步骤S3具体包括以下步骤:

S3.1、确定主题个数搜索范围为5-30个;

S3.2、利用暴力搜索方法,计算不同主题数对应的“主题困惑度”和“主题一致性”两个指标值;

S3.3、根据“主题困惑度”低和“主题一致性”高的一致性原则,确定最优主题数为Theme;

S3.4、循环遍历关键词表Key,利用余弦相似度计算关键词表Key中任意两文本之间的相似度,相似度高的文本被划分为同一主题;

S3.5、获得Theme个主题-评论数据集Ttext

其中,Ttext

进一步地,所述步骤S4具体包括以下步骤:

S4.1、利用SnowNLP算法计算每条评论文本ctext

S4.2、得到一个文本-情感数据集Sentiment,即:

Sentiment={Sentiment

Sentiment

其中,Sentiment

S4.3、将情感数据集Sentiment中80%的情感评分数据作为LSTM神经网络模型的训练集,20%的情感评分数据作为测试集,预测每条评论文本ctext

S4.4、得到一个新的文本-情感数据集CSentiment,即:

CSentiment={CSentiment

CSentiment

其中,CSentiment

进一步地,所述步骤S5具体包括以下步骤:

S5.1、结合基变量数据集Number和情感数据集CSentiment,根据用户等级l

S5.2、判断下标i是否满足i≤b

S5.3、判断每条评论文本的用户等级l

S5.4、发布者为会员用户,赋权重0.7,并转至步骤S5.2,即:

R

M

G

S

S5.5、发布者为普通用户,赋权重0.3,并转至步骤S5.2,即:

R

M

G

S

S5.6、根据第t个主题的评论集Ttext

W={W

(k=1,2,…,a

其中,W

S5.7、判断下标t是否满足t≤Theme;如果满足t≤Theme,则转至S5.8,否则转至S5.10;

S5.8、计算每个主题下单篇转发量、单篇评论量、单篇点赞量和情感评分的平均值,即:

其中,

S5.9、为各主题下平均单篇转发量

其中,H

S5.10、对Theme个主题的热度值H

S5.11、确定热度值最大的前2个主题为最热主题。

本发明采用的公式符号含义说明如表1所示:

表1中符号含义说明

/>

与现有技术相比,本发明的有益效果为:

(1)本发明在传统主题热度模型的基础上,提出一个新的多因素主题热度模型,该模型额外考虑了情感倾向信息,然后将由SnowNLP算法计算所得的情感评分用于训练LSTM神经网络模型,同时本发明模型额外考虑的情感因素是LSTM神经网络模型预测所得,体现了情感对主题热度的影响。

(2)与传统主题热度模型相比,本发明的多因素主题热度模型综合考虑主题评论量、单篇转发量、单篇评论量、单篇点赞量及情感评分5个指标,根据不同用户等级为单篇转发量、单篇评论量、单篇点赞量及情感评分四个指标设置权重,同时还为这四个指标设置不同权重计算主题热度,进而更好地体现出不同指标对主题的影响力,有效挖掘并分析交通安全社交软件舆情主题,帮助企业了解外部环境、把握市场商机,帮助政府了解社情民意,为早报告、早响应提供先机。

(3)本发明从多源数据视角进行最热主题识别,对传统的单变量主题热度模型及多因素主题热度模型进行改进,充分考虑主题评论量、单篇转发量、单篇评论量、单篇点赞量及情感评分五个指标,结合多源数据计量指标多变量进行加权处理,从而建立新型多因素主题热度模型,更好地了解智慧交通安全相关主题的未来发展趋势。

附图说明

图1为本发明提出一种基于数据挖掘的智慧交通安全舆情热度评估方法的流程图。

图2为本发明提出一种基于数据挖掘的智慧交通安全舆情热度评估方法的“获取智慧交通安全舆情数据”流程图。

图3为本发明提出一种基于数据挖掘的智慧交通安全舆情热度评估方法的“预处理智慧交通安全舆情数据”流程图。

图4为本发明提出一种基于数据挖掘的智慧交通安全舆情热度评估方法的“利用LDA主题模型进行智慧交通安全舆情主题提取”流程图。

图5为本发明提出一种基于数据挖掘的智慧交通安全舆情热度评估方法的“利用LSTM神经网络模型预测各主题下的文本情感”流程图。

图6为本发明提出一种基于数据挖掘的智慧交通安全舆情热度评估方法的“构建多因素主题热度模型并识别最热主题”流程图。

具体实施方式

下面结合附图详细的描述本发明的作进一步的解释说明,以使本领域的技术人员可以更深入地理解本发明并能够实施,但下面通过参考实例仅用于解释本发明,不作为本发明的限定。

如图1所示,本实施例提供了一种基于数据挖掘的智慧交通安全舆情热度评估方法,包括以下步骤:S1:获取智慧交通安全舆情数据;S2:预处理智慧交通安全舆情数据;S3:利用LDA主题模型进行智慧交通安全舆情主题提取;S4:利用LSTM神经网络模型预测各主题下的文本情感;S5:构建多因素主题热度模型并识别最热主题。

如图2所示,步骤S1具体包括以下步骤:

S1.1、在社交软件搜索框中搜索关于“智慧交通安全”的话题,获取对应内容的网络链接url;

S1.2、利用Python工具,引入requests模块并封装网络链接url,向服务器请求数据Data;

S1.3、将Data封装为json数据,并定义为Data_json;

S1.4、获取Data_json数据集中“智慧交通安全”话题下的舆论内容;

S1.5、引入BeautifulSoup模块,将抓取的舆论内容解析为对象进行处理,共爬取了10000条关于“智慧交通安全”的评论文本数据;

S1.6、得到原始舆情数据集Text和基变量数据集Number,其中基变量主要包括:评论文本的单篇评论量、单篇转发量、单篇点赞量和用户等级。

如图3所示,步骤S2具体包括以下步骤:

S2.1、定义原始舆情数据集Text和基变量数据集Number,即:

Text={text

Number={number

number

其中text

S2.2、判断下标i是否满足i≤10000;如果满足i≤10000,则转至S2.3,否则转至S2.5;

S2.3、对原始舆情数据集Text进行数据清洗,读取text

S2.4、建立停用表S,删除text

S2.5、得到清洗后的舆情数据集CText和基变量数据集CNumber,即:

CText={ctext

CNumber={cnumber

cnumber

其中,ctext

S2.6、利用jieba分词工具对ctext

S2.7、定义ctext

S2.8、导入停用表S;

S2.9、判断下标i是否满足i≤9823;如果满足i≤9823,则转至S2.10,否则转至S2.12;

S2.10、判断下标j是否满足j≤m

S2.11、判断关键词w

S2.12、得到关键词表Key,定义Key={key

如图4所示,步骤S3具体包括以下步骤:

S3.1、确定主题个数搜索范围为5-30个;

S3.2、利用暴力搜索方法,计算不同主题数对应的“主题困惑度”和“主题一致性”两个指标值;

S3.3、根据“主题困惑度”低和“主题一致性”高的一致性原则,确定最优主题数为16;

S3.4、循环遍历关键词表Key,利用余弦相似度计算关键词表Key中任意两文本之间的相似度,相似度高的文本被划分为同一主题;

S3.5、获得16个主题-评论数据集Ttext

其中,Ttext

如图5所示,步骤S4具体包括以下步骤:

S4.1、利用SnowNLP算法计算每条评论文本ctext

S4.2、得到一个文本-情感数据集Sentiment,即:

Sentiment={Sentiment

Sentiment

其中,Sentiment

S4.3、将情感数据集Sentiment中80%的情感评分数据作为LSTM神经网络模型的训练集,20%的情感评分数据作为测试集,预测每条评论文本ctext

S4.4、得到一个新的文本-情感数据集CSentiment,即:

CSentiment={CSentiment

CSentiment

其中,CSentiment

如图6所示,步骤S5具体包括以下步骤:

S5.1、结合基变量数据集Number和情感数据集CSentiment,根据用户等级l

S5.2、判断下标i是否满足i≤9823;如果满足i≤9823,则转至S5.3,否则转至S5.6;

S5.3、判断每条评论文本的用户等级l

S5.4、发布者为会员用户,赋权重0.7,并转至步骤S5.2,即:

R

M

G

S

S5.5、发布者为普通用户,赋权重0.3,并转至步骤S5.2,即:

R

M

G

S

S5.6、根据第t个主题的评论集Ttext

W={W

(k=1,2,…,a

其中,W

S5.7、判断下标t是否满足t≤Theme;如果满足t≤Theme,则转至S5.8,否则转至S5.10;

S5.8、计算每个主题下单篇转发量、单篇评论量、单篇点赞量和情感评分的平均值,即:

其中,

S5.9、为各主题下平均单篇转发量

其中,H

S5.10、对16个主题的热度值H

S5.11、确定热度值最大的前2个主题“智能驾驶安全”和“网联信息安全”为最热主题。

本实施中公式的符号含义说明如表1所示:

表1符号含义说明

/>

本实施例提供了一种基于数据挖掘的智慧交通安全舆情热度评估方法,在传统主题热度模型的基础上,提出一个新的多因素主题热度模型,该模型额外考虑了由LSTM神经网络模型预测所得的情感因素,根据不同用户等级为单篇转发量、单篇评论量、单篇点赞量及情感评分四个指标设置权重。同时还充分考虑这四个指标对热度的影响,为其分别设置不同的权重计算主题热度,进而有效挖掘并分析交通安全社交软件舆情主题,帮助企业了解外部环境、把握市场商机,帮助政府了解社情民意,为早报告、早响应提供先机。

以上所述的具体实施方案,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,所应理解的是,以上所述仅为本发明的具体实施方案而已,并非用以限定本发明的范围,任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所做出的等同变化与修改,均应属于本发明保护的范围。

技术分类

06120115926807