掌桥专利:专业的专利平台
掌桥专利
首页

一种细粒度电子商务数据挖掘方法及系统

文献发布时间:2024-04-18 19:57:50


一种细粒度电子商务数据挖掘方法及系统

技术领域

本发明属于数据挖掘技术领域,具体涉及一种细粒度电子商务数据挖掘方法及系统。

背景技术

用户在网络空间发表评论和表达意见的行为被称为电子口碑。越来越多的消费者在做出购买决策时依赖电子口碑。因此,电子口碑的重要性促使企业努力了解用户在评论中的意见,以提高用户对产品的满意度。

随着互联网的蓬勃发展,互联网用户不再仅仅是被动地接收信息,而是开始主动创造互联网内容。与此同时,电子商务的快速崛起改变了人们的购物习惯,使得越来越多的人开始在网上购物。这导致了产品评论信息数量的迅速增长,这些海量信息对于产品改进和消费者做出购物选择都具有巨大价值。然而,人工处理海量数据是不科学的,因此迫切的需要评论挖掘技术对文本信息中包含的问题短句进行提取、聚类和可视化。

现有技术存在不足之处:

1)获取的问题短语粒度较大,只对高等级的词汇做出分析判断,这类方法直接忽略了句中细粒度的信息,造成大量信息丢失,导致商家不能充分理解评论文本中包含的信息,导致评论文本的参考价值低;

2)商品的种类繁多,人工为文本进行标注的人力成本投入大,效率低下。

发明内容

为了解决现有技术存在的评论文本的参考价值低、人力成本投入大以及效率低下的问题,本发明目的在于提供一种细粒度电子商务数据挖掘方法及系统。

本发明所采用的技术方案为:

一种细粒度电子商务数据挖掘方法,包括如下步骤:

构建问题短语提取模型和主题聚类模型;

获取电子商务网站不同商品的若干实时商品评论数据,并对若干实时商品评论数据进行预处理,得到预处理后实时商品评论数据集;

将预处理后实时商品评论数据集输入问题短语提取模型,进行问题短语提取,得到实时商品评论数据对应的若干实时问题短语;

将若干实时问题短语输入主题聚类模型,进行主题聚类,得到不同商品对应的若干实时主题聚合;

对若干实时主题聚合进行统计和可视化展示,得到不同主题的实时可视化结果;

对不同主题的实时可视化结果进行分析,获取电子商务网站对应的用户满意度提升方案。

进一步地,构建问题短语提取模型和主题聚类模型,包括如下步骤:

获取电子商务网站不同商品的若干历史商品评论数据,并对若干历史商品评论数据进行预处理,得到预处理后历史商品评论数据集;

将自注意力模型和双向编码器进行融合,得到混合网络;

使用预处理后历史商品评论数据集,对混合网络进行优化训练,得到问题短语提取模型和若干历史问题短语;

使用若干历史问题短语,对预训练模型进行优化训练,得到主题聚类模型。

进一步地,问题短语提取模型基于Attention-BERT算法构建;

主题聚类模型基于BERTopic算法构建。

进一步地,问题短语提取模型包括依次连接的第一输入层、特征融合层、MLP层、CRF层以及第一输出层;

主题聚类模型包括依次连接的第二输入层、嵌入层、降维层、聚类层以及第二输出层。

进一步地,实时/历史商品评论数据的数据种类包括商品类别、用户评论以及用户评级信息;

预处理包括对实时/历史商品评论数据依次进行的格式转换、数据筛选以及数据脱敏。

进一步地,将预处理后实时商品评论数据集输入问题短语提取模型,进行问题短语提取,得到实时商品评论数据对应的若干实时问题短语,包括如下步骤:

使用问题短语提取模型的第一输入层接收预处理后实时商品评论数据集;

使用问题短语提取模型的特征融合层,对预处理后实时商品评论数据集进行特征融合,得到评论向量;

使用问题短语提取模型的MLP层对评论向量进行序列标注概率计算,得到序列标注概率向量;

使用问题短语提取模型的CRF层对序列标注概率向量进行标签序列添加,得到预测标签序列;

根据预测标签序列,使用问题短语提取模型的第一输出层进行问题短语提取,得到实时商品评论数据对应的若干实时问题短语。

进一步地,将若干实时问题短语输入主题聚类模型,进行主题聚类,得到不同商品对应的若干实时主题聚合,包括如下步骤:

使用主题聚类模型的第二输入层接收若干实时问题短语;

使用主题聚类模型的嵌入层对若干实时问题短语进行嵌入,得到对应的若干实时关键句子;

使用主题聚类模型的降维层对若干实时关键句子进行降维,得到对应的若干实时关键短语;

使用主题聚类模型的聚类层对若干实时关键短语进行聚类,得到若干实时关键短语聚合;

使用主题聚类模型的第二输出层对若干实时关键短语聚合进行主题提取,得到若干实时主题聚合。

进一步地,对若干实时主题聚合进行统计和可视化展示,得到不同主题的实时可视化结果,包括如下步骤:

对当前实时主题聚合中所有主题出现的次数和平均分进行统计,得到每个主题的出现次数和平均分;

将出现次数和平均分均超过阈值的主题进行可视化,得到当前实时主题聚合的实时可视化结果;

遍历所有实时主题聚合,得到不同主题的实时可视化结果。

一种细粒度电子商务数据挖掘系统,用于实现细粒度电子商务数据挖掘方法,系统包括数据爬取模块、数据预处理模块、模型构建模块、问题短语提取模块、主题聚类模块、可视化展示模块以及提升方案获取模块,数据爬取模块、数据预处理模块、问题短语提取模块、主题聚类模块、可视化展示模块以及提升方案获取模块依次连接,模型构建模块分别与数据预处理模块、问题短语提取模块以及主题聚类模块连接;

数据爬取模块,用于电子商务网站不同商品的若干实时/历史商品评论数据;

数据预处理模块,用于对若干实时/历史商品评论数据进行预处理,得到预处理后实时/历史商品评论数据集;

模型构建模块,用于根据预处理后历史商品评论数据集,构建问题短语提取模型和主题聚类模型,并将问题短语提取模型发送至问题短语提取模块,将主题聚类模型发送至主题聚类模块;

问题短语提取模块,用于将预处理后实时商品评论数据集输入问题短语提取模型,进行问题短语提取,得到实时商品评论数据对应的若干实时问题短语;

主题聚类模块,用于将若干实时问题短语输入主题聚类模型,进行主题聚类,得到不同商品对应的若干实时主题聚合;

可视化展示模块,用于对若干实时主题聚合进行统计和可视化展示,得到不同主题的实时可视化结果;

提升方案获取模块,用于对不同主题的实时可视化结果进行分析,获取电子商务网站对应的用户满意度提升方案。

本发明的有益效果为:

本发明提供的一种细粒度电子商务数据挖掘方法及系统,使用问题短语提取模型和主题聚类模型从商品评论数据中获取、聚类和可视化问题短语,降低了人力成本投入,提高了数据挖掘的效率;得到的问题短语,保留了商品评论数据句中细粒度的信息,提高了商品评论数据的参考价值,有助于商家了解用户所关注的内容,并及时提供改进建议;不仅使用用户评论文本数据,还对评论发布者的个人信息(如情绪状态)和产品信息进行充分利用,将信息进行细粒度的分析;自动获取的用户满意度提升方案让商家按照不同的类别和情感倾向对商品进行改善,提升用户满意度,提高了实用性。

本发明的其他有益效果将在具体实施方式中进一步进行说明。

附图说明

图1是本发明中细粒度电子商务数据挖掘方法的流程框图。

图2是本发明中细粒度电子商务数据挖掘系统的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1:

如图1所示,本实施例提供一种细粒度电子商务数据挖掘方法,包括如下步骤:

S1:构建问题短语提取模型和主题聚类模型,包括如下步骤:

S1-1:获取电子商务网站(例如京东、淘宝等)不同商品的若干历史商品评论数据,并对若干历史商品评论数据进行预处理,得到预处理后历史商品评论数据集;

历史商品评论数据的数据种类包括商品类别、用户评论以及用户评级信息;预处理包括对历史商品评论数据依次进行的格式转换、数据筛选以及数据脱敏,包括去除重复数据、去除重复词、替换数字、日期和品牌等敏感数据,并转换成JSON文件方便后续的处理,预处理有助于提高数据的质量,避免无关因素的影响,提高模型训练的效率和模型的准确性;

S1-2:将自注意力模型和双向编码器进行融合,得到混合网络;

S1-3:使用预处理后历史商品评论数据集,对混合网络进行优化训练,得到问题短语提取模型和若干历史问题短语;

问题短语提取模型基于Attention-BERT算法构建,问题短语提取模型包括依次连接的第一输入层、特征融合层、多层感知机(Multilayer Perceptron,MLP)层、条件随机场(conditional random field,CRF)层以及第一输出层;

问题短语提取模型将商品评论数据进行融合,学习各个商品评论数据的数据特征,后续通过运用序列标注结构,以文本语义段为基本单元,文本语义段表示为一个评论,提取用户在商品评论数据中表达的问题短语,为后续聚类和可视化做基础;

S1-4:使用若干历史问题短语,对预训练模型进行优化训练,得到主题聚类模型;

主题聚类模型基于BERTopic算法构建,主题聚类模型包括依次连接的第二输入层、嵌入层、降维层、聚类层以及第二输出层;

S2:获取电子商务网站不同商品的若干实时商品评论数据,并对若干实时商品评论数据进行预处理,得到预处理后实时商品评论数据集;

实时商品评论数据的数据种类包括商品类别、用户评论以及用户评级信息;预处理包括对实时商品评论数据依次进行的格式转换、数据筛选以及数据脱敏;

S3:将预处理后实时商品评论数据集输入问题短语提取模型,进行问题短语提取,得到实时商品评论数据对应的若干实时问题短语,包括如下步骤:

S3-1:使用问题短语提取模型的第一输入层接收预处理后实时商品评论数据集;

S3-2:使用问题短语提取模型的特征融合层,对预处理后实时商品评论数据集进行特征融合,得到评论向量,公式为;

x

式中,x

S3-3:使用问题短语提取模型的MLP层对评论向量进行序列标注概率计算,得到序列标注概率向量;

p=f(x

式中,p为序列标注概率向量;f()为序列标注概率计算函数;

S3-4:使用问题短语提取模型的CRF层对序列标注概率向量进行标签序列添加,得到预测标签序列;

S3-5:根据预测标签序列,使用问题短语提取模型的第一输出层进行问题短语提取,得到实时商品评论数据对应的若干实时问题短语;

使用混合的神经网络辅以条件随机场作为问题短语提取模型基础结构,模型使用商品类别向量、评论文本向量以及评论评级向量作为问题短语提取模型的输入特征,混合的神经网络选用BERT模型(MLP层)作为基础架构,再使用Attention机制对输入向量进行细粒度融合(特征融合层);

S4:将若干实时问题短语输入主题聚类模型,进行主题聚类,得到不同商品对应的若干实时主题聚合,包括如下步骤:

S4-1:使用主题聚类模型的第二输入层接收若干实时问题短语;

S4-2:使用主题聚类模型的嵌入(sentence-transformers)层对若干实时问题短语进行嵌入,得到对应的若干实时关键句子;

S4-3:使用主题聚类模型的降维层对若干实时关键句子进行降维,得到对应的若干实时关键短语;降维层为统一流形逼近与投影工具UMAP,(UMAP,UniformManifoldApproximationandProjection)

S4-4:使用主题聚类模型的聚类层对若干实时关键短语进行聚类,得到若干实时关键短语聚合;聚类层为HDBSCAN算法模块;

S4-4:使用主题聚类模型的第二输出层对若干实时关键短语聚合进行主题提取,得到若干实时主题聚合,具体的,第二输出层使用c-TF-IDF算法从关键短语中衍生出主题,并根据c-TF-IDF评分选择前4个关键词(少于4个则选择所有关键词),公式为:

式中,c-TF-IDF

S5:对若干实时主题聚合进行统计和可视化展示,得到不同主题的实时可视化结果,包括如下步骤:

S5-1:对当前实时主题聚合中所有主题出现的次数和平均分进行统计,得到每个主题的出现次数和平均分;

S5-2:将出现次数和平均分均超过阈值的主题进行可视化,得到当前实时主题聚合的实时可视化结果;不同类别的商品具有不同的问题,即使相同类别的商品,也会有不同的问题,所以应该给予不同的关注度,对主题出现的次数和平均分进行统计,根据这两个指标进行判断,便于对商品的不同方面进行改善;

S5-3:遍历所有实时主题聚合,得到不同主题的实时可视化结果;

S6:对不同主题的实时可视化结果进行分析,获取电子商务网站对应的用户满意度提升方案。

实施例2:

如图2所示,本实施例提供一种细粒度电子商务数据挖掘系统,用于实现细粒度电子商务数据挖掘方法,系统包括数据爬取模块、数据预处理模块、模型构建模块、问题短语提取模块、主题聚类模块、可视化展示模块以及提升方案获取模块,数据爬取模块、数据预处理模块、问题短语提取模块、主题聚类模块、可视化展示模块以及提升方案获取模块依次连接,模型构建模块分别与数据预处理模块、问题短语提取模块以及主题聚类模块连接;

数据爬取模块,用于电子商务网站不同商品的若干实时/历史商品评论数据;

数据预处理模块,用于对若干实时/历史商品评论数据进行预处理,得到预处理后实时/历史商品评论数据集;

模型构建模块,用于根据预处理后历史商品评论数据集,构建问题短语提取模型和主题聚类模型,并将问题短语提取模型发送至问题短语提取模块,将主题聚类模型发送至主题聚类模块;

问题短语提取模块,用于将预处理后实时商品评论数据集输入问题短语提取模型,进行问题短语提取,得到实时商品评论数据对应的若干实时问题短语;

主题聚类模块,用于将若干实时问题短语输入主题聚类模型,进行主题聚类,得到不同商品对应的若干实时主题聚合;

可视化展示模块,用于对若干实时主题聚合进行统计和可视化展示,得到不同主题的实时可视化结果;可视化展示模块通过以简明、友好、容易交互的方式向商家展示细粒度用户评论挖掘的结果,所述评价观点抽取模块基于混合模型的序列标注网络来进行提取,以文本语义段为基本单元,通过序列标注网络来提取评论中的问题短语,不同类别的商品包含主题,不同的主题关注度也不同,可视化展示模块通过对不同主题进行展示,表达对于不同主题的差异性;

提升方案获取模块,用于对不同主题的实时可视化结果进行分析,获取电子商务网站对应的用户满意度提升方案。

本发明提供的一种细粒度电子商务数据挖掘方法及系统,使用问题短语提取模型和主题聚类模型从商品评论数据中获取、聚类和可视化问题短语,降低了人力成本投入,提高了数据挖掘的效率;得到的问题短语,保留了商品评论数据句中细粒度的信息,提高了商品评论数据的参考价值,有助于商家了解用户所关注的内容,并及时提供改进建议;不仅使用用户评论文本数据,还对评论发布者的个人信息(如情绪状态)和产品信息进行充分利用,将信息进行细粒度的分析;自动获取的用户满意度提升方案让商家按照不同的类别和情感倾向对商品进行改善,提升用户满意度,提高了实用性。

本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

相关技术
  • 一种细粒度车型识别系统及方法
  • 一种问题细粒度分类方法、系统与装置
  • 基于人工智能的电子商务大数据挖掘方法及电子商务系统
  • 适于电子商务的业务操作行为大数据挖掘方法及系统
技术分类

06120116467202