掌桥专利:专业的专利平台
掌桥专利
首页

一种小样本评论数据驱动的产品关键用户需求挖掘方法

文献发布时间:2023-06-19 18:37:28


一种小样本评论数据驱动的产品关键用户需求挖掘方法

技术领域

本发明属于数据挖掘技术领域,具体涉及一种产品关键用户需求挖掘方法。

背景技术

在现代市场激烈的竞争条件下,随着消费者的需求不断变化,新型产品也随之层出不穷。为了提高新型产品的竞争力,企业需要根据用户需求开展产品的迭代升级。随着互联网的发展,越来越多的用户在购物网站上发表评论意见,反馈关于产品的使用感受,这些评论最终产生了大量的文本,包含丰富的潜在可用信息,可以为产品迭代升级提供可靠信息来源。

用户评论数据的介入超越了有限样本统计预测和估计能达到的范围,通过用户评论的采集、管理和挖掘,能够有效地将用户的感性信息和需求量化,以此驱动产品的迭代创新,也为工业设计提供了新的模式和方法。从产品角度来看,“产品-评论数据-产品”的创新设计模式是将用户评论数据作为产品持续开发的依据,适合新型产品的迭代升级。新型产品的用户评论数据中隐藏的是用户隐性需求,在数据的驱动下,实现对关键需求的挖掘,推动产品新一轮的迭代升级。新一代产品可以持续性获得评论反馈数据,在动态的迭代循环中有效实现用户评论数据的价值。

现有的用户需求挖掘方法关注的是市场常见的产品,产品已经迭代数代,网络中存在大量用户评论用于挖掘用户需求。但是,由于新型产品投入市场时间不久、购买者基数不大等原因,不能提供庞大的数据来源,因此需要采取有效的方法分析小样本评论数据,挖掘关键用户需求,为新型产品的迭代升级提供参考。

获取用户需求的关键技术已经从传统方法逐渐转移到应用自然语言处理技术对用户评论文本进行分析。自然语言处理技术的发展,本质上是如何更准确地表征自然语言模型的不断进化。相关技术从机器学习发展深度学习的过程中,有学者将不同的自然语言处理技术进行改进或者结合,对用户评论语义进行更全面的学习和表达,进而引进到挖掘用户需求领域进行应用研究。

针对本发明所关注的新型产品迭代升级过程中的用户需求挖掘问题,新产品的网络用户评论数量有限,其本身可提供给机器进行学习的信息也有限。近几年新兴的预训练语言模型,在该方面表现出优势。通过提前在海量数据的基础上学习人类语言知识,然后迁移代入到具体任务,可实现从有限的用户评论数据中挖掘有价值的信息。与此同时,预训练语言模型在产品的用户需求挖掘领域的应用仍处于探索阶段,可做新的探索性尝试,从而辅助设计师和研发人员实现人机协同下的新型产品迭代设计。

发明内容

为了克服现有技术的不足,本发明提供了一种小样本评论数据驱动的产品关键用户需求挖掘方法,首先使用爬虫工具从电商网站中获取产品的用户评论,建立初始用户评论数据集;然后对初始用户评论数据集做预处理,得到产品用户评论数据集;接下来基于ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集;再对主题用户评论数据集进行二次处理;最后基于ISIFRank(Improved SIFRank)模型进行关键产品信息短语提取,建立关键用户需求集。本发明的最终结果以关键用户需求集的方式呈现,产品设计与决策的相关人员均可从中获取支持自身工作的参考信息。

本发明解决其技术问题所采用的技术方案包括如下步骤:

步骤1:使用爬虫工具从电商网站中获取产品的用户评论,建立初始用户评论数据集;

步骤2:对初始用户评论数据集做预处理,得到用于用户评论主题聚类的产品用户评论数据集;

步骤2-1:剔除默认评价和重复评价;

步骤2-2:去除用户评论中无效的字符、空白和乱码,完成用户文本数据的清洗;

步骤2-3:识别评论中的拼写错误、词法错误、句法错误和语义错误,完成纠错;

步骤2-4:将同一实体的不同描述方式进行合并,统一使用相同实体名称;

步骤3:基于ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集;

步骤4:对主题用户评论数据集进行二次处理;

步骤4-1:使用THULAC工具将主题用户评论数据集的用户评论文本进行分词处理;

步骤4-2:使用NLTK工具对分词进行词性标注;

步骤4-3:根据中文用词习惯和词性匹配原则,设定8种反映用户需求的词法规则,采用正则表达式聚合得到产品信息短语,构成产品信息短语集合PIP={PIP

其中,所述设定8种反映用户需求的词法规则,包括:围绕形容词和动词设计词法规则各4种:

其中,JJ为形容词,NN为名词,RB为副词,VB为动词,DT为限定词,符号表示以NLTK工具词性标注符号为基准;

步骤5:基于ISIFRank模型进行关键产品信息短语提取,建立关键用户需求集。

进一步地,所述基于ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集,包括:

步骤3-1:构造用户评论文本的输入向量,将用户评论文本转换为向量,送入到ERNIE模型中进行训练和学习;

用户评论文本的输入向量,包括:词嵌入、段嵌入和位置嵌入三部分融合生成用户评论文本的输入向量;

步骤3-2:基于户在线评论编码和用户评论知识整合训练用户评论文本的输入向量,获取用户评论的词向量表征;

步骤3-3:连接Softmax层,用于支持用户评论的主题聚类任务。

进一步地,所述基于用户在线评论编码和用户评论知识整合来训练用户评论文本的输入向量,获取用户评论的词向量表征,包括:

步骤3-2-1:以双向Transformer编码器为基础单元构建预训练语言模型,Transformer编码器依靠自注意力机制为用户评论中每一个字编码上下文的信息;

步骤3-2-1-1:通过映射矩阵W

Q=XWQ (1)

K=XW

V=XW

步骤3-2-1-2:通过点积对Q和K进行相似度计算得到权重;

步骤3-2-1-3:使用softmax函数对得到的权重进行归一化;

步骤3-2-1-4:将权重和对应的V进行加权求和得到最后的注意力值,即attention函数,具体公式为:

步骤3-2-1-5:双向Transformer编码器采用多头机制,通过并行调用不同的映射矩阵完成式(1)~(4)的计算,得到多个对应的注意力值,从而获得文本序列中各字符在不同表示子空间上独特的特征信息;最终将各注意力值进行拼接和线性映射,得到该层的输出y,具体公式为:

y=concat(H

其中,

步骤3-2-2:通过多阶段知识遮蔽策略随机掩码字符,包括字符级别、实体级别和短语级别3种掩码策略,训练模型预测被掩码的部分,学习到被掩码部分的上下文信息,表征用户评论的词向量。

进一步地,所述基于ISIFRank模型进行关键产品信息短语提取,建立关键用户需求集,包括:

步骤5-1:使用ERNIE替换SIFRank模型中的ELMo,对其进行改进,基于ERNIE得到主题用户评论的词向量表征;

步骤5-2:基于SIF算法得到产品信息短语和主题用户评论的句向量表征;

SIF算法对每个词向量加权平均得到句向量,每个词向量的权重大小具体公式为:

其中a为常数,p(w)为词频;

得到的评论文本句向量v

同理,计算得到产品信息短语的句向量v

步骤5-3:基于Rank算法进行关键产品信息短语提取;

对于给定的主题产品用户评论,产品信息短语的排序取决于主题用户评论句向量v

RANK(v

设立阈值ε,将余弦相似度大于ε的产品信息短语提取,作为最终的关键产品信息短语。

步骤5-4:结合专家知识和具体产品的领域知识,将分散的关键产品信息短语进行串联,转化为基于自然语言描述的完整关键用户需求表述,建立完整的关键用户需求集;

每一个主题的用户评论均建立一个关键用户需求子集s,由关键用户需求短语KeyPIP、归一化权重w和自然语言描述NLD三个要素构成,即S={Key PIP,w,NLD};

关键用户需求集A由所有的关键用户需求子集S构成,即A={S

优选地,所述a设置为[10

本发明的有益效果如下:

本发明基于预训练语言模型的技术支持,在小样本评论数据的驱动下,完成关键用户需求的挖掘,从而服务于新型产品的迭代升级。该方法应用的最终结果以关键用户需求集的方式呈现,产品设计与决策的相关人员均可从中获取支持自身工作的参考信息。

本发明在ERNIE-ISIFRank模型的支持下,可以简单、高效地从有限的小样本用户评论中挖掘用户需求。ERNIE被用于将杂乱无章的用户评论按照不同主题标签进行聚类,其核心在于将用户评论进行向量表征。与其他模型不同的是,该模型预先学习到了外部知识,从而确保生成的用户评论词向量含有更丰富的语义。ISIFRank被用于抽取主题用户评论中的关键产品信息短语,从而支持关键用户需求集的建立。ISIFRank的改进之处在于将ERNIE进行了移植嫁接,从而继承其优点,并确立了适合产品设计领域的新关键词抽取规则,确保抽取到语义更完整的关键产品信息短语,从而支持关键用户需求集的建立。

附图说明

图1为本发明方法流程图。

图2是本发明实施例基于ERNIE用户评论主题聚类模型。

图3是本发明实施例Transformer编码单元结构图。

图4是本发明实施例多阶段知识遮蔽策略。

图5是本发明实施例基于ISIFRank的关键用户需求集建立模型。

图6是本发明实施例中关键用户需求集。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

一种小样本评论数据驱动的产品关键用户需求挖掘方法,包括如下步骤:

步骤1:使用爬虫工具从电商网站中获取产品的用户评论,建立初始用户评论数据集;

步骤2:对初始用户评论数据集做预处理,得到用于用户评论主题聚类的产品用户评论数据集;

步骤2-1:剔除默认评价、重复评价和虚假评价等无用重复数据,留下有价值的评论;

步骤2-2:去除用户评论中无效的字符、空白和乱码等,完成用户文本数据的清洗;

步骤2-3:识别评论中的拼写错误、词法错误、句法错误和语义错误等,完成纠错;

步骤2-4:将同一实体的不同描述方式进行合并,统一使用相同实体名称;

经过以上一系列的预处理之后,即得到较为优质的用于用户评论主题聚类的新型产品用户评论数据集。

步骤3:基于ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集;

步骤3-1:构造用户评论文本的输入向量,将用户评论文本转变为计算机可理解的向量,送入到模型中进行训练和学习,所述用户评论文本的输入向量,包括:词嵌入、段嵌入和位置嵌入三部分融合生成用户评论文本的输入向量;

步骤3-2:基于户在线评论编码和用户评论知识整合训练用户评论文本的输入向量,获取用户评论的词向量表征;

步骤3-2-1:以双向Transformer编码器为基础单元构建预训练语言模型,Transformer编码器依靠自注意力机制为用户评论中每一个字编码上下文的信息;

步骤3-2-1-1:通过映射矩阵W

Q=XW

K=XW

V=XW

步骤3-2-1-2:通过点积对Q和K进行相似度计算得到权重;

步骤3-2-1-3:使用softmax函数对得到的权重进行归一化;

步骤3-2-1-4:将权重和对应的V进行加权求和得到最后的注意力值,即attention函数,具体公式为:

步骤3-2-1-5:双向Transformer编码器采用多头机制,通过并行调用不同的映射矩阵完成式(1)~(4)的计算,得到多个对应的注意力值,从而获得文本序列中各字符在不同表示子空间上独特的特征信息;最终将各注意力值进行拼接和线性映射,得到该层的输出y,具体公式为:

y=concat(H

其中,

步骤3-2-2:通过多阶段知识遮蔽策略随机掩码字符,包括字符级别、实体级别和短语级别3种掩码策略,训练模型预测被掩码的部分,学习到被掩码部分的上下文信息,表征用户评论的词向量。

步骤3-3:连接softmax层,用于支持用户评论的主题聚类任务。

步骤4:对主题用户评论数据集进行二次处理;

步骤4-1:使用THULAC工具将主题用户评论数据集的用户评论文本进行分词处理;

步骤4-2:使用NLTK工具对分词进行词性标注;

步骤4-3:针对产品设计领域的日常语言描述,根据中文用词习惯和词性匹配原则,设定8种反映用户需求的词法规则,采用正则表达式聚合得到产品信息短语,构成产品信息短语集合PIP={PIP

其中,所述设定8种反映用户需求的词法规则,包括:围绕形容词和动词设计词法规则各4种:

其中,JJ为形容词,NN为名词,RB为副词,VB为动词,DT为限定词,符号表示以NLTK工具词性标注符号为基准;

步骤5:基于ISIFRank模型进行关键产品信息短语提取,建立关键用户需求集。

步骤5-1:使用ERNIE替换SIFRank模型中的ELMo,对其进行改进,基于ERNIE得到主题用户评论的词向量表征;

步骤5-2:基于SIF算法得到产品信息短语和主题用户评论的句向量表征;

SIF算法对每个词向量加权平均得到句向量,每个词向量的权重大小具体公式为:

其中a为超参数,p(w)为词频;

得到的评论文本句向量v

同理,计算得到产品信息短语的句向量v

步骤5-3:基于Rank算法进行关键产品信息短语提取;

对于给定的主题产品用户评论,产品信息短语的排序取决于主题用户评论句向量v

RANK(v

设立阈值ε,将余弦相似度大于ε的产品信息短语提取,作为最终的关键产品信息短语。

步骤5-4:结合专家知识和具体产品的领域知识,将分散的关键产品信息短语进行串联,转化为基于自然语言描述的完整关键用户需求表述,建立完整的可供设计师参考的关键用户需求集。

每一个主题的用户评论均建立一个关键用户需求子集S,由关键用户需求短语KeyPIP、归一化权重w和自然语言描述NLD三个要素构成,即S={Key PIP,w,NLD};

关键用户需求集A由所有的关键用户需求子集S构成,即A={S

具体实施例:

参照图1-图6。本发明小样本评论数据驱动的新型产品关键用户需求挖掘方法具体步骤如下:

近年来随着国内饲养猫咪的人数越来越多,宠物相关行业得到了快速发展,专门为猫咪设计的用品呈现多元化,猫咪智能喂食器是近一年来的较为受欢迎的新型产品。使用猫咪智能喂食器作为实例对象,验证ERNIE-ISIFRank模型的技术实现与应用。

一、初始用户评论数据集准备

本着兼具权威性高和评论质量优的两个原则,选取权威的电子商务网站作为在线评论的获取来源,主要包括京东商城、苏宁易购和天猫商城。使用爬虫工具实现对霍曼Real猫咪智能喂食器的网络用户评论采集,完成初始用户评论数据集构建。该产品于2021年11月上市销售,用户评论采集时间跨度为2021年12月15日至2022年6月31日,共包含6754条用户评论。

二、用户评论文本预处理

剔除默认评价、重复评价和虚假评价等无用重复数据,留下有价值的评论;去除用户评论中无效的字符、空白和乱码等,完成用户文本数据的清洗;识别评论中的拼写错误、词法错误、句法错误和语义错误等,完成纠错;将同一实体对不同描述方式进行合并,统一使用相同实体名称。经过以上一系列预处理,得到新型产品用户评论数据集。

根据猫咪智能喂食器的相关特点,经过专业讨论,从外观需求、功能需求和情感需求3个维度确定评论分类标签,从0到7共8个,分别代表造型、色彩、材质、交互操作、智能喂食、安装维护、性价比和实用性。新型产品用户评论数据集中共有5000条人工标记的用户评论语句,按照8:2的比例随机将其划分为训练集和测试集,产品的用户评论标签及样例如表1所示。

表1用户评论标签及样例

三、基于ERNIE模型进行用户评论主题聚类

对于给定输入用户评论文本序列T=(t

ERNIE共包含12层编码器,768个隐藏单元和12个注意力头。每一层包括求和、归一化、前馈神经网络和自注意力等运算机制,如图3所示。

以双向Transformer编码器为基础单元构建预训练语言模型,Transformer编码器依靠自注意力机制为用户评论中每一个字编码上下文的信息。通过映射矩阵W

编码器采用“多头”机制,通过并行调用不同的映射矩阵完成以上计算,得到多个对应的注意力值,从而获得文本序列中各字符在不同表示子空间上独特的特征信息;最终将各注意力值进行拼接和线性映射,得到该层的输出y,

通过将X输入ERNIE,结合多阶段知识遮蔽策略随机掩码字符,包括字符级别、实体级别和短语级别3种掩码策略,训练模型预测被掩码的部分,学习到被掩码部分的上下文信息,表征用户评论的词向量,如图4所示,经过ERNIE主体结构在其自有数据的预训练语料上进行多任务预训练后,取最后一层Transformer的状态H=(h

四、主题用户评论数据集二次处理

以“外观”主题为例,对主题用户评论数据集进行二次处理,利用THULAC工具进行分词处理,并利用NLTK工具进行词性标注,结合正则表达式和本发明提出的8种新型产品评论的词性聚合规则,将分词结果进行聚合,得到产品信息短语(PIP)示例如表2所示。

表2主题用户评论二次处理示例

五、基于ISIFRank模型进行关键产品信息短语提取

基于ERNIE算法得到“外观”主题用户评论的词向量表征。

基于SIF算法得到产品信息短语和主题用户评论的句向量表征,SIF算法对每个词向量加权平均来得到句向量,每个词向量的权重大小公式是

计算主题用户评论句向量v

设立阈值ε=0.45,将余弦相似度大于ε的产品信息短语提取,返回“外观”主题中关键产品信息短语的降序排列,人工去除错误提取的产品信息短语。

所有的主题用户评论数据集均采用以上方法进行关键产品信息短语(Key PIP)提取,最终的结果如表3所示。

表3关键产品信息短语抽取结果

六、建立关键用户需求集

抽取出的关键产品信息短语是用户关注度较高的产品表现,是分析建立关键用户需求集的重要数据。

综合分析每一个主题中的关键产品信息短语,例如在造型、颜色、材质和安装维护等方面,所有的关键产品信息短语中只存在正向描述词汇,可以看出用户是较为满意的,说明现有产品已在很大程度上满足了用户的需求,属于已满足需求。例如在交互操作、智能喂食、性价比和实用性等方面,关键产品信息短语中同时存在正向和反向描述词汇,可以看出用户的产品体验是不统一的,说明现有产品并没有完全满足大部分用户的需求,仍有很大的改进提升空间,属于未满足需求。

已满足需求和未满足需求共同构成了所有的关键用户需求。结合智能喂食器的相关产品知识,将每一个主题中分散的关键产品信息短语进行归纳与合并,并以自然语言的形式进行串联与描述,将其转化为完整的、易于理解的关键用户需求。为了更清晰地展示,将每一个主题内的关键用户需求短语所占权重做归一化处理,建立关键用户需求子集。

每一个主题的关键用户需求子集均采用上述方法建立,所有子集的并集构成了最终的关键用户需求集,结果如图6所示。

在具体的新型产品应用实例中,通过对比实验可证明本发明的效果。

对于基于ERNIE的主题用户需求聚类模型,选取SVM、BiLSTM和Bert作为基线算法;对于基于ISIFRank的关键用户需求集建立模型,选取TF-IDF、TextRank和SIFRANK作为基线算法。使用准确率(Precision)、召回率(Recall)和F1值(F1-score)来评价模型的效果。采用十倍交叉验证,运行10次取平均值,结果如4所示。

表4模型评价指标

在用户评论主题聚类算法中,ERNIE取得了最高的准确率(0.9248)和召回率(0.8845)。SVM和BiLSTM较为依赖词向量的质量,泛化能力不足,所以性能明显低于预训练语言模型Bert和ERNIE,二者基于Transformer的双向编码器机制能够自适应提取用户评论文本的特征,提高分类准确率。同属于预训练语言模型,ERNIE比Bert表现更优,因为它比Bert的掩码机制更加丰富,可以学习到更深层次的语义信息,尤其是数据数量有限的情况下。

在关键产品信息提取算法中,ISIFRank取得了最高的准确率(0.9049和召回率(0.8143)。TF-IDF和TextRank的表现不及SIFRank,因为在一条主题用户评论中,主题词并不会一直出现,而这两种算法都是基于词频的关键词抽取算法,无法理解评论文本的语义,导致无法准确抽取关键产品信息短语。考虑到该局限性,SIFRank使用了预训练语言模型ElMo来获取词语的各类语法信息与语义信息,从而确保提取出高质量的关键产品信息短语。另外,SIFRank还弥补了TF-IDF和TextRank无法将两个词聚合在一起对关键产品信息短语进行完整表达的缺点。本发明提出的ISIFRank之所以优于SIFRank,主要在于以下两点改进:第一,通过引入预训练模型ERNIE来替换ELMo,改善其在获取用户评论词向量时推理效率差的问题,ELMo基于BiLSTM进行构建,对比实验中已证实ERNIE的表现优于BiLSTM,如表1所示;第二,本发明针对产品评论的语言描述特点,围绕动词与形容词设立了新的词性聚合规则,所以进一步确保了所提取关键产品信息短语的完整性与准确性。

F1值是同时考虑准确率和召回率的评价指标,用于综合反映算法的整体表现水平。ERNIE和ISIFRank的F1值分别是0.8934和0.8534,均取得了最高值。将两个表现最优的算法进行结合,基于ERNIE-ISIFRank进行关键用户需求挖掘,可确保准确、高效地建立关键用户需求集,同时此发明也拓宽了基于预训练语言模型进行新产品用户需求挖掘的可行现场方法。

技术分类

06120115632299