掌桥专利:专业的专利平台
掌桥专利
首页

一种融合评论文本和特征加权的四维张量分解推荐方法

文献发布时间:2023-06-19 11:08:20


一种融合评论文本和特征加权的四维张量分解推荐方法

技术领域

本发明属于数据挖掘和自然语言处理技术领域,尤其涉及一种融合评论文本和特征加权的四维张量分解推荐方法。

背景技术

随着信息技术的飞速发展,人们逐渐进入信息过载的时代,如何在过载的信息当中寻找自己所需要的信息就显得尤为重要。推荐系统的功能是对目标用户的行为活动和需求进行分析,然后对其可能喜欢的项目进行推荐。因此,提高推荐系统的准确度能够为企业带来巨大的经济效益,且让用户有一个更好的体验感。

近年来,推荐系统受到越来越多的行业的青睐,尤其个性化推荐系统的发展,对提高用户体验满意度起到了至关重要的作用。协同过滤算法是目前最流行的推荐技术之一,其通过对用户和项目的相似性度量来实现对用户的高效推荐。但协同过滤算法存在弊端,为了进一步提升推荐的准确性,近几年基于张量分解的推荐模型开始兴起。当推荐模型直接利用评分数据参与推荐时,会由于评分数据的稀疏性导致模型效果不佳,一种缓解数据稀疏的方法是利用评论数据,以补充更多信息的方式来弥补数据的不足。当今基于张量分解的推荐模型大多都是将用户、项目,标签等其他上下文信息纳入到模型的构建过程中,构建了{用户,商品,标签}的张量分解模型,从而进行个性化推荐,为解决标签推荐系统存在数据极度稀疏性的问题,将评论文本参与构建张量模型。张量模型可以充分融合用户和项目之间相关联的上下文信息,利用张量模型实现个性化推荐的研究越来越受到重视,极大地提高了推荐系统准确度。因此,本发明将张量运用在推荐系统中,通过结合用户评论文本和项目的评论文本来参与张量模型的构建,并将项目标签信息和评分矩阵信息作为张量权重,然后结合张量分解方法建立模型。在解决数据稀疏性问题的同时,提供更加准确和个性化的标签推荐。

发明内容

本发明从融合用户和项目之间相关联的上下文信息角度出发,利用评论文本,将用户、用户特征、项目、项目特征信息关联起来建立用户-用户特征-项目-项目特征四维张量,再将项目的标签信息和评分数据融合作为权重,融合起来的权重分别是从定性和定量的角度来看待的,在此基础上,利用张量分解技术得到一个近似张量,推荐系统的最终目的是为目标用户推荐其可能最感兴趣的前N的项目。

为了实现以上发明,提出了一种融合评论文本和特征加权的四维张量分解推荐方法,包括以下步骤:

S1、数据的采集及划分;将处理好的数据集随机选取80%的历史交互作为训练集,用于训练模型;其余作为测试集,用于评估模型的泛化能力;从训练集中随机选取10%的交互作为验证集,用于调整超参数;

S2、评论文本的处理:先进行词向量训练,运用doc2vec工具对评论文本处理得到文本的词向量表示,该向量的维度可在实验调参阶段自我设置,然后将得到的本文词向量输入LSTM神经网络中训练,从而得到具有深层语义的词向量;

S3、张量的构建:本文对用户、用户特征、项目、项目特征构建4维张量模型,其中用户特征和项目特征都是通过评论文本生成的特征向量;

S4、结合标签及评分数据的加权:由于每个项目都有固定的一个或多个标签,结合评分数据与标签计算用户对项目的标签的偏好程度,然后将项目标签与项目特征作相关性分析,从而得到项目标签与项目特征的相关程度,最后将相关程度与偏好程度作内积,既是张量对应位的权重大小;

S5、张量的分解及生成推荐:将加权后的张量应用高阶奇异值分解技术,通过对张量进行分解和重构近似张量,从而达到推荐的目的。

优选的,所述步骤S1的数据的采集及划分的具体步骤如下:

S101、将下载的Moviedata-10M电影数据集进行数据预处理;

S102、使用10-core设置,即保留至少有10次交互的用户和项目;

S103、将数据按照8:1:1的比例分别划分训练集、测试集和验证集。

所述步骤S2中评论文本的处理的具体步骤如下:

S201、评论文本的收集:记用户u所写的所有评论文本为

公式中

S202、评论文本的向量化表示:运用doc2vec分别对用户的评论文本集和项目的评论文本集训练,doc2vec是在word2vec的基础上进行改进得到的,在输入层当中,doc2vec增添了一个新句子向量Paragraph vector,Paragraph vector可以被看作是另一个词向量,它扮演了一个记忆得到每个用户及项目的向量化表示,它可以被看作是句子的主旨,有了它,该向量表达的主旨会越来越准确;

S203、评论文本的深层语义挖掘:将上述表示用户及项目的向量输入到LSTM神经网络中,深入挖掘用户及项目的潜在特征;

LSTM是为了解决长期依赖问题而设计出来的,主要是通过三个基本结构来实现,分别是:遗忘门、输入门、输出门;

遗忘门:决定我们会对输入的信息进行选择性遗忘,该功能由一个sigmoid函数实现,输出一个在0~1之间的数值,代表信息的一个状态,1表示全部保留,0表示全部舍弃,具体表达如下公式所示:

f

其中σ代表sigmoid函数,W

输入门:决定多少新信息可以输入到该网络结构当中,该功能由两个函数组成:一个sigmoid函数决定哪些信息需要更新,一个tanh函数作为更新内容的备选,然后再将这两部分联立起来的结果输入到网络当中;

i

其中σ代表sigmoid函数,tanh代表tanh函数,W

输出门:决定我们将会输出什么值,该功能由两个函数组成:一个sigmoid函数决定哪些信息将输出去,一个tanh函数(输出的值在-1~1之间),并将它和sigmoid函数输出值作积作为作为我们最终输出的内容。

o

h

其中W

以上就是LSTM模型的组成,句中的每个词对应循环神经网络中的一个LSTM模型,并根据句中词的顺序对应输出到LSTM模型当中,形成一个链式结构。

所述步骤S3中张量的构建的具体步骤如下:

S301、张量的特征组成:张量模型由四元组{用户,用户的特征,项目,项目的特征}构成;

S302、张量的填充:张量的填充值为0或者1。让LSTM网络输出的特征向量值在映射在0~1范围内,当特征向量的某个特征值大于等于0.5时,则在该张量对应特征值位置填入1,说明用户或项目具有该特征;当特征向量的某个特征值小于0.5时,则在该张量对应特征值位置填入0,说明用户或项目不具有该特征,使用四元组{u,v,i,j}分别表示用户、用户特征、项目、项目特征,当具有特征v的用户u对具有特征j的项目评论过,则在张量的对应位置填入1,否则填入0。

所述步骤S4中结合标签及评分数据的加权的具体步骤如下:

S401、标签向量化:由于每个项目都有一个或多个固定的标签,故可对这些标进行向量化处理,向量的维数大小等于标签的个数,当某项目具有某几个标签时,只需在标签向量的对应位填入1,没有的话则填0;

S402、用户对项目标签的偏好计算:用户观看了具有某标签的项目次数越多,表明用户对此标签的兴趣越大;用户观对具有某标签的项目评分越高,表明用户对此标签的兴趣越大,针对以上两点,可计算出用户对项目标签的偏好程度;

其中f

S403、项目标签与项目特征的相关性计算:运用Point-Biserial相关系数测量一组连续变量和一组二元分类变量的线性关系,项目标签是二元分类变量,项目特征是连续变量:

其中

S404、张量加权:上述得出来用户对项目标签的一个偏好,但是还不能直接作用在张量当中,因为四元组表示的张量中没有项目标签该实体,所以需要一种转换将项目标签映射到项目特征中,本文通过相关系数来实现该操作,因为已经算出了项目标签与项目特征的相关程度,所以针对每一个特征而言,与所有的项目标签都存在一个相关性,再将这个相关系数与偏好相乘,故可得用户对项目特征的一个偏好,最后将这个用户对项目特征的偏好作为张量中用户对项目的偏好权重。

可选的,所述步骤S5中张量的分解及生成推荐的具体步骤如下:

S501、张量降维:对张量在四个维度上分别降维;

S502、奇异值分解(SVD):将上一步骤在各个维度降维得到的矩阵A

A

通过低秩逼近对矩阵A

S503、高阶奇异值分解:张量分解(又称为高阶奇异值分解、HOSVD)是在矩阵奇异值分解的概念上的一个延伸,可以建立比标准的奇异值分解模型更加精准发模型,因为HOSVD算法可以同时实现对张量分解各维数据进行降维。张量分解的主要方式有两种:CP模型、Tucker模型。Tucker模型是一种高阶主成分分析方法,它将N维张量分解成一个核心矩阵和N个因子矩阵乘积的形式:

A=C×

其中,

C=A×

最后,由于张量中存在着大量噪声,故不具备低秩性,需要通过HOSVD构造张量A的近似张量

S504、生成推荐:经过上述一系列操作,可以知道具有某种特征的用户对具有某种特征的项目的偏好程度,按偏好程度可形成推荐列表。

由上,本发明融合评论文本和特征加权的四维张量分解推荐方法至少具有如下有益效果:

(1)、本发明使用doc2vec方法训练的稠密、实值词向量,在语义空间中有更准确的语义刻画,不仅保留词语顺序关系,而且具有语义,在功效上比word2vec方法有了很大的提升。

(2)、本发明运用了LSTM神经网络深入挖掘文本信息,对经过doc2vec训练出来的向量进一步训练,通过几个门控单元,实现长短期信息的一个记忆,能够更好的挖掘本文潜在的信息。

(3)、本发明使用评论文本参与到张量的构建当中,评论文本分别作为用户特征和项目特征,充分利用了用户和项目的上下文信息,从而提高推荐质量和准确度。

(4)、本发明同时使用了项目标签信息和评分数据,对张量进行加权,进一步凸显用户对项目的偏好性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。

图1为本发明的融合评论文本和特征加权的四维张量分解推荐方法的基本流程图;

图2为LSTM模型结构框图;

图3为本发明的数据的采集及划分流程图;

图4为本发明的评论文本处理流程图;

图5为本发明的结合标签及评分数据的加权流程图;

图6为本发明的张量的分解及生成推荐加权流程图;

图7为融合评论文本和特征加权的四维张量分解推荐方法的的结构框图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。

如图1至图7所示,本发明的融合评论文本和特征加权的四维张量分解推荐方法,包括:

数据的采集及划分模块,从Grouplens网站下载Moviedata-10M电影数据集并进行数据预处理,使用10-core设置,即保留至少有10次交互的用户和项目。

评论文本的处理模块,先进行词向量训练,运用doc2vec工具对评论文本处理得到文本的词向量表示,该向量的维度可在实验调参阶段自我设置,然后将得到的本文词向量输入LSTM神经网络中训练,从而得到具有深层语义的词向量。

张量的构建模块,本发明对用户、用户特征、项目、项目特征构建4维张量模型,其中用户特征和项目特征都是通过评论文本生成的特征向量。

结合标签及评分数据的加权模块,由于每个项目都有固定的一个或多个标签,结合评分数据与标签计算用户对项目的标签的偏好程度,然后将项目标签与项目特征作相关性分析,从而得到项目标签与项目特征的相关程度,最后将相关程度与偏好程度作内积,既是张量对应位的权重大小。

张量的分解及生成推荐模块,将加权后的张量应用高阶奇异值分解技术,通过对张量进行分解和重构近似张量,从而达到推荐的目的。

如图1所示,本发明的方法包括如下步骤:

S1、数据采集及处理:从Grouplens网站下载Moviedata-10M电影数据集并进行数据预处理,使用10-core设置,即保留至少有10次交互的用户和项目。

S2、评论文本的处理:先进行词向量训练,运用doc2vec工具对评论文本处理得到文本的词向量表示,该向量的维度可在实验调参阶段自我设置,然后将得到的本文词向量输入LSTM神经网络中训练,从而得到具有深层语义的词向量;

S3、张量的构建:本文对用户、用户特征、项目、项目特征构建4维张量模型,其中用户特征和项目特征都是通过评论文本生成的特征向量;

S4、结合标签及评分数据的加权:由于每个项目都有固定的一个或多个标签,结合评分数据与标签计算用户对项目的标签的偏好程度,然后将项目标签与项目特征作相关性分析,从而得到项目标签与项目特征的相关程度,最后将相关程度与偏好程度作内积,既是张量对应位的权重大小;

S5、张量的分解及生成推荐:将加权后的张量应用高阶奇异值分解技术,通过对张量进行分解和重构近似张量,从而达到推荐的目的。

如图3所示,步骤S1中的数据的采集及划分的具体步骤如下:

S101、将下载的Moviedata-10M数据集进行数据预处理:将下载的豆瓣Moviedata-10M数据集,将其转化为可操作的格式存储。

S102、使用10-core设置,即保留至少有10次交互的用户和项目:删除掉交互10次之内的用户和项目,确保数据有效性。

S103、将数据按照8:1:1的比例分别划分训练集、测试集和验证集:训练集用于训练的样本集合,主要用来训练模型的参数,验证集用于比较判断各个模型的性能,测试集用于客观的评价模型的性能,合理划分数据集有利于模型的训练。

如图4所示,步骤S2中评论文本的处理的具体步骤如下:

S201、评论文本的收集:记用户u所写的所有评论文本为

公式中

S202、评论文本的向量化表示:运用doc2vec分别对用户的评论文本集和项目的评论文本集训练,doc2vec是在word2vec的基础上进行改进得到的,在输入层当中,doc2vec增添了一个新句子向量Paragraph vector,Paragraph vector可以被看作是另一个词向量,它扮演了一个记忆得到每个用户及项目的向量化表示,它可以被看作是句子的主旨,有了它,该向量表达的主旨会越来越准确;在python中,具体实现核心代码如下所示:

model=gensim.models.Doc2Vec(documents,dm=1,alpha=0.1,size=20,min_alpha=0.025)

S203、评论文本的深层语义挖掘:将上述表示用户及项目的向量输入到LSTM神经网络中,深入挖掘用户及项目的潜在特征;在Keras中,具体实现核心代码如下所示:

本发明的张量的构建的具体步骤如下:

S301、张量的特征组成:张量模型由四元组{用户,用户的特征,项目,项目的特征}构成;

S302、张量的填充:张量的填充值为0或者1。让LSTM网络输出的特征向量值在映射在0~1范围内,当特征向量的某个特征值大于等于0.5时,则在该张量对应特征值位置填入1,说明用户或项目具有该特征;当特征向量的某个特征值小于0.5时,则在该张量对应特征值位置填入0,说明用户或项目不具有该特征,使用四元组{u,v,i,j}分别表示用户、用户特征、项目、项目特征,当具有特征v的用户u对具有特征j的项目评论过,则在张量的对应位置填入1,否则填入0。

如图5所示,步骤S4中结合标签及评分数据的加权的具体步骤如下所示:

S401、标签向量化:由于每个项目都有一个或多个固定的标签,故可对这些标进行向量化处理,向量的维数大小等于标签的个数,当某项目具有某几个标签时,只需在标签向量的对应位填入1,没有的话则填0;

例如:所有的项目总共有K个特征,项目1具体标签1、3、5,项目2具有标签2、4、6,分别可以表示成如下向量所示:

I

I

S402、用户对项目标签的偏好计算:用户观看了具有某标签的项目次数越多,表明用户对此标签的兴趣越大;用户观对具有某标签的项目评分越高,表明用户对此标签的兴趣越大,针对以上两点,可计算出用户对项目标签的偏好程度;

其中f

例如:用户u1对具有标签t1的所有项目m的评分数总和为p,对所有项目n的评分综合为q,则偏好为

S403、项目标签与项目特征的相关性计算:运用Point-Biserial相关系数测量一组连续变量和一组二元分类变量的线性关系,项目标签是二元分类变量,项目特征是连续变量:

其中

S404、张量加权:上述得出来用户对项目标签的一个偏好,但是还不能直接作用在张量当中,因为四元组表示的张量中没有项目标签该实体,所以需要一种转换将项目标签映射到项目特征中,本文通过相关系数来实现该操作,因为已经算出了项目标签与项目特征的相关程度,所以针对每一个特征而言,与所有的项目标签都存在一个相关性,再将这个相关系数与偏好相乘,故可得用户对项目特征的一个偏好,最后将这个用户对项目特征的偏好作为张量中用户对项目的偏好权重。

例如:用户u

f

据此可分别得到用户u

如图6所示,步骤S5中张量的分解及生成推荐的具体步骤如下:

S501、张量降维:对张量在四个维度上分别降维,也就是将张量按照不同的维度(n-模)重新排列成一个矩阵,我们将这一过程称作张量的n-模矩阵展开,由于本发明研究的是四维张量,因此将张量A的的1-模、2-模、3-模、4-模矩阵展开式A

S502、奇异值分解(SVD):将上一步骤在各个维度降维得到的矩阵A

A

通过低秩逼近对矩阵An的奇异值进行删减,能够很好地过滤掉由小的奇异值引起的噪声,从而达到降噪的目的;在python中,具体实现核心代码如下所示:

U,sigma,Vt=np.linalg.svd(data)

S503、高阶奇异值分解:张量分解(又称为高阶奇异值分解、HOSVD)是在矩阵奇异值分解的概念上的一个延伸,可以建立比标准的奇异值分解模型更加精准发模型,因为HOSVD算法可以同时实现对张量分解各维数据进行降维。张量分解的主要方式有两种:CP模型、Tucker模型。Tucker模型是一种高阶主成分分析方法,它将N维张量分解成一个核心矩阵和N个因子矩阵乘积的形式:

A=C×

其中,

C=A×

最后,由于张量中存在着大量噪声,故不具备低秩性,需要通过HOSVD构造张量A的近似张量

S504、生成推荐:经过上述一系列操作,可以知道具有某种特征的用户对具有某种特征的项目的偏好程度,按偏好程由大到小进行排序,取前n个,即为top-n推荐。

本发明公开了一种融合评论文本和特征加权的四维张量分解推荐方法,该方法包括如下步骤:S1、数据的采集及划分;S2、评论文本的处理:(1)运用doc2vec对评论文本进行向量化处理,不仅考虑了词之间的语义信息,还压缩了维度,同时考虑了单词之间的排列顺序对句子或文本信息的影响,对评论文本起到了很好的挖掘效果;(2)LSTM神经网络可以深入挖掘文本的潜在信息,在doc2vec后接LSTM可以最大化地挖掘出文本中隐含的各种信息,为用户特征、项目特征的形成起到了至关重要的作用;S3、张量的构建:也就是初始化张量,也是文本明的核心内容,建立用户-用户特征-项目-项目特征四维张量,并在相应位置填充0或1对张量初始化;S4、结合标签及评分数据的加权:(1)用户对项目标签的偏好计算:用户观看了具有某标签的项目次数越多,表明用户对此标签的兴趣越大;用户观对具有某标签的项目评分越高,表明用户对此标签的兴趣越大,针对以上两点,可计算出用户对项目标签的偏好程度;(2)项目标签与项目特征的相关性计算,运用Point-Biserial相关系数测量一组连续变量和一组二元分类变量的线性关系;将偏好性与相关性结合起来即对张量进行加权操作,利用其它的辅助信息,缓解数据的稀疏性,并突出用户的偏好,不会因为数据的不断积累而导致偏好平均化;S5、张量的分解及生成推荐;将张量运用到推荐系统中,可以更好的利用用户及项目之间的一些联系,张量模型可以完整地表示高维数据并且能维持高维空间数据的本征结构信息。

本发明利用用户项目评论数据集,收集用户、用户评论文本、项目、项目评论文本,将评论文本向量化,进而分别得到用户的特征向量和项目的特征向量,然后构建{用户,用户特征,项目,项目特征}四维张量,最后应用高阶奇异值分解充分挖掘张量实体之间的潜在联系性,根据处理结果生成推荐,从而达到提高推荐系统效率的目的。传统的张量模型将项目标签融入进来,而项目标签往往存在着稀疏性且无偏重差异等问题,通过评论文本得到的项目特征则可以很好地解决该问题,而用户特征则实现了对用户特征更加细粒度的划分,为个性化推荐奠定了良好的基础。用户评论直接描绘了用户给出评分的原因以及对物品的使用体验,能直观地体现用户偏好和物品特征,对模型的学习极其有利,利用推荐系统方法,达到了辅佐推荐系统算法的目的,提高推荐系统的精确度和召回率。张量模型解决了由于评分矩阵的稀疏性给推荐系统带来的一些弊端,同时将张量运用到推荐系统中,可以更好的利用用户及项目之间的一些联系,张量模型可以完整地表示高维数据并且能维持高维空间数据的本征结构信息,模型具有很强的可解释性及耦合性。将评论文本融合到张量模型当中,可得到更加准确和个性化的模型,且该张量模型可以使用在任何有文本型数据的推荐业务场景中。

以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。

相关技术
  • 一种融合评论文本和特征加权的四维张量分解推荐方法
  • 融合评论文本层级注意力和时间因素的混合推荐方法
技术分类

06120112810758