掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于信任预测技术领域,具体涉及一种基于深度学习增强矩阵分解的信任预测方法及系统。

背景技术

社交媒体的出现使得人们可以在任何时间任何地点创建和分享信息,其给人们带来社交便利的同时,也会引起数据爆炸现象,进而引发信息可信度问题。目前解决信息可信度问题的方法之一是与可信的人进行交互,但用户对陌生人的可信度缺乏先验知识,因此需要进行信任预测,即推断任意两个用户之间的信任关系。每个信任关系包含一个源用户、一个目标用户以及从源用户到目标用户的数字信任评级。

矩阵分解是解决上述信任问题的一种有效方法,它将高维信任矩阵分解为源用户特征矩阵和目标用户特征矩阵,其中,源用户的潜在特征表示用户信任他人的程度,目标用户的潜在特征表示用户被他人信任的程度。通过矩阵的内积计算出用户之间的可信度。然而,现有基于矩阵分解的信任预测方法存在数据稀疏性问题。为了解决该问题,矩阵分解通常融合一些辅助信息,如同质正则化。但是现有的同质正则化仅用评分相似度来作为用户相似度计算的依据,无法准确捕捉用户之间的相似性,进而影响信任预测准确率。

发明内容

针对现有信任预测方法存在的不足,本发明提供了一种基于深度学习增强矩阵分解的信任预测方法及系统,本发明将同质性作为矩阵分解的正则化,并改进了同质正则化项,从用户评论中提取偏好特征,并将偏好特征相似度作为用户相似度。首先利用深度学习语言模型从用户评论文本中得到向量表示,并将该向量表示作为用户的偏好特征。为了降低偏好特征的维数,本发明使用深度自动编码器来实现特征降维。然后,将偏好特征之间的相似度作为矩阵分解中的正则化项,形成目标函数,使用梯度下降算法进行优化,最终通过源用户潜在特征矩阵与目标用户潜在特征矩阵的内积预测可信度。本发明将深度学习和矩阵分解相合,缓解了数据稀疏性问题,提高了信任预测的准确率。

为实现上述目的,本发明的技术方案具体如下:

一种基于深度学习增强矩阵分解的信任预测方法,具体包括以下步骤:

步骤1,用户偏好特征提取:对评论文本进行预处理,使用基于深度学习的语言模型得到评论文本的向量表示,并将该向量表示作为用户偏好特征;

步骤2,特征降维:使用深度自动编码器生成低维向量;

步骤3,信任矩阵分解:将步骤2所得低维向量的相似度作为矩阵分解目标函数中的正则化项,通过求解目标函数,获得源用户潜在特征矩阵与目标用户潜在特征矩阵,通过两个矩阵的内积计算可信度。

优选的,步骤1,用户通常以文本评论的形式来表达意见,文本评论中包含了足够的信息来反映用户的偏好。具体的,所述用户偏好特征提取包括以下步骤:

步骤11、数据预处理:用户评论文本中包含大量噪声信息,在输入预训练语言模型之前需要对其进行预处理操作。

步骤12、使用Bert模型生成评论文本的向量表示;

步骤13、将向量表示作为用户偏好特征。

进一步优选的,数据预处理操作具体如下:

步骤111.分词,本发明优选实施例所使用的数据集为英文数据集,词与词之间以空格为间隔,故不需要专门的分词工具来处理。

步骤112.去除表情符号,用户评论文本可能会存在一些表情符号,进行语义表示时,通常选择将表情符号去除。例如:“It’s so delicious☆☆☆”。在预处理过程中,将“☆”删除。

步骤113.去除停用词。用户评论文本中可能会有一些非语义符号及无意义的词。因此,需要设定停用词表,将涉及到的词或符号添加到停用词表中,并在后续文本预处理过程中将该内容删除。

用户r

re

优选的,步骤12中,Bert模型包含L层Transformer编码器,每个编码器包含两部分:多头注意力机制子层和位置前馈网络子层;Bert模型在对输入序列进行编码的过程中,利用了每个词的上下文信息;将评论文本的初始嵌入e

优选的,步骤2,特征降维:

通过自动编码器来进行特征降维,自动编码器是一种无监督的人工神经网络,通过数据压缩到较低的维数,然后重新构造输入。通过消除重要特征上的噪声和冗余,找到数据在较低维度的表征。基于编解码结构,编码器将高维数据编码到低维,最后接收低维数据并尝试重建原始高维数据。具体的:

基于自编码器模型重构输入来降维和学习高级特征表示;自编码器的对称结构使模型能够在中间隐藏层学习到原始数据的低维表示。自编码器包括两部分:编码器和解码器;编码器将高维的输入数据映射到低维表示,解码器将低维向量解码为高维表示;

深度自动编码器是编码器和解码器中包含多个隐藏层的多层自动编码器;

编码和解码过程描述为:

y=σ(Wx+b)

z=σ(W′y+b′)

其中,x为输入向量,y和z分别为编码和解码向量,σ表示编码器和解码器的激活函数,均选为sigmoid函数;W和W′分别为输入层到中间层和中间层到输出层的权重矩阵;偏置向量由b和b′表示;

深度自动编码器的目标是最小化输入x和输出值z之间的重构误差,用均方误差来度量:

其中,t为用户偏好特征的输入维度。

优选的,步骤3,信任矩阵分解:

信任矩阵的高度稀疏性是基于矩阵分解的信任预测方法的主要缺陷。为此,本发明将用户偏好相似性用作辅助信息来缓解信任关系稀疏性问题,其中用户偏好特征从评论文本中获得。信任关系网络中存在同质性,即相似度高的用户更容易建立信任关系。同质正则化可以被表示为:

其中,m为用户的数量,|Co|表示条目的数量,优选为7,sim(i,j)为余弦相似度,U

本发明在引入同质正则化基础上,提出了一种基于矩阵分解的信任预测方法来解决以下优化问题:

其中,Ω为可用信任关系集合,F为Frobenius范数,T为信任关系矩阵,U为源用户潜在特征矩阵,V为目标用户潜在特征矩阵。λ

本发明整体信任预测方法流程如下:

s1.首先对用户文本进行预处理,去除用户文本的噪声信息,将用户文本转化为一组单词序列。

s2.使用Bert模型作为特征提取器,把文本转成数字序列,将每个评论转成一个特征向量。

s3.当前数据集包括7类条目(Context),用户可能对每一类下的多个条目有评论信息,对应多个特征向量,需要对用户在每类条目下的特征向量取均值,最后得到的信息是一个用户有7个特征向量。

s4.对Bert模型的输出数据进行降维。使用深度自编码器实现,训练这个模型,训练完毕之后,用它的自编码器部分可以降维(DeepAutoEncoder)。

s5.计算两两用户的相似度,通过计算任意两个用户在7个条目下的相似度,最后求均值。

s6.将低维向量的相似度作为基本的矩阵分解公式的正则项,近似估计相似用户的潜在因子。分别对源用户的潜在特征U和目标用户的潜在特征V求偏导,沿梯度下降的方向更新参数。

本发明还提供了一种基于深度学习增强矩阵分解的信任预测系统,其基于上述方法技术方案,包括用户偏好特征提取模块、特征降维模块和信任矩阵分解模块;具体如下:

所述用户偏好特征提取模块:用于从用户评论文本中得到向量表示作为用户的偏好特征,首先对评论文本进行预处理,将评论文本的大量噪声信息进行去除,使用基于深度学习的语言模型得到评论文本的向量表示,并将该向量表示作为用户偏好特征。

所述特征降维模块:使用深度自动编码器降低偏好特征的维数,采用反向传播与最优化算法,利用数据本身作为监督,指导神经网络学习映射关系,进而降低用户偏好特征维度。

所述信任矩阵分解模块:用于生成源用户潜在特征矩阵与目标用户潜在特征矩阵并得出可信度,特征降维模块所得的低维向量的相似度作为矩阵分解目标函数中的正则化项,通过求解目标函数,获得源用户潜在特征矩阵与目标用户潜在特征,最后通过两个矩阵的内积来计算未知的可信度。

本发明的有益效果在于:

本发明所提出的一种基于深度学习增强矩阵分解的信任预测方法及系统,能够有效缓解现有技术基于矩阵分解的信任预测方法面临的信任关系稀疏性问题。与现有方法相比,本发明可以在缓解信任关系稀疏性的同时提高预测的准确率。同时,针对同质正则化项中的用户相似度计算问题,采用深度语言模型从用户的评论文本中提取特征。通过充分考虑语义信息和上下文信息,可以得到更加丰富的嵌入表示,进而准确捕捉用户之间的相似性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明优选实施例基于深度学习增强矩阵分解的信任预测方法示意图;

图2为本发明优选实施例基于深度学习增强矩阵分解的信任预测方法流程框图;

图3为本发明优选实施例基于深度学习增强矩阵分解的信任预测方法中Bert的简单结构示意图;

图4为本发明优选实施例基于深度学习增强矩阵分解的信任预测方法中tranformer编码器结构示意图;

图5为本发明优选实施例基于深度学习增强矩阵分解的信任预测系统框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1:

图1为本发明优选实施例方法流程示意图,本发明优选实施例提供了一种基于深度学习增强矩阵分解的信任预测方法,该方法首先对用户评论文本进行预处理,使用Bert模型生成评论文本的向量表示,并将向量表示作为用户的偏好特征。然后,训练深度自编码器网络对用户的偏好特征进行降维。接下来,计算用户偏好相似度,将偏好相似度作为矩阵分解的正则项,求解最优化问题。包括如下步骤:

步骤一,用户偏好特征提取。首先对评论文本进行预处理,使用基于深度学习的语言模型得到评论文本的向量表示,并将该向量表示作为用户偏好特征。

步骤二,特征降维。使用深度自动编码器生成低维向量。

步骤三,信任矩阵分解。将第二步所得的低维向量的相似度作为矩阵分解目标函数中的正则化项,通过求解目标函数,获得源用户潜在特征矩阵与目标用户潜在特征矩阵,通过两个矩阵的内积来计算未知的可信度。信任预测过程如图2所示。

本实施例中,步骤一具体如下:

1.在输入Bert模型之前需要对其进行预处理操作。

1.1.分词。本实施例所使用的数据集为英文数据集,词与词之间以空格为间隔,故不需要专门的分词工具来处理。

1.2.去除表情符号。用户评论文本可能会存在一些表情符号,进行语义表示时,通常选择将表情符号去除。例如:“It’s so delicious☆☆☆”。在预处理过程中,将“☆”删除。

1.3.去除停用词。用户评论文本中可能会有一些非语义符号及无意义的词。因此,需要设定停用词表,将涉及到的词或符号添加到停用词表中,并在后续文本预处理过程中将该内容删除。

2.用户r

re

3.将评论文本的初始嵌入e

本实施例的步骤二具体如下:

使用自编码器重构输入来降维和学习高级特征表示该模型采用反向传播与最优化算法,利用数据本身作为监督,指导神经网络学习映射关系,进而得到一个重构输出。自编码器的对称结构使模型能够在中间隐藏层学习到原始数据的低维表示。自编码器包括两部分:编码器和解码器。编码器将高维的输入数据映射到低维表示。解码器将低维向量解码为高维表示。中间层中的节点数表示编码向量的维数。深度自动编码器(deepautoencoder,DAE)是一种在编码器和解码器中包含多个隐藏层的多层自动编码器。编码和解码过程可以描述为:

y=σ(Wx+b)

z=σ(W′y+b′)

其中,x为输入向量,y和z分别为编码和解码向量,σ表示编码器和解码器的激活函数,均选为sigmoid函数;W和W′分别为输入层到中间层和中间层到输出层的权重矩阵。偏置向量由b和b′表示。DAE的目标是最小化输入x和输出值z之间的重构误差,本实施例使用均方误差(Mean Square Error,MSE)来度量,具体为:

其中,t为用户偏好特征的输入维度。在对DAE进行训练之后,编码器被用于用户偏好特征降维。

本实施例的步骤三具体如下:

本实施例将用户偏好相似性用作辅助信息来缓解信任关系稀疏性问题,其中用户偏好特征从评论文本中获得。信任关系网络中存在同质性,即相似度高的用户更容易建立信任关系。同质正则化可以表示为:

其中,|Co|表示条目的数量,在本实施例中,|Co|=7,m为用户的数量,sim(i,j)为余弦相似度,U

本实施例在引入同质正则化基础上,提出了一种基于矩阵分解的信任预测方法,为了解决以下优化问题:

其中,Ω为可用信任关系集合,F为Frobenius范数,T为信任关系矩阵,U为源用户潜在特征矩阵,V为目标用户潜在特征矩阵。λ

基于上述模型采用数据集Epinions和Ciao来评估本发明提出的方法。在Epinions数据集中,选取了提供15个评论以上的用户;在Ciao数据集上,本发明方法选取了提供10个评论以上的用户。表1展示了这两个数据集的统计信息。

表1数据集统计特征

Tr={<r

本发明方法与基于信任矩阵分解的方法(MF和hTrust)进行对比,以回答研究问题,对比结果如表2所示。

MF:该方法对信任关系矩阵进行了矩阵分解,忽略了同质正则化,是本发明方法的一个变体。选择这种方法来观察在没有用户相似性信息的情况下,本发明方法的表现情况。

hTrust:hTrust通过寻找用户的低秩表示及其相关性,并利用同质性效应来进行信任预测。该方法证明了信任关系中存在同质性,并将同质性理论融入信任预测框架中,通过用户对条目的评分相似度来建模同质性影响。

由表2可以看出,本发明所提出的方法在两个数据集上的性能都明显优于其他基于矩阵分解的信任预测方法。具体而言,在Epinions数据集上,本发明方法的MAE值较MF方法降低了1.4%,较hTrust方法降低了0.5%;本发明方法的RMSE值较MF方法降低了2.2%,较hTrust方法降低了1.4%。在Ciao数据集上,本发明方法的MAE值较MF方法降低了2.7%,较hTrust方法降低了1.2%;本发明方法的RMSE值较MF方法降低了2.4%,较hTrust方法降低了1.9%。

表2本发明方法相较于其他方法的性能

本发明方法的MAE与RMSE值均低于MF方法,这是因为本发明方法引入了外部信息,可以进一步缓解数据稀疏性的影响,进而提高预测精度,同时也证明了用户偏好相似度在信任预测的过程中起着非常重要的作用。此外,本发明方法的性能优于hTrust的性能,这证明本发明方法所提出的同质化正则项可以更好地建模同质性影响。

实施例2

如图5所示,本实施例提供了一种基于深度学习增强矩阵分解的信任预测系统,其基于实施例1,包括用户偏好特征提取模块、特征降维模块和信任矩阵分解模块,各模块具体介绍如下:

所述用户偏好特征提取模块:用于从用户评论文本中得到向量表示作为用户的偏好特征,首先对评论文本进行预处理,将评论文本的大量噪声信息进行去除,使用基于深度学习的语言模型得到评论文本的向量表示,并将该向量表示作为用户偏好特征。

所述特征降维模块:用于降低偏好特征的维数,其使用深度自动编码器,采用反向传播与最优化算法,利用数据本身作为监督,指导神经网络学习映射关系,进而降低用户偏好特征维度。

所述信任矩阵分解模块:用于生成源用户潜在特征矩阵与目标用户潜在特征矩阵并得出可信度,特征降维模块所得的低维向量的相似度作为矩阵分解目标函数中的正则化项,通过求解目标函数,获得源用户潜在特征矩阵与目标用户潜在特征,最后通过两个矩阵的内积来计算未知的可信度。

综上,本发明提出了一种基于深度学习增强矩阵分解的信任预测方法及系统,本发明考虑了同质性影响,将用户的偏好相似度作为矩阵分解的正则项,为了更好地评估用户的偏好相似度,该发明首先采用深度学习语言模型从用户评论文本中得到文本向量表示,并将该向量表示作为用户的偏好特征;其次,利用深度自编码器对特征向量进行降维,并计算特征向量相似度;最后,设计了同质正则项,使相似用户更容易建立信任关系。本发明在包含评论文本和信任关系的数据集上进行了验证,实验结果表明,与现有其他基于矩阵分解的方法相比,本发明预测准确率更高;同时,本发明使用语言模型将用户偏好特征集成到矩阵分解过程中,可以有效缓解信任关系稀疏性问题。

以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

技术分类

06120116522670