一种基于注意力和分层候选用户兴趣的新闻推荐系统

文献发布时间：2024-04-18 19:58:30

技术领域

本发明属于自然语言处理领域，涉及一种基于注意力和分层候选用户兴趣的新闻推荐系统

背景技术

随着互联网信息技术的迅速发展和广泛应用，许多用户已经逐渐将新闻阅读习惯从传统纸媒转向数字新闻。但是面对如此庞大的信息量，互联网用户往往无法快速有效地获取他们所需的真正有价值的新闻。新闻推荐的主要目标就是致力于帮助用户快速高效地从互联网上的海量新闻信息中获取最适合用户的新闻。

目前主流的研究方法大多基于深度学习和自然语言处理。Wang等人提出了一种结合知识图谱信息的新闻推荐方法；An等人使用GRU网络聚合点击新闻序列作为兴趣向量，并将其与用户ID嵌入相结合；Wu等人在提出了一个情感感知的新闻编码器，它与一个辅助的情感预测任务联合训练，以学习情感感知的新闻表示；Zhang等人将新闻文本的串联作为BERT模型的输入；Qi等人提出利用新闻类别标签构建层次化的用户兴趣表示。这些技术存在以下问题：

(1)在线阅读新闻时，用户对新闻的兴趣呈现出多样化、多粒度的特点。而现在主流的新闻编码器通常通过被点击新闻的某个单一指标如标题等进行特征提取，存在着语义信息不足，提取特征提取不足导致候选新闻匹配性较差的问题。

(2)对于用户点击的两个同类别新闻可能存在着时间跨度较长的现象，模型容易忽略了两个新闻间的关联关系，从而导致模型对用户长期兴趣的捕捉能力较弱。

发明内容

有鉴于此，本发明的目的在于解决新闻编码器提取特征不足以及用户编码器对用户长期兴趣捕捉能力较弱，没有非常好地结合用户的长短期兴趣的问题，提供一种基于注意力和分层候选用户兴趣的新闻推荐系统，采用基于transformer融合注意力的新闻编码器对新闻的标题、主题、子主题以及摘要等信息进行特征提取，采用卷积网络融合自注意力对用户不同点击跨度进行特征提取，提高模型结合用户长短期兴趣的能力。

为达到上述目的，本发明提供如下技术方案：

一种基于注意力和分层候选用户兴趣的新闻推荐系统，包括新闻编码器、用户编码器和兴趣匹配模块；

所述新闻编码器采用trnasformer结合注意力的方式来学习新闻文本表示，对新闻文本进行多粒度的特征提取，获取语义信息，同时结合分成兴趣树进行多粒度兴趣捕捉，与候选新闻匹配；

所述用户编码器利用新闻类别标签来构建分层的用户兴趣表示，并通过学习一个层次化的兴趣树来捕捉多样化和多层次的用户兴趣；

所述兴趣匹配模块采用候选新闻和分层用户兴趣表示作为输入，计算用户级兴趣得分。

进一步，针对第t种新闻文本的类型采用新闻编码器从

所述新闻编码器的底层是单词嵌入，它将新闻标题中的单词、新闻的主题和子主题以及新闻的摘要转换为低维嵌入向量序列；下一层是transformer，用于形成上下文单词表征；最后采用一个词级注意力网络来模拟不同单词的相对重要性，并将它们聚合在一起；

第i个单词的注意力权重β

其中，q

进一步，所述用户编码器中层次化的兴趣树分为三层，分别是子主题层，主题层和用户层；

子主题层采用一个候选感知CNN网络和一个候选感知注意力网络学习用户兴趣表示；所述候选感知注意力网络通过候选新闻来调整行为情境的注意力权重，以选择重要的新闻；所述候选感知CNN网络利用候选新闻信息捕捉相邻点击之间的本地上下文；

主题层用户兴趣表示由同一个主题的d个子主题层的表示得到；

用户层中用户的整体兴趣由各个主题层表示聚合而成。

进一步，所述候选感知注意力网络首先将多个自我关注头应用于点击相关性模型：

其中，

进一步，所述候选感知CNN网络应用多个过滤器来捕捉相邻点击和候选新闻的上下文之间的潜在模式：

其中S

进一步，所述主题层中，对于主题i，用户兴趣表示如下所示：

其中Z

进一步，所述用户层中，权重取决于主题组表示和该主题下被点击的新闻数量，如下所示：

其中α

进一步，所述兴趣匹配模块采用候选新闻和分层用户兴趣表示作为输入；所述候选新闻包括其表示nc、主题tc和子主题sc；首先将候选新闻与整体用户兴趣相匹配，并根据nc和ug之间的相关性计算用户级兴趣得分og：og＝nc·ug。

本发明的有益效果在于：本发明提出了transformer和注意力结合的方式来学习新闻文本表示，对新闻文本进行多粒度的特征提取，获取更丰富的语义信息。同时结合分成兴趣树进行多粒度兴趣捕捉，从而更好地与候选新闻匹配。考虑到新闻推荐模型通常会忽略掉用户点击时间跨度大的新闻，导致模型捕捉用户长期兴趣能力较弱，候选新闻匹配率较低的问题，本发明在子标题级兴趣上采用候选感知自注意网络来学习用户的长期兴趣表示。同时采用一个CNN网络来学习用户短期兴趣表示。两者通过加权，以学习用户兴趣表示，从而更好地与候选新闻匹配，提高新闻推荐的准确性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为基于注意力和分层候选用户兴趣的新闻推荐系统结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1，本发明提供一种基于注意力和分层候选用户兴趣的新闻推荐系统，包括一个新闻编码器，一个用户编码器和一个兴趣匹配模块。

新闻编码器：为了学习新闻信息的文本表示，模型采用trnasformer结合注意力作为文本编码器。transformer是一种基于注意力机制的语言表示模型，它对输入序列的编码和表示学习，并包含丰富的文本信息。

在本实施例中，针对第t种新闻文本的类型采用一个编码器从

其中，q

用户编码器：整体框架是利用新闻类别标签来构建分层的用户兴趣表示，并通过学习一个层次化的兴趣树来捕捉多样化和多层次的用户兴趣，首先学习多个子主题级别的兴趣表示，以对不同新闻子主题(例如足球和高尔夫)中的细粒度用户兴趣进行建模。从由用户在子主题s

在本实施例中，采用一个分层兴趣树作为用户编码器，该编码器分为三层，分别是子主题层，主题层和用户层。其中子主题层采用了一个候选感知CNN网络和一个候选感知注意力网络学习用户兴趣表示。候选感知注意力网络的核心是通过候选新闻来调整行为情境的注意力权重，以选择重要的新闻。首先将多个自我关注头应用于点击相关性模型：

其中，

候选感知CNN网络可以利用候选新闻信息捕捉相邻点击之间的本地上下文。本发明应用多个过滤器来捕捉相邻点击和候选新闻的上下文之间的潜在模式：S

而用户编码器的主题层用户兴趣表示由同一个主题的d个子主题层的表示得到。对于主题i，用户兴趣表示如下所示：

其中Z

最后用户的整体兴趣由各个主题层表示聚合而成，其中权重取决于主题组表示和该主题下被点击的新闻数量，如下所示：

其中α

兴趣匹配模块：不同粒度的候选新闻和用户兴趣之间的匹配可以为用户兴趣定位提供各种线索。与分层的用户编码器相对应的是一个分层的用户兴趣匹配框架，采用候选新闻(包括其表示nc、主题tc和子主题sc)和分层用户兴趣表示作为输入。首先，将候选新闻与整体用户兴趣相匹配，并根据nc和ug之间的相关性计算用户级兴趣得分og：og＝nc·ug。

实施例一：

本实施例的数据集Microsoft资讯数据集(Microsoft News Dataset，MIND)是用于资讯推荐研究的大规模数据集信息收集的来源是Microsoft新闻网站的匿名行为日志。MIND包含大约16万篇英文新闻文章和由100万个用户生成的超过1500万条映像日志。训练数据和验证数据都是一个压缩文件夹，其中包含四个不同的文件，如表1所示。

表1

采用MRR，nDCG@K，ROC曲线下面积AUG作为评价指标。

MRR：平均倒数排名定义为：

其中MRR值大的表示正确推荐的项目位于排名列表的顶部。

nDCG@：归一化折损累计增益定义为：

其中rel

AUG：ROC曲线下面积，表示从样本中取正样本的预测值大于负样本的概率，定义为：

其中M，N分别代表正样本和负样本的个数，S为所有样本的排名。

本发明的实验环境是基于tensorflow+keras框架，采用NVIDIA TESLA P100 GPU训练模型，运用Adam优化器来训练模型。各种方法中的超参数如表2所示。

表2

对于新闻编码器接受的新闻文本标题大小设置为30个词，实体设置为5个词，摘要大小设置为50个词，最大点击设置为50，子主题层和主题层兴趣占全体兴趣比例设置为0.2和0.2。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载