一种资讯召回方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 19:30:30

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种资讯召回方法、装置、电子设备及存储介质。

背景技术

随着网络时代的快速发展，越来越多的资讯/新闻/通知通过小程序/公众号/网页等方式进行发布，获取信息变成了一件轻松而又繁琐的事情。对于高校而言，师生有着大量资讯需要获取，对老师而言，需要了解最新的通知、制度，学习专业知识，阅读感兴趣话题的新闻等；对学生而言，一个便捷的平台来了解学校最新的通知资讯、活动介绍、校园资讯、专业知识等也是十分必要的，因此统一资讯平台应运而生。而为了提高统一资讯平台的使用体验，打造千人千面的个性化推荐又成为了其中的关键一环。

现有召回算法主要召回的是用户可能感兴趣的内容，若仅通过这些算法进行召回，很容易出现马太效应以及用户信息茧房，用户看到的仅仅是自己愿意查看的内容，从而错失一些可能不是很感兴趣，但是与切身相关的十分重要的内容。

发明内容

本申请实施例的目的在于提供一种资讯召回方法、装置、电子设备及存储介质，采用多路召回算法召回用户可能感兴趣和应该阅读的资讯，确保召回内容的多样性，解决了现有方法召回的资讯内容单一导致用户错过与其密切相关的重要资讯的问题。

本申请实施例提供了一种资讯召回方法，应用于高校资讯平台，所述方法包括：

利用多路召回算法获得每种召回算法对应的资讯候选集；

基于当前用户预设的每种召回算法的资讯数量上限获得召回资讯数量；

将所述资讯候选集基于所述召回资讯数量进行排序；

基于所述排序结果向所述当前用户发送对应的资讯。

在上述实现过程中，利用多路召回算法实现多路召回，不仅召回用户可能感兴趣的资讯，而且召回用户应该阅读的资讯，从而提高了资讯内容的多样性，在高校统一资讯平台这一平台中，不仅实现了根据用户兴趣进行个性化推荐的目的，而且实现了给用户推送与其密切相关的重要资讯的目的，解决了现有方法召回的资讯内容单一导致用户错过与其密切相关的重要资讯的问题。

进一步地，所述资讯候选集包括部门新闻、热点资讯、兴趣标签、协同过滤、新鲜资讯，所述利用多路召回算法获得每种召回算法对应的资讯候选集，包括：

基于用户身份召回算法获得部门新闻；

基于资讯热度召回算法获得热点资讯；

基于用户兴趣的召回算法获得兴趣标签；

基于用户行为的召回算法进行协同过滤；

基于资讯实时性的召回算法获得新鲜资讯。

在上述实现过程中，从实效性、流行度、用户兴趣、用户行为、用户身份等方面不仅召回用户可能感兴趣的资讯，而且召回用户应该阅读的资讯，确保召回内容的多样性。

进一步地，所述基于用户身份召回算法获得部门新闻，包括：

获取与所述当前用户身份相关的用户标签和用户标签值；

将至少一个所述用户标签和至少一个所述用户标签值进行组合，生成用户对象；

将所述用户对象与数据源、数据源栏目进行匹配，生成匹配表；

基于所述匹配表获取对应的部门新闻。

在上述实现过程中，通过用户画像进行匹配，可召回与用户身份相关性高的资讯，该资讯为用户应该阅读的资讯。

进一步地，所述基于资讯热度召回算法获得热点资讯，包括：

基于在所述高校资讯平台和当前数据源的阅读量判断是否为热点资讯；

若为热点资讯，则进行召回。

在上述实现过程中，通过资讯在平台内的阅读情况和在数据源的阅读情况，确定热门资讯，从而让用户看到当下的热门消息。

进一步地，所述基于用户兴趣的召回算法获得兴趣标签，包括：

基于NLP算法提取资讯的关键词；

将所述关键词与当前用户选择的兴趣爱好类别转化为向量；

计算每个兴趣爱好类别和所述关键词的余弦相似度，并保存至M*N的第一矩阵中，所述M表示关键词的数量，所述N表示兴趣爱好类别的数量；

从所述第一矩阵中提取每个兴趣爱好类别与所有关键词对应的余弦相似度，生成M*k的第二矩阵，其中，k为小于等于N的整数；

从所述第二矩阵的每一列中提取余弦相似度最大的预设数量的关键词对应的资讯并进行召回。

在上述实现过程中，通过关键词召回用户感兴趣的资讯，基于用户兴趣实现个性化推荐。

进一步地，所述基于用户行为的召回算法进行协同过滤，包括：

获取用户的行为数据并进行处理，获得每名用户交互过的资讯；

利用所述用户和所述资讯的特征构成数据集并利用所述数据集对SVD模型进行训练；

基于用户标签和资讯标签并利用所述SVD模型对每条资讯进行评分，生成评分矩阵；

基于所述评分矩阵获取每名用户评分最高的预设数量的资讯ID并将对应的资讯进行召回。

在上述实现过程中，基于用户行为的召回算法，利用用户之间行为的相似性以及资讯之间的相似性，为用户推荐与其相似的用户曾经阅读或感兴趣的资讯或相似的资讯，并通过协同过滤算法实现。

进一步地，所述基于资讯实时性的召回算法获得新鲜资讯，包括：

获取当天的实时资讯并进行召回。

在上述实现过程中，将当天资讯实时接入平台，获得新鲜资讯。

进一步地，所述基于用户预设的每种召回算法的资讯数量上限获得召回资讯数量，包括：

所述召回资讯数量表示为：

召回资讯数量＝min(a,兴趣标签数量)+min(b,热点资讯数量)+min(c,协同过滤数量)+min(d,部门新闻数量)+min(e,新鲜资讯数量)；

其中，a、b、c、d、e分别表示兴趣标签数量、热点资讯数量、协同过滤数量、部门新闻数量和新鲜资讯数量的资讯数量上限。

在上述实现过程中，基于用户设置的各个召回算法的资讯数量上限，可获得召回资讯数量。

本申请实施例还提供一种资讯召回装置，所述装置包括：

候选集获取模块，用于利用多路召回算法获得每种召回算法对应的资讯候选集；

资讯数量获取模块，用于基于当前用户预设的每种召回算法的资讯数量上限获得召回资讯数量；

排序模块，用于将所述资讯候选集基于所述召回资讯数量进行排序；

召回模块，用于基于所述排序结果向所述当前用户发送对应的资讯。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行计算机程序以使所述电子设备执行上述中任一项所述的资讯召回方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述中任一项所述的资讯召回方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种资讯召回方法的流程图；

图2为本申请实施例提供的资讯召回流程图；

图3为本申请实施例提供的基于用户身份召回算法的流程图；

图4为本申请实施例提供的基于资讯热度召回算法的流程图；

图5为本申请实施例提供的基于用户兴趣的召回算法流程图；

图6为本申请实施例提供的基于用户行为的召回算法的流程图；

图7为本申请实施例提供的资讯召回装置的结构框图；

图8为本申请实施例提供的另一种资讯召回装置的结构框图。

图标：

100-候选集获取模块；110-部门新闻获取模块；120-热点资讯获取模块；130-兴趣标签获取模块；140-协同过滤模块；150-新鲜资讯获取模块；200-资讯数量获取模块；300-排序模块；400-召回模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

请参看图1，图1为本申请实施例提供的一种资讯召回方法的流程图。该方法应用于高校资讯平台，基于高校资讯平台的特殊性，通过多路召回算法，一方面召回用户可能感兴趣的资讯，另一方面召回用户应该阅读的资讯。具体包括以下步骤：

步骤S100：利用多路召回算法获得每种召回算法对应的资讯候选集；

步骤S200：基于当前用户预设的每种召回算法的资讯数量上限获得召回资讯数量；

步骤S300：将所述资讯候选集基于所述召回资讯数量进行排序；

步骤S400：基于所述排序结果向所述当前用户发送对应的资讯。

如图2所示，为资讯召回流程图，通过多路召回算法获得兴趣标签、热点资讯、协同过滤、部门新闻和新鲜资讯等资讯候选集，具体包括：

基于用户身份召回算法获得部门新闻；

基于资讯热度召回算法获得热点资讯；

基于用户兴趣的召回算法获得兴趣标签；

基于用户行为的召回算法进行协同过滤；

基于资讯实时性的召回算法获得新鲜资讯。

其中，基于用户身份召回算法获得部门新闻，如图3所示，为基于用户身份召回算法的流程图，具体包括以下步骤：

步骤S111：获取与所述当前用户身份相关的用户标签和用户标签值；

梳理统一资讯平台接入的数据源及其栏目、梳理用户画像中各个标签中可能出现的用户标签值。

步骤S112：将至少一个所述用户标签和至少一个所述用户标签值进行组合，生成用户对象；

根据高校相关要求，以及对不同用户的阅读内容预期(比如给某组织成员推送与该组织相关网站的资讯、给科研人员推送相关领域网站的资讯等)，将一个或多个用户标签与用户标签值的组合配置成一个用户对象，每名用户可能可以对应到多个用户对象。

步骤S113：将所述用户对象与数据源、数据源栏目进行匹配，生成匹配表；

将用户对象与数据源及数据源栏目进行匹配，生成匹配表保存。

步骤S114：基于所述匹配表获取对应的部门新闻。

在进行召回时，通过每名用户的用户标签值，确定该用户的用户对象id，从而检索到该用户对象id在匹配表中配置的数据源及栏目，这些即为可召回的数据源和栏目，再根据数据源及栏目检索到该数据源和栏目下的所有的资讯，然后筛选时间在7天内的资讯进行召回。

基于用户身份召回算法主要用于召回用户“应该”阅读的资讯。首先，将用户画像中与用户身份相关的标签提取出来，如学生/老师、组织成员/群众、管理学院/人文学院/理学院…，梳理各个不同的标签或者标签组合对应的目标用户群体需要关注的数据源，生成匹配表，如表1所示。

在表中罗列了3个匹配关系，分别是针对所有学生，召回来自网站1的栏目1中的资讯；针对新闻学院的老师，召回来自网站2中的栏目2的资讯；针对老师中的某组织成员，召回来自网站3中的栏目3中的相关资讯。

表1匹配表

通过用户身份召回算法可获得与用户画像相关性高的资讯，可以召回一些用户不感兴趣但是十分重要的资讯，如通知等。

基于资讯热度召回算法获得热点资讯，如图4所示，为基于资讯热度召回算法的流程图，具体包括以下步骤：

步骤S121：基于在所述高校资讯平台和当前数据源的阅读量判断是否为热点资讯；

步骤S122：若为热点资讯，则进行召回。

根据资讯在平台内的阅读情况、以及资讯在数据源的阅读情况，对资讯进行判断，然后为用户推荐被判断为热点资讯的相关资讯，该方法旨在让用户看到热门消息。

基于用户兴趣的召回算法获得兴趣标签，如图5所示，为基于用户兴趣的召回算法流程图，具体包括以下步骤：

步骤S131：基于NLP算法提取资讯的关键词；

用户初次登陆高校资讯平台时将选择个人兴趣板块，从而记录用户选择的兴趣爱好以及平台中资讯的相关信息，该方法旨在推荐用户可能感兴趣的资讯。

高校资讯平台接入每条资讯时使用NLP算法(Natural Language Processing，自然语言处理)提取资讯的关键词，关键词的词性限定为：名词(包括人名、地点等专有名词与普通名词)、动名词、英文单词。

步骤S132：将所述关键词与当前用户选择的兴趣爱好类别转化为向量；

将所有的关键词(共M个)与用户可选择的兴趣爱好类别(共N个)通过word2vec转换为向量。

步骤S133：计算每个兴趣爱好类别和所述关键词的余弦相似度，并保存至M*N的第一矩阵中，所述M表示关键词的数量，所述N表示兴趣爱好类别的数量；

计算每个关键词与每个兴趣爱好类别的余弦相似度，将结果保存在M*N的第一矩阵中。该矩阵的含义为：每个兴趣爱好类别与现有每个关键词之间的相似度，相似度高的兴趣类别与关键词可以认为是有相关关系的。

步骤S134：从所述第一矩阵中提取每个兴趣爱好类别与所有关键词对应的余弦相似度，生成M*k的第二矩阵，其中，k为小于等于N的整数；

在为每名用户召回其感兴趣的资讯时，将该用户自行选择的感兴趣的兴趣爱好类别n1,n2,…,nk(k<＝N)从M*N的矩阵中提取出来，得到大小为M*k的第二矩阵，该矩阵的含义为：每名用户选择的兴趣爱好类别与所有关键词的相似度。

步骤S135：从所述第二矩阵的每一列中提取余弦相似度最大的预设数量的关键词对应的资讯并进行召回。

从M*k的第二矩阵的每一列中分别提取出topK的关键词并将对应的资讯进行召回，即为该名用户的每个兴趣爱好类别挑选出topK个与之相似的关键词，然后将拥有这些关键词的资讯进行召回，其中，K值可根据需要进行调整。

基于用户行为的召回算法进行协同过滤，该方法对用户可能感兴趣的资讯进行预测，核心逻辑是认为用户之间、资讯之间均有相似性，故可以为用户推荐与其相似的用户曾经阅读/感兴趣的资讯或者相似的资讯，该召回方法通过协同过滤算法实现。如图6所示，为基于用户行为的召回算法的流程图，具体包括以下步骤：

步骤S141：获取用户的行为数据并进行处理，获得每名用户交互过的资讯；

将用户的行为数据进行处理，获得每名用户交互(如阅读、点赞、评论等)过的资讯id。

步骤S142：利用所述用户和所述资讯的特征构成数据集并利用所述数据集对SVD模型进行训练；

将每名用户及其交互过的资讯的特征整理为dataframe格式的数据集，数据集输入到SVD模型中进行训练，并获得训练后的SVD模型。

步骤S143：基于用户标签和资讯标签并利用所述SVD模型对每条资讯进行评分，生成评分矩阵；

生成一个M*N的评分矩阵T，其中，M为总用户数，N为总资讯数。遍历评分矩阵，对于评分矩阵的每个元素T[i][j](表示对第i名用户和第j条资讯的打分)，使用SVD模型对评分进行预测，将预测结果填入矩阵。

步骤S144：基于所述评分矩阵获取每名用户评分最高的预设数量的资讯ID并将对应的资讯进行召回。

对评分矩阵中的每名用户，找到其评分topk的资讯id，并将这些资讯召回。

基于资讯实时性的召回算法获得新鲜资讯，包括：

获取当天的实时资讯并进行召回。

该召回方法将当天新接入平台的资讯进行实时接入，让用户能够看到实时性高的最新鲜的资讯，保证资讯的实效性。

对于当前用户，其多路召回的资讯数量由以下公式决定：

召回资讯数量＝min(a,兴趣标签数量)+min(b,热点资讯数量)+min(c,协同过滤数量)+min(d,部门新闻数量)+min(e,新鲜资讯数量)；

其中，a、b、c、d、e分别表示兴趣标签数量、热点资讯数量、协同过滤数量、部门新闻数量和新鲜资讯数量的资讯数量上限。

并且a、b、c、d、e均为可调节数字，代表着各个召回方法召回的资讯数量上限。如min(a,兴趣标签数量)将会构成用户兴趣的召回算法的资讯候选集，其他方法类似，如此将获得5个不同的资讯候选集。

将资讯候选集去重之后将得到最终的多路召回资讯候选集并输入到排序模型进行排序，并基于排序结果向当前用户发送对应的资讯。

本申请结合多种召回算法实现多路召回，实现了从实效性、流行度、用户兴趣、用户行为、用户身份等方法不仅召回用户可能感兴趣的资讯，而且召回用户应该阅读的资讯，从而提高了高校资讯平台的多样性，在高校资讯平台这一平台中，不仅实现了根据用户兴趣进行个性化推荐的目的，而且实现了给用户推送与其密切相关的重要资讯的目的。

实施例2

本申请实施例提供了一种资讯召回装置，应用于实施例1所述的资讯召回方法，如图7所示，为资讯召回装置的结构框图，所述装置包括但不限于：

候选集获取模块100，用于利用多路召回算法获得每种召回算法对应的资讯候选集；

资讯数量获取模块200，用于基于当前用户预设的每种召回算法的资讯数量上限获得召回资讯数量；

排序模块300，用于将所述资讯候选集基于所述召回资讯数量进行排序；

召回模块400，用于基于所述排序结果向所述当前用户发送对应的资讯。

该装置结合多种召回算法实现多路召回，实现了从实效性、流行度、用户兴趣、用户行为、用户身份等方法不仅召回用户可能感兴趣的资讯，而且召回用户应该阅读的资讯，从而提高了推荐系统的多样性，在高校统一资讯平台这一平台中，不仅实现了根据用户兴趣进行个性化推荐的目的，而且实现了给用户推送与其密切相关的重要资讯的目的，解决了现有方法召回的资讯内容单一导致用户错过与其密切相关的重要资讯的问题。

如图8所示，为另一种资讯召回装置的结构框图，在图6的基础上，候选集获取模块100包括：

部门新闻获取模块110，用于基于用户身份召回算法获得部门新闻；

热点资讯获取模块120，用于基于资讯热度召回算法获得热点资讯；

兴趣标签获取模块130，用于基于用户兴趣的召回算法获得兴趣标签；

协同过滤模块140，用于基于用户行为的召回算法进行协同过滤；

新鲜资讯获取模块150，用于基于资讯实时性的召回算法获得新鲜资讯。

对于每种算法的具体实施过程，在实施例1中已经具体说明，在此不做赘述。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行计算机程序以使所述电子设备执行实施例1所述的资讯召回方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行实施例1所述的资讯召回方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李青星;
专利申请人：重庆赛迪奇智人工智能科技有限公司;