掌桥专利:专业的专利平台
掌桥专利
首页

兴趣度预测及模型训练方法、装置、电子设备及存储介质

文献发布时间:2024-01-17 01:15:20


兴趣度预测及模型训练方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域,具体涉及大数据、智能搜索、机器学习等人工智能技术领域,尤其涉及一种兴趣度预测及模型训练方法、装置、电子设备及存储介质。

背景技术

现有技术中,可以从多个渠道采集多个用户的属性信息。并将各用户作为节点,以用户之间的社交关系作为边,使得具有社交关系的不同用户之间能够连通,构建社交关系图。

对于任一用户,基于构建的社交关系图,可以挖掘到与其具有社交关系的关联用户,进而可以基于关联用户的特征信息,预测该用户的在某个业务领域中的兴趣度。例如,若用户A的关联用户B经常参加指定业务的活动,可以预测到该用户A对该指定业务的兴趣度也会较高。

发明内容

本公开提供了一种兴趣度预测及模型训练方法、装置、电子设备及存储介质。

根据本公开的一方面,提供了一种兴趣度预测方法,包括:

基于预先构建的异构图,获取目标用户的特征信息和所述目标用户的关联特征信息;所述异构图是基于用户信息节点与查询语句类别节点两种类型的节点构建而成;

基于所述目标用户的特征信息和所述目标用户的关联特征信息,采用预先训练的指定领域的兴趣度预测模型,预测所述目标用户对所述指定领域的信息的兴趣度。

根据本公开的另一方面,提供了一种兴趣度预测模型的训练方法,包括:

从指定领域的日志信息中,获取样本用户标识以及所述样本用户的标签;

基于所述样本用户标识和预先构建的异构图,获取所述样本用户的特征信息和所述样本用户的关联特征信息;所述异构图基于用户信息节点与查询语句类别节点两种类型的节点构建而成;

基于所述样本用户的特征信息、所述样本用户的关联特征信息以及所述样本用户的标签,对所述指定领域的兴趣度预测模型进行训练。

根据本公开的再一方面,提供了一种兴趣度预测的装置,包括:

特征获取模块,用于基于预先构建的异构图,获取目标用户的特征信息和所述目标用户的关联特征信息;所述异构图是基于用户信息节点与查询语句类别节点两种类型的节点构建而成;

预测模块,用于基于所述目标用户的特征信息和所述目标用户的关联特征信息,采用预先训练的指定领域的兴趣度预测模型,预测所述目标用户对所述指定领域的信息的兴趣度。

根据本公开的又一方面,提供了一种兴趣度预测模型的训练装置,包括:

样本获取模块,用于从指定领域的日志信息中,获取样本用户标识以及所述样本用户的标签;

特征获取模块,用于基于所述样本用户标识和预先构建的异构图,获取所述样本用户的特征信息和所述样本用户的关联特征信息;所述异构图基于用户信息节点与查询语句类别节点两种类型的节点构建而成;

训练模块,用于基于所述样本用户的特征信息、所述样本用户的关联特征信息以及所述样本用户的标签,对所述指定领域的兴趣度预测模型进行训练。

根据本公开的再另一方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的再又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的又另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

根据本公开的技术,能够有效地提高兴趣度预测的准确性。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开第一实施例的示意图;

图2是根据本公开第二实施例的示意图;

图3是本公开提供的一种社交关系图的部分片段示意图

图4是本公开提供的一种异构图的部分片段示意图;

图5是根据本公开第三实施例的示意图;

图6是根据本公开第四实施例的示意图;

图7是根据本公开第五实施例的示意图;

图8是根据本公开第六实施例的示意图;

图9是根据本公开第七实施例的示意图;

图10是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。

需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

图1是根据本公开第一实施例的示意图;如图1所示,本实施例提供一种兴趣度预测方法,用户预测任一目标用户对指定领域的信息的兴趣度,具体可以包括如下步骤:

S101、基于预先构建的异构图,获取目标用户的特征信息和目标用户的关联特征信息;异构图是基于用户信息节点与查询语句类别节点两种类型的节点构建而成;

S102、基于目标用户的特征信息和目标用户的关联特征信息,采用预先训练的指定领域的兴趣度预测模型,预测目标用户对指定领域的信息的兴趣度。

本实施例的异构图为预先构建的,该异构图中包括两种类型的节点:一种为用户信息节点,另一种为查询语句(Query)类别的节点。

其中用户信息节点中可以包括用户的很多的基础信息,如用户标识、用户性别、年龄、职业、学历、兴趣爱好等等,其中用户标识可以为平台为用户配置的标识码,或者可以为其他能够唯一标识用户的标识。本实施例的异构图中所涉及到的所有信息都是在用户授权的前提下获取到的。而且,已经对用户的敏感信息脱敏处理。

本实施例中查询语句类别节点主要用于将不同的用户信息节点连接,该类型的节点中可以不用携带太多的信息。例如可以仅携带查询语句类别的名称、或者还可以包括特征表达如向量。本实施例的查询语句类别即指的是用户在搜索时Query所属的类别,如可以包括信贷、保险、子女教育、婴儿护理、欧美音乐、日韩电影等等很具体的类别。

考虑到现有技术中,构建社交关系图的用户通常来自于不同的渠道。不同渠道间的不同的用户之间存在极少的社交关联,导致社交关系图中用户之间的连通性较差,经常会存在,某些用户没有关联用户,进而导致基于现有的社交关系图,预测用户的兴趣度的准确性较差。

基于此,本公开提出了基于异构图,实现用户的兴趣度的预测。该异构图中不仅包括用户信息节点,还包括与用户信息节点异构的查询语句类别节点。这样的话,即使来自不同渠道,没有社交关系的用户,也可以通过使用的查询语句类别相关联。例如用户A来自渠道1,用户B来自渠道2,两个用户没有社交关系的关联,但是两个用户都使用了子女教育类别的查询语句,那么用户A和用户B可以通过子女教育节点关联起来。因此,相对于现有的社交关系图,本公开使用的异构图的连通性更强。所以,基于该异构图,可以更加全面、更加准确地获取到目标用户的关联特征信息;进而可以更加高效、准确地预测预测目标用户对指定领域的信息的兴趣度。

本实施例的兴趣度预测方法,可以基于预先构建的、包括用户信息节点与查询语句类别节点两种类型的节点异构图,获取目标用户的特征信息和目标用户的关联特征信息,能够使得获取的目标用户的关联特征信息更加全面、准确;进一步基于目标用户的特征信息和目标用户的关联特征信息,采用预先训练的指定领域的兴趣度预测模型,预测目标用户对指定领域的信息的兴趣度,可以有效地提高预测的兴趣度的准确性。

可选地,在本公开的一个实施例中,可以在上述图1所示实施例的步骤S101之前,还包括:

基于采集到的多个用户信息以及各用户信息对应的用户使用的查询语句,构建异构图。

具体地,可以从日志中采集多个用户信息,以及各用户使用过的所有查询语句Query。可选地,为了保证信息的时效性,可以仅从当前时刻之前一定预设时间周期的记录的日志中采集上述信息。其中预设时间周期可以根据实际需求来设置,例如,可以为一周、一个月、一季度或者其他时间周期,在此不做限定。

图2是根据本公开第二实施例的示意图;如图2所示,本实施例提供一种异构图的构建方法,具体用于实现基于采集到的多个用户信息以及各用户信息对应的用户使用的查询语句,构建异构图,具体可以包括如下步骤:

S201、从日志信息中采集多个用户信息以及各用户使用的查询语句;

本实施例中,采集的每个用户信息中可以包括用户标识、性别、年龄、职业、学历、兴趣爱好等等。同时,可以采用到各用户使用过的所有查询语句Query。本实施例用于构建可以适用于各个领域的异构图,所以可以从各个领域的日志信息中采集多个用户信息以及各用户使用的查询语句。

S202、对于各用户使用的查询语句,采用预先训练的特征表达模型,获取查询语句的特征表达;

本实施例的查询语句的特征表达具体可以采用向量的形式来表达。本实施例的特征表达模型可以采用fasttext模型。

假设查询语句在所有领域的分类中共可以包括K类,K的具体数目基于分类粒度的大小不同而不同。

fasttext模型使用之前,可以采用K类已标注类别的查询语句的进行训练,使得同一类别的查询语句的特征表达如向量的相似度可以达到预设相似度阈值以上。预设相似度阈值也可以根据实际需求来设定。fasttext模型经过上述训练后,可以生成各未知类别的查询语句的特征表达。

S203、基于预先确定的已知类别的其他查询语句的特征表达和查询语句的特征表达,识别查询语句的类别;

具体地,可以计算该查询语句的特征表达与已知类别的其他查询语句的特征表达的相似度,将该查询语句的类别识别为相似度最高的其他查询语句的类别。

S204、基于多个用户信息和各用户信息对应的查询语句类别,将各用户信息和各查询语句类别分别作为节点;将具有相同的查询语句类别的两个不同用户信息节点,通过相同的所述查询语句类别节点连接,得到基于用户信息与查询语句类别的异构图;

S205、在异构图中,基于多个用户信息中不同用户信息之间的社交关系,将具有社交关系的两个用户信息节点连接。

本实施例的社交关系可以包括点赞、分享、关注等社交关系。

例如,图3是本公开提供的一种社交关系图的部分片段示意图。如图3所示,ID7、ID1和ID9对应的用户来自第一个渠道;ID2、ID3和ID10对应的用户来自第二个渠道;ID17、ID5和ID8对应的用户来自第三个渠道。在该社交关系中,用户标识ID2的用户和用户标识ID10的用户具有关注关系、用户标识ID10的用户和用户标识ID3的用户具有评论关系。用户标识ID1的用户和用户标识ID7的用户具有关注关系;用户标识ID7的用户和用户标识ID8的用户具有点赞关系。用户标识ID17的用户和用户标识ID5的用户具有关注关系;用户标识ID17的用户和用户标识ID8的用户具有分享关系。

按照现有的技术方案,三种渠道的用户之间没有社交关系,所以社交关系图中,用户之间的连通性非常弱。

图4是本公开提供的一种异构图的部分片段示意图,具体地,图4是基于本实施例的上述步骤S201-S204构建的异构图。

如图4所示,用户标识UID1和用户标识UID2,通过Query类别1关联。用户标识UID1、分别与用户标识UID3和用户标识UID4通过Query类别2关联。与图3相比,本公开的异构图中增加了Query类别的节点,增强了用户之间的连通性。

本实施例,通过采用上述方式,能够构建非常准确、高效地异构图。而且与现有的社交关系图相比,本实施例构建的异构图的连通性非常好,能够将没有社交关系的用户信息有效地连接起来。

而且与现有的社交关系图相比,查询语句的特征之前是作为用户信息节点上的属性进行使用的。而异构图中通过抽取查询语句类别作为一类新的节点,释放了用户信息节点上的大量特征,能够有效地拓宽图结构的容量上限。

图5是根据本公开第三实施例的示意图;如图5所示,本实施例在上述图1所示实施例的基础上,进一步更加详细地描述本公开的技术方案。如图5所示,本实施例的一种兴趣度预测方法,具体可以包括如下步骤:

S501、从异构图的目标用户对应的节点中,获取目标用户的特征信息;

S502、从异构图的、与目标用户对应的节点具有关联关系的至少两阶的邻居节点中,获取目标用户的关联特征信息;

本实施例的异构图,可以采用如图4所示结构的异构图。异构图中包括用户信息节点和查询语句类别节点两种类型的节点。

本实施例中的目标用户可以为异构图中任一用户信息对应的用户。具体实现时,想要预测某个目标用户对某个指定领域的信息的兴趣度,可以先获取该目标用户的标识。然后从异构图的该目标用户对应的节点中存储的该目标用户的属性信息中,获取该目标用户的特征信息,例如,可以包括目标用户的性别、年龄、职业、学历、兴趣爱好、经常浏览的网站信息、经常使用的软件类别等等。

异构图中、与目标用户直接相连的邻居节点为目标用户对应的第一阶节点;与目标用户的第一阶节点直接相连的邻居节点为目标用户对应的第二阶节点;依次类推,可以获取到目标用户的三阶、四阶等多阶节点。其中,目标用户对应的节点可以看作是目标用户的第零阶节点。具体地,可以从目标用户的至少两阶的邻居节点中,获取目标用户的关联用户的特征信息,作为目标用户的关联特征信息。但是实际应用中,距离目标用户信息的节点较远的高阶邻居节点的信息的参考意义也不大,所以,通常情况下,优选地,从目标用户对应的两阶的邻居节点中,获取目标用户的关联特征信息。当然实际应用中,若两阶的邻居节点中,信息较少时,也可以从目标用户对应的三阶或者四阶的邻居节点中,获取目标用户的关联特征信息。

例如,以从目标用户对应的两阶的邻居节点中,获取目标用户的关联特征信息,具体实现时,可以包括如下步骤:

(1)从异构图中,获取目标用户对应的节点最近邻的多个第一阶节点;

(2)从异构图中,获取与各第一阶节点最近邻的第二阶节点,共得到多个第二阶节点;

(3)分别从多个第一阶节点和多个第二阶节点中,获取目标用户的关联用户的特征信息,作为目标用户的关联特征信息。

具体地,多个第一阶节点中可能包括部分查询语句类别节点、部分用户信息节点。而查询语句类别节点仅起到连接的作用,不包括任何用户信息。基于此,具体实现时,可以先从多个第一阶节点和多个第二阶节点中,剔除查询语句类别的节点;然后从剔除后剩余的节点中,获取目标用户的关联用户的特征信息,作为目标用户的关联特征信息。剩余节点包括有多个时,需要获取每个剩余节点中的关联用户的特征信息,一起构成目标用户的关联特征信息。

通过采用上述方式,可以准确地获取到目标用户对应的多个第一阶节点和多个第二阶节点,进而可以准确地获取目标用户的关联特征信息。

在本公开的一个实施例中,若目标用户对应查询语句类别的数量较多,和/或与目标用户具有社交关系的用户较多时,若获取目标用户对应的节点最近邻的所有第一阶节点,会导致第一阶节点的数量较多,此时可以按照预设的筛选策略,从异构图中,获取目标用户对应的节点最近邻的部分第一阶节点,得到多个第一阶节点。

同理,也按照预设的筛选策略,从异构图中,获取与各第一阶节点最近邻的第二阶节点,筛选部分第二阶节点,共得到该目标用户对应的多个第二阶节点。

例如,本实施例的预设的筛选策略,可以包括:从异构图中获取多个第一阶节点,从异构图中获取所述多个第二阶节点。其中,多个第一阶节点的数量不大于第一预设阈值,且多个第二阶节点的数量不大于第二预设阈值;或者多个第一阶节点的数量与多个第二阶节点的数量之和,不大于第三预设阈值。其中,第一预设阈值、第二预设阈值和第三预设阈值均为正整数,具体数值可以根据实际需求来设置。

例如,在本公开的一个实施例中,可以随机从异构图中获取多个第一阶节点,且随机从异构图中获取所述多个第二阶节点。

或者也可以按照一定的规则从异构图中获取多个第一阶节点,且按照该规则从异构图中获取所述多个第二阶节点。例如,这里的规则可以包括基于各节点在历史记录中被选中的概率来获取,每次获取时,优先选则历史记录中,被选中的概率低的节点,进而可以使得所有节点被选中的概率均衡。

或者按照第一预设比例随机从异构图中获取多个第一阶节点,按照第二预设比例随机从异构图中获取所述多个第二阶节点;其中第一预设比例和第二预设比例可以相同,也可以不同,具体数值根据实际需求来设置。

当然,实际应用中,也可以采用其他的预设筛选策略,获取目标用户的部分第一阶节点和部分第二阶节点,共得到多个第一阶节点和多个第二阶节点,在此不再举例赘述。

通过采用上述方式,可以有效地提高多个第一阶节点和多个第二阶节点的获取效率,进而可以提高目标用户的关联特征信息的获取效率。

S503、基于目标用户的特征信息和目标用户的关联特征信息,采用预先训练的指定领域的兴趣度预测模型,预测目标用户对指定领域的信息的兴趣度;

具体地,将目标用户的特征信息和目标用户的关联特征信息,一起输入至兴趣度预测模型,该兴趣度预测模型可以基于输入的信息,经过嵌入表达,然后再经过运算处理,预测并输出该目标用户对指定领域的信息的兴趣度。该兴趣度的值为0-1之间的概率值。该概率值越高,表示该目标用户对指定领域的信息越感兴趣,若该概率值越低,表示该目标用户对指定领域的信息越不感兴趣。

S504、若目标用户对指定领域的信息的兴趣度大于或者等于预设兴趣度阈值,向该目标用户推送指定领域的信息。

本实施例中,可以将目标用户对指定领域的信息的兴趣度,应用在智能搜索和推荐场景中,可以有效地提高信息推送的准确性,提高信息推送效率。

本实施例的兴趣度预测方法,通过采用上述方案,基于异构图,能够获取到非常准确地目标用户的关联特征信息,进而可以高效、准确地预测目标用户对指定领域的信息的兴趣度。

图6是根据本公开第四实施例的示意图;如图6所示,本实施例提供一种兴趣度预测模型的训练方法,具体可以包括如下步骤:

S601、从指定领域的日志信息中,获取样本用户标识以及样本用户的标签;

S602、基于样本用户标识和预先构建的异构图,获取样本用户的特征信息和样本用户的关联特征信息;

S603、基于样本用户的特征信息、样本用户的关联特征信息以及样本用户的标签,对指定领域的兴趣度预测模型进行训练。

具体地,在任何一个领域的场景中,日志信息中都可以记录有所有信息的展示、用户的点击行为等等。例如,日志信息中可以记录有向用户推送指定领域的信息。同时还记录有用户看到推送的信息,是否选择点击和查看信息。若日志信息中记录有用户选择点击和查看,则认为该用户对该指定领域的信息有兴趣,该用户为正样本用户;而若日志信息中没有记录用户选择点击和查看,则认为该用户对该指定领域的信息没有兴趣,该用户为负样本用户。

基于此,可以从指定领域的日志信息中,获取训练指定领域的兴趣度预测模型的样本用户的标识以及样本用户的标签,该样本用户的标签用于标识样本用户对指定领域的信息的是否感兴趣。如可以采用1表示感兴趣,采用0表示不感兴趣。

进一步基于样本用户标识,从预先构建的异构图中,获取该样本用户的特征信息和样本用户的关联特征信息。该异构图是基于用户信息节点与查询语句类别节点两种类型的节点构建而成。步骤S602的具体实现方式,详细可以参考上述图1所示实施例的步骤S101的具体实现方式,在此不再赘述。

具体训练时,将样本用户的特征信息、样本用户的关联特征信息,一起输入至指定领域的兴趣度预测模型中,该指定领域的兴趣度预测模型可以基于输入的信息,预测并输出样本用户对指定领域的信息的兴趣度。该兴趣度为一个0-1之间的概率值。然后基于预测的兴趣度和样本用户的标签,对兴趣度预测模型的参数进行调整,使得预测的结果趋于与样本用户的标签标识的结果一致。例如样本用户的标签为1,标识样本用户为正样本用户,此时可以认为正样本用户对指定领域的信息的兴趣度的预测概率应该为1。样本用户的标签为0,标识样本用户为负样本用户,此时可以认为负样本用户对指定领域的信息的兴趣度的预测概率应该为0。

本实施例中,可以按照上述方式,采用多条样本用户的信息,通过多轮训练的方式,对兴趣度预测模型进行训练。直至训练次数到达预设次数阈值,或者在连续多轮训练中,模型输出的样本用户对指定领域的信息的兴趣度的预测结果始终与样本用户的标签一致,训练结束,确定兴趣度预测模型的参数,进而确定兴趣度预测模型。

本实施例的兴趣度预测模型的训练方法,通过采用上述方式,可以准确地获取到样本用户的关联特征信息,进而可以基于样本用户的特征信息、样本用户的关联特征信息以及样本用户的标签,准确、高效地对指定领域的兴趣度预测模型进行训练,能够有效地提高兴趣度预测模型的训练效率,提高兴趣度预测模型的准确性。

在本公开的一个实施例中,上述实施例中的步骤S601具体实施时,可以包括如下步骤:

(a1)从指定领域的日志信息中,获取具有操作行为的正样本用户标识;并配置正样本用户的标签;和

(b1)从指定领域的日志信息中,获取没有操作行为的负样本用户标识;并配置负样本用户的标签。

需要说明的时,这里的操作行为,都是在具有展示行为的前提下,若展示后,用户具有操作行为,则为正样本用户;否则为负样本用户。配置正样本用户的标签可以为1,表示正样本用户对指定领域的信息的兴趣度的概率值为1。配置负样本用户的标签可以为0,表示负样本用户对指定领域的信息的兴趣度的概率值为0。

在本公开的一个实施例中,上述实施例中的步骤S602具体实施时,可以包括如下步骤:

(a2)从异构图的所述样本用户对应的节点中,获取样本用户的特征信息;

(b2)从异构图的、与样本用户对应的节点具有关联关系的至少两阶的邻居节点中,获取样本用户的关联特征信息。

具体地,可以参考上述图5所示实施例的步骤S501和S502的具体实施。

例如,以从样本用户对应的两阶的邻居节点中,获取样本用户的关联特征信息,具体实现时,可以包括如下步骤:

(a3)从异构图中,获取样本用户对应的节点最近邻的多个第一阶节点;

(b3)从异构图中,获取与各第一阶节点最近邻的第二阶节点,共得到多个第二阶节点;

(b3)分别从多个第一阶节点和多个第二阶节点中,获取样本用户的关联用户的特征信息,作为样本用户的关联特征信息。

通过采用上述方式,可以准确地获取到样本用户对应的多个第一阶节点和多个第二阶节点,进而可以准确地获取样本用户的关联特征信息。

在本公开的一个实施例中,若样本用户对应查询语句类别的数量较多,和/或与样本用户具有社交关系的用户较多时,若获取样本用户对应的节点最近邻的所有第一阶节点,会导致第一阶节点的数量较多,此时可以按照预设的筛选策略,从异构图中,获取样本用户对应的节点最近邻的部分第一阶节点,得到多个第一阶节点。

同理,也按照预设的筛选策略,从异构图中,获取与各第一阶节点最近邻的第二阶节点,筛选部分第二阶节点,共得到样本用户对应的多个第二阶节点。

该实施例中,预设的筛选策略可以参考上述图5所示实施例的相关记载,在此不再赘述。

通过采用上述方案,基于异构图,能够非常准确、高效地获取到目标用户的关联特征信息,进而可以高效、准确地对兴趣度预测模型进行训练。

图7是根据本公开第五实施例的示意图;如图7所示,本实施例提供一种兴趣度预测装置700,包括:

特征获取模块701,用于基于预先构建的异构图,获取目标用户的特征信息和所述目标用户的关联特征信息;所述异构图是基于用户信息节点与查询语句类别节点两种类型的节点构建而成;

预测模块702,用于基于所述目标用户的特征信息和所述目标用户的关联特征信息,采用预先训练的指定领域的兴趣度预测模型,预测所述目标用户对所述指定领域的信息的兴趣度。

本实施例的兴趣度预测装置700,通过采用上述模块实现兴趣度预测的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。

图8是根据本公开第六实施例的示意图;如图8所示,本实施例提供一种兴趣度预测装置800,包括:采用上述图7所示实施例的同名同功能模块:特征获取模块801和预测模块802。

如图8所示,在本实施例中,特征获取模块801,包括:

第一获取单元8011,用于从所述异构图的所述目标用户对应的节点中,获取所述目标用户的特征信息;

第二获取单元8012,用于从所述异构图的、与所述目标用户对应的节点具有关联关系的至少两阶的邻居节点中,获取所述目标用户的关联特征信息。

进一步地,在本公开的一个实施例中,第二获取单元8012,用于:

从所述异构图中,获取所述目标用户对应的节点最近邻的多个第一阶节点;

从所述异构图中,获取与各所述第一阶节点最近邻的第二阶节点,共得到多个第二阶节点;

分别从所述多个第一阶节点和所述多个第二阶节点中,获取所述目标用户的关联用户的特征信息,作为所述目标用户的关联特征信息。

进一步地,在本公开的一个实施例中,第二获取单元8012,用于:

按照预设的筛选策略,从所述异构图中,获取所述目标用户对应的节点最近邻的所述多个第一阶节点;

从所述异构图中,获取与各所述第一阶节点最近邻的第二阶节点,共得到多个第二阶节点,包括:

按照所述预设的筛选策略,从所述异构图中,获取与各所述第一阶节点最近邻的第二阶节点,共得到所述多个第二阶节点。

进一步地,在本公开的一个实施例中,预设的筛选策略,包括:

从所述异构图中获取所述多个第一阶节点,从所述异构图中获取所述多个第二阶节点;其中,所述多个第一阶节点的数量不大于第一预设阈值,且所述多个第二阶节点的数量不大于第二预设阈值;或者所述多个第一阶节点的数量与所述多个第二阶节点的数量之和,不大于第三预设阈值;或者

按照第一预设比例随机从所述异构图中获取所述多个第一阶节点,按照第二预设比例随机从所述异构图中获取所述多个第二阶节点。

进一步地,在本公开的一个实施例中,第二获取单元8012,用于:

从所述多个第一阶节点和所述多个第二阶节点中,剔除查询语句类别的节点;

从剔除后剩余的节点中,获取所述目标用户的关联用户的特征信息,作为所述目标用户的关联特征信息。

进一步地,如图8所示,在本公开的一个实施例中,兴趣度预测装置800,还包括:

构建模块803,用于基于采集到的多个用户信息以及各所述用户信息对应的用户使用的查询语句,构建所述异构图。

进一步地,在本公开的一个实施例中,构建模块803,用于:

对于各所述用户使用的查询语句,采用预先训练的特征表达模型,获取所述查询语句的特征表达;

基于预先确定的已知类别的其他查询语句的特征表达和所述查询语句的特征表达,识别所述查询语句的类别;

基于所述多个用户信息和各所述用户信息对应的所述查询语句类别,将各所述用户信息和各所述查询语句类别分别作为节点;将具有相同的查询语句类别的两个不同用户信息节点,通过相同的所述查询语句类别节点连接,得到基于用户信息与查询语句类别的异构图;

在所述异构图中,基于所述多个用户信息中不同用户信息之间的社交关系,将具有社交关系的两个所述用户信息节点连接。

本实施例的兴趣度预测装置800,通过采用上述模块实现兴趣度预测的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。

图9是根据本公开第七实施例的示意图;如图9所示,本实施例提供一种兴趣度预测模型的训练装置900,包括:

样本获取模块901,用于从指定领域的日志信息中,获取样本用户标识以及所述样本用户的标签;

特征获取模块902,用于基于所述样本用户标识和预先构建的异构图,获取所述样本用户的特征信息和所述样本用户的关联特征信息;所述异构图基于用户信息节点与查询语句类别节点两种类型的节点构建而成;

训练模块903,用于基于所述样本用户的特征信息、所述样本用户的关联特征信息以及所述样本用户的标签,对所述指定领域的兴趣度预测模型进行训练。

本实施例的兴趣度预测模型的训练装置900,通过采用上述模块实现兴趣度预测模型的训练的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。

进一步地,在本公开的一个实施例中,样本获取模块901,用于:

从所述指定领域的所述日志信息中,获取具有操作行为的正样本用户标识;并配置所述正样本用户的标签;和

从所述指定领域的所述日志信息中,获取没有操作行为的负样本用户标识;并配置所述负样本用户的标签。

进一步地,在本公开的一个实施例中,特征获取模块902,用于:

从所述异构图的所述样本用户对应的节点中,获取所述样本用户的特征信息;

从所述异构图的、与所述样本用户对应的节点具有关联关系的至少两阶的邻居节点中,获取所述样本用户的关联特征信息。

上述实施例的兴趣度预测模型的训练装置900,通过采用上述模块实现兴趣度预测模型的训练的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。

本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如本公开的上述方法。例如,在一些实施例中,本公开的上述方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的本公开的上述方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开的上述方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • MR图像预测模型的训练方法、装置、设备及存储介质
  • CT图像预测模型的训练方法、装置、设备及存储介质
  • 相似度预测模型训练方法、设备及计算机可读存储介质
  • 一种书法训练方法、装置、电子设备及存储介质
  • 工作量评估及模型训练方法、电子设备及存储介质
  • 预测模型的训练方法、兴趣度预测方法、装置和存储介质
  • 满意度预测模型的训练方法、装置、电子设备及存储介质
技术分类

06120116084657