掌桥专利:专业的专利平台
掌桥专利
首页

基于实体热度的处理方法、装置、终端及存储介质

文献发布时间:2024-04-18 20:01:23


基于实体热度的处理方法、装置、终端及存储介质

技术领域

本公开涉及但不限于人工智能领域或者计算机技术领域,尤其涉及一种基于实体热度的处理方法、装置、终端及存储介质。

背景技术

自然语言处理(Natural Language Process,NLP)技术是人工智能技术的一大分支领域;利用自然语言处理技术可以赋予计算机处理和分析人类自然语言的能力,可以高效的识别、整理和/或分析文本信息。例如,利用NLP技术可以对文本信息的信息检索,实体链接,智能问答和/或关系抽取等进行多个维度的分析。

实体链接任务是与NPL技术相关的典型上游任务,该实体链接任务在很多任务中,如信息检索、内容分析、智能回答或者知识库扩充等任务中都非常重要。该实体链接主要包括:实体识别和实体消岐两个过程。传统的实体链接主要针对长文档,该针对长文档的实体链接拥有充分的上下文信息,能够辅助实体的识别和消岐;而针对短文档的实体链接通常不遵循语法规则且具有上下文有限的特点,使得短文本的实体链接存在很大的挑战。

实体消岐作为实体链接中一个重要环节,目的是从众多的候选实体中找到正确的实体。而在实体消岐中非常有用的一个上下文独立特征是候选实体的流行度,特别是对于没有上下文信息的短文本,结合该流行度可以给出概率最高的候选实体。然而,目前衡量实体流行度的方法主要是实体出现在其它页面的频率或者实体描述的文字长度;该种流行度的计算单一、准确性较差。

发明内容

为克服相关技术中存在的问题,本公开提供一种基于实体热度的处理方法、装置、终端及存储介质。

根据本公开的第一方面,提供一种基于实体热度的处理方法,包括:

获取实体指称项链接的候选实体集,其中,所述候选实体集包括:至少一个候选实体;

获取所述候选实体的至少两个热度特征的热度分数;

基于所述候选实体的至少两个所述热度分数,获取所述候选实体的综合分数;

基于所述综合分数,从所述候选实体集中选择满足预定条件的所述候选实体作为所述实体指称项链接的目标实体。

在一些实施例中,所述热度特征,包括以下至少之一:

被链接次数;

至少一个实体属性;

动态行为数据,其中,所述动态行为数据包括以下至少之一:收藏次数、分享次数、及点赞次数。

在一些实施例中,所述基于所述候选实体的至少两个所述热度分数,获取所述候选实体的综合分数,包括:

将所述候选实体的至少两个所述热度分数输入到训练后的多层感知机(Multilayer Perceptron,MLP)模型进行融合训练,以获得所述候选实体的所述综合分数。

在一些实施例中,所述方法还包括:

对所述候选实体的各所述热度特征的所述热度分数进行归一化处理,以获得各所述热度特征的归一化分数;和/或,

对所述候选实体的各所述热度特征的所述热度分数进行概率化处理,以获得各所述热度特征的概率化分数;

所述将所述候选实体的至少两个所述热度分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的所述综合分数,包括:

将所述候选实体的至少部分所述热度特征的所述归一化分数和/或所述概率化分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的所述综合分数。

在一些实施例中,所述方法还包括:

获取样本指称项的正样本及预定数量的负样本;

将所述正样本的所述热度特征的热度分数及所述负样本的所述热度特征的热度分数输入到初始MLP模型,直至设置的损失函数满足收敛条件,获得训练后的所述MLP模型。

在一些实施例中,所述方法包括:

基于各所述候选实体的实体属性,获取实体属性为高频实体属性的所述候选实体作为备选目标实体;其中,指示所述高频实体属性的属性值大于预定属性值;

所述获取所述候选实体的至少两个热度特征的热度分数,包括:

获取所述备选目标实体的至少两个所述热度特征的所述热度分数;

所述基于所述候选实体的至少两个所述热度分数,获取所述候选实体的综合分数,包括:

基于所述备选目标实体的至少两个所述热度分数,获取所述目标候选实体的综合分数;

所述基于所述综合分数,从所述候选实体集中选择满足预定条件的所述候选实体作为所述实体指称项链接的目标实体,包括:

基于所述目标候选实体的所述综合分数,选择满足预定条件的所述目标候选实体作为所述实体指称项链接的所述目标实体。

根据本公开的第二方面,提供一种基于实体热度的处理装置,包括:

第一获取模块,用于获取实体指称项链接的候选实体集,其中,所述候选实体集包括:至少一个候选实体;

第二获取模块,用于获取所述候选实体的至少两个热度特征的热度分数;

处理模块,用于基于所述候选实体的至少两个所述热度分数,获取所述候选实体的综合分数;

选择模块,用于基于所述综合分数,从所述候选实体集中选择满足预定条件的所述候选实体作为所述实体指称项链接的目标实体。

在一些实施例中,所述热度特征,包括以下至少之一:

被链接次数;

至少一个实体属性;

动态行为数据,其中,所述动态行为数据包括以下至少之一:收藏次数、分享次数、及点赞次数。

在一些实施例中,所述处理模块,用于将所述候选实体的至少两个所述热度分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的所述综合分数。

在一些实施例中,所述装置还包括:

所述第二获取模块,用于对所述候选实体的各所述热度特征的所述热度分数进行归一化处理,以获得各所述热度特征的归一化分数;和/或,

所述第二获取模块,用于对所述候选实体的各所述热度特征的所述热度分数进行概率化处理,以获得各所述热度特征的概率化分数;

所述处理模块,用于将所述候选实体的至少部分所述热度特征的所述归一化分数和/或所述概率化分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的所述综合分数。

在一些实施例中,所述装置还包括:

所述第一获取模块,用于获取样本指称项的正样本及预定数量的负样本;

所述处理模块,用于将所述正样本的所述热度特征的热度分数及所述负样本的所述热度特征的热度分数输入到初始MLP模型,直至设置的损失函数满足收敛条件,获得训练后的所述MLP模型。

在一些实施例中,所述装置包括:

所述第一获取模块,用于基于各所述候选实体的实体属性,获取实体属性为高频实体属性的所述候选实体作为备选目标实体;其中,指示所述高频实体属性的属性值大于预定属性值;

所述第二获取模块,用于获取所述备选目标实体的至少两个所述热度特征的所述热度分数;

所述处理模块,用于基于所述备选目标实体的至少两个所述热度分数,获取所述目标候选实体的综合分数;

所述选择模块,用于基于所述目标候选实体的所述综合分数,选择满足预定条件的所述目标候选实体作为所述实体指称项链接的所述目标实体。

根据本公开实施例的第三方面,提供一种终端,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:用于运行所述可执行指令时,实现本公开任意实施例所述的基于实体热度的处理方法。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述可读存储介质存储有可执行程序,其中,所述可执行程序被处理器执行时,实现本公开任意实施例所述基于实体热度的处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果:

本公开实施例可以,可以通过终端获取实体指称项链接的包括至少一个候选实体的候选实体集,获取所述候选实体的至少两个热度特征的热度分数;并基于所述候选实体的至少两个所述热度分数,获取所述候选实体的综合分数;基于所述综合分数,从所述候选实体集中选择满足预定条件的所述候选实体作为所述实体指称项链接的目标实体。如此,本公开实施例可以获取实体指称项的候选实体集,可以获得实体指称项比较全面的候选实体。且,可以获取候选实体的至少两个热度特征的热度分数确定候选实体的综合分数,从而可以从多个维度衡量候选实体是否为实体指称项的目标实体;如此可以提高获取目标实体的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据本公开一示例性实施例示出的一种实体链接的示意图。

图2是根据本公开一示例性实施例示出的一种实体链接的示意图。

图3是根据本公开一示例性实施例示出的一种基于实体热度的处理方法的流程图。

图4是根据本公开一示例性实施例示出的一种实体链接页面的部分信息的示意图。

图5是根据本公开一示例性实施例示出的一种实体页面的动态行为数据记录的示意图。

图6是根据本公开一示例性实施例示出的一种确定候选实体的热度特征的热度分数的流程图。

图7是根据本公开一示例性实施例示出的一种基于实体热度的处理方法的流程图。

图8是根据本公开一示例性实施例示出的一种基于实体热度的处理方法的流程图。

图9是根据本公开一示例性实施例示出的一种MLP模型的示意图。

图10是根据本公开一示例性实施例示出的一种基于MLP模型确定综合分数的示意图。

图11是根据本公开一示例性实施例示出的一种基于实体热度的处理装置的框图。

图12是根据本公开一示例性实施例示出的一种终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

为了更好地理解本公开任意实施例所描述的技术方案,首先,对相关技术中实体链接进行部分说明:

在一个实施例中,实体链接可以是:将文本信息中实体指称项(mention)和知识库中的实体进行链接。例如,如图1所示,文本信息为“王者荣耀中的李白有哪些技能?”实体指称项“李白”进行实体链接;该“李白”可以链接到知识库中“游戏角色”、“唐代诗人”、“A艺人歌曲”、“电视”、“漫画角色”、“B艺人歌曲”、“C艺人妻子”等多个候选实体。

在一个实施例中,实体链接包括:实体识别和实体消岐;其中,实体识别用于识别出实体指称项的候选实体;实体消岐用于从至少一个候选实体中找到目标实体。这里,该目标实体是实体指称项链接的正确的实体。例如,如图2所示,实体链接包括实体识别和实体消岐;实体消岐包括实体消岐粗排及实体消岐精排;终端可基于实体识别获取候选实体,例如从知识库(KB)中获取候选实体;并基于实体消岐粗排,从候选实体获得粗排后的候选实体;基于实体消岐精排,从粗排后的候选实体中获取目标实体。

在一个实施例中,表征实体的流行度(即热度)的特征包括:出现在其他实体页面的次数。例如,该次数可通过

在另一个实施例中,表征实体的流行度的特征包括:实体网页中对实体描述的文本长度。

在又一个实施例中,若该实体为地点类实体,表征该地点类实体的流行度的特征包括:该实体的面积大小和/或人口总数。

图3是一示例性实施例提出的一种基于实体热度的处理方法;如图3所示,所述基于实体热度的处理方法,包括以下步骤:

步骤S11:获取实体指称项链接的候选实体集,其中,所述候选实体集包括:至少一个候选实体;

步骤S12:获取所述候选实体的至少两个热度特征的热度分数;

步骤S13:基于所述候选实体的至少两个所述热度分数,获取所述候选实体的综合分数;

步骤S14:基于所述综合分数,从所述候选实体集中选择满足预定条件的所述候选实体作为所述实体指称项链接的目标实体。

本公开实施例所述的基于实体热度的处理方法,应用于终端。此处的终端可以是各种移动设备或者固定设备。例如,所述终端可以是服务器、计算机、平板电脑、移动手机、电视、音箱、穿戴式设备,等等。

这里,该实体指称项可以为需要进行实体链接的任意一个文本信息中的实体。例如,需要进行实体链接的文本信息为“蓝鲸是什么”,该“蓝鲸”为实体指称项。这里,该文本信息可以是任意一种文本信息;该文本信息可以是长文本信息和/或短文本信息。

这里,热度特征是指表征实体的热度(或者流行度)的特征;例如该候选实体的热度特征包括但不限于以下至少之一:被链接次数;至少一个实体属性;动态行为数据,其中,所述动态行为数据包括以下至少之一:收藏次数、分享次数、及点赞次数。

这里,动态行为数据还可以是其它数据,例如下载次数、关注次数和/或浏览次数等。

在一些实施例中,步骤S12,包括:获取所述候选实体的被链接次数、实体属性、收藏次数、分享次数及点赞次数的其中至少之二的热度分数。

这里,被链接次数可以是:在实体页面链接的次数;收藏次数可以是:在实体页面被收藏的次数;分享次数可以是:在实体页面被分享的次数;点赞次数可以是:在实体页面被点赞的次数。该实体页面可以任意一种页面或者各类知识库;例如该实体页面可以是维基百科(Wikipedia)页面、百度百科页面、或者中文知识图谱(CN-DBpedia)等。

这里,该实体属性可用于标识实体的类型;一个实体属性表征一个实体的类型。例如,该实体可以是“人物”、“地方”、“产品”和/或“影视”等类型。例如,若该候选实体为“蓝鲸”,则该候选实体的实体属性可以是“动物”类型或者“游戏产品”类型等。

这里,实体属性的热度评分可以分为至少两个分数等级。例如,将实体属性的热度评分为0.5和1两个分数等级;其中,0.5指示的是该实体属性出现频率相对较低的类型属性,1指示的是该实体属性出现频率相对较高的类型属性。又如,将实体属性的热度评分分为1至N个分数等级,其中,N为大于1的整数;第1至N个分数等级对应的分数依次降低;第1至N个分数等级对应的分数所指示实体属性出现的频率依次降低。

这里,该候选实体集包括:一个或多个候选实体。在本公开的一些实施例中,多个是指两个或两个以上。

在一个实施例中,步骤S11之前,还包括:获取文本信息中的实体指称项。

示例性的,如图1所示,终端获取文本信息“王者荣耀中的李白有哪些技能?”,基于该文本信息获取实体指称项“李白”;基于该“李白”,从知识库中获取该“李白”的候选实体集,该实体候选集包括“游戏角色”、“唐代诗人”、“A艺人歌曲”、“电视”、“漫画角色”、“B艺人歌曲”、“C艺人妻子”的其中至少之一。终端获取该候选实体集中部分候选实体的被链接次数、收藏次数、分享次数、点赞次数及类型属性的其中至少之一的热度分数;例如,获取到候选实体“游戏角色”在百度百科等页面被链接次数为10次、收藏次数为20次、分享次数为10次和/或点赞次数为30次的热度评分,和/或类型属性的为“游戏产品”的0.5的热度评分。

在一个实施例中,获取候选实体的链接次数,包括:获取第一实体页面中指称项的第一ID;基于第一ID映射到第二实体页面,获取指称项对应的实体ID;确定获取到实体ID的次数为候选实体的链接次数。

示例性的,如图4所示,在第一实体页面,如维基百科页面中“基本信息”和“早年经历”等字段,获取所有指称项(mention)和对应的第一ID(lemmaId);例如获取到实体指称项“B艺人”及第一ID“item/B艺人/3976957”的“3976957”。将该第一ID映射到第二实体页面,如小米知识库中,获取相应的“B艺人”对应的实体ID(@id)。统计出“@id”下“B艺人”被链接的次数,即为候选实体的链接次数。如此,对于一词多义或者多词同义,同一个指称项可能被链接到不同的实体ID,构成指称项的候选实体集;从而可以基于候选实体集中不同的候选实体获取各候选实体被链接次数。

示例性的,终端可确定出实体指称项的候选实体的至少一个动态行为数据的热度分数;例如如图5所示,终端可确定候选实体在实体页面的收藏次数、分享次数和/或点赞次数的热度评分。

在一些实施例中,如图6所示,提供一种确定候选实体的热度特征的热度分数的流程图;该候选实体的热度特征的热度分数的确定包括:步骤S21:获取页面的文本信息;步骤S22:获取实体指称项(mention)对应的第一ID(lemmaId)的映射表;步骤S23a:确定第一ID被链接次数;步骤S23b:将第一ID映射到知识库中,获取实体指称项及实体ID(@id)的映射标识;步骤S23c:获取第一ID收藏次数、分享次数和/或点赞次数;步骤S24:获取被链接次数、收藏次数、分享次数和/或点赞次数的热度分数。这里,步骤S22中获取第一ID可以通过解析统一资源定位符(url)获取实体指称项对应的第一ID。

在一个实施例中,获取被链接次数的热度分数,可以为:确定被链接的次数为被链接次数的热度分数;获取收藏次数的热度分数,可以为:确定收藏次数为收藏次数的热度分数;获取分享次数的热度分数,可以为:确定分享次数为分享次数的热度分数;和/或,获取点赞次数,可以为:确定点赞次数为点赞次数的热度分数。

在另一些实施例中,获取被链接次数的热度分数、收藏次数的热度分数、分享次数的热度分数、及点赞次数的热度分数,也可以分别是:基于链接次数及预定比值的乘积、收藏次数与预定比值的乘积、分享次数与预定比值的乘积、及点赞次数与预定比值的乘积确定获取。这里,各热度特征对应的预定比值可以相同或者不同。这里,只需满足同一个实体指称项对应的不同候选实体的预定比值相同即可。

这里,目标实体可以是:实体指称项链接的正确的实体。

这里,预定条件可以是但不限于是以下其中之一:综合分数最高、综合分数最低、综合分数大于预定分数、及综合分数小于或等于预定分数。

在一些实施例中,所述步骤S14,包括:基于所述综合分数,从所述候选实体集中选取综合分数最高的候选实体作为所述实体指称项链接的目标实体。

这里,预定条件也可以是:与用户需求匹配的综合分数。

在本公开实施例中,可以通过终端获取实体指称项链接的包括至少一个候选实体的候选实体集,获取所述候选实体的至少两个热度特征的热度分数;并基于所述候选实体的至少两个所述热度分数,获取所述候选实体的综合分数;基于所述综合分数,从所述候选实体集中选择满足预定条件的所述候选实体作为所述实体指称项链接的目标实体。如此,本公开实施例可以获取实体指称项的候选实体集,可以获得实体指称项比较全面的候选实体。且,可以获取候选实体的至少两个热度特征的热度分数确定候选实体的综合分数,从而可以从多个维度衡量候选实体是否为实体指称项的目标实体;如此可以提高获取目标实体的准确性。

在一些实施例中,步骤S12,包括:获取所述候选实体集中部分所述候选实体的至少两个热度特征的热度分数;

步骤S13,包括:基于至少部分所述候选实体的至少两个所述热度分数,获取至少部分所述候选实体的综合分数;

步骤S14,包括:基于至少部分候选实体的所述综合分数,从至少部分所述候选实体中选择满足预定条件的所述候选实体作为所述实体指称项链接的目标实体。

如此,本公开实施例只需获取候选实体集中部分候选实体的至少两个热度特征的热度分数,并基于该至少部分候选实体的至少两个热度特征的热度分数确定至少部分候选实体的综合评分。如此可以对候选实体先进行初步筛选,可以减少获取热度分数及综合分数的计算量、及提高获取到目标实体的速度。

如图7所示,在一些实施例中,所述方法包括:

基于各所述候选实体的实体属性,获取实体属性为高频实体属性的所述候选实体作为备选目标实体;其中,指示所述高频实体属性的属性值大于预定属性值;

所述步骤S12,包括:步骤S121:获取所述备选目标实体的至少两个所述热度特征的所述热度分数;

所述步骤S13,包括:步骤S131:基于所述备选目标实体的至少两个所述热度分数,获取所述目标候选实体的综合分数;

所述步骤S14,包括:步骤S141:基于所述目标候选实体的所述综合分数,选择满足预定条件的所述目标候选实体作为所述实体指称项链接的所述目标实体。

这里,终端可以获取实体指称项的各候选实体;例如一个实体指称项的候选实体为50个,该50个候选实体的实体属性只有其中5个是属于高频实体属性,则将该5个高频实体属性对应的候选实体作为备选目标实体。

示例性的,如“人物”、“地方”、“产品”和“影视”等实体属性类型属于高频实体属性。

示例性的,若候选实体的实体属性用字符串表示,可将该字符串转变为数值型特征;例如将实体属性转换为“one-hot”或者“embedding。经过对线上数据中实体的实体属性统计发现,其中像“人物”、“地方”、“产品”和“影视”等属于高频实体属性;越是高频的实体属性对应的候选实体作为目标实体的概率越大。则终端可以选取了排名在前10(top10)的实体属性对应的候选实体进行“one-hot”处理(即将top10的实体属性对应的候选实体作为目标候选实体);同时为了避免类型特征过于稀疏,将top10以后的实体属性对应的候选实体统一作为“-1”类。

在一个实施例中,实体属性的属性值,可以为实体属性的热度分数。

在其它的实施例中,终端也可以从候选实体集中,获取属性值高于预定属性值的预定数量的实体属性所对应的候选实体作为目标候选实体。

在本公开实施例中,可以通过在候选实体集中选取目标候选实体,该目标候选实体作为目标实体的概率相对较大。如此可以在提高获取目标实体的准确性的同时,能够减少获取目标实体的计算量,能节省终端计算资源及能耗等。

在一些实施例中,步骤S13,包括:基于所述候选实体的至少两个所述热度特征的热度分数及所述热度特征的对应的权重系数,获取候选实体的综合分数。

这里,一个候选实体的各热度特征对应的权重系数之和可为1。

示例性的,若候选实体的热度特征为被链接次数、收藏次数、分享次数、点赞次数及实体属性1;该被链接次数、收藏次数、分享次数、点赞次数及实体属性1的热度分数为S1、S2、S3、S4及S5;该被链接次数、收藏次数、分享次数、点赞次数及实体属性1对应的权重系数分别为Q1、Q2、Q3、Q4及Q5;则确定候选实体的综合分数S=S1×Q1+S2×Q2+S3×Q3+S4×Q4+S5×Q5。这里,Q1+Q2+Q3+Q4+Q5可为1。

如此,在本公开实施例中,可以基于候选实体的各热度特征的热度分数及各热度特征对应的权重系数,确定候选实体的综合分数;如此可以基于热度情况获取候选实体的准确的综合评分。

在一些实施例中,所述步骤S13,包括:

将所述候选实体的至少两个所述热度分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的所述综合分数。

这里,候选实体的热度分数输入到训练后的MLP模型进行融合训练的迭代次数可以为预定次数。例如可以为50次、60次或者100次等。这里,进行迭代次数的次数越多,获取的综合分数越准确。

如图8所示,在一些实施例中,所述方法还包括:

步骤S31:对所述候选实体的各所述热度特征的所述热度分数进行归一化处理,以获得各所述热度特征的归一化分数;和/或,对所述候选实体的各所述热度特征的所述热度分数进行概率化处理,以获得各所述热度特征的概率化分数;

所述将所述候选实体的至少两个所述热度分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的所述综合分数,包括:

步骤S32:将所述候选实体的至少部分所述热度特征的所述归一化分数和/或所述概率化分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的所述综合分数。

在一个实施例中,所述对所述候选实体的各所述热度特征的所述热度分数进行归一化处理,以获得各所述热度特征的归一化分数,包括:

基于所述候选实体各所述热度特征的所述热度分数分别与各热度特征中最大热度分数的比值,确定各所述热度特征的归一化分数。

示例性的,候选实体的一个热度特征的归一化分数

在其它的实施例中,进行各热度特征的热度分数的归一化处理还可以是其它任意可实现方式,例如可以基于各热度特征的热度分数与同一个分数值的乘积确定;在此不对归一化处理的方式做限制。

在一个实施例中,对所述候选实体的各所述热度特征的所述热度分数进行概率化处理,以获得各所述热度特征的概率化分数,包括:

基于所述候选实体各所述热度特征的所述热度分数分别与所述各热度分数之和的比值,确定各所述热度特征的概率化分数。

示例性的,候选实体的一个热度特征的概率化分数

在其它的实施例种,进行各热度特征的热度分数的概率化处理还可以是其它任意可实现方式,例如可以基于各热度特征的热度分数与同一个分数值的乘积确定;再出不对概率化处理的方式做限制。

在一个实施例中,步骤S32,包括:将候选实体的被链接次数的归一化分数和概率化分数、候选实体的收藏次数的归一化分数和概率化分数、分享次数的归一化分数和概率化分数、点赞次数的归一化分数和概率化分数、以及实体属性的热度分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的综合分数。

示例性的,该MLP模型可以如图9所示;该MLP模型包括输入层(Input_layer)、隐藏层(Dense(128))、丢弃层(Dropout(0,2))、隐藏层(Dense(1))及输出层(Output_layer)。这里,输入层输入候选实体各热度特征的特征值;该特征值包括热度分数、归一化分数和/或概率化分数。隐藏层Dense(128)有128个神经元,并使用激活函数ReLU获得候选实体的综合分数;该综合分数通过Dropout层、及具有一个神经元的隐藏层(Dense(1))输出,最后使用激活函数Sigmoid获取0-1间的分数值。该MLP模型的主要参数设置可以如下表1所示。

表1

示例性的,如图10所示,提供一种步骤S32的实现方式;该MLP模型有9个输入和1个输出;其隐藏层包含128个隐藏单元;该MLP中的输入层与隐藏层是全连接的;该输入层的每个输入都会影响隐藏层的每个神经元,隐藏层的每个神经元会影响输出层的每个神经元。一种融合训练过程如下:

步骤S41:输入层的输入9个特征值,该9个特征值可以为x

步骤S42:该9个特征值经过隐藏层获取隐藏层输出。该隐藏层的权重为

步骤S43:隐藏层输出经过输出层,获得候选实体的综合评分。该输出层的权重为

可选地,步骤S44,采用激活函数将候选实体的综合评分分布在0-1之间。这里,该0至1之间的综合评分可基于sigmoid(y)确定。

这里,该激活函数RELU及激活函数Sigmoid均可以是任意一种可实现的函数,在此不做限制。

如此,在本公开实施例中可以将各热度特征的热度分数输入到训练后的MLP模型中进行融合训练,从而可以得到一个无关上下文特征的准确的综合分数;可以有利于基于该综合分数的排序获取到实体指称项的目标实体。

且,输入到MLP模型的特征值也可以各热度特征的归一化分数和/或概率化分数,如此可以使得各热度特征对应的特征值分布相对均匀,从而可以有利于MLP模型训练后得到更精准的评估分数。

在一些实施例中,所述方法还包括:

获取样本指称项的正样本及预定数量的负样本;

将所述正样本的所述热度特征的热度分数及所述负样本的所述热度特征的热度分数输入到初始MLP模型,直至设置的损失函数满足收敛条件,获得训练后的所述MLP模型。

这里,各样本指称项可对应多个候选样本实体;该多个候选样本实体包括一个正样本,其它的候选样本实体均为负样本。这里,正样本为样本指称项正确关联的实体;负样本为样本指称项非正确关联的实体。

这里,预定数量可以为:大于或的等于第一样本数且小于样本指称项对应的候选样本实体的数量。这里,第一样本数可以为3个、4个、5个或者10个等。示例性的,一个样本指称项对应59个候选样本实体,可以选取5个负样本、10个负样本等。

在一个实施例中,可采用1:5随机负采样方式进行融合训练。该1;5随机负采样方式可以是:将1个正样本的热度特征的热度分数及5个负样本的热度特征的热度分数输入到初始MLP模型进行训练。

这里,初始MLP模型可以是还未进行过训练的MLP模型,或者可以是进行过N次训练后的MLP模型;该N为大于0的整数。

这里,正样本的热度特征和负样本的热度特征,均可以包括但不限于以下至少之一:被链接次数、收藏次数、分享次数、点赞次数及实体属性。

这里,损失函数(loss function)是初始MLP模型优化的目标函数,该初始MLP模型进行训练的过程即是最小化损失函数的过程;损失函数值越小,对应的预测结果。在本公开实施例中,该初始MLP模型可用于训练MLP模型中的权重。

在一个实施例中,将所述正样本的所述热度特征的热度分数及所述负样本的所述热度特征的热度分数输入到初始MLP模型,直至设置的损失函数满足收敛条件,获得训练后的所述MLP模型,包括:

将正样本的被链接次数、收藏次数、分享次数、点赞次数的归一化分数和概率化分数、负样本的被链接次数、收藏次数、分享次数、点赞次数的归一化分数和概率化分数、正样本的实体属性的热度分数、及负样本的实体属性的热度分数输入到初始MLP模型,直至设置的损失函数名满足收敛条件,获得训练后的所述MLP模型。

在本公开实施例中,终端训练MLP模型时,可以选择至少一个样本指称项对应的正样本及负样本的热度特征的热度分数输入到初始MLP模型中进行训练。例如可以选择1600个样本指称项对应的正样本和负样本的热度特征的热度分数进行训练。

在本公开实施例中,可以对MLP模型进行训练,以使得基于训练后的MLP模型的综合分数更精准,从而提高实体指称项确定目标实体的准确性,提升用户体验。

且,在本公开实施例中,可以采用1:5随机负采样方式或者从候选样本实体中选取其它比例的正样本与负样本的比例方式输入到MLP模型进行训练,还可以大大降低模型训练中的噪音,可以降低终端的数据处理量、节省终端的资源等。

在一个实施例中,终端可随机抽取1000个实体指称项对应的候选实体作为评本的样本基于被链接次数方式和MLP的模型进行实验,获得实验数据如下表2所示:

表2

这里,综合概率包括准确率和召回率。可以理解的是:基于被链接次数方式获取目标实体的准确率及召回率,是低于基于MLP模型获取目标实体的准确率和召回率的;基于MLP模型可以显著提高获取综合分数的准确性,能够显著提高获取到实体指称项链接的目标实体的准确率和召回率。

图11提供一示例性实施例示出的一种基于实体热度的处理装置,应用于终端;如图11所示,所述装置包括:

第一获取模块41,用于获取实体指称项链接的候选实体集,其中,所述候选实体集包括:至少一个候选实体;

第二获取模块42,用于获取所述候选实体的至少两个热度特征的热度分数;

处理模块43,用于基于所述候选实体的至少两个所述热度分数,获取所述候选实体的综合分数;

选择模块44,用于基于所述综合分数,从所述候选实体集中选择满足预定条件的所述候选实体作为所述实体指称项链接的目标实体。

在一些实施例中,所述热度特征,包括以下至少之一:

被链接次数;

至少一个实体属性;

动态行为数据,其中,所述动态行为数据包括以下至少之一:收藏次数、分享次数、及点赞次数。

在一些实施例中,所述处理模块43,用于将所述候选实体的至少两个所述热度分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的所述综合分数。

在一些实施例中,所述装置还包括:

所述第二获取模块42,用于对所述候选实体的各所述热度特征的所述热度分数进行归一化处理,以获得各所述热度特征的归一化分数;和/或,

所述第二获取模块42,用于对所述候选实体的各所述热度特征的所述热度分数进行概率化处理,以获得各所述热度特征的概率化分数;

所述处理模块43,用于将所述候选实体的至少部分所述热度特征的所述归一化分数和/或所述概率化分数输入到训练后的MLP模型进行融合训练,以获得所述候选实体的所述综合分数。

在一些实施例中,所述装置还包括:

所述第一获取模块41,用于获取样本指称项的正样本及预定数量的负样本;

所述处理模块43,用于将所述正样本的所述热度特征的热度分数及所述负样本的所述热度特征的热度分数输入到初始MLP模型,直至设置的损失函数满足收敛条件,获得训练后的所述MLP模型。

在一些实施例中,所述装置包括:

所述第一获取模块41,用于基于各所述候选实体的实体属性,获取实体属性为高频实体属性的所述候选实体作为备选目标实体;其中,指示所述高频实体属性的属性值大于预定属性值;

所述第二获取模块42,用于获取所述备选目标实体的至少两个所述热度特征的所述热度分数;

所述处理模块43,用于基于所述备选目标实体的至少两个所述热度分数,获取所述目标候选实体的综合分数;

所述选择模块44,用于基于所述目标候选实体的所述综合分数,选择满足预定条件的所述目标候选实体作为所述实体指称项链接的所述目标实体。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本公开的实施例还提供了一种终端,其特征在于,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:用于运行所述可执行指令时,实现本公开任意实施例所述的基于实体热度的处理方法。

所述存储器可包括各种类型的存储介质,该存储介质为非临时性计算机存储介质,在通信设备掉电之后能够继续记忆存储其上的信息。

所述处理器可以通过总线等与存储器连接,用于读取存储器上存储的可执行程序,例如,实现如图3、7至8所示的方法的至少其中之一。

本公开的实施例还提供了一种计算机可读存储介质,所述可读存储介质存储有可执行程序,其中,所述可执行程序被处理器执行时实现本公开任意实施例所述的基于实体热度的处理方法。例如,实现如图3、7至8所示的方法的至少其中之一。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于终端600的框图。例如,终端600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图12,终端600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。

处理组件602通常控制终端600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在终端600的操作。这些数据的示例包括用于在终端600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件606为终端600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为终端600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述终端600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当终端600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当终端600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器,用于为终端600提供各个方面的状态评估。例如,传感器组件614可以检测到终端600的打开/关闭状态,组件的相对定位,例如所述组件为终端600的显示器和小键盘,传感器组件614还可以检测终端600或终端600一个组件的位置改变,用户与终端600接触的存在或不存在,终端600方位或加速/减速和终端600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件616被配置为便于终端600和其他设备之间有线或无线方式的通信。终端600可以接入基于通信标准的无线网络,如WiFi,4G或5G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,终端600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由终端600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

技术分类

06120116551318