掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及智能推荐领域,具体而言,涉及一种确定用户画像相似度的方法、装置及电子设备。

背景技术

用户画像通过将用户标签化,可以实现对用户的精练概括,因其具有语义性和短文本性,既方便人的快速理解又能被计算机很好地处理,目前,用户画像被广泛应用于各类推荐系统的设计。因此,针对系统中存在的大量的用户画像,就需要实施有效的用户画像管理,如何获得需求相近的用户群,以便于后续推荐变得十分重要,相关技术中,往往是基于用户的显性数据确定各方面比较相似的用户群,这种分类方式,虽然可以得到需求相近的用户群,但是划分粒度较大,存在划分结果不准确,不够精细化等技术问题。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种确定用户画像相似度的方法、装置及电子设备,以至少解决相关技术中基于显性数据对需求相近的用户进行划分存在的划分粒度较大,划分结果不准确的技术问题。

根据本申请实施例的一个方面,提供了一种确定用户画像相似度的方法,包括:获取用户画像集合中第一用户画像所包括的第一标签化特征集合,以及第二用户画像所包括的第二标签化特征集合;将第一标签化特征集合中的各个第一标签化特征划分为第一定量指标集合与第一定性指标集合,将第二标签化特征集合中的各个第二标签化特征划分为第二定量指标集合与第二定性指标集合;确定第一定量指标集合与第二定量指标集合之间的第一相似度;确定第一定性指标集合与第二定性指标集合之间的第二相似度;根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度。

可选地,确定第一定量指标集合与第二定量指标集合之间的第一相似度,包括:调用预设归一化算法分别对第一定量指标集合中的各个第一定量指标,以及第二定量指标集合中的各个第二定量指标进行归一化处理,得到归一化后的第一定量指标集合与第二定量指标集合,其中,预设归一化算法包括以下之一:线性函数转换、反正切函数转换;计算归一化后的第一定量指标集合与第二定量指标集合之间的相似度系数,确定相似度系数为第一相似度,其中,相似度系数包括以下之一:欧氏距离、余弦相似度。

可选地,确定第一定量指标集合与第二定量指标集合之间的第一相似度,包括:调用压缩函数分别将第一定量指标集合中的各个第一定量指标映射为第一曲线,第二定量指标集合中的各个第二定量指标映射为第二曲线;确定第一曲线与第二曲线的形状相似度为第一相似度。

可选地,确定第一定性指标集合与第二定性指标集合之间的第二相似度,包括:基于云模型将第一定性指标集合与第二定性指标集合分别转换为第三定量指标集合,以及第四定量指标集合;确定第三定量指标集合与第四定量指标集合之间的相似度系数为第二相似度,其中,相似度系数包括以下之一:欧氏距离、余弦相似度。

可选地,确定第一定性指标集合与第二定性指标集合之间的第二相似度,包括:调用本体概念相似度算法确定第一定性指标集合与第二定性指标集合之间概念语义初始相似度层对应的语义初始相似度,以及概念非上下位关系相似度层对应的非上下位关系相似度;根据语义初始相似度与非上下位关系相似度确定第二相似度。

可选地,根据语义初始相似度与非上下位关系相似度确定第二相似度,包括:获取语义初始相似度对应的第一权重,以及非上下位关系相似度对应的第二权重;确定语义初始相似度与第一权重的第一乘积,以及非上下位关系相似度与第二权重的第二乘积;确定第一乘积与第二乘积的和值为第二相似度。

可选地,根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度,包括:确定第一相似度与第二相似度的和值为第三相似度。

可选地,在根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度之后,方法还包括:在第三相似度大于预设相似度的情况下,确定第一用户画像与第二用户画像均属于目标集合,其中,目标集合中所有用户画像属于同一类群体;确定目标集合中所有用户画像之间的均方根标准偏差,其中,均方根标准偏差用于衡量同一类集合之间各个元素之间的紧凑程度;在均方根标准偏差大于预定阈值的情况下,重新对目标集合中的各个用户画像进行聚类。

根据本申请实施例的另一方面,还提供了一种确定用户画像相似度的装置,包括:获取模块,用于获取用户画像集合中第一用户画像所包括的第一标签化特征集合,以及第二用户画像所包括的第二标签化特征集合;划分模块,用于将第一标签化特征集合中的各个第一标签化特征划分为第一定量指标集合与第一定性指标集合,将第二标签化特征集合中的各个第二标签化特征划分为第二定量指标集合与第二定性指标集合;第一确定模块,用于确定第一定量指标集合与第二定量指标集合之间的第一相似度;第二确定模块,用于确定第一定性指标集合与第二定性指标集合之间的第二相似度;第三确定模块,用于根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度。

根据本申请实施例的另一方面,还提供了一种非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任意一种确定用户画像相似度的方法。

根据本申请实施例的另一方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现任意一种确定用户画像相似度的方法。

在本申请实施例中,采用从定量和定向两个方面确定用户相似度的方式,通过获取用户画像集合中第一用户画像所包括的第一标签化特征集合,以及第二用户画像所包括的第二标签化特征集合;将第一标签化特征集合中的各个第一标签化特征划分为第一定量指标集合与第一定性指标集合,将第二标签化特征集合中的各个第二标签化特征划分为第二定量指标集合与第二定性指标集合;确定第一定量指标集合与第二定量指标集合之间的第一相似度;确定第一定性指标集合与第二定性指标集合之间的第二相似度;根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度,达到了更加准确确定用户之间的相似度,进而可进一步较为精准的对用户所属群体进行划分的技术效果,进而解决了相关技术中基于显性数据对需求相近的用户进行划分存在的划分粒度较大,划分结果不准确的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种可选的确定用户画像相似度的方法的流程示意图;

图2是本申请实施例的本体中的概念相似度计算算法的流程示意图;

图3是根据本申请实施例的一种可选的确定用户画像相似度的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种确定用户画像相似度的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的确定用户画像相似度的方法,如图1所示,该方法包括如下步骤:

步骤S102,获取用户画像集合中第一用户画像所包括的第一标签化特征集合,以及第二用户画像所包括的第二标签化特征集合;

步骤S104,将第一标签化特征集合中的各个第一标签化特征划分为第一定量指标集合与第一定性指标集合,将第二标签化特征集合中的各个第二标签化特征划分为第二定量指标集合与第二定性指标集合;

步骤S106,确定第一定量指标集合与第二定量指标集合之间的第一相似度;

步骤S108,确定第一定性指标集合与第二定性指标集合之间的第二相似度;

步骤S110,根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度。

在该确定用户画像相似度的方法中,采用从定量和定向两个方面确定用户相似度的方式,通过获取用户画像集合中第一用户画像所包括的第一标签化特征集合,以及第二用户画像所包括的第二标签化特征集合;将第一标签化特征集合中的各个第一标签化特征划分为第一定量指标集合与第一定性指标集合,将第二标签化特征集合中的各个第二标签化特征划分为第二定量指标集合与第二定性指标集合;确定第一定量指标集合与第二定量指标集合之间的第一相似度;确定第一定性指标集合与第二定性指标集合之间的第二相似度;根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度,达到了更加准确确定用户之间的相似度,进而可进一步较为精准的对用户所属群体进行划分的技术效果,进而解决了相关技术中基于显性数据对需求相近的用户进行划分存在的划分粒度较大,划分结果不准确的技术问题。

本申请一些实施例中,确定第一定量指标集合与第二定量指标集合之间的第一相似度,可以通过如下步骤实现,具体的,可调用预设归一化算法分别对第一定量指标集合中的各个第一定量指标,以及第二定量指标集合中的各个第二定量指标进行归一化处理,得到归一化后的第一定量指标集合与第二定量指标集合,其中,预设归一化算法包括以下之一:线性函数转换、反正切函数转换;计算归一化后的第一定量指标集合与第二定量指标集合之间的相似度系数,确定相似度系数为第一相似度,其中,相似度系数包括以下之一:欧氏距离、余弦相似度。

在本申请一些可选的实施例中,确定第一定量指标集合与第二定量指标集合之间的第一相似度,包括:调用压缩函数分别将第一定量指标集合中的各个第一定量指标映射为第一曲线,第二定量指标集合中的各个第二定量指标映射为第二曲线;确定第一曲线与第二曲线的形状相似度为第一相似度。

在本申请一些实施例中,确定第一定性指标集合与第二定性指标集合之间的第二相似度,包括:基于云模型将第一定性指标集合与第二定性指标集合分别转换为第三定量指标集合,以及第四定量指标集合;确定第三定量指标集合与第四定量指标集合之间的相似度系数为第二相似度,其中,相似度系数包括以下之一:欧氏距离、余弦相似度。

作为一种可选的实施方式,确定第一定性指标集合与第二定性指标集合之间的第二相似度,包括:调用本体概念相似度算法确定第一定性指标集合与第二定性指标集合之间概念语义初始相似度层对应的语义初始相似度,以及概念非上下位关系相似度层对应的非上下位关系相似度;根据语义初始相似度与非上下位关系相似度确定第二相似度。

具体地,根据语义初始相似度与非上下位关系相似度确定第二相似度,包括:获取语义初始相似度对应的第一权重,以及非上下位关系相似度对应的第二权重;确定语义初始相似度与第一权重的第一乘积,以及非上下位关系相似度与第二权重的第二乘积;确定第一乘积与第二乘积的和值为第二相似度。

本申请一些可选的实施例中,根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度,包括:确定第一相似度与第二相似度的和值为第三相似度。

本申请一些实施例中,在根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度之后,可在第三相似度大于预设相似度的情况下,确定第一用户画像与第二用户画像均属于目标集合,其中,目标集合中所有用户画像属于同一类群体;确定目标集合中所有用户画像之间的均方根标准偏差,其中,均方根标准偏差用于衡量同一类集合之间各个元素之间的紧凑程度;在均方根标准偏差大于预定阈值的情况下,重新对目标集合中的各个用户画像进行聚类。

现结合一可选实施例对上述技术方案进行说明。

步骤一、用户画像相似度。通过计算用户画像间的相似度,将相似度高的用户画像分为一类,可以获得需求相近的用户群。用户画像之间的相似度计算需要结合定量相似度计算与定性相似度来进行计算。

在用户画像相似度的计算过程中,往往会基于多个定量标签的数据来计算相似度值得注意的是,不同定量标签数值的取值范围可能存在数量级级别的差异,从而使得相似度计算过程中,某些定量标签对合相似度贡献微乎其微。因此,在计算之前,对不同定量标签的数据进行归一化处理就尤为重要归一化是物理系统中一种无量纲处理手,在里,归一是将不同取范围的定量标数据统一射到[0,1]区间。常用的归一化方法有线性函数转换、对数函数转换、反正切函数转换等。

线性函数转换为

分别标识待转的X

说明:以10为底的对数函数转换。

Y=log

反正切函数转换为

具体的某个定量标签相似度数值计算应根据具体的用户画像采用不同的计算方式,可以采用欧氏距离、余弦相似度、Jaccard系数等。对于标量标签,通常采用欧氏距离、曼哈顿距离和余弦相似度。

步骤二,定性相似度计算。定性标签通过概念来表示。由于定性标签没有确定的数值,其相似度计算不能采取像定量标签那样直接的计算方法。定性相似度的计算可以从两个方向展开,一个方向是将定性标签映射为定量标签,进而采用定量标签的相似度计算方法;另一个方向是直接采用基于概念的相似度计算方法。

基于将定性标签映射为定量标签的:定性标签映射为定量标签时需要首先构建映射规则。云模型(Cloud Model)是李德毅院士提出的定性和定量转换模型,能够实现定性概念与其数值表示之间的不确定性转换,已经在智能控制、模糊评测等多个分类得到应用。

定义1云和云滴:设U是一个用数值表示的定量论域,C是U上的定性概念,若定量值x∈U是定性概念C的一次随机实现,x对C的确定度μ(x)∈[0,1]是有稳定倾向的随机数,

通过正向云算法,可以把定性概念的整体特征变换为定量数值表示,实现概念空间到数值空间的转换。

基于概念的:针对概念的相似度计算,业内已有不少相关的研究。研究方向主要可分为两种:基于概念信息容量法和基于概念距离法。信息容量是指一个概念及其实例对象所能反映的语义内容大小,其通过概念及其实例对象的出现概率或者权重来量化。

采用信息容量法时,可以基于两个概念的共同父概念的信息容量的大小来确定概念的相似度。与信息容量法相比,另外一种方式利用概念的距离来计算概念相似度的使用范围要大很多。概念距离有两类常见的计算方法:一种是根据本体(Ontology)来计算;另一种是利用大规模的语料库进行统计。基于统计的方法将概念的上下文信息的概率分布作为概念语义相似度计算的参照。

随着本体在信息检索、人工智能等领域的广泛应用,面向本体的概念相似度计算成了本体研究的一大热点。在实际的本体中,由于概念之间不仅仅存在着上下位关系,概念之间通过其他各种关系可以连接,这使得概念的组织形式并不完全是一个树状结构,而是一个网状结构。

本体中的概念相似度计算可以分为两个层次:概念语义初始相似度层和概念非上下位关系相似度层。概念语义初始相似度层是对概念相似度的一个预定值,同时也是概念通过上下位关系体现出的相似度的一个近似值,记作siminit(C1,C1)。概念非上下关系相似度层是指在初始相似度的基础上计算非上下位关系体现出的相似度,记作sim,(C1,C3)。两层相似度计算出来后,通过加权综合可得概念之间的实际相似度sim(C1,C1)。依据上述思想,算法的流程如图2所示。

步骤三、可通过RMSSTD等参数对基于相似度划分后的用户群体进行评价。

具体描述:

RMSSTD(Root-Mean-Square Standard Deviation):群体中所有变量的综合标准差,RMSSTD越小表明群体内(簇内)个体对象的相似程度越高,聚类效果越好。计算

公式如下:

其中,Si代表第i个变量在各群内的标准差之和,p为变量数量。

R-Square:聚类后群体间差异的大小,也就是聚类结果可以在多大比例上解释原数据的方差,R-Square越大表明群体间(簇间)的相异性越高,聚类效果就越好。计算公式如下:

其中,W代表聚类分组后的各组内部的差异程度,B代表聚类分组后各组之间的差异程度,T代表聚类分组后所有数据对象总的差异程度,并且T=W+B。

按照聚类的思想来看,一个好的聚类给果,应该是在R-Square E[0,1]的范围内,并且Sanare越接近1越好,这说明了各个群类之间的差异,即B越大,而同组内(群内)各对象间的差异越小,即W越小,这正是聚类分析所希望达到的效果。

图3是根据本申请实施例的一种确定用户画像相似度的装置,如图3所示,该装置包括:

获取模块30,用于获取用户画像集合中第一用户画像所包括的第一标签化特征集合,以及第二用户画像所包括的第二标签化特征集合;

划分模块32,用于将第一标签化特征集合中的各个第一标签化特征划分为第一定量指标集合与第一定性指标集合,将第二标签化特征集合中的各个第二标签化特征划分为第二定量指标集合与第二定性指标集合;

第一确定模块34,用于确定第一定量指标集合与第二定量指标集合之间的第一相似度;

第二确定模块36,用于确定第一定性指标集合与第二定性指标集合之间的第二相似度;

第三确定模块38,用于根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度。

该确定用户画像相似度的装置中,获取模块30,用于获取用户画像集合中第一用户画像所包括的第一标签化特征集合,以及第二用户画像所包括的第二标签化特征集合;划分模块32,用于将第一标签化特征集合中的各个第一标签化特征划分为第一定量指标集合与第一定性指标集合,将第二标签化特征集合中的各个第二标签化特征划分为第二定量指标集合与第二定性指标集合;第一确定模块34,用于确定第一定量指标集合与第二定量指标集合之间的第一相似度;第二确定模块36,用于确定第一定性指标集合与第二定性指标集合之间的第二相似度;第三确定模块38,用于根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度,达到了更加准确确定用户之间的相似度,进而可进一步较为精准的对用户所属群体进行划分的技术效果,进而解决了相关技术中基于显性数据对需求相近的用户进行划分存在的划分粒度较大,划分结果不准确的技术问题。

根据本申请实施例的另一方面,还提供了一种非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任意一种确定用户画像相似度的方法。

具体地,上述存储介质用于存储以下功能的程序指令,实现以下功能:

获取用户画像集合中第一用户画像所包括的第一标签化特征集合,以及第二用户画像所包括的第二标签化特征集合;将第一标签化特征集合中的各个第一标签化特征划分为第一定量指标集合与第一定性指标集合,将第二标签化特征集合中的各个第二标签化特征划分为第二定量指标集合与第二定性指标集合;确定第一定量指标集合与第二定量指标集合之间的第一相似度;确定第一定性指标集合与第二定性指标集合之间的第二相似度;根据第一相似度与第二相似度确定第一用户画像与第二用户画像之间的第三相似度。

根据本申请实施例的另一方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现任意一种确定用户画像相似度的方法。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

相关技术
  • 一种获取用户画像的方法、装置、电子设备及存储介质
  • 图片相似度检测方法、装置、介质及电子设备
  • 一种文本相似度计算方法、装置及电子设备
  • 一种文本相似度计算方法、装置及电子设备
  • 一种文本相似度计算方法、装置、电子设备及存储介质
  • 用于确定相似度信息的装置、用于确定相似度信息的方法、用于确定自相关信息的装置、用于确定互相关信息的装置以及计算机程序
  • 语义相似度的确定方法及确定装置、电子设备
技术分类

06120115935162