掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及人工智能领域,具体而言,涉及一种人口属性值的计算方法及装置、存储介质、电子设备。

背景技术

相关技术中,在企业实际应用场境中,面对同一个自然人,其人口属性特征往往在不同来源的数据中存在,而且其属性特征在不同数据源中存在差异,这样的情况是非常普遍。造成的原因大致有以下几种:对于原始数据源中的属性特征来自实际收集的情况,可能采样和收集存在误差,这是原始数据的数据来源存在的问题;对于原始数据源中的属性特征来自算法预测的情况,不同算法的预测结果均存在误差,这是得到原始数据的算法存在的问题。因此,在面对不同数据源中的人口属性存在差异的情况,如何做好数据的归一化就是一个非常重要的问题。

相关技术中,通常把该问题当作一个普遍情况下的数据清洗的问题,采用的方法一般为投票法以及均值法。均值法,对不同来源的数据取平均值,具体计算方法如下:假设用户i的j属性来自k数据源的查询结果为x

针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种人口属性值的计算方法及装置、存储介质、电子设备。

根据本申请实施例的一个方面,提供了一种人口属性值的计算方法,包括:解析目标人口属性的属性类别;基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数;根据所述权重系数和所述目标人口属性在所述多个数据源的属性值计算所述目标人口属性的归一值。

进一步,所述属性类别为连续性属性,基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数包括:在N个数据源中分别提取同一对象的所述目标人口属性的属性值,其中,N为大于1的整数;基于N个属性值生成一维向量;基于所述一维向量采用皮尔逊相关系数生成相关系数矩阵。

进一步,所述属性类别为连续性属性,根据所述权重系数和所述目标人口属性在所述多个数据源的属性值计算所述目标人口属性的归一值包括:采用以下算法计算所述目标人口属性的归一值

其中,

进一步,所述属性类别为离散型属性,基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数包括:确定所述目标人口属性的可选取值集合;根据所述可选取值集合生成所述目标人口属性的先验概率分布p

进一步,所述属性类别为离散型属性,根据所述权重系数和所述目标人口属性在所述多个数据源的属性值计算所述目标人口属性的归一值包括:采用以下公式计算所述目标人口属性的归一值

进一步,解析目标人口属性的属性类别包括以下至少之一:判断目标人口属性的可选属性值是否为连续数值;若目标人口属性的可选属性值为连续数值,确定所述目标人口属性的属性类别为连续性属性;若目标人口属性的可选属性值不为连续数值,确定所述目标人口属性的属性类别为离散性属性。

进一步,在基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数之前,所述方法还包括:确定所述多个数据源的可靠值,其中,所述可靠值用于表征所述目标人口属性的属性值的准确度;若所述可靠值小于预设值,确定基于所述属性类别计算所述目标人口属性的多个数据源的权重系数。

根据本申请实施例的另一个方面,还提供了一种人口属性值的计算装置,包括:解析模块,用于解析目标人口属性的属性类别;第一计算模块,用于基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数;第二计算模块,用于根据所述权重系数和所述目标人口属性在所述多个数据源的属性值计算所述目标人口属性的归一值。

进一步,所述属性类别为连续性属性,所述第一计算模块包括:提取单元,用于在N个数据源中分别提取同一对象的所述目标人口属性的属性值,其中,N为大于1的整数;第一生成单元,用于基于N个属性值生成一维向量;第二生成单元,用于基于所述一维向量采用皮尔逊相关系数生成相关系数矩阵。

进一步,所述属性类别为连续性属性,所述第二计算模块包括:第一计算单元,用于采用以下算法计算所述目标人口属性的归一值

进一步,所述属性类别为离散型属性,所述第一计算模块包括:确定单元,用于确定所述目标人口属性的可选取值集合;第三生成单元,用于根据所述可选取值集合生成所述目标人口属性的先验概率分布p

p

进一步,所述属性类别为离散型属性,所述第二计算模块包括:第二计算单元,用于采用以下公式计算所述目标人口属性的归一值

进一步,所述解析模块包括以下至少之一:判断单元,用于判断目标人口属性的可选属性值是否为连续数值;确定单元,用于若目标人口属性的可选属性值为连续数值,确定所述目标人口属性的属性类别为连续性属性;若目标人口属性的可选属性值不为连续数值,确定所述目标人口属性的属性类别为离散性属性。

进一步,所述装置还包括:第一确定模块,用于在所述第一计算模块基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数之前,确定所述多个数据源的可靠值,其中,所述可靠值用于表征所述目标人口属性的属性值的准确度;第二确定模块,用于若所述可靠值小于预设值,确定基于所述属性类别计算所述目标人口属性的多个数据源的权重系数。

根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。

根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。

本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。

通过本发明,解析目标人口属性的属性类别,基于属性类别计算同一对象的目标人口属性的多个数据源的权重系数,根据权重系数和目标人口属性在多个数据源的属性值计算目标人口属性的归一值,在做跨数据源的数据归一时,充分考虑了不同数据源的差异性,对于不同数据源赋予了不同的权值,对权值进行了合理的分配,平衡不同数据源可能存在的问题,得到目标人口属性最合理的一个归一值,可以减弱偏离值和极端值对实际属性值的影响,解决了相关技术跨数据源采集人口属性值不准确的技术问题,提高了人口属性值的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的一种服务器的硬件结构框图;

图2是根据本发明实施例的一种人口属性值的计算方法的流程图;

图3是本发明实施例从多个数据源采集属性值的示意图;

图4是根据本发明实施例的一种人口属性值的计算装置的结构框图;

图5是实施本发明实施例的一种电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本申请实施例一所提供的方法实施例可以在服务器、计算机、手机、或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种服务器的硬件结构框图。如图1所示,服务器可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储服务器程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种人口属性值的计算方法对应的服务器程序,处理器102通过运行存储在存储器104内的服务器程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种人口属性值的计算方法,图2是根据本发明实施例的一种人口属性值的计算方法的流程图,如图2所示,该流程包括如下步骤:

步骤S202,解析目标人口属性的属性类别;

在本实施例中,目标人口属性可以是用于描述自然人或者法人的属性项,如年龄,性别,收入,家庭成员,家庭住址等,手机号码等,属性类别可以分为连续性和离散型,例如,例如年龄为连续性,可选的年龄值为从0开始的连续值,而性别为离散型,可选择男或女。

步骤S204,基于属性类别计算同一对象的目标人口属性的多个数据源的权重系数;

在一些场景中,针对同一个对象,如某个用户,在采集数据时,可以从多个数据源采集数据,而由于数据源自身的差异,导致同一个人口属性的属性值不同,需要进行归一化处理,图3是本发明实施例从多个数据源采集属性值的示意图。

步骤S206,根据权重系数和目标人口属性在多个数据源的属性值计算目标人口属性的归一值。

从多个数据源中分别采集属性值,选择与数据源匹配的权重值,采用多组属性值和权重值进行归一化计算,得到归一值。

通过上述步骤,解析目标人口属性的属性类别,基于属性类别计算同一对象的目标人口属性的多个数据源的权重系数,根据权重系数和目标人口属性在多个数据源的属性值计算目标人口属性的归一值,在做跨数据源的数据归一时,充分考虑了不同数据源的差异性,对于不同数据源赋予了不同的权值,对权值进行了合理的分配,平衡不同数据源可能存在的问题,得到目标人口属性最合理的一个归一值,可以减弱偏离值和极端值对实际属性值的影响,解决了相关技术跨数据源采集人口属性值不准确的技术问题,提高了人口属性值的准确性。

在本实施例中,以属性类别为连续性属性和离散型属性分别进行举例说明。

本实施例的一个实施方式中,属性类别为连续性属性,基于属性类别计算同一对象的目标人口属性的多个数据源的权重系数包括:在N个数据源中分别提取同一对象的目标人口属性的属性值,其中,N为大于1的整数;基于N个属性值生成一维向量;基于一维向量采用皮尔逊相关系数生成相关系数矩阵。

在基于该实施方式的一个实例中,根据权重系数和目标人口属性在多个数据源的属性值计算目标人口属性的归一值包括:采用以下算法计算目标人口属性的归一值

其中,

对于人口属性中的连续型属性,假设j属性在数据源k(一共有n个数据源)中的取值为x

其中,皮尔逊相关系数以r

继续依次计算r

最后得到的该用户j属性归一化的值为

本实施例的另一个实施方式中,属性类别为离散型属性,基于属性类别计算同一对象的目标人口属性的多个数据源的权重系数包括:确定目标人口属性的可选取值集合;根据可选取值集合生成目标人口属性的先验概率分布p

p

在基于该实施方式的一个实例中,根据权重系数和目标人口属性在多个数据源的属性值计算目标人口属性的归一值包括:

采用以下公式计算目标人口属性的归一值

其中,p

对于人口属性中的离散型属性,假设j属性的取值集合(设该属性有m个可以选择的取值)为{a

对于用户i,来自不同的数据源(设有n个数据源)的取值集合为{a

p

最后得到的该用户j属性归一化的值为

在一个示例中,假设j属性为性别,将所有数据源(例如全国的男女比例)的数据放在一起,算一下男女的占比,可以得到p

对于用户i来说,他(她)在不同的数据源中的性别为{男,男,男,女},由此可以计算p

可选的,解析目标人口属性的属性类别包括以下至少之一:判断目标人口属性的可选属性值是否为连续数值;若目标人口属性的可选属性值为连续数值,确定目标人口属性的属性类别为连续性属性;若目标人口属性的可选属性值不为连续数值,确定目标人口属性的属性类别为离散性属性。

在本实施例的一个实施方式中,在基于属性类别计算同一对象的目标人口属性的多个数据源的权重系数之前,还包括:确定多个数据源的可靠值,其中,可靠值用于表征目标人口属性的属性值的准确度;若可靠值小于预设值,确定基于属性类别计算目标人口属性的多个数据源的权重系数。在另一方面,在可靠值大于或等于预设值时,可以采用均值法或投票法,在确定多个数据源的可靠值时,以多个数据源中可靠值最低的一个数据源作为多个数据源的可靠值。

采用本实施例的方案,从不同数据源的数据相关性以及其分布调整两个角度对均值法和投票法做一个改进,用相关性加权均值法和贝叶斯投票法来做一个简单、高效、扩展性好的算法来解决跨数据源人口属性的归一算法。通过衡量不同数据源之间的差异性,以及平衡不同数据源可能存在的问题,从而得到一个跨数据源的人口属性归一值,运用数据相关性和贝叶斯方法将不同数据源之间的权重量化。

使用本实施例的方案,在做跨数据源的数据归一时,充分考虑了不同数据源的差异性,对于不同数据源赋予了不同的权值,针对均值法和投票法分别采用了相关性加权和贝叶斯方法,对权值进行了合理的分配,平衡不同数据源可能存在的问题,得到最合理的一个人口属性跨数据源归一值。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种人口属性值的计算装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的一种人口属性值的计算装置的结构框图,如图4所示,该装置包括:解析模块40,第一计算模块42,第二计算模块44,其中,

解析模块40,用于解析目标人口属性的属性类别;

第一计算模块42,用于基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数;

第二计算模块44,用于根据所述权重系数和所述目标人口属性在所述多个数据源的属性值计算所述目标人口属性的归一值。

可选的,所述属性类别为连续性属性,所述第一计算模块包括:提取单元,用于在N个数据源中分别提取同一对象的所述目标人口属性的属性值,其中,N为大于1的整数;第一生成单元,用于基于N个属性值生成一维向量;第二生成单元,用于基于所述一维向量采用皮尔逊相关系数生成相关系数矩阵。

可选的,所述属性类别为连续性属性,所述第二计算模块包括:第一计算单元,用于采用以下算法计算所述目标人口属性的归一值

可选的,所述属性类别为离散型属性,所述第一计算模块包括:确定单元,用于确定所述目标人口属性的可选取值集合;第三生成单元,用于根据所述可选取值集合生成所述目标人口属性的先验概率分布p

p

可选的,所述属性类别为离散型属性,所述第二计算模块包括:第二计算单元,用于采用以下公式计算所述目标人口属性的归一值

可选的,所述解析模块包括以下至少之一:判断单元,用于判断目标人口属性的可选属性值是否为连续数值;确定单元,用于若目标人口属性的可选属性值为连续数值,确定所述目标人口属性的属性类别为连续性属性;若目标人口属性的可选属性值不为连续数值,确定所述目标人口属性的属性类别为离散性属性。

可选的,所述装置还包括:第一确定模块,用于在所述第一计算模块基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数之前,确定所述多个数据源的可靠值,其中,所述可靠值用于表征所述目标人口属性的属性值的准确度;第二确定模块,用于若所述可靠值小于预设值,确定基于所述属性类别计算所述目标人口属性的多个数据源的权重系数。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

S1,解析目标人口属性的属性类别;

S2,基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数;

S3,根据所述权重系数和所述目标人口属性在所述多个数据源的属性值计算所述目标人口属性的归一值。

可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

S1,解析目标人口属性的属性类别;

S2,基于所述属性类别计算同一对象的所述目标人口属性的多个数据源的权重系数;

S3,根据所述权重系数和所述目标人口属性在所述多个数据源的属性值计算所述目标人口属性的归一值。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

图5是本发明实施例的一种电子设备的结构图,如图5所示,包括处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,存储器53,用于存放计算机程序;处理器51,用于执行存储器53上所存放的程序。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

相关技术
  • 人口属性值的计算方法及装置、存储介质、电子设备
  • 确定价值属性值的方法、装置、电子设备和存储介质
技术分类

06120113034220