掌桥专利:专业的专利平台
掌桥专利
首页

用户标识的识别方法、系统、设备及介质

文献发布时间:2023-06-19 12:02:28


用户标识的识别方法、系统、设备及介质

技术领域

本发明涉及标识处理技术领域,特别涉及一种用户标识的识别方法、系统、设备及介质。

背景技术

通常一个人的标识有很多种,大致可以分为以下几种类型的标识:企业内部统一ID(身份标识):在企业IT(互联网技术)系统中一般称为用户ID,在此统一记为UserId(唯一标识);法定的用户编码:比如统一的身份证号,或国际通用的护照号等法定认可的证件号码;联系方式:用户的联系方式,诸如手机、邮箱、微信、QQ等;终端设备相关标识:用户访问系统时,采集到的终端设备识别标识,比如PC(个人计算机)端的cookie(储存在用户本地终端上的数据),无线端的imei(国际移动设备识别码)、idfa(苹果手机的广告标识符)、oaid(广告标识符)等;其他身份相关标识:诸如车牌号等对用户有一定标识度的相关标识。

一般情况下,不同的场景需要使用用户不同的标识,例如,在向某些网站的注册用户进行某种广告投放或者广告营销时,通常会通过已有的用户标识进行广告投放或者广告营销,比如,在获取到的用户标识中,对于只有手机号的用户通过短信的形式将广告发送给用户,对于只有邮箱的用户通过邮箱发送,对于只有QQ的通过QQ发送,即现有技术中一般会通过用户注册该网站所填写的不同标识(例如:手机号、邮箱或者QQ等)向用户投放广告,而这种在具体业务应用中使用用户不同的标识,会导致工作繁琐、效率低的问题。

发明内容

本发明要解决的技术问题是为了克服现有技术中在具体业务应用中使用用户不同的标识,会导致工作繁琐、效率低的缺陷,提供一种用户标识的识别方法、系统、设备及介质。

本发明是通过下述技术方案来解决上述技术问题:

本发明第一方面提供了一种用户标识的识别方法,所述识别方法包括:

获取至少一个用户的标识,每个用户均具有若干关联标识;

根据每个用户的关联标识构建图结构;

计算所述图结构,以得到至少一个连通分量;

对每个所述连通分量分别设置唯一对应的标识ID;

接收用户输入的关联标识,获取与所述输入的关联标识相对应的标识ID;

根据获取的标识ID以及对应的连通分量识别出与所述获取的标识ID对应的其他关联标识。

较佳地,所述获取至少一个用户的标识,每个用户均具有若干关联标识的步骤之后,所述识别方法还包括:

对每个用户的关联标识进行编码,以得到编码后的关联标识;

根据所述编码后的关联标识构建图结构。

较佳地,所述识别方法还包括:

计算所述图结构中所有关联标识的权重值;

若识别出属于同类型的其他关联标识的数量超过两个,则选择权重值最高的其他关联标识作为输出。

较佳地,所述对每个用户的关联标识进行编码的步骤包括:

对所述每个用户的关联标识进行Long(长整型)型数值编码,不同关联标识的编码值不同;

所述对每个所述连通分量分别设置唯一对应的标识ID的步骤包括:

选取每个所述连通分量中的任意编码值作为对应的标识ID。

本发明第二方面提供了一种用户标识的识别系统,所述识别系统包括第一获取模块、构建模块、第一计算模块、设置模块、第二获取模块和识别模块;

所述第一获取模块用于获取至少一个用户的标识,每个用户均具有若干关联标识;

所述构建模块用于根据每个用户的关联标识构建图结构;

所述第一计算模块用于计算所述图结构,以得到至少一个连通分量;

所述设置模块用于对每个所述连通分量分别设置唯一对应的标识ID;

所述第二获取模块用于接收用户输入的关联标识,获取与所述输入的关联标识相对应的标识ID;

所述识别模块用于根据获取的标识ID以及对应的连通分量识别出与所述获取的标识ID对应的其他关联标识。

较佳地,所述识别系统还包括编码模块;

所述编码模块用于对每个用户的关联标识进行编码,以得到编码后的关联标识;

所述构建模块具体用于根据所述编码后的关联标识构建图结构。

较佳地,所述识别系统还包括第二计算模块和选择模块;

所述第二计算模块用于计算所述图结构中所有关联标识的权重值;

所述选择模块用于若识别出属于同类型的其他关联标识的数量超过两个,则选择权重值最高的其他关联标识作为输出。

较佳地,所述编码模块具体用于对所述每个用户的关联标识进行Long型数值编码,不同关联标识的编码值不同;

所述设置模块具体用于选取每个所述连通分量中的任意编码值作为对应的标识ID。

本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的用户标识的识别方法。

本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的用户标识的识别方法的步骤。

本发明的积极进步效果在于:

本发明根据获取到的每个用户的关联标识构建图结构,并对基于图结构计算得到的每个连通分量分别设置唯一对应的标识ID,再根据获取到的与输入的关联标识对应的标识ID以及对应的连通分量识别出与获取的标识ID对应的其他关联标识,实现了基于同一个用户的任意标识ID识别出该用户的其他标识,进而实现了在具体业务应用中可以使用统一的用户标识,从而提高了工作效率。

附图说明

图1为本发明实施例1的用户标识的识别方法的流程图。

图2为本发明实施例1的用户标识的识别方法的连通分量示意图。

图3为本发明实施例1的用户标识的识别方法处理过程的示意图。

图4为本发明实施例2的用户标识的识别系统的模块示意图。

图5为本发明实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示,本实施例提供了一种用户标识的识别方法,该识别方法的执行主体可以为应用程序例如搜索引擎,也可以为电子设备,此处不做具体限定。具体地,该识别方法包括:

步骤101、获取至少一个用户的标识,每个用户均具有若干关联标识。

本实施方式中,从各个上游系统获取至少一个用户的标识,例如,可以获取注册不同网站的至少一个用户的标识,从每个用户的标识中梳理出该用户的若干关联标识。

步骤102、对每个用户的关联标识进行编码,以得到编码后的关联标识。

本实施方式中,对每个用户的关联标识进行Long型数值编码,不同关联标识的编码值不同。为了方便统计优选可以对用户进行排序,而对于每个用户的关联标识可以按照递增的方式进行编码排序,例如,将每个用户的关联标识可以按照1、2、3等递增的方式进行编码排序,本实施方式中不仅同一个用户的不同关联标识的编码值不同,而且不同用户的关联标识的编码值也不同。

步骤103、根据编码后的关联标识构建图结构。

本实施方式中,根据每个用户的关联标识构建图结构,具体地,根据编码后的关联标识构建图结构。

步骤104、计算图结构,以得到至少一个连通分量。

本实施方式中,本实施方式采用Spark Graphx(分布式图处理框架)计算图结构,以得到至少一个连通分量,每个连通分量可以视作一个用户。

步骤105、对每个连通分量分别设置唯一对应的标识ID。

本实施方式中,在设置每个连通分量的标识ID时,选取每个连通分量中的任意编码值作为对应的标识ID,通常优选最小编码值或者最大编码值最作为对应的标识ID。

本实施方式中,可以将用户的标识抽象为一个顶点,将有关联的两个标识连接的线抽象为这两个标识的边,基于边可以构建图结构。

例如,基于图结构计算,得到如图2所示的3个连通分量,每个连通分量中的标识都有对应的编码值,具体地,对于顶点1、顶点2、顶点5、顶点6、顶点7、顶点8、顶点9、顶点10、顶点11、顶点12、顶点13,其中,顶点1分别与顶点5、顶点6、顶点7、顶点8、顶点9相互关联,顶点2分别与顶点8、顶点9、顶点10、顶点11、顶点12、顶点13相互关联,将每个相互关联的顶点之间通过多条边连在一起,构成了第一个连通分量,可以选取该连通分量中的任意编码值作为对应的标识ID,例如,选取最小编码值作为第一个连通分量对应的标识ID,即第一个连通分量的标识ID为1,可以表示为连通分量:1;对于顶点0、顶点3、顶点14、顶点15、顶点16,顶点3分别与顶点0、顶点14、顶点15、顶点16相互关联,将与顶点3相互关联的其他顶点通过多条边连在一起,构成了第二个连通分量,选取0作为第二个连通分量的标识ID,可以表示为连通分量:0;顶点4与顶点17相互关联并连在一起,构成了第三个连通分量,选取4作为第三个连通分量的标识ID,可以表示为连通分量:4。

步骤106、接收用户输入的关联标识,获取与输入的关联标识相对应的标识ID。

需要说明的是,本实施方式可以接收用户输入的一个关联标识,也可以接收用户批量导入的多个不同的关联标识,当接收用户输入的多个不同的关联标识时,分别获取与每个输入关联标识相对应的标识ID。

步骤107、根据获取的标识ID以及对应的连通分量识别出与获取的标识ID对应的其他关联标识。

本实施方式中,先根据获取的标识ID识别出与获取的标识ID对应的连通分量,然后基于该连通分量识别出与获取的标识ID对应的其他关联标识。

例如,需要通过某一个手机号识别出该手机号码对应的邮箱,具体地,先根据获取的手机号码138****识别出与该手机号码对应的用户,然后再基于该用户即可识别出与该手机号码138****对应的邮箱。

在可选的一种实施方式中,该识别方法还包括:

计算图结构中所有关联标识的权重值。

本实施方式采用PageRank(网页排序算法)算法计算图结构,并输出各个用户的关联标识的PR(等级值)值,该PR值可以作为对应关联标识权重的衡量指标,而关联标识的权重值可以作为同类型下用户标识识别的优先顺序或者指标按比例分摊的依据,满足了不同场景下用户标识识别以及统计指标分摊的需求。

本实施方式中,可以在执行上述步骤104的同时也执行计算图结构中所有关联标识的权重值的步骤;也可以在执行完上述步骤104之后,通过计算每个连通分量中的关联标识的权重值来得到整个图结构中所有关联标识的权重值。

若识别出属于同类型的其他关联标识的数量超过两个,则选择权重值最高的其他关联标识作为输出。

本实施方式中,若根据获取的标识ID以及对应的连通分量识别出与获取的标识ID对应的属于同类型的其他关联标识的数量超过两个,则选择权重值最高的其他关联标识作为输出。

例如,在具体实施过程中,如图3所示,根据实际项目的需要,获取至少一个用户的标识,然后梳理出各个用户标识间的关联标识,将格式的每个用户的标识统一编码为Long型数值(Long型数值可以记为KeyID(标识)),然后将编码后的关联标识输出为Edges;具体地,将统一编码为Long型数值,然后输出Edges;再根据Edges构建图结构,并采用Spark Graphx计算图结构,得到至少一个连通分量,将每个KeyID归属到相应连通分量,选取每个连通分量中的任意编码值作为对应的标识ID,需要说明的是,通常选取每个连通分量中Min(keyID)数值作为该连通分量的标识ID(即作为该用户的标识ID,可以记为OneId),接收用户输入的关联标识,获取与输入的关联标识相对应的标识ID,先根据获取的标识ID识别出与获取标识ID对应的连通分量,即输出获取的标识ID与该对应的连通分量的对应关系Mapping,然后基于该连通分量识别出与获取的标识ID对应的其他关联标识;采用PageRank算法继续对图结构进行计算,并获取各个用户的关联标识的PR值,该PR值可以为对应关联标识权重的衡量指标,该PR值与上述对应关系合并后最终输出

本实施方式中的图结构计算是基于编码值(即数字)的计算,计算过程中都是编码值,采用这种方式可以提高计算的效率,在基于编码值计算完成后,给编码值增加对应的标识类型以及文本关联标识,以方便后续使用。

本实施方式根据获取到的每个用户的关联标识构建图结构,并对基于图结构计算得到的每个连通分量分别设置唯一对应的标识ID,再根据获取到的与输入的关联标识对应的标识ID以及对应的连通分量识别出与获取的标识ID对应的其他关联标识,实现了基于同一个用户的任意标识ID识别出该用户的其他标识,进而实现了在具体业务应用中可以使用统一的用户标识,从而提高了工作效率。

实施例2

如图4所示,本实施例提供了一种用户标识的识别系统,该识别系统包括第一获取模块1、编码模块2、构建模块3、第一计算模块4、设置模块5、第二获取模块6和识别模块7。

第一获取模块1用于获取至少一个用户的标识,每个用户均具有若干关联标识。

本实施方式中,从各个上游系统获取至少一个用户的标识,例如,可以获取注册不同网站的至少一个用户的标识,从每个用户的标识中梳理出该用户的若干关联标识。

编码模块2用于对每个用户的关联标识进行编码,以得到编码后的关联标识。

本实施方式中,编码模块2具体用于对每个用户的关联标识进行Long型数值编码,不同关联标识的编码值不同。为了方便统计优选可以对用户进行排序,而对于每个用户的关联标识可以按照递增的方式进行编码排序,例如,将每个用户的关联标识可以按照1、2、3等递增的方式进行编码排序,本实施方式中不仅同一个用户的不同关联标识的编码值不同,而且不同用户的关联标识的编码值也不同。

构建模块3具体用于根据编码后的关联标识构建图结构。

本实施方式中,根据每个用户的关联标识构建图结构,具体地,根据编码后的关联标识构建图结构。

第一计算模块4用于计算图结构,以得到至少一个连通分量。

本实施方式中,本实施方式采用Spark Graphx计算图结构,以得到至少一个连通分量,每个连通分量可以视作一个用户。

设置模块5用于对每个连通分量分别设置唯一对应的标识ID。

本实施方式中,在设置每个连通分量的标识ID时,设置模块5具体用于选取每个连通分量中的任意编码值作为对应的标识ID,通常优选最小编码值或者最大编码值最作为对应的标识ID。

本实施方式中,可以将用户的标识抽象为一个顶点,将有关联的两个标识连接的线抽象为这两个标识的边,基于边可以构建图结构。

例如,基于图结构计算,得到如图2所示的3个连通分量,每个连通分量中的标识都有对应的编码值,具体地,对于顶点1、顶点2、顶点5、顶点6、顶点7、顶点8、顶点9、顶点10、顶点11、顶点12、顶点13,其中,顶点1分别与顶点5、顶点6、顶点7、顶点8、顶点9相互关联,顶点2分别与顶点8、顶点9、顶点10、顶点11、顶点12、顶点13相互关联,将每个相互关联的顶点之间通过多条边连在一起,构成了第一个连通分量,可以选取该连通分量中的任意编码值作为对应的标识ID,例如,选取最小编码值作为第一个连通分量对应的标识ID,即第一个连通分量的标识ID为1,可以表示为连通分量:1;对于顶点0、顶点3、顶点14、顶点15、顶点16,顶点3分别与顶点0、顶点14、顶点15、顶点16相互关联,将与顶点3相互关联的其他顶点通过多条边连在一起,构成了第二个连通分量,选取0作为第二个连通分量的标识ID,可以表示为连通分量:0;顶点4与顶点17相互关联并连在一起,构成了第三个连通分量,选取4作为第三个连通分量的标识ID,可以表示为连通分量:4。

第二获取模块6用于接收用户输入的关联标识,获取与输入的关联标识相对应的标识ID。

需要说明的是,本实施方式可以接收用户输入的一个关联标识,也可以接收用户批量导入的多个不同的关联标识,当接收用户输入的多个不同的关联标识时,分别获取与每个输入关联标识相对应的标识ID。

识别模块7用于根据获取的标识ID以及对应的连通分量识别出与获取的标识ID对应的其他关联标识。

本实施方式中,先根据获取的标识ID识别出与获取的标识ID对应的连通分量,然后基于该连通分量识别出与获取的标识ID对应的其他关联标识。

例如,需要通过某一个手机号识别出该手机号码对应的邮箱,具体地,先根据获取的手机号码138****识别出与该手机号码对应的用户,然后再基于该用户即可识别出与该手机号码138****对应的邮箱。

在可选的一种实施方式中,该识别系统还包括第二计算模块8和选择模块9。

第二计算模块8用于计算图结构中所有关联标识的权重值。

本实施方式采用PageRank算法计算图结构,并输出各个用户的关联标识的PR值,该PR值可以作为对应关联标识权重的衡量指标,而关联标识的权重值可以作为同类型下用户标识识别的优先顺序或者指标按比例分摊的依据,满足了不同场景下用户标识识别以及统计指标分摊的需求。

本实施方式中,可以在计算图结构得到至少一个连通分量的同时计算图结构中所有关联标识的权重值;也可以通过计算每个连通分量中的关联标识的权重值来得到整个图结构中所有关联标识的权重值。

选择模块9用于若识别出属于同类型的其他关联标识的数量超过两个,则选择权重值最高的其他关联标识作为输出。

本实施方式中,若根据获取的标识ID以及对应的连通分量识别出与获取的标识ID对应的属于同类型的其他关联标识的数量超过两个,则选择权重值最高的其他关联标识作为输出。

例如,在具体实施过程中,如图3所示,根据实际项目的需要,获取至少一个用户的标识,然后梳理出各个用户标识间的关联标识,将格式的每个用户的标识统一编码为Long型数值(Long型数值可以记为KeyID),然后将编码后的关联标识输出为Edges;具体地,将统一编码为Long型数值,然后输出Edges;再根据Edges构建图结构,并采用Spark Graphx计算图结构,得到至少一个连通分量,将每个KeyID归属到相应连通分量,选取每个连通分量中的任意编码值作为对应的标识ID,需要说明的是,通常选取每个连通分量中Min(keyID)数值作为该连通分量的标识ID(即作为该用户的标识ID,可以记为OneId),接收用户输入的关联标识,获取与输入的关联标识相对应的标识ID,先根据获取的标识ID识别出与获取标识ID对应的连通分量,即输出获取的标识ID与该对应的连通分量的对应关系Mapping,然后基于该连通分量识别出与获取的标识ID对应的其他关联标识;采用PageRank算法继续对图结构进行计算,并获取各个用户的关联标识的PR值,该PR值可以为对应关联标识权重的衡量指标,该PR值与上述对应关系合并后最终输出

本实施方式中的图结构计算是基于编码值(即数字)的计算,计算过程中都是编码值,采用这种方式可以提高计算的效率,在基于编码值计算完成后,给编码值增加对应的标识类型以及文本关联标识,以方便后续使用。

本实施方式根据获取到的每个用户的关联标识构建图结构,并对基于图计算得到的每个连通分量分别设置唯一对应的标识ID,再根据获取到的与输入的关联标识对应的标识ID以及对应的连通分量识别出与获取的标识ID对应的其他关联标识,实现了基于同一个用户的任意标识ID识别出该用户的其他标识,进而实现了在具体业务应用中可以使用统一的用户标识,从而提高了工作效率。

实施例3

图5为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现实施例1的用户标识的识别方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的用户标识的识别方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1所提供的用户标识的识别方法的步骤。

其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所述的用户标识的识别方法的步骤。

其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

相关技术
  • 用户标识的识别方法、系统、设备及介质
  • 流失用户标识识别方法、装置、计算机设备及存储介质
技术分类

06120113148440