掌桥专利:专业的专利平台
掌桥专利
首页

用户身份识别系统、方法、计算设备及计算机存储介质

文献发布时间:2023-06-19 18:35:48


用户身份识别系统、方法、计算设备及计算机存储介质

技术领域

本发明涉及信息处理技术领域,具体涉及一种用户身份识别系统、方法、计算设备及计算机存储介质。

背景技术

运营商通常会向用户发送套餐优惠活动等推荐信息。为了提升推荐信息的转化率,运营商需先识别出推荐信息所对应的潜在转化用户。其中,毕业生(尤其为高中毕业生)用户群体为一类重要的潜在转化用户。

现有技术通常是以离线的方式从数据库中获取用户已经产生的历史数据,并基于该历史数据来识别出毕业生用户群体。然而采用该种用户身份识别方式不仅效率低下,而且确定出的用户身份信息与实际用户身份存在较大差别。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用户身份识别系统、方法、计算设备及计算机存储介质。

根据本发明的一个方面,提供了一种用户身份识别系统,包括:

数据获取模块,用于从至少一个数据源中实时获取用户动态数据以及获取离线用户模型输出的用户属性数据;

图谱模块,用于将所述用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配,确定与所述用户动态数据匹配的目标数据维度,并根据所述目标数据维度的配置信息,生成与所述用户动态数据对应的场景特征数据;

实时计算模块,用于根据所述场景特征数据以及所述用户属性信息生成用户身份标签。

在一种可选的实施方式中,所述图谱模块包括:

场景配置单元,用于获取多个毕业生行为场景的场景配置规则;所述场景配置规则包含毕业生行为场景对应的数据维度,以及数据维度的配置信息;

图谱生成单元,用于根据所述场景配置规则确定构建毕业生行为场景知识图谱所需的数据维度,将每个数据维度作为图谱实体,将数据维度的配置信息作为实体属性,以及根据数据维度之间的场景关联性建立图谱实体间的连接,以生成毕业生行为场景知识图谱;

解析单元,用于将所述用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配,确定与所述用户动态数据匹配的目标数据维度,并根据所述目标数据维度的配置信息,生成与所述用户动态数据对应的场景特征数据。

在一种可选的实施方式中,所述图谱模块还包括:

更新单元,用于在监听到所述场景配置模块中的更新事件之后,更新所述毕业生行为场景知识图谱。

在一种可选的实施方式中,所述数据维度包括以下维度中的至少一种:

时间维度、位置维度、查分行为维度、填报志愿行为维度、以及高校查询维度。

在一种可选的实施方式中,所述实时计算模块进一步包括:流式模型层以及计算模型层;

其中,所述流式模型层用于对所述场景特征数据和/或所述用户属性数据进行流式处理,以生成流数据;

所述计算模型层用于对所述流数据进行处理以输出用户身份标签。

在一种可选的实施方式中,所述计算模型层进一步包括:动态模型组件、事件模型组件和/或时序模型组件;

其中,所述动态模型组件用于进行实时统计处理;

所述事件模型组件用于进行事件数据处理;

所述时序模型组件用于进行时序数据处理。

在一种可选的实施方式中,所述数据获取模块进一步包括以下组件中的至少一个:DSG组件、kafka消息组件、消息队列组件以及文件拉取组件;

其中,所述DSG组件用于以DSG的方式从数据源获取数据;

所述kafka消息组件用于以kafka消息的方式从数据源获取数据;

所述消息队列组件用于以消息队列的方式从数据源获取数据;

所述文件拉取组件用于以文件拉取的方式获取离线用户模型输出的用户属性数据。

根据本发明的另一个方面,提供了一种用户身份识别方法,包括:

从至少一个数据源中实时获取用户动态数据以及获取离线用户模型输出的用户属性数据;

将所述用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配,确定与所述用户动态数据匹配的目标数据维度,并根据所述目标数据维度的配置信息,生成与所述用户动态数据对应的场景特征数据;

根据所述场景特征数据以及所述用户属性信息生成用户身份标签。

在一种可选的实施方式中,在所述将用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配之前,所述方法还包括:

获取多个毕业生行为场景的场景配置规则;所述场景配置规则包含毕业生行为场景对应的数据维度,以及数据维度的配置信息;

根据所述场景配置规则确定构建毕业生行为场景知识图谱所需的数据维度,将每个数据维度作为图谱实体,将数据维度的配置信息作为实体属性,以及根据数据维度之间的场景关联性建立图谱实体间的连接,以生成毕业生行为场景知识图谱。

在一种可选的实施方式中,所述方法还包括:在监听到更新事件之后,更新所述毕业生行为场景知识图谱。

在一种可选的实施方式中,所述数据维度包括以下维度中的至少一种:

时间维度、位置维度、查分行为维度、填报志愿行为维度、以及高校查询维度。

根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述用户身份识别方法对应的操作。

根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述用户身份识别方法对应的操作。

由此可见,本发明实施例提供的用户身份识别系统、方法、计算设备及存储介质。能够基于实时获得的用户动态数据以及离线用户模型输出的用户属性数据进行用户身份的识别,提升了用户身份识别的精度;并且能够实时地输出当前用户身份标签,提升用户身份的识别效率;而且本发明实施例在获得用户动态数据之后,进一步将用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配,确定与用户动态数据对应的目标数据维度,并根据目标数据维度的配置信息,生成与用户动态数据对应的场景特征数据,以便于后续可以根据该场景特征数据以及用户属性信息快速且准确地生成用户身份标签。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种用户身份识别系统的结构示意图;

图2示出了本发明实施例提供的一种数据获取模块的结构示意图;

图3示出了本发明实施例提供的一种图谱模块的结构示意图;

图4示出了本发明实施例提供的一种实时计算模块的结构示意图;

图5示出了本发明实施例提供的一种用户身份识别方法的流程示意图;

图6示出了本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的一种用户身份识别系统的结构示意图。本发明实施例提供的用户身份识别系统能够从众多用户中识别出毕业生用户群体,尤其能够识别出高中毕业生用户群体。

如图1所示,用户身份识别系统100包括:数据获取模块110、图谱模块120、以及实时计算模块130。

数据获取模块110用于从至少一个数据源中实时获取用户动态数据以及获取离线用户模型输出的用户属性数据。

具体地,数据获取模块110对接有第一类数据生产端以及第二类数据生产端。其中,第一类数据生产端为至少一个数据源,该数据源能够实时生产用户动态数据,则数据获取模块110通过对数据源中数据生产事件的监听,实时地获取到用户动态数据。可选的,该用户动态数据具体是指在短期内随时间会发生变化的数据,例如用户动态数据可以包括:位置数据、通信数据、上网行为数据等等。

第二类数据生产端为离线用户模型,该离线用户模型能够输出用户静态数据,该用户静态数据具体为用户属性数据。其中,该用户属性数据具体为短期内随时间数据内容不会发生变化的数据,例如用户属性数据可以为学生、家长、教师等等。在一种可选的实施方式中,离线用户模型基于机器学习算法构建,该离线用户模型能够对用户历史数据进行分析以输出用户属性数据。

在一种可选的实施方式中,为了提升数据获取模块110的数据获取效率,数据获取模块110包含有多个不同的数据获取组件,以针对于不同的数据生产端采用不同的数据获取方式。如图2所示,数据获取模块110可以包括DSG组件、kafka消息组件、消息队列组件以及文件拉取组件中的任意一个。其中,DSG组件用于以DSG的方式从数据源获取数据,例如该数据源可以为生产订购类数据的数据源;kafka消息组件用于以kafka消息的方式从数据源获取数据,例如该数据源可以为生产位置信令的数据源;消息队列组件用于以消息队列的方式从数据源获取数据,例如该数据源可以为生产激活开通业务数据的数据源;文件拉取组件用于以文件拉取的方式获取离线用户模型输出的用户属性数据。

其中,由于从数据获取模块110直接获取到的数据较为杂乱,若后续实时计算模块130直接依据数据获取模块110获取到的数据进行处理,会大幅降低系统整体的处理效率,基于此,本发明实施例通过图谱模块120对用户动态数据进行预处理,以生成携带场景信息的场景特征数据,并将场景特征数据提供给实时计算模块130进行处理。

图谱模块120具体用于将用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配,确定与用户动态数据匹配的目标数据维度,并根据目标数据维度的配置信息,生成与用户动态数据对应的场景特征数据。

具体地,图谱模块120预先构建有毕业生行为场景知识图谱。该知识图谱融合有多个毕业生行为场景所需的数据。针对于任一用户动态数据,能够在该知识图谱中查找到与该用户动态数据匹配的目标数据维度,继而将目标数据维度的配置信息与用户动态数据融合后,生成携带场景信息的场景特征数据。

在一种可选的实施方式中,参考图3,图谱模块120具体包括:场景配置单元121、图谱生成单元122以及解析单元123。

场景配置单元121用于获取多个毕业生行为场景的场景配置规则。其中,通过对毕业生行为的分析可获得多个细粒度的毕业生行为场景,每个毕业生行为场景具有对应的场景配置规则。该场景配置规则包含毕业生行为场景对应的数据维度,以及数据维度的配置信息。

进一步可选的,数据维度包括以下维度中的至少一种:时间维度、位置维度、查分行为维度、填报志愿行为维度、以及高校查询维度等等。

进一步可选的,该数据维度的配置信息具体包括原数据与场景数据标签的映射关系。

表1

表1示出了毕业生行为场景A对应的场景配置规则。如表1所示,毕业生行为场景A对应的数据维度包括查分行为维度以及高校查询维度。其中,查分行为维度的配置信息包括原数据“端口D1、D2、D3…”与场景数据标签“查分端口”的映射关系等等。

图谱生成单元122用于根据场景配置规则确定数据维度,将每个数据维度作为图谱实体,将数据维度的配置信息作为实体属性,以及根据数据维度之间的场景关联性建立图谱实体间的连接,以生成毕业生行为场景知识图谱。其中,若两个数据维度对应于同一毕业生行为场景,则该两个数据维度具有场景关联性。从中可以看出,通过该毕业生行为场景知识图谱的构建,一方面便于后续基于该知识图谱快速地生成场景特征数据,另一方面由于不同毕业生行为场景会存在数据维度的交叠,以该知识图谱的方式进行配置规则的存储能够进一步节约存储资源。

解析单元123用于将用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配,确定与用户动态数据对应的目标数据维度,并根据目标数据维度的配置信息,生成与用户动态数据对应的场景特征数据。其中,在根据目标数据维度的配置信息,生成与用户动态数据对应的场景特征数据过程中,具体是根据目标数据维度的配置信息,确定出与用户动态数据对应的场景数据标签,最终根据场景数据标签生成场景特征数据。此外,为了便于后续实时计算模块130能够将同一毕业生行为场景的数据进行合并分析及处理,场景特征数据中还包含有场景标识。应当理解的是,由于不同场景包含的数据维度会存在交叠,所以同一场景特征数据会对应于一个或多个场景标识。

进一步可选的,同样参考图3,图谱模块120还进一步包含有更新单元124。更新单元124用于在监听到场景配置单元中的更新事件之后,更新毕业生行为场景知识图谱。其中,场景配置单元中的更新事件包括场景包含的数据维度的更新事件以及数据维度的配置信息的更新事件。

其中,系统使用者可根据实际的情况变更各个场景所包含的数据维度,并通过用户身份识别系统提供的配置入口变更场景所包含的数据维度。则在监听到通过配置入口变更场景所包含的数据维度的事件之后,根据配置入口输入的信息调整图谱实体间的连接。此外,系统使用者还可以通过配置入口变更数据维度的配置信息。则在监听到通过配置入口变更数据维度的配置信息的事件之后,根据配置入口输入的信息调整图谱实体间的属性信息。又或者,建立用户身份识别系统与配置信息源间的通道,当配置信息源变更时,通过对配置信息数据源的文本解析等处理方式,自动提取出更新内容,继而根据提取出的更新内容自动变更数据维度的配置信息。例如,时间维度的配置信息包括高考时间,则用户身份识别系统建立了与高考时间信息源(如某公开网址等)的通道,用户身份识别系统能够根据该通道及时识别出高考时间是否发生变化,并在高考时间发生变化时,及时更新时间维度的配置信息。

实时计算模块130,用于根据场景特征数据以及用户属性信息生成用户身份标签。通过用户属性信息这一静态数据与场景特征数据这一动态数据的结合来获得用户身份标签,能够提升获得的用户身份标签的精准度。其中,实时计算模块130可以基于机器学习算法构建。

在一种可选的实施方式中,如图4所示,实时计算模块130进一步包括:流式模型层131以及计算模型层132。其中,流式模型层131用于对场景特征数据和/或用户属性数据进行流式处理,以生成流数据,以便于对数据进行实时处理,以及实时输出用户身份标签。更具体地,流式模型层131处理后的数据为消息模式的流数据,从而后续的计算模型层通过对消息的消费达到流数据处理的目的。进一步可选的,流式模型层还进一步对数据进行预处理(如进行协议转换及裁剪处理等等)。流式模型层数据的存储结构为Kafka,通过Kafka与计算模型层的Kafka做物理隔离,避免一个流被多次消费,减少I/O成本。

计算模型层132用于对流数据进行处理以输出用户身份标签。计算模型层能够在DWD层采集全域实时数据,并抽象DW公共模型提供给上游应用使用。本系统可以采用flink-batch、flink-streaming、Kafka Consumer等计算引擎的组合进行数据处理。

进一步可选的,参考图4,计算模型层132进一步包括:动态模型组件1321、事件模型组件1322和/或时序模型组件1323。各个组件可以独立运行也可以协作运行。

其中,动态模型组件1321用于进行实时统计处理,例如各类指标等信息的汇总等;事件模型组件1322用于进行事件数据处理,具体是将实时的数据抽象成一系列事件,该事件包括上网事件,位置事件、短信事件、通话事件、订购关系事件等等。由于计算模型层处理的是流数据,则需要对相应的流数据进行短时存储,以便于对数据的集中处理,例如针对于位置事件可以保存近1小时的每分钟的位置数据;针对于订购关系事件等需要保存时间、时间类型与办理渠道等数据。时序模型组件1323用于进行时序数据处理,该组件可以进行时间对齐,生成上网时序、位置驻留时序、订购时序等等。例如时序模型组件1323可以保存用户的在线时空位置等信息,再根据不同的应用场景计算输出需要的结果,在Hbase的存储结构为用户+批次,内容为每秒的位置内容等信息。

在一种可选的方式中,本发明实施例可以包括不同的存储结构。具体针对于计算模型层包含的各个组件的处理数据的特征配置了相应的存储位置,从而提升组件的处理效率以及提升系统的整体识别效率等等。例如,动态模型组件1321的处理数据对应于Redis存储结构,事件模型组件1322的处理数据对应于Kafka存储结构,以及时序模型组件1323的处理数据对应于Hbase存储结构等等。

此外,本系统输出的用户身份标签具体标识了用户的身份,例如用户身份标签可以为“准备在浙江高校就读的高三考生”,“高三考生”等等。

由此可见,本发明实施例提供的用户身份识别系统基于实时获得的用户动态数据以及离线用户模型输出的用户属性数据进行用户身份的识别,提升了用户身份识别的精度;并且,本发明实施例提供的用户身份识别系统能够实时地输出当前用户身份标签,提升用户身份的识别效率;而且本发明实施例提供的用户身份识别系统在获得用户动态数据之后,进一步将用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配,确定与用户动态数据对应的目标数据维度,并根据目标数据维度的配置信息,生成与用户动态数据对应的场景特征数据,以便于后续可以根据该场景特征数据以及用户属性信息快速且准确地生成用户身份标签。

图5示出了本发明实施例提供的一种用户身份识别方法的流程示意图。

如图5所示,该方法包括如下步骤:

步骤S510,从至少一个数据源中实时获取用户动态数据以及获取离线用户模型输出的用户属性数据。

步骤S520,将用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配,确定与用户动态数据匹配的目标数据维度,并根据目标数据维度的配置信息,生成与用户动态数据对应的场景特征数据。

步骤S530,根据场景特征数据以及用户属性信息生成用户身份标签。

在一种可选的实施方式中,在所述将用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配之前,所述方法还包括:

获取多个毕业生行为场景的场景配置规则;所述场景配置规则包含毕业生行为场景对应的数据维度,以及数据维度的配置信息;

根据所述场景配置规则确定数据维度,将每个数据维度作为图谱实体,将数据维度的配置信息作为实体属性,以及根据数据维度之间的场景关联性建立图谱实体间的连接,以生成毕业生行为场景知识图谱。

在一种可选的实施方式中,所述方法还包括:在监听到所述场景配置模块中的更新事件之后,更新所述毕业生行为场景知识图谱。

在一种可选的实施方式中,所述数据维度包括以下维度中的至少一种:

时间维度、位置维度、查分行为维度、填报志愿行为维度、以及高校查询维度。

其中,本实施例的具体实施过程可参照系统实施例中相应部分的描述,在此不作赘述。

由此可见,本发明实施例提供的用户身份识别方法基于实时获得的用户动态数据以及离线用户模型输出的用户属性数据进行用户身份的识别,提升了用户身份识别的精度;并且能够实时地输出当前用户身份标签,提升用户身份的识别效率;而且本发明实施例在获得用户动态数据之后,进一步将用户动态数据与毕业生行为场景知识图谱对应的数据维度进行匹配,确定与用户动态数据对应的目标数据维度,并根据目标数据维度的配置信息,生成与用户动态数据对应的场景特征数据,以便于后续可以根据该场景特征数据以及用户属性信息快速且准确地生成用户身份标签。

本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用户身份识别方法。

图6示出了本发明实施例提供的一种计算设备的结构示意图。本发明具体实施例并不对计算设备的具体实现做限定。

如图6所示,该计算设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。

其中:处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。处理器602,用于执行程序610,具体可以执行上述用于用户身份识别方法实施例中的相关步骤。

具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。

处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

其中,本发明实施例提供地计算机存储介质以及计算设备的具体实施过程可参照上述用户身份识别系统实施例或用户身份识别方法实施例中相应部分的描述,在此不作赘述。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

技术分类

06120115623828