掌桥专利:专业的专利平台
掌桥专利
首页

基于数据标签的用户画像分析方法、装置、介质和设备

文献发布时间:2023-06-19 11:08:20


基于数据标签的用户画像分析方法、装置、介质和设备

技术领域

本发明涉及数据治理领域,尤其涉及一种基于数据标签的用户画像分析方法、装置、介质和设备。

背景技术

当前数据治理现状中,政务数据面临以下痛点:

由于政府管理过程中对各部门对业务分化、权力分割,导致数据因部门管理碎片化而分散。造成各部门容易出现“数据不知道,数据找不到”等问题。例如:

对不同业务对同一数据的描述不同,对表和字段的定义混乱;

数据标准的分类问题,数据分类多样化,对主题、行业、服务分类会出现标准分类重复、分错情况;

数据标准的编码规范问题,业务数据代码不统一,使数据可信性低;

数据标准的命名规范问题,对表和字段的命名随意性强,同一英文字段名对应多个中文名,反之也存在中文的一对多;

数据标准的属性规范问题,同一业务元素会对应多种数据类型和长度;

缺少数据标准的应用建议,对数据制定数据标准时,缺乏规范标准应用。

针对目前数据资源现状,缺乏提供多样化服务,没有从基于数据使用、数据同步、数据比对、应用开发、数据库等方面进行计划和思考。导致无法测算预测资源服务压力,无法提高服务质量和工作效率,无法提高主动和针对性服务水平。无法提供预见性的服务,最终出现服务规划不精准的问题;对目标群体进行多维画像分析。

发明内容

有鉴于此,本发明提供一种基于数据标签的用户画像分析方法、装置、介质和设备,解决现有技术中存在的无法对目标群体进行多维画像分析的技术问题。

为达上述目的,第一方面,提供一种基于数据标签的用户画像分析方法,其包括:

导入标签模型:从数据源中导入实体表,所述实体表对应有标签模型;

抽取标签实体属性:从所述标签模型中选择多个字段,抽取出所述标签模型的实体属性;

创建数据标签:对所述标签模型设置标签分层规则;

计算标签人群:根据设置的标签分层规则,过滤形成相应的标签人群分层数据;

创建用户分群:将每个标签的标签人群分层数据作为单独的标签用户群;

用户画像分析:将每个标签用户群与其实体属性进行组合,获得用户画像。

在一些可能的实施方式中,所述抽取标签实体属性步骤,具体包括:

从所述标签模型中选择包括姓名、身份证号码、联系地址、手机号码、有无症状的指示信息、是否接触过患者的指示信息、性别、患者来源区域、以及患者当前所处区域在内的多个字段,抽取出所述标签模型的实体属性。

在一些可能的实施方式中,所述创建数据标签步骤,具体包括:

设置基础信息,所述设置基础信息包括:响应于输入操作,将所述标签模型设置为待分析的模型;响应于输入操作,将所述标签模型的更新方式设置为手动更新或者例行更新;响应于输入操作,将创建数据标签的执行周期设置为分钟、小时、天、月、年中的一种;响应于用户的输入操作,将所述标签模型的调度策略设置为每隔预设时长执行一次;

设置标签分层规则,所述设置标签分层规则包括:将人群划分为多个分层,每个分层与配置的多个条件相关联。

在一些可能的实施方式中,所述的将人群划分为多个分层,每个分层与配置的多个条件相关联,具体包括:

将人群划分为至少两个分层;其中一个分层代表第一地区患者人群,其中另一个分层代表第二地区患者人群;

每个分层与配置的至少两个条件同时满足相关联,所述至少两个条件包括:第一条件是健康状况等于异常;以及,第二条件是来自区域等于第一地区或第二地区。

在一些可能的实施方式中,所述用户画像分析步骤具体包括:

将每个标签用户群与其实体属性进行组合,获得多个维度的用户画像;其中,第一维度的用户画像为指示患者当前去向的分布图,第二维度的用户画像为指示患者的来源区域的分布图。

第二方面,提供一种基于数据标签的用户画像分析装置,其包括:

标签模型导入模块,用于从数据源中导入实体表,所述实体表对应有标签模型;

标签实体属性抽取模块,用于从所述标签模型中选择多个字段,抽取出所述标签模型的实体属性;

数据标签创建模块,用于对所述标签模型设置标签分层规则;

标签人群计算模块,用于根据设置的标签分层规则,过滤形成相应的标签人群分层数据;

用户分群创建模块,用于将每个标签的标签人群分层数据作为单独的标签用户群;

用户画像分析模块,用于将每个标签用户群与其实体属性进行组合,获得用户画像。

在一些可能的实施方式中,所述标签实体属性抽取模块,具体用于:从所述标签模型中选择包括姓名、身份证号码、联系地址、手机号码、有无症状的指示信息、是否接触过患者的指示信息、性别、患者来源区域、以及患者当前所处区域在内的多个字段,抽取出所述标签模型的实体属性。

在一些可能的实施方式中,所述数据标签创建模块,具体用于:

设置基础信息,所述设置基础信息包括:响应于输入操作,将所述标签模型设置为待分析的模型;响应于输入操作,将所述标签模型的更新方式设置为手动更新或者按例行更新;响应于输入操作,将创建数据标签的执行周期设置为分钟、小时、天、月、年中的一种;响应于用户的输入操作,将所述标签模型的调度策略设置为每隔预设时长执行一次;

设置标签分层规则,所述设置标签分层规则包括:将人群划分为多个分层,每个分层与配置的多个条件相关联。

第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的任意一种基于数据标签的用户画像分析方法。

第四方面,提供一种计算机设备,其包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的任意一种基于数据标签的用户画像分析方法。

上述技术方案的有益技术效果:

为了提高数据资源使用效率,本发明实施例以标签模型进行数据聚合,根据数据特性实现自动化数据标签能力,根据标签组合能力进行用户分群,对目标群体进行多维画像分析。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例的一种基于数据标签的用户画像分析方法的流程图;

图2是本发明实施例作为一个举例的导入标签模型的软件界面图;

图3是本发明实施例作为一个举例的抽取实体属性的软件界面图;

图4A是本发明实施例作为一个举例的创建数据标签的软件界面图一;

图4B是本发明实施例作为一个举例的创建数据标签的软件界面图二;

图5是本发明实施例作为一个举例的查看标签结果的软件界面图;

图6是本发明实施例作为一个举例的查看标签人群的软件界面图;

图7是本发明实施例作为一个举例的查看用户个体画像的软件界面图;

图8是本发明实施例作为一个举例的创建用户分群的软件界面图;

图9是本发明实施例作为一个举例的查看用户分群的软件界面图;

图10A是本发明实施例作为一个举例的创建用户画像的软件界面图一;

图10B是本发明实施例作为一个举例的创建用户画像的软件界面图二;

图10C是本发明实施例作为一个举例的查看画像的软件界面图;

图11是本发明实施例提供的一种基于数据标签的用户画像分析装置的功能框图;

图12是本发明实施例的一种计算机设备的功能框图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

实施例一

图1是本发明实施例的一种基于数据标签的用户画像分析方法的流程图。

如图1所示,该方法S100包括如下步骤:

S110、导入标签模型:从数据源中导入实体表,所述实体表对应有标签模型。

S120、抽取标签实体属性:从所述标签模型中选择多个字段,抽取出所述标签模型的实体属性。

S130、创建数据标签:对所述标签模型设置标签分层规则。

S140、计算标签人群:根据设置的标签分层规则,过滤形成相应的标签人群分层数据。

S150、创建用户分群:将每个标签的标签人群分层数据作为单独的标签用户群。

S160、用户画像分析:将每个标签用户群与其实体属性进行组合,获得用户画像。

在一些实施例中,所述S120抽取标签实体属性步骤,具体可以包括:

从所述标签模型中选择包括姓名、身份证号码、联系地址、手机号码、有无症状的指示信息、是否接触过患者的指示信息、性别、患者来源区域、以及患者当前所处区域在内的多个字段,抽取出所述标签模型的实体属性。

在一些实施例中,所述S130创建数据标签步骤,具体可以包括如下步骤:

设置基础信息,所述设置基础信息包括:响应于输入操作,将所述标签模型设置为待分析的模型;响应于输入操作,将所述标签模型的更新方式设置为手动更新或者例行更新;响应于输入操作,将创建数据标签的执行周期设置为分钟、小时、天、月、年中的一种;响应于用户的输入操作,将所述标签模型的调度策略设置为每隔预设时长执行一次;

设置标签分层规则,所述设置标签分层规则包括:将人群划分为多个分层,每个分层与配置的多个条件相关联。

在一些实施例中,所述的将人群划分为多个分层,每个分层与配置的多个条件相关联,具体可以包括:

将人群划分为至少两个分层;其中一个分层代表第一地区患者人群,其中另一个分层代表第二地区患者人群;

每个分层与配置的至少两个条件同时满足相关联,所述至少两个条件包括:第一条件是健康状况等于异常;以及,第二条件是来自区域等于第一地区或第二地区。

在一些实施例中,所述S160用户画像分析步骤具体可以包括:

将每个标签用户群与其实体属性进行组合,获得多个维度的用户画像;其中,第一维度的用户画像为指示患者当前去向的分布图,第二维度的用户画像为指示患者的来源区域的分布图。

以下对上述方法进行更加详细的描述:

为了提高数据资源使用效率,本发明以标签模型进行数据聚合,根据数据特性实现自动化数据标签能力,根据标签组合能力进行用户分群,对目标群体进行多维画像分析。

数据标签逻辑流程,包括如下步骤:

导入标签模型:从数据源中导入实体表,作为打标的对象。

抽取标签属性:从标签模型中,选择字段,抽取出打标对象的实体属性,作为打标的维度和依据。

创建数据标签:设置标签分层分类规则、调度计划,选择模型以及属性进行自由组合。

计算标签人群:根据标签规则,过滤形成相应的分组数据。

用户群画像逻辑流程,包括如下步骤:

创建数据标签、计算标签人群:通过创建标签,计算筛选出标签人群;

创建用户分群:将某个标签的分层计算结果保存为单独的标签用户群;

用户画像分析:将某一标签用户群,根据其实体属性进行组合,进行一维或二维角度的统计分析。

以下结合实际案例进行举例说明:

图2是本发明实施例作为一个举例的导入标签模型的软件界面图;在图2 中,作为一个举例,数据源名称可设置为演示或治理,数据表可以采用但不限于住院信息表。图3是本发明实施例作为一个举例的抽取实体属性的软件界面图;如图3所示,表名可以为进入C地区信息表,列信息可包括七个字段或七个属性,例如为:属性名“xm”、“sfzmhm”、“lxdz”、“sjhm”、“zz”、“jchz”、“sex”,显示名分别相应地为:姓名、身份证号码、联系地址、手机号码、症状(0为无症状,1为有症状)、接触患者信息(0为否,1为是)、性别。图4A是本发明实施例作为一个举例的创建数据标签的软件界面图一;如图4A所示,在设置基础信息界面中,标签名称设置为患者标签,模型是上述的进入C地区信息表,更新方式被配置为例行更新,执行周期为按分钟执行,调度策略被设置为每隔15分钟执行一次。图4B是本发明实施例作为一个举例的创建数据标签的软件界面图二;如图4B所示,在设置标签规则界面中,在全部用户中,将满足以下条件的用户分为2个分层,例如A地区患者、B地区患者;但不限于2个分层,可根据需要添加分层。作为举例,当满足健康状况等于异常,并且来自区域等于A地区时,满足上述两个条件的人群处于A地区患者分层中。系统会按照上述自定义分层的顺序进行用户匹配,同一用户会被优先匹配在顺序靠前的分层中。图5是本发明实施例作为一个举例的查看标签结果的软件界面图;如图5所示,在执行病情是否来源A地区分析中,分类为2类,一类是来源A地区,一类是来源其他地区。图6是本发明实施例作为一个举例的查看标签人群的软件界面图;图7是本发明实施例作为一个举例的查看用户个体画像的软件界面图;图8是本发明实施例作为一个举例的创建用户分群的软件界面图;图9是本发明实施例作为一个举例的查看用户分群的软件界面图;

图10A是本发明实施例作为一个举例的创建用户画像的软件界面图一;图10B 是本发明实施例作为一个举例的创建用户画像的软件界面图二;图10C是本发明实施例作为一个举例的查看画像的软件界面图。如图10C所示,用户画像包括人群去向的用户画像和病患来源的用户画像。

实施例二

图11是本发明实施例提供的一种基于数据标签的用户画像分析装置的功能框图。如图11所示,该装置200包括:

标签模型导入模块210,用于从数据源中导入实体表,所述实体表对应有标签模型;

标签实体属性抽取模块220,用于从所述标签模型中选择多个字段,抽取出所述标签模型的实体属性;

数据标签创建模块230,用于对所述标签模型设置标签分层规则;

标签人群计算模块240,用于根据设置的标签分层规则,过滤形成相应的标签人群分层数据;

用户分群创建模块250,用于将每个标签的标签人群分层数据作为单独的标签用户群;

用户画像分析模块260,用于将每个标签用户群与其实体属性进行组合,获得用户画像。

在一些实施例中,所述标签实体属性抽取模块220,可以具体用于:从所述标签模型中选择包括姓名、身份证号码、联系地址、手机号码、有无症状的指示信息、是否接触过患者的指示信息、性别、患者来源区域、以及患者当前所处区域在内的多个字段,抽取出所述标签模型的实体属性。

在一些实施例中,所述数据标签创建模块230,可以具体用于:

设置基础信息,所述设置基础信息包括:响应于输入操作,将所述标签模型设置为待分析的模型;响应于输入操作,将所述标签模型的更新方式设置为手动更新或者按例行更新;响应于输入操作,将创建数据标签的执行周期设置为分钟、小时、天、月、年中的一种;响应于用户的输入操作,将所述标签模型的调度策略设置为每隔预设时长执行一次;

设置标签分层规则,所述设置标签分层规则包括:将人群划分为多个分层,每个分层与配置的多个条件相关联。

该装置可以提高数据资源使用效率,本发明以标签模型进行数据聚合,根据数据特性实现自动化数据标签能力,根据标签组合能力进行用户分群,能够对目标群体进行多维画像分析。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

实施例三

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的任意一种基于数据标签的用户画像分析方法。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

实施例四

本发明实施例还提供了一种计算机设备,如图12所示,包括一个或多个处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。

存储器303,用于存放计算机程序;

处理器301,用于执行存储器303上所存放的程序时,实现:

导入标签模型:从数据源中导入实体表,所述实体表对应有标签模型;

抽取标签实体属性:从所述标签模型中选择多个字段,抽取出所述标签模型的实体属性;

创建数据标签:对所述标签模型设置标签分层规则;

计算标签人群:根据设置的标签分层规则,过滤形成相应的标签人群分层数据;

创建用户分群:将每个标签的标签人群分层数据作为单独的标签用户群;

用户画像分析:将每个标签用户群与其实体属性进行组合,获得用户画像。

在一种可能的设计中,处理器301的处理中,所述抽取标签实体属性步骤,具体包括:

从所述标签模型中选择包括姓名、身份证号码、联系地址、手机号码、有无症状的指示信息、是否接触过患者的指示信息、性别、患者来源区域、以及患者当前所处区域在内的多个字段,抽取出所述标签模型的实体属性。

在一种可能的设计中,处理器301的处理中,所述创建数据标签步骤,具体包括:

设置基础信息,所述设置基础信息包括:响应于输入操作,将所述标签模型设置为待分析的模型;响应于输入操作,将所述标签模型的更新方式设置为手动更新或者例行更新;响应于输入操作,将创建数据标签的执行周期设置为分钟、小时、天、月、年中的一种;响应于用户的输入操作,将所述标签模型的调度策略设置为每隔预设时长执行一次;

设置标签分层规则,所述设置标签分层规则包括:将人群划分为多个分层,每个分层与配置的多个条件相关联。

在一种可能的设计中,处理器301的处理中,所述的将人群划分为多个分层,每个分层与配置的多个条件相关联,具体包括:

将人群划分为至少两个分层;其中一个分层代表第一地区患者人群,其中另一个分层代表第二地区患者人群;

每个分层与配置的至少两个条件同时满足相关联,所述至少两个条件包括:第一条件是健康状况等于异常;以及,第二条件是来自区域等于第一地区或第二地区。

在一种可能的设计中,处理器301的处理中,所述用户画像分析步骤具体包括:

将每个标签用户群与其实体属性进行组合,获得多个维度的用户画像;其中,第一维度的用户画像为指示患者当前去向的分布图,第二维度的用户画像为指示患者的来源区域的分布图。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 基于数据标签的用户画像分析方法、装置、介质和设备
  • 基于用户画像标签的召回方法、装置、设备及存储介质
技术分类

06120112810830