掌桥专利:专业的专利平台
掌桥专利
首页

耦合决策树的人群画像提取方法、系统、设备及计算机可读介质

文献发布时间:2023-06-19 11:05:16


耦合决策树的人群画像提取方法、系统、设备及计算机可读介质

技术领域

本发明属于信息提取技术领域,涉及一种人群画像提取系统,尤其涉及一种耦合决策树的人群画像提取方法、系统、设备及计算机可读介质。

背景技术

现有基于决策树的规则方法,需要人工从决策树中寻找规则,并且无法获取中间节点的信息,可能丢失很多有用的人群画像规则。同时,也无法批量的从大量的特征空间中搜索备选的规则集合。需要一种同时兼顾生成规则效果和效率的方法。

有鉴于此,如今迫切需要设计一种新的人群画像提取方式,以便克服现有人群画像提取方式存在的上述至少部分缺陷。

发明内容

本发明提供一种耦合决策树的人群画像提取方法、系统、设备及计算机可读介质,可以根据用户业务需求完全自动的抽取目标人群,归纳人群画像。

为解决上述技术问题,根据本发明的一个方面,采用如下技术方案:

一种耦合决策树的人群画像提取方法,所述人群画像提取方法包括:

决策树生成步骤,从给定的数据集、变量空间中,根据用户所输入的规则复杂度要求、规则置信度要求,并开放用户自定义参数防止规则过拟合,随机地生成决策树的预选集合;

特征提取步骤,遍历预选集合中的每一颗决策树,提取决策树中达到每个中间节点和叶子节点的路径,路径轨迹即为规则;同时记录下规则的击中率、目标变量响应率、目标变量均值中的至少一个;同时输出特征空间中各变量重复使用数、高频区间;所述目标变量响应率对应二分类、多分类问题,所述目标变量均值对应回归问题;

人群画像生成步骤,根据用户业务需求完全自动的抽取目标人群,归纳人群画像;在用户输入的样本集合上生成所有规则的报告;包括人群击中率、目标变量响应率、目标变量均值、规则在响应人群上的提升率中的至少一个,并能根据用户自定义的维度分群统计上诉指标;同时画像生成器会给出变量的重要性列表,以及每个变量的高频使用区域;用户能从输出的报告中获得人群共性。

根据本发明另一个方面,采用如下技术方案:一种耦合决策树的人群画像提取方法,所述人群画像提取方法包括:

决策树生成步骤,从给定的数据集、变量空间中,随机地生成决策树的预选集合;

特征提取步骤,提取决策树中的特征数据;

人群画像生成步骤,根据用户业务需求完全自动的抽取目标人群,归纳人群画像。

作为本发明的一种实施方式,所述决策树生成步骤中,根据用户所输入的规则复杂度要求、规则置信度要求,并开放用户自定义参数防止规则过拟合,

作为本发明的一种实施方式,所述特征提取步骤中,遍历预选集合中的每一颗决策树,提取决策树中达到每个中间节点和叶子节点的路径,路径轨迹即为规则;同时记录下规则的击中率、目标变量响应率、目标变量均值中的至少一个;同时输出特征空间中各变量重复使用数、高频区间;所述目标变量响应率对应二分类、多分类问题,所述目标变量均值对应回归问题;所述目标变量响应率对应二分类、多分类问题,所述目标变量均值对应回归问题。

作为本发明的一种实施方式,所述人群画像生成步骤中,在用户输入的样本集合上生成所有规则的报告;包括人群击中率、目标变量响应率、目标变量均值、规则在响应人群上的提升率中的至少一个,并能根据用户自定义的维度分群统计上诉指标;同时画像生成器会给出变量的重要性列表,以及每个变量的高频使用区域;用户能从输出的报告中获得人群共性。

根据本发明的又一个方面,采用如下技术方案:一种耦合决策树的人群画像提取系统,所述人群画像提取系统包括:

决策树生成模块,用以从给定的数据集、变量空间中,根据用户所输入的规则复杂度要求、规则置信度要求,并开放用户自定义参数防止规则过拟合,随机地生成决策树的预选集合;

特征提取模块,用以遍历预选集合中的每一颗决策树,提取决策树中达到每个中间节点和叶子节点的路径,路径轨迹即为规则;同时记录下规则的击中率、目标变量响应率、目标变量均值中的至少一个;同时输出特征空间中各变量重复使用数、高频区间;

人群画像生成模块,用以根据用户业务需求完全自动的抽取目标人群,归纳人群画像;在用户输入的样本集合上生成所有规则的报告;包括人群击中率、目标变量响应率、目标变量均值、规则在响应人群上的提升率中的至少一个,并能根据用户自定义的维度分群统计上诉指标;同时画像生成器会给出变量的重要性列表,以及每个变量的高频使用区域;用户能从输出的报告中获得人群共性。

作为本发明的一种实施方式,所述目标变量响应率对应二分类、多分类问题,所述目标变量均值对应回归问题。

根据本发明的又一个方面,采用如下技术方案:一种耦合决策树的人群画像提取系统,所述人群画像提取系统包括:

决策树生成模块,用以从给定的数据集、变量空间中,随机地生成决策树的预选集合;

特征提取模块,用以提取决策树中的特征数据;以及

人群画像生成模块,用以根据用户业务需求完全自动的抽取目标人群,归纳人群画像。

根据本发明的又一个方面,采用如下技术方案:一种人群画像提取方法的设备,所述设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行上述的方法。

根据本发明的又一个方面,采用如下技术方案:一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现上述的方法。

本发明的有益效果在于:本发明提出的耦合决策树的人群画像提取方法、系统、设备及计算机可读介质,可以根据用户业务需求完全自动的抽取目标人群,归纳人群画像;较经验方法,本发明能容纳更多的特征空间、并兼顾一定的可解释性,在金融风控、数据运营等领域都具有普适价值。

附图说明

图1为本发明一实施例中人群画像提取方法的流程图。

图2为本发明一实施例中人群画像提取系统的组成示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。

该部分的描述只针对几个典型的实施例,本发明并不仅局限于实施例描述的范围。相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。

说明书中各个实施例中的步骤的表述只是为了方便说明,本申请的实现方式不受步骤实现的顺序限制。说明书中的“连接”既包含直接连接,也包含间接连接。

本发明揭示了一种耦合决策树的人群画像提取方法,图1为本发明一实施例中人群画像提取方法的流程图;请参阅图1,所述人群画像提取方法包括:

【步骤S1】决策树生成步骤,从给定的数据集、变量空间中,随机地生成决策树的预选集合。

在一实施例中,从给定的数据集、变量空间中,根据用户所输入的规则复杂度要求、规则置信度要求,并开放用户自定义参数防止规则过拟合,随机地生成决策树的预选集合。

【步骤S2】特征提取步骤,提取决策树中的特征数据。

在本发明的一实施例中,遍历预选集合中的每一颗决策树,提取决策树中达到每个中间节点和叶子节点的路径,路径轨迹即为规则;同时记录下规则的击中率、目标变量响应率、目标变量均值中的至少一个;同时输出特征空间中各变量重复使用数、高频区间。在一实施例中,所述目标变量响应率对应二分类、多分类问题,所述目标变量均值对应回归问题。

【步骤S3】人群画像生成步骤,根据用户业务需求完全自动的抽取目标人群,归纳人群画像。

在一实施例中,在用户输入的样本集合上生成所有规则的报告;包括人群击中率、目标变量响应率、目标变量均值、规则在响应人群上的提升率中的至少一个,并能根据用户自定义的维度分群统计上诉指标;同时画像生成器会给出变量的重要性列表,以及每个变量的高频使用区域;用户能从输出的报告中获得人群共性。

本发明还揭示一种耦合决策树的人群画像提取系统,图2为本发明一实施例中人群画像提取系统的组成示意图;请参阅图2,所述人群画像提取系统包括:决策树生成模块1、特征提取模块2及人群画像生成模块3。

决策树生成模块1用以从给定的数据集、变量空间中,随机地生成决策树的预选集合。在一实施例中,可以根据用户所输入的规则复杂度要求、规则置信度要求,并开放用户自定义参数防止规则过拟合,随机地生成决策树的预选集合。

特征提取模块2用以提取决策树中的特征数据。在本发明的一实施例中,遍历预选集合中的每一颗决策树,提取决策树中达到每个中间节点和叶子节点的路径,路径轨迹即为规则;同时记录下规则的击中率、目标变量响应率、目标变量均值中的至少一个;同时输出特征空间中各变量重复使用数、高频区间。在一实施例中,所述目标变量响应率对应二分类、多分类问题,所述目标变量均值对应回归问题。

人群画像生成模块3用以根据用户业务需求完全自动的抽取目标人群,归纳人群画像。在一实施例中,在用户输入的样本集合上生成所有规则的报告;包括人群击中率、目标变量响应率、目标变量均值、规则在响应人群上的提升率中的至少一个,并能根据用户自定义的维度分群统计上诉指标;同时画像生成器会给出变量的重要性列表,以及每个变量的高频使用区域;用户能从输出的报告中获得人群共性。

本发明还揭示一种人群画像提取方法的设备,所述设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行上述的方法。

本发明进一步揭示一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现上述的方法。

综上所述,本发明提出的耦合决策树的人群画像提取方法、系统、设备及计算机可读介质,可以根据用户业务需求完全自动的抽取目标人群,归纳人群画像;较经验方法,本发明能容纳更多的特征空间、并兼顾一定的可解释性,在金融风控、数据运营等领域都具有普适价值。

需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施;例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中;例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现;例如,作为与处理器配合从而执行各个步骤或功能的电路。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。实施例中所涉及的效果或优点可因多种因素干扰而可能不能在实施例中体现,对于效果或优点的描述不用于对实施例进行限制。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

相关技术
  • 耦合决策树的人群画像提取方法、系统、设备及计算机可读介质
  • 规则引擎决策树实现方法、装置、计算机设备及计算机可读存储介质
技术分类

06120112792242