掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及计算机技术领域,具体涉及一种数据处理方法、装置、电子设备和可读存储介质。

背景技术

互联网产品在人们的生活中越来越普遍,互联网产品的产品指标(如续费率)所代表的功能对于研发或改进互联网产品,提升用户使用体验发挥着重要作用。因此,如何从大量与产品指标相关的用户行为特征指标中选取最为重要的几个特征指标作为重要度指标对于指导决策和配置资源具有重要意义。

现有的产品指标分析大多基于人工选择或相关性分析方式实现,由工作人员依据人工经验选取全部特征指标中的多个作为重要度指标;或者通过不同的特征指标与公认最重要的某个特征指标之间的相关性分析,以及相关性分析表征的相关性大小来确定重要度指标。

然而,由于人工经验主观性很强,不同工作人员选取的重要度指标之间差别较大,导致选取结果与实际结果不一致。同时,传统的相关性分析方法无法消除不同特征指标之间的耦合情况,导致分析结果对应的特征指标之间仍然具有较高的相关性,最终得到的重要度指标可靠性仍有待提高。

发明内容

有鉴于此,本发明实施例提供一种数据处理方法、装置、电子设备和可读存储介质,以实现自动化确定重要度指标,提高重要度指标获取的效率和准确性。

第一方面,本发明实施例提供一种数据处理方法,所述方法包括:

获取目标特征集合、候选特征集合和产品特征指标,所述目标特征集合中的目标特征和候选特征集合中的候选特征分别用于表征不同类型的用户行为特征指标;

确定所述候选特征集合中的各候选特征分别对应的样本数据集,所述样本数据集包括对应的候选特征和各目标特征对应的用户行为数据以及产品特征指标;

基于各样本数据集分别对特征分析模型进行训练,以确定各所述候选特征的特征参数,所述特征参数用于表征各候选特征对所述产品指标的影响程度;

响应于所述特征参数满足预定条件,将对应的候选特征加入所述目标特征集合;

从所述候选特征集合中删除满足所述预定条件的候选特征,以更新所述候选特征集合;

响应于所述目标特征集合中的目标特征数量达到预设数量,输出所述目标特征集合。

进一步地,所述基于各样本数据集分别对特征分析模型进行训练,以确定各所述候选特征的特征参数包括:

对于各样本数据集,根据所述样本数据集确定训练集和测试集;

基于所述训练集对特征分析模型进行训练,确定目标分析模型;

将所述测试集输入至所述目标分析模型进行处理,确定所述样本数据集对应的候选特征的特征参数。

进一步地,所述响应于所述特征参数满足预定条件,将对应的候选特征加入所述目标特征集合包括:

响应于所述特征参数为全部候选特征的特征参数中的最大值,将对应的候选特征加入所述目标特征集合。

进一步地,所述方法还包括:

确定特征分析模型。

进一步地,所述确定特征分析模型包括:

获取用户行为特征指标和产品特征指标;

根据所述用户行为特征指标对应的用户行为数据和产品特征指标对不同类型的候选分析模型进行训练,以确定各所述候选分析模型的模型评价参数,所述模型评价参数用于表征对应的候选分析模型的性能;

根据各所述模型评价参数从各候选分析模型中确定所述特征分析模型。

进一步地,所述确定特征分析模型还包括:

根据所述产品特征指标的任务属性确定候选模型类别,所述任务属性为分类任务或回归任务;

从模型库中选取所述候选模型类别对应的不同类型的候选分析模型。

进一步地,所述确定特征分析模型还包括:

响应于产品特征指标的任务属性为分类任务,确定所述模型评价参数的类型为ROC曲线下的面积和/或平均正确率;

响应于产品特征指标的任务属性为回归任务,确定所述模型评价参数的类型为均方根误差和/或平均绝对百分误差。

进一步地,所述用户行为特征指标包括用户活跃次数、课程数量、课程完成程度、用户等级、用户平均学习时长、用户学习时长分布中的至少一项;

所述产品特征指标包括课程满意度、课程退费率和课程续费率中的至少一项。

第二方面,本发明实施例提供一种数据处理装置,所述装置包括:

指标获取单元,用于获取目标特征集合、候选特征集合和产品特征指标,所述目标特征集合中的目标特征和候选特征集合中的候选特征分别用于表征不同类型的用户行为特征指标;

数据确定单元,用于确定所述候选特征集合中的各候选特征分别对应的样本数据集,所述样本数据集包括对应的候选特征和各目标特征对应的用户行为数据以及产品特征指标;

指标评估单元,用于基于各样本数据集分别对特征分析模型进行训练,以确定各所述候选特征的特征参数,所述特征参数用于表征各候选特征对所述产品指标的影响程度;

第一指标更新单元,用于响应于所述特征参数满足预定条件,将对应的候选特征加入所述目标特征集合;

第二指标更新单元,用于从所述候选特征集合中删除满足所述预定条件的候选特征,以更新所述候选特征集合;

指标输出单元,用于响应于所述目标特征集合中的目标特征数量达到预设数量,输出所述目标特征集合。

第三方面,本发明实施例提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上任一项所述的方法。

第四方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如上所述的方法。

第五方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法步骤。

本发明实施例的技术方案通过获取目标特征集合、候选特征集合和产品特征指标,确定候选特征集合中的各候选特征分别对应的样本数据集,基于各样本数据集分别对特征分析模型进行训练,以确定各候选特征的特征参数,响应于特征参数满足预定条件,将对应的候选特征加入目标特征集合,从候选特征集合中删除满足预定条件的候选特征,以更新候选特征集合。由此,实现自动化地从众多候选特征中确定出目标特征,并将目标特征作为重要度指标,提高重要度指标获取的效率和准确性。同时,通过分别确定各获选特征的特征参数,减少不同特征之间的相关性影响,进一步提高确定的重要度指标的准确性。

附图说明

通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:

图1是数据处理方法的流程图;

图2是确定各候选特征的特征参数的流程图;

图3是确定特征分析模型的流程图;

图4是数据处理方法的另一个流程图;

图5是指标重要度分析的流程图;

图6是数据处理装置的示意图;

图7是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。

此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。

除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。

在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

从大量与产品指标相关的用户行为特征指标中选取最为重要的几个特征指标对于指导决策和配置资源具有重要意义,基于此,本发明实施例提供一种数据处理方法、装置、电子设备和可读存储介质,以实现自动化确定重要度指标,提高重要度指标获取的效率和准确性。

下面,以在线教育场景下的教育产品和对应的产品特征指标为例对数据处理方法进行详细说明。应理解,本实施例中的数据处理方法能够适用于不同的根据用户行为特征指标分析对应产品指标的场合,以便进行重要度指标分析的场合,此处并不对此进行限定。同时,用户行为数据均是经用户授权同意后获取得到的。

图1是数据处理方法的流程图。如图1所示,本实施例的数据处理方法包括如下步骤:

在步骤S110,获取目标特征集合、候选特征集合和产品特征指标。其中,目标特征集合中的目标特征和候选特征集合中的候选特征分别用于表征不同类型的用户行为特征指标。

可选地,本实施例中的用户行为特征指标包括用户活跃次数、课程数量、课程完成程度、用户等级、用户平均学习时长、用户学习时长分布中的至少一项。产品特征指标包括课程满意度、课程退费率和课程续费率中的至少一项。应理解,用户行为特征指标和产品特征指标根据具体应用场景确定,本实施例并不对此进行限制。

进一步地,本实施例中的用户行为特征指标对应的用户行为数据为单位时间内的产生的数据量或预设时间长度下对应的数据平均值。以用户活跃次数为例,本实施例中的用户活跃次数可以为对应的用户在某天的课程访问次数,也可以为根据用户在一周内产生的访问次数确定的日平均访问次数。

在步骤S120,确定候选特征集合中的各候选特征分别对应的样本数据集。其中,样本数据集包括对应的候选特征和各目标特征对应的用户行为数据以及产品特征指标。

可选地,本实施例中的样本数据集为系统平台上能够采集得到的各个用户(或学生)在系统内产生的样本数据。各用户的样本数据既包括目标特征集合中目标特征和候选集合中候选特征对应的用户行为特征指标数据,也包括待分析的产品特征指标。

本实施例中,以用户A对应的样本数据为例。在分析用户行为特征指标对产品特征指标中的课程续费率时,假设目标特征集合中的目标特征为用户活跃次数,候选特征集合中的候选特征包括课程学习时长和课程数量,则用户A的样本数据就包括用户行为特征指标用户活跃次数、课程学习时长和课程数量以及产品特征指标课程续费率。

在步骤S130,基于各样本数据集分别对特征分析模型进行训练,以确定各候选特征的特征参数。其中,特征参数用于表征各候选特征对所述产品指标的影响程度。

可选地,以系统中的用户A为例,样本数据集包括用户A对应的样本数据,在获取目标特征集合中的目标特征为用户活跃次数、候选特征集合中的候选特征为课程学习时长和课程数量以及产品特征指标为课程续费率后,分别基于用户活跃次数、课程学习时长对应的用户行为数据和课程退费率,以及基于用户活跃次数、课程数量对应的用户行为数据和课程续费率对特征分析模型进行训练,确定用户活跃次数和课程学习时长对应的特征参数以及用户活跃次数和课程学习时长对应的特征参数,并分别将用户活跃次数和课程学习时长对应的特征参数确定为课程学习时长对应的特征参数,将用户活跃次数和课程数量对应的特征参数对应的特征参数确定为课程数量对应的特征参数,进而确定候选特征课程学习时长和课程数量对产品指标课程续费率的影响程度。

可选地,本实施例中的特征参数可以为候选特征和目标特征对应的用户行为数据输入下,特征分析模型预测输出的产品特征指标的值。

本实施例中,沿用以上示例,假设用户活跃次数和课程学习时长对应的特征参数为0.5,用户活跃次数和课程学习时长对应的特征参数为0.3,则可以确定课程学习时长对应的特征参数为0.5,课程数量对应的特征参数为0.3。

在步骤S140,响应于特征参数满足预定条件,将对应的候选特征加入目标特征集合。

本实施例中,在确定各候选特征的特征参数之后,响应于特征参数为全部候选特征的特征参数中的最大值,将对应的候选特征加入目标特征集合。同时,将最大值特征参数之外的其他特征参数对应的候选特征继续保留在候选特征集合中。由此,将满足预设条件的特征参数对应的候选特征加入目标特征集合中。

本实施例中,沿用以上示例,由于课程学习时长对应的特征参数为0.5,课程数量对应的特征参数为0.3,并且课程学习时长对应的特征参数大于课程数量对应的特征参数,则将较大(两者之间的较大也即最大)的特征参数对应的候选特征(也即课程学习时长)加入目标特征集合。

在步骤S150,从候选特征集合中删除满足预定条件的候选特征,以更新候选特征集合。

可选地,为避免重复确定同一个用户行为特征指标对某一产品特征指标的特征参数,进而确定该用户行为特征对产品特征指标的影响,本实施例在特征参数满足预定条件,并将对应的候选特征加入目标特征集合后,会从候选特征集合中删除满足预定条件的候选特征,更新候选特征集合,并将更新后的候选特征集合用于进行数据处理。

在步骤S160,响应于所述目标特征集合中的目标特征数量达到预设数量,输出所述目标特征集合。

本实施例中,在目标特征集合中的目标特征数量满足预设数量后,停止执行数据处理方法,将最终确定的目标特征集合中的目标特征对应的用户行为特征指标确定为产品特征指标对应的重要度特征指标,并将确定的重要度指标用于指导决策和配置资源,进而优化产品,提升用户使用体验。

本发明实施例的技术方案通过获取目标特征集合、候选特征集合和产品特征指标,确定候选特征集合中的各候选特征分别对应的样本数据集,基于各样本数据集分别对特征分析模型进行训练,以确定各候选特征的特征参数,响应于特征参数满足预定条件,将对应的候选特征加入目标特征集合,从候选特征集合中删除满足预定条件的候选特征,以更新候选特征集合。由此,实现自动化地从众多候选特征中确定出目标特征,并将目标特征作为重要度指标,进而实现自动化地确定重要度指标,提高重要度指标获取的效率和准确性。同时,通过分别确定各获选特征的特征参数,减少不同特征之间的相关性影响,进一步提高确定的重要度指标的准确性。

图2是确定各候选特征的特征参数的流程图。如图2所示,本实施例在确定各候选特征的特征参数时通过执行以下步骤实现。

在步骤S210,对于各样本数据集,根据样本数据集确定训练集和测试集。

本实施例中,根据数据应用类型的不同,样本数据集包括训练集和测试集,其中,训练集包括对应的候选特征和各目标特征对应的用户行为数据以及产品特征指标,测试集包括对应的候选特征和各目标特征对应的用户行为数据。例如,在确定产品特征指标课程续费率时,假设目标特征集合中的目标特征为用户活跃次数,候选特征集合中的候选特征包括课程学习时长和课程数量。那么,在确定候选特征课程学习时长对应的特征参数时,训练集包括用户行为特征指标用户活跃次数和课程学习时长对应的用户行为数据以及产品特征指标课程续费率。测试集包括用户活跃次数和课程学习时长对应的用户行为数据。

在步骤S220,基于训练集对特征分析模型进行训练,确定目标分析模型。

本实施例中,在基于训练集对特征分析模型进行训练,以确定目标分析模型时,将训练集中的目标特征和候选特征对应的用户行为数据作为特征分析模型的输入数据,并将产品特征指标对作为输出数据,对特征分析模型进行训练,以确定特征分析模型的模型参数,并将确定好模型参数的特征分析模型确定为目标分析模型。

例如,沿用步骤S210中的示例,将训练集中用户活跃次数和课程学习时长对应的用户行为数据作为特征分析模型的输入,将课程续费率作为特征分析模型的输出数据,并根据所述输入和输出对特征分析模型进行训练,确定特征分析模型中的模型参数,并将确定模型参数后的特征分析模型确定为目标分析模型。

在步骤S230,将测试集输入至目标分析模型进行处理,确定样本数据集对应的候选特征的特征参数。

本实施例中,沿用步骤S210中的示例,在确定目标分析模型之后,将测试集中的用户行为特征指标用户活跃次数和课程学习时长对应的用户行为数据输入至目标分析模型,并将目标分析模型输出的课程续费率预测结果确定为课程学习时长对应的特征参数。

应理解,本实施例中在确定最终的目标特征集合时,会多次执行上述步骤S210-S230。由此,在各轮次对应的当前候选特征集合中的候选特征中确定出对应的最重要的候选特征,并将确定的候选特征作为新的目标特征加入目标特征集合。当目标特征结合中的特征数量达到预设数量后,将目标特征集合中的全部目标特征取出,并作为影响对应的产品特征指标最重要的前K个(K的具体数值与预设数量保持一致)用户行为特征指标,进而从众多的用户行为特征指标中确定出最为重要且在统计意义上尽量独立的top K指标,用于指导决策和优化产品,进而提升用户体验。

可选地,在获取目标特征集合、候选特征集合和产品特征指标之前,本实施例的用户分析方法还包括确定特征分析模型,并在确定特征分析模型之后,获取目标特征集合、候选特征集合和产品特征指标,确定候选特征集合中的各候选特征分别对应的样本数据集,基于各样本数据集分别对特征分析模型进行训练,以确定各候选特征的特征参数,响应于特征参数满足预定条件,将对应的候选特征加入目标特征集合,从候选特征集合中删除满足预定条件的候选特征,以更新候选特征集合。其中,获取目标特征集合、候选特征集合和产品特征指标,确定候选特征集合中的各候选特征分别对应的样本数据集,基于各样本数据集分别对特征分析模型进行训练,以确定各候选特征的特征参数,响应于特征参数满足预定条件,将对应的候选特征加入目标特征集合,从候选特征集合中删除满足预定条件的候选特征,以更新候选特征集合的方法在前面的内容中进行了介绍,此处不再赘述。

图3是确定特征分析模型的流程图。如图3所示,本实施例在确定特征分析模型时包括以下步骤:

在步骤S310,获取用户行为特征指标和产品特征指标。

可选地,本实施例中的用户行为特征指标和产品特征指标可以采用埋点的方式预先配置在系统中,响应于用户执行相应的操作生成对应的用户行为数据和产品特征指标(这里的产品特征指标为具体的数值,例如,课程续费率为60%),并将用户行为数据和产品特征指标进行存储,以便后续使用。

在步骤S320,根据产品特征指标的任务属性确定候选模型类别。其中,任务属性为分类任务或回归任务。

本实施例中,当产品特征指标的任务属性为分类任务时,候选模型类别为分类模型。当产品特征指标的任务属性为回归任务时,候选模型类别为回归模型。

在步骤S330,从模型库中选取候选模型类别对应的不同类型的候选分析模型。

本实施例中,模型库中预先存储有各种类别的候选模型(xgboost、线性模型和神经网络模型等),并且各类别的候选模型包括多种不同类型的候选分析模型。例如,分类模型包括逻辑回归(Logisitic Regression)、决策树(Decision Trees)、支持向量机(Support Vector Machine)、朴素贝叶斯(Native Bayes)等。回归模型包括逻辑回归(Logistic Regression)和多项式回归(Polynomial Regression)等。

在步骤S340,根据产品特征指标的任务属性确定对应的模型评价参数类型。其中,模型评价参数用于表征对应的候选分析模型的性能。

可选地,在确定产品特征指标对应的模型评价参数的类型时,响应于任务属性为分类任务,确定模型评价参数类型为ROC曲线下的面积和/或平均正确率。或者,响应于任务属性为回归任务,确定模型评价参数类型为均方根误差和/或平均绝对百分误差。其中,ROC曲线(receiver operating characteristic curve),又称为接受者操作特性曲线或感受性曲线(sensitivity curve)。曲线上各点反映着相同的感受性,用于表征个同一信号刺激和在几种不同的判定标准下所得的结果。接受者操作特性曲线就是以虚惊概率为横轴,击中概率为纵轴所组成的坐标图,和被试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。

在步骤S350,根据用户行为特征指标对应的用户行为数据和产品特征指标对不同类型的候选分析模型进行训练,以确定各候选分析模型的模型评价参数。其中,模型评价参数用于表征对应的候选分析模型的性能。

可选地,本实施例在确定各候选分析模型的模型评价参数时,将全部用户行为特征指标对应的用户行为数据和产品特征指标确定为模型样本数据,并根据模型样本数据确定模型训练集和模型测试集。其中,模型训练集和模型测试集中均包括用户行为数据和产品特征指标,模型训练集用于对各候选分析模型中的参数进行训练,模型测试集用于确定各候选分析模型的模型评价参数。进一步地,本步骤中的模型评价参数为各候选分析模型对应的模型评价参数值,例如ROC曲线下的面积、平均正确率、均方根误差或平均绝对百分误差。

在步骤S360,根据各模型评价参数从各候选分析模型中确定特征分析模型。

本实施例中,通过各模型评价参数从候选分析模型中确定特征分析模型,由此,根据模型评价参数从全部候选分析模型中确定出最佳候选分析模型,并将最佳候选模型确定为特征分析模型用于执行数据处理方法,确定产品特征指标对应的最为重要的top K个用户行为特征指标。

本实施例中,通过比较各候选分析模型对应的模型评价参数,将表征候选分析模型性能最优的最大或最小值的模型评价参数对应的候选分析模型确定为特征分析模型。例如,若模型评价参数为平均正确率,平均正确率越高,表明候选分析模型的结果预测精度更高,则选取全部候选分析模型中平均正确率最高的候选模型确定为特征分析模型。

图4是数据处理方法的另一个流程图。如图4所示,本实施例的数据处理方法包括以下步骤。

在步骤S410,确定产品特征指标。

本实施例中,产品特征指标为指标库中的指标。指标库中的指标为预先存储的与产品相关的特征指标,包括课程续费率等。

需要说明的是,本实施例中的产品特征指标既包括产品特征指标的类型,也包括各产品特征指标对应的数值,如课程退费率60%。

在步骤S420,获取用户行为特征指标。

本实施例中,从指标库中获取用户行为特征指标。另外,指标库中还存储有各用户行为特征指标对应的用户行为数据。在获取用户行为特征指标时,可以同时获取不同类型的用户行为特征指标以及各用户行为特征指标对应的用户行为数据。

在步骤S430,训练各候选模型。

本实施例中,模型库中存储有不同类别的候选模型。在训练各候选模型时,首先根据产品特征指标的任务属性确定候选模型类别。当产品特征指标的任务属性为分类任务时,候选模型类别为分类模型。当产品特征指标的任务属性为回归任务时,候选模型类别为回归模型。再从模型库中选取候选模型类别对应的不同类型的候选分析模型,同时根据产品特征指标的任务属性确定对应的候选分析模型的模型评价参数类型。最后,根据用户行为特征指标对应的用户行为数据和产品特征指标对不同类型的候选分析模型进行训练,并确定各候选分析模型的模型评价参数。

在步骤S440,确定特征分析模型。

本实施例中,根据各模型评价参数从各候选分析模型中确定出最佳候选分析模型,并将最佳候选模型确定为特征分析模型用于执行数据处理方法。

在步骤S450,分析指标重要度。

本实施例中,基于确定的特征分析模型对用户行为特征指标中的相关特征进行重要度分析。

在步骤S460,确定重要度指标。

本实施例中,根据重要度分析的结果确定重要度指标。其中,重要度指标为用户行为特征指标中对对应的产品特征指标影响较大也即对应产品特征指标最重要的前K个(或top K个)用户行为特征指标。由此,通过以上步骤从众多用户行为特征指标中自动化地确定出重要度指标(也即对产品特征指标影响最大的前K个用户行为特征指标),有利于提高重要度指标获取的效率和准确性。同时,通过分别确定各获选特征的特征参数,减少不同特征之间的相关性影响,进一步提高确定的重要度指标的准确性。

图5是指标重要度分析的流程图,如图5所示,本实施例在进行指标重要度分析时,包括以下步骤。

在步骤S510,获取目标特征集合。

本实施例中,目标特征集合中的目标特征为产品特征指标对应的重要度指标。

在步骤S520,确定目标特征数量是否小于预设数量。若是,执行步骤S540。若否,执行步骤S530。

可选地,本实施例在开始进行指标重要度分析时,目标特征集合一般为空集,目标特征集合中目标特征的数量为零,通过执行指标重要度分析不断获取目标特征,并在目标特征集合中的目标特征数量满足预设数量后,停止执行数据处理方法,将最终确定的目标特征集合中的目标特征对应的用户行为特征指标确定为产品特征指标对应的重要度特征指标,并将确定的重要度指标用于指导决策和配置资源,进而优化产品,提升用户使用体验。

在步骤S530,确定重要度指标。

本实施例中,重要度指标为目标特征集合中的目标特征对应的用户行为特征指标,这些用户行为特征指标能够表征对对应的产品特征指标影响较大的前K个特征指标,也即对应产品特征指标最重要的前K个(或top K个)用户行为特征指标,并能够用于指导决策和配置资源,进而优化产品,提升用户体验。

在步骤S540,确定各候选特征对应的样本数据集。

本实施例中,样本数据集包括对应的候选特征和各目标特征对应的用户行为数据以及产品特征指标。进一步地,样本数据集为系统平台上能够采集得到的各个用户(或学生)在系统内产生的样本数据。各用户的样本数据既包括目标特征集合中目标特征和候选集合中候选特征对应的用户行为特征指标数据,也包括产品特征指标。

在步骤S550,确定各候选特征对应的目标分析模型。

本实施例中,在确定各候选特征对应的目标分析模型时,对于各样本数据集,根据样本数据集确定训练集和测试集,其中,训练集包括对应的候选特征和各目标特征对应的用户行为数据以及产品特征指标,测试集包括对应的候选特征和各目标特征对应的用户行为数据。并且,基于训练集对特征分析模型进行训练,确定目标分析模型。

在步骤S560,确定各候选特征的特征参数。

本实施例中,将测试集输入至目标分析模型进行处理,确定样本数据集对应的候选特征的特征参数。

在步骤S570,将满足预定条件的候选特征加入目标特征集合。

本实施例中,在确定各候选特征的特征参数之后,响应于特征参数为全部候选特征的特征参数中的最大值,将对应的候选特征加入目标特征集合。同时,将最大值特征参数之外的其他特征参数对应的候选特征继续保留在候选特征集合中。由此,将满足预设条件的特征参数对应的候选特征加入目标特征集合中。

在步骤S580,更新候选特征集合,并返回执行步骤S510。

可选地,本实施例在将满足预定条件的候选特征加入目标特征集合,对目标特征集合更新的同时,从候选特征集合中删除满足预定条件的候选特征,更新候选特征集合,并将更新后的目标特征集合和候选特征集合用于下一个阶段的重要度分析流程中,直至目标特征集合中的重要度指标数量达到预设数量,结束指标重要度分析,并输出确定好的重要度指标。

为了方便理解,本实施例中以候选特征集合包括特征a、b、c和d为例对以上步骤进行总结,本实施例以目标特征的预设数量为2进行举例说明,应理解,目标特征的数量根据实际应用场景确定,本实施例并不对此进行限制。在开始执行数据处理过程时,目标特征集合为空集,候选特征集合中包括候选特征a、b、c、d,确定候选特征a、b、c、d分别对应的样本数据集A、B、C、D,根据样本数据集A、B、C、D中的训练集分别训练特征分析模型,获得候选特征a、b、c、d分别对应的目标分析模型f(a)、f(b)、f(c)、f(d),将样本数据集A的测试集输入至目标分析模型f(a)以确定候选特征a的特征参数,将样本数据集B的测试集输入至目标分析模型f(b)以确定候选特征b的特征参数,将样本数据集C的测试集输入至目标分析模型f(c)以确定候选特征c的特征参数,将样本数据集D的测试集输入至目标分析模型f(d)以确定候选特征d的特征参数。其中,若候选特征a的特征参数最大,将候选特征a为目标特征,更新目标特征集合和候选特征集合。此时,目标特征集合包括目标特征a,候选特征集合包括候选特征b、c、d。根据目标特征集合中的目标特征a和候选特征集合中的候选特征b、c、d确定分别确定候选特征b、c、d对应的样本数据集A+B、A+C、A+D,根据样本数据集A+B、A+C、A+D中的训练集分别训练特征分析模型,获得候选特征b、c、d分别对应的目标分析模型f(a+b)、f(a+c)、f(a+d),将样本数据集A+B的测试集输入至目标分析模型f(a+b)以确定候选特征b的特征参数,将样本数据集A+C的测试集输入至目标分析模型f(a+c)以确定候选特征c的特征参数,将样本数据集A+D的测试集输入至目标分析模型f(a+d)以确定候选特征d的特征参数。其中,若候选特征c的特征参数最大,将候选特征从、为目标特征,更新目标特征集合和候选特征集合。此时,目标特征集合包括目标特征a和c,候选特征集合包括候选特征c、d,判断当前的目标特征数量达到预设数量,输出重要度指标a和c。

应理解,上述样本数据集的确定方法及基于样本数据集确定目标分析模型的方法与上述实施例类似,在此不再赘述。

图6是数据处理装置的示意图。如图6所示,本实施例的数据处理装置6包括指标获取单元61、数据确定单元62、指标评估单元63、第一指标更新单元64、第二指标更新单元65和指标输出单元66。

本实施例中,指标获取单元61用于获取目标特征集合、候选特征集合和产品特征指标。其中,目标特征集合中的目标特征和候选特征集合中的候选特征分别用于表征不同类型的用户行为特征指标。

数据确定单元62用于确定所述候选特征集合中的各候选特征分别对应的样本数据集。其中,样本数据集包括对应的候选特征和各目标特征对应的用户行为数据以及产品特征指标。

指标评估单元63用于基于各样本数据集分别对特征分析模型进行训练,以确定各候选特征的特征参数。其中,特征参数用于表征各候选特征对产品指标的影响程度。

第一指标更新单元64用于响应于特征参数满足预定条件,将对应的候选特征加入目标特征集合。

第二指标更新单元65用于从候选特征集合中删除满足预定条件的候选特征,以更新候选特征集合。

指标输出单元66用于响应于所述目标特征集合中的目标特征数量达到预设数量,输出所述目标特征集合。

本发明实施例的技术方案通过指标获取单元获取目标特征集合、候选特征集合和产品特征指标,通过数据确定单元确定候选特征集合中的各候选特征分别对应的样本数据集,通过指标评估单元基于各样本数据集分别对特征分析模型进行训练,以确定各候选特征的特征参数,并由第一指标更新单元响应于特征参数满足预定条件,将对应的候选特征加入目标特征集合,由第二指标更新单元从候选特征集合中删除满足预定条件的候选特征,以更新候选特征集合。由此,实现自动化地确定重要度指标,有利于提高重要度指标获取的效率和准确性。同时,通过分别确定各获选特征的特征参数,减少不同特征之间的相关性影响,进一步提高确定的重要度指标的准确性。

图7是本发明实施例的电子设备的示意图。如图7所示,本实施例的电子设备为通用的数据处理装置,包括通用的计算机硬件结构,其至少包括处理器71和存储器72。处理器71和存储器72通过总线73连接。存储器72适于存储处理器71可执行的指令或程序。处理器71可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器71通过执行存储器72所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线73将上述多个组件连接在一起,同时将上述组件连接到显示控制器74、显示装置以及输入/输出(I/O)装置75。输入/输出(I/O)装置75可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置75通过输入/输出(I/O)控制器76与系统相连。

其中,存储器72可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

本发明的另一实施例涉及一种计算机程序产品,包括计算机程序/指令,计算机程序程序/指令用于在被处理器执行时实现上述部分或全部的方法实施例中的部分或全部步骤。这些计算机程序/指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的程序/指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。也可提供这些计算机程序/指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种计算机可读存储介质,可以是非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 数据处理方法及装置、电子设备和计算机可读存储介质
  • 数据处理方法和装置、计算机可读存储介质和电子设备
技术分类

06120113147333