掌桥专利:专业的专利平台
掌桥专利
首页

一种特征维度筛选方法、装置、计算机设备及存储介质

文献发布时间:2024-04-18 19:54:45


一种特征维度筛选方法、装置、计算机设备及存储介质

技术领域

本公开涉及神经网络技术领域,具体而言,涉及一种特征维度筛选方法、装置、计算机设备及存储介质。

背景技术

特征工程是一项工程活动,目的是从原始数据中提取特征数据以供算法或模型使用。

相关技术中,在进行特征工程时,开发人员往往根据开发经验选择对原始数据采用何种处理方式进行处理,并对得到的特征数据的特征维度进行手动筛选和验证,以得到需要的目标特征维度下的特征数据。在这一过程中需要耗费较多的人力,筛选效率较低,另外,受限于开发人员的个人经验,选择出的目标特征维度可能难以满足实际需要,由此可能会导致后续网络模型训练效果较差的问题。

发明内容

本公开实施例至少提供一种特征维度筛选方法、装置、计算机设备及存储介质。

第一方面,本公开实施例提供了一种特征维度筛选方法,包括:

获取样本数据集;其中,所述样本数据集中的每个样本数据包含在待筛选的多个特征维度下的特征数据;

基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,确定每次训练使用的特征维度组合对应的分类性能指标值;所述分类性能指标值用于表征所述逻辑回归模型对各样本数据的分类能力;

基于所述分类性能指标值,确定目标特征维度组合;其中,各样本数据在所述目标特征维度组合下的各特征数据用于进行神经网络训练。

第二方面,本公开实施例还提供一种特征维度筛选装置,包括:

获取模块,用于获取样本数据集;其中,所述样本数据集中的每个样本数据包含在待筛选的多个特征维度下的特征数据;

训练模块,用于基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,确定每次训练使用的特征维度组合对应的分类性能指标值;所述分类性能指标值用于表征所述逻辑回归模型对各样本数据的分类能力;

确定模块,用于基于所述分类性能指标值,确定目标特征维度组合;其中,各样本数据在所述目标特征维度组合下的各特征数据用于进行神经网络训练。

第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

本公开实施例提供的特征维度筛选方法、装置、计算机设备及存储介质,基于样本数据集中各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,并基于每次训练过程中使用的特征维度组合对应的分类性能指标值,自动确定出能够用于进行神经网络训练的目标特征维度组合,实现了自动对特征维度进行筛选,提高了特征维度的筛选效率;并且基于训练过程中的分类性能指标值可以筛选出使得分类性能较佳的特征维度组合,提高了筛选出的特征维度的质量,进一步有利于后续神经网络训练效果的提升。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种特征维度筛选方法的流程图;

图2示出了本公开实施例所提供的特征维度筛选方法中,对逻辑回归模型进行一轮训练的示意图;

图3a示出了本公开实施例所提供的特征维度筛选方法中,连续两轮训练中的第一轮训练的示意图;

图3b示出了本公开实施例所提供的特征维度筛选方法中,连续两轮训练中的第二轮训练的示意图;

图4示出了本公开实施例所提供的特征维度筛选方法中,进行特征维度筛选的示意图;

图5示出了本公开实施例所提供的一种特征维度筛选装置的架构示意图;

图6示出了本公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。

经研究发现,在进行特征工程时,开发人员往往根据开发经验选择对原始数据采用何种处理方式进行处理,并对得到的特征数据的特征维度进行手动筛选,以得到需要的目标特征维度下的特征数据,但可能会产生以下问题:

1、人工选择的特征维度不一定能够满足使用需求。

这里,受限于开发人员的个人经验,选择出的目标特征维度可能难以满足实际需要,甚至可能会导致后续网络模型训练效果较差等问题。

2、人工选择特征维度会耗费大量的人力。

这里,若开发人员人工选择目标特征维度,则需要花费大量的时间进行数据分析,并对选择的目标特征维度进行验证,这些过程可能需要花费大量的人力成本和时间成本。

基于上述研究,本公开提供了一种特征维度筛选方法、装置、计算机设备及存储介质,基于样本数据集中各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,并基于每次训练过程中使用的特征维度组合对应的分类性能指标值,自动确定出能够用于进行神经网络训练的目标特征维度组合,实现了自动对特征维度进行筛选,提高了特征维度的筛选效率;并且基于训练过程中的分类性能指标值可以筛选出使得分类性能较佳的特征维度组合,提高了筛选出的特征维度的质量,进一步有利于后续神经网络训练效果的提升。

为便于对本实施例进行理解,首先对本公开实施例所公开的一种特征维度筛选方法进行详细介绍,本公开实施例所提供的特征维度筛选方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该特征维度筛选方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示,为本公开实施例提供的特征维度筛选方法的流程图,所述方法包括S101~S103,其中:

S101:获取样本数据集;其中,所述样本数据集中的每个样本数据包含在待筛选的多个特征维度下的特征数据。

S102:基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,确定每次训练使用的特征维度组合对应的分类性能指标值;所述分类性能指标值用于表征所述逻辑回归模型对各样本数据的分类能力。

S103:基于所述分类性能指标值,确定目标特征维度组合;其中,各样本数据在所述目标特征维度组合下的各特征数据用于进行神经网络训练。

以下是对上述步骤的详细介绍。

针对S101、

这里,一个样本数据可以包含由不同特征维度下的特征数据组成;所述特征维度可以用于表征特征数据的属性,所述特征维度例如可以是商品类型、物体长度、移动速度等,所述一个样本数据例如可以是由物体A的物体长度、物体宽度、物体高度、移动速度等维度下的特征数据组成。

一种可能的实施方式中,可以根据以下步骤A1~A2生成样本数据集中的样本数据:

A1:获取原始数据在至少一个字段下的字段信息,所述字段具有对应的特征维度。

这里,所述原始数据可以由多个字段下的字段信息组成,字段与特征维度的关系可以是一一对应的,例如字段“商品类型”可以与特征维度“商品类型”对应。

A2:针对任一所述字段,根据与该字段的字段类型匹配的数据处理方式,对该字段对应的字段值进行数据处理,得到该字段对应的特征维度下的特征数据。

这里,所述字段类型可以包括数值型字段、字符型字段等。

具体的,与数值型字段匹配的数据处理方式可以包括以下方式中的任一种:

方式1、对数值型字段的字段值取对数。

这里,在对数值型字段的字段值进行数据处理时,可以按照预设的底数对数值型字段的字段值进行取对数处理,得到字段对应的特征维度下的特征数据。

示例性的,以预设的底数为2,数值型字段的字段值为8为例,则按照预设的底数2对数值型字段的字段值8进行取对数处理,可以得到处理后的特征数据3。

方式2、对数值型字段的字段值进行除法运算取商。

这里,在对数值型字段的字段值进行数据处理时,可以按照预设的除数对数值型字段的字段值进行除法运算,并将除法运算后得到的商作为字段对应的特征维度下的特征数据。

示例性的,以预设的除数为10,数值型字段的字段值为135为例,则按照预设的除数10对数值型字段的字段值135进行除法运算,可以得到除法运算的商为13,则可以确定处理后的特征数据为13。

方式3、基于不同的数值型字段的字段值进行数值运算。

这里,在对数值型字段的字段值进行数据处理时,可以按照预设的数值运算公式对第一数值型字段的字段值,以及至少一个第二数值型字段的字段值进行运算,并将运算后得到的运算结果作为所述第一数值型字段对应的特征维度下的特征数据;其中,所述第一数值型字段和所述第二数值型字段均可以是从原始数据所包含的字段中随机抽取的。

示例性的,以第一数值型字段的字段值为10,第二数值型字段的字段值为20,数值运算公式为将第一数值型字段和第二数值型字段相加为例,则按照预设的数值运算公式可以得到运算结果为30,则可以确定处理后的第一数值型字段对应的特征维度下的特征数据为30。

这样,通过上述多种数据处理方式中的任一种对数值型字段对应的字段值进行处理,可以将原始数据中的字段值的格式转换为统一的数据格式,从得到满足实际使用需求的特征数据。

具体的,与字符型字段匹配的数据处理方式可以包括以下方式中的任一种:

方式1、统计字符型字段的字段值中所包含字符的个数。

这里,在对字符型字段的字段值进行数据处理时,可以统计字符型字段的字段值中所包含字符的个数,得到字段对应的特征维度下的特征数据。

示例性的,以字符型字段的字段值为A0B0C1D0E0为例,A0B0C1D0E0对应的字符数为10,则该字符型字段对应的特征维度下的特征数据为10,用于表征字符型字段所包含的字符个数为10。

方式2、对字符型字段的字段值进行切词处理。

这里,在对字符型字段的字段值进行数据处理时,可以对字符型字段的字段值进行切词处理,并将切词处理后得到的切词片段作为字符型字段对应的特征维度下的特征数据。

示例性的,以字符型字段的字段值为“一件上衣”为例,则对字段值进行切词处理后可以得到“一件”和“上衣”,可以选择“上衣”作为字符型字段对应的特征维度下的特征数据,用于表征物品类型;或者,也可以选择“一件”作为字符型字段对应的特征维度下的特征数据,用于表征物品数量;本公开实施例对如何进行切词处理,以及切词处理后选择哪个切词结果作为特征数据不做限定,以能够满足实际应用中的需求为准。

方式3、统计与字符型字段的字段值匹配的浏览数据。

这里,所述浏览数据可以包括曝光数据、点击数据等能够表征浏览情况的数据。

具体的,在对字符型字段的字段值进行数据处理时,可以统计与字符型字段的字段值匹配的浏览数据,并将匹配的浏览数据作为字符型字段对应的特征维度下的特征数据。

示例性的,以字符型字段为商品类型,字符型字段的字段值可以为上衣、裤子、连衣裙为例,则在字符型字段的字段值为“上衣”时,与“上衣”匹配的浏览数据可以作为字符型字段对应的特征维度下的特征数据。

这样,通过上述多种数据处理方式中的任一种对字符型字段对应的字段值进行处理,可以将原始数据中的字段值的格式转换为统一的数据格式,从得到满足实际使用需求的特征数据。

针对S102和S103、

这里,所述特征维度组合中包含至少一个特征维度;所述逻辑回归模型用于执行逻辑回归任务,在执行逻辑回归任务的过程中可以对输入数据进行分类,以确定出输入数据对应的类别;所述分类性能指标值例如可以是曲线下面积(Area Under Curve,AUC),所述AUC可以通过受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)曲线下的面积计算得到,用于表征所述逻辑回归模型的分类性能。

实际应用中,样本数据集中的样本数据可以包含有多个特征维度下的特征数据,但不同特征维度下的特征数据对于特征表达的作用可以是不同的,比如对于是否会选择乘坐飞机出行,特征维度“行程距离”下的特征数据显然会比特征维度“出行次数”下的特征数据,更能够确定出是否会乘坐飞机这一特征表达,因此在获取到样本数据后还可以对样本数据进行数据筛选,以减少后续进行特征维度筛选时使用的特征维度,提高特征维度筛选效率。

一种可能的实施方式中,在基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练之前,还可以对所述多个特征维度下的特征数据进行数据筛选。

其中,在进行数据筛选时,可以根据以下参数对特征数据进行筛选:

参数1、信息价值数据

这里,所述特征数据对应的信息价值数据用于表征特征数据与样本类别的相关程度。

具体的,针对任一特征维度,该特征维度对应的信息价值数据(InformationValue,IV)可以通过该特征维度下的每种特征数据分别对应的证据权重(Weight OfEvidence,WOE)确定;所述WOE用于描述可预测的变量(也即当前特征维度)与二分类变量(也即逻辑回归模型的输出)之间的关系,所述WOE可以通过特征维度在每种取值下的正负样本数量,以及所述特征维度下的正负样本数量之间的关系确定。

示例性的,所述证据权重WOE的计算公式可以为:

其中,i表示特征维度下的第i个取值(也即特征数据);Neg表示负样本;Pos表示正样本;T表示特征;

进一步的,在计算出证据权重WOE后,还可以通过对WOE对应数值进行加权求和等计算方式得到信息价值数据IV,本公开实施例对信息价值数据的具体计算公式不做限定。

具体的,可以确定各特征数据分别对应的信息价值数据,并基于预设的信息价值阈值对各特征数据进行筛选。

示例性的,以信息价值阈值为0.6,特征维度1下的特征数据1~5分别对应的信息价值数据为0.7、0.5、0.8、0.4、0.6,由于特征数据2和特征数据4分别对应的信息价值数据均小于信息价值阈值,则可以确定特征维度1不满足信息价值要求,或者确定特征数据2和特征数据4不满足信息价值要求。

需要说明的是,上述基于信息价值阈值对各特征数据进行筛选的方式,包含在特征数据对应的信息价值数据低于所述信息价值阈值的情况下,将特征数据进行删除或者将特征数据对应的整个特征维度下的特征数据进行删除,但上述方式仅为示例性的,本公开实施例对如何基于信息价值阈值对各特征数据进行筛选不做限定,以能够实现为准。

参数2、特征枚举值

这里,所述特征枚举值用于表征特征维度下特征数据的取值类型的个数,以特征维度为“商品类型”为例,若特征维度下的特征数据的取值可以为“上衣”、“裤子”、“连衣裙”,则特征维度“商品类型”对应的特征枚举值为3,用于表征该特征维度下存在3种可能的特征数据取值类型。

具体的,确定各特征数据分别对应的特征枚举值,并基于预设的枚举值阈值对各特征数据进行筛选。

示例性的,以枚举值阈值为5为例,若特征维度“商品类型”对应的特征枚举值为4,则可以确定特征维度“商品类型”不符合枚举值数量要求,删除特征维度“商品类型”下的特征数据。

这样,通过上述方式对用于训练所述逻辑回归模型的样本数据进行筛选,可以减少进行特征维度筛选时使用的特征维度的数量,从而可以提高特征维度筛选效率。

一种可能的实施方式中,在对逻辑回归模型进行训练时,可以通过以下步骤B1~B4:

B1:将待筛选的多个特征维度中的每个特征维度分别作为一个候选特征维度组合,基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练,确定各候选特征维度组合对应的分类性能指标值。

这里,对所述逻辑回归模型进行训练的过程中可以包含多轮训练,第一轮训练的过程中,可以将待筛选特征维度中的每个特征维度分别作为一个候选特征维度组合,并在对逻辑回归模型进行训练的过程中,确定出各候选特征维度组合对应的分类性能指标值。

一种可能的实施方式中,在基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练时,可以通过以下步骤B11~B12:

B11:根据当前轮训练过程中使用的所述候选特征维度组合中特征维度的个数,对当前轮使用的样本数据进行切分,得到多份样本数据。

这里,可以根据当前轮训练过程中使用的所述候选特征维度组合中特征维度的个数,确定出需要对样本数据集中样本数据进行切分处理时的切分个数,并根据切分个数对样本数据进行切分,得到多份样本数据。

具体的,在基于特征维度的个数确定切分个数时,可以通过以下公式:

B=floor(log

K=2

其中,B为中间参数,用于表征切分个数的大小;floor表示向下取整操作;A表示特征维度的个数;K表示切分个数。

示例性的,以样本数据的个数为100为例,每个样本数据均包含5个特征维度下的特征数据,则使用切分个数4对样本数据进行切分后,可以得到4份样本数据,每份样本数据均包含25个样本数据,每个样本数据均包含5个特征维度下的特征数据。

B12:从所述多份样本数据中确定本轮训练过程中每次训练使用的样本数据,基于确定的样本数据对逻辑回归模型进行训练;其中,每次训练使用的样本数据的份数随训练次数的增加而增加,且每次训练使用的候选特征维度组合的数量随训练次数的增加而减少。

一种可能的实施方式中,在每一轮所述训练中,可以根据以下步骤B121~B122确定每次训练使用的候选特征组合;

B121:选取全部候选特征维度组合作为首次训练使用的候选特征维度组合。

B122:在得到当前次训练的各个候选特征维度组合的分类性能指标值后,将各个候选特征维度组合按照分类性能指标值从高到底的顺序进行排序后,按照预设比例选取排序在前的候选特征维度组合,作为下一次训练使用的候选特征维度组合。

这里,每次训练使用的样本数据的份数可以翻倍,候选特征维度组合的数量可以减少一半(当减少一半的结果不为整数时,可以向下取整)。

示例性的,对逻辑回归模型进行一轮训练的示意图可以如图2所示,图2中,候选特征维度组合的数量为5,根据上述公式计算得到切分个数为4,则可以将用于训练的样本数据切分为4份,本轮第一次训练过程中,可以使用一份样本数据对逻辑回归模型进行训练,并根据各候选特征维度组合分别对应的AUC,淘汰特征4和特征5分别对应的候选特征维度组合,以减少后续训练过程中的候选特征维度组合的数量;本轮第二次训练过程中,可以使用两份样本数据对逻辑回归模型进行训练,并根据各候选特征维度组合分别对应的AUC,淘汰特征3对应的候选特征维度组合,以减少后续训练过程中的候选特征维度组合的数量;本轮第三次训练过程中,可以使用四份样本数据对逻辑回归模型进行训练,并根据各候选特征维度组合分别对应的AUC,淘汰特征2对应的候选特征维度组合,从而结束本轮训练。

这样,由于各候选特征维度组合在一轮训练的初期过程中的差异较大,因此仅使用少量的样本数据即可完成对候选特征维度组合的区分,并在后续训练过程中淘汰对应AUC较低的候选特征维度组合,以减少候选特征维度组合的数量,而由于候选特征维度组合逐渐减少,且后续训练过程中各候选特征维度组合分别对应的AUC值可能会越来越接近,因此为了能够在后续训练过程中更好的区分各候选特征维度组合对逻辑回归模型分类能力的影响,每次训练时使用的样本数据可以翻倍,从而可以在容易对各候选特征维度组合进行区分的训练前期,通过减少训练时样本数据的方式提高训练速度,从而加快对特征维度进行筛选的筛选效率,并通过随着训练次数的增加逐渐使用更多的样本数据进行训练的方式,同时确保了通过AUC值对候选特征维度组合进行筛选的准确性。

B2:基于各候选特征维度组合对应的分类性能指标值,从各候选特征维度组合中确定分类性能指标值最高的候选特征维度组合,作为中间特征维度组合。

示例性的,图2中的特征1(特征维度1)即为分类性能指标值最高的候选特征维度组合,可以将特征1作为中间特征维度组合。

B3:将待筛选的多个特征维度中,除所述中间特征维度组合外的每个特征维度分别加入所述中间特征维度组合,得到各个更新后的候选特征维度组合。

示例性的,以待筛选的特征维度为特征维度1~特征维度5,确定的中间特征维度组合为特征维度1为例,则更新后的特征维度组合为特征维度1-特征维度2、特征维度1-特征维度3、特征维度1-特征维度4、特征维度1-特征维度5。

B4:返回基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练的步骤,直至达到预设的截止条件,将最后得到的中间特征维度组合作为所述目标特征维度组合;其中,所述截止条件包括返回执行所述训练的轮数达到预设轮数,和/或,当前轮得到的所述中间特征维度组合的分类性能指标值,与上一轮的得到的所述中间特征维度组合的分类性能指标值的差值小于设定阈值。

这里,所述预设轮数可以与待筛选的特征维度的个数匹配,以待筛选的特征维度的个数为5为例,则预设轮数可以是3轮;所述中间特征维度组合的分类性能指标值,与上一轮的得到的所述中间特征维度组合的分类性能指标值的差值,用于表征添加中间特征维度之后为所述逻辑回归模型所带来的分类能力的增益,若中间特征维度组合的分类性能指标值,与上一轮的得到的所述中间特征维度组合的分类性能指标值的差值小于设定阈值,则表征添加所述中间特征维度组合后并没有为分类能力带来显著提升,而若分类性能指标值最高的中间特征维度组合都无法为分类能力带来显著提升,则剩余的特征维度组合也难以为分类能力带来显著提升,因此可以将此作为截止条件。

示例性的,连续两轮训练的示意图可以如图3a和图3b所示,其中,图3a为连续两轮训练中的第一轮,根据各候选特征维度组合分别对应的AUC确定出的新的中间特征为特征维度2,新的中间特征维度组合即为特征维度1和特征维度2;图3b为连续两轮训练中的第二轮,根据各候选特征维度组合分别对应的AUC确定出的新的中间特征为特征维度3,且新的中间特征维度组合特征维度1-特征维度2-特征维度3对应的AUC,与上一轮中间特征维度组合特征维度1-特征维度2对应的AUC之差0.03,大于设定阈值0.01,且没有达到预设轮数,则可以继续执行后续的训练步骤。

这样,通过在每轮训练过程中,通过分类性能指标值筛选出新的中间特征维度,并基于包含新的中间特征维度的中间特征维度组合重新组合训练数据进行训练,可以通过对逻辑回归模型的多轮训练迭代出能够提升分类能力的中间特征维度。

一种可能的实施方式中,在确定目标特征维度组合时,可以将训练过程中最后一轮基于各候选特征维度组合对应的分类性能指标值,从各候选特征维度组合中确定分类性能指标值最高的候选特征维度组合,作为所述目标特征维度组合。

示例性的,以图3b对应最后一轮训练为例,则可以将分类性能指标值最高的特征维度1-特征维度2-特征维度3,作为从特征维度1~特征维度5中筛选出的目标特征维度组合。

下面,将结合图4对本公开实施例提供的特征维度筛选方法进行介绍,本公开实施例提供的特征维度筛选方法可以包含以下步骤:

步骤1、对原始数据进行数据处理,生成待筛选的特征维度对应的候选特征数据。

步骤2、对候选特征数据进行数据筛选,得到初始特征数据。

步骤3、基于初始特征数据对逻辑回归模型进行训练,每轮训练过程中根据分类性能指标值从待筛选的多个特征维度组合中,确定出新的中间特征维度。

步骤4、基于各中间特征维度构成的中间特征维度组合,确定出目标特征维度组合,以完成对多个待筛选的特征维度的筛选过程。

具体的,上述步骤的具体内容可以参照相关描述,在此不再赘述。

本公开实施例提供的特征维度筛选方法,基于样本数据集中各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,并基于每次训练过程中使用的特征维度组合对应的分类性能指标值,自动确定出能够用于进行神经网络训练的目标特征维度组合,实现了自动对特征维度进行筛选,提高了特征维度的筛选效率;并且基于训练过程中的分类性能指标值可以筛选出使得分类性能较佳的特征维度组合,提高了筛选出的特征维度的质量,进一步有利于后续神经网络训练效果的提升。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思,本公开实施例中还提供了与特征维度筛选方法对应的特征维度筛选装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述特征维度筛选方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

参照图5所示,为本公开实施例提供的一种特征维度筛选装置的架构示意图,所述装置包括:获取模块501、训练模块502、确定模块503;其中,

获取模块501,用于获取样本数据集;其中,所述样本数据集中的每个样本数据包含在待筛选的多个特征维度下的特征数据;

训练模块502,用于基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,确定每次训练使用的特征维度组合对应的分类性能指标值;所述分类性能指标值用于表征所述逻辑回归模型对各样本数据的分类能力;

确定模块503,用于基于所述分类性能指标值,确定目标特征维度组合;其中,各样本数据在所述目标特征维度组合下的各特征数据用于进行神经网络训练。

一种可能的实施方式中,所述训练模块502,在基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练时,用于:

将待筛选的多个特征维度中的每个特征维度分别作为一个候选特征维度组合,基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练,确定各候选特征维度组合对应的分类性能指标值;

基于各候选特征维度组合对应的分类性能指标值,从各候选特征维度组合中确定分类性能指标值最高的候选特征维度组合,作为中间特征维度组合;

将待筛选的多个特征维度中,除所述中间特征维度组合外的每个特征维度分别加入所述中间特征维度组合,得到各个更新后的候选特征维度组合;

返回基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练的步骤,直至达到预设的截止条件,将最后得到的中间特征维度组合作为所述目标特征维度组合;其中,所述截止条件包括返回执行所述训练的轮数达到预设轮数,和/或,当前轮得到的所述中间特征维度组合的分类性能指标值,与上一轮的得到的所述中间特征维度组合的分类性能指标值的差值小于设定阈值。

一种可能的实施方式中,所述训练模块502,在基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练时,用于:

根据当前轮训练过程中使用的所述候选特征维度组合中特征维度的个数,对当前轮使用的样本数据进行切分,得到多份样本数据;

从所述多份样本数据中确定本轮训练过程中每次训练使用的样本数据,基于确定的样本数据对逻辑回归模型进行训练;其中,每次训练使用的样本数据的份数随训练次数的增加而增加,且每次训练使用的候选特征维度组合的数量随训练次数的增加而减少。

一种可能的实施方式中,在每一轮所述训练中,所述训练模块502用于根据以下步骤确定每次训练使用的候选特征组合;

选取全部候选特征维度组合作为首次训练使用的候选特征维度组合;

在得到当前次训练的各个候选特征维度组合的分类性能指标值后,将各个候选特征维度组合按照分类性能指标值从高到底的顺序进行排序后,按照预设比例选取排序在前的候选特征维度组合,作为下一次训练使用的候选特征维度组合。

一种可能的实施方式中,所述训练模块502,在基于所述分类性能指标值,确定目标特征维度组合时,用于:

将最后一轮基于各候选特征维度组合对应的分类性能指标值,从各候选特征维度组合中确定分类性能指标值最高的候选特征维度组合,作为所述目标特征维度组合。

一种可能的实施方式中,所述获取模块501还用于根据以下步骤生成样本数据集中的样本数据:

获取原始数据在至少一个字段下的字段信息,所述字段具有对应的特征维度;

针对任一所述字段,根据与该字段的字段类型匹配的数据处理方式,对该字段对应的字段值进行数据处理,得到该字段对应的特征维度下的特征数据。

一种可能的实施方式中,若所述字段类型包括数值型字段;与字段类型匹配的数据处理方式,包括以下方式中的至少一种:对数值型字段的字段值取对数、对数值型字段的字段值进行除法运算取商、基于不同的数值型字段的字段值进行数值运算;

若所述字段类型包括字符型字段;与字段类型匹配的数据处理方式,包括以下方式中的至少一种:统计字符型字段的字段值中所包含字符的个数、对字符型字段的字段值进行切词处理、统计与字符型字段的字段值匹配的浏览数据。

一种可能的实施方式中,所述获取模块501,在基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练之前,还用于:

根据以下步骤对所述多个特征维度下的特征数据进行数据筛选:

确定各特征数据分别对应的信息价值数据,并基于预设的信息价值阈值对各特征数据进行筛选,其中,所述信息价值数据用于表征特征数据与样本类别的相关程度;和/或,

确定各特征数据分别对应的特征枚举值,并基于预设的枚举值阈值对各特征数据进行筛选,其中,所述特征枚举值用于表征特征维度下特征数据的取值类型的个数。

本公开实施例提供的特征维度筛选装置,基于样本数据集中各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,并基于每次训练过程中使用的特征维度组合对应的分类性能指标值,自动确定出能够用于进行神经网络训练的目标特征维度组合,实现了自动对特征维度进行筛选,提高了特征维度的筛选效率;并且基于训练过程中的分类性能指标值可以筛选出使得分类性能较佳的特征维度组合,提高了筛选出的特征维度的质量,进一步有利于后续神经网络训练效果的提升。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。

基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图6所示,为本公开实施例提供的计算机设备600的结构示意图,包括处理器601、存储器602、和总线603。其中,存储器602用于存储执行指令,包括内存6021和外部存储器6022;这里的内存6021也称内存储器,用于暂时存放处理器601中的运算数据,以及与硬盘等外部存储器6022交换的数据,处理器601通过内存6021与外部存储器6022进行数据交换,当计算机设备600运行时,处理器601与存储器602之间通过总线603通信,使得处理器601在执行以下指令:

获取样本数据集;其中,所述样本数据集中的每个样本数据包含在待筛选的多个特征维度下的特征数据;

基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,确定每次训练使用的特征维度组合对应的分类性能指标值;所述分类性能指标值用于表征所述逻辑回归模型对各样本数据的分类能力;

基于所述分类性能指标值,确定目标特征维度组合;其中,各样本数据在所述目标特征维度组合下的各特征数据用于进行神经网络训练。

一种可能的实施方式中,所述处理器601的指令中,所述基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,包括:

将待筛选的多个特征维度中的每个特征维度分别作为一个候选特征维度组合,基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练,确定各候选特征维度组合对应的分类性能指标值;

基于各候选特征维度组合对应的分类性能指标值,从各候选特征维度组合中确定分类性能指标值最高的候选特征维度组合,作为中间特征维度组合;

将待筛选的多个特征维度中,除所述中间特征维度组合外的每个特征维度分别加入所述中间特征维度组合,得到各个更新后的候选特征维度组合;

返回基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练的步骤,直至达到预设的截止条件,将最后得到的中间特征维度组合作为所述目标特征维度组合;其中,所述截止条件包括返回执行所述训练的轮数达到预设轮数,和/或,当前轮得到的所述中间特征维度组合的分类性能指标值,与上一轮的得到的所述中间特征维度组合的分类性能指标值的差值小于设定阈值。

一种可能的实施方式中,所述处理器601的指令中,所述基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练,包括:

根据当前轮训练过程中使用的所述候选特征维度组合中特征维度的个数,对当前轮使用的样本数据进行切分,得到多份样本数据;

从所述多份样本数据中确定本轮训练过程中每次训练使用的样本数据,基于确定的样本数据对逻辑回归模型进行训练;其中,每次训练使用的样本数据的份数随训练次数的增加而增加,且每次训练使用的候选特征维度组合的数量随训练次数的增加而减少。

一种可能的实施方式中,所述处理器601的指令中,在每一轮所述训练中,根据以下步骤确定每次训练使用的候选特征组合;

选取全部候选特征维度组合作为首次训练使用的候选特征维度组合;

在得到当前次训练的各个候选特征维度组合的分类性能指标值后,将各个候选特征维度组合按照分类性能指标值从高到底的顺序进行排序后,按照预设比例选取排序在前的候选特征维度组合,作为下一次训练使用的候选特征维度组合。

一种可能的实施方式中,所述处理器601的指令中,所述基于所述分类性能指标值,确定目标特征维度组合,包括:

将最后一轮基于各候选特征维度组合对应的分类性能指标值,从各候选特征维度组合中确定分类性能指标值最高的候选特征维度组合,作为所述目标特征维度组合。

一种可能的实施方式中,所述处理器601的指令中,还包括根据以下步骤生成样本数据集中的样本数据:

获取原始数据在至少一个字段下的字段信息,所述字段具有对应的特征维度;

针对任一所述字段,根据与该字段的字段类型匹配的数据处理方式,对该字段对应的字段值进行数据处理,得到该字段对应的特征维度下的特征数据。

一种可能的实施方式中,所述处理器601的指令中,若所述字段类型包括数值型字段;与字段类型匹配的数据处理方式,包括以下方式中的至少一种:对数值型字段的字段值取对数、对数值型字段的字段值进行除法运算取商、基于不同的数值型字段的字段值进行数值运算;

若所述字段类型包括字符型字段;与字段类型匹配的数据处理方式,包括以下方式中的至少一种:统计字符型字段的字段值中所包含字符的个数、对字符型字段的字段值进行切词处理、统计与字符型字段的字段值匹配的浏览数据。

一种可能的实施方式中,所述处理器601的指令中,所述基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练之前,还包括:

根据以下步骤对所述多个特征维度下的特征数据进行数据筛选:

确定各特征数据分别对应的信息价值数据,并基于预设的信息价值阈值对各特征数据进行筛选,其中,所述信息价值数据用于表征特征数据与样本类别的相关程度;和/或,

确定各特征数据分别对应的特征枚举值,并基于预设的枚举值阈值对各特征数据进行筛选,其中,所述特征枚举值用于表征特征维度下特征数据的取值类型的个数。

本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的特征维度筛选方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的特征维度筛选方法的步骤,具体可参见上述方法实施例,在此不再赘述。

其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 一种特征检索方法及装置、存储介质和计算机设备
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 一种元数据存储方法、装置、设备及计算机可读存储介质
  • 一种数据存储方法、装置、设备及计算机可读存储介质
  • 新闻筛选的方法、装置、计算机设备和存储介质
  • 一种针对高维度数据的特征选择方法、装置及计算机存储介质
  • 特征筛选方法、装置、存储介质及计算机设备
技术分类

06120116380899