掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及数据处理技术领域,尤其涉及一种基于逻辑回归的分类方法及装置。

背景技术

逻辑回归是一种广义的线性回归分析模型,常用于数据挖掘,设备故障类型自动诊断等领域。例如,探讨引发设备故障的危险因素,并根据危险因素预测故障发生的概率等。逻辑回归是一种二分类算法,一般用来解决二分类问题,但是它也可以用来解决多分类问题,当使用它来解决多分类问题的时候,由于逻辑回归的特点,一般将多分类问题转化为二分类问题,通过多分类拆分策略,可以使用逻辑回归来进行多分类问题的分析。目前常用的多分类拆分策略主要包括one vs rest策略和one vs one策略。

以多分类问题中最简单的三分类问题为例,针对三分类问题,由于分类类别相对较少,样本不平衡表现不明显,因此多采用one vs rest策略。

其中,在one vs rest策略中,假设有n个类别,那么就会建立n个二分类模型,每个二分类模型针对其中一个类别和剩余类别进行分类。进行预测时,利用这n个二分类模型进行分类,得到输入数据属于当前类的概率,选择最大概率对应的类别作为最终的预测结果。例如,天气的种类分为晴天、雨天、阴天和雪天。按照one vs rest策略进行分类为:

第一个二分类模型将晴天和非晴天:雨天、阴天、雪天进行分类;

第二个二分类模型将雨天和非雨天:阴天、晴天、雪天进行分类;

第三个二分类模型将阴天和非阴天:晴天、雨天、雪天进行分类;

第四个二分类模型将雪天和非雪天:阴天、晴天、雨天进行分类;

第一个二分类模型输出:晴天=85%,非晴天=15%;

第二个二分类模型输出:雨天=75%,非雨天=25%;

第三个二分类模型输出:阴天=60%,非阴天=30%;

第四个二分类模型输出:雪天=5%,非雪天=95%;

由于晴天的概率最大,故晴天为预测结果。

然而,使用one vs rest策略解决三分类问题,由于分类结果是取所有二分类模型中概率最大的类型作为其结果,当两个二分类模型的阳性样本(即样本标签为1)的概率相差不大时,通常会出现判断错误,导致分类结果准确度降低。

发明内容

本申请实施例提供一种基于逻辑回归的分类方法及装置,解决了现有技术存在的上述问题,实现基于逻辑回归对目标对象至少三种类别的分类,提高了分类结果的准确度。

第一方面,提供了一种基于逻辑回归的分类方法,该方法可以包括:

获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;

将所述特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的训练样本训练得到的;

根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;

检测所述概率序列是否满足预设条件,并根据检测结果,确定所述概率序列中的目标概率;

将所述目标概率对应的类别确定为所述目标对象的预测类别。

在一个可选的实现中,根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列,包括:

采用预设归一化算法,对所述目标对象属于每种类别的概率值进行处理,得到所述每种类别的概率值对应的归一化的概率值,其中,所述每种类别对应的归一化的概率值的和为1;

获取所述目标对象的概率序列。

在一个可选的实现中,若所述目标对象包括三种类别,则所述概率序列包括三个概率值;

检测所述概率序列是否满足预设条件,包括:

计算所述概率序列的均值和标准差;

若所述概率序列的均值和标准差满足所述预设条件,则确定所述概率序列满足预设条件;

其中,所述预设条件为所述概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与所述均值的乘积,且所述标准差小于所述均值。

在一个可选的实现中,根据检测结果,确定所述概率序列中的目标概率,包括:

若所述检测结果为所述概率序列满足预设条件,则将所述概率序列中的第二大的概率值确定为目标概率;

若所述检测结果为所述概率序列不满足预设条件,则将所述概率序列中的第一大的概率值确定为目标概率。

在一个可选的实现中,将所述特征数据,分别输入已训练的所述目标对象对应的每种类别的二分类模型之前,所述方法还包括:

对所述特征数据进行数据预处理,得到预处理后的特征数据;

所述数据预处理的公式可以表示为:

其中,所述X_new为处理后的特征数据,X

在一个可选的实现中,所述每种类别的二分类模型的训练过程包括:

根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集;其中,所述样本数据集包括三种类别的样本标签和相应样本的特征数据;所述训练样本数据集包括所述三种类别的样本标签和相应训练样本的特征数据,所述测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;

针对每种样本标签,采用逻辑回归算法,对所述样本标签和相应的训练样本的特征数据进行训练,得到所述每种样本标签的二分类模型;

针对每个测试样本,采用所述每种样本标签的二分类模型,分别对所述测试样本的特征数据进行样本标签分类,得到所述测试样本属于所述每种样本标签的概率值;

根据所述测试样本属于所述每种样本标签的概率值,获取所述测试样本的概率序列,并将满足预设条件的所述概率序列中的目标概率对应的类别,确定为所述测试样本的预测类别;

根据所述每个二分类模型对应的已知类别的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的所述目标对象对应的每种样本标签的二分类模型。

在一个可选的实现中,根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集之前,所述方法还包括:

对样本数据集中样本的特征数据进行数据预处理,得到预处理后的特征数据;

所述数据预处理的公式可以表示为:

其中,所述X_new为预处理后的特征数据,X

在一个可选的实现中,所述方法还包括:

基于所述每种样本标签的二分类模型预测正确的测试样本个数和所述测试样本数据集中测试样本个数,采用预设准确度算法,得到所述每样本标签别的二分类模型的预测准确度。

第二方面,提供了一种基于逻辑回归的分类装置,该装置可以包括:获取单元、输入单元、检测单元和确定单元;

所述获取单元,用于获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;

所述输入单元,用于装置将目标对象的特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的训练样本训练得到的;

所述获取单元,还用于根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;

所述检测单元,用于检测所述概率序列是否满足预设条件;

所述确定单元,用于根据检测结果,确定所述概率序列中的目标概率;

以及,将所述目标概率对应的类别确定为所述目标对象的预测类别。

在一个可选的实现中,所述获取单元,具体用于采用预设归一化算法,对所述目标对象属于每种类别的概率值进行处理,得到所述每种类别的概率值对应的归一化的概率值,其中,所述每种类别对应的归一化的概率值的和为1;

以及,获取所述目标对象的概率序列。

在一个可选的实现中,若所述目标对象包括三种类别,则所述概率序列包括三个概率值;所述装置还包括计算单元;

所述计算单元,用于计算所述概率序列的均值和标准差;

所述确定单元,还用于若所述概率序列的均值和标准差满足所述预设条件,则确定所述概率序列满足预设条件;

其中,所述预设条件为所述概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与所述均值的乘积,且所述标准差小于所述均值。

在一个可选的实现中,所述确定单元,具体用于若所述检测结果为所述概率序列满足预设条件,则将所述概率序列中的第二大的概率值确定为目标概率;

若所述检测结果为所述概率序列不满足预设条件,则将所述概率序列中的第一大的概率值确定为目标概率。

在一个可选的实现中,所述装置还包括第一预处理单元;

所述第一预处理单元,用于对所述目标对象的特征数据进行数据预处理,得到预处理后的特征数据;

所述数据预处理的公式可以表示为:

其中,所述X_new为处理后的特征数据,所述X

在一个可选的实现中,所述装置还包括训练单元;

所述训练单元,用于执行以下步骤:

根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集;其中,所述样本数据集包括三种类别的样本标签和相应样本的特征数据;所述训练样本数据集包括所述三种类别的样本标签和相应训练样本的特征数据,所述测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;

针对每种样本标签,采用逻辑回归算法,对所述样本标签和相应的训练样本的特征数据进行训练,得到所述每种样本标签的二分类模型;

针对每个测试样本,采用所述每种样本标签的二分类模型,分别对所述测试样本的特征数据进行样本标签分类,得到所述测试样本属于所述每种样本标签的概率值;

根据所述测试样本属于所述每种样本标签的概率值,获取所述测试样本的概率序列,并将满足预设条件的所述概率序列中的目标概率对应的类别,确定为所述测试样本的预测类别;

根据所述每个二分类模型对应的已知类别的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的所述目标对象对应的每种样本标签的二分类模型。

在一个可选的实现中,所述装置还包括第二预处理单元;

所述第二预处理单元,用于对样本数据集中样本的特征数据进行数据预处理,得到预处理后的特征数据;

所述数据预处理的公式可以表示为:

其中,所述X_new为预处理后的特征数据,X

在一个可选的实现中,所述获取单元,还用于基于所述每种样本标签的二分类模型预测正确的测试样本个数和所述测试样本数据集中测试样本个数,采用预设准确度算法,得到所述每样本标签别的二分类模型的预测准确度。

第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。

第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本发明实施例提供的基于逻辑回归的分类方法中将目标对象的特征数据,分别输入目标对象对应的已训练的每种类别的二分类模型,得到目标对象属于每种类别的概率值;二分类模型是基于逻辑回归算法对目标对象对应的训练样本训练得到的;根据目标对象属于每种类别的概率值,获取目标对象的概率序列;检测概率序列是否满足预设条件,并根据检测结果,确定概率序列中的目标概率,并将目标概率对应的类别确定为目标对象的预测类别。该方法通过对现有技术的分类方式进行改进和优化,提高了分类结果的准确度。

附图说明

图1为本发明实施例提供的一种基于逻辑回归的分类方法的流程示意图;

图2为本发明实施例提供的一种鸢尾花数据集的分布示意图;

图3为本发明实施例提供的一种鸢尾花数据集的分类结果对应的混淆矩阵示意图;

图4为本发明实施例提供的监测数据中蒸汽压力和负荷间的散点分布示意图;

图5为本发明实施例提供的一种锅炉数据集的分类结果对应的混淆矩阵示意图;

图6为本发明实施例提供的不同种类的汽车数据集的散点分布示意图;

图7为本发明实施例提供的一种汽车数据集的分类结果对应的混淆矩阵示意图;

图8为本发明实施例提供的一种基于逻辑回归的分类装置的结构示意图;

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本发明实施例提供的基于逻辑回归的分类方法可以应用在服务器上,也可以应用在终端上。服务器可以是应用服务器或云服务器;终端可以是具有较强的计算能力的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)、移动终端(Mobile Terminal)等。

以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的一种基于逻辑回归的分类方法的流程示意图。如图1所示,该方法可以包括:

步骤110、将获取的目标对象的特征数据,分别输入目标对象对应的已训练的每种类别的二分类模型,得到目标对象属于每种类别的概率值。

具体实施中,对目标对象进行监测,获取目标对象的特征数据,如鸢尾花的花萼长、花萼宽、花瓣长和花瓣宽;目标对象可以包括至少三种类别,每种类别的目标对象的相应特征数据的特征值不同,即特征值完全互斥。

若目标对象包括三种类别,且类别之间完全互斥,则目标对象对应的已训练的二分类模型为三种不同类别的模型。每个二分类模型是基于逻辑回归算法对目标对象对应的每种类别的训练样本训练得到的。

对于二分类模型,二分类模型得到的是一个概率值,这个概率值表明样本的分类情况,如样本种类标签(样本标签)为0或样本种类标签为1(或称“阳性样本”)的可能性。预设一个具体概率值p,若二分类模型输出的概率值大于p(或称“阳性概率”),则样本标签为1,若二分类模型输出的概率值小于p,则样本标签为0。

在执行该步骤之前,需要对获取的目标对象的特征数据进行数据预处理,该数据预处理至少包括以下步骤:

(1)对目标对象的特征数据进行异常值,如正负数值、超出预设数值范围的数值等和空值,即无数值的检查,根据异常值和空值所占比例,进行删除或者填充处理;

(2)为避免不同种类的特征数据间的不同量纲和极大值、极小值对分类结果的影响,对特征数据进行变换处理,变换处理公式如(1)式:

公式中,X_new为处理后的特征数据,X

该步骤具体实施中,将数据预处理后的目标对象的特征数据,分别输入已训练的目标对象对应的每种类别的二分类模型,得到目标对象属于每种类别的概率值。

步骤120、根据目标对象属于每种类别的概率值,获取该目标对象的概率序列。

对同一个对象来说,在三种类别的二分类模型中必定有一个为阳性概率,即三个二分类模型输出的阳性概率之和应该为1。

故采用预设归一化算法,如Softmax函数,对目标对象属于每种类别的概率值进行处理,得到每种类别的概率值对应的归一化的概率值,其中,每种类别对应的归一化的概率值在0~1之间,且每种类别对应的归一化的概率值的和为1。

可选地,预设归一化算法的计算公式可以表示为:

公式中,S

之后,根据每种类别的二分类模型对应的归一化的概率值,获取目标对象的概率序列。

其中,该概率序列中的k个归一化的概率值,可以按照概率值从大到小的顺序排序,如概率序列可以表示为:{p

步骤130、检测概率序列是否满足预设条件,并确定概率序列中的目标概率。

计算概率序列的均值

若概率序列的均值和标准差满足预设条件,则确定概率序列满足预设条件;

其中,预设条件为概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与均值的乘积,且标准差小于均值。

该预设条件的公式可以表示为:

公式中,δ为预设比例系数;δ的取值范围为0<δ<0.45;

其中,经实验表明,当目标对象仅包括三种类别时,δ的取值范围为0<δ<0.3时可提高分类的准强度。

进一步的,根据检测结果,确定概率序列中的目标概率;

具体实施中,若检测结果为概率序列满足预设条件,则将概率序列中的第二大的概率值p

若检测结果为概率序列不满足预设条件,则将概率序列中的第一大的概率值p

步骤140、将目标概率对应的类别确定为目标对象的预测类别。

可见,本发明实施例将现有技术中通过直接选择最大概率对应的类别来确定分类结果,转变为通过分析概率序列的标准差与均值间的关系来,来选取合适的分类结果,即通过概率序列中概率值间的值间距,与概率值间的波动程度来确定分类结果,有效提高分类结果的准确度。

在一个可能的实现中,针对每种类别的二分类模型的训练过程可以包括如下步骤:

获取目标对象对应的样本数据集,该样本数据集可以包括三种类别的样本标签(即类别)和相应样本的特征数据;

可选地,需要对样本数据集中样本的特征数据进行数据预处理,该数据预处理至少包括以下步骤:

(1)对特征数据进行异常值和空值检查,根据异常值和空值所占比例,进行删除或者填充处理;

(2)若样本数据集中存在样本种类不平衡的问题,则可以通过上采样或者下采样方法,即增加样本种类少的样本数据,或减少样本种类少的样本数据,使得每个种类的样本数据趋于平衡,即三种类别的样本数量比值趋于1:1:1;

(3)为避免不同量纲和极大极小值对分类结果的影响,采用公式(1)对特征数据进行归一化处理。其中,公式(1)中的最小特征数据和最大特征数据可以是预设的,也可以是同种特征数据中的最小特征数据和最大特征数据,本发明实施例在此不做限定。

(4)对样本标签0,样本标签1和样本标签2,即样本种类进行one-hot编码处理,构建3个新的标签列Y

例如,样本标签为0的样本设置为1,非0的设置为0,获得新的样本标签列Y0;样本标签为1的样本设置为1,非1的样本设置为0,获得新的样本标签列Y1;样本标签为2的设置为1,非2的设置为0,获得新的样本标签列Y2,通过处理后获得三个新的样本标签列Y

然后,基于预设测试集比例,获取训练样本数据集和测试样本数据集;

其中,训练样本数据集包括三种类别的样本标签和相应训练样本的特征数据,测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;

需要说明的是,预设测试集比例为测试集与训练集的比例,该比例可以根据样本数据集的数据量大小设置,如样本数据集的数据量较大时,预设测试集比例可以设置为3:7;样本数据集的数据量较小时,预设测试集比例可以设置为2:8,也可以根据实际情况自定义设置,本发明实施例在此不做限定。

进一步的,针对每种样本标签,采用逻辑回归算法,对样本标签和相应的训练样本的特征数据进行训练,得到每种样本标签的二分类模型;

之后,针对每个测试样本,采用每种样本标签的二分类模型,分别对测试样本的特征数据进行样本标签分类,得到测试样本属于每种样本标签的概率值;

根据测试样本属于所述每种样本标签的概率值,获取测试样本的概率序列,并将满足预设条件的概率序列中的目标概率对应的类别,确定为测试样本的预测类别;

根据每个二分类模型对应的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的目标对象对应的每种样本标签的二分类模型。

基于上述实施例,基于每种样本标签的二分类模型预测正确的测试样本个数和测试样本数据集中测试样本个数,采用预设准确度算法,得到每样本标签别的二分类模型的预测准确度。

可选地,预设准确度算法的公式可以表示为:

式子中,N

下面分别以目标对象为鸢尾花和锅炉设备为例,对目标对象的二分类模型的训练进行详细说明:

实施例一:

鸢尾花(iris)数据集是典型的三分类数据集,本实施例基于python机器学习框架scikit-learn自带的鸢尾花数据集进行基于逻辑回归的三分类预测,其数据中个别特征分布如图2所示。

该数据集为4个特征数据,即{萼片宽(sepalWidth),萼片长(sepalLength),花瓣宽(petalWidth),花瓣长(petalLength)},共150个鸢尾花的样本,样本标签为{0,1,2},分别代表鸢尾花的三个品种:山鸢尾(setosa)、变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica),对该数据进行如下处理:

该数据集数据完整,且不存在空值,且三类品种的样本数基本相等,因此只需对其特征数据进行归一化处理,消除量纲和极大极小值对分类结果的影响,获得新的特征数据X_new;

对样本标签进行one-hot编码处理,将样本标签为0的样本设置为1,非0的设置为0,获得新的样本标签列Y

选择合适的测试集比例,将样本的特征数据X

分别将训练集X

将测试集数据X

最后,可以按照公式(6)对预测结果进行分类结果的准确度进行评价分析,其评价标准如下表1所示:

表1 iris数据集分类评价结果

可选地,还可以对分类结果进行混淆矩阵分析,以验证分类结果的准确度,混淆矩阵如图3所示:

对于样本标签为0的样本,真实(true)存在16个样本,二分类模型预测(predict)样本标签为0的样本个数为16个;

对于样本标签为1的样本,真实存在18个样本,二分类模型预测样本标签为1的样本个数为17个,其中,将1个真实样本标签为1的样本预测为样本标签为2的样本;

对于样本标签为2的样本,真实存在11个样本,二分类模型预测样本标签为2的样本个数为12个。

需要说明的是,经试验数据表明,对鸢尾花数据集的分类,δ的取值范围为0<δ<0.45或0<δ<0.3,准确度均为97.8%。

实施例二:

采用某电厂锅炉设备运行监测数据,该监测数据的特征数据包括锅炉某特定设备的蒸汽温度(temperature)、蒸汽压力(pressure)和锅炉运行的负荷(load)数据以及锅炉某受热面的积灰污染程度(0为积灰程度在正常范围,1为积灰程度偏高,2为积灰程度偏低),该监测数据为典型的三分类数据,该监测数据中蒸汽压力和负荷(load)间的散点分布图,如图4所示。

设特征数据X={temperature,pressure,load},锅炉设备类别的样本标签列为y={0,1,2},本数据集共18012条样本,对该样本做如下处理:

经分析,本样本存在着负荷(load)为负值的异常数据,异常数据所占比例非常小(小于0.1%),因此可直接删除存在异常数据的样本;

本数据集存在着三类设备类别的样本数不平衡问题,类别为2的样本数远小于其他两种类别的样本数,鉴于本数据集样本数量较多,故采用下采样实现样本均衡,使得三类样本数的比值趋近于1:1:1,经过下采样后本数据集压缩为754条样本,对特征数据进行归一化,消除量纲和极大极小值对分类结果的影响获得新的特征数据;

对样本标签列进行one-hot编码处理,将其拆分为三个二分类模型对应的样本标签列Y

分别将训练集和相应样本标签列训练集,输入逻辑回归模型,训练得到每个样本标签列对应的二分类模型M

将测试集中的每个测试数据,分别输入每个二分类模型Mi,得到每个测试样本为阳性样本的概率序列,将阳性概率序列进行softmax函数映射,并对其降序排列,即得到处理后的概率序列{p

最后,可以按照公式(6)对预测结果进行分类结果的准确度进行评价分析,其评价标准如下表2所示:

表2锅炉数据集分类评价结果

可选地,还可以对分类结果进行混淆矩阵分析,以验证分类结果的准确度,混淆矩阵如图5所示:

对于样本标签为0的样本,真实存在57个,二分类模型预测样本标签为0的样本个数为59个,其中,将2个真实样本标签为2的样本预测为样本标签为0的样本;

对于样本标签为1的样本,真实存在71个样本,二分类模型预测样本标签为1的样本个数为77个,其中,将6个真实样本标签为2的样本预测为样本标签为1的样本;

对于样本标签为2的样本,真实存在61个样本,二分类模型预测样本标签为2的样本个数为53个。

需要说明的是,经试验数据表明,在δ的取值范围为0<δ<0.45时,准确度为95.8%。

实施例三:

采集四分类汽车(Vehicle)数据集,该数据包括汽车车体密度,汽车车体最大长度,中空率等汽车的主要参数,共计18个特征,846个样本,该数据集为四分类数据集,其样本标签为{bus,opel,saab,van},代表4种不同类型的汽车样本,该数据部分特征散点图如图6所示。

数据集为18个特征数据可以表示为X={x

经分析,本数据不存在缺失或者异常值,且四种类别的个数之比接近1:1:1:1,故不做特殊处理,因此只需对其特征数据进行归一化处理,消除量纲和极大极小值对分类结果的影响,获得新的特征数据X

对样本标签列进行one-hot编码,将样本标签为bus的样本设置为1,非bus的设置为0,获得新的样本标签列Y

选择合适的测试集比例,将样本的特征数据X

分别将训练集X

将测试集数据X

最后,可以按照公式(6)对预测结果进行分类结果的准确度进行评价分析,其评价标准如下表3所示:

表3汽车数据集分类评价结果

可选地,还可以对分类结果进行混淆矩阵分析,以验证分类结果的准确度,混淆矩阵如图7所示:

对于样本标签为bus的样本,真实(true)存在47个样本,二分类模型预测样本标签为bus的样本个数为56个;其中,将2个真实样本标签为van的样本预测为样本标签为bus的样本,将4个真实样本标签为saab的样本预测为样本标签为bus的样本,将3个真实样本标签为opel的样本预测为样本标签为bus的样本;

对于样本标签为opel的样本,真实存在51个样本,二分类模型预测样本标签为opel的样本个数为49个,其中,将2个真实样本标签为saab的样本预测为样本标签为opel的样本;

对于样本标签为saab的样本,真实存在67个样本,二分类模型预测样本标签为saab的样本个数为62个,其中,将1个真实样本标签为opel的样本预测为样本标签为opel的样本。

对于样本标签为van的样本,真实存在47个样本,二分类模型预测样本标签为van的样本个数为45个。

本发明实施例提供的基于逻辑回归的分类方法中将目标对象的特征数据,分别输入目标对象对应的已训练的每种类别的二分类模型,得到目标对象属于每种类别的概率值;二分类模型是基于逻辑回归算法对目标对象对应的训练样本训练得到的;根据目标对象属于每种类别的概率值,获取目标对象的概率序列;检测概率序列是否满足预设条件,并根据检测结果,确定概率序列中的目标概率,并将目标概率对应的类别确定为目标对象的预测类别。该方法通过对现有技术的分类方式进行改进和优化,提高了分类结果的准确度。

与上述方法对应的,本发明实施例还提供一种基于逻辑回归的分类装置,如图8所示,该基于逻辑回归的分类装置包括:获取单元810、输入单元820、检测单元830和确定单元840;

获取单元810,用于获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;

输入单元820,用于将所述特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的训练样本训练得到的;

获取单元810,还用于根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;

检测单元830,用于检测所述概率序列是否满足预设条件;

确定单元840,用于根据检测结果,确定所述概率序列中的目标概率;

以及,将所述目标概率对应的类别确定为所述目标对象的预测类别。

在一个可选的实现中,获取单元810,具体用于采用预设归一化算法,对所述目标对象属于每种类别的概率值进行处理,得到所述每种类别的概率值对应的归一化的概率值,其中,所述每种类别对应的归一化的概率值的和为1;

以及,获取所述目标对象的概率序列。

在一个可选的实现中,若所述目标对象包括三种类别,则所述概率序列包括三个概率值;所述装置还包括计算单元850;

计算单元850,用于计算所述概率序列的均值和标准差;

确定单元840,还用于若所述概率序列的均值和标准差满足所述预设条件,则确定所述概率序列满足预设条件;

其中,所述预设条件为所述概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与所述均值的乘积,且所述标准差小于所述均值。

在一个可选的实现中,确定单元840,具体用于若所述检测结果为所述概率序列满足预设条件,则将所述概率序列中的第二大的概率值确定为目标概率;

若所述检测结果为所述概率序列不满足预设条件,则将所述概率序列中的第一大的概率值确定为目标概率。

在一个可选的实现中,所述装置还包括第一预处理单元860;

第一预处理单元860,用于对所述目标对象的特征数据进行数据预处理,得到预处理后的特征数据;

所述数据预处理的公式可以表示为:

其中,所述X_new为处理后的特征数据,X

在一个可选的实现中,所述装置还包括训练单元870;

训练单元870,用于执行以下步骤:

根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集;其中,所述样本数据集包括三种类别的样本标签和相应样本的特征数据;所述训练样本数据集包括所述三种类别的样本标签和相应训练样本的特征数据,所述测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;

针对每种样本标签,采用逻辑回归算法,对所述样本标签和相应的训练样本的特征数据进行训练,得到所述每种样本标签的二分类模型;

针对每个测试样本,采用所述每种样本标签的二分类模型,分别对所述测试样本的特征数据进行样本标签分类,得到所述测试样本属于所述每种样本标签的概率值;

根据所述测试样本属于所述每种样本标签的概率值,获取所述测试样本的概率序列,并将满足预设条件的所述概率序列中的目标概率对应的类别,确定为所述测试样本的预测类别;

根据所述每个二分类模型对应的已知类别的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的所述目标对象对应的每种样本标签的二分类模型。

在一个可选的实现中,所述装置还包括第二预处理单元880;

第二预处理单元880,用于对样本数据集中样本的特征数据进行数据预处理,得到预处理后的特征数据;

所述数据预处理的公式可以表示为:

其中,所述X_new为预处理后的特征数据,X

在一个可选的实现中,获取单元810,还用于基于所述每种样本标签的二分类模型预测正确的测试样本个数和所述测试样本数据集中测试样本个数,采用预设准确度算法,得到所述每样本标签别的二分类模型的预测准确度。

本发明上述实施例提供的基于逻辑回归的分类装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的基于逻辑回归的分类装置中的各个单元的具体工作过程和有益效果,在此不复赘述。

本发明实施例还提供了一种电子设备,如图9所示,包括处理器910、通信接口920、存储器930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。

存储器930,用于存放计算机程序;

处理器910,用于执行存储器930上所存放的程序时,实现如下步骤:

获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;

将所述特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的训练样本训练得到的;

根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;

检测所述概率序列是否满足预设条件,并根据检测结果,确定所述概率序列中的目标概率;

将所述目标概率对应的类别确定为所述目标对象的预测类别。

在一个可选的实现中,根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列,包括:

采用预设归一化算法,对所述目标对象属于每种类别的概率值进行处理,得到所述每种类别的概率值对应的归一化的概率值,其中,所述每种类别对应的归一化的概率值的和为1;

获取所述目标对象的概率序列。

在一个可选的实现中,若所述目标对象包括三种类别,则所述概率序列包括三个概率值;

检测所述概率序列是否满足预设条件,包括:

计算所述概率序列的均值和标准差;

若所述概率序列的均值和标准差满足所述预设条件,则确定所述概率序列满足预设条件;

其中,所述预设条件为所述概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与所述均值的乘积,且所述标准差小于所述均值。

在一个可选的实现中,根据检测结果,确定所述概率序列中的目标概率,包括:

若所述检测结果为所述概率序列满足预设条件,则将所述概率序列中的第二大的概率值确定为目标概率;

若所述检测结果为所述概率序列不满足预设条件,则将所述概率序列中的第一大的概率值确定为目标概率。

在一个可选的实现中,将所述特征数据,分别输入已训练的所述目标对象对应的每种类别的二分类模型之前,所述方法还包括:

对所述目标对象的特征数据进行数据预处理,得到预处理后的特征数据;所述数据预处理的公式可以表示为:

其中,所述X_new为处理后的特征数据,X

在一个可选的实现中,所述每种类别的二分类模型的训练过程包括:

根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集;其中,所述样本数据集包括三种类别的样本标签和相应样本的特征数据;所述训练样本数据集包括所述三种类别的样本标签和相应训练样本的特征数据,所述测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;

针对每种样本标签,采用逻辑回归算法,对所述样本标签和相应的训练样本的特征数据进行训练,得到所述每种样本标签的二分类模型;

针对每个测试样本,采用所述每种样本标签的二分类模型,分别对所述测试样本的特征数据进行样本标签分类,得到所述测试样本属于所述每种样本标签的概率值;

根据所述测试样本属于所述每种样本标签的概率值,获取所述测试样本的概率序列,并将满足预设条件的所述概率序列中的目标概率对应的类别,确定为所述测试样本的预测类别;

根据所述每个二分类模型对应的已知类别的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的所述目标对象对应的每种样本标签的二分类模型。

在一个可选的实现中,根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集之前,所述方法还包括:

对样本数据集中样本的特征数据进行数据预处理,得到预处理后的特征数据;

所述数据预处理的公式可以表示为:

其中,所述X_new为预处理后的特征数据,X

在一个可选的实现中,所述方法还包括:

基于所述每种样本标签的二分类模型预测正确的测试样本个数和所述测试样本数据集中测试样本个数,采用预设准确度算法,得到所述每样本标签别的二分类模型的预测准确度。

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现,因此,本发明实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于逻辑回归的分类方法。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于逻辑回归的分类方法。

本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

相关技术
  • 一种基于逻辑回归的分类方法及装置
  • 一种基于逻辑回归的多标签分类方法
技术分类

06120112436121