掌桥专利:专业的专利平台
掌桥专利
首页

目标分类方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 19:54:45


目标分类方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域,尤其涉及一种目标分类方法、装置、电子设备及存储介质。

背景技术

近年来,随着人工智能技术迅速发展,机器学习技术在数据挖掘、计算机视觉和语言识别等领域中均得到了广泛的应用。

目前,在数据挖掘领域,已有大量比较成熟的目标分类算法应用了机器学习技术。但在实际生活中,机器学习算法无法针对难例样本数据进行准确处理,这将导致机器学习模型对数据的拟合效果不够好,泛化能力差等问题,使机器学习模型的准确性降低。

发明内容

本发明提供一种目标分类方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。

本发明提供一种目标分类方法,包括:

获取待分类目标的描述数据;

将所述描述数据输入至目标分类模型,得到所述目标分类模型输出的所述待分类目标的最终属性类别;

其中,所述目标分类模型基于如下步骤训练得到:

基于训练样本集,对初始模型进行训练,得到第一分类模型;所述训练样本集包括样本目标的描述数据样本,所述描述数据样本携带有所述样本目标的属性类别标签;

基于所述第一分类模型,确定所述训练样本集中的正确样本以及错误样本,并分别对所述正确样本与所述错误样本进行采样,基于采样所得结果对所述第一分类模型进行训练,得到第二分类模型;

确定所述训练样本集中对应的所述第一分类模型的输出结果与所述第二分类模型的输出结果不一致的差异样本,并基于所述差异样本,对所述第二分类模型进行训练,得到第三分类模型;

基于测试样本集,分别对所述第一分类模型、所述第二分类模型以及所述第三分类模型进行测试,并基于测试所得结果,确定所述目标分类模型。

根据本发明提供的一种目标分类方法,所述训练样本集基于如下步骤确定:

对初始样本集中的少数类样本进行过采样,并基于过采样所得结果,确定所述训练样本集;

其中,所述初始样本集包括样本目标的初始描述数据样本,所述初始描述数据样本携带有所述样本目标的属性类别标签。

根据本发明提供的一种目标分类方法,所述对初始样本集中的少数类样本进行过采样,并基于过采样所得结果,确定所述训练样本集,包括:

对于所述初始样本集中的任一少数类样本,基于所述任一少数类样本与同类别的其他少数类样本之间的距离,确定所述任一少数类样本周围的预设数量个近邻样本;

对所述预设数量个近邻样本进行采样,得到指定数量个采样样本,并基于所述任一少数类样本与每个采样样本,生成新的样本;

基于所述初始样本集以及所述新的样本,确定所述训练样本集。

根据本发明提供的一种目标分类方法,所述对所述预设数量个近邻样本进行采样,得到指定数量个采样样本,包括:

基于所述训练样本集中的样本不平衡比例,确定采样比例;

基于所述采样比例,确定采样比率,并基于所述采样比率对所述预设数量个近邻样本进行采样,得到所述指定数量个采样样本。

根据本发明提供的一种目标分类方法,所述基于测试所得结果,确定所述目标分类模型,包括:

基于所述测试所得结果,采用多数表决的方式,从所述第一分类模型、所述第二分类模型以及所述第三分类模型中确定所述目标分类模型。

根据本发明提供的一种目标分类方法,所述初始模型包括随机森林模型、AdaBoost模型、XGBoost模型以及决策树模型中的一种。

本发明还提供一种目标分类装置,包括:

数据获取模块,用于获取待分类目标的描述数据;

第一分类模块,用于将所述描述数据输入至目标分类模型,得到所述目标分类模型输出的所述待分类目标的最终属性类别;

训练模块,用于执行如下步骤训练得到所述目标分类模型:

基于训练样本集,对初始模型进行训练,得到第一分类模型;所述训练样本集包括样本目标的描述数据样本,所述描述数据样本携带有所述样本目标的属性类别标签;

基于所述第一分类模型,确定所述训练样本集中的正确样本以及错误样本,并分别对所述正确样本与所述错误样本进行采样,基于采样所得结果对所述第一分类模型进行训练,得到第二分类模型;

确定所述训练样本集中对应的所述第一分类模型的输出结果与所述第二分类模型的输出结果不一致的差异样本,并基于所述差异样本,对所述第二分类模型进行训练,得到第三分类模型;

基于测试样本集,分别对所述第一分类模型、所述第二分类模型以及所述第三分类模型进行测试,并基于测试所得结果,确定所述目标分类模型。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的目标分类方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的目标分类方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的目标分类方法。

本发明提供的目标分类方法、装置、电子设备及存储介质,该方法首先获取待分类目标的描述数据;然后将描述数据输入至目标分类模型,得到目标分类模型输出的待分类目标的最终属性类别。该方法在得到目标分类模型的过程中,先后引入通过不同训练样本训练得到的三个分类模型,并利用测试样本集对三个分类模型的测试所得结果得到目标分类模型,如此可以大大提升目标分类模型的分类性能,提高最终属性类别的准确性,避免因难例样本的存在而使机器学习模型对数据的拟合效果不好,泛化能力差,导致机器学习模型的准确性降低的问题出现。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的目标分类方法的流程示意图;

图2是本发明提供的目标分类方法中三个分类模型的训练过程示意图;

图3是本发明提供的目标分类方法中过采样算法的过程示意图;

图4是本发明提供的目标分类装置的结构示意图;

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

由于现有技术中,在对目标分类时采用的机器学习算法无法针对难例样本数据进行准确处理,这将导致机器学习模型对目标数据的拟合效果不够好,泛化能力差等问题,使机器学习模型的准确性降低。为此,本发明实施例中提供了一种目标分类方法。

图1为本发明实施例中提供的一种目标分类方法的流程示意图,如图1所示,该方法包括:

S1,获取待分类目标的描述数据;

S2,将所述描述数据输入至目标分类模型,得到所述目标分类模型输出的所述待分类目标的最终属性类别;

其中,所述目标分类模型基于如下步骤训练得到:

基于训练样本集,对初始模型进行训练,得到第一分类模型;所述训练样本集包括样本目标的描述数据样本,所述描述数据样本携带有所述样本目标的属性类别标签;

基于所述第一分类模型,确定所述训练样本集中的正确样本以及错误样本,并分别对所述正确样本与所述错误样本进行采样,基于采样所得结果对所述第一分类模型进行训练,得到第二分类模型;

确定所述训练样本集中对应的所述第一分类模型的输出结果与所述第二分类模型的输出结果不一致的差异样本,并基于所述差异样本,对所述第二分类模型进行训练,得到第三分类模型;

基于测试样本集,分别对所述第一分类模型、所述第二分类模型以及所述第三分类模型进行测试,并基于测试所得结果,确定所述目标分类模型。

具体地,本发明实施例中提供的目标分类方法,其执行主体为目标分类装置,该装置可以配置于计算机内,该计算机可以为本地计算机或云计算机,本地计算机可以是电脑、平板等,此处不作具体限定。

首先执行步骤S1,获取待分类目标的描述数据;该待分类目标是指需要确定其属性类别的主体,此处属性类别是指按目标属性进行分类得到的类别。可以是医学目标,例如可以是胶质母细胞瘤,其属性类别可以包括继发性胶质母细胞瘤(secondaryglioblastoma,sGBM)和不表现低度病变恶性前期的原发性胶质母细胞瘤(primaryglioblastoma,pGBM)。该待分类目标还可以是实体产品,例如轮胎、钢管等,其属性类别可以包括各缺陷类别和无缺陷。该待分类目标还可以是软件产品,例如软件项目中的软件模块,其属性类别也可以包括各缺陷类别和无缺陷。

待分类目标的描述数据可以是待分类目标的描述性内容,例如可以是待分类目标的图像数据,也可以是待分类目标的参数数据,此处不作具体限定。

然后执行步骤S2,引入具有确定属性类别功能的目标分类模型,将描述数据输入至目标分类模型,由目标分类模型输出待分类目标的最终属性类别。

在确定目标分类模型的过程中,可以借鉴于Boosting算法,引入第一分类模型、第二分类模型以及第三分类模型,三个分类模型均为弱分类器,由三个分类模型得到的目标分类模型是一个强分类器。虽然三个分类模型均具有属性类别功能,但是其性能有所不同。

本发明实施例中,三个分类模型性能不同的原因在于其训练时采用的训练样本集有所不同。此处,用于训练得到第一分类模型的训练样本集可以称为第一样本集,用于训练得到第二分类模型的采样所得结果可以构成第二样本集,用于训练得到第三分类模型的差异样本可以构成第三样本集。

如图2所示,第一分类模型基于第一样本集,对初始模型进行训练得到。在对初始模型进行训练时,可以将样本目标的描述数据样本输入至初始模型,得到初始模型的输出结果,然后通过样本目标的属性类别标签以及初始模型的输出结果计算损失函数,改变初始模型的结构参数,重复进行上述步骤,当损失函数收敛时即得到训练好的初始模型,即第一分类模型。

此后,可以继续利用第一分类模型对第一样本集中各样本进行分类,得到第一分类模型的输出结果。利用该输出结果与第一样本集中各样本携带的样本目标的属性类别标签,确定第一样本集中的正确样本和错误样本。其中,正确样本是指第一分类模型的输出结果与其携带的样本目标的属性类别标签一致的描述数据样本。错误样本是指第一分类模型的输出结果与其携带的样本目标的属性类别标签不一致的描述数据样本。错误样本对于第一分类模型来说即为难例样本。

通过对正确样本和错误样本进行采样,采样所得结果可以构建得到第二样本集。其中,采样比例可以根据需要进行设定,例如可以均为50%,也可以是其他比例,此处不作具体限定。采样后,将正确样本对应的采样所得结果与错误样本对应的采样所得结果进行汇总,得到第二样本集。此处,通过对正确样本以及错误样本进行采样,可以控制第二样本集中的样本个数,提高对第一分类模型的训练效率。

进而,可以是利用第二样本集,对第一分类模型进行训练,得到第二分类模型。一方面,利用正确样本可以进一步强化第一分类模型的性能,另一方面,利用错误样本可以使第一分类模型继续学习正确确定错误样本的属性类别的性能。因此,相比于第一分类模型而言,第二分类模型的性能更优。

此后,可以继续利用第二分类模型对第一样本集中的各样本进行分类,得到第二分类模型的输出结果,然后将第一分类模型的输出结果与第二分类模型的输出结果进行对比,确定第一样本集中对应的二者输出结果不同的差异样本。此时,差异样本对于第一分类模型或第二分类模型来说为难例样本。

利用各差异样本可以构成第三样本集,进而可以利用第三样本集,对第二分类模型进行训练,使该第二分类模型可以学习到准确确定第一分类模型与第二分类模型产生分歧的差异样本的属性类别的性能,得到第三分类模型。

最后利用测试样本集分别对三个分类模型进行测试,得到各分类模型对应的测试所得结果。测试样本集也包括样本目标的描述数据样本,描述数据样本也携带有样本目标的属性类别标签,但是测试样本集中样本目标的描述数据样本与第一样本集中样本目标的描述数据样本并不相同,如此才可以实现测试目的。

利用各分类模型对应的测试所得结果,则可以确定出目标分类模型。该目标分类模型可以是从上述各分类模型中选取得到。例如,可以将测试所得结果的准确率最高的分类模型作为目标分类模型。若存在两个分类模型的测试所得结果的准确率相同,且均高于第三个分类模型,则可以从两个模型中任意选择一个分类模型作为目标分类模型。若三个分类模型的测试所得结果的准确率均相同,则可以从三个模型中任意选择一个分类模型作为目标分类模型。

本发明实施例中提供的目标分类方法,首先获取待分类目标的描述数据;然后将描述数据输入至目标分类模型,得到目标分类模型输出的待分类目标的最终属性类别。该方法在得到目标分类模型的过程中,先后引入通过不同训练样本训练得到的三个分类模型,并利用测试样本集对三个分类模型的测试所得结果得到目标分类模型,如此可以大大提升目标分类模型的分类性能,提高最终属性类别的准确性,避免因难例样本的存在而使机器学习模型对数据的拟合效果不好,泛化能力差,导致机器学习模型的准确性降低的问题出现。

在上述实施例的基础上,本发明实施例中提供的目标分类方法,所述训练样本集基于如下步骤确定:

对初始样本集中的少数类样本进行过采样,并基于过采样所得结果,确定所述训练样本集;

其中,所述初始样本集包括样本目标的初始描述数据样本,所述初始描述数据样本携带有所述样本目标的属性类别标签。

具体地,本发明实施例中采用的训练样本集,即图2中的第一样本集,可以通过对初始样本集中的少数类样本进行过采样得到。其中,初始样本集可以包括样本目标的初始描述数据样本,初始描述数据样本携带有样本目标的属性类别标签。初始描述数据样本可以包括多数类样本和少数类样本,多数类样本是指携带有样本目标的同一属性类别标签的初始描述数据样本的个数较多的一类样本,少数类样本是指携带有样本目标的同一属性类别标签的初始描述数据样本的个数较少的一类样本,且多数类样本的个数与少数类样本的个数可以相差至少一个数量级。

过采样的目的是使少数类样本的个数增加,以实现初始样本集中少数类样本与多数类样本的个数平衡。此处,过采样可以通过过采样算法实现,此处不做具体限定。

在过采样之后,可以根据过采样所得结果,结合初始样本集确定出训练样本集。此时,训练样本集中各属性类别标签对应的描述数据样本的个数相当,不存在少数类样本或多数类样本。

本发明实施例中,通过对初始样本集中的少数类样本进行过采样得到,可以使训练样本集中各属性类别标签对应的描述数据样本的个数相当,避免了少数类样本导致的样本数据不平衡对三个分类模型的性能产生的影响,提高各分类模型的准确性。

在上述实施例的基础上,本发明实施例中提供的目标分类方法,所述对初始样本集中的少数类样本进行过采样,并基于过采样所得结果,确定所述训练样本集,包括:

对于所述初始样本集中的任一少数类样本,基于所述任一少数类样本与同类别的其他少数类样本之间的距离,确定所述任一少数类样本周围的预设数量个近邻样本;

对所述预设数量个近邻样本进行采样,得到指定数量个采样样本,并基于所述任一少数类样本与每个采样样本,生成新的样本;

基于所述初始样本集以及所述新的样本,确定所述训练样本集。

具体地,本发明实施例中采用的过采样算法如下:

首先,对于初始样本集中的任一少数类样本,利用任一少数类样本与同类别的其他少数类样本之间的距离,确定任一少数类样本周围的预设数量个近邻样本。同类别的其他少数类样本是指与任一少数类样本具有相同属性类别标签的初始描述数据样本。任一少数类样本与同类别的其他每个少数类样本之间的距离可以是欧氏距离,也可以是其他余弦距离,此处不作具体限定。可以将其他所有少数类样本按与任一少数类样本距离由近到远的顺序进行排列,然后选取排列结果中的前预设数量个作为近邻样本。预设数量可以根据实际情况进行设定,此处不作具体限定。

此后,可以对预设数量个近邻样本进行采样,得到指定数量个采样样本。其中,采样比率可以根据需要进行设定,此处不作具体限定。

利用任一少数类样本与每个采样样本,按如下公式生成新的样本:

x

其中,x

上述过采样算法的过程可以通过图3进行表示。图3中,以指定数量是5为例,5个采样样本分别为x

最后,将初始样本集以及新的样本进行汇总,得到训练样本集。

本发明实施例中,通过对近邻样本进行采样,可以少数类样本与多数类样本的平衡效果更佳。

在上述实施例的基础上,本发明实施例中提供的目标分类方法,所述对所述预设数量个近邻样本进行采样,得到指定数量个采样样本,包括:

基于所述训练样本集中的样本不平衡比例,确定采样比例;

基于所述采样比例,确定采样比率,并基于所述采样比率对所述预设数量个近邻样本进行采样,得到所述指定数量个采样样本。

具体地,在对预设数量个近邻样本进行采样时,可以先确定训练样本集中的样本不平衡比例,并利用该样本不平衡比例确定采样比例。然后利用采样比例,确定采样比率。

最后,利用采样比率对预设数量个近邻样本进行采样,得到指定数量个采样样本。如此可以进一步提升少数类样本与多数类样本的平衡效果更佳。

在上述实施例的基础上,本发明实施例中提供的目标分类方法,所述基于测试所得结果,确定所述目标分类模型,包括:

基于所述测试所得结果,采用多数表决的方式,从所述第一分类模型、所述第二分类模型以及所述第三分类模型中确定所述目标分类模型。

具体地,在确定目标分类模型时,可以利用三个分类模型对应的测试所得结果,采用多数表决的方式进行确定,即从三个分类模型中选取一个符合要求的分类模型作为目标分类模型。

例如,可以将测试所得结果的准确率最高的分类模型作为目标分类模型。若存在两个分类模型的测试所得结果的准确率相同,且均高于第三个分类模型,则可以从两个模型中任意选择一个分类模型作为目标分类模型。若三个分类模型的测试所得结果的准确率均相同,则可以从三个模型中任意选择一个分类模型作为目标分类模型。

本发明实施例中,采用多数表决的方式,确定目标分类模型,可以综合考虑三个分类模型的性能,使目标分类模型具有较强的分类性能。

在上述实施例的基础上,本发明实施例中提供的目标分类方法,所述初始模型包括随机森林模型、AdaBoost模型、XGBoost模型以及决策树模型中的一种。

具体地,初始模型可以随机森林模型、AdaBoost模型、XGBoost模型以及决策树模型中的一种。

以随机森林模型为例,随机森林模型是装袋法(Bagging)集成算法的代表模型,将决策树作为基评估器,由多个决策树组成集成算法,因此也拥有决策树的特征。经过实验可以确定,上述四类模型中,将随机森林模型作为初始模型,确定的最终属性类别的效果最佳。

在上述实施例的基础上,本发明实施例中提供的目标分类方法,在代码实现层面,采用的代码语言可以是Python语言

如图4所示,在上述实施例的基础上,本发明实施例中提供了一种目标分类装置,包括:

数据获取模块41,用于获取待分类目标的描述数据;

分类模块42,用于将所述描述数据输入至目标分类模型,得到所述目标分类模型输出的所述待分类目标的最终属性类别;

训练模块43,用于执行如下步骤训练得到所述目标分类模型:

基于训练样本集,对初始模型进行训练,得到第一分类模型;所述训练样本集包括样本目标的描述数据样本,所述描述数据样本携带有所述样本目标的属性类别标签;

基于所述第一分类模型,确定所述训练样本集中的正确样本以及错误样本,并分别对所述正确样本与所述错误样本进行采样,基于采样所得结果对所述第一分类模型进行训练,得到第二分类模型;

确定所述训练样本集中对应的所述第一分类模型的输出结果与所述第二分类模型的输出结果不一致的差异样本,并基于所述差异样本,对所述第二分类模型进行训练,得到第三分类模型;

基于测试样本集,分别对所述第一分类模型、所述第二分类模型以及所述第三分类模型进行测试,并基于测试所得结果,确定所述目标分类模型。

在上述实施例的基础上,本发明实施例中提供的目标分类装置,包括训练样本集确定模块,用于:

对初始样本集中的少数类样本进行过采样,并基于过采样所得结果,确定所述训练样本集;

其中,所述初始样本集包括样本目标的初始描述数据样本,所述初始描述数据样本携带有所述样本目标的属性类别标签。

在上述实施例的基础上,本发明实施例中提供的目标分类装置,所述训练样本集确定模块,具体用于:

对于所述初始样本集中的任一少数类样本,基于所述任一少数类样本与同类别的其他少数类样本之间的距离,确定所述任一少数类样本周围的预设数量个近邻样本;

对所述预设数量个近邻样本进行采样,得到指定数量个采样样本,并基于所述任一少数类样本与每个采样样本,生成新的样本;

基于所述初始样本集以及所述新的样本,确定所述训练样本集。

在上述实施例的基础上,本发明实施例中提供的目标分类装置,所述训练样本集确定模块,还具体用于:

在上述实施例的基础上,本发明实施例中提供的目标分类装置,所述分类模块,用于:

基于所述测试所得结果,采用多数表决的方式,从所述第一分类模型、所述第二分类模型以及所述第三分类模型中确定所述目标分类模型。

在上述实施例的基础上,本发明实施例中提供的目标分类装置,所述初始模型包括随机森林模型、AdaBoost模型、XGBoost模型以及决策树模型中的一种。

具体地,本发明实施例中提供的目标分类装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。

图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行上述各实施例中提供的目标分类方法,该方法包括:获取待分类目标的描述数据;将所述描述数据输入至目标分类模型,得到所述目标分类模型输出的所述待分类目标的最终属性类别;其中,所述目标分类模型基于如下步骤训练得到:基于训练样本集,对初始模型进行训练,得到第一分类模型;所述训练样本集包括样本目标的描述数据样本,所述描述数据样本携带有所述样本目标的属性类别标签;基于所述第一分类模型,确定所述训练样本集中的正确样本以及错误样本,并分别对所述正确样本与所述错误样本进行采样,基于采样所得结果对所述第一分类模型进行训练,得到第二分类模型;确定所述训练样本集中对应的所述第一分类模型的输出结果与所述第二分类模型的输出结果不一致的差异样本,并基于所述差异样本,对所述第二分类模型进行训练,得到第三分类模型;基于测试样本集,分别对所述第一分类模型、所述第二分类模型以及所述第三分类模型进行测试,并基于测试所得结果,确定所述目标分类模型。

此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例中提供的目标分类方法,该方法包括:获取待分类目标的描述数据;将所述描述数据输入至目标分类模型,得到所述目标分类模型输出的所述待分类目标的最终属性类别;其中,所述目标分类模型基于如下步骤训练得到:基于训练样本集,对初始模型进行训练,得到第一分类模型;所述训练样本集包括样本目标的描述数据样本,所述描述数据样本携带有所述样本目标的属性类别标签;基于所述第一分类模型,确定所述训练样本集中的正确样本以及错误样本,并分别对所述正确样本与所述错误样本进行采样,基于采样所得结果对所述第一分类模型进行训练,得到第二分类模型;确定所述训练样本集中对应的所述第一分类模型的输出结果与所述第二分类模型的输出结果不一致的差异样本,并基于所述差异样本,对所述第二分类模型进行训练,得到第三分类模型;基于测试样本集,分别对所述第一分类模型、所述第二分类模型以及所述第三分类模型进行测试,并基于测试所得结果,确定所述目标分类模型。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例中提供的目标分类方法,该方法包括:获取待分类目标的描述数据;将所述描述数据输入至目标分类模型,得到所述目标分类模型输出的所述待分类目标的最终属性类别;其中,所述目标分类模型基于如下步骤训练得到:基于训练样本集,对初始模型进行训练,得到第一分类模型;所述训练样本集包括样本目标的描述数据样本,所述描述数据样本携带有所述样本目标的属性类别标签;基于所述第一分类模型,确定所述训练样本集中的正确样本以及错误样本,并分别对所述正确样本与所述错误样本进行采样,基于采样所得结果对所述第一分类模型进行训练,得到第二分类模型;确定所述训练样本集中对应的所述第一分类模型的输出结果与所述第二分类模型的输出结果不一致的差异样本,并基于所述差异样本,对所述第二分类模型进行训练,得到第三分类模型;基于测试样本集,分别对所述第一分类模型、所述第二分类模型以及所述第三分类模型进行测试,并基于测试所得结果,确定所述目标分类模型。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 电子设备的显示控制方法、装置、电子设备和存储介质
  • 电子设备控制方法及装置、电子设备及存储介质
  • 数据分布存储方法、装置、存储介质及电子设备
  • 存储清理方法、装置、电子设备及存储介质
  • 多版本数据存储管理方法及装置、电子设备、存储介质
  • 目标分类方法、装置、电子设备及存储介质
  • 医学目标分类方法和装置、电子设备和存储介质
技术分类

06120116380353