掌桥专利:专业的专利平台
掌桥专利
首页

模型确定方法、装置及存储介质

文献发布时间:2024-04-18 20:01:55


模型确定方法、装置及存储介质

技术领域

本公开涉及通信技术领域,尤其涉及一种模型确定方法、装置及存储介质。

背景技术

目前,在数据资产管理的场景中,为了方便对数据进行管理及存储,需要根据数据的属性特征及敏感程度对数据进行分级分类管理。常见的数据分类方法是通过预设的分级分类模型对数据进行分级分类。

但是,由于数据的属性特征及敏感程度可能随着数据的应用场景不同而变化,因此通过预设的分级分类模型对数据进行分级分类的准确性较低。

发明内容

本公开提供一种模型确定方法、装置及存储介质,解决了相关技术中通过预设的分级分类模型对数据进行分级分类,分级分类的结果的准确性较低的技术问题。

为达到上述目的,本公开采用如下技术方案:

第一方面,提供一种模型确定方法,该方法包括:基于第一数据的第一分级分类结果进行模型训练,确定第一分级分类模型;第一数据为已完成分级分类的数据;根据第二分级分类结果确定第一分级分类模型的准确度;第二分级分类结果为通过第一分级分类模型确定的第二数据的分级分类结果;第二数据为未完成分级分类的数据;基于第一分级分类结果以及第三分级分类结果进行模型训练,确定第二分级分类模型;第三分级分类结果为修正后的第二分级分类结果;根据第四分级分类结果确定第二分级分类模型的准确度;第四分级分类结果为通过第二分级分类模型确定的第三数据的分级分类结果;在第二分级分类模型的准确度大于第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型。

结合上述第一方面,在一种可能的实现方式中,该方法具体包括:基于第二分级分类结果确定第一分级分类模型的第一准确值;第一准确值用于表征第一分级分类模型的准确度;基于第四分级分类结果确定第二分级分类模型的第二准确值;第二准值确用于表征第二分级分类模型的准确度;在第二分级分类模型的第二准确值大于第一分级分类模型的第一准确值的情况下,确定第二分级分类模型为目标分级分类模型。

结合上述第一方面,在一种可能的实现方式中,该方法还包括:基于第二分级分类结果确定第一分级分类模型的第一接受者操作特征曲线ROC曲线;基于第四分级分类结果确定第二分级分类模型的第二ROC曲线;确定第一ROC曲线的AUC值以及第二ROC曲线的第二AUC值;在第二AUC值大于第一AUC值的情况下,确定第二分级分类模型为目标分级分类模型。

结合上述第一方面,在一种可能的实现方式中,该方法还包括:将待分级分类数据输入目标分级分类模型;确定待分级分类数据的第五分级分类结果。

第二方面,提供一种模型确定装置,该装置包括:处理单元;处理单元用于:基于第一数据的第一分级分类结果进行模型训练,确定第一分级分类模型;第一数据为已完成分级分类的数据;根据第二分级分类结果确定第一分级分类模型的准确度;第二分级分类结果为通过第一分级分类模型确定的第二数据的分级分类结果;第二数据为未完成分级分类的数据;基于第一分级分类结果以及第三分级分类结果进行模型训练,确定第二分级分类模型;第三分级分类结果为修正后的第二分级分类结果;根据第四分级分类结果确定第二分级分类模型的准确度;第四分级分类结果为通过第二分级分类模型确定的第三数据的分级分类结果;在第二分级分类模型的准确度大于第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型。

结合上述第二方面,在一种可能的实现方式中,处理单元,具体用于基于第二分级分类结果确定第一分级分类模型的第一准确值;第一准确值用于表征第一分级分类模型的准确度;基于第四分级分类结果确定第二分级分类模型的第二准确值;第二准值确用于表征第二分级分类模型的准确度;在第二分级分类模型的第二准确值大于第一分级分类模型的第一准确值的情况下,确定第二分级分类模型为目标分级分类模型。

结合上述第二方面,在一种可能的实现方式中,处理单元,还用于基于第二分级分类结果确定第一分级分类模型的第一接受者操作特征曲线ROC曲线;基于第四分级分类结果确定第二分级分类模型的第二ROC曲线;确定第一ROC曲线的AUC值以及第二ROC曲线的第二AUC值;在第二AUC值大于第一AUC值的情况下,确定第二分级分类模型为目标分级分类模型。

结合上述第二方面,在一种可能的实现方式中,处理单元,还用于将待分级分类数据输入目标分级分类模型;确定待分级分类数据的第五分级分类结果。

第三方面,提供一种模型确定装置,包括:处理器以及存储器;其中,存储器用于存储计算机执行指令,当模型确定装置运行时,处理器执行存储器存储的计算机执行指令,以使模型确定装置执行如上述第一方面及其任一种可能的实现方式中记载的模型确定方法。

第四方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机可读存储介质中的指令由模型确定装置的处理器执行时,以使模型确定装置执行如上述第一方面及其任一种可能的实现方式中记载的模型确定方法。

第五方面,提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如上述第一方面及其任一种可能的实现方式中记载的模型确定方法。

在本公开中,上述模型确定装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似,属于本公开及其等同技术的范围之内。

本公开提供的技术方案至少带来以下有益效果:本公开中模型确定装置首先基于第一数据的第一分级分类结果进行模型训练,确定第一分级分类模型;第一数据为已完成分级分类的数据;即基于已进行分级分类的数据进行模型训练确定了第一分级分类模型;然后根据第二分级分类结果确定第一分级分类模型的准确度;第二分级分类结果为通过第一分级分类模型确定的第二数据的分级分类结果;第二数据为未完成分级分类的数据;并基于第一分级分类结果以及第三分级分类结果进行模型训练,确定第二分级分类模型;第三分级分类结果为修正后的第二分级分类结果;即通过第一分级分类结果以及修正后的第二分级分类结果进行模型训练,对分级分类模型进行更新,确定了第二分级分类模型;根据第四分级分类结果确定第二分级分类模型的准确度;第四分级分类结果为通过第二分级分类模型确定的第三数据的分级分类结果;在第二分级分类模型的准确度大于第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型,即通过确定第二分级分类模型的准确度进行验证,在第二分级分类模型的准确度较高的情况下,确定第二分级分类模型为目标分级分类模型,从而提高了分级分类的准确性,解决了通过预设的分级分类模型对数据进行分级分类的准确性较的技术问题。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本公开实施例提供的一种模型确定系统结构示意图;

图2为本公开实施例提供的一种模型确定装置的硬件结构示意图;

图3为本公开实施例提供的一种模型确定方法的流程示意图;

图4为本公开实施例提供的又一种模型确定方法的流程示意图;

图5为本公开实施例提供的又一种模型确定方法的流程示意图;

图6为本公开实施例提供的又一种模型确定方法的流程示意图;

图7为本公开实施例提供的一种模型确定装置的结构示意图。

具体实施方式

下面结合附图对本公开实施例提供的一种模型确定方法、装置及存储介质进行详细地描述。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。

本公开的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。

此外,本公开的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是,本公开实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本公开实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本公开的描述中,除非另有说明,“多个”的含义是指两个或两个以上。

以下,对本公开实施例涉及的名词进行解释,以方便读者理解。

1.F1值

F1值即F1分数,是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。是精确率和召回率的调和均值,即F1值=正确率*召回率*2/(正确率+召回率),相当于精确率和召回率的综合评价指标,它的最大值是1,最小值是0。准确率的定义是预测正确的结果占总样本的百分比,其公式如下:准确率=(TP+TN)/(TP+TN+FP+FN);虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,不能作为很好的指标来衡量结果。精准率又叫查准率,它的含义是在所有被预测为正的样本中实际为正的样本的概率,其公式如下:精准率=TP/(TP+FP)精准率代表对正样本结果中的预测准确程度,而准确率则代表整体的预测准确程度,既包括正样本,也包括负样本。召回率又叫查全率,它的含义是在实际为正的样本中被预测为正样本的概率,其公式如下:精准率=TP/(TP+FN),示例性的:TP(正确预测正例):预测为1,预测正确,即实际为1;FP(错误预测反例):预测为1,预测错误,即实际为0;FN(错误预测反例):预测为0,预测错误,即实际为1;TN(正确预测反例):预测为0,预测正确,即实际为0。F1值越大,分级分类模型的准确性越高。

2.ROC曲线下与坐标轴围成的面积(area under curve,AUC)值。

AUC值是用于衡量分类模型性能的指标,ROC曲线描述了模型在不同阈值下的真正例率和假正例率之间的关系。AUC值越大,分级分类模型的准确率越高。

目前,在数据资产管理的场景中,需要对数据进行分类分级;数据分类即是把相同属性或特征的数据进行归集,形成不同的类别进行存储,从而方便相关人员对分类后的数据进行查询、识别、管理、保护和使用。常见的数据分类方法是通过如行业维度、业务领域维度、数据来源维度、共享维度。数据开放等维度将具有相同属性或特征的数据根据预设的规则进行归类;而数据分级是从安全合规性要求、数据保护要求的角度出发,数据分级本质上就是数据敏感维度的数据分类。常见的数据分级方法是根据数据的敏感程度和数据遭到篡改、破坏、写了或非法利用后的负面影响的大小,根据预设的规则进行分级。且数据分类分级当中,数据分级应该基于分类的结果进行处理,两个不应该独立分开处理,在数据资产管理的场景中,为了方便对数据进行管理及存储,需要根据数据的属性特征及敏感程度对数据进行分级分类管理。常见的数据分类方法是通过预设的分级分类模型对数据进行分级分类。但是,由于数据的属性特征及敏感程度可能随着数据的应用场景不同而变化,因此通过预设的分级分类模型对数据进行分级分类的准确性较低。

为了解决上述技术问题,本公开提供了一种模型确定方法、装置及存储介质,用于解决通过预设的分级分类模型对数据进行分级分类的准确性较低的技术问题。该方法包括:基于第一数据的第一分级分类结果进行模型训练,确定第一分级分类模型;第一数据为已完成分级分类的数据;即基于已进行分级分类的数据进行模型训练确定了第一分级分类模型;然后根据第二分级分类结果确定第一分级分类模型的准确度;第二分级分类结果为通过第一分级分类模型确定的第二数据的分级分类结果;第二数据为未完成分级分类的数据;并基于第一分级分类结果以及第三分级分类结果进行模型训练,确定第二分级分类模型;第三分级分类结果为修正后的第二分级分类结果;即通过第一分级分类结果以及修正后的第二分级分类结果进行模型训练,对分级分类模型进行更新,确定了第二分级分类模型;根据第四分级分类结果确定第二分级分类模型的准确度;第四分级分类结果为通过第二分级分类模型确定的第三数据的分级分类结果;在第二分级分类模型的准确度大于第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型,即通过确定第二分级分类模型的准确度进行验证,在第二分级分类模型的准确度较高的情况下,确定第二分级分类模型为目标分级分类模型,从而提高了分级分类的准确性,解决了通过预设的分级分类模型对数据进行分级分类的准确性较的技术问题。

一种可能的实现方式中,上述模型确定方法可以应用于模型确定系统100中。以下,结合图1对本申请实施例提供的一种模型确定系统100进行详细说明。如图1所示,图1为本公开实施例提供的一种模型确定系统100,该系统包括:数据分级分类模型设备101、模型确定装置102。

其中,数据分级分类模型设备101用于进行模型训练,数据分级分类模型设备101中包括至少一个数据分级分类模型,数据分级分类模型包括数据分类模块以及数据分级模块。

一种可能的实现方式中,数据分类模块包括数据分类训练子模块、数据分类识别子模块、数据分类审核子模块、数据分类结果管理子模块,数据分类训练子模基于FastText模型进行数据分类,数据分类训练子模用于管理数据分类标准相关信息,数据分类审核子模块对数据分类结果进行审核并进行修正,数据分类管理子模块对完成分类的数据进行存储,为数据分级模块提供分类数据。

一种可能的实现方式中,数据分级模块包括数据分级训练子模块、数据分级识别子模块、数据分级判定子模块、数据分级结果管理子模块,数据分级训练子模块基于数据分类的结果和T-ULRv6模型进行数据分级训练,数据分级识别子模块对数据进行对应的数据分级识别,数据分级判定子模块用于对数据分级识别结果进行审核判定并进行修正;数据分级管理子模块用于对数据进行不同等级的储存管理。

模型确定装置102用于确定第一分级分类模型;并基于第二分级分类结果确定第一分级分类模型的准确度;第二分级分类结果为通过第一分级分类模型确定的第二数据的分级分类结果;第二数据为未完成分级分类的数据;以及确定第二分级分类模型;第二分级分类模型为基于第一分级分类结果以及第三分级分类结果,进行模型训练确定的分级分类模型;第三分级分类结果为修正后的第二分级分类结果;即通过第一分级分类结果以及修正后的第二分级分类结果进行模型训练,对分级分类模型进行更新,确定了第二分级分类模型;基于第四分级分类结果确定第二分级分类模型的准确度;第四分级分类结果为通过第二分级分类模型确定的第三数据的分级分类结果;在第二分级分类模型的准确度大于第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型。

一种可能的实现方式中,上述模型确定系统100中的模型确定装置102的硬件结构包括图2所示的模型确定装置200所包括的元件,下面以图2所示的模型确定装置200为例介绍模型确定装置102的硬件结构。如图2所示,该模型确定装置200包括至少一个处理器201,通信线路202,以及至少一个通信接口204,还可以包括存储器203。其中,处理器201,存储器203以及通信接口204三者之间可以通过通信线路202连接。

处理器201可以是一个中央处理器(central processing unit,CPU),也可以是特定集成电路(application specific integrated circuit,ASIC),或者是被配置成实施本公开实施例的一个或多个集成电路,例如:一个或多个数字信号处理器(digital signalprocessor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)。

通信线路202可以包括一通路,用于在上述组件之间传送信息。

通信接口204,用于与其他设备或通信网络通信,可以使用任何收发器一类的装置,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless localarea networks,WLAN)等。

存储器203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于包括或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

一种可能的设计中,存储器203可以独立于处理器201存在,即存储器203可以为处理器201外部的存储器,此时,存储器203可以通过通信线路202与处理器201相连接,用于存储执行指令或者应用程序代码,并由处理器201来控制执行,实现本公开下述实施例提供的模型确定方法。又一种可能的设计中,存储器203也可以和处理器201集成在一起,即存储器203可以为处理器201的内部存储器,例如,该存储器203为高速缓存,可以用于暂存一些数据和指令信息等。

作为一种可实现方式,处理器201可以包括一个或多个CPU,例如图2中的CPU0和CPU1。作为另一种可实现方式,模型确定装置200可以包括多个处理器,例如图2中的处理器201和处理器207。作为再一种可实现方式,模型确定装置200还可以包括输出设备205和输入设备206。

以下,对本公开实施例提供的模型确定方法进行详细说明。

如图3所示,图3为本公开实施例提供的模型确定方法,该方法可以应用于如图2所示的模型确定装置中,该方法包括以下S301-S305,以下进行详细说明。

S301、模型确定装置基于第一数据的第一分级分类结果进行模型训练,确定第一分级分类模型。

其中,第一数据为已完成分级分类的数据。

一种可能的实现方式中,模型确定装置基于已完成分级分类的数据通过FastText模型进行模型训练,确定第一分级分类模型。

示例性的,第一数据如以下表一所示。

表一第一数据

可以理解的是,第一分级分类模型即为预设的分级分类模型。

S302、模型确定装置根据第二分级分类结果确定第一分级分类模型的准确度。

其中,第二分级分类结果为通过第一分级分类模型确定的第二数据的分级分类结果;第二数据为未完成分级分类的数据。

一种可能的实现方式中,模型确定装置基于第一分级分类模型对待分级分类数据进行分级分类,确定第二数据的分级分类结果;并基于第二数据的第二分级分类结果确定第一分级分类模型的准确度。

S303、模型确定装置基于第一分级分类结果以及第三分级分类结果进行模型训练,确定第二分级分类模型。

其中,第三分级分类结果为修正后的第二分级分类结果。

一种可能的实现方式中,模型确定装置基于修正后的第二分级分类结果,即基于人工审核修改后的第二数据的分级分类结果以及第一分级分类结果进行模型训练,确定第二分级分类模型。

可以理解的是,第二数据的第二分级分类结果可能由于模型准确度问题存在误差,第三分级分类结果即是经过审核修改后的第二分级分类结果。

S304、模型确定装置根据第四分级分类结果确定第二分级分类模型的准确度。

其中,第四分级分类结果为通过第二分级分类模型确定的第三数据的分级分类结果。

一种可能的实现方式中,模型确定装置基于第二分级分类模型对第三数据进行分级分类,确定第四分级分类结果,并基于第四分级分类结果确定第二分级分类模型的准确度。

S305、模型确定装置在第二分级分类模型的准确度大于第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型。

一种可能的实现方式中,模型确定装置以F1值以及AUC值表征第一分级分类模型的准确度与第二分级分类模型的准确度。

上述实施例提供的技术方案至少能够带来以下有益效果:首先基于第一数据的第一分级分类结果进行模型训练,确定第一分级分类模型;第一数据为已完成分级分类的数据;即基于已进行分级分类的数据进行模型训练确定了第一分级分类模型;然后根据第二分级分类结果确定第一分级分类模型的准确度;第二分级分类结果为通过第一分级分类模型确定的第二数据的分级分类结果;第二数据为未完成分级分类的数据;并基于第一分级分类结果以及第三分级分类结果进行模型训练,确定第二分级分类模型;第三分级分类结果为修正后的第二分级分类结果;即通过第一分级分类结果以及修正后的第二分级分类结果进行模型训练,对分级分类模型进行更新,确定了第二分级分类模型;根据第四分级分类结果确定第二分级分类模型的准确度;第四分级分类结果为通过第二分级分类模型确定的第三数据的分级分类结果;在第二分级分类模型的准确度大于第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型,即通过确定第二分级分类模型的准确度进行验证,在第二分级分类模型的准确度较高的情况下,确定第二分级分类模型为目标分级分类模型,从而提高了分级分类的准确性,解决了通过预设的分级分类模型对数据进行分级分类的准确性较的技术问题。

一种可能的实现方式中,结合图3,如图4所示,上述S305、模型确定装置在第二分级分类模型的准确度大于第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型的过程,具体可以通过以下S401-S403实现,以下进行详细说明。

S401、模型确定装置基于第二分级分类结果确定第一分级分类模型的第一准确值。

其中,第一准确值用于表征第一分级分类模型的准确度值。

一种可能的实现方式中,第一准确值为第一分级分类模型的第一F1值,模型确定装置计算第二分级分类结果的精确率以及第二分级分类结果的召回率,并基于精确率和召回率确定第一分级分类模型的第一F1值。

示例性的,精确率是指分类模型预测为正类的样本中实际为正类的比例,精准率满足以下公式1:

精确率 = TP / (TP + FP)公式1

其中,TP表示预测为正类且实际为正类的结果的数量,FP表示预测为正类但实际为负类的结果的数量。

召回率是指分类模型成功捕捉到的正类样本的比例,召回率满足以下公式2:

召回率=TP/(TP+FN)公式2

F1值是精确率和召回率的调和平均值,F1值满足以下公式3:

F1值=2*(精确率*召回率)/(精确率+召回率)公式3

S402、模型确定装置基于第四分级分类结果确定第二分级分类模型的第二准确值。

其中,第二准值确用于表征第二分级分类模型的准确度。

一种可能的实现方式中,第二准值确为第二分级分类模型的第二F1值,准确度模型确定装置计算第四分级分类结果的精确率以及第二分级分类结果的召回率,并基于精确率和召回率确定第二分级分类模型的第二F1值。

S403、模型确定装置在第二分级分类模型的第二准确值大于第一分级分类模型的第一准确值的情况下,确定第二分级分类模型为目标分级分类模型。

可以理解的是,模型确定装置在第二分级分类模型的第一F1值大于第一分级分类模型的第二F1值的情况下,确定第二分级分类模型的准确度高于第一分级分类模型。

上述实施例提供的技术方案至少能够带来以下有益效果:模型确定装基于第二分级分类结果确定第一分级分类模型的第一F1值,以及基于第四分级分类结果确定第二分级分类模型的第二F1值,并确定了F1值较高,即准确度较高的分级分类模型为目标分级分类模型。

一种可能的实现方式中,如图5所示,在第二分级分类模型的第二准确值等于第一分级分类模型的第一准确值的情况下,还需要基于第一分级分类模型的AUC值与第二分级分类模型的AUC值确定目标分级分类模型,该过程具体可以通过以下S501-S504实现,以下进行详细说明。

S501、模型确定装置基于第二分级分类结果确定第一分级分类模型的第一ROC曲线。

一种可能的实现方式中,模型确定装置确定第二分级分类结果的真正率,即真样本中被判断为真的概率。以及第二分级分类结果的假正率,即假样本中被误判为真的概率;以真正率为纵坐标,假正率为横坐标构建第一分级分类模型的第一ROC曲线。

S502、模型确定装置基于第二分级分类结果确定第二分级分类模型的第二ROC曲线。

一种可能的实现方式中,模型确定装置确定第四分级分类结果的真正率,即真样本中被判断为真的概率。以及第四分级分类结果的假正率,即假样本中被误判为真的概率;以真正率为纵坐标,假正率为横坐标构建第二分级分类模型的第二ROC曲线。

S503、模型确定装置确定第一ROC曲线的第一AUC值以及第二ROC曲线的第二AUC值。

其中,第一ROC曲线的第一AUC值为第一ROC曲线与坐标轴围成的面积;第二ROC曲线的第二AUC值为第二ROC曲线与坐标轴围成的面积。

S504、模型确定装置在第二AUC值大于第一AUC值的情况下,确定第二分级分类模型为目标分级分类模型。

一种可能的实现方式中,AUC值用于表征分级分类模型的准确度。

可以理解的是,模型确定装置在第二AUC值大于第一AUC值的情况下,即确定第二分级分类模型的准确度大于第一分级分类模型,此时模型确定装置确定第二分级分类模型为目标分级分类模型。

上述实施例提供的技术方案至少能够带来以下有益效果:模型确定装置基于第二分级分类结果确定第一分级分类模型的第一ROC曲线,以及基于第四分级分类结果确定第二分级分类模型的第二ROC曲线;并确定了第一ROC曲线的第一AUC值以及第二ROC曲线的第二AUC值,在第二AUC值大于第一AUC值的情况下,即在第二分级分类模型的准确度高于第第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型。

一种可能的实现方式中,结合图4,如图6所示,在上述S403、模型确定装置在第二分级分类模型的第二准确值大于第一分级分类模型的第一准确值的情况下,确定第二分级分类模型为目标分级分类模型后,还需要对待分级分类数据进行分级分类,该过程具体可以通过以下S601-S602实现,以下进行详细说明。

S601、模型确定装置将待分级分类数据输入目标分级分类模型。

一种可能的实现方式中,模型确定装置模型将待分级分类数据输入目标分级分类模型中进行分级分类,确定第五分级分类结果。

S602、模型确定装置确定待分级分类数据的第五分级分类结果。

上述实施例提供的技术方案至少能够带来以下有益效果:模型确定装置基于准确度较高的目标分级分类模型对待分级分类数据进行分级分类,确定第五分级分类结果,从而提高了分级分类的准确性,解决了通过预设的分级分类模型对数据进行分级分类的准确性较的技术问题。

可以看出,上述主要从方法的角度对本公开实施例提供的技术方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对模型确定装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

一种可能的实现方式中,如图7所示,图7为本公开提供的一种模型确定装置700的结构示意图。

该模型确定装置700,包括:处理单元701;处理单元701用于:基于第一数据的第一分级分类结果进行模型训练,确定第一分级分类模型;第一数据为已完成分级分类的数据;根据第二分级分类结果确定第一分级分类模型的准确度;第二分级分类结果为通过第一分级分类模型确定的第二数据的分级分类结果;第二数据为未完成分级分类的数据;基于第一分级分类结果以及第三分级分类结果进行模型训练,确定第二分级分类模型;第三分级分类结果为修正后的第二分级分类结果;根据第四分级分类结果确定第二分级分类模型的准确度;第四分级分类结果为通过第二分级分类模型确定的第三数据的分级分类结果;在第二分级分类模型的准确度大于第一分级分类模型的准确度的情况下,确定第二分级分类模型为目标分级分类模型。

在一种可能的实现方式中,处理单元701,具体用于基于第二分级分类结果确定第一分级分类模型的第一准确值;第一准确值用于表征第一分级分类模型的准确度;基于第四分级分类结果确定第二分级分类模型的第二准确值;第二准值确用于表征第二分级分类模型的准确度;在第二分级分类模型的第二准确值大于第一分级分类模型的第一准确值的情况下,确定第二分级分类模型为目标分级分类模型。

在一种可能的实现方式中,处理单元701,还用于基于第二分级分类结果确定第一分级分类模型的第一接受者操作特征曲线ROC曲线;基于第四分级分类结果确定第二分级分类模型的第二ROC曲线;确定第一ROC曲线的AUC值以及第二ROC曲线的第二AUC值;在第二AUC值大于第一AUC值的情况下,确定第二分级分类模型为目标分级分类模型。

结合上述第二方面,在一种可能的实现方式中,处理单元701,还用于将待分级分类数据输入目标分级分类模型;确定待分级分类数据的第五分级分类结果。

本公开实施例还提供一种模型确定装置,该模型确定装置包含处理器以及存储器;其中,存储器用于存储计算机执行指令,当模型确定装置运行时,处理器执行存储器存储的计算机执行指令,以使模型确定装置执行本公开实施例所记载的模型确定方法。

本公开的实施例提供一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行上述方法实施例中的模型确定方法。

本公开的实施例提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如上述方法实施例中的模型确定方法。

其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘。随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的人以合适的组合、或者本领域数值的任何其他形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit,ASIC)中。在本公开实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

由于本公开的实施例中的装置、设备、计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本公开实施例在此不再赘述。

以上所示,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何在本公开揭露的技术范围内的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应该以权利要求的保护范围为准。

技术分类

06120116570883