掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及机器学习模型训练技术领域,尤其涉及一种AUC指标快速计算方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着计算机技术的快速发展,计算机设备也广泛地应用到人们的日常生活当中。一般地,用户通过计算机设备观看视频、看新闻或者玩游戏,计算机设备则通过显示页面将运营商提供的丰富多彩的内容显示给用户。通常地,运营商在显示用户喜好的内容的同时,还会选择性地进行数据推荐,例如广告推荐。然而,对于推荐数据的选择,往往也需要迎合到用户的喜好,这样才能避免用户因对推荐数据的反感而降低对该运营商的粘合度。因此,运营商在进行推荐数据的选择时,一般都需要获取用户的观看或者点击的页面内容信息,然后则通过机器学习模型对用户喜好内容进行预测,然后选择将所述机器学习模型预测出的最高概率的喜好内容,并将该喜好内容所对应的推荐数据推荐到所述用户的显示页面。

然而,用户的喜好一般也会随着时间而改变的,因此,所述机器学习模型也需要随着进行调整,从而达到更精确地预测出用户的喜好内容。现有技术中,通过对用户观看或者点击的页面内容信息,然后对预设的机器学习模型进行预测,从而计算出所述机器学习模型的AUC(Area Under Curve,曲线下面积)指标,然后再根据所述AUC适应性对所述模型进行调整。然而,由于用户在计算机设备上观看或者点击的页面内容信息即样本数据非常庞大,通过现有AUC计算方式计算AUC指标需要耗费太多的硬件资源,效率也不高。

发明内容

有鉴于此,本发明提出一种AUC指标快速计算方法、装置、计算机设备及计算机可读存储介质,能够获取样本数据以及每个样本数据对应的预测概率之后,统计出正样本数据的数量X和负样本数据数量Y;并分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识,其中,所述分桶标识包括桶序号i和桶标签;接着,根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶;最后统计出L1

首先,为实现上述目的,本发明提供一种AUC指标快速计算方法,所述方法包括:

获取样本数据以及每个样本数据对应的预测概率,其中,样本数据包括正样本数据和负样本数据,所述预测概率是识别模型识别出所述样本数据与对应的目标数据的相似概率;统计出正样本数据的数量X和负样本数据数量Y;分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识,其中,所述分桶标识包括桶序号i和桶标签,所述桶标签包括存放正样本数据的桶标签1和存放负样本数据的桶标签0;根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶;统计出L1

优选地,所述方法还包括:通过mapreduce系统将所述样本数据划分到数据分桶,以及统计每个数据分桶中的样本数据的数量。

优选地,所述通过mapreduce系统将所述样本数据划分到数据分桶,以及统计每个数据分桶中的样本数据的数量包括步骤:将桶序号和桶标签设置为key,将数据分桶中的样本数据的数量设置为value;将样本数据输入到mapreduce系统,直接获得包括每个数据分桶的分桶标识和样本数据的数量的输出值

优选地,存放样本数据的数据分桶的数量可以进行调节设置,并且所述数据分桶的数量小于数据样本的数量。

优选地,对每个数据分桶设置桶序号i的步骤包括:获取存放正样本数据或者负样本数据的数据分桶的数量n;将1-n分别作为存放正样本数据和存放负样本数据的数据分桶的桶序号;并将桶序号i与数据分桶的数量n的比值i/n设置为桶序号i对应的数据分桶的概率阈值。

优选地,所述根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶的步骤包括:查找出处于所述数据分桶的概率阈值的波动范围内的预测概率所对应的样本数据,其中,所述波动范围是预先设置的上下浮动区间;将所述样本数据划分到所述数据分桶。

优选地,所述计算规则包括以下公式:

此外,为实现上述目的,本发明还提供一种AUC指标快速计算装置,所述装置包括:

获取模块,用于获取样本数据以及每个样本数据对应的预测概率,其中,样本数据包括正样本数据和负样本数据,所述预测概率是识别模型识别出所述样本数据与对应的目标数据的相似概率;第一统计模块,用于统计出正样本数据的数量X和负样本数据数量Y;建立模块,用于分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识,其中,所述分桶标识包括桶序号i和桶标签,所述桶标签包括存放正样本数据的桶标签1和存放负样本数据的桶标签0;划分模块,用于根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶;第二统计模块,用于统计出L1

进一步地,本发明还提出一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的AUC指标快速计算方法的步骤。

进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的AUC指标快速计算方法的步骤。

相较于现有技术,本发明所提出的AUC指标快速计算方法、装置、计算机设备及计算机可读存储介质,能够获取样本数据以及每个样本数据对应的预测概率之后,统计出正样本数据的数量X和负样本数据数量Y;并分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识,其中,所述分桶标识包括桶序号i和桶标签;接着,根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶;最后统计出L1

附图说明

图1是本发明实施例一可选的应用环境的情景图;

图2是本发明计算机设备一可选的硬件架构的示意图;

图3是本发明AUC指标快速计算装置一实施例的程序模块示意图;

图4是本发明AUC指标快速计算方法一实施例的流程示意图;

图5是图4中步骤S304的具体流程图;

图6是图4中步骤S306的具体流程图;

图7是本发明AUC指标快速计算方法另一实施例的流程示意图;

图8是图7中步骤S606的具体流程图。

附图标记:

本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

参阅图1所示,是本发明实施例一可选的应用环境的情景图;参阅图2所示,是本发明计算机设备1一可选的硬件架构的示意图。

本实施例中,所述计算机设备1可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。所述计算机设备1通过网络接口13连接网络(图2未标出),通过网络连接到数据仓库,其中,所述数据仓库可以是独立的数据服务器,也可以是其他计算机设备中的数据存储单元,或者也可以是所述计算机设备1内部的数据存储单元。当然,在其他实施例中,所述计算机设备1还可以连接到其他终端设备如移动终端(MobileTerminal)、用户设备(User Equipment,UE)、手机(handset)及便携设备(portableequipment),PC端等(图1未示出),通过所述其他终端设备与用户进行数据交互。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System ofMobile communication,GSM)、宽带码分多址(Wideband Code Division MultipleAccess,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

需要指出的是,图2仅示出了具有组件11-13的计算机设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述计算机设备1的内部存储单元,例如该计算机设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述计算机设备1的外部存储设备,例如该计算机设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述计算机设备1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述计算机设备1的操作系统和各类应用软件,例如AUC指标快速计算装置200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述计算机设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述识别模型对应的应用程序,以及运行所述AUC指标快速计算装置200等。在本实施例中,所述AUC指标快速计算装置200是独立于所述识别模型的功能单元,在其他实施例中,所述AUC指标快速计算装置200也可以是所述识别模型中的子功能单元,这里不做限制。

所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述计算机设备1与其他终端设备如移动终端、用户设备、手机及便携设备,PC端,以及数据仓库等之间建立通信连接。

本实施例中,所述计算机设备1内安装并运行有AUC指标快速计算装置200时,当所述AUC指标快速计算装置200运行时,能够获取样本数据以及每个样本数据对应的预测概率之后,统计出正样本数据的数量X和负样本数据数量Y;并分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识,其中,所述分桶标识包括桶序号i和桶标签;接着,根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶;最后统计出L1

至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。

首先,本发明提出一种AUC指标快速计算装置200。

参阅图3所示,是本发明AUC指标快速计算装置200一实施例的程序模块图。

本实施例中,所述AUC指标快速计算装置200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的AUC指标快速计算功能。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,AUC指标快速计算装置200可以被划分为一个或多个模块。例如,在图3中,所述AUC指标快速计算装置200可以被分割成获取模块201、第一统计模块202、建立模块203、划分模块204、第二统计模块205和计算模块206。其中:

所述获取模块201,用于获取样本数据以及每个样本数据对应的预测概率。其中,样本数据包括正样本数据和负样本数据,所述预测概率是识别模型识别出所述样本数据与对应的目标数据的相似概率。

具体地,所述计算机设备1连接到数据仓库,因此可以从所述数据仓库中获取到样本数据以及每个样本数据对应的预测概率。当然,所述数据仓库中的样本数据首先需要输入到识别模型进行识别,在本实施例中,所述识别模型运行在所述计算机设备1上,当然在其他实施例中,所述识别模型也可以是运行在其他计算机设备上。所述识别模型对样本数据进行识别之后,则会将所述样本数据与对应的目标数据的相似概率作为所述样本数据的预测概率返回到数据仓库。例如,当所述识别模型是一个用户行为分析模型来说,那么样本数据则可以是用户对应用页面的点击或者观看的记录;所述用户行为分析模型可以根据这些点击或者观看的记录识别出用户属于特定用户类型的概率,或者说给出所述用户对特定内容的喜好概率,即为预测概率。因此,所述获取模块201可以在所述识别模型返回对所述样本数据的预测概率之后,获取所述样本数据以及每个样本数据对应的预测概率。

所述第一统计模块202,用于统计出正样本数据的数量X和负样本数据数量Y。

具体地,在所述获取模块201获取到所述样本数据之后,所述第一统计模块202则进一步对分析所有样本数据的类型,然后统计出正样本数据的数量X和负样本数据数量Y。在本实施例中,识别模型对于样本数据的识别之后,对于正样本数据会给出所述正样本数据与目标数据的相似概率;对于负样本数据,则会给出所述负样本数据与目标数据的相似概率;这些都是与被识别的样本数据一一关联的,而且,对于正样本数据和负样本数据,都是有相应的标识。因此,所述统计模块202可以根据正样本数据和负样本数据滋生的标识识别并统计出所述正样本数据的数量以及所述负样本数据的数量。

所述建立模块203,用于分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识。其中,所述分桶标识包括桶序号i和桶标签,所述桶标签包括存放正样本数据的桶标签1和存放负样本数据的桶标签0。

具体地,所述计算机设备1还提供一个交互界面给用户设置存放样本数据的数据分桶,然后接收用户输入的存储样本数据的数据分桶的数量建立数据分桶。在本实施例中,存放样本数据的数据分桶的数量可以进行调节设置,并且所述数据分桶的数量小于数据样本的数量。所述数据分桶,可以是描述存储样本数据地址的分区表结构,也可以是特定存储单元。接收到用户输入数据分桶的数量之后,所述建立模块203则分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识,其中,所述分桶标识包括桶序号i和桶标签,所述桶标签包括存放正样本数据的桶标签1和存放负样本数据的桶标签0。在本实施例中,所述建立模块203对每个数据分桶设置桶序号i的步骤包括:首先,获取存放正样本数据或者负样本数据的数据分桶的数量n;然后将1-n分别作为存放正样本数据和存放负样本数据的数据分桶的桶序号。例如,有10万个正样本数据和10万个负样本数据,用户输入的数据分桶的数量为1000,那么所述建立模块203则会分别建立桶序号从1至1000共1000个数据分桶用于存放正样本数据,以及建立桶序号从1至1000共1000个数据分桶用于存放负样本数据。

当然,所述建立模块203在建立数据分桶的时候,还会将桶序号i与数据分桶的数量n的比值i/n设置为桶序号i对应的数据分桶的概率阈值。例如,接续上例,对于桶序号为500的数据分桶,该数据分桶对应的概率阈值为500/1000=0.50。

所述划分模块204,用于根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶。

具体地,所述划分模块204先查找出处于所述数据分桶的概率阈值的波动范围内的预测概率所对应的样本数据,其中,所述波动范围是预先设置的上下浮动区间;接着,再将所述样本数据划分到所述数据分桶。在本实施例中,所述建立模块203在对每个数据分桶设置概率阈值时,还会设置一个波动范围,用于将预测概率不等于概率阈值的样本数据划分到数据分桶中去。例如,当波动范围设置为-0.05~+0.05时,那么对于预测概率为(0.50-0.05)~(0.50+0.05)的样本数据划分到概率阈值为0.50对应的数据分桶中去,即桶序号为500的数据分桶。

所述第二统计模块205,用于统计出L1

具体地,当所述划分模块204将所有的正样本数据划分到存放正样本数据的数据分桶,以及将所有的负样本数据划分到存放负样本数据的数据分桶之后,所述第二统计模块205则统计每个数据分桶所包括的样本数据的数量。在本实施例中,用L表示数据分桶中的样本数据的数量,因此,所述第二统计模块205统计出出L1

值得注意的是,在本实施例中,所述计算机设备1通过所述划分模块204将样本数据划分到对应的数据分桶,以及通过所述第二统计模块205统计出每个数据分桶中样本数据的数量。

当然,在另一实施例中,所述计算机设备1还可以通过mapreduce系统将所述样本数据划分到数据分桶,以及统计每个数据分桶中的样本数据的数量。mapreduce系统是用于映射和归约的编程模型,能够对数据库中数据直接进行分类和统计。具体地,所述计算机设备1通过调用mapreduce系统,然后将所有的样本数据输入到预设的map函数,然后输出输出值。在本实施例中,所述计算机设备1预先对mapreduce系统的map函数进行设置,具体地,将桶序号和桶标签设置为key,将数据分桶中的样本数据的数量设置为value;接着,将样本数据输入到mapreduce系统,就可以直接获得包括每个数据分桶的分桶标识和样本数据的数量的输出值。其中,mapreduce系统对于数据进行规约和统计的技术实现属于现有技术,这里不做赘述。

所述计算模块206,用于根据X、Y、L1

具体地,所述计算规则包括以下公式:

在本实施例中,如果识别模型准确度非常高,那么识别模型对于正样本数据所识别出来的预测概率大于对于负样本数据所识别出来的预测概率,在这种情况下,AUC就是1。然而,实际中的识别模型并不会那么高的准确度,因此,识别模型在对样本数据进行识别时,会存在三种情况:正样本数据的预测概率高于负样本数据的预测概率,这种情况下,识别模型正确的预测了结果给出了有益的信息,也是我们想要模型达成的目的;正样本数据的预测概率等于负样本数据的预测概率,识别模型基本没有给出任何有益信息,但是也没有给出有害的信息;当正样本数据的预测概率低于负样本数据的预测概率,识别模型给出了误判,会让人误把负样本数据当做正样本数据。

因此,对于识别模型识别出来的所有的样本数据,可以构造的正负样本对的数量为X*Y,在这么多对样本对中,可以统计出:识别模型正确的预测了结果给出了有益的信息的次数,记一分;识别模型基本没有给出任何有益信息的次数,记0.5分;识别模型给出了误判的次数,记0分。最后,再除以X*Y是为了归一化,使得AUC介于0到1之间。通过以上方式,所述计算模块206则可以根据X、Y、L1

当所述计算模块206计算出识别模型的AUC指标之后,所述计算机设备1则会根据所述AUC指标对所述识别模型进行适应性调整。其中,根据AUC调整识别模型现有技术中经常使用,这里不做赘述。

从上文可知,所述计算机设备1能够获取样本数据以及每个样本数据对应的预测概率之后,统计出正样本数据的数量X和负样本数据数量Y;并分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识,其中,所述分桶标识包括桶序号i和桶标签;接着,根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶;最后统计出L1

此外,本发明还提出一种AUC指标快速计算方法,所述方法应用于计算机设备。

参阅图4所示,是本发明AUC指标快速计算方法一实施例的流程示意图,包括步骤S300~S310:

步骤S300,获取样本数据以及每个样本数据对应的预测概率。其中,样本数据包括正样本数据和负样本数据,所述预测概率是识别模型识别出所述样本数据与对应的目标数据的相似概率。

具体地,所述计算机设备连接到数据仓库,因此可以从所述数据仓库中获取到样本数据以及每个样本数据对应的预测概率。当然,所述数据仓库中的样本数据首先需要输入到识别模型进行识别,在本实施例中,所述识别模型运行在所述计算机设备上,当然在其他实施例中,所述识别模型也可以是运行在其他计算机设备上。所述识别模型对样本数据进行识别之后,则会将所述样本数据与对应的目标数据的相似概率作为所述样本数据的预测概率返回到数据仓库。例如,当所述识别模型是一个用户行为分析模型来说,那么样本数据则可以是用户对应用页面的点击或者观看的记录;所述用户行为分析模型可以根据这些点击或者观看的记录识别出用户属于特定用户类型的概率,或者说给出所述用户对特定内容的喜好概率,即为预测概率。因此,所述计算机设备可以在所述识别模型返回对所述样本数据的预测概率之后,获取所述样本数据以及每个样本数据对应的预测概率。

步骤S302,统计出正样本数据的数量X和负样本数据数量Y。

具体地,计算机设备获取到所述样本数据之后,还会进一步对分析所有样本数据的类型,然后统计出正样本数据的数量X和负样本数据数量Y。在本实施例中,识别模型对于样本数据的识别之后,对于正样本数据会给出所述正样本数据与目标数据的相似概率;对于负样本数据,则会给出所述负样本数据与目标数据的相似概率;这些都是与被识别的样本数据一一关联的,而且,对于正样本数据和负样本数据,都是有相应的标识。因此,所述计算机设备可以根据正样本数据和负样本数据滋生的标识识别并统计出所述正样本数据的数量以及所述负样本数据的数量。

步骤S304,分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识。其中,所述分桶标识包括桶序号i和桶标签,所述桶标签包括存放正样本数据的桶标签1和存放负样本数据的桶标签0。

具体地,所述计算机设备还提供一个交互界面给用户设置存放样本数据的数据分桶,然后接收用户输入的存储样本数据的数据分桶的数量建立数据分桶。在本实施例中,存放样本数据的数据分桶的数量可以进行调节设置,并且所述数据分桶的数量小于数据样本的数量。所述数据分桶,可以是描述存储样本数据地址的分区表结构,也可以是特定存储单元。接收到用户输入数据分桶的数量之后,所述计算机设备则分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识,其中,所述分桶标识包括桶序号i和桶标签,所述桶标签包括存放正样本数据的桶标签1和存放负样本数据的桶标签0。

请参阅图5所示,在一示例性的实施例中,图4中步骤S304可以包括步骤S400~S404:

步骤S404,获取存放正样本数据或者负样本数据的数据分桶的数量n。

步骤S402,将1-n分别作为存放正样本数据和存放负样本数据的数据分桶的桶序号。

步骤S404,将桶序号i与数据分桶的数量n的比值i/n设置为桶序号i对应的数据分桶的概率阈值。

在本实施例中,所述计算机设备对每个数据分桶设置桶序号i的步骤包括:首先,获取存放正样本数据或者负样本数据的数据分桶的数量n;然后将1-n分别作为存放正样本数据和存放负样本数据的数据分桶的桶序号。例如,有10万个正样本数据和10万个负样本数据,用户输入的数据分桶的数量为1000,那么所述建立模块203则会分别建立桶序号从1至1000共1000个数据分桶用于存放正样本数据,以及建立桶序号从1至1000共1000个数据分桶用于存放负样本数据。

当然,所述计算机设备在建立数据分桶的时候,还会将桶序号i与数据分桶的数量n的比值i/n设置为桶序号i对应的数据分桶的概率阈值。例如,接续上例,对于桶序号为500的数据分桶,该数据分桶对应的概率阈值为500/1000=0.50。

步骤S306,根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶。

请参阅图6所示,在一示例性的实施例中,图4中步骤S306可以包括步骤S500~S502:

步骤S500,查找出处于所述数据分桶的概率阈值的波动范围内的预测概率所对应的样本数据,其中,所述波动范围是预先设置的上下浮动区间。

步骤S502,将所述样本数据划分到所述数据分桶。

具体地,所述计算机设备先查找出处于所述数据分桶的概率阈值的波动范围内的预测概率所对应的样本数据,其中,所述波动范围是预先设置的上下浮动区间;接着,再将所述样本数据划分到所述数据分桶。在本实施例中,所述计算机设备在对每个数据分桶设置概率阈值时,还会设置一个波动范围,用于将预测概率不等于概率阈值的样本数据划分到数据分桶中去。例如,当波动范围设置为-0.05~+0.05时,那么对于预测概率为(0.50-0.05)~(0.50+0.05)的样本数据划分到概率阈值为0.50对应的数据分桶中去,即桶序号为500的数据分桶。

步骤S308,统计出L1

具体地,当所述计算机设备将所有的正样本数据划分到存放正样本数据的数据分桶,以及将所有的负样本数据划分到存放负样本数据的数据分桶之后,则进一步统计每个数据分桶所包括的样本数据的数量。在本实施例中,用L表示数据分桶中的样本数据的数量,因此,所述计算机设备统计出出L1

步骤S310,根据X、Y、L1

具体地,所述计算规则包括以下公式:

在本实施例中,如果识别模型准确度非常高,那么识别模型对于正样本数据所识别出来的预测概率大于对于负样本数据所识别出来的预测概率,在这种情况下,AUC就是1。然而,实际中的识别模型并不会那么高的准确度,因此,识别模型在对样本数据进行识别时,会存在三种情况:正样本数据的预测概率高于负样本数据的预测概率,这种情况下,识别模型正确的预测了结果给出了有益的信息,也是我们想要模型达成的目的;正样本数据的预测概率等于负样本数据的预测概率,识别模型基本没有给出任何有益信息,但是也没有给出有害的信息;当正样本数据的预测概率低于负样本数据的预测概率,识别模型给出了误判,会让人误把负样本数据当做正样本数据。

因此,对于识别模型识别出来的所有的样本数据,可以构造的正负样本对的数量为X*Y,在这么多对样本对中,可以统计出:识别模型正确的预测了结果给出了有益的信息的次数,记一分;识别模型基本没有给出任何有益信息的次数,记0.5分;识别模型给出了误判的次数,记0分。最后,再除以X*Y是为了归一化,使得AUC介于0到1之间。通过以上方式,所述计算机设备则可以根据X、Y、L1

当所述计算机设备计算出识别模型的AUC指标之后,则进一步根据所述AUC指标对所述识别模型进行适应性调整。其中,根据AUC调整识别模型现有技术中经常使用,这里不做赘述。

参阅图7,是本发明AUC指标快速计算方法另一实施例的流程示意图,包括步骤S300~S304,S606和S310。其中,步骤S300~S304和步骤S310与图4所示的实施例的步骤是一样的。步骤S606如下:

步骤S606,通过mapreduce系统将所述样本数据划分到数据分桶,以及统计每个数据分桶中的样本数据的数量,包括L1

参阅图8,在一示例性的实施例中,图7中步骤S606包括步骤S700~S702:

步骤S700,将桶序号和桶标签设置为key,将数据分桶中的样本数据的数量设置为value。

步骤S702,将样本数据输入到mapreduce系统,直接获得包括每个数据分桶的分桶标识和样本数据的数量的输出值

在本实施例中,所述计算机设备通过mapreduce系统将所述样本数据划分到数据分桶,以及统计每个数据分桶中的样本数据的数量。mapreduce系统是用于映射和归约的编程模型,能够对数据库中数据直接进行分类和统计。具体地,所述计算机设备通过调用mapreduce系统,然后将所有的样本数据输入到预设的map函数,然后输出输出值。其中,所述计算机设备预先对mapreduce系统的map函数进行设置,具体地,将桶序号和桶标签设置为key,将数据分桶中的样本数据的数量设置为value;接着,将样本数据输入到mapreduce系统,就可以直接获得包括每个数据分桶的分桶标识和样本数据的数量的输出值。其中,mapreduce系统对于数据进行规约和统计的技术实现属于现有技术,这里不做赘述。

从上文可知,本实施例所提出的AUC指标快速计算方法能够获取样本数据以及每个样本数据对应的预测概率之后,统计出正样本数据的数量X和负样本数据数量Y;并分别为正样本数据和负样本数据建立多个数据分桶,并对每个数据分桶设置分桶标识,其中,所述分桶标识包括桶序号i和桶标签;接着,根据所述预测概率的大小将所述样本数据划分到对应桶序号的数据分桶;最后统计出L1

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术分类

06120112159876