掌桥专利:专业的专利平台
掌桥专利
首页

数据稳定性确定方法、装置和电子设备

文献发布时间:2023-06-19 12:13:22


数据稳定性确定方法、装置和电子设备

技术领域

本申请涉及数据处理技术领域,具体而言,涉及一种数据稳定性确定方法、装置和电子设备。

背景技术

在大数据的应用中,如基于大量的样本数据进行模型训练的过程中,样本数据的稳定性直接影响着训练得到的模型的可靠度。但是,经发明人研究发现,在现有的数据稳定性确定技术中,存在准确度较低的问题。

发明内容

有鉴于此,本申请的目的在于提供一种数据稳定性确定方法、装置和电子设备,以改善基于现有技术确定的数据稳定性的准确度较低的问题。

为实现上述目的,本申请实施例采用如下技术方案:

一种数据稳定性确定方法,应用于电子设备,所述数据稳定性确定方法包括:

获取第一样本数据集和第二样本数据集,其中,所述第一样本数据集包括多条第一样本数据,所述第二样本数据集包括多条第二样本数据,所述第一样本数据和所述第二样本数据之间具有相关关系;

对所述第一样本数据集和所述第二样本数据集分别进行等分位点划分,以得到多个第一样本数据子集和多个第二样本数据子集,其中,所述第一样本数据子集的数量与所述第二样本数据子集的数量相同,且所述第一样本数据子集与所述第二样本数据子集之间具有一一对应关系;

针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集包括的分位点值进行稳定性惩罚计算,得到该组第一样本数据子集和第二样本数据子集对应的惩罚值;

针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集分别包括的第一样本数据和第二样本数据的数量进行数量差异计算,得到该组第一样本数据子集和第二样本数据子集对应的数量占比差异值;

基于每一组第一样本数据子集和第二样本数据子集对应的惩罚值和数量占比差异值,计算得到所述第一样本数据集和所述第二样本数据集之间的稳定性表征值,其中,在所述第一样本数据集作为基准样本数据集时,所述稳定性表征值用于判断所述第二样本数据集包括的多条第二样本数据是否作为训练目标模型的样本数据。

在本申请实施例较佳的选择中,在上述数据稳定性确定方法中,所述获取第一样本数据集和第二样本数据集的步骤包括:

获取两个样本数据集,并判断所述两个样本数据集之间是否具有相关关系,其中,具有相关关系的两个样本数据集分别基于不同的目标对象采集得到,或者,分别基于不同时间和/或场景下对相同的目标对象采集得到;

若所述两个样本数据集之间具有相关关系,则将所述两个样本数据集分别作为第一样本数据集和第二样本数据集。

在本申请实施例较佳的选择中,在上述数据稳定性确定方法中,所述对所述第一样本数据集和所述第二样本数据集分别进行等分位点划分,以得到多个第一样本数据子集和多个第二样本数据子集的步骤,包括:

基于等频分箱规则将所述第一样本数据集分割为多个样本数据子集;

针对所述多个样本数据子集中的每两个样本数据子集,判断该两个样本数据子集之间包括的第一样本数据是否相同;

对包括的第一样本数据相同的两个样本数据子集进行合并处理,并将每一个合并的样本数据子集和每一个与其它样本数据子集包括的第一样本数据不同的样本数据子集,作为第一样本数据子集。

在本申请实施例较佳的选择中,在上述数据稳定性确定方法中,所述对所述第一样本数据集和所述第二样本数据集分别进行等分位点划分,以得到多个第一样本数据子集和多个第二样本数据子集的步骤,还包括:

针对每一个所述第一样本数据子集,基于该第一样本数据子集包括的第一样本数据的取值形成对应的取值区间;

针对每一个所述取值区间,基于所述第二样本数据集中取值属于该取值区间的每一条第二样本数据构建一个第二样本数据子集,并将该第二样本数据子集与该取值区间对应的第一样本数据子集建立对应关系。

在本申请实施例较佳的选择中,在上述数据稳定性确定方法中,所述针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集包括的分位点值进行稳定性惩罚计算,得到该组第一样本数据子集和第二样本数据子集对应的惩罚值的步骤,包括:

针对对应的每一组第一样本数据子集和第二样本数据子集,确定该组第一样本数据子集和第二样本数据子集包括的多个第一分位点值和多个第二分位点值,其中,所述多个第一分位点值基于所述第一样本数据子集得到,所述多个第二分位点值基于所述第二样本数据子集得到,且所述第一分位点值与所述第二分位点值之间具有一一对应关系;

分别基于所述第一分位点值和所述第二分位点值所在的样本数据子集对应的取值区间,对每一个所述第一分位点值和每一个所述第二分位点值进行归一化处理,得到对应的第一分位点归一化值和第二分位点归一化值;

针对对应的每一组第一分位点归一化值和第二分位点归一化值,计算该组第一分位点归一化值和第二分位点归一化值之间的差距值;

针对对应的每一组第一样本数据子集和第二样本数据子集,对该组第一样本数据子集和第二样本数据子集对应的多个差距值进行均值计算,得到该组第一样本数据子集和第二样本数据子集对应的惩罚值。

在本申请实施例较佳的选择中,在上述数据稳定性确定方法中,所述针对对应的每一组第一分位点归一化值和第二分位点归一化值,计算该组第一分位点归一化值和第二分位点归一化值之间的差距值的步骤,包括:

针对对应的每一组第一分位点归一化值和第二分位点归一化值,计算该组第一分位点归一化值和第二分位点归一化值之间的差值和比例值,得到对应的第一差值和第一比例值;

针对每一个所述第一比例值,计算该第一比例值以自然常数为底数的对数函数值,得到对应的第一对数函数值;

针对对应的每一组第一分位点归一化值和第二分位点归一化值,将该组第一分位点归一化值和第二分位点归一化值对应的所述第一差值和所述第一对数函数值相乘,得到该组第一分位点归一化值和第二分位点归一化值之间的差距值。

在本申请实施例较佳的选择中,在上述数据稳定性确定方法中,所述针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集分别包括的第一样本数据和第二样本数据的数量进行数量差异计算,得到该组第一样本数据子集和第二样本数据子集对应的数量占比差异值的步骤,包括:

针对对应的每一组第一样本数据子集和第二样本数据子集,计算该组第一样本数据子集和第二样本数据子集分别包括的第一样本数据和第二样本数据的数量之间的差值和比例值,得到对应的第二差值和第二比例值;

针对每一个所述第二比例值,计算该第二比例值以自然常数为底数的对数函数值,得到对应的第二对数函数值;

针对对应的每一组第一样本数据子集和第二样本数据子集,将该组第一样本数据子集和第二样本数据子集对应的所述第二差值和所述第二对数函数值相乘,得到该组第一样本数据子集和第二样本数据子集对应的数量占比差异值。

在本申请实施例较佳的选择中,在上述数据稳定性确定方法中,所述基于每一组第一样本数据子集和第二样本数据子集对应的惩罚值和数量占比差异值,计算得到所述第一样本数据集和所述第二样本数据集之间的稳定性表征值的步骤,包括:

针对对应的每一组第一样本数据子集和第二样本数据子集,计算该组第一样本数据子集和第二样本数据子集对应的惩罚值和数量占比差异值的乘积,得到对应的差异更新值;

计算每一组第一样本数据子集和第二样本数据子集对应的差异更新值的和值,并将该和值作为所述第一样本数据集和所述第二样本数据集之间的稳定性表征值。

本申请实施例还提供了一种数据稳定性确定装置,应用于电子设备,所述数据稳定性确定装置包括:

样本数据集获取模块,用于获取第一样本数据集和第二样本数据集,其中,所述第一样本数据集包括多条第一样本数据,所述第二样本数据集包括多条第二样本数据,所述第一样本数据和所述第二样本数据之间具有相关关系;

等分位点划分模块,用于对所述第一样本数据集和所述第二样本数据集分别进行等分位点划分,以得到多个第一样本数据子集和多个第二样本数据子集,其中,所述第一样本数据子集的数量与所述第二样本数据子集的数量相同,且所述第一样本数据子集与所述第二样本数据子集之间具有一一对应关系;

稳定性惩罚计算模块,用于针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集包括的分位点值进行稳定性惩罚计算,得到该组第一样本数据子集和第二样本数据子集对应的惩罚值;

数量差异计算模块,用于针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集分别包括的第一样本数据和第二样本数据的数量进行数量差异计算,得到该组第一样本数据子集和第二样本数据子集对应的数量占比差异值;

稳定性表征值计算模块,用于基于每一组第一样本数据子集和第二样本数据子集对应的惩罚值和数量占比差异值,计算得到所述第一样本数据集和所述第二样本数据集之间的稳定性表征值,其中,在所述第一样本数据集作为基准样本数据集时,所述稳定性表征值用于判断所述第二样本数据集包括的多条第二样本数据是否作为训练目标模型的样本数据。

在上述基础上,本申请实施例还提供了一种电子设备,包括:

存储器,用于存储计算机程序;

与所述存储器连接的处理器,用于执行该存储器存储的计算机程序,以实现上述的数据稳定性确定方法。

本申请提供的数据稳定性确定方法、装置和电子设备,通过先将第一样本数据集和第二样本数据集分别划分为多个第一样本数据子集和多个第二样本数据子集,然后,再分别计算多个第一样本数据子集和多个第二样本数据子集之间的惩罚值和多个第一样本数据子集和多个第二样本数据子集之间的数量占比差异值,使得可以结合惩罚值和数量占比差异值确定第一样本数据集和第二样本数据集之间的稳定性表征值。基于此,相较于仅基于数量占比差异值来确定数据集之间的稳定性的常规技术方案,采用本申请提供的技术方案,由于确定稳定性表征值的依据增加,更为全面充分,因而可以提高确定的稳定性的准确度,从而改善基于现有技术确定的数据稳定性的准确度较低的问题。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

图1为本申请实施例提供的电子设备的结构框图。

图2为本申请实施例提供的数据稳定性确定方法的流程示意图。

图3为本申请实施例提供的数据稳定性确定装置的方框示意图。

图标:10-电子设备;12-存储器;14-处理器;100-数据稳定性确定装置;110-样本数据集获取模块;120-等分位点划分模块;130-稳定性惩罚计算模块;140-数量差异计算模块;150-稳定性表征值计算模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1所示,本申请实施例提供了一种电子设备10,可以包括存储器12、处理器14和数据稳定性确定装置100。

其中,所述存储器12和处理器14之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据稳定性确定装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中的软件功能模块。所述处理器14用于执行所述存储器12中存储的可执行的计算机程序,例如,所述数据稳定性确定装置100所包括的软件功能模块及计算机程序等,以实现本申请实施例提供的数据稳定性确定方法。

可选地,所述存储器12可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。并且,所述处理器14可以是一种通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)、片上系统(System onChip,SoC)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解,图1所示的结构仅为示意,所述电子设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置,例如,还可以包括用于与其它设备(如数据库服务器)进行信息交互的通信单元。

结合图2,本申请实施例还提供一种可应用于上述电子设备10的数据稳定性确定方法。其中,所述数据稳定性确定方法有关的流程所定义的方法步骤可以由所述电子设备10实现。

下面将对图2所示的具体流程,进行详细阐述。

步骤S110,获取第一样本数据集和第二样本数据集。

在本实施例中,所述电子设备10可以先获取第一样本数据集和第二样本数据集。其中,所述第一样本数据集可以包括多条第一样本数据,所述第二样本数据集可以包括多条第二样本数据,所述第一样本数据和所述第二样本数据之间具有相关关系。

可以理解的是,所述第一样本数据和所述第二样本数据的具体数据类型不受限制,例如,所述第一样本数据和所述第二样本数据可以是指信贷数据,如信贷客户的年龄、收入、欠款金额等。又例如,所述第一样本数据和所述第二样本数据也可以是指目标产品的用户信息,如用户的年龄、收入等,该目标产品既可以是指物理产品,如电子产品、化妆品、食品等,也可以是指虚拟网络产品,如游戏虚拟装备等。

步骤S120,对所述第一样本数据集和所述第二样本数据集分别进行等分位点划分,以得到多个第一样本数据子集和多个第二样本数据子集。

在本实施例中,在基于步骤S110获取到所述第一样本数据集和所述第二样本数据集之后,所述电子设备10可以对所述第一样本数据集和所述第二样本数据集分别进行等分位点划分,如此,可以得到所述第一样本数据集对应的多个第一样本数据子集和所述第二样本数据集对应的多个第二样本数据子集。其中,所述第一样本数据子集的数量与所述第二样本数据子集的数量相同,且所述第一样本数据子集与所述第二样本数据子集之间具有一一对应关系。

步骤S130,针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集包括的分位点值进行稳定性惩罚计算,得到该组第一样本数据子集和第二样本数据子集对应的惩罚值。

在本实施例中,在基于步骤S120得到所述多个第一样本数据子集和所述多个第二样本数据子集之后,所述电子设备10可以针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集包括的分位点值进行稳定性惩罚计算,得到该组第一样本数据子集和第二样本数据子集对应的惩罚值,如此,可以得到多个惩罚值。

步骤S140,针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集分别包括的第一样本数据和第二样本数据的数量进行数量差异计算,得到该组第一样本数据子集和第二样本数据子集对应的数量占比差异值。

在本实施例中,在基于步骤S120得到所述多个第一样本数据子集和所述多个第二样本数据子集之后,所述电子设备10可以针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集分别包括的第一样本数据和第二样本数据的数量进行数量差异计算,得到该组第一样本数据子集和第二样本数据子集对应的数量占比差异值,如此,可以得到多个数量占比差异值。

步骤S150,基于每一组第一样本数据子集和第二样本数据子集对应的惩罚值和数量占比差异值,计算得到所述第一样本数据集和所述第二样本数据集之间的稳定性表征值。

在本实施例中,在基于步骤S130和步骤S140得到所述惩罚值和所述数量占比差异值之后,所述电子设备10可以基于每一组第一样本数据子集和第二样本数据子集对应的惩罚值和数量占比差异值,计算得到所述第一样本数据集和所述第二样本数据集之间的稳定性表征值。

其中,在所述第一样本数据集作为基准样本数据集时,所述稳定性表征值用于判断所述第二样本数据集包括的多条第二样本数据是否作为训练目标模型的样本数据。基于此,在一种可以替代的示例中,在所述第二样本数据集为多个时,所述数据稳定性确定方法还可以包括以下步骤:

首先,可以基于每一个所述第二样本数据集与所述第一样本数据集之间的稳定性表征值,在多个所述第二样本数据集中筛选出稳定性满足预设条件的至少一个目标第二样本数据集,例如,可以筛选出稳定性表征值最小的一个或多个第二样本数据集,作为目标第二样本数据集;

其次,可以基于所述目标第二样本数据集对目标模型进行训练,得到更新后的目标模型,其中,在一种可以替代的示例中,所述目标模型可以是一种神经网络模型,训练方法可以参照相关现有技术,在此不做限定;

然后,基于所述更新后的目标模型对获取的目标数据进行处理,以得到处理结果,其中,所述处理结果基于训练所述目标模型的样本数据和所述目标数据的类型不同,可以不同,例如,若所述样本数据和所述目标数据是如前文所述的信贷数据,所述处理结果可以是指是否通过对应的信贷审核,若所述样本数据和所述目标数据是如前文所述的目标产品的用户信息,则所述处理结果可以是指是否对目标用户进行产品推荐。

也就是说,所述更新后的目标模型可以用于进行判断、预测或推荐等。基于此,由于训练目标模型的目标第二样本数据集具有更好的数据稳定性,使得可以目标模型得到的处理结果也具有更好的可靠性。

基于上述方法,通过先将第一样本数据集和第二样本数据集分别划分为多个第一样本数据子集和多个第二样本数据子集,然后,再分别计算多个第一样本数据子集和多个第二样本数据子集之间的惩罚值和多个第一样本数据子集和多个第二样本数据子集之间的数量占比差异值,使得可以结合惩罚值和数量占比差异值确定第一样本数据集和第二样本数据集之间的稳定性表征值。基于此,相较于仅基于数量占比差异值来确定数据集之间的稳定性的常规技术方案,采用本申请提供的技术方案,由于确定稳定性表征值的依据增加,更为全面充分,因而可以提高确定的稳定性的准确度,从而改善基于现有技术确定的数据稳定性的准确度较低的问题。

并且,由于计算惩罚值的依据是第一样本数据子集和第二样本数据子集包括的分位点值,因而,惩罚值作为确定数据集之间的稳定性的依据是合理有效的,而且,确定的过程中由于依据更多、更为全面,使得确定的结果可以更为准确有效。

可以理解的是,在上述示例中,在执行步骤S110时,可以基于以下步骤以获取到所述第一样本数据集和所述第二样本数据集:

首先,获取两个样本数据集,并判断所述两个样本数据集之间是否具有相关关系,其中,具有相关关系的两个样本数据集分别基于不同的目标对象采集得到,或者,分别基于不同时间和/或场景下对相同的目标对象采集得到,例如,在一种可以替代的示例中,一个样本数据集可以是指10000个用户在第一时间的收入情况,另一个样本数据集可以是指这10000个用户在第二时间的收入情况;或者,一个样本数据集可以是指10000个用户在第一时间的收入情况,另一个样本数据集可以是指其他的10000个用户在第一时间的收入情况;

其次,若所述两个样本数据集之间具有相关关系,则将所述两个样本数据集分别作为第一样本数据集和第二样本数据集。

可以理解的是,在上述示例中,在执行步骤S120时,可以基于以下步骤以得到所述多个第一样本数据子集:

首先,基于等频分箱规则将所述第一样本数据集分割为多个样本数据子集,如此,可以使得每一个所述样本数据子集包括的第一样本数据的数量都相同;

其次,针对所述多个样本数据子集中的每两个样本数据子集,判断该两个样本数据子集之间包括的第一样本数据是否相同;

然后,对包括的第一样本数据相同的两个样本数据子集进行合并处理,并将每一个合并的样本数据子集和每一个与其它样本数据子集包括的第一样本数据不同的样本数据子集,作为第一样本数据子集。

可以理解的是,在上述示例中,在执行步骤S120时,可以基于以下步骤以得到所述多个第二样本数据子集:

首先,针对每一个所述第一样本数据子集,基于该第一样本数据子集包括的第一样本数据的取值形成对应的取值区间;

其次,针对每一个所述取值区间,基于所述第二样本数据集中取值属于该取值区间的每一条第二样本数据构建一个第二样本数据子集,并将该第二样本数据子集与该取值区间对应的第一样本数据子集建立对应关系。

可以理解的是,对于部分所述取值区间,可能所述第二样本数据集中不存在取值属于该取值区间的第二样本数据,如此,可以将该取值区间的上限值作为一条第二样本数据以构建一个第二样本数据子集,如此,可以保证每一个所述第一样本数据子集都对应有一个第二样本数据子集。

并且,通过将取值区间的上限值作为一条第二样本数据,可以使得计算得到的惩罚值可以更大,与第一样本数据集和第二样本数据集之间真实的差异更匹配,从而提高确定的稳定性表征值的可靠度。

可以理解的是,在上述示例中,在执行步骤S130时,可以基于以下步骤以得到每一组第一样本数据子集和第二样本数据子集对应的惩罚值:

首先,针对对应的每一组第一样本数据子集和第二样本数据子集,确定该组第一样本数据子集和第二样本数据子集包括的多个第一分位点值和多个第二分位点值(例如,在一种可以替代的示例中,可以确定9个第一分位点值和9个第二分位点值,如10%、20%、30%、40%、50%、60%、70%、80%和90%这九个分位点的取值,其中,具体确定方法可以参照概率分布中的相关现有技术,在此不再一一赘述),其中,所述多个第一分位点值基于所述第一样本数据子集得到,所述多个第二分位点值基于所述第二样本数据子集得到,且所述第一分位点值与所述第二分位点值之间具有一一对应关系;

其次,分别基于所述第一分位点值和所述第二分位点值所在的样本数据子集对应的取值区间,对每一个所述第一分位点值和每一个所述第二分位点值进行归一化处理(例如,可以将分位点值与取值区间的下限值之间的差值除以取值区间的上限值与下限值之间的差值),得到对应的第一分位点归一化值和第二分位点归一化值;

然后,针对对应的每一组第一分位点归一化值和第二分位点归一化值,计算该组第一分位点归一化值和第二分位点归一化值之间的差距值;

最后,针对对应的每一组第一样本数据子集和第二样本数据子集,对该组第一样本数据子集和第二样本数据子集对应的多个差距值进行均值计算,得到该组第一样本数据子集和第二样本数据子集对应的惩罚值。

可以理解的是,在一种可以替代的示例中,可以基于以下步骤以计算每一组对应的第一分位点归一化值和第二分位点归一化值之间的差距值:

首先,针对对应的每一组第一分位点归一化值和第二分位点归一化值,计算该组第一分位点归一化值和第二分位点归一化值之间的差值和比例值,得到对应的第一差值和第一比例值,例如,该第一差值可以是指第一分位点归一化值和第二分位点归一化值之间的绝对差值,该第一比例值可以是指第一分位点归一化值除以第二分位点归一化值的商值;

其次,针对每一个所述第一比例值,计算该第一比例值以自然常数为底数的对数函数值,得到对应的第一对数函数值;

然后,针对对应的每一组第一分位点归一化值和第二分位点归一化值,将该组第一分位点归一化值和第二分位点归一化值对应的所述第一差值和所述第一对数函数值相乘,得到该组第一分位点归一化值和第二分位点归一化值之间的差距值,例如,该差距值可以是指所述第一差值与所述第一对数函数值的乘积的绝对值。

可以理解的是,在上述示例中,在执行步骤S140时,可以基于以下步骤以得到每一组第一样本数据子集和第二样本数据子集对应的数量占比差异值:

首先,针对对应的每一组第一样本数据子集和第二样本数据子集,计算该组第一样本数据子集和第二样本数据子集分别包括的第一样本数据和第二样本数据的数量之间的差值和比例值,得到对应的第二差值和第二比例值,例如,该第二差值可以是指第一样本数据的数量和第二样本数据的数量之间的绝对差值,该第二比例值可以是指第一样本数据的数量除以第二样本数据的数量的商值;

其次,针对每一个所述第二比例值,计算该第二比例值以自然常数为底数的对数函数值,得到对应的第二对数函数值;

然后,针对对应的每一组第一样本数据子集和第二样本数据子集,将该组第一样本数据子集和第二样本数据子集对应的所述第二差值和所述第二对数函数值相乘,得到该组第一样本数据子集和第二样本数据子集对应的数量占比差异值,例如,该数量占比差异值可以是指所述第二差值与所述第二对数函数值的乘积的绝对值。

可以理解的是,在上述示例中,在执行步骤S150时,可以基于以下步骤得到所述第一样本数据集和所述第二样本数据集之间的稳定性表征值:

首先,针对对应的每一组第一样本数据子集和第二样本数据子集,计算该组第一样本数据子集和第二样本数据子集对应的惩罚值和数量占比差异值的乘积,得到对应的差异更新值;

其次,计算每一组第一样本数据子集和第二样本数据子集对应的差异更新值的和值,并将该和值作为所述第一样本数据集和所述第二样本数据集之间的稳定性表征值。

结合图3,本申请实施例还提供一种可应用于上述电子设备10的数据稳定性确定装置100。其中,所述数据稳定性确定装置100可以包括样本数据集获取模块110、等分位点划分模块120、稳定性惩罚计算模块130、数量差异计算模块140和稳定性表征值计算模块150。

所述样本数据集获取模块110,用于获取第一样本数据集和第二样本数据集,其中,所述第一样本数据集包括多条第一样本数据,所述第二样本数据集包括多条第二样本数据,所述第一样本数据和所述第二样本数据之间具有相关关系。在本实施例中,所述样本数据集获取模块110可用于执行图2所示的步骤S110,关于所述样本数据集获取模块110的相关内容可以参照前文对步骤S110的描述。

所述等分位点划分模块120,用于对所述第一样本数据集和所述第二样本数据集分别进行等分位点划分,以得到多个第一样本数据子集和多个第二样本数据子集,其中,所述第一样本数据子集的数量与所述第二样本数据子集的数量相同,且所述第一样本数据子集与所述第二样本数据子集之间具有一一对应关系。在本实施例中,所述等分位点划分模块120可用于执行图2所示的步骤S120,关于所述等分位点划分模块120的相关内容可以参照前文对步骤S120的描述。

所述稳定性惩罚计算模块130,用于针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集包括的分位点值进行稳定性惩罚计算,得到该组第一样本数据子集和第二样本数据子集对应的惩罚值。在本实施例中,所述稳定性惩罚计算模块130可用于执行图2所示的步骤S130,关于所述稳定性惩罚计算模块130的相关内容可以参照前文对步骤S130的描述。

所述数量差异计算模块140,用于针对对应的每一组第一样本数据子集和第二样本数据子集,基于该组第一样本数据子集和第二样本数据子集分别包括的第一样本数据和第二样本数据的数量进行数量差异计算,得到该组第一样本数据子集和第二样本数据子集对应的数量占比差异值。在本实施例中,所述数量差异计算模块140可用于执行图2所示的步骤S140,关于所述数量差异计算模块140的相关内容可参照前文对步骤S140的描述。

所述稳定性表征值计算模块150,用于基于每一组第一样本数据子集和第二样本数据子集对应的惩罚值和数量占比差异值,计算得到所述第一样本数据集和所述第二样本数据集之间的稳定性表征值,其中,在所述第一样本数据集作为基准样本数据集时,所述稳定性表征值用于判断所述第二样本数据集包括的多条第二样本数据是否作为训练目标模型的样本数据。在本实施例中,所述稳定性表征值计算模块150可用于执行图2所示的步骤S150,关于所述稳定性表征值计算模块150的相关内容可以参照前文对步骤S150的描述。

综上所述,本申请提供的数据稳定性确定,数据稳定性确定方法、装置和电子设备,通过先将第一样本数据集和第二样本数据集分别划分为多个第一样本数据子集和多个第二样本数据子集,然后,再分别计算多个第一样本数据子集和多个第二样本数据子集之间的惩罚值和多个第一样本数据子集和多个第二样本数据子集之间的数量占比差异值,使得可以结合惩罚值和数量占比差异值确定第一样本数据集和第二样本数据集之间的稳定性表征值。基于此,相较于仅基于数量占比差异值来确定数据集之间的稳定性的常规技术方案,采用本申请提供的技术方案,由于确定稳定性表征值的依据增加,更为全面充分,因而可以提高确定的稳定性的准确度,从而改善基于现有技术确定的数据稳定性的准确度较低的问题。

在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 数据稳定性确定方法、装置和电子设备
  • 风场稳定性的确定方法、装置、电子设备及存储介质
技术分类

06120113211320