导航：首页> 有机化学〔2〕>一种数据探查方法和系统、数据挖掘模型更新方法和系统

一种数据探查方法和系统、数据挖掘模型更新方法和系统

文献发布时间：2023-06-19 11:39:06

技术领域

本发明涉及数据处理技术领域，特别是涉及一种数据探查方法和系统、一种数据挖掘模型更新方法和系统、计算机设备及机器可读介质。

背景技术

现如今，大数据表格型数据是机器学习数据挖掘任务的主要输入形式，例如互联网公司、银行、政府数据库、数据仓库中的个人基本信息、人口统计学信息、行为日志、交易流水等等。机器学习数据挖掘模型通常是以这些信息作为输入的训练样本，完成分类、回归或排序任务，最终实现推荐、营销、风控等业务目的。然后，训练出的数据挖掘模型在一定程度上具有时效性，随着时间的推移，新增样本和此前用于建模的样本难免会出现一定程度的分布便宜，导致由原始训练样本拟合训练出的数据挖掘模型不再适用于新增样本。因此，对于训练样本和新增样本，需要这些样本进行数据探查，通过数据探查结果来判断各重要指标特征的分布情况，作为更新数据挖掘模型的判断基础。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种数据探查方法和系统、数据挖掘模型更新方法和系统，用于解决现有技术中存在的技术问题。

为实现上述目的及其他相关目的，本发明提供一种数据探查方法，应用于计算机模型训练过程，包括以下步骤：

对目标数据集进行元信息推导，获取所述目标数据集中所有样本数据的特征类型；

对每个特征类型对应的样本数据进行探查，获取对应的探查结果；所述探查包括以下至少之一：指标探查、数据分布探查。

可选地，若所述样本数据的特征类型包括连续数值型特征和离散型特征，则获取指标探查结果的过程包括：

确定连续数值型特征样本数据的统计指标；

按照确定出的统计指标计算连续数值型特征样本数据的指标值；

根据确定出的统计指标和计算出的指标值对连续数值型特征样本数据进行分箱处理，并统计每个分箱区间内的样本数据占所有样本数据的比例；

将连续数值型特征样本数据进行正样本和负样本区分，并获取每个分箱区间内正样本和负样本的比例，得到连续数值型特征样本数据的指标探查结果；

和/或，确定离散型特征样本数据的统计指标；

按照确定出的统计指标计算出离散型特征样本数据的指标值，得到离散型特征样本数据的指标探查结果。

可选地，还包括根据所述指标探查结果对每个特征类型对应的样本数据进行分布探查，按照分布探查结果形成并显示在目标场景下的分布图像；其中，所述连续数值型特征的目标场景包括二分类场景，所述离散型特征的目标场景包括回归场景。

可选地，若对连续数值型特征样本数据进行分布探查，则有：

对连续数值型特征对应的样本数据进行两两组合，且将每个组合中的其中一个样本数据作为所述分布图像的横轴值，另一个样本数据作为所述分布图像的纵轴值；基于所述横轴值和纵轴值形成样本数据点，并将所述样本数据点填入所述分布图像中显示；

或者，计算任意两个连续数值型特征样本数据之间的距离，根据距离计算结果对所有连续数值型特征样本数据进行聚类，并将聚类后的样本数据填入所述分布图像中显示。

可选地，还包括利用有监督场景下的标签列信息，使用不同颜色在所述分布图像上进行样本标签取值的区分。

可选地，若所述目标数据集中存在时间列，则还包括：

按照所述时间列构建索引，将目标时间范围内的样本数据进行均值聚合，得到时间序列数据集；

基于所述时间序列数据集生成连续数值型特征、离散型特征下的时间序列曲线，并对时间序列曲线中的缺失值进行均值平滑处理。

本发明还提供一种数据挖掘模型更新方法，包括以下步骤：

获取训练数据集和待测试数据集；

利用上述任一所述的数据探查方法对所述训练数据集和所述待测试数据集进行指标探查，获取所述训练数据集中连续数值型特征样本数据的分箱值占比，和所述待测试数据集中连续数值型特征样本数据的分箱值占比；

根据所述训练数据集中连续数值型特征样本数据的分箱值占比、所述待测试数据集中连续数值型特征样本数据的分箱值占比计算所述训练数据集和所述待测试数据集之间的稳定性指标值，并在所述稳定性指标值大于预设阈值时，更新数据挖掘模型；其中，所述数据挖掘模型用于对样本数据进行分类、回归和/或排序。

本发明还提供一种数据探查系统，应用于计算机模型训练过程，包括有：

元信息推导模块，用于对目标数据集进行元信息推导，获取所述目标数据集中所有样本数据的特征类型；

指标探查模块，用于对每个特征类型对应的样本数据进行探查，获取对应的探查结果；所述探查包括以下至少之一：指标探查、数据分布探查。

可选地，若所述样本数据的特征类型包括连续数值型特征和离散型特征，则所述指标探查模块获取指标探查结果的过程包括：

确定连续数值型特征样本数据的统计指标；

按照确定出的统计指标计算连续数值型特征样本数据的指标值；

根据确定出的统计指标和计算出的指标值对连续数值型特征样本数据进行分箱处理，并统计每个分箱区间内的样本数据占所有样本数据的比例；

将连续数值型特征样本数据进行正样本和负样本区分，并获取每个分箱区间内正样本和负样本的比例，得到连续数值型特征样本数据的指标探查结果；

和/或，确定离散型特征样本数据的统计指标；

按照确定出的统计指标计算出离散型特征样本数据的指标值，得到离散型特征样本数据的指标探查结果。

可选地，还包括有分布探查模块，用于根据所述指标探查结果对每个特征类型对应的样本数据进行分布探查，按照分布探查结果形成并显示在目标场景下的分布图像；其中，所述连续数值型特征的目标场景包括二分类场景，所述离散型特征的目标场景包括回归场景。

可选地，若对连续数值型特征样本数据进行分布探查，则有：

可选地，还包括有时间序列模块，用于在所述目标数据集存在时间列时，基于按照所述时间列构建索引，将目标时间范围内的样本数据进行均值聚合，得到时间序列数据集；

以及基于所述时间序列数据集生成连续数值型特征、离散型特征下的时间序列曲线，并对时间序列曲线中的缺失值进行均值平滑处理。

本发明还提供一种数据挖掘模型更新系统，包括有：

采集模块，用于获取训练数据集和待测试数据集；

分箱值模块，用于利用上述中任一所述的数据探查方法对所述训练数据集和所述待测试数据集进行指标探查，获取所述训练数据集中连续数值型特征样本数据的分箱值占比，和所述待测试数据集中连续数值型特征样本数据的分箱值占比；

模型更新模块，用于根据所述训练数据集中连续数值型特征样本数据的分箱值占比、所述待测试数据集中连续数值型特征样本数据的分箱值占比计算所述训练数据集和所述待测试数据集之间的稳定性指标值，并在所述稳定性指标值大于预设阈值时，更新数据挖掘模型；其中，所述数据挖掘模型用于对样本数据进行分类、回归和/或排序。

本发明还提供一种计算机设备，包括：

一个或多个处理器；和

存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行所述指令时，使得所述设备执行如上述中任意一项所述的方法。

本发明还提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行所述指令时，使得设备执行如上述中任意一项所述的方法。

如上所述，本发明提供一种数据探查方法和系统、数据挖掘模型更新方法和系统，具有以下有益效果：通过对目标数据集进行元信息推导，获取目标数据集中所有样本数据的特征类型；再对每个特征类型对应的样本数据进行探查，获取对应的探查结果；所述探查包括以下至少之一：指标探查、数据分布探查。其中，目标数据集可以是一个数据集，也可以由多个数据集构成。本发明可以对一个或多个数据集进行数据探查，根据探查结果确定数据集中的特征分布情况，然后基于数据集中的特征分布情况来判断是否需要更新数据挖掘模型，从而使数据挖掘模型能够适应包含新增样本在内的所有样本数据。本发明无需大量人工介入，可以自动计算数据特征的统计信息，生成特征分布图像，并对数据元信息做出较为准确的推导。并且本发明还可以利用MiniBatchKmeans对分布图像中的散点图做聚类处理，降低分布图像的复杂程度，同时也保证了样本点生成的效率。而且，本发明自动对数据集进行时间序列转换，并对转换后的时间序列图像做平滑化填充处理，自动生成美观且有效的时间序列图像。同时，本发明对生成的分布图像，可以利用有监督场景下的标签列信息，使用不同的颜色在图像上进行样本标签取值的区分。

附图说明

图1为一实施例提供的数据探查方法的流程示意图；

图2为另一实施例提供的数据探查方法的流程示意图；

图3为一实施例提供的连续数值型特征中满意度等级的分布探查示意图；

图4为另一实施例提供的连续数值型特征中设备使用编号的分布探查示意图；

图5为一实施例提供的离散型特征中薪资的分布探查示意图；

图6为另一实施例提供的离散型特征中行业的分布探查示意图；

图7为一实施例提供的等级特征与满意度等级特征的组合分布探查示意图；

图8为另一实施例提供的满意度等级特征与净时长特征的组合分布探查示意图；

图9为又一实施例提供的等级特征与净时长特征的组合分布探查示意图；

图10为一实施例提供的数据挖掘模型更新方法的流程示意图；

图11为一实施例提供的数据探查系统的硬件结构示意图；

图12为一实施例提供的数据挖掘模型更新系统的硬件结构示意图；

图13为一实施例提供的终端设备的硬件结构示意图；

图14为另一实施例提供的终端设备的硬件结构示意图。

元件标号说明

M10 元信息推导模块

M20 探查模块

M100 采集模块

M200 分箱值模块

M300 模型更新模块

1100 输入设备

1101 第一处理器

1102 输出设备

1103 第一存储器

1104 通信总线

1200 处理组件

1201 第二处理器

1202 第二存储器

1203 通信组件

1204 电源组件

1205 多媒体组件

1206 音频组件

1207 输入/输出接口

1208 传感器组件

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

由于大数据表格型数据除了数据规模庞大以外，往往还具有内容丰富、形式复杂的特点。并且因为应用广泛、各个数据源背后的实际业务不同，不同数据源的大数据表格型数据内容和含义迥异：在人口统计学信息的数据表中，一行记录代表了一个用户的信息；而在行为日志信息类的数据表中，一行记录则可以是代表一次点击/购买行为，也可能代表用户在一天/一个月中点击/购买行为的行为汇总。即使在同一个数据源的同一张数据表中，也往往包含了数值数据、离散类别数据、时间戳数据等多种数据类型的数据。

而机器学习数据挖掘模型通常是服务于某种特定粒度下的分类、回归或排序任务。例如，对于信贷风控模型，需要对某一用户、或对某一次贷款申请，判断违约概率；对于广告推荐模型，需要对某一用户、在某一天生成一份推荐列表。然而，即使面对的建模场景各有不同，对于表格型的结构化数据而言，如果需要通过数据训练出一个能够高质量完成任务的模型，原始表的数据所包含的信息往往有所欠缺，这时候就需要通过特征组合、特征变换等方式(统称特征工程)构造出新的特征(数据表中的新列)，并进行适当的特征筛选，才能够训练出高质且高效的模型。高效的特征往往来源于建模工程师对数据的了解，除去在特殊场景下，由长期业务经验提炼而来的一些固定项，其他的有效特征生成方式可以通过建模工程师观察数据的表现形式后，进行人为构造。数据的表现形式主要包括了：数据的基本类型(连续数值型，离散型等)，分布曲线，数据的统计指标等。这些信息包含了隐藏在数据背后的业务含义，也被称为元信息；所谓元信息，是指不能直接体现于数据内容本身，而和数据背后的业务含义相关的先验信息。举例来说，同样一列处于[0，100]区间的整数列，可能代表年龄、也可能代表某种类别编码，例如省份/地区的编码。当它代表年龄时，本质上是一个数据列，取值的大小关系是有意义的，30岁>20岁>10岁；而如果代表省份/地区编码，取值为30、取值为20、取值为10之间是没有大小关系的，允许打乱顺序重新编码而不改变数据信息。

此外，模型具有一定程度的时效性，这是由于随着时间的推移，新增样本和此前用于建模的样本难免出现一定程度的分布偏移，导致由原始训练样本拟合的模型不在适用于新增样本。因此，对于训练样本和新增样本，需要对各重要指标特征的分布情况有所掌控，以便及时判断是否有必要进行模型的更替。

所以，如图1所示，本发明提供一种数据探查方法，应用于计算机模型训练过程，包括以下步骤：

S10，对目标数据集进行元信息推导，获取目标数据集中所有样本数据的特征类型；其中，目标数据集可以由一个数据集构成，也可以由多个数据集构成。

S20，对每个特征类型对应的样本数据进行探查，获取对应的探查结果；对样本数据进行的探查包括以下至少之一：指标探查、数据分布探查。

本方法可以对一个或多个数据集进行数据探查，根据探查结果确定数据集中的特征分布情况，然后基于数据集中的特征分布情况来判断是否需要更新数据挖掘模型，从而使数据挖掘模型能够适应包含新增样本在内的所有样本数据。具体地，本申请实施例可以基于探查结果计算数据集之间的稳定性指标值，并在稳定性指标值大于预设阈值时，更新数据挖掘模型，从而使数据挖掘模型能够适应包含新增样本在内的所有样本数据。

根据上述记载，在一示例性实施例中，若样本数据的特征类型为连续数值型特征，则获取指标探查结果的过程包括：

确定连续数值型特征样本数据的统计指标；按照确定出的统计指标计算连续数值型特征样本数据的指标值；根据确定出的统计指标和计算出的指标值对连续数值型特征样本数据进行分箱处理，并统计每个分箱区间内的样本数据占所有样本数据的比例；将连续数值型特征样本数据进行正样本和负样本区分，并获取每个分箱区间内正样本和负样本的比例，得到连续数值型特征样本数据的指标探查结果。其中，连续数值型特征的统计指标包括但不限于：均值、保准差、中位数、四分位数、四分位差、偏度、峰度、特征值域(区间)、取值总数、缺失率、0值率等指标。

若样本数据的特征类型为离散型特征，则获取指标探查结果的过程包括：

确定离散型特征样本数据的统计指标；按照确定出的统计指标计算出离散型特征样本数据的指标值，得到离散型特征样本数据的指标探查结果。

其中，离散型特征的统计指标包括但不限于：众数、值占比、取值总数、特征值域(数组)、缺失率等指标。本申请实施例中，可以根据经验规则将数据集中的特征列自动分为离散型特征和连续数值型特征。

根据上述记载，在一示例性实施例中，还包括根据指标探查结果对每个特征类型对应的样本数据进行分布探查，按照分布探查结果形成并显示在目标场景下的分布图像；其中，其中，连续数值型特征的目标场景包括二分类场景，离散型特征的目标场景包括回归场景。具体地，作为一示例，在有监督场景下，可以尽可能的反应出各特征取值与最后标签列结果的对比相关性。以最常见的二分类场景为例，将数据根据正负样本进行区分，对于连续数值型特征，利用此前的分箱结果画出直方图，除去数据总体的直方图、核密度估计图外，同时显示在正负样本下的直方图及核密度估计图，如图3和图4所示。根据图3可知，最左侧分箱的负样本比例显著高于其他分箱，故可以考虑将满意度等级最低的人群划分出来设置成为标签特征，重新建立模型。如果在风控等场景下，遇到这种情况的高比例负样本分箱，可以直接设置拒绝规则，提升总体效率。根据图4可知，最右侧分箱几乎全为负样本，此时若设置该特征高于某阈值的特征或规则，将最右侧的样本独立出来，能很大程度的提高总体模型准确率。作为另一示例，对于离散型特征，由于数据的核密度估计不再具有实际意义，便只展示在正负样本下的分布直方图，如图5和6所示。根据图5可知，共有low、medium、high三种取值，可以看出高新人群负样本概率明显低，可用于构建特征、规则。且三个人群的比例大约为7:6:1，采样数据集或构建对比数据集时应该遵循这个比例。根据图6可知，在各取值下，正负样本比例差异不大，只需要对该特征进行简单编码处理即可。作为另一示例，若在回归场景下，则根据离散型特征或连续数值型特征标签列的取值大小，对样本分色域进行渐变展示。

由于元信息无法从数据内容本身获取，而在没有元信息的情况下，特征工程很容易加工出低质量、冗余的特征，影响最终的模型质量。例如，在特征构造阶段，进行特征交叉组合是一种常用且有效的方式，但盲目的进行特征组合同样会产生大量无用特征，以二阶的特征交叉为例，假设数据集包含n个原始特征，如果对所有特征都进行二阶组合，单独的一种组合方式就能够产生出(n*(n-1))/2种新特征，不仅带来了极大的计算量，同时使得原始特征的占比缩小至原先的2/(n+1)，更难以被机器学习的算法模型学习到有用的信息。实际操作中，往往需要观察特征之间组合分布以确定特征进行组合后的有效性。所以，根据上述记载，在一示例性实施例中，若样本数据的特征类型包括连续数值型特征，则将连续数值型特征样本数据进行两两组合，且将每个组合中的其中一个样本数据作为所述分布图像的横轴值，另一个样本数据作为所述分布图像的纵轴值；基于所述横轴值和纵轴值形成样本数据点，将所述连续数值型特征样本数据直接填入所述分布图像中；或者计算任意两个连续数值型特征样本数据之间的距离，根据距离计算结果对所有连续数值型特征样本数据进行聚类，将聚类后的样本数据填入所述分布图像中。具体地，首先将连续型特征两两组合，将每个组合中的其中一个样本数据作为分布图像的横轴值，另一个样本数据作为分布图像的纵轴值，然后基于横轴值和纵轴值形成样本数据点，再将样本数据点填入分布图像中。在生成特征组合分图时，大多采用二维散点图的形式，该图像的横纵坐标轴分别代表选取的两个特征，其中的每一个点代表一个样本在两个特征轴上的取值。在数据集大，样本数多的情况下，生成大量散点会消耗很大的计算资源，耗时较长，且生成得出的图像过于稠密，不便于观察者从中获取信息。针对数据集较大，样本点数太多的问题，可以采用MiniBatchKmeans聚类算法，利用分批处理的方法对数据点之间的距离进行计算。MiniBatch的好处是计算过程中不必使用所有的数据样本，而是从不同类别的样本中抽取一部分样本来代表各自类型进行计算，由于计算样本量少，所以会相应的减少运行时间。计算得出数据点间的距离后，对距离太近的数据点适当进行合并，控制最终输出的数据点数量。对于合并后的样本点，可能存在合并前的样本点在正负样本上均存在取值的情况，此时采用投票法(voting)的方式决定最终该合并样本点的标签。作为示例，每次选取两个非标签列的特征，以散点图的形式，根据表中数据点在两个不同特这下的取值在对应位置画出数据点，且进行正负样本的区分。当数据集过大，样本数量过多时，会由于性能问题造成生成图形的效率过低，此时采用MiniBatchKmeans算法，提前对样本点进行聚类，聚类的类目数量由人为控制在250～300之间，这样最终可以控制在单幅图上显示的点数量不超过300，即提高了效率，也保证了一定程度的美观。而每个类中样本正负的判定采用投票法(voting)，如某个聚类点由5个原数据点聚类而成，其中包含了3个正样本，2个负样本，则该聚类点最终显示为正。(这里也可以采用动态阈值的方法，如原数据集中，负样本比例为10％，若聚类点中包含负样本的点超过10％，该聚类点就判定为负样本。)组合特征的散点图有利于发现特征之间的组合关系，进而构建交叉特征或多级的规则，如图7至图9所示。图7显示的等级特征grade与满意度等级特征satisfaction_level的组合分布图，可以发现负样本密度明显更高的区域有两处，一是满意度等级satisfaction_level低，而等级grade高的区域；二是满意度等级satisfaction_level约为0.4，而等级grade约为0.5的区域，可以将这两个区域的样本提取出来构建新的特征或规则，有利于提升最终模型表达。图8显示的是满意度等级特征satisfaction_level与净时长特征net_time_length的组合分布图，图9显示的是等级特征grade与净时长特征net_time_length的组合分布图，图8和图9的分析与图7同理。根据上述记载，当特征两两组合的图像呈现出一定的趋势时，认为据此构造特征是有效的；如果特征组合的图像仍然处于零散、无规律的状态，可以选择放弃将该特征进行组合。本申请实施例利用MiniBatchKmeans对图像散点图做聚类处理，降低图像的复杂程度，同时保证了样本点生成的效率。在本申请实施例中，MiniBatchKmeans是K-Means算法的一种优化方案，主要优化了数据量大情况下的计算速度。与标准的K-Means算法相比，Mini Batch K-Means加快了计算速度，且在数据量较大的情况下采用Mini Batch K-Means算法有更好的效果。kmeans算法又名k均值算法。其算法思想大致为：先从样本集中随机选取k个样本作为簇中心，并计算所有样本与这k个“簇中心”的距离，对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中，对于新的簇计算各个簇的新的“簇中心”。其逻辑主要为：步骤1、选取K个点作为初始聚集的簇心(也可选择非样本点)；步骤2、分别计算每个样本点到K个簇核心的距离(这里的距离一般取欧氏距离或余弦距离)，找到离该点最近的簇核心，将它归属到对应的簇；步骤3、所有点都归属到簇之后，M个点就分为了K个簇。之后重新计算每个簇的重心(平均距离中心)，将其定为新的“簇核心”；反复迭代步骤2和步骤3，直到达到某个中止条件。

对于带有样本发生时间的数据集，常需要查看某些特定特征随时间的分布变化情况，一个简单的方案是将需要观察的特征列与时间一一对应并排序，形成时间序列形式的数据再作图观察。但时间序列的数据集对时间的格式具有比较严格的要求，首先，作为索引的时间列必需规范化、标准化，做到时间跨度统一，时间单位合理。其次，在不同的时间点下，所观察的特征也需要具备唯一的取值。此外，将数据集依照时间索引进行转换后，难免出现部分时间索引下内容缺失的问题，此时如果直接进行0值填充，会造成曲线失真，出现锯齿状。因此，在一示例性实施例中，若所述目标数据集中存在时间列，则按照所述时间列构建索引，将目标时间范围内的样本数据进行均值聚合，得到时间序列数据集；基于所述时间序列数据集生成连续数值型特征、离散型特征下的时间序列曲线，并对时间序列曲线中的缺失值进行均值平滑处理。具体地，若数据集中存在时间列，选择对时间列建立索引，根据数据的总体时间跨度大小，以年、月、日为单位构建索引，将所有指定时间范围的特征数据，通过均值聚合的方式，得到时间序列数据集，根据时间序列数据集再画出各特征下的时间序列曲线，并对缺失值进行均值平滑处理，观察各变化情况。本申请实施例采用均值平滑的方法进行缺失值填充，可替代使用中位数平滑的方法进行填充，减少异常点造成的影响。本申请实施例可以自动对数据集进行时间序列转换，并对转换后的时间序列图像做平滑化填充处理，自动生成美观且有效的时间序列图像。

根据上述记载，在一示例性实施例中，还包括对生成的分布图像，利用有监督场景下的标签列信息，使用不同颜色在所述分布图像上进行样本标签取值的区分。作为示例，例如可以依照最终的数据标签，使用不同颜色绘制数据的单变量分布图和组合分布图。

在一具体实施例中，如图2至图9所示，本方法提出了一种在有监督场景下的数据探查方法，包括：

元信息配置推导，对目标数据集进行元信息推导，获取目标数据集中所有样本数据的特征类型。具体地，根据特征的取值总数和样本总数比值计算，如果该比值或取值总数小于我们设定的经验阈值，则被暂时判定为离散类别型数据；当比值为1，且所有样本在该特征的字符长度相同，被判定为离散ID类数据。当数值位于阈值附近，难以判别时，计算相邻取值下的样本数差，若波动性太大，则判定为离散型数据。元信息推导用于探查数据表的数据类型等信息，生成预设的元信息配置文件。对于元信息推导阶段，在缺省情况下，根据数据表的列名、数据分布，启发式地猜测数据表中各列的数据类型情况，区分数值型列和离散型列(类别属性列或ID列)。对于离散型列，根据其出现取值的数目和分布，猜测是类别属性列(取值较少)还是ID列(取值较多)，生成一份默认的元信息配置文件，允许用户修改。

统计指标阶段，根据元信息推到阶段得出的特征类型，分别采用不同的统计方式探查指标。具体地，将数据集中的特征列根据经验规则自动分为离散型特征和连续数值型特征，对两种不同类型的数据分别计算不同的统计指标：对数值型特征，计算该特征的均值、保准差、中位数、四分位数、四分位差、偏度、峰度、特征值域(区间)、取值总数、缺失率、0值率等指标，接着，对该特征进行分箱处理，并统计每个分箱区间内的样本数占总体比例，正负样本数占该分箱样本比例。对于离散型特征，计算该特征的众数、值占比、取值总数、特征值域(数组)、缺失率等指标。

数据分布探查阶段，依照最终的数据标签，使用不同颜色绘制数据的单变量分布图和组合分布图。对于数值型特征，探查数据分布直方图及核密度估计图；对于类别型特征仅探查数据分布直方图。并将数值型特征进行两两组合，以不同特征为坐标，MiniBatchKmeans聚类后的样本点绘制散点图。在有监督场景下，可以尽可能的反应出各特征取值与最后标签列结果的对比相关性。以最常见的二分类场景为例，将数据根据正负样本进行区分，对于连续数值型特征，利用此前的分箱结果画出直方图，除去数据总体的直方图、核密度估计图外，同时显示在正负样本下的直方图及核密度估计图，如图3和图4所示。根据图3可知，最左侧分箱的负样本比例显著高于其他分箱，故可以考虑将满意度等级最低的人群划分出来设置成为标签特征，重新建立模型。如果在风控等场景下，遇到这种情况的高比例负样本分箱，可以直接设置拒绝规则，提升总体效率。根据图4可知，最右侧分箱几乎全为负样本，此时若设置该特征高于某阈值的特征或规则，将最右侧的样本独立出来，能很大程度的提高总体模型准确率。作为另一示例，对于离散型特征，由于数据的核密度估计不再具有实际意义，便只展示在正负样本下的分布直方图，如图5和6所示。根据图5可知，共有low、medium、high三种取值，可以看出高新人群负样本概率明显低，可用于构建特征、规则。且三个人群的比例大约为7:6:1，采样数据集或构建对比数据集时应该遵循这个比例。根据图6可知，在各取值下，正负样本比例差异不大，只需要对该特征进行简单编码处理即可。作为另一示例，若在回归场景下，则根据离散型特征或连续数值型特征标签列的取值大小，对样本分色域进行渐变展示。如图7至图9所示。图7显示的等级特征grade与满意度等级特征satisfaction_level的组合分布图，可以发现负样本密度明显更高的区域有两处，一是满意度等级satisfaction_level低，而等级grade高的区域；二是满意度等级satisfaction_level约为0.4，而等级grade约为0.5的区域，可以将这两个区域的样本提取出来构建新的特征或规则，有利于提升最终模型表达。图8显示的是满意度等级特征satisfaction_level与净时长特征net_time_length的组合分布图，图9显示的是等级特征grade与净时长特征net_time_length的组合分布图，图8和图9的分析与图7同理。根据上述记载，当特征两两组合的图像呈现出一定的趋势时，认为据此构造特征是有效的；如果特征组合的图像仍然处于零散、无规律的状态，可以选择放弃将该特征进行组合。本申请实施例利用MiniBatchKmeans对图像散点图做聚类处理，降低图像的复杂程度，同时保证了样本点生成的效率。

时间序列探查阶段，选取需要进行转换的时间列，自动生成跨度合适的时间索引，并对原始特征依照新时间索引进行均值聚合。对聚合后的结果，使用平滑法填充缺失值，最终生成曲线。具体地，若数据集中存在时间列，选择对时间列建立索引，根据数据的总体时间跨度大小，以年、月、日为单位构建索引，将所有指定时间范围的特征数据，通过均值聚合的方式，得到时间序列数据集，根据时间序列数据集再画出各特征下的时间序列曲线，并对缺失值进行均值平滑处理，观察各变化情况。本申请实施例采用均值平滑的方法进行缺失值填充，可替代使用中位数平滑的方法进行填充，减少异常点造成的影响。本申请实施例可以自动对数据集进行时间序列转换，并对转换后的时间序列图像做平滑化填充处理，自动生成美观且有效的时间序列图像。

数据稳定性探查阶段，根据训练集分箱结果，记录每个特征箱内的分箱值占比，当存在数据格式与内容统一的测试集时，选择对应的训练集，读取特征分箱结果。

综上所述，本方法针对现有技术存在的问题，通过对目标数据集进行元信息推导，获取目标数据集中所有样本数据的特征类型；再对每个特征类型对应的样本数据进行探查，获取对应的探查结果；所述探查包括以下至少之一：指标探查、数据分布探查；以及基于指标探查结果计算数据集之间的稳定性指标值，并在稳定性指标值大于预设阈值时，更新数据挖掘模型。本方法可以基于元信息的基础上通过对样本数据进行数据探查来判断是否需要更新数据挖掘模型，从而使数据挖掘模型能够适应包含新增样本在内的所有样本数据。本方法无需大量人工介入，可以自动计算数据特征的统计信息，生成特征分布图像，并对数据元信息做出较为准确的推导。并且本方法还可以利用MiniBatchKmeans对分布图像中的散点图做聚类处理，降低分布图像的复杂程度，同时也保证了样本点生成的效率。而且，本方法自动对数据集进行时间序列转换，并对转换后的时间序列图像做平滑化填充处理，自动生成美观且有效的时间序列图像。同时，本方法对生成的分布图像，可以利用有监督场景下的标签列信息，使用不同的颜色在图像上进行样本标签取值的区分。本方法能够自动化地完成数据探查流程，方便后续数据挖掘建模，还可以利用聚类算法优化计算结果，使图像更加简洁直观，同时可以对模型数据的动态监控效果。

如图10所示，本发明还提供一种更新数据挖掘模型的方法，包括以下步骤：

S100，获取训练数据集和待测试数据集；

S200，利用数据探查方法对训练数据集和待测试数据集进行指标探查，获取训练数据集中连续数值型特征样本数据的分箱值占比，和待测试数据集中连续数值型特征样本数据的分箱值占比；

S300，根据训练数据集中连续数值型特征样本数据的分箱值占比、待测试数据集中连续数值型特征样本数据的分箱值占比来计算训练数据集和待测试数据集之间的稳定性指标值，并在稳定性指标值大于预设阈值时，更新数据挖掘模型；其中，数据挖掘模型用于对样本数据进行分类、回归和/或排序。

具体地，获取训练数据集和待测试数据集，然后对这两个数据集进行指标探查，从探查结果中获取每个数据集中连续数值型样本数据的分箱值占比，然后根据这两个数据集的分箱值占比计算两个数据集之间的稳定性指标值PSI。稳定性指标值PSI的计算方式如下：

PSI＝SUM((待测试数据集中连续数值型特征样本数据的分箱值占比-训练数据集中连续数值型特征样本数据的分箱值占比)*ln(待测试数据集中连续数值型特征样本数据的分箱值占比/训练数据集中连续数值型特征样本数据的分箱值占比))。

当PSI值大于预设阈值时，给出数据挖掘模型需要更新的提示，即更新数据挖掘模型。其中，预设阈值可以根据实际情况进行设定，本申请实施例中的预设阈值设置为0.25。

本申请实施例可以执行上述数据探查方法，所以本申请实施例的具体功能和技术效果参照上述实施例即可，此处不再赘述。

如图11所示，本发明还提供一种数据探查系统，应用于计算机模型训练过程，包括有：

元信息推导模块M10，用于对目标数据集进行元信息推导，获取目标数据集中所有样本数据的特征类型；其中，目标数据集可以由一个数据集构成，也可以由多个数据集构成。

探查模块M20，用于对每个特征类型对应的样本数据进行探查，获取对应的探查结果；对样本数据进行的探查包括以下至少之一：指标探查、数据分布探查。

本系统可以对一个或多个数据集进行数据探查，根据探查结果确定数据集中的特征分布情况，然后基于数据集中的特征分布情况来判断是否需要更新数据挖掘模型，从而使数据挖掘模型能够适应包含新增样本在内的所有样本数据。具体地，本申请实施例可以基于探查结果计算数据集之间的稳定性指标值，并在稳定性指标值大于预设阈值时，更新数据挖掘模型，从而使数据挖掘模型能够适应包含新增样本在内的所有样本数据。

根据上述记载，在一示例性实施例中，若样本数据的特征类型为连续数值型特征，则获取指标探查结果的过程包括：

若样本数据的特征类型为离散型特征，则获取指标探查结果的过程包括：

确定离散型特征样本数据的统计指标；按照确定出的统计指标计算出离散型特征样本数据的指标值，得到离散型特征样本数据的指标探查结果。

在一具体实施例中，本系统提出了一种在有监督场景下的数据探查方式，如图2至图9所示，具体功能和技术效果参照上述实施例即可，此处不再赘述。

综上所述，本系统针对现有技术存在的问题，通过对目标数据集进行元信息推导，获取目标数据集中所有样本数据的特征类型；再对每个特征类型对应的样本数据进行探查，获取对应的探查结果；所述探查包括以下至少之一：指标探查、数据分布探查；以及基于指标探查结果计算数据集之间的稳定性指标值，并在稳定性指标值大于预设阈值时，更新数据挖掘模型。本系统可以基于元信息的基础上通过对样本数据进行数据探查来判断是否需要更新数据挖掘模型，从而使数据挖掘模型能够适应包含新增样本在内的所有样本数据。本系统无需大量人工介入，可以自动计算数据特征的统计信息，生成特征分布图像，并对数据元信息做出较为准确的推导。并且本系统还可以利用MiniBatchKmeans对分布图像中的散点图做聚类处理，降低分布图像的复杂程度，同时也保证了样本点生成的效率。而且，本系统自动对数据集进行时间序列转换，并对转换后的时间序列图像做平滑化填充处理，自动生成美观且有效的时间序列图像。同时，本系统对生成的分布图像，可以利用有监督场景下的标签列信息，使用不同的颜色在图像上进行样本标签取值的区分。本系统能够自动化地完成数据探查流程，方便后续数据挖掘建模，还可以利用聚类算法优化计算结果，使图像更加简洁直观，同时可以对模型数据的动态监控效果。

如图12所示，本发明还提供一种数据挖掘模型更新系统，包括有：

采集模块M100，用于获取训练数据集和待测试数据集；

分箱值模块M200，用于利用数据探查方法对训练数据集和待测试数据集进行指标探查，获取训练数据集中连续数值型特征样本数据的分箱值占比，和待测试数据集中连续数值型特征样本数据的分箱值占比；

模型更新模块M300，用于根据训练数据集中连续数值型特征样本数据的分箱值占比、待测试数据集中连续数值型特征样本数据的分箱值占比来计算训练数据集和待测试数据集之间的稳定性指标值，并在稳定性指标值大于预设阈值时，更新数据挖掘模型；其中，数据挖掘模型用于对样本数据进行分类、回归和/或排序。

本申请实施例可以执行上述数据探查方法，所以本申请实施例的具体功能和技术效果参照上述实施例即可，此处不再赘述。

本申请实施例还提供了一种计算机设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的图1中数据处理方法所包含步骤的指令(instructions)。

图13为本申请一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图14为本申请的另一个实施例提供的终端设备的硬件结构示意图。图14是对图13在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。

第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non—volatile memory)，例如至少一个磁盘存储器。

可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，音频组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述图1所示方法的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。

电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件1206被配置为输出和/或输入语音信号。例如，音频组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，音频组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图14实施例中所涉及的通信组件1203、音频组件1206以及输入/输出接口1207、传感器组件1208均可以作为图13实施例中的输入设备的实现方式。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：蒋博劼;
专利申请人：上海云从企业发展有限公司;

上一篇：一种可保护木匠安全的木质门框可旋转切割机
下一篇：抗DOG1蛋白的单克隆抗体及其细胞株、制备方法和应用