掌桥专利:专业的专利平台
掌桥专利
首页

一种数据分析模型的建模方法及系统

文献发布时间:2023-06-19 10:32:14


一种数据分析模型的建模方法及系统

技术领域

本发明涉及数据分析建模领域,具体而言,涉及一种数据分析模型的建模方法及系统。

背景技术

数据分析建模是数据挖掘应用的基础,目前数据分析建模需要调研人员或者业务人员调研客户痛点,产品人员设计解决方案,建模人员使用各自熟悉的建模工具进行数据预处理、特征工程、建模调参、模型选择及验证等步骤后,最终生成模型以供用户使用。

然而,这种方式会因为调研人员、业务人员、产品人员、建模人员和模型使用者的背景知识与业务技能差别较大,导致技术割裂严重,建模工作量大、速度慢、效率低等问题。因此,如何更高效地进行数据分析建模成为亟待解决的问题。

发明内容

本发明的目的在于提供一种数据分析模型的建模方法,其能够实现对数据可视化分析建模,以及对建模产生的模型进行统一管理,减少了建模工作量,提高了建模的效率和有效性。

本发明的另一目的在于提供一种数据分析模型的建模系统,其能够运行一种数据分析模型的建模方法。

本发明的实施例是这样实现的:

第一方面,本申请实施例提供一种数据分析模型的建模方法,其包括获取用户在用户界面上设置的业务需求及数据集;根据数据集的数据特性确定对应的时序预测场景,根据业务需求确定仿真数据分析的目标;通过数据特性和对应的时序预测场景,确定建模策略,对目标选择至少一个分析角度,通过不同的角度对目标进行分析;根据建模策略及目标分析结果进行数据分析计算模型构建。

在本发明的一些实施例中,上述获取用户在用户界面上设置的业务需求及数据集包括:用户界面用于供用户设置用于业务需求创建时序预测模型的数据集并进行监听。

在本发明的一些实施例中,上述还包括当监听到选取操作为将至少一个功能图标拖拽至数据分析建模平台上的建模聚合分析区域中时,对建模聚合分析区域中的每个功能图标进行连接,得到建模流程图。

在本发明的一些实施例中,上述获取用户在用户界面上设置的业务需求及数据集包括:将业务需求的数据集先上传至IPFS云存储系统中进行存储,然后对该数据及进行hash加密,将hash字符上传至区块链中进行存储。

在本发明的一些实施例中,上述根据数据集的数据特性确定对应的时序预测场景,根据业务需求确定仿真数据分析的目标包括:仿真数据分析分为多个角度,包括仿真数据可视化分析、信息系统角度的仿真数据可视化分析、仿真与控制系统交互影响角度的仿真数据可视化分析。

在本发明的一些实施例中,上述根据建模策略及目标分析结果进行数据分析计算模型构建包括:用扣减关系对建模策略及目标分析结果进行调整,调整其两构件间构件联系,对于扣减的关系在满足要求的同时兼顾效率,对此运用多重连接和多重扣减的形式。

在本发明的一些实施例中,上述包括通过多重连接的形式对其重叠关系调整为扣减的关系,而获得建模扣减的结构柱,待连接完成运用“切换连接顺序”对关系调整正确。

在本发明的一些实施例中,上述根据建模策略及目标分析结果进行数据分析计算模型构建包括:根据分析目标和分析角度,配置多个数据分析算法,从不同角度对分析目标进行深入的分析,从而确定所选择的分析指标与分析目标之间的相互关系,并用具体数值进行量化。

第二方面,本申请实施例提供一种数据分析模型的建模系统,其包括获取模块,用于获取用户在用户界面上设置的业务需求及数据集;确定模块,用于根据数据集的数据特性确定对应的时序预测场景,根据业务需求确定仿真数据分析的目标;分析模块,用于通过数据特性和对应的时序预测场景,确定建模策略,对目标选择至少一个分析角度,通过不同的角度对目标进行分析;构建模块,用于根据建模策略及目标分析结果进行数据分析计算模型构建。

在本发明的一些实施例中,上述用于存储计算机指令的至少一个存储器;与上述存储器通讯的至少一个处理器,其中当上述至少一个处理器执行上述计算机指令时,上述至少一个处理器使上述系统执行:获取模块、确定模块、分析模块、构建模块。

相对于现有技术,本发明的实施例至少具有如下优点或有益效果:

根据不同的算法分别执行建模流程图对应的算法流程,将不同的算法结果数据进行对比,根据对比结果确定出最优算法模型,从而对最优算法模型的数据进行处理,并将处理后的上述最优算法模型进行发布,可实现对数据可视化分析建模,以及对建模产生的模型进行统一管理,减少了建模工作量,提高了建模的效率和有效性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种数据分析模型的建模方法步骤示意图;

图2为本发明实施例提供的一种数据分析模型的建模方法详细步骤示意图;

图3为本发明实施例提供的一种数据分析模型的建模系统模块示意图。

图标:10-获取模块;20-确定模块;30-分析模块;40-构建模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1,图1为本发明实施例提供的一种数据分析模型的建模方法步骤示意图,其如下所示:

步骤S100,获取用户在用户界面上设置的业务需求及数据集;

具体的,用户界面可以为数据分析建模平台界面,数据集可以是用户在用户界面上的“选择数据模块”的输入框中设置用于创建时序预测模型的数据。

在一些实施方式中,数据分析建模平台可以包括数据存储层、数据报表层、数据分析层、数据展现层;数据存储设计到数据库的概念和数据库语言,数据的基本结构和数据类型通过SQL查询语言,可从常用的selece查询,update修改,delete删除,insert插入的基本结构和读取。数据分析层可以通过SAS是平台,EM挖掘模块平台整合,比如离散选择模型,抽样问题,正交实验设计等。表现层也叫数据可视化,每种工具提供了一点展现功能,例如,FineBI和Tableau的可视化功能。

步骤S110,根据数据集的数据特性确定对应的时序预测场景,根据业务需求确定仿真数据分析的目标;

在一些实施方式中,根据业务需求确定仿真数据分析的目标,即仿真实验人员依据经验、对仿真对象的认识及研究目的,确定所要分析研究的内容;如要研究配电网信息物理系统连锁故障发生情况下的多关联事件,依据经验和对仿真对象的认识可判断通信网络异常事件对配电网信息物理系统连锁故障事件有所影响,故分析目标可定为通信网络异常事件(传输延迟、丢包等)和电网故障事件的关联关系。分析目标的确定往往是一个先猜测后论证的过程。

步骤S120,通过数据特性和对应的时序预测场景,确定建模策略,对目标选择至少一个分析角度,通过不同的角度对目标进行分析;

在一些实施方式中,选择一个或多个分析角度,通过从不同的角度对目标进行分析,全面的展现仿真结果产生的内在原因和分析目标的内在本质,达到深入的理解配电网信息物理系统仿真数据和仿真结果的内在本质及相互关系的目的。建模策略至少包括建模算法、算法评估方法和算法的参数调优方法,数据处理分析系统可以基于确定的所述建模算法、算法评估方法和所述算法的参数调优方法自动创建并训练模型。

步骤S130,根据建模策略及目标分析结果进行数据分析计算模型构建。

在一些实施方式中,根据用户设置的用于创建时序预测模型的数据集的数据特性,自动确定时序预测场景,根据确定的时序预测场景和数据集的数据特性,自动确定建模策略,并根据确定出的建模策略创建时序预测模型。在创建时序预测模型过程中,减少了人机交互的过程,简化了建模过程,实现了一键建模,提高了数据分析处理系统的自动化程度,使得非专业的建模人员也能够根据数据集创建时序预测模型,提高了用户体验。建模策略至少还包括与建模算法对应的数据处理方法。数据分析处理系统根据与建模算法对应的数据处理方法对数据集进行处理,从而获得目标数据集。具体的,与建模算法对应的数据处理方法包括但不限于下述至少之一:数据清洗处理、数据平滑去噪处理、缺失值填充、归一化、随机采样、特征工程处理和取对数。

实施例2

请参阅图2,图2为本发明实施例提供的一种数据分析模型的建模方法详细步骤示意图,其如下所示:

步骤S200,用户界面用于供用户设置用于业务需求创建时序预测模型的数据集并进行监听;

步骤S210,当监听到选取操作为将至少一个功能图标拖拽至数据分析建模平台上的建模聚合分析区域中时,对建模聚合分析区域中的每个功能图标进行连接,得到建模流程图;

步骤S220,将业务需求的数据集先上传至IPFS云存储系统中进行存储,然后对该数据及进行hash加密,将hash字符上传至区块链中进行存储;

步骤S230,仿真数据分析分为多个角度,包括仿真数据可视化分析、信息系统角度的仿真数据可视化分析、仿真与控制系统交互影响角度的仿真数据可视化分析;

步骤S240,用扣减关系对建模策略及目标分析结果进行调整,调整其两构件间构件联系,对于扣减的关系在满足要求的同时兼顾效率,对此运用多重连接和多重扣减的形式;

步骤S250,通过多重连接的形式对其重叠关系调整为扣减的关系,而获得建模扣减的结构柱,待连接完成运用“切换连接顺序”对关系调整正确;

步骤S260,根据分析目标和分析角度,配置多个数据分析算法,从不同角度对分析目标进行深入的分析,从而确定所选择的分析指标与分析目标之间的相互关系,并用具体数值进行量化。

在一些实施方式中,确定的分析目标和分析角度,配置多个数据分析算法以实现从不同角度对分析目标进行深入的分析,数据分析算法的来源有两类:第一类为从数据分析算法库中选择已有的数据分析算法;数据分析算法库中包含的数据分析算法包括:聚类分析算法、因子分析算法、相关分析算法、对应分析算法、回归分析算法、方差分析算法、矩阵分析算法。第二类为针对分析目标,自定义创建数据分析算法;仿真实验人员可根据需要通过数学公式定义一个或多个对分析目标数据进行统计分析计算的算法。

将分析指标和数据分析算法进行绑定,构成数据分析计算模型;仿真数据分析过程中,数据分析计算模型的输入数据来自于仿真历史数据库中的分析指标数据,通过数据分析计算模型对分析指标数据进行信息统计和分析,可形成与分析目标密切相关的分析结果数据,分析结果数据将存入分析结果数据库;通过这些分析结果数据,可深入理解仿真结果产生的内在原因和分析目标的内在本质。

先将数据集上传至IPFS云存储系统中,然后对数据集进行hash加密,生成一串hash字符,上传至区块链中保存。

在确定预测场景为非时序预测场景时,也可以进一步确定非时序预测场景的子场景,从而基于确定的非时序预测场景的子场景和数据特性最终确定对应的建模策略,由于创建非时序预测场景的模型与创建时序预测场景的模型过程原理相同,相关人员可以参考本发明阐述的时序预测场景的建模过程,创建非时序预测场景的模型,因此,对于创建非时序预测场景的模型相关内容在此不再详述。

目标列信息包括:目标列的列数和每个目标列的数据类型、目标列的数据的数量等。其中,目标列的数据类型包括:整型、长整型、短整型、双精度、浮点型、小数型、布尔型和时间型等。因此,在预测场景为时序预测场景时,根据目标列信息确定时序预测场景中的子场景的步骤包括:根据目标列的数据类型和/或目标列的列数和/或目标列的数据的数量,确定时序预测场景中的子场景。

具体的,若目标列的数据类型为长整型、双精度、浮点型或小数型,则确定子场景为对应回归算法的子场景;若目标列的数据类型为整型、短整型或布尔型,则确定子场景为对应分类算法的子场景;或者,

若目标列的数据类型为短整型、整型或布尔型,且目标列的数据的数量小于预设数量,则确定子场景为对应聚类算法的子场景。举例来说,对应回归算法的子场景例如可以包括:访问量预测和风机的功率预测、光伏功率预测等;对应分类算法的子场景例如可以包括:有监督的异常检测、无监督的异常检测和客户流失预测等;对应聚类算法的子场景例如可以包括:恶意流量识别、保险投保者分组、网站关键词来源聚类整合等。

根据数据特性和时序预测场景,确定建模策略的步骤具体为:根据数据特征信息和对应的时序预测场景中的子场景,确定建模策略。其中,数据特征信息包括但不限于下述至少之一:数据规整度、数据维度、数据自相关性、数据平稳性、时间数据粒度和数据周期性。

当时序预测场景为对应分类算法的子场景时,建模算法包括以下至少之一:设置有静态阈值的零均值规范化、设置有静态阈值的变化比例空间算法、三次指数平滑、设置有静态阈值的灰度预测、深度神经网络、长短期记忆网络、孤立森林、轻量级梯度提升机;算法评估方法包括以下至少之一:感受性曲线、感受性曲线下的面积、召回率、精准率和F1值;算法的参数调优方法包括以下至少之一:网格搜索、随机网格搜索和贝叶斯优化搜索。

在一些实施方式中,在对应的时序预测场景为对应分类算法的子场景时,根据数据特征信息和时序预测场景,确定建模策略的具体过程为:若数据维度为低维,则上述建模算法均适用,优先推荐的建模算法包括:设置有静态阈值的零均值规范化、设置有静态阈值的变化比例空间算法、三次指数平滑、设置有静态阈值的灰度预测;此外,算法评估方法优选感受性曲线下的面积的算法;算法调优方法优选随机网格搜索。若数据维度为高维,则推荐的建模算法包括:深度神经网络(DNN)、长短期记忆网(LSTM)和轻量级梯度提升机(lightGBM);另外,算法评估方法优选感受性曲线下的面积的算法;算法调优方法优选随机网格搜索。若数据的维度为低维,使用深度神经网络(DNN)、长短期记忆网(LSTM)或轻量级梯度提升机(lightGBM)时,需要对数据集进行特征衍生,使数据集的维度成为高维后,再按照建模算法进行建模,从而确保预测结果的准确性更高。

实施例3

请参阅图3,图3为本发明实施例提供的一种数据分析模型的建模系统模块示意图,其如下所示:

获取模块10,用于获取用户在用户界面上设置的业务需求及数据集;

确定模块20,用于根据数据集的数据特性确定对应的时序预测场景,根据业务需求确定仿真数据分析的目标;

分析模块30,用于通过数据特性和对应的时序预测场景,确定建模策略,对目标选择至少一个分析角度,通过不同的角度对目标进行分析;

构建模块40,用于根据建模策略及目标分析结果进行数据分析计算模型构建。

还包括存储器、处理器和通信接口,该存储器、处理器和通信接口相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器可用于存储软件程序及模块,处理器通过执行存储在存储器内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口可用于与其他节点设备进行信令或数据的通信。

其中,存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解,图3所示的结构仅为示意还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述,本申请实施例提供的一种数据分析模型的建模方法及系统,根据不同的算法分别执行建模流程图对应的算法流程,将不同的算法结果数据进行对比,根据对比结果确定出最优算法模型,从而对最优算法模型的数据进行处理,并将处理后的所述最优算法模型进行发布,可实现对数据可视化分析建模,以及对建模产生的模型进行统一管理,减少了建模工作量,提高了建模的效率和有效性。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

相关技术
  • 一种数据分析模型的建模方法及系统
  • 一种数据分析模型的建模方法及系统
技术分类

06120112585766