掌桥专利:专业的专利平台
掌桥专利
首页

基于大数据技术的安全可监测无接口的数据分析服务方法

文献发布时间:2023-06-19 09:51:02


基于大数据技术的安全可监测无接口的数据分析服务方法

技术领域

本发明属于数据分析服务技术领域,尤其涉及一种基于大数据技术的安全可监测无接口的数据分析服 务方法。

背景技术

随着我国近些年来网络信息技术与云计算技术的快速发展,电力等行业的数据也在飞速增长,每一天 都在产生庞大的数据量,这一现象标志着我国已经进入了大数据时代。在大数据时代背景下,需要对数据的 隐藏价值进行充分的挖掘,加强对数据的分析。由于传统的数据库在大数据时代已经无法满足有效处理数 据的需求,所以数据分析工作要采用更加先进的方式进行数据的处理。数据分析服务一般用到逻辑回归和 聚类的算法。现有基于传统数据库的数据分析服务无法满足有效处理数据的需求,定制开发响应数据需求速度慢,每个需求变动都需要前端、后端、测试、数据开发参与,沟通成本高,各产品线后端自建项目直 接访问数据存储,数据团队无法统一管控。并且无法满足电网等行业的安全可监控的要求。针对现有技术 的不足,本发明的目的是提供一种基于大数据技术的安全可监测无接口的数据分析服务方法,该方法基于 大数据分析平台进行数据分析挖掘,API数据发布无需开发接口,降低成本,提供可视化的安全监测界面。

发明内容

本发明就是针对上述问题,提供一种基于大数据技术的安全可监测无接口的数据分析服务方法。

为实现上述目的,本发明采用如下技术方案,本发明包括以下步骤:

(1)逻辑回归是机器学习中的一种分类模型,主要用于因变量是分类变量的回归分析,自变量可以 为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测 公式用于预测。

算法原理:

由于在逻辑回归算法中因变量是S型生长曲线函数,如图1所示:

z=β

从图1可以看到S型生长曲线中间段有一个快速变化的过程,这就可以用于做二分类的问题,即函数 预测结果高于事先设定的阈值就为A类否则就为B类。由此将特征向量和参数引入得到以下预测函数:

β

似然比检验:

通过比较包含与不包含某一个或几个待检查观察因素的两个模型的对数似然函数的变化来进行,其统 计量为G:

G=-2(ln L

样本量较大时,G近似服从自由度为待检验因素个数的χ

最后通过线性回归的损失函数来训练最后的模型。将大量数据带入模型,用于电力行业里一些数据分 析场景。

(2)聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,其讨 论的对象是大量的样品,要求能合理地按各自的特性进行分类,在没有先验知识的情况下进行。聚类原则 是同一聚类内的数据具有较高的相似性,而不同聚类中的数据不具有相似性。划分方法给定一个包含n个 对象或数据行的数据集,从中任意选择k个对象作为初始聚类中心,而剩下的其他对象,则根据它们与这 些聚类中心的距离分别进行分配。然后再计算每个所获新聚类的聚类中心,不断重复迭代直到目标函数SSE 开始收敛为止。通常采用均方差函数作为测度函数,通过采用K-Means算法,进行数据分析。

算法原理:

K-Means的计算方法如下:

1随机选取k个中心点;

2遍历所有数据,将每个数据划分到最近的中心点中;

3计算每个聚类的平均值,并作为新的中心点;

4重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代。

算法收敛:

从K-Means的算法可以发现,SSE其实是一个严格的坐标下降过程。设目标函数SSE如下:

SSE(C

采用欧式距离作为变量之间的聚类函数。每次朝一个变量C

其中m

也就是当前聚类的均值就是当前方向的最优解(最小值),这与K-Means的每一次迭代过程一样。所 以,这样保证SSE每一次迭代时,都会减小,最终使SSE收敛。

由于SSE是一个非凸函数,所以SSE不能保证找到全局最优解,只能确保局部最优解。但是可以重复 执行几次K-Means,选取SSE最小的一次作为最终的聚类结果。

0-1规格化:

由于数据之间量纲的不相同,不方便比较。所以,需要将数据统一放到0~1的范围,将其转化为无量 纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。具体计算方法如下:

K值选取:

在实际应用中,由于K-Means一般作为数据预处理,或者用于辅助分类贴标签。所以k一般不会设置 很大。可以通过枚举,令k从2到一个固定值如10,在每个k值上重复运行数次K-Means(避免局部最优 解),并计算当前k的平均轮廓系数,最后选取轮廓系数最大的值对应的k作为最终的集群数目。

企业大数据平台建设任务中,有一项任务需要花费较多时间与精力,即满足业务方数据获取需求,如 报表数据、大屏数据、数据查询服务、数据计算服务等。其中报表数据、大屏数据、数据查询服务等工作 中有一部分费时费力的活--按业务需求提供数据RESTAPI接口,具体流程如图2所示:

该部分工作流程可以拆分为数据同步(集成)、数据加工(数仓建模、ETL等)、数据获取(REST API)、 数据展示(报表、指标、大屏可视化);

大数据平台建设初期,鉴于数据团队成员较少,数据获取、数据展示流程的工作交个各个业务方(产 品线)自行处理,实现流程如下:

业务方产品经理根据业务需求,梳理报表/指标/大屏展示内容及样式;

数据开发根据产品经理输出需求,完成业务数据同步及数仓模型设计,并将ADS层表同步到查询友好 型数据库(Redis、HBase、MySQL、Postgresql)等。

各产品线后端开发与前端开发约定REST API数据接口,编写代码、测试、部署;

各产品线前端开发(iOS APP、Android APP、Web)调用后端REST API渲染前端界面;

前期产品线少,需求(报表、大屏、指标)较固定时,整个过程,技术挑战难度不大,数据获取、数 据展示流程工作与产品线的功能都能同步上线发版,能较好的满足需求开发迭代时间要求;随着支持的产 品线越来越多、数据需求变动越来越多,上述定制开发RESTAPI接口的方式,在工程管理及实施难度上 的挑战越来越大。

本发明有益效果。

本发明解决传统数据服务方法无法实现安全可监测且必须发开接口的问题。通过大数据分析平台基于 电网数据,实现安全可监测,无需开发接口电网数据对外发布服务的安全保障。

(1)满足有效处理数据的需求,定制开发响应数据需求速度快。

(2)无需数据接口开发,降低成本。

(3)满足电网行业数据对外发布服务安全可监控的要求

附图说明

下面结合附图和具体实施方式对本发明做进一步说明。本发明保护范围不仅局限于以下内容的表述。

图1是本发明S型生长曲线函数图。

图2-8是本发明处理流程图。

具体实施方式

如图所示,本发明提供一种基于大数据技术的安全可监测无接口的数据分析服务方法,其改进之处的 方法包括下述步骤

(1)基于大数据分析平台数据接入和汇聚的数据,根据各业务系统及场景数据需求,准确定位具体 涉及的表、字段、描述、长度、类型、数据交互频率等详细信息,通过大数据分析平台数据服务模块,以 向导模式或自定义SQL脚本模式将结果数据封装为数据服务API接口,配置数据服务基础信息及API参数, 数据服务测试通过后,将数据服务发布至API网关。数据服务常用逻辑回归和聚类的公式:

逻辑回归:

聚类公式:SSE(C

(2)根据各业务系统及场景数据的不同需求,在API网关上对发布的数据服务API分别进行授权。 对已授权的数据服务进行发布,在API网关中创建调用数据服务对应的应用,将API授权到应用中,各数 据需求提出方即可通过AppKey和AppSecret加密签名完成数据服务接口调用、测试验证等工作。根据调 用规模采用不同方式,当单个数据服务返回结果超过2000条或大小超过5MB时,使用数据分页查询机制, 通过构建带分页功能的数据服务,业务应用调用数据服务时指定分页页数和每页数据条数参数,通过多次 调用完成全部数据结果查询。在各业务系统及场景需求出现变更时,要对对应的数据服务进行修改、下线、 重新发布等操作。通过API网关(API Gateway)提供数据服务API托管服务,可实现API发布、管理、 运维、下线的全生命周期管理。

(3)利用大数据分析平台资源使用,数据接入、存储、整合、分析、安全、运行等可视化全链路监 控,通过桌面、大屏等可视化手段,展示故障告警可视化展示:

通过事件的方式按照定义规则进行检查,当满足规则时进行告警,支持以站内信息、邮件、短信方式 进行通知。

服务引擎告警:对服务引擎CPU、内存指标进行检测,当达到阈值时进行告警;

服务状态告警:实时探测服务状态,当服务停止运行及时进行告警通知;

服务质量告警:针对服务的访问异常、响应时间进行监控,当访问出现异常或者响应时间达到配置阈 值时自动进行告警。

(4)数据质量检验

在数据服务共享发布整个环节提供对数据资源质量检核能力,在事前、事中、事后进行质量核检,保 证数据质量。支持按照自定义规则进行检核。

事前:对主外键、时间戳字段、数据类型等进行检查;

事中:对非空、重复记录等进行核检;

事后:对及时性、一致性等进行核检。

(5)服务访问控制

消费方系统通过SpringCloud Gateway访问数据服务,依次通过token授权、IP白名单、访问频度、 访问流量多重拦截器进行控制,保证服务访问安全。

(6)数据加密及脱敏

数据服务引擎端提供安全组件,保证数据访问安全,主要从以下几个方面进行控制:数据加密:提供 MD5、DES、AES、RSA等多种数加密方式;数据脱敏:根据脱敏规则对字段任意数据进行脱敏,如常规替换、 加密替换等;行列级权限:对消费方系统提供行级、列级数据权限控制。

(7)数据服务监控

数据服务监控主要从异步日志落地、日志读取解析指标、指标存储及故障处理等方面去考虑。

在运行环境中日志引擎(SSM)与Gateway一对一部署,通过异步分析Gateway调用日志提供服务调 用结果、服务性能、服务调用耗时等指标。

可以理解的是,以上关于本发明的具体描述,仅用于说明本发明而并非受限于本发明实施例所描述的 技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术 效果;只要满足使用需要,都在本发明的保护范围之内。

相关技术
  • 基于大数据技术的安全可监测无接口的数据分析服务方法
  • 一种基于大数据技术的超大型互联网平台安全等级保护威胁信息监测与分析系统及方法
技术分类

06120112322417