掌桥专利:专业的专利平台
掌桥专利
首页

一种大数据自适应采集方法

文献发布时间:2024-04-18 19:58:53


一种大数据自适应采集方法

技术领域

本发明涉及大数据治理与融合技术领域,特别涉及一种大数据自适应采集方法。

背景技术

大数据治理是指以最大限度地发挥数据价值、最小化生产风险为目标的数据管理过程。数据治理的作用在于保证数据的正规化以及减少数据的冗余;数据治理的核心是计划、监测和实施。其中,数据治理的规划指的是对管理数据模型的标准化进行定义,用户能够创建满足业务要求的标准模型,并对模型的属性及规则进行配置,从而设计质检规则和数据清洗原则等。数据治理的监测指的是对数据信息展开一次预览,并对表的血缘关系和字段的血缘关系进行跟踪,从而对数据在数据治理过程中的整个生命周期进行全面的把握。数据治理的实施指的是在对数据清洗、数据集中、质量稽核的规则和标准进行配置之后,进行的详细的数据治理服务。

大数据治理是一个需要持续实施的、繁琐的、需要研究者们不断探究的项目,大数据治理的框架如图1所示,其包括组织、标准、流程、技术和评价五个架构方面的工作任务。

在信息技术飞速发展的背景下,大数据的涌现与应用越来越广泛,对大数据的管理与融合也提出了新的挑战。大数据治理旨在对大数据进行有效的管理、整合与分析,确保数据的高质量、高一致性与高安全性。大数据融合是指将多源、多形式、多领域的多维数据进行集成与关联,从而得到更加全面、准确、有价值的信息。

针对大数据治理和融合问题,国内外学者已开展了大量研究。在大数据治理领域,已有部分研究侧重于数据质量评价与清洗,例如缺失值处理,噪音数据过滤等。此外,还有学者对数据加密、访问控制、隐私脱敏等数据安全与隐私保护方法进行研究。在大数据融合领域,针对异构、不一致等问题,研究人员提出了相应的数据匹配与融合算法。另外,研究人员还提出了从多源数据中挖掘出隐含的关系和模式的相关算法。

然而,目前虽然有一些关于大数据治理和融合的研究,但还存在一些问题,如缺乏标准规范,缺少实践验证和应用实例等。为此,研究拟从数据收集和数据安全两个角度出发,针对已有算法在标准统一、数据适应性强、数据处理规模大、实用化等方面存在的局限性,提出一套适用于大数据治理的自适应算法。

发明内容

本发明要解决的技术问题,在于提供一种大数据自适应采集方法,在数据采集方面,能够根据数据特征和变化自动调整采集的时间间隔,具有较低的失真度,能够提高数据采集的精度。

本发明提供了一种大数据自适应采集方法,其特征在于:使用Bisquare算法来构造一元线性回归模型,并利用所述一元线性回归模型来感知数据的变化,并根据所述一元线性回归模型倾斜度动态调节采集的时间间隔,所述动态调节包括下述步骤:

S1、通过最小二乘法将最近的有限个离散数据点m

式中,

S2、利用残差最小化的方法得到权重的更新值,残差最小化的计算式为:

f'

式中,E为数据点的权重的残差值,y

S3、根据已经得到的a

S4、将新获得的权重w

S5、通过反复所述步骤S4实现迭代,直到迭代前后两次拟合多项式的斜率和截距、之间的相对差小于容差值时结束,此时拟合模型达到最佳状态,在此状态下,输出最佳拟合斜率;

S6、根据得到的最佳拟合斜率所处的范围,确定下次采集的时间间隔。

进一步的,所述S6具体是:如果斜率绝对值|ai+2|越小,则选择越大的采集时间间隔;相反,如果斜率绝对值|ai+2|越大,则选择越小的采集时间间隔。

进一步的,在确定下次采集的时间间隔后,所述大数据自适应采集方法在下一次数据采集时,将最优拟合模型的上下界与标准数据源差分,将差分超过0的点作为异常数据点进行排除。

进一步的,在数据存储时,还通过大数据安全模型进行安全保护,所述大数据安全模型采用的数据保密机制包括用户的离线培训、模型的确认与存储以及模型的聚集;所述用户的离线培训是利用差分隐私技术来对本地数据进行深度学习,实时更新密码权值和局域错误,并将其上传至星际文件系统IPFS节点,并将其哈希值压缩成协议;所述模型的确认与存储和所述模型的聚集均是用户下载已被确认的交易,并通过各个地址下载对应的权值,完成模型聚集,确认后向区块链更新。

进一步的,所述离线培训是利用仿真实验来对以区块链为平台的基于隐私保护的深度学习进行协同训练,采用多层次感知器和卷积神经网络这两种最基本的建模方法,分别对独立同分布和非独立同分布两种数据进行建模,并从数据压缩速率、训练精度、训练效率三个角度对算法的性能进行评价。

本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:在数据采集方面,使用Bisquare算法来构造一元线性回归模型,并利用所述一元线性回归模型来准确感知数据的变化,通过降低噪声数据的影响,并根据所述一元线性回归模型倾斜度动态调节采集的时间间隔,具有较低的失真度,能够提高数据采集的精度。在数据存储方面,基于区块链技术的大数据隐私保护算法能够使得数据压缩率达到0.0018,一方面具有较好的数据存储效果,在IPFS中的压缩率较高,减少了存储成本;另一方面,在保证数据隐私的同时保持了模型的高可用性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明大数据治理的框架示意图;

图2为本发明实施例的采集时间间隔确定流程的流程图;

图3为本发明实施例的噪声过滤原理示意图;

图4为本发明实施例的基于区块链高效存储下隐私保护深度学习框架示意图;

图5为本发明实施例的拟合模型与最佳信号源拟合模型对比结果的示意图;

图6为本发明实施例的最小二乘法与Bisquare拟合模型对比效果示意图;

图7为本发明实施例基于区块链的高效深度学习隐私保护算法的储存效率效果示意图;

图8为本发明实施例不同系统下模型精度对比示意图。

具体实施方式

本申请实施例通过提供一种大数据自适应采集方法,在数据采集方面,能够根据数据特征和变化自动调整采集的时间间隔,具有较低的失真度,能够提高数据采集的精度。

本申请实施例中的技术方案,总体思路如下:在数据采集方面,使用Bisquare算法来构造一元线性回归模型,并利用所述一元线性回归模型来够准确感知数据的变化,并根据所述一元线性回归模型倾斜度动态调节采集的时间间隔,从而能降低失真度,提高数据采集的精度。在数据存储方面,基于区块链技术的大数据隐私保护算法能够使得数据压缩率达到0.0018,大大降低了模型的存储成本。

实施例

本实施例提供一种大数据自适应采集方法,使用Bisquare算法来构造一元线性回归模型,并利用所述一元线性回归模型来感知数据的变化,并根据所述一元线性回归模型倾斜度动态调节采集的时间间隔,所述动态调节包括下述步骤:

S1、通过最小二乘法将最近的有限个离散数据点m

式中,

S2、利用残差最小化的方法得到权重的更新值,残差最小化的计算式为:

f’

式中,E为数据点的权重的残差值,y

S3、根据已经得到的a

S4、将新获得的权重w

S5、如图2所示,通过反复所述步骤S4实现迭代,直到迭代前后两次拟合多项式的斜率和截距、之间的相对差小于容差值时结束,此时拟合模型达到最佳状态,在此状态下,输出最佳拟合斜率;

S6、根据得到的最佳拟合斜率所处的范围,确定下次采集的时间间隔。如果斜率绝对值|ai+2|越小,则选择越大的采集时间间隔;相反,如果斜率绝对值|ai+2|越大,则选择越小的采集时间间隔。例如:设置最大时间间隔为T

当|a

当a

当|a

在确定下次采集的时间间隔后,所述大数据自适应采集方法在下一次数据采集时,将最优拟合模型的上下界与标准数据源差分,将差分超过0的点作为异常数据点进行排除。

在数据的采集与处理过程中,最重要的部分就是对数据离群噪声进行过滤,以提高模型的拟合程度。而基于Bisquare算法的数据采集策略在噪声过滤这一部分就体现了较大的优势。如图3所示,噪声过滤原理是基于现有Bisquare匹配模型,数据获取系统可以在该Bisquare匹配模型的两个端部设定上、下界限,并且根据需要设定上、下界限阀值ε。

在数据存储时,还通过大数据安全模型进行安全保护,所述大数据安全模型采用的数据保密机制包括用户的离线培训、模型的确认与存储以及模型的聚集;所述用户的离线培训是利用差分隐私技术来对本地数据进行深度学习,实时更新密码权值和局域错误,并将其上传至星际文件系统IPFS节点,并将其哈希值压缩成协议;所述模型的确认与存储和所述模型的聚集均是用户下载已被确认的交易,并通过各个地址下载对应的权值,完成模型聚集,确认后向区块链更新。

所述离线培训是利用仿真实验来对以区块链为平台的基于隐私保护的深度学习进行协同训练,采用多层次感知器和卷积神经网络这两种最基本的建模方法,分别对独立同分布和非独立同分布两种数据进行建模,并从数据压缩速率、训练精度、训练效率三个角度对算法的性能进行评价。

区块链是一种公开的帐本,在交易被确认并更新之后,会产生一个新的区块,其中的数据是不能被更改或破坏的。在这个分类账本里,每一个数据块又可以分为两个部分:第一部分包括上一部分的地址、时间标记、随机数、merkle树的根哈希等等。块本体这一部分则记录了用户上传的梯度数据,并将以哈希链表的形式记录下来,随后将merkle的根哈希记录在区块头中。

在经典的深度学习网络架构中,其模型往往含有多个隐含层,每一个隐含层都含有一定数目的神经元,并赋予其相应的权值。在以往的研究中,基本都是通过梯度下降算法来对损失函数进行改进。而且,其中使用最多的方式是随机梯度下降算法。在该算法中,利用训练数据和当前的权重。该算法中通过训练数据和当前的权重计算获取梯度。同时,在梯度已知的情况下,也可以计算出当前的权重值,此时权重的更新方式如下:

W'=W-αG (8);

在上式(8)中,学习率被引入,然后通过不断迭代更新过程,直到达到预定的成本函数或预定的迭代次数,以此实现收敛。为了保护数据隐私,目前最常用的算法是一种典型的分布式算法,该算法在梯度计算中应用了差分隐私技术,并以安全方式处理计算的局部梯度值。此外,该算法还构造了一个半可信的中心服务器,以此实现全局模型的聚合计算。在系统中,每个训练节点都将对本地数据进行训练,在计算完成后,系统将本地梯度上传到中心服务器,然后由中心服务器负责更新全局模型。其更新方法是:

其中,通过对向量

基于以上内容,本发明构建的基于区块链以及深度学习算法的数据隐私保护算法其具体过程如图4所示。数据保密机制包括三个主要部分:用户的离线培训、模型的确认与存储以及模型的聚集。在离线训练阶段,利用差分隐私技术来对本地数据进行深度学习,实时更新密码权值和局域错误,并将其上传至星际文件系统IPFS(InterPlanetary FileSystem)节点,并将其哈希值压缩成协议。在确认与模型聚集两个阶段,用户可以下载已被确认的交易,并通过各个地址下载对应的权值,完成模型聚集,确认后向区块链更新。

其中,为了验证本发明的自适应算法在大数据治理与融合中的应用效果,作如下实验设计:

1、基于Bisquare算法的大数据自适应采集效果。

实验设计:为了验证基于Bisquare算法的数据采集模型的性能,利用Lab VIEW技术,设计了一个具有5个振幅、符合正态分布的最佳观测信号源,使其能够更精确地模拟观测信号的特征。并以这一数据源为最佳收集数据。另外,在数据采集和测试过程中,大多数的噪音都是随机的,它们的振幅是没有规则的。为此,我们将高斯白噪音和一致白噪音加入到原始的最佳信源中,以仿真不同类型的噪音在实际的收集和数据传递中的作用。采用Bisquare自适应算法对上述两个信号源进行仿真采样,并与最优信号源进行比较,然后检验Bisquare模型的拟合度;另外,通过比较Bisquare与最小二乘法平差(Least Squares,LS)两种自适应方法在数据收集上的差异,来验证Bisquare自适应方法在数据收集上的优越性。

(1)Bisquare模型的拟合效果

首先对其拟合度进行了研究,并与最佳信号源模型的拟合效果进行了对比,得到的结果如图5所示。从图5可以看出,Bisquare算法可以有效地减小噪音对模型拟合的影响。Bisquare拟合的数据趋势,跟最好的信号源有很大的一致性,能够精确地反应出数据的变化。

(2)最小二乘法与Bisquare算法的自适应采集效果对比

研究利用最小二乘法和Bisquare算法对所设计的标准数据源进行了测试。图6显示了试验的收集效果比较结果。可以看出最小二乘适应性收集的失真度是相当高的。这是因为使用最小二乘的拟合模型不能很好的区别噪音数据。此外,对含有大量噪音的资料数据,模型会产生很大的失真度。基于Bisquare的自适应采样算法,采用加权算法将异常噪音的影响压缩到最小,此时得到的拟合模型与最佳数据来源的相似度更高。

另外,对于上述两种方式的数据采集失真程度,可用两种方式得到的资料曲线和最佳资料来源曲线中间的区域来表达。通过计算,在相同的时间内,采用小二乘法和Bisquare法分别获得了1.74和1.21的自适应采样值。此外,在1分钟的收集测试中,Bisquare算法所实现的每一数据点失真度均低于最小二乘法。上述数据充分说明了基于Bisquare算法的自适应采集算法具有较好的数据采集效果。

2、基于区块链的高效深度学习隐私保护算法的效果

实验设计:利用仿真实验来对以区块链为平台的基于隐私保护的深度学习进行协同训练,并从数据压缩速率、训练精度、训练效率三个角度对算法的性能进行评价。实验拟采用多层次感知器和卷积神经网络这两种最基本的建模方法,分别对独立同分布和非独立同分布两种数据进行建模,并从不同的数据分布下的建模准确度、不同的隐私保护级别下的建模有效性、区块链上的存储有效性等多个方面展开研究。本实验的实验环境如表2所示。

表2实验环境

此外,在进行IID数据实验时,研究将对数据进行随机混洗,并将其均匀分配给100个客户端进行本地训练。每个客户端接收到600个示例进行训练。而在非IID数据实验中,将根据数字标签对数据进行排序,将其划分为200个大小为300的数据片段,然后将它们分发给各个客户端进行处理。

(1)储存效率

研究以块压缩系数为指标,对实验结果进行了评价。通过对100个客户机进行一次迭代,对MNIST数据进行了空域压缩比的仿真,并对两种存储方法进行了比较,比较的结果如图7所示。

图7显示,在IPFS中储存数据时,数据的增加是微乎其微的,而且数据块的压缩比率为0.0018,极大地减少了模型的存储开销。而且,在IPFS网络上,无需向用户支付任何费用,接入用户仅需等待确认即可,不会产生任何额外的负担。

(2)模型性能对比分析

在实验中,研究将采取卷积神经网络(Convolutional Neural Network,CNN)与多层次感知器(Multilayer Perceptron,MLP)两种不同的方式来进行对比实验,并从精度与效率两个方面对所提出的模型进行评价。将该算法的效率与经典的联邦平均算法相比较,得出了该算法的效率系数,其计算方式为:

γ=T

其中,T

表3不同模型的精度与效率

表3显示,在一定的隐私阈值下,两种模型在测试集中均达到了非常高的预测准确率。相对地,在同样的隐私阈值下,卷积神经网络的聚类结果具有更高的准确度,但是需要花费更多的时间,导致聚类结果变差。而MLP方法的聚合效果则优于CNN,但其聚合结果与CNN方法有很大的差别。上述研究结果说明,本文所提出的方法在其它深度学习算法中也具有一定的可行性,并在网络层次复杂度增加的情况下,更好地加强了模型的可用性。

其次,将提出的聚类算法与传统的基于半信任度中心服务器的分布式聚类算法进行比较,提出一种基于聚类的聚类算法ctr-acc,并在聚类过程中利用可信第三方对聚类结果进行聚类,进而在聚类过程中将聚类结果向各结点公布。两种方案的比较结果如图8所示。

图8显示,所提出的算法相对于ctr-acc系统,能够获得同样精确的测量结果。同时,在隐私预算阈值大于或等于4的情况下,该算法也具有更高的识别率。综上所述,所提算法既能保障数据的隐私性,又能维持模型的高可用性。

综上所述,实验表明:(1)基于Bisquare算法的数据采集模型能够准确反映数据的变化情况,并且通过降低噪声数据的影响,得到更接近最优数据源的拟合模型,相比之下,最小二乘法的自适应采集失真度较高;(2)基于区块链技术的高效深度学习隐私保护算法一方面具有较好的数据存储效果,在IPFS中的压缩率较高,减少了存储成本;另一方面,与传统方案相比研究提出的算法在保证数据隐私的同时保持了模型的高可用性。

虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

相关技术
  • 云计算环境下一种高性能大数据分析系统自适应配置方法
  • 一种大数据采集多核参数自适应分时记忆驱动方法及系统
  • 一种大数据采集多核参数自适应分时记忆驱动方法及系统
技术分类

06120116506528