掌桥专利:专业的专利平台
掌桥专利
首页

一种新型分布式大数据筛选过滤系统

文献发布时间:2024-04-18 19:58:26


一种新型分布式大数据筛选过滤系统

技术领域

本发明涉及电数字数据处理领域,具体涉及一种新型分布式大数据筛选过滤系统。

背景技术

在现有的分布式大数据技术中,通常由终端自行对数据进行筛选,或者将数据上传至中央服务器后再统一筛选,前者效率高,但筛选效果欠佳,后者效果好但效率低,因此需要一种数据过滤系统能够结合两者的优点来对分布式大数据进行筛选。

背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

现在已经开发出了很多数据过滤系统,经过我们大量的检索与参考,发现现有的过滤系统有如公开号为CN104376089B所公开的系统,这些系统方法一般包括:从第一数据项的第一内容中筛选多个第一关键词,所述第一数据项为多个数据项中的一个;将筛选的第一关键词与所述多个数据项的第一内容逐个进行首次匹配,根据匹配结果将所述多个数据项分成匹配程度高和低的两部分;从第一数据项的第二内容中筛选多个第二关键词,将筛选的第二关键词与所述匹配程度低的数据项的第二内容逐个进行匹配,根据匹配结果将所述匹配程度低的数据项的多个数据项分成两部分;其中,所述第一内容的数据量小于第二内容的数据量;将两次匹配后,各次匹配度高的多个数据项的作为一个集合,并对集合内的数据项聚类分析。但该系统是对集中数据的筛选,不适用于分布式数据,且处理大数据时效率较低。

发明内容

本发明的目的在于,针对所存在的不足,提出了一种新型分布式大数据筛选过滤系统。

本发明采用如下技术方案:

一种新型分布式大数据筛选过滤系统,其特征在于,包括分布采集模块、特征提取模块、传输模块、中央分析模块和筛选过滤模块;

所述分布式采集模块用于在各终端采集原始数据,所述特征提取模块用于对各终端的原始数据进行特征处理得到特征信息,所述传输模块用于在终端和中央服务器之间传输数据,所述中央分析模块用于对接收的特征信息进行分析处理得到过滤参数,所述筛选过滤模块基于过滤参数对原始数据进行筛选过滤;

所述特征提取模块包括时间规划单元、数据转移单元和特征处理单元,所述时间规划单元用于设置需要进行数据过滤的时间段,所述数据转移单元从所述数据缓存单元中转移得到对应时间段的数据并保存,所述特征处理单元用于对所述数据转移单元中的数据进行特征计算处理;

所述中央分析模块包括终端管理单元、特征解析单元和参数处理单元,所述终端管理单元用于识别特征信息所属的终端并对终端的信息进行管理,所述特征解析单元用于对接收的特征信息进行解析处理,所述参数处理单元根据解析结果对过滤参数进行计算处理;

所述筛选过滤模块包括有效数据存储单元和过滤执行单元,所述过滤执行单元根据过滤参数对数据转移单元中的数据进行筛选过滤,所述有效数据存储单元用于保存筛选后的数据;

进一步的,所述特征处理单元包括数据分类处理器、质量鉴定处理器和特征计算处理器,所述数据分类处理器基于数据的用途对每份数据进行分类,所述质量鉴定处理器根据数据的完整性以及准确性对每一份数据进行质量鉴定,所述特征计算处理器根据数据转移单元中所有数据的分类信息、质量信息以及数量计算出一个特征数据;

所述质量鉴定处理器根据下式计算出每份数据的鉴定值Cu:

其中,a为数据的完整度,b为数据的准确度;

进一步的,所述特征计算处理器根据下式计算出每类数据的综合质量指数Cq(i):

其中,n(i)为每类数据的数量,i为数据类别的序号,Cu(i,j)表示第i类数据第j份数据的鉴定值,j为每份数据的排序序号;

所述特征计算处理器将综合质量指数构成一个特征向量Fv:

Fv=

进一步的,所述终端管理单元包括通讯识别处理器、特征数据寄存器和特征管理处理器,所述通讯识别处理器用于记录各个终端的通讯码并根据通讯码来识别接收到的信息,所述特征数据寄存器为每个终端创建了一个存储区域用来保存特征数据,所述特征管理处理器用于对特征数据寄存器的存储状态进行监控,并在每个存储区域保存了特征数据后向特征解析单元发送激活信息,当所述特征解析单元对特征数据处理完毕后,所述特征管理处理器将所述特征数据寄存器中的数据清空;

进一步的,所述参数处理单元包括基础参数寄存器和参数计算处理器,所述基础参数寄存器用于保存每个终端每个数据类别的基础筛选参数,所述参数计算处理器对基础筛选参数进行计算处理的到每个终端的筛选向量Sv;

所述参数计算处理器根据下式计算出第j个终端筛选向量Sv的第i个元素值

其中,

本发明所取得的有益效果是:

本系统通过将终端采集的数据特征化,并由中央服务器对特征数据进行分析再返回筛选参数,能够在传输少量数据的前提下结合所有终端的数据特征对数据进行筛选,提高筛选的效果。

为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。

附图说明

图1为本发明整体结构框架示意图;

图2为本发明特征提取模块构成示意图;

图3为本发明中央分析模块构成示意图;

图4为本发明特征处理单元构成示意图;

图5为本发明终端管理单元构成示意图。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。

实施例一:一种新型分布式大数据筛选过滤系统,包括分布采集模块、特征提取模块、传输模块、中央分析模块和筛选过滤模块;

所述分布式采集模块用于在各终端采集原始数据,所述特征提取模块用于对各终端的原始数据进行特征处理得到特征信息,所述传输模块用于在终端和中央服务器之间传输数据,所述中央分析模块用于对接收的特征信息进行分析处理得到过滤参数,所述筛选过滤模块基于过滤参数对原始数据进行筛选过滤;

所述分布采集模块、特征提取模块和筛选过滤模块集成于分布式终端,所述中央分析模块设置于中央服务器中;

所述分布式采集模块包括数据采集单元和数据缓存单元,所述数据采集单元定期从终端采集数据,所述数据缓存单元用于保存采集的数据;

结合图2,所述特征提取模块包括时间规划单元、数据转移单元和特征处理单元,所述时间规划单元用于设置需要进行数据过滤的时间段,所述数据转移单元从所述数据缓存单元中转移得到对应时间段的数据并保存,所述特征处理单元用于对所述数据转移单元中的数据进行特征计算处理;

结合图3,所述中央分析模块包括终端管理单元、特征解析单元和参数处理单元,所述终端管理单元用于识别特征信息所属的终端并对终端的信息进行管理,所述特征解析单元用于对接收的特征信息进行解析处理,所述参数处理单元根据解析结果对过滤参数进行计算处理;

所述筛选过滤模块包括有效数据存储单元和过滤执行单元,所述过滤执行单元根据过滤参数对数据转移单元中的数据进行筛选过滤,所述有效数据存储单元用于保存筛选后的数据;

所述系统对大数据进行过滤筛选的过程包括如下步骤:

S1、所述数据采集单元采集到原始数据并保存在数据缓存单元中;

S2、所述时间规划单元检测到时间满足要求后,向所述数据转移单元发送激活指令;

S3、所述数据转移单元从所述数据缓存单元中获取对应时间段的原始数据;

S4、所述特征处理单元计算出数据转移单元中原始数据的特征信息;

S5、所述特征信息通过所述传输模块被发送至中央分析模块;

S6、所述特征解析单元对每个终端的特征信息进行解析,将解析结果发送至所述参数处理单元;

S7、所述参数处理单元接收到所有终端的解析结果后,计算出每个终端的过滤参数;

S8、所述过滤参数通过所述传输模块被发送至对应终端的筛选过滤模块的过滤执行单元;

S9、所述过滤执行单元对数据进行过滤,过滤后的数据保存在有效数据存储单元中;

结合图4,所述特征处理单元包括数据分类处理器、质量鉴定处理器和特征计算处理器,所述数据分类处理器基于数据的用途对每份数据进行分类,所述质量鉴定处理器根据数据的完整性以及准确性对每一份数据进行质量鉴定,所述特征计算处理器根据数据转移单元中所有数据的分类信息、质量信息以及数量计算出一个特征数据;

所述质量鉴定处理器根据下式计算出每份数据的鉴定值Cu:

其中,a为数据的完整度,b为数据的准确度;

所述特征计算处理器处理得到特征数据的过程包括如下步骤:

S11、统计出每类数据的数量,用n(i)表示,其中,i为数据类别的序号;

S12、将每类数据按照鉴定值从高到低排序,用Cu(i,j)表示,其中,j为每份数据的排序序号;

S13、根据下式计算出每类数据的综合质量指数Cq(i):

S14、将综合质量指数构成一个特征向量Fv=

结合图5,所述终端管理单元包括通讯识别处理器、特征数据寄存器和特征管理处理器,所述通讯识别处理器用于记录各个终端的通讯码并根据通讯码来识别接收到的信息,所述特征数据寄存器为每个终端创建了一个存储区域用来保存特征数据,所述特征管理处理器用于对特征数据寄存器的存储状态进行监控,并在每个存储区域保存了特征数据后向特征解析单元发送激活信息,当所述特征解析单元对特征数据处理完毕后,所述特征管理处理器将所述特征数据寄存器中的数据清空;

所述特征解析单元对特征向量的处理过程包括如下步骤:

S21、将n个特征向量构成一个n*m的矩阵A,用

S22、根据下式处理得到元素

其中,

S23、将元素

所述参数处理单元包括基础参数寄存器和参数计算处理器,所述基础参数寄存器用于保存每个终端每个数据类别的基础筛选参数,所述参数计算处理器基于矩阵B对基础筛选参数进行计算处理的到每个终端的筛选向量Sv;

所述参数计算处理器根据下式计算出第j个终端筛选向量Sv的第i个元素值

其中,

所述过滤执行单元根据下式计算出筛选临界值c(i):

对于步骤S12中排序的数据,所述过滤执行单元对第i类数据的前c份数据数据进行复制并保存至有效数据存储单元。

以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的保护范围,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的保护范围内,此外,随着技术发展其中的元素可以更新的。

相关技术
  • 一种新型分布式大数据筛选过滤装置及方法
  • 一种有利于数据采集的基于大数据秒级检索筛选过滤系统
技术分类

06120116486758