掌桥专利:专业的专利平台
掌桥专利
首页

一种基于大数据的数据文件共享系统及方法

文献发布时间:2024-04-18 19:57:31


一种基于大数据的数据文件共享系统及方法

技术领域

本发明涉及大数据技术领域,具体为一种基于大数据的数据文件共享系统及方法。

背景技术

大数据本质上讲是一个来自各种来源的非结构化或结构化巨型数据集组成的信息资产,具有海量、高增长率、多样化和低价值密度等特征,而随着近些年大数据技术的不断发展,逐渐步入了大众的视野,成为了未来互联网市场的主角,因此,基于大数据的应用领域也在不断的增加,而将大数据应用于数据文件共享是一种新的尝试;

中国发明专利(CN116436708A)公开了一种基于区块链技术的可信数据分享方法和系统,其通过数据拥有者将需要分享的数据上传至数据分发节点,基于区块链技术的网络,使用分布式账本将加密后的数据存储在区块链上,用户通过共享链接获取所需数据。

存在着以下缺点:

1、只能存储数据拥有者所分享的数据文件,无法更全面利用互联网大数据,用户只能在有限的数据文件里进行查找。

2、存在上传数据文件数据重复、缺失、异常、格式标准错误、失效的可能性。

3、用户只能通过共享链接获取共享数据,无法进行检索查找,并进行相似内容拓展类比。

4、无法判断相同类别的共享数据文件的质量优先级。

发明内容

本发明的目的在于提供一种基于大数据的数据文件共享系统及方法,以解决上述背景技术中提出的问题。

为了解决上述技术问题,本发明提供如下技术方案:

一种基于大数据的数据文件共享系统,该数据文件共享系统包括数据采集模块、数据安全隐私保护模块,数据存储归档单元、数据访问共享模块,数据分析应用模块和系统优化模块;

所述数据访问共享模块对用户进行访问控制后,为用户提供数据文件检索查询功能和分享数据文件功能;所述数据采集模块根据用户检索的关键字在互联网进行采集数据文件和采集用户上传共享的数据文件,并且对采集到的数据文件进行数据清洗和预处理;所述数据安全隐私保护模块将预处理后的数据文件进行数据加密和数据脱敏,确保数据的保密完整性;所述数据存储归档模块将加密脱敏后的数据文件进行存储备份;所述数据分析应用模块为用户提供归档数据文件的备选数据文件,并提供与检索存储的数据文件的数据类比结果;所述系统优化模块追踪用户对存储数据文件的下载次数和检索次数,并且记录用户下载使用数据文件后对数据文件的评分反馈,根据检索下载次数和评分反馈设置常用关键词和存储文件检索排序;

所述数据访问共享模块的输出端连接数据数据采集模块、数据分析应用模块和系统优化模块的输入端,所述数据采集模块的输出端连接数据安全隐私保护模块的输入端,所述数据安全隐私保护模块的输出端连接数据存储归档模块的输入端,所述数据存储归档模块的输出端连接数据访问共享模块和数据分析应用模块的输入端,所述数据分析应用模块的输出端连接数据访问共享模块的输入端。

根据上述技术方案,所述数据访问共享模块包括访问控制单元、访问单元和共享单元;

所述访问控制单元采用数据共享协议对用户建立访问权限控制,限制对数据的访问和操作,用于防止未经授权的使用资源;所述访问单元为经过授权的用户提供关键词检索功能;所述共享单元可以使用户上传分享数据文件资源;

所述访问控制单元的输出端连接访问单元的输入端,所述访问单元的输出端连接数据采集模块和系统优化模块的输入端,所述共享单元的输出端连接数据采集模块的输入端。

根据上述技术方案,所述数据采集模块包括采集单元、清洗单元和预处理单元;

所述数据采集单元为网络爬虫、API接口调用和用户共享采集用户检索的数据文件;所述清洗单元是基于唯一标识符去除重复采集数据、基于条件平均值填充法填补缺失采集数据和基于聚类算法处理异常采集数据;所述预处理单元是数据格式转换和数据标准化,所述数据格式转换对清洗后的数据进行规格化处理进行格式转换;所述数据标准化使用数据无量纲化处理对格式转换后的数据文件进行标准化;

所述采集单元的输出端电性连接清洗单元的输入端,所述清洗单元的输出端电性连接预处理单元的输入端,所述预处理单元单元的输出端连接数据安全隐私保护模块。

根据上述技术方案,所述数据安全隐私保护模块包括数据加密单元和数据脱敏单元;

所述数据加密单元利用公开密钥对预处理后的数据文件进行加密,实现信息隐蔽,从而保护数据文件的安全;所述数据脱敏单元对加密后的预处理数据文件中的敏感数据进行脱敏处理,以保护个人隐私;

数据加密单元的输出端连接数据脱敏单元的输入端,数据脱敏单元的输出端连接数据存储处理模块的输入端。

根据上述技术方案,所述数据存储处理模块包括存储归档单元和备份恢复单元;

所述存储归档单元利用列名匹配将经过加密脱敏后的数据整合在一起并进行存储;所述备份恢复单元通过网盘将存储归档后的数据进行备份和恢复,以保证数据的可靠性和可恢复性;

所述存储归档单元的输出端连接备份恢复单元和数据访问共享模块和数据分析应用模块的输入端。

根据上述技术方案,所述数据分析应用模块包括数据分析单元和数据可视化单元;

所述数据分析单元对存储归档后的数据文件进行关键词提取,为用户提供相似关键词的数据文件作为用户检索备选数据文件,并与检索存储的数据文件通过文本匹配比对文本的相似性进行数据类比;所述数据可视化单元将数据分析单元提供的数据类比结果展示成表格、图表、地图、图形的形式;

所述数据分析单元的输出端连接的数据可视化单元的输入端,所述数据可视化单元的输出端连接数据访问共享模块的输入端。

根据上述技术方案,所述系统优化模块包括访问监控单元和优化演进单元;

所述访问监控单元追踪用户对存储数据文件的下载次数和检索次数,体现用户对数据文件的需求倾向,并且提供评分机制用于记录用户下载使用数据文件后对数据文件的评分反馈;所述优化演进单元基于访问监控单元得出的访问次数、下载次数和评分反馈,将访问次数最高的关键词设置检索常用关键词、同一检索关键词的数据文件按照最高下载次数和评分反馈高的顺序进行优先排序,对评分反馈低的数据文件重新进行数据采集;

所述访问监控单元的输出端连接优化演进单元的输入端,所述优化演进单元的输出端连接数据采集模块的输入端。

为更好的实现上述方案还提出了一种基于大数据的数据文件共享方法,该数据文件共享的方法包括以下步骤:

访问共享文件,所述访问共享文件是指用户经过数据共享协议的授权后,在系统上可以对数据文件进行关键词查询、检索,并且上传分享数据文件资源;

采集数据文件,所述采集数据文件是通过网络爬虫、调用API接口和收集用户上传共享的数据文件三种方式获得用户所需的数据文件;

清洗数据文件,所述清洗数据文件是基于唯一标识符将采集数据中的重复数据删除,去除重复数据后根据条件平均值填充法填补遗漏的缺失值,最后基于聚类算法处理去除重复数据和填补缺失数据后的异常数据;

预处理数据文件,所述预处理文件指的是对清洗后的数据进行规格化处理实现格式转换和使用数据无量纲化处理对格式转换后的数据进行标准化;

保护数据文件安全隐私,所述保护数据文件安全隐私指的是利用公开密钥对预处理后的数据文件进行加密,实现信息隐蔽,并且对数据文件加密后含有的敏感数据进行脱敏处理,以保护个人隐私;

存储归档文件,所述存储归档文件利用列名匹配将经过加密脱敏后的数据整合在一起并进行存储和通过网盘将存储归档后的数据进行备份和恢复,以保证数据的可靠性和可恢复性;

数据分析应用,所述数据分析应用对存储归档后的数据文件进行关键词提取,为用户提供相似关键词的数据文件作为用户检索备选数据文件,并与检索存储的数据文件通过文本匹配比对文本的相似性进行数据类比,并且将数据类比结果展示成表格、图表、地图、图形的形式;

系统优化,所述系统优化是追踪用户对存储数据文件的下载次数和检索次数,并且提供评分机制用于记录用户下载使用数据文件后对数据文件的评分反馈,基于访问监控单元得出的访问次数、下载次数和评分反馈,将访问次数最高的关键词设置检索常用关键词、同一检索关键词的数据文件按照最高下载次数和评分反馈高的顺序进行优先排序,对评分反馈低的数据文件重新进行数据采集。

与现有技术相比,本发明所达到的有益效果是:

1、大数据采集资源种类数量巨大,不止局限于用户分享的数据资料。

2、数据文件资料经过清洗预处理,避免了数据重复、遗漏、异常的情况并且统一数据格式标准模式。

3、可以进行关键词搜素对数据检索、查询、下载,无需共享链接,并且对相似关键词的数据文件用作备选类比。

4、用户可以基于存储数据文件下载次数和检索次数的排序,并且提供评分机制的反馈选择优先排序和高评分的数据文件。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明一种基于大数据的数据文件共享系统的模块示意图;

图2是本发明一种基于大数据的数据文件共享系统的单元连接示意图;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1-图2,本发明提供技术方案:

一种基于大数据的数据文件共享系统,该数据文件共享系统包括数据采集模块、数据安全隐私保护模块,数据存储归档单元、数据访问共享模块,数据分析应用模块和系统优化模块;

所述数据访问共享模块对用户进行访问控制后,为用户提供数据文件检索查询功能和分享数据文件功能;所述数据采集模块根据用户检索的关键字在互联网进行采集数据文件和采集用户上传共享的数据文件,并且对采集到的数据文件进行数据清洗和预处理;所述数据安全隐私保护模块将预处理后的数据文件进行数据加密和数据脱敏,确保数据的保密完整性;所述数据存储归档模块将加密脱敏后的数据文件进行存储备份;所述数据分析应用模块为用户提供归档数据文件的备选数据文件,并提供与检索存储的数据文件的数据类比结果;所述系统优化模块追踪用户对存储数据文件的下载次数和检索次数,并且记录用户下载使用数据文件后对数据文件的评分反馈,根据检索下载次数和评分反馈设置常用关键词和存储文件检索排序;

所述数据采集模块的输出端连接数据安全隐私保护模块的输入端,所述数据安全隐私保护模块的输出端连接数据存储归档模块的输入端,所述数据存储归档模块的输出端连接数据访问共享模块和数据分析应用模块的输入端,所述数据访问共享模块的输出端连接数据数据采集模块、数据分析应用模块和系统优化模块的输入端,所述数据分析应用模块的输出端连接数据访问共享模块的输入端。

所述数据访问共享模块包括访问控制单元、访问单元和共享单元;

所述访问控制单元采用数据共享协议建立明确的访问权限控制策略,所述数据共享协议通过涉及数据使用目的、共享的数据范围、保密性要求、法律责任来明确用户对数据资源的访问权限、使用方式、约束条件和合规要求,限制对数据的访问和操作,用于防止未经授权的使用资源;所述访问单元提供数据检索功能,经过数据文件共享协议授权后,用户在系统上通过数据检索功能输入数据文件的关键词进行查询、检索来寻找数据文件;所述共享单元可以使用户经过数据文件共享协议授权后在该系统进行分享数据文件资源;

所述访问控制单元的输出端连接访问单元的输入端,所述访问单元的输出端连接数据采集模块和系统优化模块的输入端,所述共享单元的输出端连接数据采集模块的输入端。

所述数据采集存储模块包括采集单元和存储单元;

所述数据采集模块包括采集单元、清洗单元和预处理单元;

所述数据采集单元为网络爬虫、API接口调用和用户共享,数据采集单元根据用户检索的关键词通过爬虫程序从互联网上抓取网页内容,对网站进行遍历并提取数据,调用API接口采集网站和应用程序大规模结构化的数据,并且采集用户自发上传数据文件进行共享;所述清洗单元是去除重复数据、填补缺失数据和处理异常数据,清洗单元通过查找采集单元采集的数据是否存在相同的数据集唯一标识符检测到重复数据并进行将重复数据删除,去除重复数据后利用条件平均值填充法计算与缺失值具有相同决策属性数据的平均值填补遗漏的缺失值,去除重复数据和填补缺失数据后基于聚类算法将相似或相邻近的数据聚合在一起的聚类集合之外的数据的异常值去除;所述预处理单元是数据格式转换和数据标准化,预处理单元使用通过移动数据值的小数位置的十基数变换规格化方法对清洗后的数据进行规格化处理实现格式转换;格式转换后预处理单元使用Z-score标准化法对清洗的数据文件进行数据无量纲化处理得出标准化后的数据,所述Z-score标准化法需要根据以下公式对数据进行计算:

其中,x'为进行标准化后的值,

所述采集单元的输出端电性连接清洗单元的输入端,所述清洗单元的输出端电性连接预处理单元的输入端,所述预处理单元单元的输出端连接数据安全隐私保护模块。

所述数据安全隐私保护模块包括数据加密单元和数据脱敏单元;

所述数据加密单元利用Rabin基于计算模合数平方根困难性问题的公钥密码算法对预处理后的数据文件进行加密,实现信息隐蔽,从而保护数据文件的安全;所述数据脱敏单元对加密后的数据文件中的敏感数据转换为不可逆的匿名形式进行脱敏处理,以确保数据的匿名性并防止个人身份被泄露;

数据加密单元的输出端连接数据脱敏单元的输入端,数据脱敏单元的输出端连接数据存储处理模块的输入端。

所述数据存储处理模块包括存储归档单元和备份恢复单元;

所述存储归档单元利用使用字符串匹配算法比对经过数据预处理后的不同数据源的列名,找出相同或相似的列名实现列名匹配,列名匹配将经过加密脱敏后的数据整合在一起并进行存储;所述备份恢复单元通过网盘将存储归档后的数据进行备份和恢复,以保证数据的可靠性和可恢复性,所述网盘是由互联网公司推出的在线存储服务;

所述存储归档单元的输出端连接备份恢复单元和数据访问共享模块和数据分析应用模块的输入端。

所述数据分析应用模块包括数据分析单元和数据可视化单元;

所述数据分析单元对存储归档后的数据文件进行关键词提取,根据用户检索的关键词和数据文件中提取的关键词,为用户提供相似关键词的数据文件作为用户检索备选数据文件,并与检索存储的数据文件通过文本匹配使用TF-IDF算法比对文本的相似性进行数据类比;所述数据可视化单元将数据分析单元提供的数据类比结果展示成表格、图表、地图、图形的形式;

所述数据分析单元的输出端连接的数据可视化单元的输入端,所述数据可视化单元的输出端连接数据访问共享模块的输入端。

所述系统优化模块包括访问监控单元和优化演进单元;

所述访问监控单元是追踪和记录存储数据文件的访问次数和下载次数,并且提供评分机制用于记录用户下载使用数据文件后对数据文件的评分反馈;所述优化演进单元基于访问监控单元得出的访问次数、下载次数和评分反馈,将设置检索常用关键词、同一检索关键词的数据文件按照最高下载次数和评分反馈高的顺序进行优先排序,对评分反馈低的数据文件重新进行数据采集;

所述访问监控单元的输出端连接优化演进单元的输入端,所述优化演进单元的输出端连接数据采集模块的输入端。

为更好的实现上述方案还提出了一种基于大数据的数据文件共享方法,该数据文件共享的方法包括以下步骤:

访问共享文件,所述数据文件共享方法采用涉及数据使用目的、共享的数据范围、保密性要求、法律责任的数据共享协议来明确用户对数据资源的访问权限、使用方式、约束条件和合规要求,限制对数据的访问和操作,用于防止未经授权的使用资源;用户经过数据文件共享协议授权后,用户通过数据检索功能输入数据文件的关键词进行查询、检索来寻找数据文件,以及上传分享数据文件资源;

采集数据文件,所述采集数据文件是根据用户检索的关键词通过爬虫程序从互联网上抓取网页内容,对网站进行遍历并提取数据和调用API接口采集网站和应用程序大规模结构化的数据,并且采集用户自发上传数据文件进行共享;

清洗数据文件,所述清洗数据文件是通过查找采集单元采集的数据是否存在相同的数据集唯一标识符检测到重复数据并进行将重复数据删除,去除重复数据后利用条件平均值填充法计算与缺失值具有相同决策属性数据的平均值填补遗漏的缺失值,去除重复数据和填补缺失数据后基于聚类算法将相似或相邻近的数据聚合在一起的聚类集合之外的数据的异常值去除;

预处理数据文件,所述预处理文件指的是通过移动数据值的小数位置的十基数变换规格化方法对清洗后的数据进行规格化处理实现格式转换,格式转换后预处理单元使用Z-score标准化法对清洗的数据文件进行数据无量纲化处理得出标准化后的数据,所述Z-score标准化法需要根据以下公式对数据进行计算:

其中,x'为进行标准化后的值,

保护数据文件安全隐私,所述利用Rabin基于计算模合数平方根困难性问题的公钥密码算法对预处理后的数据文件进行加密,实现信息隐蔽,从而保护数据文件的安全,再将加密数据文件中的敏感数据转换为不可逆的匿名形式进行脱敏处理,以确保数据的匿名性并防止个人身份被泄露;

存储归档文件,所述存储归档文件利用使用字符串匹配算法比对经过数据预处理后的不同数据源的列名,找出相同或相似的列名实现列名匹配,列名匹配将经过加密脱敏后的数据整合在一起并进行存储,通过网盘将存储归档后的数据进行备份和恢复,以保证数据的可靠性和可恢复性,所述网盘是由互联网公司推出的在线存储服务;

数据分析应用,所述数据分析应用对存储归档后的数据文件进行关键词提取,根据用户检索的关键词和数据文件中提取的关键词,为用户提供相似关键词的数据文件作为用户检索备选数据文件,并与检索存储的数据文件通过文本匹配使用TF-IDF算法比对文本的相似性进行数据类比,将数据类比结果向用户展示成表格、图表、地图、图形的形式。

系统优化,所述系统优化追踪和记录存储数据文件的访问次数和下载次数,并且提供评分机制用于记录用户下载使用数据文件后对数据文件的评分反馈,基于访问监控单元得出的访问次数、下载次数和评分反馈,将访问次数最高的关键词设置检索常用关键词、同一检索关键词的数据文件按照最高下载次数和评分反馈高的顺序进行优先排序,对评分反馈低的数据文件重新进行数据采集。

实施例一:

用户登录后获得访问授权并同意共享协议后可以对检索数据文件,数据文件通过清洗时重复值系统判断是否存储在系统数据库中,若存在,系统直接调用数据库所存储的文件分享给用户,若不存在,系统基于大数据互联网通过网络爬虫、API接口调用根据用户检索的关键词进行采集数据,采集到的数据文件基于唯一标识符将重复数据删除,去除重复数据后根据同类别平均值填补遗漏的缺失值,最后基于聚类算法处理去除重复数据和填补缺失数据后的异常数据实现清洗,清洗后的数据通过使用对清洗后的数据进行规格化处理实现格式转换和使用数据无量纲化处理对格式转换后的数据进行预处理、利用公开密钥对预处理后的数据文件进行加密,并且对数据文件加密后含有的敏感数据进行脱敏处理,利用列名匹配将经过加密脱敏后的数据整合在一起并进行存储并提供给用户和通过网盘将存储归档后的数据进行备份和恢复,存储归档后的数据文件进行关键词提取,为用户提供相似关键词的数据文件作为用户检索备选数据文件,并与检索存储的数据文件通过文本匹配比对文本的相似性进行数据类比,并且将数据类比结果展示成表格、图表、地图、图形的形式,用户基于存储数据文件下载次数和检索次数的排序,并且提供评分机制的反馈选择优先排序和高评分的数据文件。

实施例二:

用户在所述系统登录后获得访问授权并同意共享协议后,上传共享数据文件。可以通过清洗时重复值系统判断是否存储在系统数据库中经判断是否存储在系统数据库中,若存在,则结束共享;若不存在,系统基于大数据互联网通过网络爬虫、API接口调用根据用户检索的关键词进行采集数据,采集到的数据文件基于唯一标识符将重复数据删除,去除重复数据后根据同类别平均值填补遗漏的缺失值,最后基于聚类算法处理去除重复数据和填补缺失数据后的异常数据实现清洗,清洗后的数据通过使用对清洗后的数据进行规格化处理实现格式转换和使用数据无量纲化处理对格式转换后的数据进行预处理、利用公开密钥对预处理后的数据文件进行加密,并且对数据文件加密后含有的敏感数据进行脱敏处理,利用列名匹配将经过加密脱敏后的数据整合在一起并进行存储并提供给用户和通过网盘将存储归档后的数据进行备份和恢复。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于大数据的脱硫磨制系统钢球调整方法及系统
  • 一种基于大数据的热水器系统故障诊断处理方法及系统
  • 一种基于大数据的智慧城管系统和方法
  • 一种基于大数据的Linux系统下的工具构建方法
  • 一种基于大数据的推荐方法及基于大数据的推荐系统
  • 基于大数据的数据采集方法及大数据系统
技术分类

06120116459117