一种面向海量异构多维数据采集的质量大数据系统
文献发布时间:2023-06-19 09:57:26
技术领域
本发明涉及数据处理技术领域,特别涉及一种面向海量异构多维数据采集的质量大数据系统。
背景技术
目前,通过多维异构数据的采集技术,进行质量数据的大数据分析问题,为质量控制与管理的相关业务提供预测分析,并且从市场业务的角度进行数据的分析和业务的预测,可以做到市场的预测、销量的预测、产品运行状态的预测。
但目前大多是基于企业的角度进行分析,在决策的过程中,由于采集的数据不全面,且采用大量的人为判断,导致分析结果不准确。
因此本发明提供了一种面向海量异构多维数据采集的质量大数据系统。
发明内容
本发明提供一种一种面向海量异构多维数据采集的质量大数据系统,用以解决采集的数据不全面,凭借人为经验对质量数据分析不准确的问题,从而提高对质量数据分析预测的准确度,为质量控制与管理的相关业务提供准确的分析。
本发明提供了一种面向海量异构多维数据采集的质量大数据系统,包括:
海量异构多维数据采集模块,用于对海量异构质量数据进行采集;
质量数据治理模块,用于对采集的海量异构质量数据进行数据治理;
超大规模质量数据存储模块,用于存储数据治理后的海量异构质量数据;
质量数据智能诊断分析模块,用于通过多种数据模型对数据治理后的海量异构质量数据进行数据智能诊断分析;
质量数据多维动态感知模块,用于根据数据智能诊断结果,将数据治理后的海量异构质量数据进行可视化展示;
质量数据专项数据应用模块,用于基于可视化展示结果提取专项数据,并面向使用者进行数据服务。
优选的,所述的质量大数据系统,包括:
采集到的所述异构质量数据包括:电商平台质量数据、电商平台营销数据、质检机构质量检验检测数据、质量监督抽查数据、生产厂家出厂备案数据、质量投拆举报数据、质量舆情监测数据。
优选的,所述的质量大数据系统,所述质量数据治理模块包括:
数据拆解单元,用于将所述海量异构质量数据中的复杂信息进行智能拆解;
数据处理单元,用于根据预设的数据关联、智能匹配方法对拆解后的复杂信息进行标准化;
数据清洗单元,用于将标准化后的复杂信息进行清洗。
优选的,所述的质量大数据系统,所述质量数据存储模块包括:
数据查询单元,用于通过预设的存储查询方法对待存储的所述海量异构质量数据进行定位,查询需要的目标异构质量数据;
数据接入单元,用于通过预设的高压缩比技术,将查询到的所述目标异构质量数据进行数据接入。
优选的,所述的质量大数据系统,还包括:
所述质量数据存储模块,还用于在对数据进行存储时,从应用、用户、内容、时间、威胁、位置六个维度实现对数据的一体化网络安全防护;
同时,所述质量数据存储模块,还用于为多分级可量化动态标准体系在进行产品质量监管和服务时,提供应用支撑。
优选的,所述的质量大数据系统,包括:
所述数据接入的方式是采用实时数据接入、数据库接入、文本接入、互联网数据接入、第三方匹配数据补充接入中的任一种或多种方式的组合。
优选的,所述的质量大数据系统,对数据治理后的海量异构质量数据进行数据智能诊断分析的方法,包括:
回归分析、聚类分析、关联分析方法中的任一种或多种方法。
优选的,所述的质量大数据系统:
所述质量数据多维动态感知模块,还用于通过动态表格、辅以仪表盘、柱状图、饼状图、GIS地图、散点图中的任一种或多种方式;将待展示数据进行可视化展示;
其中,所述待展示数据包括:
市场的预测数据、销量的预测数据、产品运行状态的预测数据、产品指标、限量值的不同、对指标限量要求的变化趋势;
且所述待展示数据与数据治理后的海量异构质量数据有关。
优选的,所述的一种面向海量异构数据采集的质量大数据系统,质量数据专项数据应用模块,包括:
多分级可量化产品质量标准单元、多维数据支撑产品质量监管单元以及消费品外观质量识别与监测单元中的一种或多种组合。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中种面向海量异构多维数据采集的质量大数据系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本实施例提供了一种面向海量异构多维数据采集的质量大数据系统,如图1所示,包括:
海量异构多维数据采集模块,用于对海量异构质量数据进行采集;
质量数据治理模块,用于对采集的海量异构质量数据进行数据治理;
超大规模质量数据存储模块,用于存储数据治理后的海量异构质量数据;
质量数据智能诊断分析模块,用于通过多种数据模型对数据治理后的海量异构质量数据进行数据智能诊断分析;
质量数据多维动态感知模块,用于根据数据智能诊断结果,将数据治理后的海量异构质量数据进行可视化展示;
质量数据专项数据应用模块,用于基于可视化展示结果提取专项数据,并面向使用者进行数据服务。
该实施例中,采集的异构质量数据包括:电商平台质量数据、电商平台营销数据、质检机构质量检验检测数据、质量监督抽查数据、生产厂家出厂备案数据、质量投拆举报数据、质量舆情监测数据。
该实施例中,多维动态感知模块指的是通过图表形式将分析数据通过图表进行直观的展示。
该实施例中,对所述海量异构数据进行数据分析的方法包括:回归分析、聚类分析、关联分析方法中的任一种或多种方法。
上述技术方案的有益效果是:将采集到的异构多维数据进行治理,并进行诊断分析,解决了因人为经验造成质量分析预测结果不准确的弊端,完成对质量数据的准确分析,从而提高用户对质量数据分析的准确度,便于为质量控制与管理的相关业务提供准确的分析。
实施例2:
在上述实施例1的基础上,本实施例提供了质量大数据系统,所述质量数据治理模块包括:
数据拆解单元,用于将所述海量异构质量数据中的复杂信息进行智能拆解;
数据处理单元,用于根据预设的数据关联、智能匹配方法对拆解后的复杂信息进行标准化;
数据清洗单元,用于将标准化后的复杂信息进行清洗。
上述技术方案的有益效果是:数据治理解决了标准不统一,数据冗余、缺失、冲突等问题,确保质量数据可共享性、高质量、一致性,确保质量大数据分析的精准和高效,质量数据治理模块,通过对数据进行管理,将复杂的信息进行智能拆解,通过数据标准化,对数据进行清洗,提高用户对质量数据分析预测的准确度,便于为质量控制与管理的相关业务提供准确的分析。
实施例3:
在上述实施例2的基础上,本实施例提供了质量大数据系统,所述数据清洗单元在对标准化后的数据进行清洗时,还包括:
获取所述异构多维质量数据,并根据预设数据拆解规则将所述异构多维质量数据进行横向切分,获得N个横向数据子集;
同时,将所述异构多维质量数据在进行纵向切分,获得M个纵向数据子集;
其中,N的取值大小与M相同;
确定所述横向数据子集与所述纵向数据子集的耦合度和相似度;
通过预设算法,根据所述耦合度和相似度,将所述横向数据子集与所述纵向数据子集按重要程度进行排序,并赋于相应的标签,得到待清洗数据;
基于所述标签,获取所述待清洗数据的属性信息,并基于所述属性信息将所述多个待清洗数据划分为至少一个类别的待清洗数据;
分别从每个类别的所述待清洗数据中抽取部分中间数据,并根据预设的数据清洗规则分别对每个类别的中间数据进行清洗,得到中间数据清洗结果;
根据所述中间数据清洗结果确定所述每个类别的待清洗数据所对应的实际清洗规则;
基于所述每个类别的待清洗数据对应的实际清洗规则,去除所述待清洗数据中的错误数据;
所述错误数据至少包括空值和非数据类型数据;
同时,对去除所述待清洗数据中的错误数据后的所述待清洗数据进行数据点补位,并根据时间因素对所述待清洗数据进行排序,并生成对应的序列号;
根据所述序列号,计算所述待清洗数据的综合特征值,并根据所述综合特征值去除所述待清洗数据中的极值;
同时,根据所述待清洗数据的特综合征值筛选出所述待清洗数据中的异常数据,并将所述异常数据进行清除,完成对所述待清洗数据的清洗。
该实施例中,横向切分和纵向切分是为了将复杂的数据信息进行智能拆解,通过数据标准化,对数据进行清洗,通过数据质量控制平台实现清洗的自动化。
该实施例中,耦合度是数据之间关联程度的度量,耦合的强弱取决于调用数据的方式以及通过界面传送数据的多少。
该实施例中,相似度指的是用来衡量横向数据子集与所述纵向数据子集之间的血缘关系以及之间是否存在公用同一数据块的度量。
该实施例中,预设算法时预先设定好的,是根据数据重要程度计算权重,并根据权重对数据进行排序。
该实施例中,中间数据指的是待清洗数据中某个数据段中的中间部分数据,通过该段数据确定整段数据清洗的规则。
该实施例中,综合特征值指的是目标质量数据中的极差、平均值、标准差以及方差之间进行运算得到的一个能够代表目标质量数据的一个特征值。
该实施例中,预设数据拆解规则指的是通过预先设定好的数据划分规则或者手段将一个数据块拆分成多个从属的小数据块。
该实施例中,预设的数据清洗规则通过数据排查、筛选等方法查找质量数据中的异常数据的手段。
该实施例中,实际清洗规则根据清洗结果确定适合本数据块的异常数据排查规则或方法。
该实施例中,数据点补位指的是将清除异常数据后的原数据中空缺的位置进行补充,使得原始数据足够完整,构成一个完整的数据链。
上述技术方案的有益效果是:通过对质量数据进行横向以及纵向切分,得到N个横向数据子集以及M个纵向数据子集,实现将复杂数据进行拆解,别于对质量数据进行分析处理,同时在拆分完成后通过预设清洗规则确定清洗数据的实际清洗规则,完成对目标质量数据中错误以及异常数据的清洗,确保了处理后的数据准确可靠,降低了在对质量数据分析过程中因错误数据导引分析结果偏差的可能性,为提高对质量数据分析结果的足够准确提供了可靠的分析数据。
实施例4:
在上述实施例2的基础上,本实施例提供了质量大数据系统,所述数据清洗单元在对标准化后的数据进行清洗时,还包括:
基于待清洗数据的综合特征值筛选所述待清洗数据中的异常数据,并将所述异常数据进行清除,完成对所述待清洗数据的清洗,具体步骤包括:
获取待清洗数据,并计算所述待清洗数据的综合特征值;
根据如下公式计算所述待清洗数据的综合特征值:
其中,
根据如下公式计算通过所述特征值对所述异常数据的筛选率:
其中,
将计算得到的筛选率与预设筛选率进行比较;
若所述筛选率大于或者等于所述预设筛选率,完成对所述异常数据的筛选,并根据计算得到的筛选率对所述异常数据进行清除,完成对所述待清洗数据的清洗;
否则,基于所述特征值重新对所述待清洗数据进行筛选,直至所述筛选率大于或者等于所述预设筛选率;
同时,重复计算多组特征值对应的异常数据的筛选率,并将所述特征值与异常数据的筛选率的一一对应关系生成关系对应表进行存储,完成根据所述待清洗数据的特征值快速确定相应的异常数据的筛选率。
该实施例中,综合特征值指的是目标质量数据中的极差、平均值、标准差以及方差之间进行运算得到的一个能够代表目标质量数据的一个特征值。
该实施例中,误差因子的取值范围为[0.1,0.5]。
该实施例中,筛选概率因子的取值取值范围为[0.5,0.9]。
上述技术方案的有益效果是:通过待清洗数据的综合特征值筛选出所述待清洗数据中的异常数据,并将所述异常数据进行清除;在计算待清洗数据的综合特征值时,涉及待清洗数据的极差、方差、标准差以及平均值,使得在计算得到的综合特征值涵盖全面,最终得到的结果具有代表性,在计算根据特征值对所述异常数据的筛选率时,通过误筛率,得出筛选的数据中正常数据所占的比例,同时通过异常数据与筛选出的总量的比值,最终通过计算得到异常数据的筛选率,通过根据计算得到的筛选率对异常数据的筛选,从而完成对异构多维质量数据的治理,使得最终得到的数据更加准确可靠,通过对数据进行筛选,确保最后进行质量分析预测的数据足够可靠准确,提高了质量数据分析预测的准确度。
实施例5:
在上述实施例1的基础上,本实施例提供了质量大数据系统,所述质量数据存储模块包括:
数据查询单元,用于通过预设的存储查询方法对待存储的所述海量异构质量数据进行定位,查询需要的目标异构质量数据;
数据接入单元,用于通过预设的高压缩比技术,将查询到的所述目标异构质量数据进行数据接入。
该实施例中,目标异构质量数据指的是用户需要的关于特征方面的质量数据。
该实施例中,数据接入的方式是采用实时数据接入、数据库接入、文本接入、互联网数据接入、第三方匹配数据补充接入中的任一种或多种方式的组合
上述技术方案的有益效果是:能够快速从数万亿条规模的海量数据中定位准确的数据,并采用高压缩比的技术方案,为用户提供安全响应与分析能力的同时节省存储资源,实现质量数据的安全、可靠存储,为质量大数据平台建立和运行提供环境保障。
实施例6:
在上述实施例5的基础上,本实施例提供了质量大数据系统:
所述质量数据存储模块,还用于在对数据进行存储时,从应用、用户、内容、时间、威胁、位置六个维度实现对数据的一体化网络安全防护;
同时,所述质量数据存储模块,还用于为多分级可量化动态标准体系在进行产品质量监管和服务时,提供应用支撑。
上述技术方案的有益效果是:通过在数据存储时,对数据进行保护,为数据的安全存储提供了保障,便于采集到的异构多维数据足够准确可靠。
实施例7:
在上述实施例1的基础上,本实施例提供了质量大数据系统,还包括:
所述质量数据多维动态感知模块,还用于通过动态表格、辅以仪表盘、柱状图、饼状图、GIS地图、散点图中的任一种或多种方式将待展示数据进行可视化展示;
其中,所述待展示数据包括:
市场的预测数据、销量的预测数据、产品运行状态的预测数据、产品指标、限量值的不同、对指标限量要求的变化趋势;
且所述待展示数据与数据治理后的海量异构质量数据有关。
该实施例中,动态表格可以对表格进行旋转、切片、向上钻取、向下钻取。
上述技术方案的有益效果是:通过多种图表形式,进行多种方式可视化展示,为使用者从多个维度进行多方面分析,能够有效地展示出复杂数据中蕴含的最有价值的信息,解决了因人为经验造成质量分析预测结果不准确的弊端,完成对质量数据的准确分析。
实施例8:
在上述实施例1的基础上,本实施例提供了一种面向海量异构数据采集的质量大数据系统,质量数据专项数据应用模块,包括:
多分级可量化产品质量标准单元、多维数据支撑产品质量监管单元以及消费品外观质量识别与监测单元中的一种或多种组合。
上述技术方案的有益效果是:通过质量大数据专项应用模块,将分析得到的质量数据面向用户使用,便于为质量控制与管理的相关业务提供准确的分析。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
- 一种面向海量异构多维数据采集的质量大数据系统
- 一种面向海量异构多维数据采集的质量大数据系统