掌桥专利:专业的专利平台
掌桥专利
首页

一种数据采集处理方法及系统

文献发布时间:2024-04-18 19:58:53


一种数据采集处理方法及系统

技术领域

本发明涉及数据采集处理技术领域,具体涉及一种数据采集处理方法及系统。

背景技术

在大数据领域针对于不同存储介质、不同频次的数据采集有许多技术方案。一些方案中根据不同的数据采取场景构建稳定的单独的数据采集系统,一个典型的例子是实时日志数据的采集。一些方案中通过编写数据采集脚本由任务调度系统管理数据采集任务,典型的例子是数据库数据同步,文件采集。此外还有一些方案中采用第三方工具针对不同场景采用不同组件与大数据集群进行对接,现如今的数据采集系统中,用户需要通过待采集的数据内容编写SQL语句作为第三方工具,这样的采集方式需要依靠依赖采集方的语句编写能力,采集难度高。

发明内容

针对现有技术中的上述问题,本发明提供了一种数据采集处理方法及系统,能够在高效进行数据采集处理,且还能够根据用户选择结果完善SQL语句与预设数据采集请求的映射关系,智能化程度高。

为了达到上述发明目的,本发明采用的技术方案如下:

一方面,提供一种数据采集处理方法,包括以下步骤:

预先对数据表进行统一化处理,根据预设数据采集请求生成第一SQL语句,经所述预设数据采集请求与所述第一SQL语句进行映射,得到第一映射关系,并根据SQL语句请求调取对应的数据表,将根据第一SQL语句与所述数据表进行映射,得到第二映射关系;

响应于用户数据采集请求,调取相似度高于第一阈值的多个预设数据采集请求,并根据第一映射关系得到多个第一SQL语句组成的SQL语句集,再根据SQL语句集与第二映射关系得到多个数据表组成的数据表集,并将数据表集发送给用户;

获取用户在数据表集中所选择的字段,根据所述数据表集和所述字段生成第二SQL语句,根据所述第二SQL语句优化第一映射关系。

作为优选地,获取用户在数据表集中所选择的字段,根据所述数据表集和所述字段生成第二SQL语句时,还包括以下步骤:

获取用户在数据表集中所选择的字段;

识别所述字段的数据类型;

根据所述数据类型配置筛选条件;

根据所述数据表集、所述字段以及所述筛选条件生成SQL语句。

作为优选地,响应于用户数据采集请求时,还包括以下步骤:

步骤a:根据预设数据采集请求对用户数据采集请求进行需求分析;

步骤b:若存在有相似度高于第一阈值的预设数据采集请求,则调取所述预设数据采集请求;

步骤c:若有相似度低于第一阈值但高于第二阈值的预设数据采集请求,则对用户数据采集请求进行填补,填补后返回步骤a。

步骤d:若无相似度高于第二阈值的预设数据采集请求,则将所述用户数据采集请求标记为错误请求,返回至用户端。

作为优选地,所述对用户数据采集请求进行填补时可采用均值插补、利用同类均值插补、极大似然估计、多重插补中的一个或多个缺失值填补方法。

作为优选地,根据SQL语句集与第二映射关系得到数据表集时,具体包括以下步骤:

对所述SQL语句集中的SQL语句进行一一解析,获得多个解析结果,任一所述解析结果包括每个所述字段对应的目标数据所在预设数据表的表名以及每个所述字段对应的目标数据的数据类型;

基于所述解析结果、所述数据表集以及所述筛选条件从所述预设数据表中采集所述目标数据,得到执行结果。

作为优选地,预先对数据表进行统一化处理时,具体包括以下步骤:

对数据表的不同数据采集场景进行统一的数据准备处理;

采用统一的数据采集通道架构流转数据表。

第二方面,提供一种数据采集处理系统,包括如下内容:

统一化模块:所述统一化模块用于对数据表进行统一化处理;

映射模块:所述映射模块用于将数据采集请求与第一SQL语句进行映射,得到第一映射关系;所述映射模块用于将第一SQL语句与数据表进行映射,得到第二映射关系。

获取模块:所述获取模块用于获取用户数据采集请求。

比对模块:所述比对模块用于将用户数据采集请求与预设数据采集请求进行比对。

SQL语句生成模块:所述SQL语句生成模块用于根据用户在数据表集中所选择的字段和所述数据表集生成SQL语句。

作为优选地,还包括存储模块,所述存储模块中存储有数据表和预设数据采集请求。

第三方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述数据采集处理方法。

第四方面,提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述数据采集处理方法。

本发明的有益效果为:本发明通过根据用户数据采集请求调取相似的预设数据采集请求,从而获取多个第一SQL语句组成的SQL语句集,以及与SQL语句集对应的多个数据表组成的数据表集供用户选择,在得到用户的选择结果后,返回到后端对SQL语句与预设数据采集请求的第一映射关系进行优化,无需用户进行SQL语句编写即可满足数据采集处理需求,能够在高效进行数据采集处理,且还能够根据用户选择结果完善SQL语句与预设数据采集请求的映射关系,智能化程度高。

附图说明

图1为本发明提供的一种数据采集处理方法的流程图;

图2为本发明提供的一种数据采集处理方法中根据SQL语句集与第二映射关系得到数据表集时的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

如图1所示,该数据采集处理方法,包括以下步骤:

预先对数据表进行统一化处理,根据预设数据采集请求生成第一SQL语句,经所述预设数据采集请求与所述第一SQL语句进行映射,得到第一映射关系,并根据SQL语句请求调取对应的数据表,将根据第一SQL语句与所述数据表进行映射,得到第二映射关系;

响应于用户数据采集请求,调取相似度高于第一阈值的多个预设数据采集请求,并根据第一映射关系得到多个第一SQL语句组成的SQL语句集,再根据SQL语句集与第二映射关系得到多个数据表组成的数据表集,并将数据表集发送给用户;

获取用户在数据表集中所选择的字段,根据所述数据表集和所述字段生成第二SQL语句,根据所述第二SQL语句优化第一映射关系。

在本方案中,通过根据用户数据采集请求调取相似的预设数据采集请求,从而获取多个第一SQL语句组成的SQL语句集,以及与SQL语句集对应的多个数据表组成的数据表集供用户选择,在得到用户的选择结果后,返回到后端对SQL语句与预设数据采集请求的第一映射关系进行优化,无需用户进行SQL语句编写即可满足数据采集处理需求,能够在高效进行数据采集处理,且还能够根据用户选择结果完善SQL语句与预设数据采集请求的映射关系,智能化程度高;

此处优化的具体步骤包括更改SQL语句与预设数据采集请求的映射关系,增加预设数据采集请求与SQL语句。

更为具体的,获取用户在数据表集中所选择的字段,根据所述数据表集和所述字段生成第二SQL语句时,还包括以下步骤:

获取用户在数据表集中所选择的字段;

识别所述字段的数据类型;

根据所述数据类型配置筛选条件;

根据所述数据表集、所述字段以及所述筛选条件生成SQL语句。

筛选条件为预设条件,可以是用户设置,也可以是计算机默认设置,例如表1中的f1字段的数据类型为数字,则筛选条件配置为表1中的f1字段大于预设值,表2中的f2字段的数据类型为字符串,则筛选条件配置为表2中的f2字段不为空,表3中的f3字段的数据类型为时间,则筛选条件配置为表3中的f3字段的格式为年/月/日。

更为具体的,响应于用户数据采集请求时,还包括以下步骤:

步骤a:根据预设数据采集请求对用户数据采集请求进行需求分析;

步骤b:若存在有相似度高于第一阈值的预设数据采集请求,则调取所述预设数据采集请求;

步骤c:若有相似度低于第一阈值但高于第二阈值的预设数据采集请求,则对用户数据采集请求进行填补,填补后返回步骤a。

步骤d:若无相似度高于第二阈值的预设数据采集请求,则将所述用户数据采集请求标记为错误请求,返回至用户端。

此处第一阈值为:预设数据采集请求与用户数据采集请求相似度大于或等于90%;此处第一阈值为:预设数据采集请求与用户数据采集请求相似度大于或等于70%。

更为具体的,所述对用户数据采集请求进行填补时可采用均值插补、利用同类均值插补、极大似然估计、多重插补中的一个或多个缺失值填补方法。

根据用户数据采集请求的不同情况,可以选用不同的缺失值填补方法,均值插补与利用同类均值插补两种方法适宜于缺失值的类型为随机缺失的情况,极大似然估计和多重插补对用户数据采集请求干扰小,当插补后的值作为解释变量进行回归时,参数的估计值与真实值的偏差较小。

如图2所示,更为具体的,根据SQL语句集与第二映射关系得到数据表集时,具体包括以下步骤:

对所述SQL语句集中的SQL语句进行一一解析,获得多个解析结果,任一解析结果包括每个所述字段对应的目标数据所在预设数据表的表名以及每个所述字段对应的目标数据的数据类型;

基于所述解析结果、所述数据表集以及所述筛选条件从所述预设数据表中采集所述目标数据,得到执行结果。

对解析结果进行筛选处理,减少数据预览处理量,从而提高数据采集效率。

更为具体的,预先对数据表进行统一化处理时,具体包括以下步骤:

对数据表的不同数据采集场景进行统一的数据准备处理;

采用统一的数据采集通道架构流转数据表。

通过对数据表的数据采集场景与数据采集通道架构进行统一化处理,避免由不同的数据采集形式导致的任务部署分散问题,提升数据采集处理的效率。

第二方面,提供一种数据采集处理系统,包括如下内容:

统一化模块:所述统一化模块用于对数据表进行统一化处理;

映射模块:所述映射模块用于将数据采集请求与第一SQL语句进行映射,得到第一映射关系;所述映射模块用于将第一SQL语句与数据表进行映射,得到第二映射关系。

获取模块:所述获取模块用于获取用户数据采集请求。

比对模块:所述比对模块用于将用户数据采集请求与预设数据采集请求进行比对。

SQL语句生成模块:所述SQL语句生成模块用于根据用户在数据表集中所选择的字段和所述数据表集生成SQL语句。

可以理解的是,本发明提供的一种数据采集处理系统与前述各实施例提供的一种数据采集处理方法相对应,一种数据采集处理系统的相关技术特征可参考一种数据采集处理方法的相关技术特征,在此不再赘述。

更为具体的,还包括存储模块,所述存储模块中存储有数据表和预设数据采集请求。

在实施例三中,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述数据采集处理方法。

其中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器、软盘驱动器、固态驱动器、闪存、光盘、磁光盘、磁带或通用串行总线驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性存储器。在特定实施例中,存储器包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programable Read-Only Memory,简称为PROM)、可擦除PROM、电可擦除PROM、电可改写ROM或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器、扩展数据输出动态随机存取存储器、同步动态随机存取内存等。

存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。

处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种数据采集处理方法。

在实施例四中,提供一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述数据采集处理方法。

所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器、磁性存储器、磁盘、光盘等。所述可读存储介质在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述可读存储介质在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡、安全数字卡、闪存卡等。可读存储介质还可以既包括电子设备的内部存储单元也包括外部存储设备。可读存储介质不仅可以用于存储安装于电子设备的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。

本领域内的技术人员应明白,尽管已经描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性的概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围内的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求机器等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种井下数据采集终端、处理系统及处理方法
  • 数据采集系统处理方法及数据采集系统
  • 一种数据采集处理系统及数据采集处理方法
技术分类

06120116513998