掌桥专利:专业的专利平台
掌桥专利
首页

一种数据拉取方法、系统、存储介质和电子设备

文献发布时间:2023-06-19 18:34:06


一种数据拉取方法、系统、存储介质和电子设备

技术领域

本发明涉及数据拉取技术领域,尤其涉及一种数据拉取方法、系统、存储介质和电子设备。

背景技术

数据提取,指根据一定的目的,从原始数据中提取所需要的信息,以作进一步存储、换算和分析的过程。针对数据存储在HADOP集群的情况,提取数据的方式大多为人工提取。通常数据提取需求需要由数据部门人员和需求方确认,根据需求方的要求指定提取对应的数据。此过程并不复杂,但对于简单或常规的数据提取需求,人工提取方式是一件费时,费力的事情。且由于需要编程提取,非数据部门人员对于提取数据的操作十分困难,日常针对公司内部与客户的数据提取需求也很多,所以如何解决这类数据提取需求是一个急需解决的问题。

发明内容

本发明所要解决的技术问题是针对现有技术的不足,提供了一种数据拉取方法、系统、存储介质和电子设备。

本发明的一种数据拉取方法的技术方案如下:

接收用户按照预设数据格式在前端界面输入的任务请求;

通过Livy插件将所述任务请求提交到HADOOP集群,使所述HADOOP集群拉取所述任务请求对应的数据并返回。

本发明的一种数据拉取方法的有益效果如下:

能够使不懂编程的用户按照预设数据格式,在前端界面写入任务请求,然后通过Livy插件将任务请求提交到HADOOP集群,使HADOOP集群拉取任务请求对应的数据并返回,既能降低技术门槛,还提高了数据拉取效率。

在上述方案的基础上,本发明的一种数据拉取方法还可以做如下改进。

进一步,所述任务请求包括数据源和拉取条件,使所述HADOOP集群拉取所述任务请求对应的数据,包括:

使所述HADOOP集群按照所述拉取条件,从所述数据源中拉取所述任务请求对应的数据。

进一步,使所述HADOOP集群返回所述任务请求对应的数据包括:

使所述HADOOP集群返回用于下载所述任务请求对应的数据的下载链接,以使所述用户通过所述下载链接,获取所述所述任务请求对应的数据。

进一步,还包括:

按照每个任务请求的输入时间的先后顺序,将多个任务请求置于任务队列中;

通过所述任务队列依次将每个任务请求发送至所述Livy插件,以通过Livy插件依次将每个所述任务请求提交到所述HADOOP集群。

采用上述进一步方案的有益效果是:能够对大量的任务请求进行处理,提高数据拉取的吞吐量,便于多个用户同时使用。

本发明的一种数据拉取系统的技术方案如下:

包括接收模块和拉取返回模块;

所述接收模块用于:接收用户按照预设数据格式在前端界面输入的任务请求;

所述拉取返回模块用于:通过Livy插件将所述任务请求提交到HADOOP集群,使所述HADOOP集群拉取所述任务请求对应的数据并返回。

本发明的一种数据拉取系统的有益效果如下:

能够使不懂编程的用户按照预设数据格式,在前端界面写入任务请求,然后通过Livy插件将任务请求提交到HADOOP集群,使HADOOP集群拉取任务请求对应的数据并返回,既能降低技术门槛,还提高了数据拉取效率。

在上述方案的基础上,本发明的一种数据拉取系统还可以做如下改进。

进一步,所述任务请求包括数据源和拉取条件,所述拉取返回模块使所述HADOOP集群拉取所述任务请求对应的数据,包括:

使所述HADOOP集群按照所述拉取条件,从所述数据源中拉取所述任务请求对应的数据。

进一步,所述拉取返回模块使所述HADOOP集群返回所述任务请求对应的数据的过程,包括:

使所述HADOOP集群返回用于下载所述任务请求对应的数据的下载链接,以使所述用户通过所述下载链接,获取所述所述任务请求对应的数据。

进一步,还包括任务队列模块,所述任务队列模块用于:

按照每个任务请求的输入时间的先后顺序,将多个任务请求置于任务队列中;

通过所述任务队列依次将每个任务请求发送至所述Livy插件,以通过Livy插件依次将每个所述任务请求提交到所述HADOOP集群。

采用上述进一步方案的有益效果是:能够对大量的任务请求进行处理,提高数据拉取的吞吐量,便于多个用户同时使用。

本发明的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的一种数据拉取方法。

本发明的一种电子设备,包括处理器和上述的存储介质,所述处理器执行所述存储介质中的指令。

附图说明

图1为本发明实施例的一种数据拉取方法的流程示意图之一;

图2为本发明实施例的一种数据拉取方法的流程示意图之二;

图3为本发明实施例的一种数据拉取系统的结构示意图。

具体实施方式

如图1所示,本发明实施例的一种数据拉取方法,包括如下步骤:

S1、接收用户按照预设数据格式在前端界面输入的任务请求;

其中,预设数据格式包括AND、OR等词,用户通过AND、OR等词结合想要搜索的关键词、数据源等组成任务请求。

S2、通过Livy插件将任务请求提交到HADOOP集群,使HADOOP集群拉取任务请求对应的数据并返回;

其中,HADOOP集群拉取任务请求对应的数据通过Livy插件返回。

能够使不懂编程的用户按照预设数据格式,在前端界面写入任务请求,然后通过Livy插件将任务请求提交到HADOOP集群,使HADOOP集群拉取任务请求对应的数据并返回,既能降低技术门槛,还提高了数据拉取效率。

可选地,在上述技术方案中,S2中,任务请求包括数据源和拉取条件,使HADOOP集群拉取任务请求对应的数据,包括:

S21、使HADOOP集群按照拉取条件,从数据源中拉取任务请求对应的数据。

其中,用户通过AND、OR等词结合想要搜索的关键词组成拉取条件。

其中,可在前端界面设置多个数据源的名称,用户可通过选取等方式确定任务请求中的数据源。

例如,用户想查看关于某产品如电饭锅的信息,按照预设数据格式在前端界面输入的任务请求,该任务请求中的拉取条件为“电饭锅的型号”AND“电饭锅的生产地”,该任务请求中的数据源为预设的“产品信息数据源”,任务请求的具体格式可为“电饭锅的型号”AND“电饭锅的生产地”AND“产品信息数据源”,其中,用户可根据实际情况设置多个数据源,每个数据源中存储不同的数据。用户具体可在云端设置多个数据源,或者,在数据库中设置多个数据源。通过Livy插件将该任务请求提交到HADOOP集群,使HADOOP集群按照拉取条件,从数据源即“产品信息数据源”中拉取任务请求对应的数据如该电饭锅的图片、该电饭锅的产品信息等,并提供给用户。

可选地,在上述技术方案中,S2中,使HADOOP集群返回任务请求对应的数据包括:

S22、使HADOOP集群返回用于下载任务请求对应的数据的下载链接,以使用户通过下载链接,获取任务请求对应的数据。

可选地,在上述技术方案中,还包括:

按照每个任务请求的输入时间的先后顺序,将多个任务请求置于任务队列中;

通过任务队列依次将每个任务请求发送至Livy插件,以通过Livy插件依次将每个任务请求提交到HADOOP集群。

能够对大量的任务请求进行处理,提高数据拉取的吞吐量,便于多个用户同时使用。

下面通过一个实施例,如图2所示,对本发明的一种数据拉取方法进行说明,具体包括:

S100、构建前端界面,拟定前端界面的数据格式,即拟定预设数据格式;

S101、后端接收用户按照预设数据格式在前端界面输入的任务请求,解析该任务请求中的拉取条件和数据源,并组装成数据提取任务,将请求参数即该任务请求中的拉取条件和数据源保存入数据库;

S102、构建一个任务调度器,将该数据请求对应的数据提取任务放入当前任务队列,更新该数据请求对应的数据提取任务的状态并等待发送,该数据请求对应的数据提取任务的状态为待处理;

S103、将该数据请求对应的数据提取任务发送至Livy服务接口,即发送至Livy插件,由Livy插件与HADOOP集群交互,通过Livy插件返回任务状态并实时更新任务状态;

S104、该数据请求对应的数据提取任务的任务拉取操作结束,更新任务数据并发送相应邮件,此时,该数据请求对应的数据提取任务的状态为处理完毕;

本发明的技术方案有如下特点:

1)让数据提取操作转变可视化,可点选界面。非数据部门人员可以通过界面,经由设置提取类别,选择过滤条件以及所需字段等步骤,即可独立完成提取数据的操作,不需要数据部门人员参与;

2)通过使用人员设置的提取数据条件,在平台后端通过处理组装为HTTP请求。平台后端记录任务模板并将请求发送至Livy服务即Livy插件,通过Livy插件与HADOOP集群的交互,提交数据提取任务;

3)平台会为每个任务构造数据库记录,标识任务提取时间、任务名称、任务模板等信息,实时与Livy服务交互,获取任务的最新状态,任务执行完毕会通过邮件方式提醒提交任务人员,并在任务记录界面提供下载链接;

4)平台的任务数据会存储在HADOOP集群且保存一定时间,在此段时间内下载链接持续有效。在数据库保存平台任务记录,可由任务记录中的任务模板信息重新提取任务,当任务超过保存时间或被误删后可由任务模板重新提取任务复原数据。

本发明可以很好的解决非数据人员在不熟悉代码操作时提取数据的问题,通过界面将提取数据变得简单化;数据保存在HADOOP集群上,可通过界面随时下载;通过Livy插件提交数据提取任务,将数据部门人员从简单、常规化的枯燥需求中解脱出来,提升部门效率;通过与Livy插件交互可以及时获取任务状态,保证数据提取任务状态及时更新。

在上述各实施例中,虽然对步骤进行了编号S1、S2等,但只是本申请给出的具体实施例,本领域的技术人员可根据实际情况调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。

如图3所示,本发明实施例的一种数据拉取系统200,接收模块210和拉取返回模块220;

接收模块210用于:接收用户按照预设数据格式在前端界面输入的任务请求;

拉取返回模块220用于:通过Livy插件将任务请求提交到HADOOP集群,使HADOOP集群拉取任务请求对应的数据并返回。

能够使不懂编程的用户按照预设数据格式,在前端界面写入任务请求,然后通过Livy插件将任务请求提交到HADOOP集群,使HADOOP集群拉取任务请求对应的数据并返回,既能降低技术门槛,还提高了数据拉取效率。

可选地,在上述技术方案中,任务请求包括数据源和拉取条件,拉取返回模块220使HADOOP集群拉取任务请求对应的数据,包括:

使HADOOP集群按照拉取条件,从数据源中拉取任务请求对应的数据。

可选地,在上述技术方案中,拉取返回模块220使HADOOP集群返回任务请求对应的数据的过程,包括:

使HADOOP集群返回用于下载任务请求对应的数据的下载链接,以使用户通过下载链接,获取任务请求对应的数据。

可选地,在上述技术方案中,还包括任务队列模块,任务队列模块用于:

按照每个任务请求的输入时间的先后顺序,将多个任务请求置于任务队列中;

通过任务队列依次将每个任务请求发送至Livy插件,以通过Livy插件依次将每个任务请求提交到HADOOP集群。

能够对大量的任务请求进行处理,提高数据拉取的吞吐量,便于多个用户同时使用。

上述关于本发明的一种数据拉取系统200中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于一种数据拉取方法的实施例中的各参数和步骤,在此不做赘述。

本发明实施例的一种存储介质,存储介质中存储有指令,当计算机读取指令时,使计算机执行上述任一项的一种数据拉取方法。

本发明实施例的一种电子设备,包括处理器和上述的存储介质,处理器执行存储介质中的指令。其中,电子设备可以选用电脑、手机等。

所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。

因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 一种数据特征提取方法、系统及电子设备和存储介质
  • 一种数据血缘的生成方法、系统、电子设备和存储介质
  • 一种材质的数据处理方法、装置、电子设备及存储介质
  • 一种汇总表格的数据调平方法、电子设备及存储介质
  • 一种多维数据的统计方法、电子设备及存储介质
  • 数据爬取方法、系统、计算机可读存储介质及电子设备
  • 一种信息拉取方法、装置、电子设备及计算机存储介质
技术分类

06120115609561