掌桥专利:专业的专利平台
掌桥专利
首页

用于管理和监控分布式数据采集任务的方法和系统

文献发布时间:2023-06-19 13:26:15


用于管理和监控分布式数据采集任务的方法和系统

技术领域

本发明涉及大数据领域,尤其涉及数据采集和数据传输及通信技术。

背景技术

现有的离线数据采集方法大部分是通过ftp(sftp)与服务器定时任务结合的方式进行离线传输,通过校验文件(check file)和接收回执文件(rpt file)对文件传输进行管理。当前这种方法可以监控文件在服务器两两点对点之间的传输状态,在需要通过多个网络环境、多个服务器节点做中转的场景下,无法及时有效获取当前数据传输状态,只能通过逐个登陆服务器获取文件传输状态,在配置新建传输任务、对传输任务巡检及排障的效率极低。

究其基本原因,首先电信系统内部由于安全等原因,存在多个内部专网,导致数据传输场景较为复杂,经常需要通过公网及多个内部专网等多个网络环境,由于公网与专网之间以及专网与专网之间网络互相不通,因此在数据传输中经常存在中转透传的传输节点。其次开源工具(ftp/sftp)中缺少管理不同网络环境下、由多个中转透传节点建立的传输通道的能力和方法,对此场景下的传输通道中运行的传输任务也缺乏有效的管理方法。

因此,需要能够改进现有技术中的缺陷的方法和系统。

发明内容

提供本发明内容来以简化形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。

本发明的技术方案在不改变原有的ftp、sftp等传输模式的情况下,在现有ftp/sftp传输能力基础上,通过自定义的数据传输管控工具对传输流程进行监控和管理,从而在使用推广上具备向下兼容的优势。在数据传输需要跨公网及多个内部网络且传输通道由多个中转透传传输点组成的场景中,通过分布式部署本发明的传输管控工具,形成传输管控集群,通过该解决跨网络(公网、内网(DCN、CN2))数据离线任务状态跟踪管理问题。由此,本发明的技术方案实现对数据传输任务进行分布式的监控与管理,实时获取数据传输任务在各个传输点状态的能力,解决了现有传输任务有多段ftp/sftp传输的方式下无法获取任务全流程状态的缺陷。

此外,本发明中的技术方案所提供的数据传输管控工具还能够通过对所传输的文件名进行精确匹配与模糊匹配来按照文件名特征完成待传文件的自动扫描和传输,以使得能够适应多种数据传输场景,而无需像现有技术中那样为了设置用于管理的定时任务而分段手动编写传输任务脚本。另外,本发明的数据传输管控工具能够融合并适配ftp、sftp、cp、scp等多种数据传输及拷贝方式,解决传输任务适配场景通用性问题。

在本发明的一个实施例中,公开了一种传输管控工具,其用于传输任务状态管理、传输文件特征管理、传输节点管理、传输任务配置管理、以及传输网络管理。首先基于各个传输管控工具进行组网,然后通过各个传输管控工具进行传输任务设置以及传输任务状态跟踪,这将在下文中更详细地描述。

在本发明的一个实施例中,提供了一种用于管理和监控分布式数据采集任务的方法,该方法包括:

在公网采集服务器和至少一个内网采集服务器上部署传输管控工具并完成所述传输管控工具的传输集群网络的组网;

在所述传输管控工具中新建传输任务,所述传输任务包括从源端接收数据文件的第一传输子任务以及将所述数据文件传送至目的端的第二传输子任务,以便于由数据中心采集节点将所述数据文件采集走;

在所述传输管控工具中设置所述第一传输子任务和所述第二传输子任务的配置信息,设置所述配置信息包括将所述第一传输子任务和所述第二传输子任务的数据传输方式设置为分别与所述源端和所述目的端所使用的数据传输方式相同;以及

获取在所述传输管控工具本地配置的所有传输任务及相关联的传输过程以检查所述传输过程是否已完成并将检查结果同步至所述传输集群网络中的所有其它传输管控工具。

在本发明的另一个实施例中,提供了一种用于管理和监控分布式数据采集任务的系统,该系统包括:

用于在公网采集服务器和至少一个内网采集服务器上部署传输管控工具并完成所述传输管控工具的传输集群网络的组网的装置;

用于在所述传输管控工具中新建传输任务的装置,所述传输任务包括从源端接收数据文件的第一传输子任务以及将所述数据文件传送至目的端的第二传输子任务,以便于由数据中心采集节点将所述数据文件采集走;

用于在所述传输管控工具中设置所述第一传输子任务和所述第二传输子任务的配置信息的装置,设置所述配置信息包括将所述第一传输子任务和所述第二传输子任务的数据传输方式设置为分别与所述源端和所述目的端所使用的数据传输方式相同;以及

用于获取在所述传输管控工具本地配置的所有传输任务及相关联的传输过程以检查所述传输过程是否已完成并将检查结果同步至所述传输集群网络中的所有其它传输管控工具的装置。

在本发明的又一个实施例中,提供了一种存储计算机可执行指令的计算机可读介质,这些指令包括:

用于在公网采集服务器和至少一个内网采集服务器上部署传输管控工具并完成所述传输管控工具的传输集群网络的组网的指令;

用于在所述传输管控工具中新建传输任务的指令,所述传输任务包括从源端接收数据文件的第一传输子任务以及将所述数据文件传送至目的端的第二传输子任务,以便于由数据中心采集节点将所述数据文件采集走;

用于在所述传输管控工具中设置所述第一传输子任务和所述第二传输子任务的配置信息的指令,设置所述配置信息包括将所述第一传输子任务和所述第二传输子任务的数据传输方式设置为分别与所述源端和所述目的端所使用的数据传输方式相同;以及

用于获取在所述传输管控工具本地配置的所有传输任务及相关联的传输过程以检查所述传输过程是否已完成并将检查结果同步至所述传输集群网络中的所有其它传输管控工具的指令。

在结合附图研读了下文对本发明的具体示例性实施例的描述之后,本发明的其他方面、特征和实施例对于本领域普通技术人员将是明显的。尽管本发明的特征在以下可能是针对某些实施例和附图来讨论的,但本发明的全部实施例可包括本文所讨论的有利特征中的一个或多个。换言之,尽管可能讨论了一个或多个实施例具有某些有利特征,但也可以根据本文讨论的本发明的各种实施例使用此类特征中的一个或多个特征。以类似方式,尽管示例性实施例在下文可能是作为设备、系统或方法实施例进行讨论的,但是应当领会,此类示例性实施例可以在各种设备、系统、和方法中实现。

附图说明

为了能详细理解本公开的以上陈述的特征所用的方式,可参照各方面来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中阐示。然而应该注意,附图仅阐示了本公开的某些典型方面,故不应被认为限定其范围,因为本描述可允许有其他等同有效的方面。

图1示出了根据本公开的一个实施例的传输管控工具的框图。

图2示出了根据本公开的一个实施例的用于管理和监控分布式数据采集任务的方法的流程图。

图3示出了根据本公开的一个实施例的用于基于传输管控工具来组建传输网路的方法的流程图。

图4示出了根据本公开的一个实施例的用于设置传输任务的方法的流程图。

图5是基于传输管控工具的传输集群拓扑的传输路径的示意图。

图6示出了根据本公开的一个实施例的用于监控传输任务的方法的流程图。

具体实施方式

以下将参考形成本发明一部分并示出各具体示例性实施例的附图更详尽地描述各个实施例。然而,各实施例可以以许多不同的形式来实现,并且不应将其解释为限制此处所阐述的各实施例;相反地,提供这些实施例以使得本公开变得透彻和完整,并且将这些实施例的范围完全传达给本领域普通技术人员。各实施例可按照方法、系统或设备来实施。因此,这些实施例可采用硬件实现形式、全软件实现形式或者结合软件和硬件方面的实现形式。因此,以下具体实施方式并非是局限性的。

各流程图中的步骤可通过硬件(例如,处理器、引擎、存储器、电路)、软件(例如,操作系统、应用、驱动器、机器/处理器可执行指令)或其组合来执行。如本领域普通技术人员将理解的,各实施例中所涉及的方法可以包括比示出的更多或更少的步骤。

下文中将通过框图、数据流图以及方法流程图对本公开的各方面进行详细描述。

图1示出了根据本公开的一个实施例的传输管控工具100的框图。

如图1所示,本发明提供了一种传输管控工具100,部署该传输管控工具100的服务器节点之间需要具备网络的连通性,服务器所运行的操作系统支持部署ftp、sftp等文件传输方式以及cp、scp等拷贝及传输命令。

本发明涉及到的数据传输节点中需要部署上述传输管控工具100来对所有数据传输任务进行管控。为此,传输管控工具100包括用于传输任务状态管理的传输任务状态管理组件102、用于传输文件特征管理的传输文件特征管理组件104、用于传输节点管理的传输节点管理组件106、用于传输任务配置管理的传输任务配置管理组件108、以及用于传输网络管理的传输网络管理组件110。基于上述各组件,传输管控工具100具备了传输通道网络管理能力、点对点文件传输任务管理能力、以及点对点文件传输任务监控能力。

具体而言,传输任务状态管理组件102负责搜集当前数据文件在各个节点的传输状态,根据文件在各个传输节点的完成信息,可以判断当前任务正常与否,当异常出现时便于快速排查出问题在哪个节点。

传输文件特征管理组件104通过正则匹配对每个传输任务所要负责传输的文件特征进行管理,包括文件名称特征等,实现对于一个任务有针对性地传输一个(一类)数据文件。具体地,传输文件特征管理组件104通过对所传输的文件名进行精确匹配与模糊匹配来按照文件名特征完成待传文件的自动扫描和传输,以使得能够适应多种数据传输场景。

传输节点管理组件106负责对传输网络中的各个传输管控工具进行信息管理和配置信息管理。

传输任务配置管理组件108负责对具体的新建传输任务进行配置或对原有配置进行修改,实现文件在传输网络中服务器之间点对点的传输能力。

传输网络管理组件110负责管理由数据传输管控工具组成的数据传输通道网络,具体而言管理当前传输管控工具集群中包含的传输管控工具列表以及传输管控工具之间的网络路由信息,包括跨公网及专网等多个网络环境对应的信息列表。该组件还提供指令信息在集群网络中的传输能力。

图2示出了根据本公开的一个实施例的用于管理和监控分布式数据采集任务的方法200的流程图。在本公开中,基于图1所示的传输管控工具100建立离线传输网络,实现跨网络环境(公网、内网/DCN网络、CN2网络)的传输任务管理和传输状态跟踪的通用能力。

具体地,参照图2,在步骤202执行传输管控工具组网。该步骤包括配置传输管控工具初始化信息(工具ID和集群ID)以完成启动传输管控工具的准备工作;启动传输管控工具,通过广播报文发送工具ID和集群ID,如果集群网络已经存在则新启动的传输管控工具加入现有网络,网络内各节点同步新入网传输管控工具的路由信息;如果集群网络尚未建立,则由新启动的传输管控工具创建集群网络。该步骤的细节将在下文中结合图3来描述。

在步骤204执行传输任务设置。该步骤包括在现有的传输网络中新建传输任务,在所需传输通道所在的每个传输管控工具上创建相应的传输任务(这些传输任务共同实现数据文件从数据源到数据中心采集节点的传输)并配置相应的传输配置信息,该信息包括:数据源传输模式(ftp/sftp/cp/scp)、数据源IP、端口、账号、密码、文件所在目录、文件名特征、本地存放路径等信息。由此,传输管控工具通过该配置信息从数据源(源端)获取文件后存放到节点本地并将所获取的文件传送至另一传输管控工具或数据中心采集节点(目的端),完成整条文件传输链,涉及到的多个传输管控工具共同组成完整传输通道。该步骤的细节将在下文中结合图4和图5来描述。

在步骤206执行传输任务状态跟踪。该步骤包括传输管控工具按照设定的定时检测配置信息来启动检查,检测指令通过传输管控工具集群网络将传输任务各节点的传输状态在该集群网络内同步,同步后可以得到完整的传输状态信息。该步骤的细节将在下文中结合图5和图6来描述。

图3示出了根据本公开的一个实施例的用于基于传输管控工具来组建传输网路的方法300的流程图。

在步骤302,执行传输管控工具初始化。该步骤包括在部署传输管控工具的服务器本地对该传输管控工具进行配置,配置包括设置当前传输管控工具的工具ID和所属集群ID。工具ID用于标记自身识别信息,集群ID用于标记该传输管控工具当前所归属的管理集群。如果当前网络环境中尚未部署其他传输管控工具,则将集群ID设置为新ID;如果当前网络环境中已经部署其他传输管控工具,则在配置信息中将集群ID与为当前其他传输管控工具设置为一致。完成配置的传输管控工具执行下一步骤304。

在步骤304,执行传输管控工具入网。该步骤包括启动配置完成的传输管控工具,传输管控工具会获取部署该传输管控工具的服务器本地的网络信息,并向网络环境中广播当前传输管控工具的工具ID和集群ID。如果服务器接入多个网络环境,则传输管控工具向多个网络中进行广播。随后,方法300前进至判定框306,如果当前网络环境中已存在传输集群,则执行步骤308,如果当前网络中尚未部署其他传输管控工具,则执行步骤310。

在步骤308,加入现有传输集群网络。该步骤包括现有传输集群网络中每一个其他传输管控工具收到入网请求广播后检查接收到的集群ID是否与自身集群ID一致,如果一致则将请求加入集群网络的传输管控工具的工具ID所对应的路由信息保存至该其它传输管控工具本地的集群管理信息列表中(该集群管理信息列表中维护的是当前集群中包含的传输管控工具列表以及传输管控工具之间的网络路由信息,包括跨公网及专网等多个网络环境对应的信息列表,这部分信息由传输管控工具中的传输网络模块管理)。该传输集群网络中的各个传输管控工具两两进行路由信息同步,最终使得该集群中所有传输管控工具本地的集群管理信息列表一致,请求入网的传输管控工具的入网操作完成。

在步骤310,新建传输集群网络,该步骤包括如果新的传输管控工具向网络环境中发送广播后没有收到其他传输管控工具的反馈,则当前传输集群网络中只包含当前请求入网的这一个传输管控工具,于是该传输管控工具将本地信息更新为集群网络信息以完成入网。该传输管控工具入网之后发送广播消息,没有收到其他传输管控工具的反馈,则确认当前传输集群网络中只包含此一个传输管控工具,新建传输网络完成。

图4示出了根据本公开的一个实施例的用于设置传输任务的方法400的流程图。图4所示的方法的各步骤将结合图5所示的基于传输管控工具的传输集群拓扑500的传输路径来描述。方法400本质上是配置数据传输任务,并支持使用ftp、sftp、scp等方式将数据由源端发往目的端的过程,传输中的数据文件有可能需要通过多个传输管控工具的转发。如图5所示,在本发明的一个实施例中,作为示例而非限制,公网数据源X传输至数据中心采集点需要通过公网采集服务器A、内网/DCN网络采集服务器B的中转(具体而言是通过部署在相应的采集服务器上的传输管控工具来转发),该传输任务,即由X(源端)到A,再由A到B(目的端),可以例如拆分成两个传输子任务X到A和A到B,该传输任务设置的具体步骤如下:

在步骤402,在部署在公网采集服务器A上的传输管控工具中新建第一传输子任务的配置信息并启动传输服务,实现数据文件由公网数据源X向公网采集服务A的传输,如图5所示。该步骤包括:

1)填写传输模式。如公网数据源X通过sftp模式传输则在部署在公网采集服务器A上的传输管控工具的配置信息中填写sftp以用于设定数据传输方式;

2)填写公网数据源X的IP地址为数据源IP,填写端口号、账号、密码、文件在X上所在路径及文件名以供部署在公网采集服务器A上的传输管控工具登录源端服务器并获取数据文件;

3)填写数据文件本地存放目录以用于在本地存放数据文件;

4)填写传输任务编码以用于在分布式传输集群中传输文件时跟踪传输任务;

5)填写任务扫描周期并填写数据源扫描周期以用于周期性检查新上传文件,填写数据传输任务状态检查周期以用于周期性检查传输任务当前进展;以及

6)启动该传输管控工具以完成数据文件由数据源X向公网采集服务器A的传输。

在步骤404,在部署在公网采集服务器A上的传输管控工具中新建第二传输子任务的配置信息,实现数据文件由公网采集服务器A向内网/DCN网络采集服务器B的传输。该步骤包括:

1)填写传输模式。如果内网/DCN网络采集服务器B使用ftp数据传输方式,则公网采集服务器A的传输任务的配置信息填写ftp以用于设定数据传输方式;

2)填写登录服务器B部署的ftp服务所需的IP地址、端口号、账号、密码、文件在A上所在路径及文件名以供传输管控工具登录服务器B;

3)填写数据文件存放在B上的目录以供传输管控工具在登录服务器B的ftp后在B上存放数据文件;

4)与步骤402填写同样的任务编码,代表此文件由X传输至A(第一传输子任务)与由A传输至B(第二传输子任务)为同一个传输任务;以及

5)将扫描周期设置为与步骤402一致以完成配置。

在步骤406,通过步骤402与步骤404设置后数据文件已经可由X传至A并由A传至B,之后可由数据中心采集点将数据采集走。

如本领域技术人员可以理解的,在图5中的内网/DCN网络采集服务器B和内网/CN2网络采集服务器C上也可部署相应的传输管控工具并进行类似的配置,组成完整的传输通道,实现数据文件经由相应的采集服务器进行传输。作为示例而非限制,在本公开的一个实施例中,也可以在内网采集服务器B上的传输管控工具中设置相应的配置信息以实现数据文件从DCN网络数据源或者采集服务器A经过该服务器B到数据中心采集节点的传输。在本公开的另一实施例中,也可以在内网采集服务器C上的传输管控工具中设置相应的配置信息以实现数据文件从CN2网络数据源或者公网采集服务器A经过该服务器C到数据中心采集节点的传输。

图6示出了根据本公开的一个实施例的用于监控传输任务的方法600的流程图。图6所示的方法的各步骤将结合图5所示的基于传输管控工具的传输集群拓扑500的传输路径来描述。部署在公网采集服务器A上的传输管控工具按照在方法400中设置的扫描周期定期检查当天所需传输的账期的文件是否已经由公网数据源X传输至公网采集服务器A,并由公网采集服务器A传输至内网/DCN网络采集服务器B,具体步骤如下:

在步骤602,传输管控工具获取本地配置的所有传输任务,根据任务编码对配置信息进行分类,通过同一个任务编码下的配置信息来得到数据文件在传输任务中的传输过程,例如步骤604中的X->A->B;

在步骤604,传输管控工具检查当天账期文件的传输日志,比如检查步骤602中获取的文件传输过程X->A和A->B是否已经完成;

在步骤606,部署在A上的传输管控工具将步骤604中得到的传输过程完成信息同步至传输集群中其他传输管控工具,其他传输管控工具按照步骤602至步骤606继续检查与其相关联的传输任务的执行情况,之后将结果同步至集群中所有传输管控工具或传输服务;

在步骤608,完成对数据文件在传输集群中的中转情况的检测。由于传输集群中的传输管控工具具备跨网络环境中转的能力,因此本发明的传输过程检查也支持跨网络环境检测。

以上参考根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作说明描述了本发明的实施例。框中所注明的各功能/动作可以按不同于任何流程图所示的次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以按相反的次序来执行。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 用于管理和监控分布式数据采集任务的方法和系统
  • 一种用于NIFI任务的分布式监控系统及方法
技术分类

06120113675302