一种大数据分析方法、系统、电子设备及存储介质

文献发布时间：2023-06-19 09:24:30

技术领域

本发明属于数据处理领域，尤其涉及一种大数据分析方法、系统、电子设备及存储介质。

背景技术

在面对大量的基础数据信息时，会有源源不断的对数据信息进行挖掘和数据价值发现的需求产生，对于一些数据分析师和业务部门的人员，他们会迫切关心隐藏在数据内部的信息和价值，在大数据的领域有很多进行大数据计算的技术，例如hadoop、hive、spark等。

现有的大数据处理技术中，系统分为两种，一是需要用户具有较高的技术水平，可以将业务逻辑需求转换成HIVE sql进行实现；二是根据指定的逻辑形成表单格式供用户输入并完成计算。

现有技术使用的学习成本过高，在实际的使用场景中并不现实，只能针对一小部分用户使用，而且现有的计算web系统，需要根据用户具体的需求进行实际开发相应功能和接口，再由前端调用，一个思路从提出到实现需要经历一个漫长的过程，而业务的需求有时是瞬间变换的，当技术实现时，很有可能业务场景已经不再符合。错过了计算的最佳时机。

且现有的系统，还是死板的表单输入，用户输入指定的表单信息，固定的数据流转，固定的结果格式，缺乏多样性，过程，逻辑，结果过于单一。

本发明通过抽象算子作为操作数据的方式，由用户拖拽操作来实现任务流的创建，改变了以往表单输入的传统方式，任务流程更直观，操作更便捷，可以将业务需求快速实现。

发明内容

本申请实施例提供了一种大数据分析方法、系统、电子设备及存储介质，以至少解决大数据处理分析过于繁杂、技术门槛高的问题。

第一方面，本申请实施例提供了一种大数据分析方法，包括：

判断步骤，判断是否存在可复用的任务流；

任务流配置步骤，若存在可复用的所述任务流，则对所述任务流进行复制并配置；

任务流执行步骤，将所述任务流发送至计算平台进行计算执行；

结果获取步骤，将计算结果整理并返回。

优选的，所述任务流配置步骤还包括：若不存在可复用的所述任务流，则将算子按功能组合连接为所述任务流并进行配置，保存所述任务流。

优选的，所述算子包括但不限于数据源算子、输入文件算子、过滤算子、关联算子、统计算子、人群画像算子、标签匹配算子、分析算子和导出算子。

优选的，所述计算平台包括Azkaban计算平台。

第二方面，本申请实施例提供了一种大数据分析系统，适用于上述一种大数据分析方法，包括：

判断单元，判断是否存在可复用的任务流；

任务流配置单元，若存在可复用的所述任务流，则对所述任务流进行复制并配置；

任务流执行单元，将所述任务流发送至计算平台进行计算执行；

结果获取单元，将计算结果整理并返回。

在其中一些实施例中，所述任务流配置单元还包括：若不存在可复用的所述任务流，则将算子按功能组合连接为所述任务流并进行配置，保存所述任务流。

在其中一些实施例中，所述算子包括但不限于数据源算子、输入文件算子、过滤算子、关联算子、统计算子、人群画像算子、标签匹配算子、分析算子和导出算子。

在其中一些实施例中，所述计算平台包括Azkaban计算平台。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的一种大数据分析方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的一种大数据分析方法。

相比于相关技术，本申请实施例提供的一种大数据分析方法极大程度的减少了针对业务需求进行二次开发的场景，节省了时间成本，并且用户可以将对数据的想法实时操作，提高了处理效率，避免了找研发进行相应开发带来的时间成本。通过k8s容器平台部署的服务可用性更高，因为k8s和容器技术实现了动态扩缩容，多机部署和负载均衡。长期收益：通过用户不断在系统上对数据的任务流处理而得出的经验可以进行技术沉淀和复用，其他用户可以一上手就能拿到一个结果良好的任务流。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的大数据分析方法流程图；

图2是根据本申请实施例中的大数据分析系统的框架图；

图3是根据本申请实施例的电子设备的框架图；

以上图中：

11、判断单元；12、任务流配置单元；13、任务流执行单元；14、结果获取单元；20、总线；21、处理器；22、存储器；23、通信接口。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

且现有的系统，还是死板的表单输入，用户输入指定的表单信息，固定的数据流转，固定的结果格式，缺乏多样性，过程，逻辑，结果过于单一。

本发明实施例通过用户在页面上，在画布中通过拖拽算子，并对算子之间连线来标注数据流转完成业务逻辑，只需要快速的操作页面上的一个个算子图标，就可以完成自己想要的复杂计算逻辑、数据流转、报表生成、结果导出等功能。

以下对本发明涉及到的部分专业术语进行说明：

在流处理、交互式查询中有个常用的概念是“算子”，在英文中被成为“Operation”，在数学上可以解释为一个函数空间到函数空间上的映射O：X->X，其实就是一个处理单元，往往是指一个函数，在使用算子时往往会有输入和输出，算子则完成相应数据的转化，比如：Group、Sort等都是算子。

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。它具有Web用户界面、方便上传工作流、方便设置任务之间的关系、调度工作流、认证/授权(权限的工作)、能够杀死并重新启动工作流、模块化和可插拔的插件机制、项目工作区、工作流和任务的日志记录和审计等特点。Azkaban在LinkedIn上实施，以解决Hadoop作业依赖问题。我们有工作需要按顺序运行，从ETL工作到数据分析产品。最初是单一服务器解决方案，随着多年来Hadoop用户数量的增加，Azkaban已经发展成为一个更强大的解决方案。

Kubernetes(简称“k8s”)是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署，规划，更新，维护的一种机制。Kubernetes一个核心的特点就是能够自主的管理容器来保证云平台中的容器按照用户的期望状态运行着(比如用户想让apache一直运行，用户不需要关心怎么去做，Kubernetes会自动去监控，然后去重启，新建，总之，让apache一直提供服务)，管理员可以加载一个微型服务，让规划器来找到合适的位置，同时，Kubernetes也系统提升工具以及人性化方面，让用户能够方便的部署自己的应用(就像canary deployments)。

本发明实施例中关注对于大数据的处理逻辑和交互方式，算子模块将对数据的处理方式转变为通过组装算子连线的方式来完成。通过将不同功能的算子组装成自己想要的逻辑来完成大数据计算，可以让一个完全不懂得大数据计算的用户通过简单的鼠标操作来实现自己想要的各种数据计算和处理，满足对数据信息进行挖掘的各种需求。

请参见图1，为本申请实施例的大数据分析方法流程图，包括如下步骤：

S101.判断是否存在可复用的任务流；

S102.若存在可复用的所述任务流，则对所述任务流进行复制并配置；

S103.将所述任务流发送至计算平台进行计算执行；

S104.将计算结果整理并返回。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

其中，所述步骤S101还包括：若不存在可复用的所述任务流，则将算子按功能组合连接为所述任务流并进行配置，保存所述任务流。其中，所述算子包括但不限于数据源算子、输入文件算子、过滤算子、关联算子、统计算子、人群画像算子、标签匹配算子、分析算子和导出算子。

其中，所述步骤S103中，所述计算平台包括Azkaban计算平台。

下面对本实施例进行具体说明：

Vue.js是一套构建用户界面的渐进式框架。与其他重量级框架不同的是，Vue采用自底向上增量开发的设计。Vue的核心库只关注视图层，并且非常容易学习，非常容易与其它库或已有项目整合。另一方面，Vue完全有能力驱动采用单文件组件和Vue生态系统支持的库开发的复杂单页应用。

jsPlumb是一个比较强大的绘图组件，它提供了一种方法，主要用于连接网页上的元素。在现代浏览器中，它使用SVG或者Canvas技术，而对于IE8以下(含IE8)的古董浏览器，则使用VML技术。

前端使用VUE开发页面，使用jsplumb实现画布上的算子连线和用户拖拽功能。用户首先创建项目，用来作为任务流计算流程的主体，随后判断是否存在可以复用的任务流，若存在，则复制任务流并配置(包括筛选输入输出的内容和格式等)；若不存在，则通过在系统UI中用拖拽组装不同的算子连线来完成任务流程。如果用户想要一个计算一个人群画像，只需要拖拽一个人群画像算子，并连接上输入算子和输出算子来实现自己的需求即可。

针对现有其他系统对于用户使用要求过高，本系统不需要编写复杂的sql，只需要通过拖拽方式即可实现计算业务逻辑，并且可以直观的看到业务进行的实时结果和情况，并可以将数据导出和分析处理。算子组成的一个计算流程被称作任务流，通过系统功能定制不同的任务流，就像使用拼图拼成不同的图案一样，可以让用户通过操作系统不断丰富自己的数据价值和实现自己的业务分析，而不需要再进行传统的针对某一需求定制开发。

将配置好的任务流发送到Azkaban计算平台对任务流程进行处理。完成计算后，会将计算结果以文件或者统计信息的方式整理后返回给用户查看使用。

本发明实施例充分利用容器技术，通过jsplumb和vue实现前端交互页面，完成展现层部分，将前端代码和java springboot的web服务一起生成jar包，jar包主要包含对算子的调用和配置，完成业务支撑部分，生成web服务的dockerfile。分别将Azkaban、mysql、hive和spark的服务部署在K8S集群上，其中配置replica复本数为2个，以达到高可用。进而完成平台支撑和数据支持。

本申请实施例提供了一种大数据分析系统，适用于上述的一种大数据分析方法。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件、或者软件和硬件的组合的实现也是可能并被构想的。

图2为根据本申请实施例中的大数据分析系统的框架图，包括第判断单元11、任务流配置单元12、任务流执行单元13、结果获取单元14，其中：

判断单元11，判断是否存在可复用的任务流；

任务流配置单元12，若存在可复用的所述任务流，则对所述任务流进行复制并配置；

任务流执行单元13，将所述任务流发送至计算平台进行计算执行；

结果获取单元14，将计算结果整理并返回。

在其中一些实施例中，所述计算平台包括Azkaban计算平台。

本申请实施例前端使用VUE开发页面，使用jsplumb实现画布上的算子连线和用户拖拽功能。用户首先创建项目，用来作为任务流计算流程的主体，随后判断是否存在可以复用的任务流，若存在，则复制任务流并配置(包括筛选输入输出的内容和格式等)；若不存在，则通过在系统UI中用拖拽组装不同的算子连线来完成任务流程。如果用户想要一个计算一个人群画像，只需要拖拽一个人群画像算子，并连接上输入算子和输出算子来实现自己的需求即可。

将配置好的任务流发送到Azkaban计算平台对任务流程进行处理。完成计算后，会将计算结果以文件或者统计信息的方式整理后返回给用户查看使用。

需要说明的是，上述各个单元可以是功能单元也可以是程序单元，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的单元而言，上述各个单元可以位于同一处理器中；或者上述各个单元还可以按照任意组合的形式分别位于不同的处理器中。

另外，结合图1描述的本申请实施例一种大数据分析方法可以由电子设备来实现。图3为根据本申请实施例的电子设备的硬件结构示意图。

电子设备可以包括处理器21以及存储有计算机程序指令的存储器22。

具体地，上述处理器21可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器22可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器22可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器22可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器22可在数据处理装置的内部或外部。在特定实施例中，存储器22是非易失性(Non-Volatile)存储器。在特定实施例中，存储器22包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器22可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器21所执行的可能的计算机程序指令。

处理器21通过读取并执行存储器22中存储的计算机程序指令，以实现上述实施例中的任意一种大数据分析方法。

在其中一些实施例中，电子设备还可包括通信接口23和总线20。其中，如图2所示，处理器21、存储器22、通信接口23通过总线20连接并完成相互间的通信。

通信端口23可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线20包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线20包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线20可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线20可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以执行本申请实施例中的一种大数据分析方法。

另外，结合上述实施例中的一种大数据分析方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种大数据分析方法。

而前述的存储介质包括：U盘、移动硬盘、只读存储器(ReadOnly Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐洋;
专利申请人：北京明略昭辉科技有限公司;

上一篇：关联活跃度计算方法、装置、计算机设备及可读存储介质
下一篇：一种高层快速逃生与消防救援装置