一种数据处理方法、装置、电子设备及存储介质

文献发布时间：2024-04-18 20:01:30

技术领域

本发明涉及辅助驾驶领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

近年来，随着计算机技术和网络技术的发展，数据量不断增大，且用户需求不断增多，因此，对数据处理效率的要求越来越高。以自动驾驶的数据处理为例，随着自动驾驶技术的快速发展，自动驾驶的数据量也随之暴增，为了应对更大的数据量，要求算力单元能够快捷方便地对大数据进行分析和挖掘，并提高自动驾驶的数据处理效率。

在数据处理方法中，提取、转换、加载(Extract-Transform-Load，ETL)指从一个或多个数据源，将业务系统的数据经过提取、清洗转换之后加载到数据仓库的过程，加载到数据仓库中的数据可以用于数据分析和数据挖掘。现有的数据处理方法主要通过批处理的方式进行，每个批次对扫描得到的多个增量文件进行处理，而且每个步骤必须在等到上个步骤的所有文件全部处理完成的情况下才能开始处理，导致提取文件的产出较慢；并且，在对多个文件的处理过程中，如果存在有一个文件对应的子任务处理失败或者处理异常，则该步骤所有文件的处理任务都会被重跑，从而造成大量的资源浪费。

发明内容

针对现有技术存在的缺陷，本公开实施例提供一种数据处理方法、装置、电子设备及存储介质，可以避免资源浪费，提高数据处理效率。

本申请实施例提供一种数据处理方法，包括：确定第一存储空间中的新增文件集合；若数据处理策略为单文件处理策略，将新增文件同步至第二存储空间，得到同步文件；新增文件为新增文件集合中的一个文件；确定同步文件中多个话题信息对应的数据特征信息；基于数据特征信息，从同步文件中提取多个话题信息对应的数据。

可选的，基于数据特征信息，从同步文件中提取多个话题信息对应的数据之后，方法还包括：若数据处理策略为多文件处理策略，将新增文件集合同步至第二存储空间，得到同步文件集合；确定同步文件集合中多个话题信息对应的数据特征信息；基于数据特征信息，从同步文件集合中提取多个话题信息对应的数据。

可选的，确定第一存储空间中的新增文件集合，包括：基于预设频率扫描第一存储空间，得到当前扫描文件；获取历史扫描文件；将当前扫描文件和历史扫描文件对比，确定待筛文件；若确定第二存储空间中不存在和待筛文件相同的文件，将待筛文件确定为新增文件；基于新增文件确定新增文件集合。

可选的，确定同步文件中多个话题信息对应的数据特征信息，包括：确定同步文件中多个话题信息对应的数据位置信息和数据量信息。

可选的，确定第一存储空间中的新增文件集合之后，方法还包括：向监控模块发送文件新增日志；文件新增日志用于指示监控模块基于文件新增日志向执行模块发送第一指示消息，第一指示消息包含新增文件的信息；若数据处理策略为单文件处理策略，将新增文件同步至第二存储空间，得到同步文件，包括：接收第一指示消息；若数据处理策略为单文件处理策略，基于第一指示消息，确定新增文件的信息；基于新增文件的信息，将新增文件同步至第二存储空间，得到同步文件。

可选的，若数据处理策略为单文件处理策略，将新增文件同步至第二存储空间，得到同步文件之后，方法还包括：向监控模块发送数据同步日志；数据同步日志用于指示监控模块基于数据同步日志向执行模块发送第二指示消息，第二指示消息包含同步文件的信息；确定同步文件中多个话题信息对应的数据特征信息，包括：接收第二指示消息；基于第二指示消息，确定同步文件的信息；基于同步文件的信息读取并解析同步文件，得到多个话题信息对应的数据特征信息。

可选的，确定同步文件中多个话题信息对应的数据特征信息之后，方法还包括：向监控模块发送数据特征日志；数据特征日志用于指示监控模块基于数据特征日志向执行模块发送第三指示消息，第二指示消息包含数据特征信息；基于数据特征信息，从同步文件中提取多个话题信息对应的数据，包括：接收第三指示消息；基于第三指示消息，确定数据特征信息；基于数据特征信息，从同步文件中提取多个话题信息对应的数据。

相应地，本申请实施例还提供一种数据处理装置，包括：

第一确定模块，用于确定第一存储空间中的新增文件集合；

同步模块，用于若数据处理策略为单文件处理策略，将新增文件同步至第二存储空间，得到同步文件；新增文件为新增文件集合中的一个文件；

第二确定模块，用于确定同步文件中多个话题信息对应的数据特征信息；

提取模块，用于基于数据特征信息，从同步文件中提取多个话题信息对应的数据。

可选的，装置还包括，多文件处理模块，用于若数据处理策略为多文件处理策略，将新增文件集合同步至第二存储空间，得到同步文件集合；确定同步文件集合中多个话题信息对应的数据特征信息；基于数据特征信息，从同步文件集合中提取多个话题信息对应的数据。

可选的，第一确定模块用于基于预设频率扫描第一存储空间，得到当前扫描文件；获取历史扫描文件；将当前扫描文件和历史扫描文件对比，确定待筛文件；若确定第二存储空间中不存在和待筛文件相同的文件，将待筛文件确定为新增文件；基于新增文件确定新增文件集合。

可选的，第二确定模块用于确定同步文件中多个话题信息对应的数据位置信息和数据量信息。

可选的，第一确定模块还用于，在确定第一存储空间中的新增文件集合之后：向监控模块发送文件新增日志；文件新增日志用于指示监控模块基于文件新增日志向执行模块发送第一指示消息，第一指示消息包含新增文件的信息。同步模块用于：接收第一指示消息；若数据处理策略为单文件处理策略，基于第一指示消息，确定新增文件的信息；基于新增文件的信息，将新增文件同步至第二存储空间，得到同步文件。

可选的，同步模块还用于，在若数据处理策略为单文件处理策略，将新增文件同步至第二存储空间，得到同步文件之后：向监控模块发送数据同步日志；数据同步日志用于指示监控模块基于数据同步日志向执行模块发送第二指示消息，第二指示消息包含同步文件的信息。第二确定模块用于：接收第二指示消息；基于第二指示消息，确定同步文件的信息；基于同步文件的信息读取并解析同步文件，得到多个话题信息对应的数据特征信息。

可选的，第二确定模块还用于，在确定同步文件中多个话题信息对应的数据特征信息之后：向监控模块发送数据特征日志；数据特征日志用于指示监控模块基于数据特征日志向执行模块发送第三指示消息，第二指示消息包含数据特征信息。提取模块用于：接收第三指示消息；基于第三指示消息，确定数据特征信息；基于数据特征信息，从同步文件中提取多个话题信息对应的数据。

相应地，本公开实施例提供一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据处理方法。

相应地，本公开实施例提供一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据处理方法。

本申请实施例具有如下有益效果：

(1)通过进行轻量的定时扫描，而不按照同频率执行其他数据处理操作，可以尽可能减小数据处理压力；

(2)通过采用单文件处理策略，可以针对单个文件的状态进行精确的跟踪，可以避免单个文件受到其他文件进度的影响，从而避免大量的资源浪费，提高文件产出的速度和效率，同时方便单文件的代码版本管理及状态管理；

(3)根据数据处理场景的不同，通过灵活调整数据处理策略，满足多个处理场景的需求。以测试场景为例，采用单文件处理策略可以更快地得到第一个提取文件的产出；而以数据迁移为例，采用多文件处理策略可以保证文件集合中所有文件整体迁移的完整性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例所提供的一种数据处理方法的应用场景示意图；

图2是本申请实施例所提供的一种数据处理方法的第一流程示意图；

图3是本申请实施例所提供的一种数据处理方法的第二流程示意图；

图4是本申请实施例所提供的一种数据处理方法的第三流程示意图；

图5是本申请实施例所提供的一种数据处理装置的场景示意图；

图6是本申请实施例所提供的一种数据处理装置的结构示意图；

图7是本申请实施例所提供的一种数据处理方法的服务器的硬件结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例作进一步地详细描述。显然，所描述的实施例仅仅是本申请一个实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

此处所称的“实施例”是指可包含于本申请至少一个实现方式中的特定特征、结构或特性。在本申请实施例的描述中，需要理解的是，术语“上”、“下”、“左”、“右”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置/系统或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含的包括一个或者更多个该特征。而且，术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例能够以除了在这里图示或描述以外的顺序实施。此外，术语“包括”和“具有”/“为”以及他们/其的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元/模块的过程、方法、系统/装置、产品或设备不必限于清楚地列出的那些步骤或单元/模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元/模块。

下面介绍本申请提供的一种数据处理方法的具体实施例。请参阅图1，图1是本申请实施例所提供的一种数据处理方法的应用场景示意图。如图1所示，包括服务器101和终端102。可选的，服务器101和终端102可以通过无线链路连接，也可以通过有线链路连接，本公开在此不做限定。

具体地，服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选的，该服务器101上运行的操作系统可以包括但是不限于IOS、Linux、Windows、Unix、Android系统等。

在一个可选的实施例中，服务器101可以对自动驾驶数据进行处理，可以确定第一存储空间中的新增文件集合；若数据处理策略为单文件处理策略，将新增文件同步至第二存储空间，得到同步文件；新增文件为新增文件集合中的一个文件；确定同步文件中多个话题信息对应的数据特征信息；基于数据特征信息，从同步文件中提取多个话题信息对应的数据。可选的，在基于多个话题信息对应的数据进行分析运算之后，服务器101可以将运算结果发送至终端102。具体的，终端102可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的数据处理方法的一种应用环境，在实际应用中，还可以包括其他应用环境，本实施例不对此做限定。

下面介绍本申请提供的一种数据处理方法的示例性流程。可选的，一种数据处理方法的执行主体可以是车辆或者数据处理系统。可选的，本申请实施例的一种数据处理方法可以应用在可移植容器的编排管理工具(kubernetes，k8s)平台上。图2是本申请实施例提供的一种数据处理方法的第一流程示意图。本说明书提供了如实施例或流程图所示的方法或者流程操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多执行顺序中的一种方式，不代表唯一的执行顺序，在实际执行时，可以按照实施例或者附图所示的方法或者流程顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，该方法包括：

S201：确定第一存储空间中的新增文件集合。

可选的，可以执行增量扫描定时任务，该增量扫描定时任务可以扫描不同数据源中的不同存储空间。针对多个存储空间，可以启动和多个存储空间相应数量的增量扫描定时任务，得到新增文件集合。其中，新增文件集合中可以包括多个新增文件，新增文件可以是rosbag文件。

本申请实施例进行轻量的定时扫描，而不按照同频率执行其他数据处理操作，可以尽可能减小数据处理压力。

图4是本申请实施例所提供的一种数据处理方法的第三流程示意图。下面基于图4进一步阐述步骤S201。具体地如图4所图示，步骤S201的示例性流程可以包括：

S401：基于预设频率扫描第一存储空间，得到当前扫描文件。

可选的，预设频率可以是一天一次。需要注意的是，本申请不对预设频率作限定，在其它一些可选的实施例中，预设频率还可以采用其他频率。

可选的，第一存储空间中的数据或者文件可以通过转移或者同步的方式转移到第二存储空间。在数据同步完成后，可以进行空间的释放，通过释放第一存储空间中的内存，以使得第一存储空间有足够的容量能够不断存储新产生的实时数据。

S402：获取历史扫描文件。

可选的，历史扫描文件可以是本次扫描的前一次扫描得到的扫描文件。

S403：将当前扫描文件和历史扫描文件对比，确定待筛文件。

S404：若确定第二存储空间中不存在和待筛文件相同的文件，将待筛文件确定为新增文件。

可选的，可以将待筛文件和第二存储空间的文件进行比对，如果第二存储空间中不存在和待筛文件一样的文件，则确定待筛文件为新增文件。可选的，如果第二存储空间中不存在和待筛文件的消息摘要算法第五版(Message Digest Algorithm,MD5)值相同的文件，则确定待筛文件为新增文件。

S405：基于新增文件确定新增文件集合。

可选的，可以基于步骤S404中的新增文件，将多个新增文件组成的集合确定为新增文件集合。

下面继续基于图2阐述本申请实施例提供的一种数据处理方法。

S202：若数据处理策略为单文件处理策略，将新增文件同步至第二存储空间，得到同步文件。

可选的，新增文件可以为新增文件集合中的一个文件。具体而言，步骤S202是在数据处理策略位单文件处理策略的情况下，将单个新增文件同步至第二存储空间，得到同步文件。可选的，可以基于新增文件的数据源类型，确定同步文件的数据类型信息，并以确定的数据类型信息的形式存储同步文件，其中，同步文件存储在第二存储空间中。

在一种可选的实施方式中，本申请提供的一种数据处理方法的执行主体可以是执行模块。本申请实施例的场景中可以包括监控模块，针对单个新增文件，监控模块可以监控该新增文件对应的扫描任务，在扫描任务完成时指示执行模块执行同一新增文件对应的同步任务。可选的，在步骤S201之后，方法还可以包括：向监控模块发送文件新增日志。可选的，文件新增日志可以用于指示监控模块基于文件新增日志向执行模块发送第一指示消息，第一指示消息可以指示执行模块执行步骤S202。可选的，第一指示消息可以包含新增文件的信息。可选的，第一指示消息可以包含新增文件的标识信息，可以指示执行模块基于标识信息确定新增文件的信息。在此实施方式中，步骤S202可以包括：接收第一指示消息；若数据处理策略为单文件处理策略，基于第一指示消息，确定新增文件的信息；基于新增文件的信息，将新增文件同步至第二存储空间，得到同步文件。

S203：确定同步文件中多个话题信息对应的数据特征信息。

可选的，数据特征信息可以包括数据位置信息和数据量信息。具体而言，确定同步文件中多个话题信息对应的数据特征信息，可以包括：确定同步文件中多个话题信息对应的数据位置信息和数据量信息。可选的，确定的数据特征信息可以存储在第二存储空间的第一位置；在下一个步骤中可以基于第一位置获取存储的数据特征信息，并基于数据特征信息进行数据提取。

在一种可选的实施方式中，本申请提供的一种数据处理方法的执行主体可以是执行模块。本申请实施例的场景中可以包括监控模块，针对单个新增文件，监控模块可以监控该新增文件对应的同步任务，在同步任务完成时指示执行模块执行同一新增文件对应的数据特征信息确定任务。其中，数据特征信息确定任务可以是数据画像任务，任务目标可以是确定并存储多个话题对应的数据的位置和大小等信息。可选的，在步骤S202之后，方法还可以包括：向监控模块发送数据同步日志；数据同步日志可以用于指示监控模块基于数据同步日志向执行模块发送第二指示消息，第二指示消息可以指示执行模块执行步骤S203。可选的，第二指示消息可以包含同步文件的信息。可选的，第二指示消息可以包含新增文件的标识信息，可以指示执行模块基于标识信息确定同步文件的信息。步骤S203可以包括：接收第二指示消息；基于第二指示消息，确定同步文件的信息；基于同步文件的信息读取并解析同步文件，得到多个话题信息对应的数据特征信息。

S204：基于数据特征信息，从同步文件中提取多个话题信息对应的数据。

在一种可选的实施方式中，本申请提供的一种数据处理方法的执行主体可以是执行模块。本申请实施例的场景中可以包括监控模块，针对单个新增文件，监控模块可以监控该新增文件对应的数据特征信息确定任务，在数据特征信息确定任务完成时指示执行模块执行同一新增文件对应的数据提取任务。可选的，在步骤S203之后，方法还可以包括：向监控模块发送数据特征日志；数据特征日志用于指示监控模块基于数据特征日志向执行模块发送第三指示消息，第三指示消息可以指示执行模块执行步骤S204。可选的，第三指示消息可以包含数据特征信息。可选的，第三指示信息可以包含新增文件的标识信息，指示执行模块基于标识信息读取对应的数据特征信息。可选的，步骤S204还可以包括：接收第三指示消息；基于第三指示消息，确定数据特征信息；基于数据特征信息，从同步文件中提取多个话题信息对应的数据。

传统的批处理方式，如采用MapReduce、Sqoop的方式，不仅增量文件的扫描和处理都在同一个程序中进行，而且每个步骤同时有大量文件进行处理，十分耗时，运行期间占用大量的资源；如果分布式程序中的一个任务失败，会导致该任务负责处理的所有文件都会被重跑，会造成大量的资源浪费。与此同时，在上一个批次完成下一个批次还未开始的这段期间，整个集群的资源都处于闲置状态，存在明显的资源波峰波谷，造成资源浪费。批处理方式中，如果有多个处理步骤的情况，每个步骤必须要等到上一个步骤的所有文件全部完成的情况下才能开始，得到第一条最终产出需要的时间是所有的步骤时间之和，导致第一条产出速度慢，不利于测试分析场景中对故障的快速定位。在本申请实施例中，通过采用单文件处理策略，可以针对单个文件的状态进行精确的跟踪，可以避免单个文件受到其他文件进度的影响，从而避免大量的资源浪费，提高文件产出的速度和效率，同时方便单文件的代码版本管理及状态管理。

数据处理策略可以包括单文件处理策略和多文件处理策略。其中，采用单文件处理策略时，可以针对单个新增文件，依次进行同步、数据特征信息确定、数据提取的步骤；采用多文件处理策略时，可以同时针对一批文件中的多个新增文件进行处理，在所有文件完成同步之后，启动这批文件的数据特征信息确定任务，并在所有文件完成数据特征信息确定任务之后，进行数据提取。

图3是本申请实施例所提供的一种数据处理方法的第二流程示意图。下面基于图3进一步介绍本申请实施例提供的一种数据处理方法。在一种可选的实施方式中，在步骤S204之后，数据处理方法的示例性流程还可以包括如图3所图示的步骤S301-步骤S303。

S301：若数据处理策略为多文件处理策略，将新增文件集合同步至第二存储空间，得到同步文件集合。

本申请实施例中，单文件处理策略和多文件处理策略的区别在于，单文件处理策略在单个新增文件对应的当前步骤执行完成后，可以立即开始执行单个新增文件的下一个步骤，即按次序扫描新增文件、同步新增文件、确定同步文件的数据特征信息、提取同步文件；而多文件处理策略在单个新增文件对应的当前步骤执行完成后，需要等待新增文件集合中所有新增文件对应的当前步骤全部执行完毕时，再整体执行下一个步骤。

在一种可选的实施方式中，本申请提供的一种数据处理方法的执行主体可以是执行模块。本申请实施例的场景中可以包括监控模块，针对单个新增文件，监控模块可以监控新增文件集合对应的扫描任务，在扫描任务完成时指示执行模块执行新增文件集合对应的同步任务。可选的，在步骤S201之后，方法还可以包括：向监控模块发送文件新增日志。可选的，文件新增日志可以用于指示监控模块基于文件新增日志向执行模块发送第一指示消息。可选的，第一指示消息可以包含新增文件集合的信息。可选的，第一指示消息可以包含新增文件计划外的标识信息，可以指示执行模块基于标识信息确定新增文件集合的信息。在此实施方式中，步骤S301可以包括：接收第一指示消息；若数据处理策略为多文件处理策略，基于第一指示消息，确定新增文件集合的信息；基于新增文件集合的信息，将新增文件集合同步至第二存储空间，得到同步文件集合。

S302：确定同步文件集合中多个话题信息对应的数据特征信息。

在一种可选的实施方式中，本申请提供的一种数据处理方法的执行主体可以是执行模块。本申请实施例的场景中可以包括监控模块，针对单个新增文件，监控模块可以监控该新增文件集合对应的同步任务，在同步任务完成时指示执行模块执行同一新增文件集合对应的数据特征信息确定任务。其中，数据特征信息确定任务可以是数据画像任务，任务目标可以是确定并存储多个话题对应的数据的位置和大小等信息。可选的，在步骤S202之后，方法还可以包括：向监控模块发送数据同步日志；数据同步日志可以用于指示监控模块基于数据同步日志向执行模块发送第二指示消息。可选的，第二指示消息可以包含同步文件集合的信息。可选的，第二指示消息可以包含新增文件集合的标识信息，可以指示执行模块基于标识信息确定同步文件集合的信息。步骤S302可以包括：接收第二指示消息；基于第二指示消息，确定同步文件集合的信息；基于同步文件集合的信息读取并解析同步文件集合，得到多个话题信息对应的数据特征信息。

S303：基于数据特征信息，从同步文件集合中提取多个话题信息对应的数据。

在一种可选的实施方式中，本申请提供的一种数据处理方法的执行主体可以是执行模块。本申请实施例的场景中可以包括监控模块，针对单个新增文件，监控模块可以监控该新增文件集合对应的数据特征信息确定任务，在数据特征信息确定任务完成时指示执行模块执行同一新增文件集合对应的数据提取任务。可选的，在步骤S203之后，方法还可以包括：向监控模块发送数据特征日志；数据特征日志用于指示监控模块基于数据特征日志向执行模块发送第三指示消息。可选的，第三指示消息可以包含数据特征信息。可选的，第三指示信息可以包含新增文件集合的标识信息，指示执行模块基于标识信息读取对应的数据特征信息。可选的，步骤S303还可以包括：接收第三指示消息；基于第三指示消息，确定数据特征信息；基于数据特征信息，从同步文件集合中提取多个话题信息对应的数据。可选的，可以基于第三指示信息中的标识信息，确定存储数据特征信息的第一位置；从第一位置读取数据特征信息。

本申请实施例中，数据处理方法的步骤的执行可以遵循链式结构，即步骤S201对应的数据扫描任务、步骤S202对应的数据同步任务、步骤S203对应的数据画像任务、步骤S204对应的数据提取任务分别是由上至下的上下游关系，可以构成存在上下游关系的链式结构。需要注意的是，这里不对链式结构的上下顺序做限定，根据不同的场景可以采用其他任务类别和上下游顺序。

具体可以参考图5。图5是本申请实施例所提供的一种数据处理装置的场景示意图。图5中图示了该链式结构的工作流程，其中，job可以指执行模块，watch可以指监控模块，mq可以指消息队列，worker可以指任务处理服务，API Server可以指服务器，cron job可以用于任务时间调度；scan可以指扫描，sync可以指同步，profile可以指画像，message可以指提取。可选的，执行模块可以执行扫描、同步、画像、提取任务，并在结束时向监控模块反馈信息，监控模块通过消息队列告知构建模块生成链式结构中下一级的任务，并通过服务器将任务继续派给执行模块来执行；根据上下游关系按顺序执行，一直到数据提取完毕，结束单个新增文件的数据处理流程。需要注意的是，图5是以单个新增文件或者单个新增文件集合作实例。在采用单文件处理策略时，在单个新增文件的处理过程中，可以同时存在其他新增文件在并行处理，它们的任务完成状态不互相影响。

可选的，监控模块可以监控到任务状态的所有变化，将监控到的任务元数据记录并更新到数据库中。任务的元数据信息可以包括：任务名称、任务ID、上游任务名称、上游任务ID、任务参数、任务开始时间、任务结束时间、任务当前状态等。当任务完成时，监控模块可以获取任务的日志输出信息，根据日志输出信息将创建下游任务的请求发送到消息队列中。任务处理服务可以接收消息队列中的消息，并根据不同的消息创建不同类型的任务。通过监控模块将消息写入消息队列，再由任务处理服务慢慢消化处理，可以对任务处理起到削峰填谷的作用

在本申请实施例中，可以根据数据处理场景的不同，灵活调整数据处理策略，满足多个处理场景的需求。以测试场景为例，采用单文件处理策略可以更快地得到第一个提取文件的产出；而以数据迁移为例，采用多文件处理策略可以保证文件集合中所有文件整体迁移的完整性。

相应地，本申请实施例还提供一种数据处理装置。图6是本申请实施例所提供的一种数据处理装置的结构示意图。如图6所图示，数据处理装置600可以包括：

第一确定模块601，用于确定第一存储空间中的新增文件集合；

同步模块602，用于若数据处理策略为单文件处理策略，将新增文件同步至第二存储空间，得到同步文件；新增文件为新增文件集合中的一个文件；

第二确定模块603，用于确定同步文件中多个话题信息对应的数据特征信息；

提取模块604，用于基于数据特征信息，从同步文件中提取多个话题信息对应的数据。

可选的，第一确定模块601用于基于预设频率扫描第一存储空间，得到当前扫描文件；获取历史扫描文件；将当前扫描文件和历史扫描文件对比，确定待筛文件；若确定第二存储空间中不存在和待筛文件相同的文件，将待筛文件确定为新增文件；基于新增文件确定新增文件集合。

可选的，第二确定模块603用于确定同步文件中多个话题信息对应的数据位置信息和数据量信息。

可选的，第一确定模块601还用于，在确定第一存储空间中的新增文件集合之后：向监控模块发送文件新增日志；文件新增日志用于指示监控模块基于文件新增日志向执行模块发送第一指示消息，第一指示消息包含新增文件的信息。同步模块用于：接收第一指示消息；若数据处理策略为单文件处理策略，基于第一指示消息，确定新增文件的信息；基于新增文件的信息，将新增文件同步至第二存储空间，得到同步文件。

可选的，同步模块602还用于，在若数据处理策略为单文件处理策略，将新增文件同步至第二存储空间，得到同步文件之后：向监控模块发送数据同步日志；数据同步日志用于指示监控模块基于数据同步日志向执行模块发送第二指示消息，第二指示消息包含同步文件的信息。第二确定模块用于：接收第二指示消息；基于第二指示消息，确定同步文件的信息；基于同步文件的信息读取并解析同步文件，得到多个话题信息对应的数据特征信息。

可选的，第二确定模块603还用于，在确定同步文件中多个话题信息对应的数据特征信息之后：向监控模块发送数据特征日志；数据特征日志用于指示监控模块基于数据特征日志向执行模块发送第三指示消息，第二指示消息包含数据特征信息。提取模块用于：接收第三指示消息；基于第三指示消息，确定数据特征信息；基于数据特征信息，从同步文件中提取多个话题信息对应的数据。

本申请实施例提供的装置实施例和方法实施例可以基于相同的构思。

相应地，本公开实施例还提供一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据处理方法。

本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图7是本申请实施例提供的数据处理方法的服务器的硬件结构框图。如图7所示，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)710(中央处理器710可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730，一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中，存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器710可以设置为与存储介质720通信，在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源750，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口740，和/或，一个或一个以上操作系统721，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中，输入输出接口740包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口740可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图7所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器700还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。

本申请实施提供一种存储介质，存储介质可设置于服务器之中以保存用于实现方法实施例中数据处理方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述数据处理方法。

可选的，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于包括：U盘、只读存储器(ROM，Read-only Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明中，除非另有明确的规定和限定，术语“相连”、“连接”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的相连或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是：上述本申请实施例的先后顺序仅仅为了描述，不代表实施例的优劣，且上述本说明书对特定的实施例进行了描述，其他实施例也在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或者步骤可以按照不同的实施例中的顺序来执行并且能够实现预期的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者而连接顺序才能够实现期望的结果，在某些实施方式中，多任务并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的均为与其他实施例的不同之处。尤其，对于装置/系统的实施例而言，由于其基于相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：宁波路特斯机器人有限公司;

上一篇：一种极化超结氧化镓器件结构及其制作方法
下一篇：一种CPU液冷散热装置