掌桥专利:专业的专利平台
掌桥专利
首页

数据管理方法、装置、大数据平台及存储介质

文献发布时间:2024-04-18 19:58:21


数据管理方法、装置、大数据平台及存储介质

技术领域

本申请涉及数据管理技术领域,更具体地,涉及一种数据管理方法、装置、大数据平台及存储介质。

背景技术

当前大数据平台的数据,一般长期存在某种存储介质的删除机制不明确,且部分数据访问频率不高,随着时间推移,数据量越来越大,数据占用空间也越来越大,使得存储成本也越来越高;而访问频率高的数据,会迁移到基于内存的存储介质,以满足高频使用场景,导致数据的存储成本进一步增加。

因此,亟需一种数据管理方法,降低数据存储的成本。

发明内容

本申请提出了一种数据管理方法、装置、大数据平台及存储介质,以改善上述缺陷。

第一方面,本申请实施例提供了一种数据管理方法,方法包括:根据多条车端数据的访问频率,将多条车端数据划分为至少一个类别,每个类别包括至少一条车端数据;将每个类别中的车端数据存储在每个类别各自对应的存储介质中;根据每个类别对应的车端数据有效期以及每个类别对应的存储介质中的车端数据的时间戳,对每个存储介质中的车端数据进行管理。

第二方面,本申请实施例还提供了一种数据管理装置,装置包括:

数据分类模块,用于根据多条车端数据的访问频率,将多条车端数据划分为至少一个类别,每个类别包括至少一条车端数据;

数据存储模块,用于将每个类别中的车端数据存储在每个类别各自对应的存储介质中;

数据管理模块,用于根据每个类别对应的车端数据有效期以及每个类别对应的存储介质中的车端数据的时间戳,对每个存储介质中的车端数据进行管理。

第三方面,本申请实施例还提供了一种大数据平台,其特征在于,大数据平台包括:一个或多个处理器;存储器;一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行上述方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有处理器可执行的程序代码,程序代码被处理器执行时使处理器执行上述方法。

本申请提供的一种数据管理方法、装置、大数据平台及存储介质,在本申请中,根据车端数据的访问频率也就是车端数据的实际使用热度,将车端数据划分为至少一个类别的车端数据,每个类别的车端数据存储在该类别对应的存储介质中,从而可以选择每个类别对应的存储介质来存储车端数据,避免了采用同一种存储介质存储车端数据带来的存储成本较高的情况发生,降低了数据存储和数据使用的成本。同时,每个类别的数据对应各自的有效期,根据每个类别数据各自的有效期对各个存储介质中的数据进行管理,提高了数据管理的灵活性。

本申请实施例的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的大数据平台的示意图。

图2示出了根据本申请一个实施例提出的一种数据管理方法的流程图。

图3示出了根据本申请又一个实施例提出的一种数据管理方法的流程图。

图4示出了根据本申请实施例的再一种数据管理方法的程序框图。

图5示出了本申请一个实施例提出的一种数据管理装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示簇似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

当前大数据平台的数据,一般长期存在某种存储介质的删除机制不明确,且部分数据访问频率不高,随着时间推移,数据量越来越大,存储成本也越来越高;而访问频率高的数据,会迁移到基于内存的存储介质,以满足高频使用场景,更大幅提高了数据使用成本。

目前,现有的数据管理方法是预先配置数据表的生命周期规则,根据生命周期规则中的周期时间单位,确定生命周期规则的执行时间;根据执行时间,确定相应数据表的生命周期到期时间;若根据生命周期到期时间确定相应数据表需要被清理,则对相应数据表的数据文件和元数据进行备份,将相应数据表及其对应的元数据删除。

但是,发明人在研究中发现,通过上述方法对数据进行管理时,只能预定义生命周期规则,数据管理缺乏灵活性。

因此,为了克服上述缺陷,发明人提出了一种数据管理方法、装置、大数据平台及存储介质,根据车端数据的访问频率也就是车端数据的实际使用热度,将车端数据划分为至少一个类别的车端数据,每个类别的车端数据存储在该类别对应的存储介质中,从而可以选择每个类别对应的存储介质来存储车端数据,避免了采用同一种存储介质存储车端数据带来的存储成本较高的情况发生,降低了数据存储和数据使用的成本。同时,每个类别的数据对应各自的有效期,根据每个类别数据各自的有效期对各个存储介质中的数据进行管理,提高了数据管理的灵活性。

请参阅图1,图1示出了一种适用于本申请实施例的大数据平台的示意图,大数据平台100包括一个或多个(图中仅示出一个)处理器110以及存储器120。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个大数据平台100内的各部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行大数据平台100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各方法实施例的指令等。存储数据区还可以存储大数据平台100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图2,图2示出了本申请一个实施例提出的一种数据管理方法流程图,用于大数据平台,方法包括:

S101、根据多条车端数据的访问频率,将多条车端数据划分为至少一个类别,每个类别包括至少一条车端数据。

其中,车端数据可以是任何类型车辆的数据,可以是电动车或燃油车的数据,也可以是轿车、suv、公交车以及货车等车辆的数据。

车端数据包括车端各个类型的数据,可以是V2X(vehicle to everything)数据,即车辆与外界的信息交换的数据,V2X包括车辆与车辆V2V(Vehicle-to-Vehicle)、车辆与基础设施V2I(Vehicle-to-lnfrastructure)、车辆与行人V2P(Vehicle-to-Pedestrian)、车辆与外部网络V2N(Vehicle-to-Network)等各种信息交换。

其中,周期性地获取车端数据的访问频率,获取访问频率的周期可以根据需求设置。

在一些实施方式中,至少一个类别包括第一类别、第二类别以及第三类别中的至少一者,其中,第一类别中的车端数据的访问频率大于第二类别中的车端数据的访问频率,第二类别中的车端数据的访问频率大于第三类别中的车端数据的访问频率。

其中,第一类别中的车端数据为热数据,第二类别中的车端数据为温数据,第三类别中的车端数据为冷数据。

在一些实施方式中,可以通过设置访问频率的阈值划分车端数据,可以设置第一阈值、第二阈值,将访问频率大于第二阈值的车端数据划分为第一类别的车端数据,将访问频率大于第一阈值小于等于第二阈值的车端数据划分为第二类别的车端数据,将访问频率小于等于第一阈值的车端数据划分为第三类别的车端数据。

在一些实施方式中,S101之前可以包括:响应于获取到车端数据,将车端数据存储在第二类别对应的存储介质中。

大数据平台在获取到多条车端数据之后,车端数据默认存储在第二类别对应的存储介质中,然后根据多条车端数据的访问频率将车端数据划分为至少一个类别的车端数据。

在一些实施方式中,将车端数据存储在第二类别对应的存储介质中时,这些车端数据被大数据平台配置有其对应的有效期,后续对这些车端数据进行分类时,被划分到除了第二类别的车端数据之外的车端数据将配置其所在的类别对应的车端数据有效期,针对第二类别的车端数据,可以继续沿用最初配置的车端数据有效期,也可以重新配置车端数据有效期。

S102、将每个类别中的车端数据存储在每个类别对应的存储介质中。

第一类别对应的存储介质可以是开源列式数据库(clickhouse)基于内存的存储介质,存储成本高,查询性能好,用于支持实时性要求高的查询业务。

第二类别对应的存储介质可以是分布式文件系统(HDFS),HDFS是一个高度容错性的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。

第三类别对应的存储介质可以是对象存储,存储成本低,一般用于存放很少使用但必须保存的数据。

其中,第一类别中的车端数据在存储在第一类别对应的存储介质中的同时备份存储在第二类别对应的存储介质中。

S103、根据每个类别对应的车端数据有效期以及每个类别对应的存储介质中的车端数据的时间戳,对每个存储介质中的车端数据进行管理。

其中,每个类别对应的车端数据有效期可以相同,也可以不同,每个类别对应的车端数据有效期可以为同一个,也可以根据业务需求设置多个不同的车端数据有效期,每个类别的车端数据有效期由大车端数据平台配置。每个类别的车端数据有效期可以是车端数据的有效时长。时间戳(timestamp),通常是一个字符序列,唯一地标识某一刻的时间,这里的时间戳可以是每个存储介质中的车端数据存入该存储介质的时间戳。

在一些实施方式中,可以根据每个类别对应的车端数据有效期以及每个类别对应的存储介质中车端数据的时间戳,确定每个存储介质中的车端数据的到期时间,根据每个存储介质中的车端数据的到期时间,对每个存储介质中的车端数据进行管理。

其中,对每个存储介质中的车端数据进行管理可以是将该存储介质中的车端数据进行删除处理,也可以是将该存储介质中的车端数据进行存储延期处理,也可以是将该存储介质中的车端数据迁移至其他存储介质中。

若存储介质中的车端数据存在失效车端数据,则对该存储介质中的失效车端数据进行管理;若存储介质中的车端数据不存在失效车端数据,则对该存储介质中的车端数据继续进行监控。

在本实施例中,根据车端数据的访问频率也就是车端数据的实际使用热度,将车端数据划分为至少一个类别的车端数据,每个类别的车端数据存储在该类别对应的存储介质中,降低了车端数据存储和车端数据使用的成本,每个类别的车端数据对应各自的有效期,根据每个类别车端数据各自的有效期对各个存储介质中的车端数据进行管理,提高了数据管理的灵活性。

请参阅图3,图3示出了本申请又一个实施例提出的一种数据管理方法流程图,用于大数据平台,方法包括:

S201、根据多条车端数据的访问频率,将多条车端数据划分为至少一个类别,每个类别包括至少一条车端数据。

其中,S201的描述参照上文S101的描述,此处不再赘述。

S202、将每个类别中的车端数据存储在每个类别对应的存储介质中。

在一些实施方式中,S202可以包括:若至少一个类别包括第二类别,确定第二类别中的车端数据的获取时间所在的目标时间周期;将第二类别中的车端数据存储在第二类别对应的存储介质中与目标时间周期对应的分区。

其中,目标时间周期可以是按照一天或一周进行划分的周期,获取第二类别中的车端数据的获取时间所在的时间周期,作为目标时间周期,多条车端数据所在的时间周期相同时,该多条车端数据对应的目标时间周期相同,多条车端数据所在的时间周期不相同时,该多条车端数据对应的目标时间周期不相同。

例如,第二类别中的车端数据包括散条,两条车端数据a1以及a2在2023年2月12日获取,另一条车端数据a3在2023年2月13日获取,确定的目标时间周期包括车端数据a1和车端数据a2共同对应的目标时间周期t1以及车端数据a3对应的目标时间周期t2,将车端数据a1以及车端数据a2存储在t1对应的分区,并将车端数据a3存储在t2对应的分区。

作为一种实施方式,将第二类别中的车端数据存储在第二类别对应的存储介质中与目标时间周期对应的分区之后,可以包括:对第二类别中的存储介质进行分区车端数据进行分区扫描,确定第二类别对应的存储介质中每个分区中的车端数据的时间戳;根据每个分区中的车端数据的时间戳以及第二类别对应的车端数据有效期,对第二类别对应的存储介质中的车端数据进行管理。

其中,第二类别对应的车端数据有效期可以是同一个车端数据有效期,也可以是根据第二类别对应的存储介质的分区设置不同的车端数据有效期。

其中,对第二类别中的存储介质进行分区车端数据进行分区扫描可以是根据每个分区中的车端数据存入的时间顺序进行扫描,若分区中的车端数据对应的目标时间周期为一天,那么对该分区中的车端数据按小时进行扫描。该扫描可以是周期性进行,且扫描的周期可以与获取访问频率的周期相同,也可以与获取访问频率的周期不同,可以根据新需求设置。

其中,S202的其他描述参照上文S102的描述,此处不再赘述。

S231、若至少一个类别包括第一类别,根据第一类别对应的车端数据有效期以及第一类别对应的存储介质中的车端数据的时间戳,确定第一类别对应的存储介质中的车端数据中是否存在失效车端数据,若存在,删除第一类别对应的存储介质中的失效车端数据。

第一类别的车端数据在存入第一类别对应的存储介质时,同时备份存储在第二类别对应的存储介质中,若后续仍需要使用已删除的第一类别对应的存储介质上的失效车端数据,只需要从第二类别对应的存储介质中复制即可。

若第一类别对应的存储介质中的车端数据中不存在失效车端数据,则对第一类别对应的存储介质中的车端数据继续进行监控。其中,失效车端数据是指到期车端数据。

S232、若至少一个类别包括第二类别,根据第二类别对应的车端数据有效期以及第二类别对应的存储介质中的车端数据的时间戳,确定第二类别对应的存储介质中的车端数据中是否存在失效车端数据,若存在,将第二类别对应的存储介质中的失效车端数据迁移至第三类别对应的存储介质中。

在一些实施方式中,将第二类别对应的存储介质中的失效车端数据迁移至第三类别对应的存储介质中,可以通过获取第三类别对应的存储介质作为第二类别对应的存储介质中的车端数据对应的目标地址,在第二类别的车端数据到期后,也就是第二类别对应的存储介质中的车端数据中存在车端数据失效时,调用S3协议接口,根据目标地址将第二类别的车端数据迁移到第三类别的车端数据对应的存储介质中。

其中,S3(Simple Storage Service),简单存储服务,是一个公开的云存储服务,可以使用其存储数字资产,包括图片、视频、音乐和文档。

若第二类别对应的存储介质中的车端数据中不存在失效车端数据,则对第二类别对应的存储介质中的车端数据继续进行监控。

S233、若至少一个类别包括第三类别,根据第三类别对应的车端数据有效期以及第三类别对应的存储介质中的车端数据的时间戳,确定第三类别对应的存储介质中的车端数据中是否存在失效车端数据,若存在,对第三类别对应的存储介质中的失效车端数据进行存储延期处理或删除处理。

若第三类别对应的存储介质中的车端数据中不存在失效车端数据,则对第三类别对应的存储介质中的车端数据继续进行监控。

在一些实施方式中,S233可以包括:获取针对第三类别对应的存储介质中的车端数据的审批回复;根据审批回复对第三类别对应的存储介质中的失效车端数据进行存储延期处理或删除处理。

在一些实施方式中,若第三类别对应的存储介质中的车端数据中存在失效车端数据,触发车端数据管理流程,向第三类别对应的存储介质中的车端数据对应的车端数据管理员发送审批信息,审批信息可以是“是否删除第三类别对应的存储介质中的失效车端数据?”相关的文字表示,也可以是符号表示,若车端数据管理员的审批回复的内容为同意删除或相关表示,则对第三类别对应的存储介质中的失效车端数据进行删除处理,反之,则对第三类别对应的存储介质中的失效车端数据进行存储延期处理。通过触发审批流程,降低了车端数据误删除的风险。

在本实施例中,根据车端数据的访问频率也就是车端数据的实际使用热度,将车端数据划分为至少一个类别的车端数据,至少一个类别包括第一类别、第二类别以及第三类别中的至少一者,每个类别的车端数据存储在该类别对应的存储介质中,降低了车端数据存储和车端数据使用的成本,每个类别的车端数据对应各自的有效期以及时间戳,确定每个类别对应的存储介质中的车端数据中是否存在失效车端数据,若第一类别对应的存储介质中的车端数据中存在失效车端数据,删除第一类别对应的存储介质中的失效车端数据;若第二类别对应的存储介质中的车端数据中存在失效车端数据,将第二类别对应的存储介质中的失效车端数据迁移至第三类别对应的存储介质中,若第三类别对应的存储介质中的车端数据中存在失效车端数据,对第三类别对应的存储介质中的失效车端数据进行存储延期处理或删除处理,各个类别对应的存储介质中的车端数据到期后的管理方式不同,提高了数据管理的灵活性。

综上,如图4,获取车端数据,将车端数据存储在温对应的存储介质中,然后根据存储在温对应的存储介质中的车端数据的访问频率将车端数据划分为至少一个类别的车端数据,至少一个类别包括热、温以及冷三种类别中的至少一个类别,确热温冷三个类别对应的存储介质中的车端数据中是否存在失效车端数据,若热对应的存储介质中的车端数据中存在失效车端数据,则对热对应的存储介质中的失效车端数据进行删除处理,若温对应的存储介质中的车端数据中存在失效车端数据,则将温对应的存储介质中的失效车端数据迁移到第三类别对应的存储介质中,若冷对应的存储介质中的车端数据中存在失效车端数据,则根据获取到的审批答复对冷对应的存储介质中的失效车端数据进行删除处理或者存储延期处理。

参阅附图5,图5示出了本申请一个实施例提出的一种数据管理装置的结构框图。用于大数据平台,装置500包括:

数据分类模块501,用于根据多条车端数据的访问频率,将多条车端数据划分为至少一个类别,每个类别包括至少一条车端数据;

数据存储模块502,用于将每个类别中的车端数据存储在每个类别各自对应的存储介质中;

数据管理模块503,用于根据每个类别对应的车端数据有效期以及每个类别对应的存储介质中的车端数据的时间戳,对每个存储介质中的车端数据进行管理。

可选地,数据存储模块502,还用于若至少一个类别包括第二类别,确定第二类别中的车端数据的获取时间所在的目标时间周期;将第二类别中的车端数据存储在第二类别对应的存储介质中与目标时间周期对应的分区。

可选地,数据管理模块503,还用于对第二类别对应的存储介质中的车端数据进行分区扫描,确定第二类别对应的存储介质中每个分区中的车端数据的时间戳;根据每个分区中的车端数据的时间戳以及第二类别对应的车端数据有效期,对第二类别对应的存储介质中的车端数据进行管理。

可选地,数据管理模块503,还用于若至少一个类别包括第一类别,根据第一类别对应的车端数据有效期以及第一类别对应的存储介质中的车端数据的时间戳,确定第一类别对应的存储介质中的车端数据中是否存在失效车端数据,若存在,删除第一类别对应的存储介质中的失效车端数据;若至少一个类别包括第二类别,根据第二类别对应的车端数据有效期以及第二类别对应的存储介质中的车端数据的时间戳,确定第二类别对应的存储介质中的车端数据中是否存在失效车端数据,若存在,将第二类别对应的存储介质中的失效车端数据迁移至第三类别对应的存储介质中;若至少一个类别包括第三类别,根据第三类别对应的车端数据有效期以及第三类别对应的存储介质中的车端数据的时间戳,确定第三类别对应的存储介质中的车端数据中是否存在失效车端数据,若存在,对第三类别对应的存储介质中的失效车端数据进行存储延期处理或删除处理。

可选地,数据管理模块503,还用于获取针对第三类别对应的存储介质中的车端数据的审批回复;根据审批回复对第三类别对应的存储介质中的失效车端数据进行存储延期处理或删除处理。

可选地,数据分类模块501,还用于响应于获取到车端数据,将车端数据存储在第二类别对应的存储介质中。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

另外,在本申请各实施例中的各功能可以集成在一个处理模块中,也可以是各模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序代码,该程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之簇的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读存储介质(non-transitorycomputer-readablestoragemedium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 多版本数据存储管理方法及装置、电子设备、存储介质
  • 一种数据管理方法、装置、设备及存储介质
  • 一种数据管理方法、相关装置及计算机可读存储介质
  • 广告数据管理方法、装置及计算机可读存储介质
  • 绩效数据管理方法、装置、计算机设备及存储介质
  • 数据管理方法、装置、系统、大数据平台及可读存储介质
  • 基于大数据平台的数据管理方法、系统及存储介质
技术分类

06120116480043