掌桥专利:专业的专利平台
掌桥专利
首页

一种数据冷热生命周期管理的方法和装置

文献发布时间:2023-06-19 19:30:30


一种数据冷热生命周期管理的方法和装置

技术领域

本发明涉及计算机技术领域,特别是涉及一种数据冷热生命周期管理的方法和装置。

背景技术

数据库中存放的数据通常有冷热之分,我们认为频繁被访问的数据称为热数据(hot data),与之相对的,访问不频繁甚至在一段时间内都不会被访问的数据称之为冷数据(cold data)。所以可以依据数据冷热程度将数据存储在不同的介质上,在保证系统性能的前提下最大程度的降低存储成本或整体上获得更高的性能。所有如何评估数据的冷热程度(为数据进行温度判定)一直都是数据库研究领域中的一大热点。

针对数据的冷热程度,最直接的衡量依据为未来该数据的访问概率,即未来访问概率较大的数据为热数据,而被访问概率较小或不再被访问的数据则为冷数据。在实际应用中,无法预测数据未来的访问情况,因而在数据库中通常会制定其他的衡量办法以期能“预测”未来的访问情况,进而对数据的冷热程度进行表示。

在现有技术中,冷热数据的分离通常是通过使用大批量标记的数据进行机器学习实现的,具体的,由专家预先通过人工标注数据的冷热,再使用标注过的数据使用相应的机器学习算法进行训练,使用训练的结果进行实际数据的冷热分离。在这种实现方式下,标注数据的准确性将直接影响到数据冷热分离的效果,当标注数据较为劣质时,最终得到的数据冷热分离效果也不尽人意。且现有技术中对于数据冷热的分类仅考虑数据的访问频率,对于数据的存储区域的类型、成本甚至存储介质的性能特征等,均未能纳入考量,导致最终分离得到的数据冷热度无法与实际的存储环境相结合,无法精准地反应对于通过数据的冷热度进行数据存储调度的参考价值。

鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

发明内容

本发明要解决的技术问题是标注数据的优劣程度直接影响数据冷热分离的效果,当标注数据较劣质时,数据冷热分离的效果较差。

本发明采用如下技术方案:

第一方面,本发明提供了一种数据冷热生命周期管理的方法,包括:

使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型;根据所述温度预测模型,对系统中的各组数据进行温度预测,得到各组数据的预测温度;

根据各组数据的预测温度,确定各组数据所对应的温度变异范围,在对应的温度变异范围内,对数据的温度进行决策,并构建以系统的综合性能最优为目标的调度策略模型;求解所述调度策略模型,得到最优的调度策略,根据所述最优的调度策略进行数据调度;

其中,在求解所述调度策略模型的每一次模拟调度中,为各组数据进行温度的决策,得到各组数据对应的决策温度,以各组数据的当前所在存储介质为调度前存储介质,并根据各组数据的决策温度所在的温度区间,确定各组数据的调度后存储介质,从而进行模拟调度;所述温度区间是根据上一次模拟调度中各组数据的决策温度划分得到的,每个温度区间对应一个存储介质;在第一次模拟调度中,所述温度区间是根据各组数据的预测温度划分得到的;

根据数据调度前后系统的综合性能变化,计算得到各组数据的最优温度;根据所述各组数据的最优温度,对所述温度预测模型进行反向优化,以优化后续温度预测的结果。

优选的,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,具体包括:

对所述冷热数据训练集中的各特征向量进行归一化,将归一化后的特征向量输入至基于Bert的双向transformer网络,进行特征学习,以构建得到温度预测模型。

优选的,所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,还包括使用已标注的验证数据集对所述温度预测模型进行优化,具体包括:

将所述已标注的验证数据集中的已标注数据输入至所述温度预测模型中,得到已标注数据的预测温度;

根据已标注数据的标注温度和已标注数据的预测温度,使用交叉熵损失优化分类器,计算得到交叉熵损失;

根据所述交叉熵损失,使用梯度下降算法,对所述温度预测模型进行优化。

优选的,所述构建以系统的综合性能最优为目标的调度策略模型,具体包括:

根据各组数据的温度、数据占用空间大小、数据存储时长、数据价值,以及各组数据所在存储介质的存储成本、各组数据在对应存储介质中的访问速率,生成以系统的综合性能最高为目标的目标函数;

根据各组数据的数据占用空间大小、各存储介质的存储空间容量、调度前系统的存储成本、调度后系统的存储成本和调度总成本,生成约束函数;

结合所述目标函数和所述约束函数,建立所述调度策略模型。

优选的,所述约束函数包括存储空间约束函数和调度成本约束函数;

所述存储空间约束函数具体为:

针对每一个存储介质,均满足存储介质中所存储的数据组所占用的空间大小不大于存储介质的实际容量;

所述调度成本约束函数具体为:

调度后系统的总存储成本与调度成本的和小于调度前系统的总存储成本。

优选的,所述目标函数具体为:

系统的总存储成本加上系统的总调度成本得到系统的总成本,使用系统的性能评分乘以目标系数k,再除以系统的总成本所得的值;

其中,所述系统的总存储成本具体为,以第i组数据的实际占用空间乘以第i组数据所在存储介质的存储成本得到第i组数据的第一数值;

使用第i组数据的第一数值减去第i组数据的存储价值,得到第i组数据的剩余存储价值,以所述第i组数据的剩余存储价值作为真数,以自然数e为底数,进行对数运算,得到第i组数据的第二数值;

以所述第i组数据的第二数值与第i组数据的存储时长相乘得到第i组数据的存储成本,将每组数据的存储成本相加得到系统的总存储成本;

所述系统的性能评分具体为,

将第i组数据的温度和第i组数据的实际访问速率相乘,再除以第i组数据的实际占用空间得到第i组数据的第三数值;

将每组数据的第三数值相加得到第四数值,使用存储空间容量除以所述第四数值得到系统的性能评分;

所述总调度成本具体为:

将每组数据的调度成本相加得到系统的总调度成本。

优选的,所述第i组数据的实际访问速率和所述第i组数据的存储成本根据第i组数据的温度决定,具体包括:

根据第i组数据的温度所对应的温度区间,确定第i组数据的存储介质;

将第i组数据的存储介质的单位价值、第i组数据的存储时长和第i组数据的实际占用空间相乘得到第i组数据的存储成本;

以所述第i组数据的存储介质的实际访问速率作为所述第i组数据的实际访问速率。

优选的,所述根据数据调度前后系统的综合性能变化,计算得到各组数据的最优温度,具体包括:

使用系统的总存储成本加上系统的总调度成本得到系统的总成本,使用系统的总成本除以系数k再乘以调度前后系统的综合性能差值Δtarget,得到系统调度前后的性能评分差值;

以系统存储空间容量乘以第i组数据的实际访问速率,再除以第i组数据的实际占用空间,得到第i组数据的第五数值,计算所述性能评分差值对所述第五数值的偏导数,将所述偏导数与第i组数据的调度前温度相加得到第i组数据的最优温度。

优选的,所述根据所述各组数据的最优温度,对所述温度预测模型进行反向优化,具体包括:

根据所述最优温度,使用交叉熵损失优化分类器,计算得到交叉熵损失;

根据所述交叉熵损失,使用梯度下降算法,对所述温度预测模型进行优化。

第二方面,本发明还提供了一种数据冷热生命周期管理的装置,用于实现第一方面所述的数据冷热生命周期管理的方法,所述装置包括:

至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行第一方面所述的数据冷热生命周期管理的方法。

第三方面,本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面所述的数据冷热生命周期管理的方法。

本发明对在通过调度策略模型得到最优的调度策略后,根据调度策略反向计算得到数据的最优温度,根据最优温度对温度预测模型进行优化,使优化后温度预测模型的温度预测效果更贴近最优温度,从而使温度预测模型与系统的数据调度强相关,即使最初建立温度预测模型时所使用的冷热数据训练集中的标记数据为劣质数据,在本发明中,依然能够通过调度对其进行反向优化,使温度预测模型保持准确。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据冷热生命周期管理的方法的流程示意图;

图2是本发明实施例提供的一种数据冷热生命周期管理的方法中的双向transformer网络的架构示意图;

图3是本发明实施例提供的一种数据冷热生命周期管理的方法的流程示意图;

图4是本发明实施例提供的一种数据冷热生命周期管理的方法的流程示意图;

图5是本发明实施例提供的一种数据冷热生命周期管理的方法中PSO算法的架构示意图;

图6是本发明实施例提供的一种数据冷热生命周期管理的方法的整体架构示意图;

图7是本发明实施例提供的一种数据冷热生命周期管理的装置的架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1:

在现有技术中,标注数据的优劣程度直接影响数据冷热分离的效果,当标注数据较劣质时,数据冷热分离的效果较差,导致根据数据冷热分离进行数据调度的效果不理想,为了解决此问题,本发明实施例1提供了一种数据冷热生命周期管理的方法,如图1所示,包括:

在步骤201中,使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型;根据所述温度预测模型,对系统中的各组数据进行温度预测,得到各组数据的预测温度。

其中,将系统中不可分离存储的多个数据划分为同一组数据,从而形成所述各组数据,所述特征学习和温度预测主要是根据数据的访问情况、数据生产者状态和数据消费者状态等数据进行的。

所述已标注的冷热数据训练集中的标注数据的优劣程度直接取决于专家的水平。

在步骤202中,根据各组数据的预测温度,确定各组数据所对应的温度变异范围,在对应的温度变异范围内,对数据的温度进行决策,并构建以系统的综合性能最优为目标的调度策略模型。

在步骤203中,求解所述调度策略模型,得到最优的调度策略,根据所述最优的调度策略进行数据调度。

其中,在求解所述调度策略模型的每一次模拟调度中,为各组数据进行温度的决策,得到各组数据对应的决策温度,以各组数据的当前所在存储介质为调度前存储介质,并根据各组数据的决策温度所在的温度区间,确定各组数据的调度后存储介质,从而进行模拟调度;所述温度区间是根据上一次模拟调度中各组数据的决策温度划分得到的,每个温度区间对应一个存储介质;在第一次模拟调度中,所述温度区间是根据各组数据的预测温度划分得到的。

所述调度策略模型主要是根据各组数据的温度、各组数据的数据价值、存储时长、占用空间大小以及系统中各存储介质的存储特性所共同建立得到的。

所述求解调度策略模型的过程可视作进行多次模拟调度的过程,即在一次模拟调度中,假设数据的温度为某一温度,根据该温度对数据进行模拟调度,得到模拟调度后系统的模拟综合性能,将多次模拟调度的结果进行比较,从而得到最优的系统模拟综合性能,该最优的系统模拟综合性能所对应的调度策略即为最优的调度策略。且多次模拟调度的过程还可视作不断迭代的过程,即根据上一次模拟调度中的决策温度,确定下一次模拟调度中的决策温度,在第一次进行模拟调度时,根据预测温度,得到对应的决策温度。且在多次模拟调度中,决策温度始终不超出所述温度变异范围,使在得到优化温度的同时,避免与温度预测模型出现大偏差。即得到的优化温度即受到温度预测模型的影响,也受到调度策略模型的影响。

并根据上一次的模拟调度中的决策温度,进行温度区间的划分。各温度区间的划分是由存储介质的大小和每个温度下的数据大小共同决定的,首先通过各个存储介质的大小,等比例划分每个温度区间的初始范围,之后根据各组数据的决策温度,动态调整温度区间的大小,使该温度区间所对应的存储介质能够尽可能完整存储决策温度位于该温度区间内的全部数据。

在此需要说明的是,本实施例所述的“上一次模拟调度”和“下一次模拟调度”是相对两次相邻的比对过程而言的,例如,截止某个时间为止已经进行了三次模拟调度,在此为描述方便,将这三次模拟调度按照时间顺序称为:第一次模拟调度、第二次模拟调度和第三次模拟调度,则第一次模拟调度为第二次模拟调度的“上一次模拟调度”,第二次模拟调度为第一次模拟调度的“下一次模拟调度”,第二次模拟调度为第三次模拟调度的“上一次模拟调度”,第三次模拟调度为第二次模拟调度的“下一次模拟调度”。

其中,各组数据的温度决定将数据存储到哪一存储介质中,举例而言,划分多个温度区间,每个温度区间对应一个存储介质,将温度位于相应温度区间内的数据存储到对应存储介质中。

在步骤204中,根据数据调度前后系统的综合性能变化,计算得到各组数据的最优温度;根据所述各组数据的最优温度,对所述温度预测模型进行反向优化,以优化后续温度预测的结果。

所述根据数据调度前后系统的综合性能变化,计算得到各组数据的最优温度实际是在步骤203中得到最优的调度策略后,反推得到在该最优的调度策略下数据的最优温度。

所述以优化后续温度预测的结果可以是迭代执行上述步骤201-步骤203,直至迭代次数大于预设次数,或由本领域技术人员设置迭代停止条件,当达到迭代停止条件时停止,并认为在迭代结束后,得到了准确的温度预测模型,使用该温度预测模型所得的预测温度为在当前系统下最准确的数据温度,从而能够直接根据预测温度进行数据调度,而无需再经由调度决策模型制定调度策略。所述预设次数是由本领域技术人员根据经验分析得到的。其中,所述最优温度是在一次迭代过程中,所得到的最优温度,随着迭代次数的增加,所得到的最优温度将不断趋近当前系统中数据的准确温度。

本实施例通过设置温度预测模型和调度策略模型,并在通过调度策略模型得到最优的调度策略后,根据调度策略反向计算得到数据的最优温度,根据最优温度对温度预测模型进行优化,使优化后温度预测模型的温度预测效果更贴近最优温度,从而使温度预测模型与系统的数据调度强相关,即使最初建立温度预测模型时所使用的冷热数据训练集中的标记数据为劣质数据,在本实施例中,依然能够通过调度对其进行反向优化,使温度预测模型保持准确。且在本实施例中,由于使用了调度对温度预测模型进行反向优化,使优化后温度预测模型预测得到的数据温度对数据调度具有更高的参考价值,从而能够适用于多种系统,而无需针对每一种系统,单独制定一种调度方法。

本实施例还提供了一种可选的实施方式,即所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,具体包括:

对所述冷热数据训练集中的各特征向量进行归一化,将归一化后的特征向量输入至基于Bert的双向transformer网络,进行特征学习,以构建得到温度预测模型。

如图2为所述双向transformer网络的架构示意图,其中,I

在此需要说明的是,上述实施方式仅仅为一种可选的实施方式,在实际使用中,使用神经网络算法模型LSTM或本领域技术人员的自定义模型构建温度预测模型也是可行的。

在实际使用中,根据冷热数据训练集中数据量的大小,可能导致特征学习的效果存在差异,最终导致温度预测模型不够准确,针对此问题,本实施例还提供了以下优选的实施方式,即所述使用已标注的冷热数据训练集,进行特征学习,以构建温度预测模型,还包括使用已标注的验证数据集对所述温度预测模型进行优化,如图3所示,具体包括:

在步骤301中,将所述已标注的验证数据集中的已标注数据输入至所述温度预测模型中,得到已标注数据的预测温度。

在步骤302中,根据已标注数据的标注温度和已标注数据的预测温度,使用交叉熵损失优化分类器,计算得到交叉熵损失。

在步骤303中,根据所述交叉熵损失,使用梯度下降算法,对所述温度预测模型进行优化。

所述使用交叉熵损失优化分类器,计算得到交叉熵损失以数学函数的形式表现为:

其中,Loss为交叉熵损失,i为数据的组数,c代表一类数据的温度,m为温度类别的数量,N为输入所述特征学习中所使用到的特征向量的数量,以图2为例,其中输入n个特征向量,则N的值为n。p

所述使用梯度下降算法,对所述温度预测模型进行优化可理解为对温度预测模型中模型参数进行更改优化,使通过优化后的温度预测模型所预测得到的数据温度更准确,此处的准确依旧是相对于标注的数据而言的,即使温度预测模型预测的温度更贴近标注的温度。

本实施例还提供了一种可选的实施方式,即构建以系统的综合性能最优为目标的调度策略模型,如图4所示,具体包括:

在步骤401中,根据各组数据的温度、数据占用空间大小、数据存储时长、数据价值,以及各组数据所在存储介质的存储成本、各组数据所在存储介质中的访问速率,生成以系统的综合性能最高为目标的目标函数。

在步骤402中,根据各组数据的数据占用空间大小、各存储介质的存储空间容量、调度前系统的存储成本、调度后系统的存储成本和调度总成本,生成约束函数。

在步骤403中,结合所述目标函数和所述约束函数,建立所述调度策略模型。

其中,所述系统的综合性能一部分由系统的存储成本和数据的调度成本表现,另一部分由系统的数据访问性能进行表现。举例而言,当将数据价值高、调用较频繁的数据存储在性能相对较优的存储介质中,将数据价值低、调用次数较少的数据存储在性能相对较差的存储介质中时,系统的综合性能相对较高。

建立所述调度策略模型存在多种可选的算法,包括遗传算法GA、粒子群算法PSO和差分进化算法DE等。

在本实施例中,将以使用粒子群算法PSO建立所述调度策略模型为例,对所述模型中的目标函数和约束函数进行具体的阐述说明。

在使用粒子群算法PSO时,所述目标函数具体为:

系统的总存储成本storage加上系统的总调度成本dispatch得到系统的总成本,使用系统的性能评分performance乘以目标系数k,再除以系统的总成本所得的值。其中,所述系统的总存储成本storage代指模拟调度后系统的总存储成本,所述系统的性能评分performance代指模拟调度后系统的性能评分。即上述两者均是根据模拟调度后系统的状态进行计算得到。其中所涉及的各组数据所在的存储介质均是代指在该次模拟调度中对应的调度后介质,各组数据的温度均是代指在该次模拟调度中对应的决策温度。所述系统的总调度成本dispatch则是指在模拟调度过程中所耗费的调度成本,其通常表现为数据迁移所耗费的时间、内存占用和cpu占用等。

所述目标函数以数学公式的形式表现为:

其中,target可视作系统的综合性能,performance为系统的性能评分,storage为系统的总存储成本,dispatch为系统的总调度成本,k为目标系数,k的值由本领域技术人员根据系统的需求分析得到,k的值越大,代表所述调度策略模型更侧重于提升系统的性能评分,k的值越小,代表所述调度策略模型更侧重于平衡系统的存储成本。

在对调度策略模型求解的过程中,每进行一次模拟调度,均需进行一次目标函数的计算,以多次模拟调度的target作为判断模拟调度是否最优的依据。storage具体为模拟调度后系统的总存储成本,performance为模拟调度后系统的性能评分,dispatch为模拟调度时所需花费的总调度成本。

其中,所述系统的总存储成本storage具体为:以第i组数据的实际占用空间乘以第i组数据所在存储介质的存储成本得到第i组数据的第一数值。

使用第i组数据的第一数值减去第i组数据的存储价值,得到第i组数据的剩余存储价值,以所述第i组数据的剩余存储价值作为真数,以自然数e为底数,进行对数运算,得到第二数值。

以所述第i组数据的第二数值与第i组数据的存储时长相乘得到第i组数据的存储成本,将每组数据的存储成本相加得到系统的总存储成本storage。

将所述系统的总存储成本storage以数学公式的形式表现为:

其中,storage为系统的总存储成本,i为数据的组数,n为系统中的数据总组数,duration

所述系统的性能评分performance具体为:

将第i组数据的温度和第i组数据的实际访问速率相乘,再除以第i组数据的实际占用空间得到第i组数据的第三数值。

将每组数据的第三数值相加得到第四数值,使用存储空间容量除以所述第四数值得到系统的性能评分performance。

将所述系统的性能评分performance以数学公式的形式表现为:

其中,performance为系统的性能评分,capacity为系统的存储空间总容量,i为数据的组数,n为系统中的数据总组数,temperature

需要说明的是,上述第一数值、第二数值、第三数值和第四数值均是为了清晰表现目标函数的计算过程而使用的,用于代表计算过程所使用的不同的中间值。其中,第一数值、第二数值和第三数值均是相对于一组数据而言的,即针对一组数据,在一次模拟调度过程中,计算得到对应的第一数值、第二数值和第三数值。而第四数值则是相对一个模拟调度过程整体而言的,即在一次模拟调度过程中,对应一个第四数值。

所述总调度成本dispatch具体为:

将每组数据的调度成本相加得到系统的总调度成本dispatch。

将所述总调度成本dispatch以数学公式的形式表现为:

其中,i为需要调度的数据的计数值,n为系统中的数据总组数,所述disfootprint

在求解所述调度策略模型的过程中,以数据的温度为决策变量,即通过采用不同的温度,进行多次模拟调度,在每一次调度中,根据数据的温度不同,所对应数据的调度后的存储介质可能不同,从而存在以下关联关系,所述第i组数据的实际访问速率和所述第i组数据的存储成本根据第i组数据的温度决定,具体包括:

根据第i组数据的温度所对应的温度区间,确定第i组数据的存储介质。

将第i组数据的存储介质的单位价值、第i组数据的存储时长和第i组数据的实际占用空间相乘得到第i组数据的存储成本;以所述第i组数据的存储介质的实际访问速率作为所述第i组数据的实际访问速率。

假设根据上一次模拟调度中各组数据进行温度区间划分,所得到的第k个存储介质所对应的温度区间为:

[temperature

当第i组数据的温度在某一次模拟调度中满足以下条件时:

temperature

则在本次模拟调度中,第i组数据的调度后存储介质为所述第k个存储介质,在本次模拟调度中,即在数据模拟调度后第i组数据将被存储于第k个存储介质中,那么在本次模拟调度中,第i组数据所在存储介质的存储成本cost

cost

其中,footprint

第i组数据的实际访问速率rate

所述约束函数包括存储空间约束函数和调度成本约束函数。

所述存储空间约束函数具体为:

针对每一个存储介质,均满足存储介质中所存储的数据组所占用的空间大小不大于存储介质的实际容量。

其中,第k个存储介质中所存储的数据组所占用的空间大小finalfootprint

其中,temperature

finalfootprint

所述调度成本约束函数具体为:

调度后系统的总存储成本与调度成本的和小于调度前系统的总存储成本。

记调度前系统的总存储成本为storage

max(|storage

其中,max()代表最大化函数。

在使用粒子群算法PSO构建所述调度策略模型时,并得到上述目标函数时,相对应的存在以下可选的实施方式,即所述根据数据调度前后系统的综合性能变化,计算得到各组数据的最优温度,具体包括:

使用系统的总存储成本storage加上系统的总调度成本dispatch得到系统的总成本,使用系统的总成本除以系数k再乘以调度前后系统的综合性能差值Δtarget,得到系统调度前后的性能评分差值Δpreformance。

将所述性能评分差值Δpreformance以数学公式的形式表现为:

其中,Δpreformance为性能评分差值,storage为调度后系统的总存储成本,dispatch为调度时所需花费的总调度成本,k为目标系数,Δtarget为调度前后系统的综合性能差值。

所述调度前后系统的综合性能差值Δtarget以数学公式的形式表现为:

Δtarget=|target-target′|

其中,target为调度前的系统综合性能,target′为调度后的系统综合性能。

以系统存储空间容量乘以第i组数据的实际访问速率,再除以第i组数据的实际占用空间,得到第i组数据的第五数值,计算所述性能评分差值Δpreformance对所述第五数值的偏导数,将所述偏导数与第i组数据的调度前温度相加得到第i组数据的最优温度temperature

所述最优温度temperature

其中,temperature

在此需要说明的是,上述第五数值是为了清晰表现温度值计算过程所使用的,用于代表计算过程中所使用的中间值,所述第五数值是相对于一组数据而言的,即针对一组数据,对应一个第五数值。

本实施方式仅适用于以PSO算法得到上述目标函数的情况,当目标函数不同时,对应计算得到最优温度的实施方式也不同,如当使用遗传算法GA构建目标函数时,对应最优温度的计算方法与本实施方式不同。

作为一种可选的实施方式,本实施例使用交叉熵损失优化分类器对温度预测模型进行优化,即所述根据所述各组数据的最优温度,对所述温度预测模型进行反向优化,具体包括:

根据所述最优温度,使用交叉熵损失优化分类器,计算得到交叉熵损失。

根据所述交叉熵损失,使用梯度下降算法,对所述温度预测模型进行优化。

所述使用交叉熵损失优化分类器,计算得到交叉熵损失以数学函数的形式表现为:

其中,Loss为交叉熵损失,i为数据的组数,temperature

本实施例还在上述各实施方式的基础上,以实际的使用场景为例,提出了一种优选的实施方式,具体包括:

每间隔预设周期从系统中采集相应数据的各特征信息,所述预设周期由本领域技术人员根据经验分析得到,如以一至两日为间隔,每日于夜间1时至3时期间,对于存储区域的物联网数据采集特征信息。

将特征信息划分为3类,包括数据访问情况相关的特征信息,与存储数据成本相关的特征信息和与数据生产者消费者相关的特征信息。

所述数据访问情况相关的特征信息包括:

(1)数据近期访问频率data_frequency

(2)数据访问速度data_rate

所述与存储数据成本相关的特征信息包括:

(1)数据存储空间大小(即上述实施例中的实际占用空间)storage_footprint

(2)数据存储时长storage_duration

(3)数据价值data_worth

(4)存储区成本storage_cost

所述与数据生产者消费者相关的特征信息包括:

(1)生产者:设备在线状态device_status,设备近期在线时长device_duration

(2)消费者:用户在线状态user_status,用户近期访问时长user_duration。

将性能相关的特征以I

将数据访问情况相关的特征信息和数据生产者消费者相关的特征信息(即I

再根据数据成本相关的特征信息(即I

实施例2:

如图7所示,是本发明实施例的数据冷热生命周期管理的装置的架构示意图。本实施例的数据冷热生命周期管理的装置包括一个或多个处理器21以及存储器22。其中,图7中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接,图7中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序和非易失性计算机可执行程序,如实施例1中的数据冷热生命周期管理的方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令,从而执行数据冷热生命周期管理的方法。

存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的数据冷热生命周期管理的方法。

值得说明的是,上述装置和系统内的模块、单元之间的信息交互、执行过程等内容,由于与本发明的处理方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于地热和太阳能的新型冷热集成系统装置及其使用方法
  • 一种柴油机冷热冲击试验装置和方法
  • 一种存储系统中垃圾回收冷热数据迁移的方法
  • 一种成本驱动的云计算冷热数据存储优化方法
  • 一种数据处理方法、装置和用于数据处理的装置
  • 一种基于机载嵌入式数据库的数据生命周期管理方法
  • 一种基于机载嵌入式数据库的数据生命周期管理方法
技术分类

06120115938012