掌桥专利:专业的专利平台
掌桥专利
首页

一种基于大数据的提高资源分配的资源调度方法

文献发布时间:2024-04-18 19:58:26


一种基于大数据的提高资源分配的资源调度方法

技术领域

本发明涉及信息技术领域,具体来说,涉及一种基于大数据的提高资源分配的资源调度方法。

背景技术

资源调度是指在特定的资源环境下,根据一定的资源使用规则,在不同的资源使用者之间进行资源调整的过程。在当下的大数据时代,图片、视频和人工智能AI的计算成本逐渐成为不可承受之重。由于计算任务的多样化及资源的有限性,导致资源难以均衡用于各个计算任务;由于设备的购买、裁撤、流转形成了大量的短期空闲设备,导致整体资源利用并不充分,如何挖掘复用现有的空闲资源,以满足当前海量的计算业务的需求,成为大数据应用领域难题。

目前,传统的资源调度方法主要是基于静态的资源分配策略,无法实现动态的资源调度和管理。因此,往往会导致资源的浪费和利用率不高,传统的资源调度方法通常只能处理简单的任务,无法处理复杂的任务和海量数据。而且,由于任务之间的相互影响,传统的资源调度方法往往会导致任务的阻塞和延迟,影响任务的处理效率和质量,可能会发生资源的冲突和竞争,导致任务的失败和系统的崩溃。而且,传统的资源调度方法缺乏监控和管理手段,无法及时发现和处理异常情况,影响系统的安全性和稳定性。

针对相关技术中的问题,目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题,本发明提出一种基于大数据的提高资源分配的资源调度方法,以克服现有相关技术所存在的上述技术问题。

为此,本发明采用的具体技术方案如下:

一种基于大数据的提高资源分配的资源调度方法,该基于大数据的提高资源分配的资源调度方法包括以下步骤:

S1、对大数据中不同资源的状态信息及负载信息进行采集;

S2、分别对采集到的所述状态信息及所述负载信息进行预处理;

S3、将预处理后的结果基于因子分析模型进行分析;

S4、根据分析结果,基于优化算法模型制定调度策略;

S5、通过调度策略提高资源分配,完成资源的调度。

进一步的,所述分别对采集到的所述状态信息及所述负载信息进行预处理包括以下步骤:

S21、获取所述状态信息及所述负载信息相对应的重复数据,并对重复数据进行去噪、滤波及平滑处理;

S22、将所述状态信息及所述负载信息中未处理的数据行进行联结,生成一个新的数据表,通过外部键值将不同的数据表进行关联,生成一个完整的数据表,并得到准确数据;

S23、对所述准确数据进行特征提取,并得到所述状态信息及所述负载信息的特征参数。

进一步的,所述将预处理后的结果基于因子分析模型进行分析包括以下步骤:

S31、通过主成分分析法提取特征参数的因子,得到每个观测变量的因子得分;

S32、对提取的因子进行旋转,并解释提取的因子含义;

S33、通过解释提取的因子含义,得到每个因子的含义及解释力度;

S34、对提取的因子和模型进行验证,以确保因子分析模型的可靠性及稳定性。

进一步的,所述根据分析结果,基于优化算法模型制定调度策略包括以下步骤:

S41、根据分析结果,确定需要优化的目标函数及约束条件;

S42、将需要优化的目标函数及约束条件转化为数学公式,并建立数学模型;

S43、通过粒子群算法对数学模型进行优化,并得到最优解;

S44、根据得到的最优解,并判断资源的负载状态制定调度策略并实施。

进一步的,所述通过粒子群算法对数学模型进行优化,并得到最优解包括以下步骤:

S431、定义粒子的位置和速度,并随机生成粒子的位置和速度;

S432、将每个粒子的位置输入到目标函数中进行计算适应度;

S433、根据粒子的位置和计算的适应度来计算出新的粒子速度;

S434、根据新粒子速度和当前位置来更新粒子的位置;

S435、在整个粒子群中选择适应度最高的粒子作为全局最优解;

S436、当达到预设终止条件,则停止算法,并输出全局最优解。

进一步的,所述粒子群算法包括:

设定目标搜索空间的维数及粒子群的粒子数;

分别求得粒子向量表达式、粒子历史最优位置向量表达式、粒子群最优位置向量表达式及粒子速度向量表达式;

通过迭代计算,得出粒子速度公式和粒子位置调整公式。

具体的,设目标搜索空间的维数为d,粒子群的粒子数为n;

第i个粒子的表示为向量x

第i个粒子的历史最优位置表示为向量p

粒子群的最优位置表示为向量p

第i个粒子的速度表示为向量v

其中,在迭代过程中,得出粒子速度公式和粒子位置调整公式。

粒子速度公式为:

v

粒子位置调整公式为:

x

式中:v

进一步的,所述负载信息包括节点标识与节点负载值。

进一步的,所述判断资源的负载状态包括以下步骤:

当负载信息中每个节点负载值小于负载值下限值,且负载信息的当前吞吐量小于吞吐量第一阈值时,则判断负载状态为空闲;

当负载信息中每个节点负载值大于负载值下限值,且负载信息的当前吞吐量大于吞吐量第一阈值时,则判断负载状态为忙碌。

进一步的,所述对提取的因子进行旋转,并解释提取的因子含义包括以下步骤:

S321、对提取的因子进行分析,并得到因子载荷矩阵和特征值;

S322、利用因子载荷矩阵计算旋转矩阵;

S323、通过正交旋转法对因子载荷矩阵进行旋转,并得到旋转后的因子载荷矩阵;

S324、通过计算旋转后的因子载荷矩阵特征值,用于确定旋转后的因子数;

S325、将旋转前因子载荷矩阵与旋转后因子载荷矩阵进行比较,并判断是否更加可解释;

S326、利用旋转后的因子载荷矩阵重新计算因子得分,并提取因子含义。

进一步的,所述利用旋转后的因子载荷矩阵重新计算因子得分,并提取因子含义包括以下步骤:

S3261、基于重新计算的因子得分,并确定需要保留的因子数;

S3262、根据每个保留的因子数,并通过分析因子载荷矩阵来确定每个变量与每个因子间的关系;

S3263、通过每个因子反映的潜在因素,并对每个因子进行命名;

S3264、对提取出的因子含义进行检验,确保因子的合理性及可解释性。

本发明的有益效果为:

1、本发明通过基于优化算法模型来制定调度策略,使得可以通过对大数据资源调度进行优化,可以最大程度地利用资源和设备,避免造成资源的浪费和利用率不高的现象发生,并且对采集的信息进行预处理,从而可以提高数据质量、减少数据扰动和噪声,使得更容易从数据中提取有用的信息,并且能够更精确地进行分类、聚类、回归等任务。

2、通过设置优化算法,可以使得模型更加精确地拟合训练数据,并且能够更好地适应新的未知数据,还能减少模型训练的时间和计算资源消耗,并且让模型在相同的硬件条件下具有更好的性能,并且可以扩大适用模型的范围,使其能够适用于更多的场景和应用,从而使得模型更易于理解和解释,进而提高模型的可靠性和可信度。

3、通过设置正交旋转法,使得可以将原始变量与新的不相关因子进行线性组合,减少数据的维度并提取数据中的潜在结构,正交旋转法为因子载荷矩阵进行旋转,使得每个因子与尽可能少的原始变量高度相关,从而增加因子分析结果的可解释性和稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于大数据的提高资源分配的资源调度方法的流程图。

具体实施方式

为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例,提供了一种基于大数据的提高资源分配的资源调度方法。

现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的基于大数据的提高资源分配的资源调度方法,该基于大数据的提高资源分配的资源调度方法包括以下步骤:

S1、对大数据中不同资源的状态信息及负载信息进行采集;

具体的,对大数据中不同资源的状态信息及负载信息进行采集的方式包括监控系统、日志分析、传感器技术、系统调用及网络采集等。

具体的,监控系统可以通过对资源的各项指标进行实时监控,例如CPU利用率、内存利用率、磁盘利用率、网络带宽利用率等,来获取资源的实时状态信息和负载信息。

具体的,通过分析服务器的日志,可以了解服务器的负载情况和异常情况,从而实现对资源的状态信息和负载信息的采集。

具体的,通过安装温度传感器、湿度传感器等传感器来监测数据中心的温度和湿度,从而了解数据中心的状态信息和负载信息。

具体的,通过使用Linux系统的proc文件系统来获取CPU利用率、内存利用率等资源的状态信息和负载信息。

具体的,通过使用网络采集工具来获取网络设备的带宽利用率和流量等信息,从而实现对网络资源的状态信息和负载信息的采集。

S2、分别对采集到的所述状态信息及所述负载信息进行预处理;

具体的,状态信息包括:

资源状态信息:记录系统中各种资源的状态信息,如CPU、内存、硬盘、网络等的利用率、负载、容量、速度等;

系统状态信息:记录系统的运行状态和系统级别的数据,如系统的负载、进程状态、系统日志、系统事件、错误报告等;

应用状态信息:记录应用程序的运行状态和应用级别的数据,如应用的负载、运行状态、处理速度、处理效率、错误日志等;

网络状态信息:记录网络的连接状态、通信速度、数据传输量、数据包丢失率、网络拓扑结构等;

安全状态信息:记录系统的安全状态和安全事件,如入侵检测、攻击报告、防火墙日志、授权管理等。

S3、将预处理后的结果基于因子分析模型进行分析;

具体的,基于因子分析模型进行分析包括数据准备、因子提取、因子旋转、因子解释及结果解释。

S4、根据分析结果,基于优化算法模型制定调度策略;

具体的,优化算法模型包括线性规划模型、整数规划模型、非线性规划模型、粒子群算法模型及遗传算法模型。

具体的,线性规划模型,通常采用矩阵和向量的形式表示,包括以下要素:

决策变量:这些变量是需要优化的变量,它们的取值会影响目标函数的值;

目标函数:这是需要最大化或最小化的函数,通常用线性函数表示;

约束条件:这些条件是限制决策变量取值的限制条件,通常是线性方程或不等式的形式。

S5、通过调度策略提高资源分配,完成资源的调度。

在一个实施例中,所述分别对采集到的所述状态信息及所述负载信息进行预处理包括以下步骤:

S21、获取所述状态信息及所述负载信息相对应的重复数据,并对重复数据进行去噪、滤波及平滑处理;

S22、将所述状态信息及所述负载信息中未处理的数据行进行联结,生成一个新的数据表,通过外部键值将不同的数据表进行关联,生成一个完整的数据表,并得到准确数据;

具体的,通过外部键值将不同的数据表进行关联,生成一个完整的数据表包括以下步骤:

设计数据表结构:对每个数据表进行设计,确定表名、表的字段、字段的数据类型和字段的约束等信息。

创建数据表:根据设计好的数据表结构,在数据库中创建相应的数据表,并插入数据。

创建外键约束:在关联的数据表之间创建外键约束,确保数据表之间的数据完整性和一致性,外键约束可以通过ALTER TABLE语句来创建。

执行关联查询:通过SQL语句执行关联查询操作,根据外部键值将不同的数据表进行关联。例如,可以使用JOIN关键字来实现数据表的关联查询操作。

S23、对所述准确数据进行特征提取,并得到所述状态信息及所述负载信息的特征参数。

具体的,对提取出的特征参数进行选择,去除冗余的特征参数,提高特征参数的表达能力和准确性。

具体的,特征选择方法包括过滤式特征选择、包裹式特征选择及嵌入式特征选择等。

在一个实施例中,所述将预处理后的结果基于因子分析模型进行分析包括以下步骤:

S31、通过主成分分析法提取特征参数的因子,得到每个观测变量的因子得分;

具体的,通过主成分分析法提取特征参数的因子,得到每个观测变量的因子得分包括以下步骤:

对数据进行标准化,使得数据各个维度具有相同的重要性;

计算数据的协方差矩阵或相关系数矩阵;

对协方差矩阵或相关系数矩阵进行特征值分解,得到特征值和特征向量;

按照特征值从大到小的顺序选择前k个特征向量,将原始数据映射到这k个新的主成分上;

根据主成分的解释程度和应用需要,选择合适的主成分数量,进行降维和特征提取。

S32、对提取的因子进行旋转,并解释提取的因子含义;

S33、通过解释提取的因子含义,得到每个因子的含义及解释力度;

S34、对提取的因子和模型进行验证,以确保因子分析模型的可靠性及稳定性。

在一个实施例中,所述根据分析结果,基于优化算法模型制定调度策略包括以下步骤:

S41、根据分析结果,确定需要优化的目标函数及约束条件;

S42、将需要优化的目标函数及约束条件转化为数学公式,并建立数学模型;

S43、通过粒子群算法对数学模型进行优化,并得到最优解;

S44、根据得到的最优解,并判断资源的负载状态制定调度策略并实施。

在一个实施例中,所述通过粒子群算法对数学模型进行优化,并得到最优解包括以下步骤:

S431、定义粒子的位置和速度,并随机生成粒子的位置和速度;

S432、将每个粒子的位置输入到目标函数中进行计算适应度;

S433、根据粒子的位置和计算的适应度来计算出新的粒子速度;

S434、根据新粒子速度和当前位置来更新粒子的位置;

S435、在整个粒子群中选择适应度最高的粒子作为全局最优解;

S436、当达到预设终止条件,则停止算法,并输出全局最优解。

具体的,判断是否达到停止条件,例如达到最大迭代次数或者目标函数值已经收敛。

在一个实施例中,所述粒子群算法包括:

设定目标搜索空间的维数及粒子群的粒子数;

分别求得粒子向量表达式、粒子历史最优位置向量表达式、粒子群最优位置向量表达式及粒子速度向量表达式;

通过迭代计算,得出粒子速度公式和粒子位置调整公式。

具体的,设目标搜索空间的维数为d,粒子群的粒子数为n;

第i个粒子的表示为向量x

第i个粒子的历史最优位置表示为向量p

粒子群的最优位置表示为向量p

第i个粒子的速度表示为向量v

其中,在迭代过程中,得出粒子速度公式和粒子位置调整公式。

粒子速度公式为:

v

粒子位置调整公式为:

x

式中:v

在一个实施例中,所述负载信息包括节点标识与节点负载值。

具体的,节点标识是指在分布式系统中用于标识不同节点的唯一标识符,通常使用IP地址或主机名作为节点标识。

具体的,节点负载值是指节点在运行时所承担的负载情况,通常用一组指标来表示,如CPU使用率、内存使用率、磁盘I/O、网络带宽等。这些指标可以反映出节点当前的负载情况和资源利用率。

在一个实施例中,所述判断资源的负载状态包括以下步骤:

当负载信息中每个节点负载值小于负载值下限值,且负载信息的当前吞吐量小于吞吐量第一阈值时,则判断负载状态为空闲;

当负载信息中每个节点负载值大于负载值下限值,且负载信息的当前吞吐量大于吞吐量第一阈值时,则判断负载状态为忙碌。

在一个实施例中,所述对提取的因子进行旋转,并解释提取的因子含义包括以下步骤:

S321、对提取的因子进行分析,并得到因子载荷矩阵和特征值;

具体的,因子载荷矩阵是因子分析的一个重要输出,它显示了每个原始变量与每个因子之间的相关性,通常使用Pearson相关系数(或其他指标)来度量。例如,如果一个因子在某些变量上具有很高的载荷,而在其他变量上没有载荷,则可以将这些变量视为共同描述该因子的特定方面。

具体的,特征值是另一个因子分析输出的重要组成部分,它表示每个因子的解释力或方差贡献。一个因子的特征值越高,说明它解释的方差就越大,因此也就越重要。当特征值低于1时,说明该因子解释的方差比随机误差的方差还少,所以可以考虑舍弃该因子。

S322、利用因子载荷矩阵计算旋转矩阵;

S323、通过正交旋转法对因子载荷矩阵进行旋转,并得到旋转后的因子载荷矩阵;

具体的,通过正交旋转法对因子载荷矩阵进行旋转,并得到旋转后的因子载荷矩阵包括以下步骤:

计算因子间的协方差矩阵或相关系数矩阵;

对这个矩阵进行特征值分解,得到每个因子的特征值和相应的特征向量;

将所有的特征向量排列成一个矩阵,得到初始旋转矩阵;

计算因子载荷矩阵与初始旋转矩阵的乘积,得到旋转后的因子载荷矩阵;

其中,将所有的特征向量排列成一个矩阵,得到初始旋转矩阵的计算公式为:

B=LF

式中,B是旋转后的因子载荷矩阵;

L是正交矩阵;

F是原始因子载荷矩阵。

根据选择的旋转方法,迭代执行上一步骤,直到达到最优的旋转矩阵。

S324、通过计算旋转后的因子载荷矩阵特征值,用于确定旋转后的因子数;

具体的,计算出因子载荷矩阵的特征值,然后根据特征值的大小来决定保留多少个因子。一般来说,如果某个特征值大于1,则可以将其视为表示一个因子的信号强度较高,因此可以保留该因子。另外,还需要考虑保留的因子数是否能够解释足够的方差,通常要求保留的因子数能够解释总方差的70%以上。

S325、将旋转前因子载荷矩阵与旋转后因子载荷矩阵进行比较,并判断是否更加可解释;

S326、利用旋转后的因子载荷矩阵重新计算因子得分,并提取因子含义。

在一个实施例中,所述利用旋转后的因子载荷矩阵重新计算因子得分,并提取因子含义包括以下步骤:

S3261、基于重新计算的因子得分,并确定需要保留的因子数;

S3262、根据每个保留的因子数,并通过分析因子载荷矩阵来确定每个变量与每个因子间的关系;

S3263、通过每个因子反映的潜在因素,并对每个因子进行命名;

具体的,对因子进行命名时注意以下方面:

通过观察该因子所包含的所有变量的载荷大小和符号,确定该因子反映了哪些潜在因素或特征。例如,如果某个因子反映了学业成绩、阅读能力和口语表达能力等方面,可以将其命名为“学习能力因子”;

考虑该因子所反映的潜在因素或特征与已有的理论模型或实证研究的发现是否一致。如果一致,可以借鉴相应的研究成果进行命名;如果不一致,则需要重新考虑该因子的命名;

命名要简洁明了,并且能够准确地描述该因子所反映的潜在因素或特征。例如,“学习能力因子”、“社交适应因子”等。

S3264、对提取出的因子含义进行检验,确保因子的合理性及可解释性。

具体的,对提取出的因子含义进行检验,确保因子的合理性及可解释性包括以下步骤:

因子载荷矩阵的解释:通过观察每个因子与其对应变量之间的载荷大小和符号,来确定每个因子所代表的潜在结构或特征,并进行解释;

因子得分的解释:通过计算每个样本在每个因子上的得分,并观察不同样本之间在因子得分上的差异,来确定每个因子代表的具体特征或属性;

因子分析后的变量相关性分析:通过分析每个因子中所有变量之间的相关性,来进一步解释该因子所代表的特定结构或属性;

因子得分的相关性分析:通过计算不同因子之间的相关系数,来确定不同因子之间是否存在重叠或重复的信息或结构。

综上所述,借助于本发明的上述技术方案,通过设置优化算法,可以使得模型更加精确地拟合训练数据,并且能够更好地适应新的未知数据,还能减少模型训练的时间和计算资源消耗,并且让模型在相同的硬件条件下具有更好的性能,并且可以扩大适用模型的范围,使其能够适用于更多的场景和应用,从而使得模型更易于理解和解释,进而提高模型的可靠性和可信度。通过设置正交旋转法,使得可以将原始变量与新的不相关因子进行线性组合,减少数据的维度并提取数据中的潜在结构,正交旋转法为因子载荷矩阵进行旋转,使得每个因子与尽可能少的原始变量高度相关,从而增加因子分析结果的可解释性和稳定性。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种大数据资源调度系统及方法
  • 一种提高可再生能源利用率的资源调度方法及系统
  • 一种提高资源分配效率的资源调度方法及系统
  • 一种基于超级计算机的队列资源调度的资源分配方法
技术分类

06120116486407