掌桥专利:专业的专利平台
掌桥专利
首页

一种基于算力网络的算力服务能力模型构建方法和系统

文献发布时间:2024-04-18 20:01:55


一种基于算力网络的算力服务能力模型构建方法和系统

技术领域

本发明属于算力网络领域,更具体地,涉及一种基于算力网络的算力服务能力模型构建方法和系统。

背景技术

进入数字经济时代,数据成为一种新型生产要素,呈现爆发式增长态势。伴随着数据量的持续上升,市场对算力提升的需求也越来越迫切。但由于物理因素的约束,主宰芯片行业的摩尔定律逐渐接近极限,数据中心算力和智能终端算力的可增长空间将面临着非常大的挑战,集中式的云计算无法满足低时延、大带宽、低传输成本的场景需求。在数据持续增长的时代,只靠终端+数据中心两级算力架构处理数据已变得力不从心,算力从云和端扩散到网络边缘扩展已是必然,而算力网络正是为应对这种转变而提出的新型网络架构。算力网络的核心思想是将分布式的计算节点进行连接,动态感知计算与网络资源的实时变化情况,从而实现节点资源的精准调度与任务的统筹分配,以满足新业务和新应用对算力资源的新要求。面向未来不断增长的差异化业务需求,算力资源的提供方将不再是传统意义上的数据中心或者服务器集群,而是存在于云、边、端的泛在算力通过网络连接起来实现高效共享。因此亟需建立一种统一的算力网络度量标准,为算力路由、设备管理和资源计费等后续研究奠定基础。

现有算力网络的建模方法主要有两种,第一种方法是算力统一量化的算力量化模型,该模型将算力需求分为逻辑运算能力、并行计算能力以及神经网络加速能力,针对这三种需求通处理异构算力的统一度量方法,从而完成建模。第二种是以服务为中心的算力网络建模方案,该方案简单来说,当用户向网络发送多样化的服务请求时,算力网络通过感知分析其业务需求情况,将业务的时延、带宽等需求指标作为算法输入,输出一套定制化的算力网络节点资源调度方案,以满足用户的差异化业务需求,并能够根据算力网络的环境变化动态调整调度方案。

然而,目前对算力网络建模的研究大多还处于理论阶段,并且都存在一定缺陷:

第一、缺乏一套从算力资源出发,到一直到统一的算力服务能力模型的完整建模流程;

第二、算力量化模型给出了一种度量异构算力的方法,但是只是涉及到具体的运算时使用的公式和算法,并没有考虑到算力度量前后的操作。

第三、以服务为中心的算力网络建模方案还停留在方案层面,是抽象的理论阶段,并没有给出具体的实施方法。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于算力网络的算力服务能力模型构建方法和系统,其目的在于,解决现有算力网络在建模时,缺乏一套从算力资源开始一直到统一的算力服务能力模型的建模方式的技术问题;以及算力网络建模时没有考虑到算力度量前后操作的技术问题;以及以服务为中的算力网络建模方案没有给出具体实施方法的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种基于算力网络的算力服务能力模型构建方法,是应用在包括多个算力节点的算力网络中,所述算力服务能力模型构建方法包括以下步骤:

(1)获取多个算力资源,对获取的算力资源进行标准化处理,以得到多个资源描述三元组<处理器,内存,存储>,所有资源描述三元组构成资源描述模型。

(2)获取步骤(1)得到的所有算力资源的资源性能,并利用步骤(1)得到的资源描述模型,对获取的所有算力资源的资源性能进行建模,以构建资源性能模型;

(3)获取步骤(1)得到的所有算力资源的服务能力,并利用步骤(2)得到的资源性能模型,对获取的所有算力资源的服务能力进行建模,以构建最终的算力服务能力模型。

优选地,算力资源包括处理器大小、处理器利用率、内核个数、线程个数、处理器中的性能计数器,以及内存大小、内存利用率,以及存储服务器、存储服务器中的磁盘大小、以及存储服务器中磁盘的利用率。

三元组中的处理器包括处理器大小、处理器利用率、内核个数、以及线程个数;

三元组中的内存包括内存大小和内存利用率;

三元组中的存储包括存储服务器、存储服务器中的磁盘大小、以及存储服务器中磁盘的利用率。

优选地,步骤(2)具体包括以下子步骤:

(2-1)根据步骤(1)获取的所有算力资源对步骤(1)得到的资源描述模型进行性能分析,以得到多个资源性能数据。

(2-2)获取步骤(1)中获取的所有算力资源中处理器中的性能计数器,并使用步骤(2-1)得到的资源性能数据和性能计数器对步骤(1)获取的每个算力资源的行为进行采集和记录,以获取每个算力资源的性能行为。

(2-3)以事件驱动的方式对步骤(2-2)获取的每个算力资源的性能行为进行处理,以获取该算力资源对应的性能事件。

(2-4)对步骤(2-3)获取的所有算力资源对应的性能事件聚合为总性能指标。

(2-5)获取算力资源操作系统的用户态层,将步骤(2-4)中获取的总性能指标与获取的算力资源操作系统的用户态层进行聚合,以得到资源性能模型。

优选地,步骤(2-4)是采用以下计算公式:

其中m表示步骤(1)中获取的算力资源的总数,n表示步骤(1)获取的算力资源中处理器的总数,C

优选地,步骤(3)包含以下子步骤:

(3-1)利用步骤(2)获取的资源性能指标,对所有算力资源的网络情况进行评估,以获取网络资源性能指标。

(3-2)对算力资源进行扩展,以获取扩展后的算力资源、以及扩展后的网络资源性能指标。

(3-3)针对步骤(3-2)获取的扩展后的所有算力资源而言,分别测试其两两算力资源之间的网络延迟和丢包率,将得到的所有网络延迟相加以获取将总的网络延迟,并将得到的所有丢包率相加以获取总的丢包率,将总的网络延迟和总的丢包率作为网络资源性能稳定性指标。

(3-4)将步骤(3-1)获取的网络资源性能指标、步骤(3-2)获取的扩展后的网络资源性能指标、以及步骤(3-3)获取的网络资源稳定性指标作为最终的算力服务能力模型。

优选地,步骤(3-1)具体包括以下子步骤:

(3-1-1)设置计数器j=1

(3-1-2)获取第j个算力资源的网络情况s

其中m表示步骤(1)获取的算力资源的总数,t

(3-1-3)设置j=j+1,判断j是否大于等于步骤(1)中获取的算力资源的总数m,如果是则转入步骤(3-1-4),否则返回步骤(3-1-2)。

(3-1-4)将所有算力资源的网络状况和步骤(2-4)中得到的总性能指标进行聚合,以获取网络资源性能指标s,具体是使用以下公式:

优选地,步骤(3-2)包括以下子步骤:

(3-2-1)将算力资源的总数从m扩展为m+o,以获取扩展后的算力资源。

(3-2-2)获取步骤(3-2-1)得到的扩展后的算力资源的网络资源性能指标,并计算扩展后的网络资源性能指标与步骤(3-1)获取的网络资源性能指标之间的差值,其中o的取值范围是1到10,优选为5。

(3-2-2)根据步骤(3-2-1)中算力资源的变化情况获取阈值

(3-2-3)获取步骤(3-2-1)获取的差值与步骤(3-2-2)获取的阈值之间的商,作为扩展后的网络资源性能指标。

按照本发明的另一方面,提供了一种基于算力网络的算力服务能力模型构建系统,是应用在包括多个算力节点的算力网络中,所述算力服务能力模型构建系统包括:

第一模块,用于获取多个算力资源,对获取的算力资源进行标准化处理,以得到多个资源描述三元组<处理器,内存,存储>,所有资源描述三元组构成资源描述模型。

第二模块,用于获取第一模块得到的所有算力资源的资源性能,并利用第一模块得到的资源描述模型,对获取的所有算力资源的资源性能进行建模,以构建资源性能模型;

第三模块,用于获取第一模块得到的所有算力资源的服务能力,并利用第二模块得到的资源性能模型,对获取的所有算力资源的服务能力进行建模,以构建最终的算力服务能力模型。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

第一、本发明由于采用了步骤(1)到(3),其提供了一套从算力资源到最终统一的算力服务能力模型的建模方法,解决了现有缺乏一套从算力资源出发,到一直到统一的算力服务能力模型的完整建模流程的技术问题。

第二、本发明由于采用了步骤(2),其给出了算力度量前后完整的操作,解决了现有算力量化模型存在的并没有考虑到算力度量前后的操作的技术问题。

第三、本发明由于采用了步骤(3),其给出了以服务为中心的算力网络建模的具体实施方法,解决了现有以服务为中心的算力网络建模方案停留在理论层面,缺乏具体实施方法的技术问题。

附图说明

图1是本发明基于算力网络的算力服务能力模型构建方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于,首先对算力资源进行标准化处理,对标准化的算力资源进行算力度量,也就是对算力资源的性能进行建模描述,最后,通过对网络情况,可扩展性以及稳定性的评估,得到最终的算力服务能力模型。

如图1所示,本发明提供了一种基于算力网络的算力服务能力模型构建方法,是应用在包括多个算力节点的算力网络中,所述算力服务能力模型构建方法包括以下步骤:

(1)获取多个算力资源,对获取的算力资源进行标准化处理,以得到多个资源描述三元组<处理器,内存,存储>,所有资源描述三元组构成资源描述模型。

算力资源包括处理器大小、处理器利用率、内核个数、线程个数、处理器中的性能计数器,以及内存大小、内存利用率,以及存储服务器、存储服务器中的磁盘大小、以及存储服务器中磁盘的利用率。

具体地,性能计数器指的是算力资源上的特殊模块寄存器,主要功能在于采集或捕获算力资源的行为并进行计数。三元组中的处理器包括处理器大小、处理器利用率、内核个数、以及线程个数;内存包括内存大小和内存利用率;存储包括存储服务器、存储服务器中的磁盘大小、以及存储服务器中磁盘的利用率。

例如,如果步骤(1)得到了处理器A、B、C、D,多个内存a、b、c、d,多个服务器1、2、3、4,则最终得到的多个三元组,是上面几个的多种排列组合,即:

{A,a,1}、{A,b,1}、{A,c,1}、{B,a,2}、{B,b,2}、{B,c,3}…

(2)获取步骤(1)得到的所有算力资源的资源性能,并利用步骤(1)得到的资源描述模型,对获取的所有算力资源的资源性能进行建模,以构建资源性能模型;

本步骤的优点在于,给出了算力度量前后完整的操作。

步骤(2)具体包括以下子步骤:

(2-1)根据步骤(1)获取的所有算力资源(如步骤(1)中得到的算力资源中处理器的内核个数,步骤(1)中得到的算力资源中处理器的线程个数)对步骤(1)得到的资源描述模型进行性能分析,以得到多个资源性能数据。

(2-2)获取步骤(1)中获取的所有算力资源中处理器中的性能计数器,并使用步骤(2-1)得到的资源性能数据和性能计数器对步骤(1)获取的每个算力资源的行为进行采集和记录,以获取每个算力资源的性能行为。

(2-3)以事件驱动的方式对步骤(2-2)获取的每个算力资源的性能行为进行处理,以获取该算力资源对应的性能事件。

具体而言,步骤(2-3)中的事件驱动方式是指代码的执行不是按照预定的顺序执行,而是根据各算力资源的性能行为执行。

(2-4)对步骤(2-3)获取的所有算力资源对应的性能事件聚合为总性能指标。

具体而言,本步骤是采用以下计算公式:

其中m表示步骤(1)中获取的算力资源的总数,n表示步骤(1)获取的算力资源中处理器的总数,C

(2-5)获取算力资源操作系统的用户态层,将步骤(2-4)中获取的总性能指标与获取的算力资源操作系统的用户态层进行聚合,以得到资源性能模型。

操作系统用户态层是操作系统内核和应用程序之间的接口。在用户态层中,应用程序可以通过系统调用向操作系统内核发出请求,以获取操作系统提供的服务和资源。

(3)获取步骤(1)得到的所有算力资源的服务能力,并利用步骤(2)得到的资源性能模型,对获取的所有算力资源的服务能力进行建模,以构建最终的算力服务能力模型。

本步骤的优点在于,给出了以服务为中心的算力网络建模的具体实施方法。

上述步骤(1)到(3)的优点在于,提供一套从算力资源到最终统一的算力服务能力模型的建模方法。

步骤(3)包含以下子步骤:

(3-1)利用步骤(2)获取的资源性能指标,对所有算力资源的网络情况进行评估,以获取网络资源性能指标。

步骤(3-1)具体包括以下子步骤:

(3-1-1)设置计数器j=1

(3-1-2)获取第j个算力资源的网络情况s

其中m表示步骤(1)获取的算力资源的总数,t

(3-1-3)设置j=j+1,判断j是否大于等于步骤(1)中获取的算力资源的总数m,如果是则转入步骤(3-1-4),否则返回步骤(3-1-2)。

(3-1-4)将所有算力资源的网络状况和步骤(2-4)中得到的总性能指标进行聚合,以获取网络资源性能指标s;

具体而言,本步骤是使用以下公式:

(3-2)对算力资源进行扩展,以获取扩展后的算力资源、以及扩展后的网络资源性能指标。

步骤(3-2)包括以下子步骤:

(3-2-1)将算力资源的总数从m扩展为m+o,以获取扩展后的算力资源。

(3-2-2)获取步骤(3-2-1)得到的扩展后的算力资源的网络资源性能指标,并计算扩展后的网络资源性能指标与步骤(3-1)获取的网络资源性能指标之间的差值,其中o的取值范围是1到10,优选为5。

具体而言,本步骤计算网络资源性能指标的过程和步骤(3-1)完全相同,在此不再赘述。

(3-2-2)根据步骤(3-2-1)中算力资源的变化情况获取阈值

(3-2-3)获取步骤(3-2-1)获取的差值与步骤(3-2-2)获取的阈值之间的商,作为扩展后的网络资源性能指标。

(3-3)针对步骤(3-2)获取的扩展后的所有算力资源而言,分别测试其两两算力资源之间的网络延迟和丢包率,将得到的所有网络延迟相加以获取将总的网络延迟,并将得到的所有丢包率相加以获取总的丢包率,将总的网络延迟和总的丢包率作为网络资源性能稳定性指标。

(3-4)将步骤(3-1)获取的网络资源性能指标、步骤(3-2)获取的扩展后的网络资源性能指标、以及步骤(3-3)获取的网络资源稳定性指标作为最终的算力服务能力模型。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 用于制造显示器的喷墨印刷机
  • 用于产业用喷墨印刷机的印刷用涂布纸及印刷物制造方法
技术分类

06120116573356