用于智能基础设施协调的基于机器学习的应用规模调整引擎

文献发布时间：2024-04-18 19:53:33

相关申请的交叉引用

本申请要求2020年5月22日根据35U.S.C.§119提交的美国临时专利申请序列号63/029,264的权益，其全部公开内容通过引用的方式并入本文中。

技术领域

本发明涉及业务应用基础设施，并且更特定地，为了促进云服务和数据中心服务客户之间的服务供应和交付，涉及适当大小容量的基础设施组件，其中基于终端用户的意图，每一个组件都与其关键绩效指标(KPI)相关联。

背景技术

云计算是指使用动态可扩展的计算资源来提供用于业务应用的信息技术(IT)基础设施。通常被称为“云”的计算资源向用户提供一个或多个服务。这些服务可以根据服务类型进行分类，服务类型可以包括例如应用/软件、平台、基础设施、虚拟化以及服务器和数据存储。服务类型的名称通常附加在短语“即服务”的前面，使得例如，应用/软件和基础设施的交付可以被称为软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。

术语“基础设施即服务”或更简单的“IaaS”不仅指由基础设施即服务提供商提供的基础设施服务，还指一种服务供应形式，其中云客户与IaaS服务提供商签订合同，在线交付云提供的服务。云服务提供商管理公共、私有或混合云基础设施，以促进向一个或多个云客户在线交付云服务。

发明内容

本公开提供一种用于对应用即服务的基础设施进行规模调整的方法，包括：

接收与服务的请求相关联的性能、可用性、可靠性和安全性信息；

基于经验模型来确定提供服务的基础设施的量及其对应的关键性能指标(KPI)；以及

向服务协调系统输出基础设施的量。

实施例包括：

方法还包括：

接收与服务的基础设施组件的关键性能指标(KPI)相关联的第一信息；

基于KPI来预测基础设施的性能；接收与基础设施的所观测性能相关联的第二信息；

比较基于KPI的预测性能与所观测性能；

将基础设施的所观测性能、可用性、可靠性和安全性参数转换成用于机器学习算法的均匀化空间向量；以及

使用机器学习算法更新性能特性和KPI的权重。

方法还包括：

基于性能特性和KPI的所更新的权重，确定用于提供服务的基础设施量的规模调整解决方案；以及

向服务协调系统输出规模调整解决方案连同更新的KPI。

本公开还提供一种用于对应用即服务的基础设施进行规模调整的装置，包括：

存储器；以及

至少一个处理器，其耦合到存储器，处理器被配置成：接收与服务的请求相关联的信息；

基于经验模型来确定提供服务的基础设施的量；

向服务协调系统输出基础设施的量。

实施例包括：

一种装置，其中，处理器还被配置成：

接收与基础设施组件的关键性能指标(KPI)相关联的第一信息；

基于KPI来预测基础设施的性能；

接收与基础设施的所观测性能相关联的第二信息；

比较基于KPI的预测性能与所观测性能；

将基础设施的所观测性能、可用性、可靠性和安全性参数转换成用于机器学习算法的均匀化空间向量；以及

使用机器学习算法更新性能特性和KPI的权重。

一种装置，其中，处理器还被配置成：

基于性能特性和KPI的所更新的权重，确定用于提供服务的基础设施量的规模调整解决方案；

向服务协调系统输出规模调整解决方案。

本公开还提供一种其上存储有计算机可读指令的非暂时性计算机可读介质，这些指令在由计算机执行时使得至少一个处理器，

接收与服务的请求相关联的信息；

基于经验模型来确定提供服务的基础设施的量；以及

向服务协调系统输出基础设施的量。

实施例包括：

一种非暂时性计算机可读介质，其中，计算机可读指令进一步使得至少一个处理器：

接收与基础设施组件的关键性能指标(KPI)相关联的第一信息；

基于KPI来预测基础设施的性能；

接收与基础设施的所观测性能相关联的第二信息；

比较基于KPI的预测性能与所观测性能；

将基础设施的所观测性能、可用性、可靠性和安全性参数转换成用于机器学习算法的均匀化空间向量；以及

使用机器学习算法更新性能特性和KPI的权重。

一种非暂时性计算机可读介质，其中，计算机可读指令进一步使得至少一个处理器：

基于性能特性和KPI的所更新的权重，确定用于提供服务的基础设施量的规模调整解决方案；以及

向服务协调系统输出该规模调整解决方案。

在附图和以下描述中陈述本发明的一个或多个实施例的细节。本发明的其他特征、目标和优点将从描述和附图以及从权利要求而显而易见。

附图说明

图1展示根据本公开的示例性实施例的应用服务供应系统的架构。

图2a和图2B展示根据本公开的示例性实施例的用户输入门户。

图3展示根据本公开的示例性实施例的服务协调系统。

图4展示根据所公开主题的示例性实施例的基础设施即服务的拓扑中的基础设施的方面。

图5展示根据所公开主题的示例性实施例的应用规模调整引擎的方面。

图6A展示根据所公开主题的示例性实施例的在学习模式下操作的基于ML的资源优化器的方面。

图6B展示根据所公开主题的示例性实施例的在预测模式下操作的基于ML的资源优化器的方面。

图6C展示根据所公开主题的示例性实施例的容量和KPI补救的方面。

图7展示根据所公开主题的示例性实施例的给定应用类型的输入门户形式的方面。

图7a展示根据所公开主题的示例性实施例的从输入门户到基础设施的工作流程的方面。

图8描绘了根据所公开主题的示例性实施例的将如何首次在基础设施上交付特定应用类型的工作流程。

图9描绘了根据所公开主题的示例性实施例的在学习模式中的ASE的工作流程。

图10描绘了根据所公开主题的示例性实施例的预测模式下ASE的ML算法的工作流程。

图11描绘了根据所公开主题的示例性实施例的ASE的工作流程。

具体实施方式

简要定义

P.A.R.S.特性：性能、可用性、可靠性和安全性特性包括以下参数。

性能特性：衡量应用性能的参数。具体来说：每秒事务数(TPS)、并发事务数、每个事务的等待时间等。

可用性特性：为用户定义应用可用性的时间的测量。具体来说：可用性程度可以由百分比形式的“9”的数量和恢复点目标(RPO)来定义。“9”的数量，例如“3个9”意指所述应用的99.9％可用性，“4个9”意指所述应用的99.99％可用性，以此类推。此外，还有RPO的测量，以秒为单位，这意味着：在服务丢失的情况下，这是应用将允许的最大容许时滞，以秒为单位。

可靠性特性：二进制的可靠性的测量，并且涉及为应用基础设施分配/不分配“(n+1)”资源。

安全性特性：为所述基础设施交付所需安全性级别所涉及的参数。具体来说，基础设施在基础设施资源和硬件方面的隐私级别。

每秒输入输出操作数(IOPS)：每秒输入和输出操作的数目，磁盘存储系统的性能参数之一。

关键性能指标(KPI)：组件(存储、网络、存储器和计算组件)的性能特性。具体来说，这些可以用CPU利用率百分比、存储器组件利用率百分比、存储组件的等待时间和IOPS、所需的最大带宽和网络组件的错误率等来衡量。

服务级别协议(SLA)——用户和服务提供商商定的P.A.R.S.特性。

容量——交付服务所需的分类资源(计算、存储、网络等)的量。

所示实施例的具体描述

以下对示例性实现方式的详细描述参考了附图。不同附图中的相同附图标记可以识别相同或类似的元件。

当用户(以下称为U)需要计算、存储器、存储和网络服务来托管和维护某个业务应用时，U将请求服务提供商准确地供应所述基础设施即服务。应用规模调整引擎(以下称为ASE)旨在计算各个组件的量，并为U供应组件(例如，计算、存储器、存储和网络组件)以托管所述应用，该应用始终遵守U与服务提供商之间的SLA。

本文档总体上详细描述了基于机器学习(ML)的应用规模调整引擎以及应用服务供应系统中的其他智能基础设施协调组件。本文档中深入论述的特定组件是应用规模调整引擎，其中所述模块将基于用户提供的意图来促进适当基础设施的供应。该模块将进行计算，以便成功地为用户的应用供应基础设施即服务。因此，本文所述的这种应用规模调整引擎将促进根据明确定义的服务策略、服务质量、服务级别协议和成本，并进一步根据业务级别服务的服务拓扑来促进供应该业务级别服务。

应用规模调整引擎(ASE)包括软件模块，该软件模块将对准确供应应用所需的适当基础设施组件进行规模调整以满足应用的意图，并将与基础设施即服务协调系统通信以交付必要的应用基础设施。ASE首先基于用户使用经验数据提供的应用服务级别协议(SLA)来交付各个组件的容量和关键性能指标(KPI)，从而实现这一目标。此时，ASE将训练或教导机器学习(ML)模块，以学习基础设施组件、KPI以及最终性能特性之间的关联。在验证了ML模块学习这些关系的倾向之后，ASE将利用这个经过训练的模块，通过训练基于当前基础设施的数据模型，并稍后在必要时校正组件的预测容量和KPI，来确保旨在遵守应用的SLA。

应用是被设计成协助执行业务活动的计算机程序或一组程序。应用在多个基础设施组件中的一个上执行，并且这些组件的容量或数量将取决于应用的复杂性。例如，在线事务数据库(OLTP)、数据仓库数据库(DW)、网络服务器或消息服务器是可以在基础设施上执行的不同应用类型。

SLA因应用到应用和业务到业务而异。SLA是上面定义的PARS参数的组合。例如，OLTP数据库的SLA可以是；

a.性能：每秒2500个事务，每个事务不到2秒的等待时间，以及500个并发事务

b.可用性：4-9秒(停机时间：每年52分钟36秒)

c.可靠性：冗余的集群服务器

d.安全性：独立硬件。

对于网络服务器，SLA定义将有如下不同：

a.性能：加载时间小于1.5秒，速度指数小于2500ms

b.可用性：5-9秒(停机时间为每年25分钟30秒)

c.可靠性无

d.安全性：共享硬件。

尽管基础设施服务提供商(以下称为ISP)将为服务供应旨在满足所述应用要求的组件，但是ASE旨在为所述应用准确地调整满足(或超过)SLA要求的各个组件的规模。最初从服务协调系统获得应用类型和应用的对应SLA要求(PARS参数)，服务协调系统是一个软件模块，它为各个基础设施组件提供基础设施规模调整和KPI的最小阈值，以满足SLA要求。此外，在运行时，模块将基于由服务协调系统内的服务分析和保证系统提供的服务分析和保证数据，自主地(使用机器学习)对所述应用的基础设施进行重新规模调整。

图1展示应用服务供应系统的架构，并且由以下主要组件组成：

a.块100：用户将输入所需应用类型意图的输入门户。

b.块200：服务协调系统，用于供应、监视、保证和补救已交付的应用服务。除了这些服务之外，模块还具有其他功能，诸如基础设施注册和基础设施服务。

c.块300：如图4所描述。

d.块400：应用规模调整引擎，其对服务组件的容量和性能关键性能指标(KPI)进行规模调整，在图5、图6a、图6b和图6c中进一步描述。

e.块500：所请求的服务本身，所请求的服务可以是裸机服务器、在管理程序上运行的虚拟机或托管所需应用的容器。

f.块600：外部应用性能管理(APM)软件，其将监视所请求的服务，以提供观测到的性能KPI。块600可以是由诸如Dynatrace、Cisco或New Relic的供应商提供的市售的APM软件。

图2a、图2b展示根据本公开的示例性实施例的用户输入门户(块100)。包括块110、120、130和140的块100允许用户提供特定类型的应用所需的基础设施服务的意图。

图3展示根据本公开的示例性实施例的服务协调系统(块200)。

图4展示根据所公开主题的示例性实施例的基础设施即服务的拓扑中的基础设施的方面，包括块300。基础设施可以包括至少块310、320、330和/或340。

a.块320：计算——物理计算组件

b.块330：存储——物理存储组件

c.块340：网络——物理网络组件

d.块350：基础设施抽象组件

e.块360：高效运行基础设施所需的操作支持功能，即DNS、DHCP、NTP、补丁管理等。

f.块370：高效运行业务所需的业务支持功能，即CRM系统、计费系统等。

g.块380：高效运行基础设施所需的操作者工具，即电子邮件、寻呼机、消息信道、服务台、售票系统等。

h.块390：与管理基础设施的人员通信所需的通信功能，即电话、无线通信设备等。

i.块300还将包括任何基础设施组件，其是需要交付的服务的组件，并且这可以扩展到物理属性，如配电单元、供暖、通风和空调(HVAC)系统等。

图5展示根据所公开主题的示例性实施例的应用规模调整引擎的方面。应用规模调整引擎(ASE)包括图1的拓扑的块400，块400包括块410、420、430、440、450、460和470，这些块执行根据用户的意图对需要供应的基础设施进行适当地规模调整的功能。

图6A展示在学习模式下操作的基于ML的资源优化器的方面。在该操作模式下，资源优化器正在训练数据集。

图6B展示在预测模式下操作的基于ML的资源优化器的方面。在该操作模式下，资源优化器预测正确的组件容量和KPI。

图6C展示根据所公开主题的示例性实施例的容量和KPI补救的方面。这由块490、491、492和493组成，基于由性能特性预测模块提供的预测，预测新的或改变的容量及其对应的KPI。

图7概述了给定应用类型的输入门户形式，并概述了将被调用来交付所请求的服务的不同组件。

图7a概述从输入门户到基础设施的工作流程以展示所请求的服务将如何交付。

接下来是对向用户(U)的服务供应的过程的描述。伴随所述描述，存在以下针对所公开的发明的实施例的示例性服务供应概述。

U将接近用户门户(块100)，并请求为具有10兆字节容量的在线事务处理数据库(OLTP数据库)供应基础设施服务。U请求所述应用的基础设施服务必须满足下述特定P.A.R.S要求：

a.性能特性——每秒事务数：3000；并发事务数：500；事务等待时间：≤1秒(事务应在1秒内完成)

b.可用性特性——99.999％的可用性(5个9)

c.可靠性特性——启用高可用性

d.安全性特性——专用资源、共享硬件

在块100中，U将在用户门户上输入建立U与SP之间的SLA的所述P.A.R.S.要求。由U建立的P.A.R.S.特性将作为服务协调系统与基于意图的应用基础设施共享——块200。具体地，所述数据将被传输到服务协调系统。服务协调系统将P.A.R.S.特性与ASE通信(块400)，以设计满足并遵守SLA的可能解决方案。此解决方案涉及使用下述两种方法之一提供各个组件的容量和KPI：

a.在块200第一次部署特定应用类型的情况下，ASE利用已经存储的经验模型来提供各个组件的容量和KPI

b.在块200已经部署了特定应用类型的情况下，ASE已经为ML算法训练了其数据模型，并且它将基于给定基础设施的当前状态和性能来提供用于各个组件的容量和KPI(块300)，并且具体地供应计算、存储、网络和基础设施抽象组件——分别是块302、303、304、305等。

图8描绘了如何使用在服务级别请求之前完成的经验建模在基础设施上首次交付特定应用类型的工作流程。图8描述了当第一次部署特定应用类型时，块100、200、400和300所遵循的工作流程，

块200接收所需基础设施组件的规模调整和KPI。块200在基础设施内并通过先前在服务协调系统(块200)与各个组件之间确定的通信介质找到适当的组件。在块200，一旦根据请求配置了组件，服务协调系统就执行所有必要的任务，以确保各个组件都被配置成作为单个应用服务实体来执行。

第一次部署应用类型时，ASE将进入学习模式，其学习和训练ML算法的输入是针对所请求的服务组件和应用性能管理软件观测到的KPI，或者操作者手动输入所请求服务的观测到的SLA。ASE使用这两个输入来比较和教导其先前经验预测的ML算法，并基于来自块300中的基础设施的实时输入来将数据集重新训练为更准确的预测。

图9描述了使用实时数据训练ML算法所遵循的工作流程，这使得ML算法能够学习特定应用类型的基础设施及其行为。

一旦使用当前基础设施的数据属性对ASE进行训练，ASE将以两种模式操作：

a.该模式中：它从块200接收关于它刚刚被训练的特定应用类型的服务的实时组件KPI和应用性能数据，并且现在操作来补救所述请求的服务，以在最佳容量级别操作

b.该模式中：ASE为相同应用类型的全新请求服务提供更准确的容量和KPI规模调整

图10描绘了预测模式下ASE的ML算法的工作流程，这使得ML引擎能够基于特定应用类型的当前基础设施的性能来预测当前规模调整和KPI特性所需的校正。

图10和图6C突出显示了ASE使用的工作流程，提供用于现有的请求服务的重新计算的组件容量和KPI，并确保资源被最佳地用于给定的应用类型。

图11描述了ASE的工作流程，其从ML算法中获得其推荐，并起始块200以采取校正措施。

图11展示将被部署在给定应用类型的基础设施上的新请求的服务的工作流程，该给定应用类型已经在基础设施上部署了至少一次。

前述公开内容提供了说明和描述，但并不旨在穷举或将实现方式限制于所公开的精确形式。根据以上公开内容，修改和变化是可能的，或者可以从实现方式的实践中获取。

如本文所使用，术语组件旨在被广泛地理解为硬件、固件、硬件和软件的组合和/或特定的信息技术功能，诸如计算、网络或存储。

本文已经描述了和/或在附图中示出了某些用户界面。用户界面可以包括图形用户界面、非图形用户界面、基于文本的用户界面等。用户界面可以提供信息以供显示。在一些实现方式中，用户可以与信息交互，诸如通过经由提供用户界面以供显示的设备的输入组件来提供输入。在一些实现方式中，用户界面可以由设备和/或用户来配置(例如，用户可以改变用户界面的大小、经由用户界面提供的信息、经由用户界面提供的信息的位置等)。另外或替代地，用户界面可以被预配置成标准配置、基于显示用户界面的设备类型的特定配置、和/或基于与显示用户界面的设备相关联的能力和/或规范的一组配置。

就上述实施例收集、存储或使用由个人提供的个人信息而言，应理解，应当根据所有关于个人信息保护的适用法律来使用此类信息。此外，此类信息的收集、存储和使用可能需要征得个人对此类活动的同意，例如，通过众所周知的“选择加入”或“选择退出”过程，视信息的情况和类型而定。个人信息的存储和使用可能以反映信息类型的适当安全的方式进行，例如，通过针对特别敏感的信息的各种加密和匿名化技术。

将显而易见，本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不限于这些实现方式。因此，本文未参考具体的软件代码来描述系统和/或方法的操作和行为——应理解，基于本文的描述，软件和硬件可以被设计来实现系统和/或方法。

即使特征的特定组合在权利要求中被叙述和/或在说明书中被公开，这些组合并不旨在限制可能实现方式的公开内容。事实上，这些特征中的许多可以以权利要求中没有具体叙述和/或说明书中没有公开的方式进行组合。尽管下面列出的每一从属权利要求可以直接依赖于仅一个权利要求，但是可能实现方式的公开内容包括每一从属权利要求与权利要求集中的每个其他权利要求的组合。

除非明确说明，否则本文使用的元件、动作或指令不应被理解为关键或必要的。此外，如本文所使用，冠词“一”旨在包括一个或多个项目，并且可以与“一个或多个”互换使用。此外，如本文所使用，术语“集”旨在包括一个或多个项目，并且可以与“一个或多个”互换使用。当预期仅一个项目时，使用术语“一个”或类似的语言。此外，如本文所使用，术语“具有”或类似术语旨在是开放式术语。此外，短语“基于”旨在表示“至少部分地基于”，除非另有明确说明。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：希希尔·R·拉奥;拉温德拉·金恩·拉奥;

上一篇：用于超声换能器的温度监测方法及系统
下一篇：SO2浓度预测方法及装置