掌桥专利:专业的专利平台
掌桥专利
首页

一种基于云原生架构的AI算力共享调度系统

文献发布时间:2024-04-18 20:01:23


一种基于云原生架构的AI算力共享调度系统

技术领域

本发明涉及AI算力技术领域,具体为一种基于云原生架构的AI算力共享调度系统。

背景技术

AI人工智能是目前全社会重点关注的发展方向。不管是哪个领域,都在研究人工智能的应用和落地,人工智能的三大核心要素,就是算力、算法和数据,AI人工智能是一个算力大户,需要大量算力,在人工智能计算中,涉及较多的矩阵或向量的乘法和加法,专用性较高,主要用GPU和前面说的专用芯片进行计算。尤其是GPU,是目前AI算力的主力,计算任务中基础通用计算和高性能计算都有,也有大量的异构计算(同时使用不同类型指令集的计算方式),因为高性能计算的需求越来越多,所以专用计算芯片的比例正在逐步增加,云提供商是一家为企业或个人提供基于云计算的服务和解决方案的公司,该服务组织可以提供租用和提供商管理的虚拟硬件,软件,基础设施和其他相关服务,但是现有的云服务提供商由于公司业务能力各不相同,所承接的业务量也不尽相同,这就导致完成这些任务所需算力不一,云服务运营商们就会有多余算力空闲无用武之地,一定程度上造成了资源的浪费,也降低了企业的经济效益,因此提出一种基于云原生架构的AI算力共享调度系统。

发明内容

针对现有技术的不足,本发明提供了一种基于云原生架构的AI算力共享调度系统,解决了现有的云服务提供商由于公司业务能力各不相同,所承接的业务量也不尽相同,这就导致完成这些任务所需算力不一,云服务运营商们就会有多余算力空闲无用武之地,一定程度上造成了资源的浪费,也降低了企业的经济效益的问题。

为实现以上目的,本发明通过以下技术方案予以实现:一种基于云原生架构的AI算力共享调度系统,包括云服务器,所述云服务器的内部包括有监测单元、优先级单元、核验单元,所述监测单元的内部包括有登记模块、统计模块、处理器检测模块、存储检测模块,所述登记模块的信号输出端与统计模块的信号接收端连接,所述统计模块的信号输出端与处理器检测模块的信号接收端连接,所述处理器检测模块的信号输出端与存储检测模块的信号接收端连接。

优选的,所述监测单元的内部还包括网络检测模块、同步模块,所述存储检测模块的信号输出端与网络检测模块的信号接收端连接,所述网络检测模块的信号输出端与同步模块的信号接收端连接。

优选的,所述优先级单元的内部包括有收集模块、分析模块、任务类型模块,所述收集模块的信号输出端与分析模块的信号接收端连接,所述分析模块的信号输出端与任务类型模块的信号接收端连接。

优选的,所述优先级单元的内部还包括有需求模块、等级分配模块、弹性模块,所述需求模块的信号输出端与等级分配模块的信号接收端连接,所述等级分配模块的信号输出端与弹性模块的信号接收端连接。

优选的,所述优先级单元的内部还包括有分配模块、迁移模块、备份模块,所述弹性模块的信号输出端与分配模块的信号接收端连接,所述分配模块的信号输出端与迁移模块的信号接收端连接,所述迁移模块的信号输出端与备份模块的信号接收端连接。

优选的,所述核验单元的内部包括有核对模块、对比模块、选择模块、自助模块,所述核对模块的信号输出端与对比模块的信号接收端连接,所述对比模块的信号输出端与选择模块的信号接收端连接,所述选择模块的信号输出端与自助模块的信号接收端连接。

优选的,所述核验单元的内部还包括有验证模块、管理模块、存储模块,所述验证模块的信号输出端与管理模块的信号接收端连接,所述管理模块的信号输出端与存储模块的信号接收端连接。

有益效果

本发明提供了一种基于云原生架构的AI算力共享调度系统。与现有技术相比具备以下有益效果:

(1)、该基于云原生架构的AI算力共享调度系统,通过设置云服务器、监测单元、登记模块、统计模块、处理器检测模块、存储监测模块、网络检测模块、同步模块,通过云服务器给调度系统提供支持,通过监测单元对AI算力系统进行实时监测,通过同步模块将运算结果进行本地、云端同步,能够节约拥有大量计算资源类企业的运行成本,提升效益,同时有效地提高了计算资源的利用率。

(2)、该基于云原生架构的AI算力共享调度系统,通过设置优先级单元、收集模块、分析模块、任务类型模块、需求模块、等级分配模块、弹性模块、分配模块、迁移模块、备份模块,通过优先级单元对本时段内使用AI算力的任务进行规划,对紧迫度较高的任务倾斜AI算力,通过迁移模块将算力在多个AI算力资源池之间进行灵活部署,通过备份模块对计算结果进行备份,防止因为物理设备故障导致运算结果丢失的情况出现。

(3)、该基于云原生架构的AI算力共享调度系统,通过设置核验单元、核对模块、对比模块、选择模块、自助模块、验证模块、管理模块、存储模块,通过核对模块对任务内容、紧迫度、所需算力大小与分配到的算力进行核准,通过管理模块给管理人员提供管理选项,使得各种选项能够人工手动调节,通过存储模块对工作日志进行存储,以供平台开发人员发现不足之处继续改进。

附图说明

图1为本发明的整体系统图;

图2为本发明监测单元的系统图;

图3为本发明优先级单元的系统图;

图4为本发明核验单元的系统图。

图中:1、云服务器;2、监测单元;3、优先级单元;4、核验单元;201、登记模块;202、统计模块;203、处理器检测模块;204、存储监测模块;205、网络检测模块;206、同步模块;301、收集模块;302、分析模块;303、任务类型模块;304、需求模块;305、等级分配模块;306、弹性模块;307、分配模块;308、迁移模块;309、备份模块;401、核对模块;402、对比模块;403、选择模块;404、自助模块;405、验证模块;406、管理模块;407、存储模块。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-4,本发明提供两种技术方案:

实施例一

一种基于云原生架构的AI算力共享调度系统,包括云服务器1,云服务器1的内部包括有监测单元2、优先级单元3、核验单元4,监测单元2的内部包括有登记模块201、统计模块202、处理器检测模块203、存储检测模块204,登记模块201的信号输出端与统计模块202的信号接收端电信号连接,统计模块202的信号输出端与处理器检测模块203的信号接收端电信号连接,处理器检测模块203的信号输出端与存储检测模块204的信号接收端电信号连接,监测单元2的内部还包括网络检测模块205、同步模块206,存储检测模块204的信号输出端与网络检测模块205的信号接收端电信号连接,网络检测模块205的信号输出端与同步模块206的信号接收端电信号连接;

优先级单元3的内部包括有收集模块301、分析模块302、任务类型模块303,收集模块301的信号输出端与分析模块302的信号接收端电信号连接,分析模块302的信号输出端与任务类型模块303的信号接收端电信号连接,优先级单元3的内部还包括有需求模块304、等级分配模块305、弹性模块306,需求模块304的信号输出端与等级分配模块305的信号接收端电信号连接,等级分配模块305的信号输出端与弹性模块306的信号接收端电信号连接,优先级单元3的内部还包括有分配模块307、迁移模块308、备份模块309,弹性模块306的信号输出端与分配模块307的信号接收端电信号连接,分配模块307的信号输出端与迁移模块308的信号接收端电信号连接,迁移模块308的信号输出端与备份模块309的信号接收端电信号连接。

使用时,通过云服务器1给调度系统提供支持,通过监测单元2对AI算力系统进行实时监测,通过登记模块201对需要使用AI算力的任务进行记录,通过统计模块202对所有任务的总量进行统计,以及每个任务所需的时间以及算力,通过处理器检测模块203对当前处理器的算力占用量进行检测,通过存储监测模块204对当前存储剩余以及使用量进行检测,通过网络检测模块205对当前网速进行检测,便于对当前条件下执行任务所需时间进行估算,通过同步模块206将运算结果进行本地、云端同步,通过优先级单元3对本时段内使用AI算力的任务进行规划,对紧迫度较高的任务倾斜AI算力,通过收集模块301对即将执行以及正在执行中任务的相关信息进行收集,通过分析模块302对任务所需算力大小以及所需运行时间进行分析预测,通过任务类型模块303对任务按紧迫度进行分类,通过需求模块304对任务需求进行确定,通过等级分配制度模块305对当前任务所需算力大小、优先程度进行赋级,通过弹性模块306进行弹性扩容缩,让平台能够提高计算资源的利用率,通过分配模块307对当前空余的AI算力按照任务紧迫度进行分配,通过迁移模块308将算力在多个AI算力资源池之间进行灵活部署,通过备份模块309对计算结果进行备份。

实施例二

一种基于云原生架构的AI算力共享调度系统,包括云服务器1,云服务器1的内部包括有监测单元2、优先级单元3、核验单元4,监测单元2的内部包括有登记模块201、统计模块202、处理器检测模块203、存储检测模块204,登记模块201的信号输出端与统计模块202的信号接收端电信号连接,统计模块202的信号输出端与处理器检测模块203的信号接收端电信号连接,处理器检测模块203的信号输出端与存储检测模块204的信号接收端电信号连接,监测单元2的内部还包括网络检测模块205、同步模块206,存储检测模块204的信号输出端与网络检测模块205的信号接收端电信号连接,网络检测模块205的信号输出端与同步模块206的信号接收端电信号连接;

优先级单元3的内部包括有收集模块301、分析模块302、任务类型模块303,收集模块301的信号输出端与分析模块302的信号接收端电信号连接,分析模块302的信号输出端与任务类型模块303的信号接收端电信号连接,优先级单元3的内部还包括有需求模块304、等级分配模块305、弹性模块306,需求模块304的信号输出端与等级分配模块305的信号接收端电信号连接,等级分配模块305的信号输出端与弹性模块306的信号接收端电信号连接,优先级单元3的内部还包括有分配模块307、迁移模块308、备份模块309,弹性模块306的信号输出端与分配模块307的信号接收端电信号连接,分配模块307的信号输出端与迁移模块308的信号接收端电信号连接,迁移模块308的信号输出端与备份模块309的信号接收端电信号连接;

核验单元4的内部包括有核对模块401、对比模块402、选择模块403、自助模块404,核对模块401的信号输出端与对比模块402的信号接收端电信号连接,对比模块402的信号输出端与选择模块403的信号接收端电信号连接,选择模块403的信号输出端与自助模块404的信号接收端电信号连接,核验单元4的内部还包括有验证模块405、管理模块406、存储模块407,验证模块405的信号输出端与管理模块406的信号接收端电信号连接,管理模块406的信号输出端与存储模块407的信号接收端电信号连接。

使用时,通过核对模块401对任务内容、紧迫度、所需算力大小与分配到的算力进行核准,通过对比模块402将所需调度模式与模式库内的预设模式进行比对,通过选择模块403对调度系统的调度模式选择最贴合的一种来实施,通过自助模块404实现自助选择、自动化部署、自助提交作业、自助数据管理、自助监控告警、费用分析,通过验证模块405对用户登录时输入的账户密码进行验证,通过管理模块406给管理人员提供管理选项,使得各种选项能够人工手动调节,通过存储模块407对工作日志进行存储。

同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

相关技术
  • 存储体设备、静态随机存取及随机存取存储器设备
  • 八晶体管静态随机存取存储单元
  • 具有多重栅极晶体管的静态随机存取存储单元及其制造方法
技术分类

06120116555087