掌桥专利:专业的专利平台
掌桥专利
首页

数据处理装置集群的管理系统和控制方法

文献发布时间:2024-04-18 19:59:31


数据处理装置集群的管理系统和控制方法

技术领域

本申请涉及数据处理技术领域,尤其涉及数据处理装置集群的管理系统及其控制方法。

背景技术

数据处理装置组合成集群,每一个数据处理装置都能够完成一定的数据处理任务,因此,数据处理装置集群能够完成复杂的数据处理任务。

在数据处理装置集群中,数据处理装置例如可以是:中央处理器(CPU)或图形处理器(GPU)等。

应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

具有高可靠性的数据处理装置集群能够高质量地完成数据处理任务,从而最大程度上发挥数据处理装置集群的优势。在现有技术中,如何针对数据处理装置集群进行有效的监管,是需要解决的问题。

为了解决至少上述技术问题或类似的技术问题,本申请实施例提供一种数据处理装置集群的管理系统及其控制方法。该管理系统能够针对数据处理装置集群进行有效的监管,从而提高数据处理装置集群的可靠性。

本申请实施例提供一种数据处理装置集群的管理系统,所述数据处理装置集群包括服务器子集群,其接收任务,并向数据处理装置子集群下发所述任务,其中,各所述数据处理装置子集群中具有至少一个数据处理装置,

所述管理系统包括:

通信交换集群,其接收所述数据处理装置集群发送的信息码;以及

监管系统集群,其接收所述通信交换集群发送的所述信息码,其中,所述信息码至少具有第一信息区和第二信息区,所述第一信息区用于按层级顺序表示所述服务器子集群中的服务器的信息或所述数据处理装置的信息,所述第一信息区还表示所述服务器子集群中的服务器的定位信息或所述服务器的时空信息,或者所述数据处理装置的定位信息或所述数据处理装置的时空信息,所述第二信息区用于表示所述服务器子集群中的服务器的状态或所述数据处理装置的状态信息。

本申请实施例还提供一种数据处理装置集群的管理系统的控制方法,所述数据处理装置集群包括服务器子集群,其接收任务,并向数据处理装置子集群下发所述任务,其中,各所述数据处理装置子集群中具有至少一个数据处理装置,所述控制方法包括:

管理系统的通信交换集群接收所述数据处理装置集群发送的信息码;以及

所述管理系统的监管系统集群接收所述通信交换集群发送的所述信息码,

其中,所述信息码至少具有第一信息区和第二信息区,所述第一信息区用于按层级顺序表示所述服务器子集群中的服务器的信息或所述数据处理装置的信息,所述第一信息区还表示所述服务器子集群中的服务器的定位信息或所述服务器的时空信息,或者所述数据处理装置的定位信息或所述数据处理装置的时空信息,所述第二信息区用于表示所述服务器子集群中的服务器的状态或所述数据处理装置的状态信息。

本申请实施例的有益效果在于:能够针对数据处理装置集群进行有效的监管,从而提高数据处理装置集群的可靠性。

参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的条款的范围内,本申请的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。

应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1是本申请第一方面的实施例中数据处理装置集群的一个示意图;

图2是服务器5、管理卡2与数据处理装置4的管理关系的一个示意图;

图3是本申请实施例的管理系统的一个示意图;

图4是本申请的信息码的一个示意图;

图5是信息码被转发的一个示意图;

图6是管理系统的控制方法的一个示意图。

具体实施方式

参照附图,通过下面的说明书,本申请的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本申请的特定实施方式,其表明了其中可以采用本申请的原则的部分实施方式,应了解的是,本申请不限于所描述的实施方式,相反,本申请包括落入所附权利要求的范围内的全部修改、变型以及等同物。下面结合附图对本申请的各种实施方式进行说明。这些实施方式只是示例性的,不是对本申请的限制。

在本申请实施例中,术语“第一”、“第二”、“上”、“下”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本申请实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。

第一方面的实施例

本申请第一方面的实施例提供一种数据处理装置集群的管理系统。

图1是本申请第一方面的实施例中数据处理装置集群的一个示意图。

如图1所示,该数据处理装置集群100包括:服务器子集群50。

服务器子集群50可以包括至少一个服务器子系统5,各服务器子系统5中包括至少一台服务器。服务器子系统5的数量可以是一个以上,例如,在图1中被标记为服务器子系统5_1,服务器子系统5_2,服务器子系统5_3,……,服务器子系统5_L,L是大于1的自然数等。服务器子系统5与通信分发装置1通信,接收通信分发装置1分发的任务,并通过接口电路向该服务器子系统5所管理的至少一个数据处理装置子集群60分发任务。

如图1所示,每台服务器子系统5能够管理至少一个管理卡2,各管理卡2可以管理至少一个数据处理装置子集群40,各数据处理装置子集群40中可以包括至少一个数据处理装置4。管理卡2与服务器子系统5通信,接收服务器子系统5分发的任务,并向管理卡2所管理的至少一个数据处理装置4分发任务。当管理卡2所管理的数据处理装置4都失效时,管理卡2处理从服务器子系统5接收的任务。

此外,本申请可以不限于此,例如,数据处理装置集群100可以不具有管理卡2,这样,服务器子系统5直接向其管理的数据处理装置子集群40中的数据处理装置4分发任务。此外,数据处理装置集群100也可以不具有服务器子系统5,而仅具有两个以上的数据处理装置4。

图2是服务器子系统5、管理卡2与数据处理装置子集群40的管理关系的一个示意图。如图2所示,每个服务器子系统5可以管理至少一个管理卡2,每个管理卡2可以管理K个(K是自然数,例如,K为4)处理装置4。此外,本申请不限于此,即,每个管理卡2管理的数据处理装置4的数量可以是其它数量。另外,数据处理装置集群100也可以不具有管理卡2。

在至少一个实施例中,服务器子系统5与管理卡2之间可以经由接口电路进行通信,该接口电路例如可以是PCIe接口,或者其它类型的接口,例如,自定义的用于互联通信的接口电路。此外,该接口电路还可以提供不同数据处理装置子集群40之间的通信和/或不同服务器子系统5之间的通信。

在至少一个实施例中,在服务器子系统5的数量为多个(例如L个,分别为服务器子系统5_1、服务器子系统5_2,……,服务器子系统5_L等,L为自然数),数据处理装置子集群40或管理卡2的数量为多个(例如,两个以上)的情况下,该多个服务器子集群5和该多个数据处理装置子集群40或管理卡2通过接口电路进行通信,因此,服务器子集群5与数据处理装置子集群40或管理卡2之间的管理关系可以进行灵活地变更。即,一方面,针对各服务器子集群5,其管理的数据处理装置子集群40或管理卡2可以变更;另一方面,针对各数据处理装置子集群40或管理卡2,其服务器子系统5可以变更。

在至少一个实施例中,数据处理装置4具有数据处理功能。数据处理功能例如包括:图像处理,和/或音频处理,和/或视频处理,和/或数据计算等。在一个具体实例中,数据处理装置4例如是图形处理器(GPU)。

在至少一个实施例中,管理卡2可以是卡片状,能够被插入到电路板的卡槽中。由此,能够快速且便利地实现管理卡2的安装和更换,从而实现更为灵活的管理。此外,管理卡2也可以被封装为其它的形状。

管理卡2可以是专用的管理卡,即,仅具有管理数据处理装置4的功能。此外,管理卡2也可以既具有管理数据处理装置4的功能,也具有数据处理功能,例如,管理卡2可以是图形处理器(GPU),由此,管理卡2可以完成某些数据处理任务,或者,数据处理装置4在某些情况下可以升级为管理卡2。

在至少一个实施例中,管理卡2与数据处理装置4之间可以经由接口电路进行通信,该接口电路例如可以是PCIe接口,或者其它类型的接口,例如,自定义的用于互联通信的接口电路。此外,该接口电路还可以提供不同数据处理装置4之间的通信,和/或不同管理卡2之间的通信。

在至少一个实施例中,在管理卡2的数量为多个(例如N个,分别为管理卡2_1、管理卡2_2,……,管理卡2_N等,N为自然数),数据处理装置4的数量为多个(例如K个,分别为数据处理装置4_1,数据处理装置4_2,……,数据处理装置4_K等,K为自然数)的情况下,该多个管理卡2和该多个数据处理装置4通过接口电路进行通信,因此,管理卡2与数据处理装置4之间的管理关系可以进行灵活地变更。即,一方面,针对各管理卡2,其管理的数据处理装置4可以变更;另一方面,针对各数据处理装置4,用于管理该数据处理装置4的管理卡2可以变更。

如图1和图2所示,多个管理卡2可以构成管理卡子集群20。

图3是本申请实施例的管理系统的一个示意图,该管理系统用于对图1所示的数据处理装置集群100进行管理。如图3所示,管理系统300包括:通信交换集群32和监管系统集群33。

通信交换集群32接收数据处理装置集群100发送的信息码。监管系统集群33接收通信交换集群32发送的信息码。

图4是本申请的信息码的一个示意图。如图4所示,该信息码至少具有第一信息区和第二信息区。其中,第一信息区可以具有:一个或多个比特位(bit),一个或多个字节,一个或多个字,一个或多个双字,或者,一个或多个区等。

该第一信息区用于按层级顺序表示服务器子集群50中的服务器的信息或数据处理装置4的信息。此外,在数据处理装置集群100具有管理卡2的情况下,第一信息区还可以具有管理卡2的信息。

其中,第一信息区所表示的服务器的信息可以包括:

该服务器的设备信息(例如,该服务器的识别信息ID等)以及该服务器的上层服务器的设备信息(例如,该服务器的上层服务器的识别信息ID等);

在数据处理装置集群100不具有管理卡2的情况下,第一信息区所表示的数据处理装置的信息包括:

该数据处理装置的设备信息(例如,该数据处理装置的识别信息ID等)以及管理该数据处理装置的服务器的设备信息(例如,该服务器的识别信息ID等)。

此外,在数据处理装置集群100具有管理卡2的情况下,第一信息区所表示的数据处理装置的信息包括:

该数据处理装置的设备信息(例如,该数据处理装置的识别信息ID等)、管理该数据处理装置的管理卡的设备信息(例如,该管理卡的识别信息ID等)以及管理该管理卡的服务器的设备信息(例如,该服务器的识别信息ID等)。

在一些实施例中,信息码可以由服务器5、管理卡2、数据处理装置4中的至少一者进行反馈,由不同主体反馈的信息码的数据结构可以有所不同。

例如,服务器反馈的信息码中,第一信息区可以包括:表示该服务器的设备信息的信息区以及表示该服务器的上层服务器的设备信息的信息子区。

又例如,数据处理装置反馈的信息码的第一信息区可以包括:表示该数据处理装置的设备信息的信息子区、表示管理该子数据处理装置的管理卡的设备信息的信息子区以及表示管理该管理卡的服务器的设备信息的信息子区。

再例如,数据处理装置反馈的信息码的第一信息区可以包括:表示该数据处理装置的设备信息的信息子区以及表示管理该数据处理装置的服务器的设备信息的信息子区。

在一些实施例中,该第一信息区还表示该服务器子集群50中的服务器的定位信息或服务器的时空信息,或者数据处理装置4的定位信息或数据处理装置4的时空信息。其中,定位信息可以是位置信息,例如,服务器或数据处理装置的地理位置信息等。时空信息可以包括时间信息和/或空间信息,例如,如果服务器或数据处理装置是虚拟设备,该时空信息可以指:有些时间段该虚拟设备的功能由A地的某个服务器或数据处理装置来实现,有些时间段该虚拟设备的功能由B地的某个服务器或数据处理装置来实现。

相应地,在第一信息区中,可以具有表示该定位信息和/或时空信息的信息子集。

在本申请中,该第二信息区可以用于表示服务器子集群50中的服务器的状态信息或数据处理装置4的状态信息。此外,在数据处理装置集群100具有管理卡2的情况下,第二信息区还可以用于表示管理卡2的状态信息。

其中,服务器的状态信息、数据处理装置的状态信息或管理卡的状态信息可以包括:该服务器、该数据处理装置或者该管理卡的故障、正常、通知、功耗、健康状态、性能和流量中的至少一者的信息。

在本申请中,如图4所示,信息码还具有第三信息区,该第三信息区表示该服务器、该数据处理装置或该管理卡的如下至少一种信息:权限信息、安全口令、信息级别(例如,绝密、机密、常规、普通、故障、警告、提示等)、最低可更换单元(LRU)信息、车间可更换单元(SRU)信息、消息体(例如,具体的消息格式)。

通过第三信息区,信息码能够提供更加丰富的信息,从而便于管理系统300对数据处理装置集群100进行管理。

如图3所示,管理系统300还包括:调整单元34。调整单元34用于设定或调整服务器5、数据处理装置4和管理卡2中的至少一者的权限信息(例如,权限等级)、安全口令和信息级别中的至少一者。

在本申请中,信息码可以被逐层转发至监管系统集群33。

图5是信息码被转发的一个示意图。如图5的(A)所示,例如,数据处理装置4将其自身产生的信息码发送管理该数据处理装置4的管理卡2,管理卡2将信息码转发给管理该管理卡2的服务器5,服务器5将信息码转发给该服务器5的上层服务器5a,该上层服务器5a将信息码转发给通信交换集群32,由通信交换集群32将信息码发送给监管系统集群33。

其中,在上述逐层转发的过程中,接收到信息码的设备(例如,管理卡、服务器、上层服务器等)可以采用如下的两种方式中的至少一种进行逐层转发:

方式一、接收到信息码的设备根据该设备的权限信息(例如,权限等级)对该信息码进行解包,并在解包后的信息码中追加该设备的信息,以生成转换后的信息码,并根据权限信息将该转换后的信息码转发给更上层的设备;

方式二、接收到信息码的设备使用最底层权限直通,其中,使用最底层权限直通,可以指:接收到信息码的设备仅对接收到的信息码进行转发,而不对接收到的信息码进行解码等处理。

在方式一中,在对信息码进行逐层转发的过程中,接收到信息码的设备可以基于安全秘钥解包接收到的信息码。其中,安全秘钥可以与该设备的权限信息进行绑定。例如,接收到信息码的设备使用自身存储的安全秘钥对接收到的信息码进行解包,该安全秘钥可以有一个或多个,只有和信息码对应的安全秘钥(例如,安全秘钥与信息码中的权限等级对应)才可以对该信息码进行解包。其中,该设备的权限信息(例如,权限等级)决定了它可以得到什么等级的安全秘钥,例如,该设备的权限等级越高,获得的安全秘钥的等级越高,该安全密钥能解包具有更高权限等级的信息码。

由此,在进行信息码转发的过程中,能够提高安全性。

在本申请中,上层的设备也可以对信息码进行反馈,例如,将信息码逐层向下转发。

如图5的(B)所示,在一个例子中,监管系统集群33可以将收到的信息码发送给通信交换集群32,通信交换集群32可以将信息码发送给服务器(例如,上层服务器5a),该服务器将信息码转发给下层的服务器(例如,服务器5),该下层的服务器将信息码转发给该下层的服务器所管理的管理卡,该管理卡将信息码转发给该管理卡所管理的数据处理装置4。

其中,在上述的逐层向下转发的过程中,接收到信息码的设备(例如,管理卡、服务器、上层服务器等)可以采用如下的两种方式中的至少一种进行逐层向下转发:

方式一、接收到信息码的设备根据该设备的权限信息(例如,权限等级)对该信息码进行解包,并从解包的信息码中删除与该设备有关的信息,以生成转换后的信息码,并根据权限信息将转换后的信息码转发给更下层的设备;

方式二、接收到信息码的设备使用最底层权限直通,其中,使用最底层权限直通,可以指:接收到信息码的设备仅对接收到的信息码进行转发,而不对接收到的信息码进行解码等处理。

在方式一中,在对信息码进行逐层向下转发的过程中,接收到信息码的设备可以基于安全秘钥解包接收到的信息码。其中,安全秘钥可以与该设备的权限信息进行绑定。例如,接收到信息码的设备使用自身存储的安全秘钥对接收到的信息码进行解包,该安全秘钥可以有一个或多个,只有和信息码对应的安全秘钥(例如,安全秘钥与信息码中的权限等级对应)才可以对该信息码进行解包。其中,该设备的权限信息(例如,权限等级)决定了它可以得到什么等级的安全秘钥,例如,该设备的权限等级越高,获得的安全秘钥的等级越高,该安全密钥能解包具有更高权限等级的信息码。

在本申请中,在对信息码进行逐层转发或者对信息码进行逐层向下转发的过程中,该信息码的至少一部分可以被有编码权限的设备进行安全编码。该安全编码的方式与该信息码的权限信息对应。该有编码权限的设备包括:该信息码的发送端设备和/或预定的设备。

例如,信息码具有多个区域(例如,上述的第一信息区,第二信息区,第三信息区等),信息码的不同区域针对数据处理装置集群中的不同设备而言,可以具有不同的操作权限,例如,信息码中的基础信息区、用于转发等的公共信息区等,对于所有设备都可见和可操作(可操作例如是指可以进行编辑、删除、增加等操作),而有些特定区域(例如,其他区域)则只有具有编码权限的设备才能操作,该具有编码权限的设备可以对信息码进行安全编码,以提高信息码传输过程中的安全性。

在本申请中,在对信息码进行逐层转发或者对信息码进行逐层向下转发的过程中,接收到信息码的设备对于信息码的转发对象可以和该设备的权限信息和/或信息码中的权限信息有关。例如,根据该设备的权限信息和/或信息码中的权限信息,将该信息码转发(例如,向上转发或者向下转发)到对应的设备。

如图3所示,监管系统集群33可以具有至少一个监管系统332,该监管系统332具有健康监控子系统3321。健康监控子系统3321基于信息码对数据处理装置集群100进行管理。例如,健康监控子系统3321可以基于信息码检测数据处理装置集群100中服务器子集群50、管理卡子集群20和数据处理装置4中的至少一者的运行状态。

在一些实施例中,健康监控子系统3321对数据处理装置集群100进行管理,例如,健康监控子系统3321可以进行管理面的相关操作,该操作可以包括如下的操作:

使数据处理装置集群100中的至少一个数据处理装置4停止执行用户的任务;和/或

将数据处理装置集群100中的至少一个数据处理装置4(例如,该数据处理装置之前不执行该用户的任务)设置为能够执行用户的任务;和/或

将数据处理装置集群100中的至少一个数据处理装置4升级为管理卡2;和/或

将数据处理装置集群100中的至少一个管理卡2降级为数据处理装置4,并将其设置为被其它管理卡2所管理;和/或

对数据处理装置集群100进行算力划分,和/或区域划分,和/或任务区域管理;和/或

为服务器子集群50选择算力服务器(例如,从服务器子集群50中选择至少一个服务器,作为该算力服务器),和/或为管理卡子集群20选择算力管理卡(例如,从管理卡子集群20中选择至少一个管理卡,作为该算力管理卡),和/或为数据处理装置子集群40选择算力数据处理装置(例如,从数据处理装置子集群40中选择至少一个数据处理装置,作为该数据处理装置管理卡)。

如图3所示,在一些实施例中,监管系统332还具有:监控系统规则库3322和预警子系统3323。

其中,监控系统规则库3322至少存储预警规则,例如,监控系统规则库3322存储的预警规则的数量为两种以上;预警子系统3323从监控系统规则库3322提取预警规则,并且,在健康监控子系统3321检测到的运行状态符合提取出的该预警规则所设定的条件时,生成预警信息。此外,预警子系统3323也可以切换从监控系统规则库3322提取的预警规则。

在一些实施例中,监控系统规则库3322还进行如下操作,即:

接收编辑指令,根据该编辑指令至少对存储的预警规则进行操作(例如,该操作可以是对预警规则进行增加、删除、修改、查询等操作),以更新该预警规则。

在一些实施例中,如图3所示,监管系统集群33可以具有两个以上监管系统332,其中:在监管系统332在正常运行时,对数据处理装置集群100的预定部分(例如,服务器5、和/或管理卡2、和/或数据处理装置4等)进行监管;在至少一个监管系统332失效时,正常运行的监管系统332监管由失效的监管系统332所监管的数据处理装置集群100的该预定部分。由此,能够提高监管系统集群33的可靠性。

例如,该两个以上监管系统332中具有至少一个主监管系统,其用于管理其它的监管系统332,并且,该主监管系统失效时或在满足预定条件(其中,该预定条件例如是该主监管系统无法满足管理需求,需要引入计算能力或管理能力等更强的监管系统作为主监管系统等)时,至少一个其它的监管系统332基于预定规则成为新的主监管系统。其中,该预定的规则例如是,依据监管系统332的计算能力和/或通信能力等确定主监管系统,或者,依据用户或者其它设备的指示信息确定主监管系统等。

在一些实施例中,至少一个监管系统332可以具有多个服务器或者多个子服务器集群,该多个服务器或者该多个子服务器集群包括如下种类中的至少一种服务器:

预警服务器,任务规划服务器,区域管理服务器,故障分析服务器,主监管服务器。

其中,该主监管服务器可以对其它种类的服务器的功能进行设定或切换,或者,当缺少至少一种服务器时,其它种类的服务器基于预定规则漂移缺少的至少一种服务器。

在一些实施例中,针对上述的至少一种服务器,该种类的服务器可以包括多个服务器,该多个服务器中的至少一者为该种类的服务器的主管服务器,该主管服务器对该种类的服务器进行下述的至少一种管理:

根据需求接管新成员,其中,新成员例如是该种类的新的服务器;

将多余服务器释放;

使该种类的服务器中的至少一者漂移(例如,切换功能)成其他种类的服务器或者隔离故障服务器,并向上述的主监管服务器申请新资源;以及

从备用区根据权限直接获取新的服务器补充该种类服务器缺口,并向上述的主监管服务器申请资源,以实现资源补充。

根据本申请的实施例,该管理系统300能够针对数据处理装置集群进行有效的监管,从而提高数据处理装置集群100的可靠性。

第二方面的实施例

第二方面的实施例提供一种数据处理装置集群的管理系统的控制方法。该控制方法对应于第一方面实施例中的管理系统300的操作。

图6是管理系统的控制方法的一个示意图。如图6所示,该控制方法包括:

操作601、管理系统的通信交换集群接收所述数据处理装置集群发送的信息码;以及

操作602、所述管理系统的监管系统集群接收所述通信交换集群发送的所述信息码。

其中,所述信息码至少具有第一信息区和第二信息区,所述第一信息区用于按层级顺序表示所述服务器子集群中的服务器的信息或所述数据处理装置的信息,所述第一信息区还表示所述服务器子集群中的服务器的定位信息或所述服务器的时空信息,或者所述数据处理装置的定位信息或所述数据处理装置的时空信息,所述第二信息区用于表示所述服务器子集群中的服务器的状态或所述数据处理装置的状态信息。

在一些实施例中,所述服务器的信息包括:

所述服务器的设备信息以及所述服务器的上层服务器的设备信息;

所述数据处理装置的信息包括:

所述数据处理装置的设备信息、管理所述数据处理装置的管理卡的设备信息以及管理所述数据处理装置的所述服务器的设备信息;或者

所述数据处理装置的设备信息以及管理所述管理卡的所述服务器的设备信息。

在一些实施例中,所述服务器反馈的所述信息码的所述第一信息区包括:

表示所述服务器的设备信息的信息子区以及表示所述服务器的上层服务器的设备信息的信息子区;

所述数据处理装置反馈的所述信息码的所述第一信息区包括:

表示所述数据处理装置的设备信息的信息子区、表示管理所述数据处理装置的管理卡的设备信息的信息子区以及表示管理所述管理卡的所述服务器的设备信息的信息子区;或者

表示所述数据处理装置的设备信息的信息子区以及表示管理所述数据处理装置的所述服务器的设备信息的信息子区。

在一些实施例中,所述服务器的状态或所述数据处理装置的状态信息包括:

表示所述服务器或所述数据处理装置的故障、正常、通知、功耗、健康状态、性能和流量中的至少一者的信息。

在一些实施例中,所述信息码还具有第三信息区,所述第三信息区表示所述服务器或所述数据处理装置的如下至少一种信息:

权限信息、安全口令、信息级别、最低可更换单元(LRU)信息、车间可更换单元(SRU)信息、消息体。

在一些实施例中,如图6所示,所述方法还包括:

操作603、所述管理系统的调整单元设定或调整所述服务器和/或所述数据处理装置的权限信息、安全口令和信息级别中的至少一者。

在一些实施例中,所述信息码被逐层转发至所述监管系统集群,其中,在所述逐层转发的过程中:

接收到所述信息码的设备根据该设备的权限等级对所述信息码进行解包,并在解包后的信息码中追加所述设备的信息,以生成转换后的信息码,并根据权限将所述转换后的信息码转发给更上层的设备;或者

接收到所述信息码的设备使用最底层权限直通。

在一些实施例中,在所述逐层转发的过程中,所述设备基于与权限信息绑定的安全秘钥解包接收到的所述信息码。

在一些实施例中,所述信息码被逐层向下转发,其中,在所述逐层向下转发的过程中:

接收到所述信息码的设备根据该设备的权限信息对所述信息码进行解包,并从解包的信息码中删除与所述设备有关的信息,以生成转换后的信息码,并根据权限信息将所述转换后的信息码转发给更下层的设备;或者

接收到所述信息码的设备使用最底层权限直通。

在一些实施例中,所述信息码的至少一部分被有编码权限的设备进行安全编码,所述安全编码的方式与所述信息码的权限信息对应。

在一些实施例中,所述有编码权限的设备包括所述信息码的发送端设备和预定的设备。

在一些实施例中,所述监管系统集群具有至少一个监管系统,所述监管系统的健康监控子系统基于所述信息码对所述数据处理装置集群进行管理。

在一些实施例中,所述健康监控子系统对所述数据处理装置集群进行管理,包括:

使所述数据处理装置集群中的至少一个数据处理装置停止执行任务;和/或

将所述数据处理装置集群中的至少一个数据处理装置设置为能够执行任务;和/或

将所述数据处理装置集群中的至少一个数据处理装置升级为所述管理卡;和/或

将所述数据处理装置集群中的至少一个管理卡降级为被其它管理卡所管理的数据处理装置;和/或

对所述数据处理装置集群进行算力划分,和/或区域划分,和/或任务区域管理,和/或健康管理。

在一些实施例中,如图6所示,该方法还包括:

操作604、所述监管系统的监控系统规则库至少存储预警规则;以及

操作605、所述监管系统的预警子系统从所述监控系统规则库提取所述预警规则,并且,在所述健康监控子系统检测到的所述运行状态符合所述预警规则所设定的条件时,生成预警信息。

在一些实施例中,监控系统规则库存储的所述预警规则的数量为两种以上,所述预警子系统切换从所述监控系统规则库提取的所述预警规则。

在一些实施例中,所述监控系统规则库还接收编辑指令,根据所述编辑指令至少对所述预警规则进行编辑,以更新所述规则。

关于上述方法中各操作的详细说明,可以参考第一方面的实施例中的相关说明。

本申请的实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第二方面的实施例中的方法。

本申请的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第二方面的实施例中的方法。

本申请的实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现第二方面的实施例中的方法。

本申请各实施例的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120116525386