掌桥专利:专业的专利平台
掌桥专利
首页

服务器制冷方法、装置、存储介质与服务器制冷系统

文献发布时间:2024-04-18 19:53:33


服务器制冷方法、装置、存储介质与服务器制冷系统

技术领域

本申请实施例涉及服务器领域,具体而言,涉及一种服务器制冷方法、装置、计算机可读存储介质与服务器制冷系统。

背景技术

散热问题是服务器开发中需要解决的重要问题,一方面需要减少能源浪费,另一方面要确保服务器的散热正常,使各个器件和外接设备能够正常工作。目前使用基板管理控制器(Baseboard Management Controller,BMC)对服务器中的风扇控制以解决散热问题。服务器在风冷、冷板以及浸没式液冷环境下,对应的风扇控制参数是不相同的。

目前的方案常采用硬件信息(比如GPIO等)区分服务器的制冷模式,这种方式出错率较高。

发明内容

本申请实施例提供了一种服务器制冷方法、装置、计算机可读存储介质与服务器制冷系统,以至少解决相关技术中采用硬件信息(比如GPIO等)区分服务器的制冷模式,这种方式出错率较高的问题。

根据本申请的一个实施例,提供了一种服务器制冷方法,包括:

获取生产端的生产需求;根据所述生产需求确定为所述生产端配置的服务器集群中的各服务器的制冷模式,所述服务器集群中包括至少一个服务器,各所述服务器的所述制冷模式为风冷模式、冷板模式、浸没式液冷模式中的任一种模式;

根据各所述服务器的制冷模式确定各所述服务器预执行的制冷逻辑,并且在各所述服务器制冷的过程中,实时获取各所述服务器中的各器件的实时运行数据,从所述实时运行数据中提取出正在执行的制冷逻辑,根据所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。

在一个示例性实施例中,所述方法还包括:构建制冷模式与模式标识之间的映射关系;

将各所述服务器的所述制冷模式对应的所述模式标识存储在各所述服务器的主板的存储器中;

所述方法还包括:

根据各所述服务器对应的所述模式标识,调取对应的所述制冷逻辑,以实现制冷。

在一个示例性实施例中,所述方法还包括:

在所述正在执行的制冷逻辑不正确的情况下,生成提示信息;

将所述提示信息发送至运维端,所述提示信息用于提示运维人员对所述服务器的制冷逻辑进行二次配置。

在一个示例性实施例中,所述方法还包括:

在各所述服务器制冷的过程中,若目标服务器工作异常,获取所述目标服务器的制冷模式;

根据所述目标服务器的制冷模式选用替代服务器,所述替代服务器用于替代所述目标服务器,其中,所述目标服务器的制冷模式与所述替代服务器的制冷模式相同。

在一个示例性实施例中,所述方法还包括:

在各所述服务器制冷的过程中,若目标服务器工作异常,则生成异常系统事件日志。

在一个示例性实施例中,根据各所述服务器的制冷模式确定各所述服务器预执行的制冷逻辑,包括以下之一:

在所述服务器的制冷模式为所述风冷模式的情况下,所述预执行的制冷逻辑为:根据所述服务器中的温度调控点的温度值进行线性调控,以及确定调控风扇速度的PWM值;

在所述服务器的制冷模式为所述冷板模式的情况下,所述预执行的制冷逻辑为:控制冷媒由第一区域流动至第二区域;

在所述服务器的制冷模式为所述浸没式液冷模式的情况下,所述预执行的制冷逻辑为:禁用所有的风扇传感器。

根据本申请的另一个实施例,提供了一种服务器制冷装置,包括:

第一获取单元,用于获取生产端的生产需求;

第一确定单元,用于根据所述生产需求确定为所述生产端配置的服务器集群中的各服务器的制冷模式,所述服务器集群中包括至少一个服务器,各所述服务器的所述制冷模式为风冷模式、冷板模式、浸没式液冷模式中的任一种模式;

第二确定单元,用于根据各所述服务器的制冷模式确定各所述服务器预执行的制冷逻辑,并且在各所述服务器制冷的过程中,实时获取各所述服务器中的各器件的实时运行数据,从所述实时运行数据中提取出正在执行的制冷逻辑,根据所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。

根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请的又一个实施例,还提供了一种服务器制冷系统,包括:基板管理控制器,用于执行任意一种所述的方法的步骤;服务器集群,包括至少一个服务器,与所述基板管理控制器通信。

在一个示例性实施例中,所述服务器制冷系统还包括外部存储器,所述基板管理控制器具有第一接口,所述基板管理控制器通过所述第一接口与所述外部存储器连接,所述外部存储器用于存储制冷逻辑。

在一个示例性实施例中,所述基板管理控制器还具有至少一个第二接口,所述基板管理控制器通过一个所述第二接口与一个所述服务器连接。

通过本申请,首先,获取生产端的生产需求;然后,根据上述生产需求确定为上述生产端配置的服务器集群中的各服务器的制冷模式,上述服务器集群中包括至少一个服务器,上述制冷模式为风冷模式、冷板模式和浸没式液冷模式中的任一种模式;最后,根据各上述服务器的制冷模式确定各上述服务器预执行的制冷逻辑。并且在各所述服务器制冷的过程中,实时获取各所述服务器中的各器件的实时运行数据,从所述实时运行数据中提取出正在执行的制冷逻辑,根据所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。实现了根据生产端的需求确定服务器集群中的各服务器的制冷模式,以及从各所述服务器中的各器件的实时运行数据提取出正在执行的制冷逻辑,然后通过对比预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。相对于采用硬件信息(比如GPIO等)区分服务器的制冷模式的方法,本申请采用了一种软件对比的方式,效率较高且不容易出错,无需人为进行判断。

附图说明

图1是根据本申请实施例的服务器制冷方法的流程图;

图2是根据本申请实施例的服务器制冷装置示意图;

图3是根据本申请实施例的服务器制冷系统示意图。

其中,上述附图包括以下附图标记:

10、基板管理控制器;11、第一接口;12、第二接口;20、服务器;30、外部存储器。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请的实施例。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:

风冷模式:是服务器中安装由风扇装置,由风扇装置转动进行服务器温度的调整;

冷板模式:又称为间接液冷技术。该技术将冷却剂直接导向热源,同时由于液体比空气的比热大,散热速度远远大于空气,因此制冷效率远高于风冷散热;

浸没式液冷模式:浸没式液冷环境是将服务器主板、CPU、内存等发热量大的元器件完全浸没在冷媒中,在工作状态下,各发热部件会产生热量,引起冷媒温升。当冷媒温度升高到系统压力所对应的沸点,冷媒工质发生相变,从液态变化为气态,通过汽化热吸收热量实现热量的转移。

基板管理控制器(Baseboard Management Controller,简称BMC):可以在机器未开启的状态下,对机器进行固件升级、查看机器设备、等一些操作。

智能平台管理接口(Intelligent Platform Management Interface,简称IPMI):IPMI能够横跨不同的操作系统、固件和硬件平台

Redfish接口:是一种基于HTTPs服务的管理标准,利用RESTful接口实现设备管理。每个HTTPs操作都以UTF-8编码的JSON的形式,提交或返回一个资源。就像Web应用程序向浏览器返回HTML一样,RESTful接口会通过同样的传输机制(HTTPs),以JSON的形式向客户端返回数据。

在本实施例中提供了一种运行于基板管理控制器BMC的方法,图1是根据本申请实施例的服务器制冷方法流程图,如图1所示,该流程包括如下步骤:

步骤S102,获取生产端的生产需求;

具体地,生产端的生产需求可以包括:生产的产品的种类、生产的产品的数量、产品生产的速度等等,具体的生产需求根据生产端的具体的情况确定;

步骤S104,根据上述生产需求确定为上述生产端配置的服务器集群中的各服务器的制冷模式,上述服务器集群中包括至少一个服务器,各上述服务器的上述制冷模式为风冷模式、冷板模式和浸没式液冷模式中的任一种模式;

当然,随着技术的发展,制冷模式还可以为除风冷模式、冷板模式和浸没式液冷模式以外的模式,根据新的模式设置对应的制冷逻辑即可;

具体例如:根据生产需求确定需要100台服务器,其中,20台服务器设置为风冷模式,30台服务器设置为冷板模式,50台服务器设置为浸没式液冷模式;

具体例如:根据生产需求确定需要100台服务器,其中,50台服务器设置为风冷模式,50台服务器设置为冷板模式,可以根据实际需求进行设置;

步骤S106,根据各上述服务器的制冷模式确定各上述服务器预执行的制冷逻辑,并且在各所述服务器制冷的过程中,实时获取各所述服务器中的各器件的实时运行数据,从所述实时运行数据中提取出正在执行的制冷逻辑,根据所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。

其中,所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异可以是通过比对数值的差异、数据波动的差异得到,其中,数值的差异可以是制冷逻辑中的某一个参数的最大值的差异、最小值的差异、平均值的差异等。

在各上述服务器制冷的过程中,实时获取各上述服务器中的各器件的实时运行数据;实时运行数据反应了正在进行制冷的流程;

比对上述预执行的制冷逻辑和上述实时运行数据,得到比对结果;根据上述比对结果确定正在执行的制冷逻辑是否正确。通过比对与存储在服务器的主板的存储器中的模式标识相对应的制冷逻辑和实时运行数据,就可以确定目前正在进行的制冷逻辑是否是正确的;这样就确保了在生产时,如果出现thermal环境调控不对,都能够及时甄别。以保证散热正确。

当然,在一些情况下,如果预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异比较小不足以影响制冷效果的情况下,也可以不进行制冷逻辑的重新配置。

当然,也可以将不同的预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异对应的调整策略存储在存储器中,以便于后续的制冷过程中进行使用,以提高效率,节省资源。

具体地,预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异与对应的调整策略之间的对应关系可以存储在数据库表中,便于后续的调用。当然,不同的对应关系在数据库表中选择不同的位置进行存储,并且将位置信息保留,方便后续使用。

具体地,一种制冷模式对应一种制冷逻辑,例如:

在上述服务器的制冷模式为上述风冷模式的情况下,上述预执行的制冷逻辑为:根据上述服务器中的温度调控点的温度值进行线性调控,以及确定调控风扇速度的PWM值;

具体可以采用PID算法计算出调控风扇速度的PWM值;

在上述服务器的制冷模式为上述冷板模式的情况下,上述预执行的制冷逻辑为:控制冷媒由第一区域流动至第二区域;

冷板环境中利用工作流体作为中间热量传输的媒介,将热量由热区传递到远处再进行冷却,对于这种服务器一般采用风冷混合的方式,BMC需要将部分风扇的调控取消以及对应的风扇传感器禁用;

在上述服务器的制冷模式为上述浸没式液冷模式的情况下,上述预执行的制冷逻辑为:禁用所有的风扇传感器。也就是说浸没式液冷模式是没有风扇的,进行整机转配时也无需为服务器主板配置风扇。即浸没式液冷环境中BMC需要取消所有的风扇调控以及禁用所有的风扇传感器。

本申请的服务器制冷方法,首先,获取生产端的生产需求;然后,根据上述生产需求确定为上述生产端配置的服务器集群中的各服务器的制冷模式,上述服务器集群中包括至少一个服务器,各上述服务器的上述制冷模式为风冷模式、冷板模式和浸没式液冷模式中的任一种模式;最后,根据各上述服务器的制冷模式确定各上述服务器预执行的制冷逻辑。并且在各所述服务器制冷的过程中,实时获取各所述服务器中的各器件的实时运行数据,从所述实时运行数据中提取出正在执行的制冷逻辑,根据所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。实现了根据生产端的需求确定服务器集群中的各服务器的制冷模式,以及从各所述服务器中的各器件的实时运行数据提取出正在执行的制冷逻辑,然后通过对比预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。相对于采用硬件信息(比如GPIO等)区分服务器的制冷模式的方法,本申请采用了一种软件对比的方式,效率较高且不容易出错,无需人为进行判断。

为了在制冷的过程中精确获取到各服务器的制冷模式,上述方法还包括:

构建制冷模式与模式标识之间的映射关系;

例如,设置选项为:0x00表示风冷模式,0x01表示冷板模式,0x02表示冷板浸没式液冷模式,且这种映射关系在装机时进行配置,生产时均为0xFF;

例如,设置选项为:0x01表示风冷模式,0x02表示冷板模式,0x03表示冷板浸没式液冷模式,且这种映射关系在装机时进行配置,生产时均为0xFF,可以根据实际需求进行设置。

上述方法还包括:根据各所述服务器对应的所述模式标识,调取对应的所述制冷逻辑,以实现制冷。方便制冷。

将各上述服务器的上述制冷模式对应的上述模式标识存储在各上述服务器的主板的存储器中。将模式标识存储在各上述服务器的主板的存储器中,方便后续基板管理控制器BMC进行制冷控制时调用。

具体地,BMC提供对外接口,使生产端在生产时将此Thermal信息(即模式标识)存放在主板的非易失的存储介质中,BMC在运行阶段通过此信息进行不同的散热调控逻辑进行调控,这样不再使用硬件信息(比如GPIO等)进行区分,一是节省硬件资源,二是更加灵活,同一主板可以安装在不同的Thermal环境,增加主板的利用率。

BMC提供的对外接口可以是:IPMI Command、Redfish接口等,BMC从非易失存储介质中获取当前的Thermal配置,进行不同的散热调控策略。

为实现精确制冷,进一步地,在根据上述比对结果确定正在执行的制冷逻辑是否正确之后,上述方法还包括:

在上述正在执行的制冷逻辑不正确的情况下,生成提示信息;

具体地,提示信息可以是提示的文本、提示的语音等信息;

当然,还可以将提示信息显示在显示屏上,及时提醒运维人员;更为具体地,可以采用分区显示的方式,例如,1~20个服务器对应的提示信息显示在第一区域,1~40个服务器对应的提示信息显示在第一区域,1~60个服务器对应的提示信息显示在第一区域,以提醒对应的运维人员,可以快速定位到对应的异常的服务器;

另外,制冷逻辑不正确(即制冷逻辑异常)分为多种等级下,例如风扇的数量等级等于风扇的转速等级。所以,可以将制冷逻辑异常按照等级进行划分,然后显示在不同的显示区域,例如,等级最高的显示在显示屏最上方的区域,等级最低的显示在显示屏最上方的区域,以提示运维人员按照制冷逻辑异常的等级重新进行配置,节省时间的同时可以保证制冷效果。

具体地,上述提示信息包括了需要进行二次配置的服务器的ID,以使得运维人员可以根据服务器的ID找到对应的服务器,对对应的服务器进行二次配置。相对于现有技术中的出错不理的情形,本申请的方案大大方便了运维人员的操作,运维人员进行改配之后发现问题可以及时处理,可以及时止损。

将上述提示信息发送至运维端,上述提示信息用于提示运维人员对上述服务器的制冷逻辑进行二次配置。例如,本应该运行的是风冷模式的逻辑,实际运行成了冷板模式的逻辑,本应该运行的是冷板模式的逻辑,实际运行成了风冷模式的逻辑,本应该运行的是浸没式液冷模式,实际运行成了风冷模式的逻辑,等等情况下需求重新进行配置。

例如,在获取到当前的Thermal配置为浸没式液冷环境,当检测到风扇Present状态为Yes,以及Board ID检测不是浸没式对应的ID,那么均需要进行告警,提示Thermal环境不匹配。

例如,如果BMC在获取到当前的Thermal配置为冷板环境,当检测漏液检测线不在位或者断开,那么均需要进行告警,提示Thermal环境不匹配。

例如,在获取到当前的Thermal配置为风冷模式的情况下,检测到风扇的运行速度为第一运行速度,但是预设置的运行速度为第一运行速度,此时确定制冷逻辑是不正确的,一种情况是,预设置的制冷逻辑是不正确的,另一种情况是正在执行的制冷逻辑是不正确的,具体是预设置的制冷逻辑是不正确还是正在执行的制冷逻辑需要根据实时制冷效果判断,如果实时制冷效果已经达到的了预期的效果,证明此时的正在执行的制冷逻辑中的风扇的速度是正确的设置,预设置的制冷逻辑中的风扇的速度是需要修改的。

当然,上述风扇的运行速度仅仅是示例性的,有关于风冷模式、冷板模式和浸没式液冷模式的硬件的运行参数均在本申请的保护范围内。

同时对于生产阶段,同一块主板是不知道之后要进行的配置(风冷模式,水冷模式,浸没式液冷模式)具体是什么,如果提前将配置设置好,后续通过线上改配或者生产阶段出现了什么问题,这将导致Thermal真实环境与设置的不同,散热调控就会混乱,出现严重的问题,为保证生产端的正常生产,上述方法还包括:

在各上述服务器制冷的过程中,若目标服务器工作异常,获取上述目标服务器的制冷模式;

根据上述目标服务器的制冷模式选用替代服务器,上述替代服务器用于替代上述目标服务器,其中,上述目标服务器的制冷模式与上述替代服务器的制冷模式相同。例如,有一个为风冷模式的服务器故障,就用一个新的采用风冷模式的服务器进行替换,有一个为冷板模式的服务器故障,就用一个新的采用冷板模式的服务器进行替换,有一个为浸没式液冷模式的服务器故障,就用一个新的采用浸没式液冷模式的服务器进行替换,这样就不会将不同的制冷模式的服务器切换以影响正常的生产。线上改配后主板的配置Thermal信息与真实的硬件信息不对时,都能够及时甄别。以保证散热正确。

进一步地,上述方法还包括:

在各上述服务器制冷的过程中,若目标服务器工作异常,则生成异常系统事件日志。

在一个示例性实施例中,还配置有显示页面,显示页面可以是WEB页面,在目标服务器工作异常的情况下,将异常系统事件日志显示在显示页面中。

进一步地,显示页面上还可以显示各所述服务器的所述制冷模式对应的所述模式标识。

本文采用OEM(厂商自定义)的SEL(系统事件日志)进行告警记录,此事件不依赖sensor(传感器)的添加,节省资源,因为服务器场景中需要监控的部件非常多,这样需要很多的sensor进行适配和监控,但是sensor的数量又是受限的,不能无限增多。

通过本文提出的方案可以通过BMC进行适配不同的Thermal环境,不需要额外增加硬件资源进行识别,BMC可以根据不同的Thermal配置调整成对应的散热策略;同时生产时如果配置发生错误或者服务器到了客户机房进行改配,导致设置与真实硬件不匹配时,BMC可以自动的监控告警,提示运维人员及时进行修改,配置成正确的Thermal环境。

另外,本申请的方案可以扩展应用至对于设置类的操作,根据已知环境进一步验证设置是否正确,如果不正确进行告警,提示用户再次修改设置的闭环系统。

其中,上述步骤的执行主体可以为基板管理控制器等,但不限于此。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例上述的方法。

在本实施例中还提供了一种服务器制冷装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本申请实施例的服务器制冷装置的结构框图,如图2所示,该装置包括:

第一获取单元21,用于获取生产端的生产需求;

具体地,生产端的生产需求可以包括:生产的产品的种类、生产的产品的数量、产品生产的速度等等,具体的生产需求根据生产端的具体的情况确定;

第一确定单元22,用于根据上述生产需求确定为上述生产端配置的服务器集群中的各服务器的制冷模式,上述服务器集群中包括至少一个服务器,各上述服务器的上述制冷模式为风冷模式、冷板模式和浸没式液冷模式中的任一种模式;

当然,随着技术的发展,制冷模式还可以为除风冷模式、冷板模式和浸没式液冷模式以外的模式,根据新的模式设置对应的制冷逻辑即可;

具体例如:根据生产需求确定需要100台服务器,其中,20台服务器设置为风冷模式,30台服务器设置为冷板模式,50台服务器设置为浸没式液冷模式;

具体例如:根据生产需求确定需要100台服务器,其中,50台服务器设置为风冷模式,50台服务器设置为冷板模式,可以根据实际需求进行设置;

第二确定单元23,用于根据各上述服务器的制冷模式确定各上述服务器预执行的制冷逻辑,并且在各所述服务器制冷的过程中,实时获取各所述服务器中的各器件的实时运行数据,从所述实时运行数据中提取出正在执行的制冷逻辑,根据所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。

其中,所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异可以是通过比对数值的差异、数据波动的差异得到,其中,数值的差异可以是制冷逻辑中的某一个参数的最大值的差异、最小值的差异、平均值的差异等。

具体地,一种制冷模式对应一种制冷逻辑,例如:

在上述服务器的制冷模式为上述风冷模式的情况下,上述预执行的制冷逻辑为:根据上述服务器中的温度调控点的温度值进行线性调控,以及确定调控风扇速度的PWM值;

具体可以采用PID算法计算出调控风扇速度的PWM值;

在上述服务器的制冷模式为上述冷板模式的情况下,上述预执行的制冷逻辑为:控制冷媒由第一区域流动至第二区域;

冷板环境中利用工作流体作为中间热量传输的媒介,将热量由热区传递到远处再进行冷却,对于这种服务器一般采用风冷混合的方式,BMC需要将部分风扇的调控取消以及对应的风扇传感器禁用;

在上述服务器的制冷模式为上述浸没式液冷模式的情况下,上述预执行的制冷逻辑为:禁用所有的风扇传感器。也就是说浸没式液冷模式是没有风扇的,进行整机转配时也无需为服务器主板配置风扇。即浸没式液冷环境中BMC需要取消所有的风扇调控以及禁用所有的风扇传感器。

本申请的服务器制冷装置,第一获取单元获取生产端的生产需求第一确定单元根据上述生产需求确定为上述生产端配置的服务器集群中的各服务器的制冷模式,上述服务器集群中包括至少一个服务器,上述制冷模式为风冷模式、冷板模式和浸没式液冷模式中的任一种模式;第二确定单元根据各上述服务器的制冷模式确定各上述服务器预执行的制冷逻辑,并且在各所述服务器制冷的过程中,实时获取各所述服务器中的各器件的实时运行数据,从所述实时运行数据中提取出正在执行的制冷逻辑,根据所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。实现了根据生产端的需求确定服务器集群中的各服务器的制冷模式,以及从各所述服务器中的各器件的实时运行数据提取出正在执行的制冷逻辑,然后通过对比预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。相对于采用硬件信息(比如GPIO等)区分服务器的制冷模式的方法,本申请采用了一种软件对比的方式,效率较高且不容易出错,无需人为进行判断。

进一步地,上述装置还包括构建单元和存储单元,构建单元用于构建制冷模式与模式标识之间的映射关系;存储单元用于将各上述服务器的上述制冷模式对应的上述模式标识存储在各上述服务器的主板的存储器中。例如,设置选项为:0x00表示风冷模式,0x01表示冷板模式,0x02表示冷板浸没式液冷模式,且这种映射关系在装机时进行配置,生产时均为0xFF;

例如,设置选项为:0x01表示风冷模式,0x02表示冷板模式,0x03表示冷板浸没式液冷模式,且这种映射关系在装机时进行配置,生产时均为0xFF,可以根据实际需求进行设置。

将各上述服务器的上述制冷模式对应的上述模式标识存储在各上述服务器的主板的存储器中。将模式标识存储在各上述服务器的主板的存储器中,方便后续基板管理控制器BMC进行制冷控制时调用。

具体地,BMC提供对外接口,使生产端在生产时将此Thermal信息(即模式标识)存放在主板的非易失的存储介质中,BMC在运行阶段通过此信息进行不同的散热调控逻辑进行调控,这样不再使用硬件信息(比如GPIO等)进行区分,一是节省硬件资源,二是更加灵活,同一主板可以安装在不同的Thermal环境,增加主板的利用率。

BMC提供的对外接口可以是:IPMI Command、WEB页面选项、Redfish接口等,BMC从非易失存储介质中获取当前的Thermal配置,进行不同的散热调控策略。

进一步地,上述装置还包括调取单元,用于根据各所述服务器对应的所述模式标识,调取对应的所述制冷逻辑,以实现制冷。

进一步地,上述装置还包括第一生成单元和发送单元,第一生成单元用于在上述正在执行的制冷逻辑不正确的情况下,生成提示信息;具体地,提示信息可以是提示的文本、提示的语音等信息;

发送单元用于将上述提示信息发送至运维端,上述提示信息用于提示运维人员对上述服务器的制冷逻辑进行二次配置。例如,本应该运行的是风冷模式的逻辑,实际运行成了冷板模式的逻辑,本应该运行的是冷板模式的逻辑,实际运行成了风冷模式的逻辑,本应该运行的是浸没式液冷模式,实际运行成了风冷模式的逻辑,等等情况下需求重新进行配置。

例如,在获取到当前的Thermal配置为浸没式液冷环境,当检测到风扇Present状态为Yes,以及Board ID检测不是浸没式对应的ID,那么均需要进行告警,提示Thermal环境不匹配。

例如,如果BMC在获取到当前的Thermal配置为冷板环境,当检测漏液检测线不在位或者断开,那么均需要进行告警,提示Thermal环境不匹配。

同时对于生产阶段,同一块主板是不知道之后要进行的配置(风冷模式,水冷模式,浸没式液冷模式)具体是什么,如果提前将配置设置好,后续通过线上改配或者生产阶段出现了什么问题,这将导致Thermal真实环境与设置的不同,散热调控就会混乱,出现严重的问题,为保证生产端的正常生产,进一步地,上述装置还包括第三获取单元和选用单元,第三获取单元用于在各上述服务器制冷的过程中,若目标服务器工作异常,获取上述目标服务器的制冷模式;选用单元用于根据上述目标服务器的制冷模式选用替代服务器,上述替代服务器用于替代上述目标服务器,其中,上述目标服务器的制冷模式与上述替代服务器的制冷模式相同。其中,上述目标服务器的制冷模式与上述替代服务器的制冷模式相同。例如,有一个为风冷模式的服务器故障,就用一个新的采用风冷模式的服务器进行替换,有一个为冷板模式的服务器故障,就用一个新的采用冷板模式的服务器进行替换,有一个为浸没式液冷模式的服务器故障,就用一个新的采用浸没式液冷模式的服务器进行替换,这样就不会将不同的制冷模式的服务器切换以影响正常的生产。线上改配后主板的配置Thermal信息与真实的硬件信息不对时,都能够及时甄别。以保证散热正确。

进一步地,上述装置还包括第二生成单元,第二生成单元用于在各上述服务器制冷的过程中,若目标服务器工作异常,则生成异常系统事件日志。

本文采用OEM(厂商自定义)的SEL(系统事件日志)进行告警记录,此事件不依赖sensor(传感器)的添加,节省资源,因为服务器场景中需要监控的部件非常多,这样需要很多的sensor进行适配和监控,但是sensor的数量又是受限的,不能无限增多。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的实施例还提供了一种服务器制冷系统,如图3所示,包括:

基板管理控制器10,用于执行权利要求上述的服务器制冷方法的步骤;

服务器集群,包括至少一个服务器20,与所述基板管理控制器通信。

本申请的服务器制冷系统中的基板管理控制器,通过获取生产端的生产需求;根据上述生产需求确定为上述生产端配置的服务器集群中的各服务器的制冷模式,上述服务器集群中包括至少一个服务器,上述制冷模式为风冷模式、冷板模式和浸没式液冷模式中的任一种模式;根据各上述服务器的制冷模式确定各上述服务器预执行的制冷逻辑。实现了根据生产端的需求确定服务器集群中的各服务器的制冷模式,以及根据各服务器的制冷模式确定制冷逻辑,以实现对服务器的制冷。相对于采用硬件信息(比如GPIO等)区分服务器的制冷模式的方法,效率较高且不容易出错。

进一步地,如图3所示,所述服务器制冷系统还包括外部存储器30,所述基板管理控制器10具有第一接口11,所述基板管理控制器10通过所述第一接口11与所述外部存储器30连接,所述外部存储器30用于存储制冷逻辑。将制冷逻辑存储在外部存储器中,基板管理控制器通过第一接口从外部存储器中获取制冷逻辑,以进行制冷控制。

进一步地,如图3所示,所述基板管理控制器还具有至少一个第二接口12,所述基板管理控制器10通过一个所述第二接口12与一个所述服务器20连接。

另外,所述基板管理控制器还可以通过第二接口、切换器、连接端口连接至服务器。切换器可以选择第二接口与哪个服务器的连接端口连接成功。

更为具体的,所述第二接口为以下之一:标准总线接口、标准PCIe接口、Redfish接口。

本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:

1)、本申请的服务器制冷方法,首先,获取生产端的生产需求;然后,根据上述生产需求确定为上述生产端配置的服务器集群中的各服务器的制冷模式,上述服务器集群中包括至少一个服务器,各上述服务器的上述制冷模式为风冷模式、冷板模式和浸没式液冷模式中的任一种模式;最后,根据各上述服务器的制冷模式确定各上述服务器预执行的制冷逻辑。并且在各所述服务器制冷的过程中,实时获取各所述服务器中的各器件的实时运行数据,从所述实时运行数据中提取出正在执行的制冷逻辑,根据所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。实现了根据生产端的需求确定服务器集群中的各服务器的制冷模式,以及从各所述服务器中的各器件的实时运行数据提取出正在执行的制冷逻辑,然后通过对比预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。相对于采用硬件信息(比如GPIO等)区分服务器的制冷模式的方法,本申请采用了一种软件对比的方式,效率较高且不容易出错,无需人为进行判断。

2)、本申请的服务器制冷装置,第一获取单元获取生产端的生产需求第一确定单元根据上述生产需求确定为上述生产端配置的服务器集群中的各服务器的制冷模式,上述服务器集群中包括至少一个服务器,上述制冷模式为风冷模式、冷板模式和浸没式液冷模式中的任一种模式;第二确定单元根据各上述服务器的制冷模式确定各上述服务器预执行的制冷逻辑,并且在各所述服务器制冷的过程中,实时获取各所述服务器中的各器件的实时运行数据,从所述实时运行数据中提取出正在执行的制冷逻辑,根据所述预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。实现了根据生产端的需求确定服务器集群中的各服务器的制冷模式,以及从各所述服务器中的各器件的实时运行数据提取出正在执行的制冷逻辑,然后通过对比预执行的制冷逻辑和所述正在执行的制冷逻辑之间的差异确定正在执行的制冷逻辑是否正确。相对于采用硬件信息(比如GPIO等)区分服务器的制冷模式的方法,本申请采用了一种软件对比的方式,效率较高且不容易出错,无需人为进行判断。以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120116339408