掌桥专利:专业的专利平台
掌桥专利
首页

机房健康状态预警系统及方法

文献发布时间:2023-06-19 11:44:10


机房健康状态预警系统及方法

技术领域

本发明涉及机房管理技术领域,具体为一种机房健康状态预警系统及方法。

背景技术

机房作为一个存放服务器、为用户以及员工提供IT服务的地方,会存放大量的网络设备。随着云计算,大数据及其应用的兴起,计算机机房乃至大型数据中心得到了迅速发展,不仅规模不断增加,内部服务器的密度和集成化也不断提高。

问了保证机房内设备的稳定运行,通常需要对机房的环境因素进行监测,在监测到的环境因素不利于机房设备运行时,需要及时调节机房内的环境,以降低对设备的正常运行造成的影响,需要监测的环境因素通常包括温度、湿度、空气含尘浓度等。以温度为例,在温度超过25℃的时候,机房温度过高,因此就会造成设备运行故障,如数据处理和存储速度降低等。现有技术中,在对机房温度监测时,会利用布设在机房内的温度传感器采集机房内的温度,毕竟温度值与预设的阈值进行比较,在比较出温度值大于阈值时,进行报警。但是,假设适合设备运行的温度为18至25℃,通常就会将25℃设置为阈值。但是,由于现有技术中,通常是设置一个温度传感器采集机房内的问题,在这种情况下,当采集的到温度值都已经达到25℃,机房内具体的某个地方的温度很可能是已经远远超过了25℃的,该处的设备极大可能已经因为高温情况而出现了损害或运行故障的问题。但是,若把温度阈值设置得过低,如就设置为18℃,则当机房内设备都处于运行状态时,机房内的温度很大情况都是会超过18℃的,则报警频率将会大幅度提高,而此时机房内的温度并不属于需要调节的情况,因此这种情况下的报警则将是无效报警,从而降低了报警的准确率。

发明内容

本发明的目的之一在于提供一种预警准确性高的机房健康状态预警系统。

本发明提供基础方案是:机房健康状态预警系统,包括温度检测模块,用于对机房内温度进行检测并得到温度值;

存储模块,预设有安全温度上限值;

其中,机房包括多个监测区域,各个监测区域布设温度检测模块;

存储模块,预设有温度警戒值,温度警戒值小于安全温度上限值;还用于周期性获取温度检测模块得到的温度值并作为温度历史值进行存储;

比较模块,用于将温度值与温度警戒值进行比较;

计算模块,用于在比较出温度值大于温度警戒值时,根据温度历史值对超过温度警戒值后的一个周期内的温度变化率与前一周期的温度变化率进行计算得到第一变化率和第二变化率;

比较模块还用于比较第一变化率和第二变化率;

报警模块,用于在比较出第一变化率不低于第二变化率时发送预警信息。

基础方案的工作原理及有益效果是:本方案中,通过将机房划分多个区域,并分别采集多个区域的温度,然后分别对各个区域的温度进行比较,在比较出温度值大于温度警戒值时,则表示相应区域的温度偏高,但并未超过机房安全温度上限值,在这种情况下,随着相应区域中设备的继续使用,温度可能会出现不再不变、继续上升后停止在一个不超过安全温度上限的温度、继续上升后停止在一个超过安全温度上限值的温度三种情况。

上述的前两种情况下并不会导致机房出现安全问题,因此也就并不需要预警,而对于第三种情况而言,则将会出现因为温度过高而出现安全问题;因此还设置有计算模块根据温度历史值对超过温度警戒值后的一个周期内的温度变化率与前一周期的温度变化率进行计算,得到的第一变化率表示在温度超过温度警戒值时的一个周期内的温度变化率,得到的第二变化率则表示的是前一周期,即温度还没有超过温度警戒值时的最后一个周期内的温度变化率,在比较出第一变化率低于第二变化率时,则说明在温度超过温度警戒值后,相应区域的温度开始以一个较小的变化率在上升或就停在了温度警戒值上不再变化,在这种情况下,最终温度极大可能会停留在一个低于安全温度上限值的范围内,因此此时报警模块将不会进行预警;而在比较出第一变化率不低于第二变化率时,则表示在温度超过温度警戒值后,相应区域的温度仍然以一个比较大的变化率在继续上升,在这种情况下,极有可能就将会超过安全温度上限值,此时报警模块则将会发送预警信息,以提醒管理人员及时对相应区域进行检查,避免温度继续上升,以达到预警的效果。

与现有技术相比,本方案中,划分多个区域进行分别检测的方式得到的温度值将更能准确的表示机房内相应区域的温度情况;而且,本方案中,通过预设与安全温度上限值小的温度警戒值实现了在温度没有达到安全温度上限值之前,根据相应区域的第一变化率和第二变化率的比较结果来确定是否需要预警,而不是温度超过安全温度上限值后再进行预警后,因此能够避免因为高温而导致设备损坏的问题;另一方面,因为本方案中设置的温度警戒值是小于安全温度上限值的,因此即使比较出温度值大于了温度警戒值,但也不能代表在之后温度就一定是会超过安全温度值的,若在温度值大于温度警戒值的情况下将进行预警,则将会出现无效预警的情况,因此本方案中,在比较出温度值大于温度警戒值时,还会对比较第一变化率和第二变化率,根据比较结果最终确定是否发送预警信息,从而能够减少无效预警的次数,有利于提高预警的准确性。

优选方案一:作为基础方案的优选,存储模块对应不同的监测区域预设有相应的温度警戒值,比较模块将相应区域的温度警戒值与温度值进行比较。有益效果:考虑到不同的监测区域内,布设的设备的数量或种类不同,因此对于不同监测区域来说,各自的温度警戒值会有所不同,因此本方案中,通过对应不同的监测区域设置不同的温度警戒值的方式可以提高比较结果的准确性。

优选方案二:作为基础方案的优选,比较模块还用于将温度值与安全温度上限值进行比较,在比较出温度值大于安全温度上限值时,报警模块发送报警信息。有益效果:本方案中,在检测到的温度值大于安全温度上限值时,则说明相应区域的温度已经过高,需要管理人员尽快进行处理,因此本方案中,还利用报警模块发送报警信息,与发送的预警信息相区别,从而可以引起管理人员的重视,对机房发生的高温情况进行处理,降低因为高温引起的损害。

优选方案三:作为基础方案的优选,还包括有采集模块,用于采集监测区域设备的运行参数;分析模块,用于在比较出温度值大于温度警戒值时根据运行参数对设备运行状态进行分析;控制模块,在分析模块分析出设备运行异常时控制相应设备的运行参数进行调整。有益效果:考虑到设备运行异常时,设备散热增大,从而也就可能会导致相应的监测区域的温度异常升高,因此本方案中,设置分析模块对设备的运行情况进行分析,在分析出设备运行异常时,还利用控制模块控制设备的运行参数进行调整,以降低设备散热,从而降低监测区域的温度。

优选方案四:作为优选方案三的优选,在分析模块分析出设备运行正常,报警模块发送区域异常信息。有益效果:考虑到在设备运行正常的情况下,监测区域出现的温度异常则可能是因为监测区域的通风散热效果差导致的,因此此时由报警模块发送区域异常信息,以提醒管理人员及时对监测区域的通风散热功能进行检查,以及时消除温度异常的情况。

优选方案五:作为优选方案三的优选,存储模块预设有设备的运行参考值;分析模块根据相应区域设备的运行参数与对应的运行参考值对设备运行状态进行分析,若设备的运行参数与运行参考值不同,则判定设备运行异常,控制模块根据运行参考值对设备的运行参数进行调整。有益效果:本方案中,存储的运行参考值指的是设备正常运行状态下的运行参数,分析模块根据运行参数与相应的运行参考值对设备的运行状态进行分析,若运行参数与运行参考值不同时,则说明当前设备处于异常运行状态,因此设置控制模块根据运行参考值对运行参数进行调整,及时消除设备的异常运行情况,以消除因为设备异常运行情况导致的温度异常的情况。

优选方案六:作为优选方案三的优选,在比较出温度值大于温度警戒值时,分析模块用于将温度异常的监测区域设备的运行参数与温度正常的监测区域相应设备的运行参数进行对比分析,在对比到温度异常的监测区域设备的运行参数与温度正常的监测区域相应设备的运行参数不同时,判定相应设备运行异常。说明:本方案中,温度异常的监测区域指的是温度值大于温度警戒值的监测区域,温度正常的监测区域则指的是温度值不大于温度警戒值的监测区域。

有益效果:考虑到设备在长期使用后,设备正常运行情况下的运行参数可能会发生变化,因此本方案中,在对设备运行状态进行分析时,采用将温度异常的监测区域的设备的运行参数与温度正常的监测区域的设备的运行参数进行对比分析,从而对温度异常的监测区域的设备的运行状态进行判定,提高了分析结果的准确性。

本发明的目的之二在于提供一种机房健康状态预警方法,包括以下步骤:温度检测步骤:周期性检测机房内多个监测区域的温度值;存储步骤:将检测到的温度值作为温度历史值进行存储;比较步骤:将得到的温度值与预设的温度警戒值进行比较;计算步骤:在比较出温度值大于温度警戒值时,根据温度历史值对超过温度警戒值后的一个周期内的温度变化率与前一周期的温度变化率进行计算得到第一变化率和第二变化率;报警步骤:在计算得到的第一变化率不低于第二变化率时发送预警信息。有益效果:与现有技术相比,本方案中,在进行机房的温度检测时,采用对机房内各个监测区域的温度进行检测的方式,检测出的温度准确性更高;而且,与现有技术中在超过安全温度上限值时进行报警的方式相比,在本方案中,在比较出温度值大于温度警戒值后根据温度的变化趋势来分析确定是否需要预警,通过提前预警的方式能够减小因为机房内高温导致设备出现不可逆的负面影响的情况。

附图说明

图1为本发明机房健康状态预警系统及方法实施例一中机房的监测区域划分示意图;

图2为实施例一中机房健康状态预警系统的模块框图;

图3为实施例一中机房健康状态预警方法的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明:

实施例一

基本如附图1至图2所示:机房健康状态预警系统,包括设置在机房不同监测区域的多个温度检测模块,本实施例中,将机房均匀划分为了四个区域,分别为R1、R2、R3和R4区域,在每个区域内布设有温度检测模块,温度检测模块用于对各自区域的温度进行检测并得到温度值,设定得到的温度值分别为T1、T2、T3和T4。

存储模块,预设有相应监测区域的安全温度上限值和温度警戒值,具体如表一所示。

表一

其中,温度警戒值小于安全温度上限值,即T-mn>T-jn。

存储模块还用于周期性获取温度检测模块得到的温度值并作为温度历史值进行存储;本实施例中,设定存储模块每10s获取一次温度检测模块得到的温度值。

比较模块,将各个温度检测模块得到的温度值与对应监测区域的温度警戒值进行比较;

计算模块,用于在比较出温度值大于温度警戒值时,根据温度历史值对超过温度警戒值后的一个周期内的温度变化率与前一周期的温度变化率进行计算得到第一变化率和第二变化率;

以监测区域R1为例,存储模块内存储的历史温度值如表二所示。

表二

比较出T1-1>T-j1,即在t1时刻的温度值超过了温度警戒值,那么t2-t3的这个周期即为温度历史值对超过温度警戒值后的一个周期,t1-t2的这个周期即为温度历史值对超过温度警戒值前的一个周期,第一变化率k1=((T1-3)-(T1-2))/(t3-t2),第二变化率k2=((T1-2)-(T1-1))/(t2-t1)。

比较模块还用于比较第一变化率和第二变化率;

报警模块,用于在比较出第一变化率不低于第二变化率时发送预警信息;即当k1≥k2时,报警模块发送预警信息,本实施例中,预警信息采用文字信息。

比较模块还用于将温度值与安全温度上限值进行比较,在比较出温度值大于安全温度上限值时,报警模块发送报警信息。本实施例中,报警模块能够与管理人员的用户终端通信,在预警时,报警模块向管理人员的用户终端发送预警信息,报警信息为文本信息,预警信息包括预警的监测区域信息,监测区域信息可以采用对温度检测模块进行定位的方式获取;如比较出R1区域温度值大于安全温度上限值,文字信息可以为“机房R1区域温度过高,即将超标,请及时处理”。

基于上述机房健康状态预警系统,如图3所示,本实施例中还公开了一种机房健康状态预警方法,包括以下步骤:

温度检测步骤:周期性检测机房内多个监测区域的温度值;

存储步骤:将检测到的温度值作为温度历史值进行存储;

比较步骤:将得到的各个监测区域的温度值与预设的监测区域的温度警戒值进行比较;

计算步骤:在比较出温度值大于温度警戒值时,根据温度历史值对超过温度警戒值后的一个周期内的温度变化率与前一周期的温度变化率进行计算得到第一变化率和第二变化率;

报警步骤:比较第一变化率和第二变化率,并在比较出第一变化率不低于第二变化率时进行报警。

实施例二

与实施例一不同之处在于,本实施例中,还包括有采集模块,用于采集监测区域设备的运行参数;

分析模块,用于在比较出温度值大于温度警戒值时根据运行参数对设备运行状态进行分析;

控制模块,在分析模块分析出设备运行异常时控制相应设备的运行参数进行调整;

在分析模块分析出设备运行正常,报警模块发送区域异常信息。

具体的,在分析设备运行是否异常时,本实施例中,存储模块预设有设备的运行参考值;

分析模块根据相应区域设备的运行参数与对应的运行参考值对设备运行状态进行分析,若设备的运行参数与运行参考值不同,则判定设备运行异常;若设备的运行参数与运行参考值相同,则判定设备运行正常。

说明:监测区域内的设备指的是监测区域内的工作设备和辅助设备,本实施例中,辅助设备包括空调、除湿器等对监测区域环境进行调节的辅助设备,以通信机房为例,则工作设备包括交换机、服务器等,本实施例中的设备指的是工作设备。

考虑到在监测区域内的设备正常运行的情况下时,监测区域内的运行参数应该也是处于正常状态的,如监测区域内的服务器都处于正常运行时,在其他条件正常的情况下,本实施例中,以监测区域散热用的空调设备为例,则当服务器以及空调正常运行时,监测区域的温度也就应该是正常的,而反之,当监测区域内的温度异常时,即温度值大于温度警戒值时,一个原因可能是因为设备运行异常导致,另一个原因也可能是设备运行正常而空调运行异常导致,因此本实施例中,先利用采集模块采集监测区域设备的运行参数,本实施例中,运行参数以服务器的CPU的使用率为例,当CPU使用率高时将会导致服务器温度升高,因此,在分析模块分析出温度值大于温度警戒值时,分析模块此时根据采集到的运行参数对设备运行状态进行分析,若采集到的运行参数与预设的运行参考值不同,则表示设备此时运行异常,因此控制模块此时对相应设备的运行参数进行调整,使得运行参数恢复到正常情况下的数值,则设备的温度也就能够降下来,从而恢复到正常状态。

而若采集到的运行参数与预设的运行参考值相同,则表示此时设备运行正常,则当前温度的异常情况可能则是因为监测区域的其他条件异常导致,如空调出现故障,因此此时报警模块发送异常信息,以提醒管理人员及时对相应的监测区域进行排查。

在其他实施例中,在比较出温度值大于温度警戒值时,分析模块用于将温度异常的监测区域设备的运行参数与温度正常的监测区域相应设备的运行参数进行对比分析,在对比到温度异常的监测区域设备的运行参数与温度正常的监测区域相应设备的运行参数不同时,判定相应设备运行异常。

以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

相关技术
  • 机房健康状态预警系统及方法
  • 基于多传感器的人体健康状态评估与预警系统及方法
技术分类

06120113035912