掌桥专利:专业的专利平台
掌桥专利
首页

一种数据中心机房服务器远程监测与检修系统和方法

文献发布时间:2023-06-19 10:06:57


一种数据中心机房服务器远程监测与检修系统和方法

技术领域

本发明涉及服务器领域,特别是涉及一种数据中心机房服务器远程监测与检修系统和方法。

背景技术

目前数据中心机房服务器上架方式一般采用机柜式存放,每组机柜中会放置多台服务器,上架密度较高,每台服务器独立供电、工作。机房服务器实际工作中,主要由服务器基板管理控制器监控系统工作状态,如服务器工作告警,基板管理控制器会记录告警内容并由基板管理控制器通信端口通过网线通信传输到前端监控界面,机房维护人员通过解析基板管理控制器反馈日志来判定故障原因。但基板管理控制器监控日志只能抓取系统部件的异常告警值,由异常告警初步解析出故障原因后无法及时现场验证故障部件状态,影响故障最终判定准确性。针对每个异常告警值如维护人员都机房现场服务器停机检测,会极大影响服务器运行持续性及安全性,且人员频繁进出机房会增加机房安全隐患。

另外,数据中心机房服务器数量较多,每台服务器所包含的部件众多,部件故障引起的服务器工作异常问题经常发生。这就要求数据中心机房需要较多维护技术人员来处理机房服务器异常状况,极大增加人力成本,且机房内服务器部件更换需工程人员逗留机房较长时间,破坏机房稳态工作环境,增加机房运行安全隐患。

发明内容

本发明主要解决的技术问题是提供一种数据中心机房服务器远程监测与检修的系统和方法,能够解决服务器故障判断准确性问题,服务器发生故障时,维修人员在机房停留时间过久,影响服务器机房的稳态和增加服务器机房的安全隐患,并且机房内服务器众多,机房需要大量的维修人员,机房维护需要增加大量的人员成本。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种数据中心机房服务器远程监测与检修系统,与主、副服务器相连,其特征在于,所述系统包括:服务器监控部分、数据交互部分、服务器异常诊断部分和服务器维修部分;

所述服务器监控部分用于对主服务器进行监测、判决和副服务器使能;

所述数据交互部分用于各个部分的无线数据中转承载;

所述服务器异常诊断部分用于主服务器异常时的现场分析、等级划分、判决执行和定位;

所述服务器维修部分对异常的主服务器进行检测、数据采集和执行解决方案。

进一步,所述服务器监控部分包括基板管理控制器和状态在线监控模块;所述数据交互部分包括路由器后台管理中心;所述服务器异常诊断部分包括数据中心机房控制系统和服务器监测与检修系统;所述服务器维修部分包括机房轨道自动化检修平台、监测单元和检修单元。

进一步,所述基板管理控制器分别与主、副服务器和所述状态在线监控模块相连;所述状态在线监控模块与主服务器相连;所述路由器后台管理中心通过无线方式与所述监测单元、检修单元、服务器监测与检修系统、数据中心机房管理控制系统和状态在线监控模块相连;所述服务器监测与检修系统与机房轨道自动化检修平台相连;所述机房轨道自动化检修平台分别与检修单元和监测单元相连。

进一步,所述基板管理控制器同时控制主、副服务器,主服务器发生故障进行停机检修时,基板管理控制器使能副服务器接替主服务器所有业务。

进一步,所述监测单元包括可伸缩式探测手臂,可伸缩式探测手臂上设有机器视觉装置和传感器,在主服务器发生故障时可伸缩式探测手臂对故障部件进行拍照、视频、温度、烟雾和气味监测;所述检修单元设有拖拉装置,检修单元通过拖拉装置拖出发生故障的主服务器并将其放置在指定地点。

一种数据中心机房服务器远程监测与检修方法,包括:

服务器监控部分获取主服务器各个部件参数并进行内部自校验,校验成功的异常信号通过数据交互部分传输给服务器异常诊断部分;

服务器异常诊断部分根据异常信号评估异常等级,异常等级达到需要监控等级,服务器异常诊断部分下发监控指令;服务器维修部分根据监控指令以及异常信号对异常的主服务器进行现场数据采集并反馈给服务器异常诊断部分;

服务器异常诊断部分根据现场数据制定解决方案,若解决方案为故障部件更换或整机维修,则服务器维修部分移动到待维修的主服务器位置待机,同时服务器异常诊断部分命令副服务器接替主服务器业务,主服务器关机后,服务器维修部分将待维修的主服务器拖出,待维修服务器维修完成后,再由服务器维修部分将主服务器运回到初始位置。

进一步,所述服务器监控部分的基板管理控制器抓取主服务器内各个部件参数,并与规格值进行对比,若参数值出现异常,基板管理控制器显示部件异常信号,并将信号传输到状态在线监控模块;状态在线监控模块接收到异常信号后并读取主服务器的状态参数,若与基板管理控制器异常信号不一致,则状态在线监控模块命令基板管理控制器重新读取异常信号对应的部件参数并反馈,若与基板管理控制器异常信号一致,则确定异常信号正确并将异常信号传送到路由器后台管理中心。

进一步,所述服务器维修系统与路由器后台管理中心进行无线的信息交互,所述服务器维修系统储存有机房内所有主、副服务器位置信息,可根据异常信号对故障的主服务器寻址。

本发明的有益效果是:本发明通过引入路由器后台管理中心、服务器状态在线监控模块、监测单元和检修单元,实现了故障检验,远程检修和监测,减少了机房维护的人力开销,提升了故障报错的准确力,避免服务器故障维修人员现场确认对机房稳态造成破坏。

附图说明

图1是本发明一种数据中心机房服务器远程监测与检修系统的结构拓扑图;

图2是本发明一种数据中心机房服务器远程监测与检修方法的流程图。

附图中各部件标记如下:1、基板管理控制器;2、状态在线监控模块;3、路由器后台管理中心;4、数据中心机房控制系统;5、服务器监测与检修系统;6、机房轨道自动化检修平台;7、监测单元;8、检修平台、9轨道;10、服务器监控部分;11、数据交互部分;12、服务器异常诊断部分;13、服务器维护部分。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1,本发明实施例包括:

一种数据中心机房服务器远程监测与检修系统,与主、副服务器相连,系统包括:服务器监控部分10、数据交互部分11、服务器异常诊断部分12和服务器维修部分13;

所述服务器监控部分10包括基板管理控制器1和状态在线监控模块2,服务器监控部分10用于服务器异常监测、判别、副服务器使能;

所述数据交互部分11包括路由器后台管理中心3,数据交互部分11用于无线数据的相互连通;

所述服务器异常诊断部分12包括数据中心机房控制系统4和服务器监测与检修系统5,服务器异常诊断部分12用于主服务器异常的现场分析、等级划分和判决执行;

所述服务器维修部分13包括机房轨道自动化检修平台6、监测单元7和检修单元8,服务器监测检修部分13用于主服务器异常的检测、数据采集和解决;

所述基板管理控制器1分别与主副服务器和状态在线监控模块2相连,状态在线监控模块2与主服务器相连;路由器后台管理中心3通过无线方式与监测单元6、检修单元7、服务器监测与检修系统5、数据中心机房控制系统4和状态在线监控模块2相连;服务器监测与检修系统5与机房轨道自动化检修平台6相连;机房轨道自动化检修平台6分别与检修单元8和监测单元7相连,检修单元8与检测单元7通过轨道9执行相应命令。

请参阅图2,一种数据中心机房服务器远程监测与检修方法,包括:

服务器传感器将主服务器各个部件参数传输给基板管理控制器,基板管理控制器将参数与规格值进行对比,若参数值出现异常,基板管理控制器1则显示部件告警并传输到状态在线监控模块;

状态在线监控模块接收到告警指示后读取主服务器的状态参数,若与基板管理控制器告警指示不一致,则命令基板管理控制器重新读取参数并反馈,若与基板管理控制器告警指示一致,则确定告警指示正确并将告警指令传送到路由器后台管理中心;

路由器后台管理中心将告警指令传送到数据中心机房控制系统,机房管理人员通过可视化界面查看此异常信息,判断此异常是否需要管控,并评估告警指示等级,若告警指示等级达到需要管控的阈值,机房管理人员下发监测指令,监测指令通过路由器后台管理中心传送到服务器监测与检修系统;

服务器监测与检修系统与路由器后台管理中心可以进行无线的信息交互,服务器监测与检修系统储存有机房内所有主、副服务器位置信息,可根据告警指示对故障的主服务器寻址;服务器监测与检修系统接受监测指令并定位故障的主服务器部件准确位置,通过无线传输将故障的主服务器信息下发到机房轨道自动化检修平台,机房轨道自动化检修平台控制监测单元移动至故障的主服务器位置,监测单元通过可伸缩探测手臂对主服务器内部故障位置进行拍照、视频、温度、烟雾和气味数据采集,监测单元将采集的数据经路由器后台管理中心传送到数据中心机房控制系统;

机房管理人员通过可视化界面查看数据并制定解决方案,若最终解决方案为故障部件更换或整机维修,则机房管理人员下发换机指令经路由器后台管理中心到机房轨道自动化检修平台,机房轨道自动化检修平台根据机房管理人员换机指令控制检修单元到故障的主服务器位置待机;

路由器后台管理中心接收到机房管理人员换机指令,将换机指令经状态在线监控模块传送到基板管理控制器,基板管理控制器使能副服务器替换故障的主服务器,并将故障的主服务器关机,副服务器承接故障的主服务器所有业务;

检修单元接收到故障的主服务器已关机的指令后,通过拖拉装置执行故障的主服务器运回命令,将故障的主服务器运送到指令检修地点,检修人员将故障的主服务器经检修完成后放置在检修单元上,检修单元将故障的主服务器运回初始位置。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 一种数据中心机房服务器远程监测与检修系统和方法
  • 一种服务器整机包装振动测试PCIE卡脱落远程监测方法
技术分类

06120112422963