服务器有故障时,怎么看报错信息?

以X3650M2和X3650M3系列为例

X3650系列是X86服务器里主流军,虽然现在早已更新换代,IBM的X86服务器业务也早被联想收购,但是我相信,很多用户的机房里还是会有M2,M3机型的存在,甚至还有更早的机型在战斗,那么在机器过保以后,没有对应的免费售后服务,那么机器出故障时,作为管理员还是需要了解一下机器报错信息,以及报错部件的重要性与否,来判断自己的备份工作是否需要立即处理。

服务器有故障时,怎么看报错信息?

X3650M3外观图

服务器有故障时,怎么看报错信息?

机器前端介绍

因为M2,M3机器的诊断面板基本相同,所以放在一起介绍。

服务器有故障时,怎么看报错信息?

光驱上方蓝色的按钮往左拨出诊断面板

服务器有故障时,怎么看报错信息?

诊断面板前端示意图

电源控制按钮和供电指示灯按下此按钮可手动开启和关闭服务器,或唤醒处于省电

状态下的服务器。供电指示灯的状态如下所示:

– 熄灭:未接通交流电,或者电源或指示灯本身出现故障。

– 快速闪烁(每秒四次):服务器已关闭,但未准备就绪,无法开启。电源控制按

钮已禁用。服务器接通交流电源后大约三分钟,电源控制按钮便会激活。(注意:如果主板损坏,且诊断面板没有报错,也会出现此现象)

– 缓慢闪烁(每秒一次):服务器已关闭,并且已准备就绪,可以开启。您可以按

电源控制按钮以开启服务器。

– 点亮:服务器开启。

– 逐渐变暗直至熄灭:服务器处于省电状态。要唤醒服务器,请按电源控制按钮或

使用IMM Web 界面。

注:如果该指示灯熄灭,并不表示服务器中不存在电流。该指示灯可能已烧毁。要

切断服务器中的所有电流,必须从电源插座断开电源线。

●以太以太网图标指示灯:该指示灯点亮以太网图标。

以太网活动指示灯: 如果这些指示灯中任意一个点亮,表示服务器正在向连接到对应

于该指示灯的以太网端口的以太网LAN 发送信号,或正在接收来自该以太网LAN

的信号。

● 信息指示灯:当该指示灯点亮时,表示发生了一般性事件。光通路诊断面板上的某

个指示灯也会点亮,以帮助找出错误。

●系统错误指示灯:当该指示灯点亮时,表示发生了系统错误。光通路诊断面板上的

某个指示灯也会点亮,以帮助找出错误。

●释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板

的后面。

●定位器按钮和定位器指示灯:使用该指示灯可用肉眼在其他服务器中找到该服务

器。方便操作员在一堆服务器中迅速找到该服务器,避免误操作。

按下此按钮可从本地开启或关闭该指示灯。

接下来是故障灯的对应部件标注,当橘黄色感叹号亮起时,请打开该面板找到对应故障灯来判断。

服务器有故障时,怎么看报错信息?

诊断面板拉出后示意图

  • OVERSPEC 表明由于某个电源通道上出现电源超负荷情况,所以关闭了服务器。电源功率超过最大额定值,NONRED和LOG指示灯可能也点亮。需要检查一下电源指示灯是否正常。
  • LOG 表明已将错误消息写入系统事件日志,BMC日志或者系统错误日志满(系统错误日志达到75%满),这个进服务器管理界面清除一下日志即可。
  • LINK 表明链路链接故障,很可能是网卡故障,很少遇到。
  • PS 表明电源故障,如果服务器配有2个电源,其中一个电源没有通电也会报错,如果只有一个电源,那很可能是电源出现了问题,需要及时更换。
  • PCI 表明PCI 总线或主板上发生错误。发生故障的PCI 插槽旁会有指示灯点亮。
  • SP 表明服务处理器(IMM)发生故障。可以切断服务器的电源;然后将服务器重新连接到电源并重新启动服务器。如果报错还是存在则需要更新IMM 上的固件。
  • FAN 表明风扇故障,同时TEMP报警可能会点亮,风扇报错除了是自身故障外还可能是灰尘过多引起转速变慢,也可能是接口松动,对应的风扇旁会有指示灯点亮,及时更换即可。
  • TEMP 表明系统温度已超出阈值级别。发生故障的风扇会导致TEMP 指示灯点亮。这时候需要查看风扇是否正常,室内温度是否异常,服务器前后散热口是否被堵塞。
  • MEM 表明内存报错,注意:当只有MEM 指示灯点亮时,才表示发生了内存错误。当MEM 指示灯和CNFG 指示灯都点亮时,表示内存配置无效。
  • NMI 表明发生不可屏蔽的中断,或按下了NMI 按钮。查看系统事件日志,获取有关错误的信息。
  • CNFG 表明发生硬件配置错误,有可能内存顺序错误导致,或CPU配置错误。
  • CPU 表明CPU即处理器故障,注意:当只有CPU 指示灯点亮时,才表示微处理器发生故障。当CPU 指示灯和CNFG 指示灯都点亮时,表示微处理器配置无效。
  • VRM 表明直流电-直流电稳压器丢失或者故障,更换即可。
  • DASD 表明硬盘出现故障或者被卸下。如果硬盘故障,直接将新硬盘进行替换,如果是误操作将硬盘拔下,需要将硬盘插回后进阵列卡重新将该硬盘配置。
  • RAID 表明阵列卡发生故障。需要确定是RAID卡有错误信息或RAID卡有硬件错误,如损坏需要及时更换。
  • BRD 表明主板发生错误,需要进行更换。注意:出现此报错时,请尽早备份数据至其他硬件,避免宕机带来的损失。

顺带介绍一下X3650M4的诊断面板

服务器有故障时,怎么看报错信息?

前端报错时

服务器有故障时,怎么看报错信息?

报错面板

服务器有故障时,怎么看报错信息?

硬盘报错

小提一下,面板报错大体上一致,只不过主板报错从BRD变成了BOARD,硬盘报错从DASD变成了HDD。

觉得本文对您有帮助吗? (单选)
0
0%
有帮助,可以点赞
0
0%
毫无意义,再加油吧

感谢您的品读,有问题或建议下方留言交流!

阿里云服务器

编辑该文章

编辑该文章,必须放入您本人的支付宝或微信收款码,通过审核后可,如果浏览者觉得您写的不错了直接对您打赏

复制加密链接

This is a modal dialog!

邮箱

This is a modal dialog!