您好!欢迎访问苏州瑞凯特自动化设备有限公司官方网站!
维修热线

合作咨询热线HOTLINE:

13771758596
18021287130

瑞凯特多年来专业提供

服务器故障维修

全方位一站式服务



新闻动态

服务器故障维修大全(二)

发布时间:2019-12-06 08:54:02浏览次数:

服务器故障维修大全(二)

三、服务器故障排错的基本原则:

1. 尽量恢复系统出厂配置
a:硬件配置:去除第三方厂商备件和非标配备件
b:资源配置:清除CMOS、恢复资源初始配置
c: BIOS、F/W、驱动程序:升级最新的BIOS、F/W和相关驱动程序
d: TPL:扩展的第三方的I/O卡是否属于该机型的硬件兼容列表(TPL)

2. 从基本到复杂
a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。
b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。
c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。

3. 部件交换对比测试
a:在最大可能相同的条件下,交换操作简单效果明显的部件
b:交换NOS载体,既交换软件环境
c:交换硬件,既交换硬件环境
d:交换整机,既交换整体环境

总结:
在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。总之,服务器出错后必须一步一步解决,没有捷径可言。

四、服务器故障排除需要收集哪些信息
1.服务器信息:
①. 机器型号: 什么厂家的机器、什么型号如:DELL R720服务器
②. 机器序列号或主机编号(如:主机编号为NC00755666)
③. 是否增加其它设备,如网卡、Raid 卡、内存、CPU等
④. 硬盘配置,如是否做磁盘阵列, 阵列级别
⑤. 安装什么操作系统及版本(win2003、Redhat等)
⑥. 在故障前有没有做过操作、或者运行了什么软件
⑦. BIOS 版本

2.故障信息:
   ①. 在POST自检时,屏幕显示的异常信息
   ②. 服务器本身指示灯的状态
   ③. 报警声和BEEP CODES
   ④. 系统的事件记录文件
   ⑤. Sel 日志

五、服务器硬件故障处理实际案例(因厂家机型不同,在实际问题中如果遇到相似现象,也需要具体问题具体分析,请不要盲目套用)硬件故障是指服务器硬件出现异常而导致的各类错误,由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。

实例一:
有一台XXX型号服务器,配有256M内存,使用一个PIIIXEON 500带2M高速缓存的处理器。
开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。这种错误一般是处理器电压调节模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。
因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压报错的情况也有5%左右。我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。所以在初步判断中,可以排除是CPU板块坏。这时取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。于是立即在另一台同型号服务器中取下一个处理器电压模块,安装在此服务器中。开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。这时的情况就比较明显了。于是立即从另一台同类型服务器中取下一个CPU安装后,开机正常。

点击拨打电话:13771758596