HP小型机服务器应急处理方案.docx
- 文档编号:13544211
- 上传时间:2023-06-15
- 格式:DOCX
- 页数:29
- 大小:90.01KB
HP小型机服务器应急处理方案.docx
《HP小型机服务器应急处理方案.docx》由会员分享,可在线阅读,更多相关《HP小型机服务器应急处理方案.docx(29页珍藏版)》请在冰点文库上搜索。
HP小型机服务器应急处理方案
HP小型机应急处理方案
系统开、关机简介
一般地说,系统开关机应严格遵循以下步骤:
1.开机顺序
1).打开总电源。
2).打开计算机机柜电源
3).打开外部设备电源.(如磁盘阵列,磁带库等)
4).最后打开主机电源.
2.关机顺序
1).进行操作系统的关闭(#shutdown-h-y0)
2).关闭主机电源.
3).关闭外设电源.(如磁盘阵列,磁带库等)
4).关闭其他设备电源和机柜电源;
5).最后关闭总电源。
日常维护检查
在对广大客户的支持服务中,我们经常发现,由于种种原因,客户往往未能及时发现系统中的一些异常现象,最终导致了对系统和应用的重大影响。
为了帮助客户各有效、方便地管理系统,我们设计了《日常检查维护表》,希望能够帮助广大用户加强日常管理,从而做到防患于未然,尽可能保障系统的运行。
我们分成以下几个部分进行介绍:
使用指南:
如何使用表格,如何使用相关命令进行检查。
同时由于客户的配置千变万化,允许HP客户支持工程师和客户共同对表格和指南进行定制。
日常检查表
日常维护检查使用指南
在《日常维护检查表》中,我们把日常的检查分成以下几个部分:
Ø硬件操作系统备份
Ø应用
我们下面分别描述各类检查的容和方法。
HP支持工程师和客户可以一起定制这份指南,例如,定制要检查那些应用日志和进程等等。
∙硬件
在这部分中,我们检查以下容:
1:
面板指示:
在大多数的服务器中,都由一个液晶面板,显示服务器的执行状态。
在正常情况下,应该是FxxF的格式。
在系统出现故障时,会出现WARNING或FAULT的提示。
具体请参见《技术指南》。
系统管理员应该定期检查该指示,确认系统正常工作;否则,应该立即联系HP公司。
2:
服务器中的各个扩展卡的指示灯
在服务器中,存在多种扩展卡,例如,SCSI卡(连接SCSI设备),以太网卡等。
这些卡都由一个或多个指示灯。
从这些指示灯可以了解这些卡的工作情况。
具体情况,请参见各个卡的说明书。
ØSCSI卡:
在正常情况下,自检灯(selftest)应该是暗的;终结电源指示灯(TerminatorPWR)是亮的
Ø以太网卡:
在正常情况下,自检灯(selftest)应该是暗的;连接灯(Link)是亮的
Ø其他卡:
3:
外设的状态
大部分外设也都由自己的状态指示。
下面是比较常见的几种:
ØM10,M20,M30磁盘阵列
这些磁盘阵列,正常情况下,硬盘的指示灯:
应该是绿色;如果变成黄色,则说明该磁盘发生故障。
维修灯(ServiceLamp):
应该是绿色;如果变成黄色,则说明该阵列中存在故障部件。
例如,硬盘故障。
ØAutoRAID磁盘阵列
该磁盘阵列有一个液晶面板。
如果出现故障,在面板上会出现Warning提示信息。
Ø磁带库
磁带库一般也有一个液晶面板。
如果出现故障,在面板上会出现报错信息。
Ø其他外设
XP256:
该外设实全冗余的如果有部件发生故障,会自动通过DDN拨号到美国技术中心。
4:
其他硬件检测:
在N4000中,有一个attention灯,正常情况下,该灯应该是暗的。
如果是黄色的,则说明系统中存在一些问题。
∙操作系统
在这一部分,通过一些实用、简单的命令,检查系统的情况:
1.控制台(console)显示
在系统出现问题时,常常会在控制台上显示一些出错信息。
系统管理员应该定期检查这些信息。
这往往是最方便的方式。
另外,在使用完毕后,应该确保退出控制台,从而避免一些安全性问题。
2.命令“dmesg”
系统中存在一个错误缓冲区,系统将自检信息和遇到的错误、报警放在该缓冲区中。
我们可以通过dmesg命令,阅读该缓冲区。
在正常情况下,该缓冲区只应该包含自检信息。
如果出现了warining、error或者是一些不熟悉的信息,应该仔细检查或通知HP服务人员。
3.命令“uptime”
该命令显示了系统自从上次重启以来运行的时间。
通过该命令,可以知道系统是否发生了异常的重启。
4.命令“bdf”
系统中文间系统过满,有时会导致系统工作不正常。
我们可以用该命令显示了文件系统的使用情况。
如果发现某个文件系统过满,需要及时采取措施,或者删除无用的信息,或者扩大该文件系统。
5.命令“mail”
系统在发现问题时,往往会把一些信息发给root用户。
系统管理员应该定期检查root的mail信息,以确认系统中不存在异常。
6.日志“/var/adm/syslog/syslog.log”
该日志文件中包含一些重要的维护信息。
系统管理员应该定期用more或者vi命令,检查该文件。
系统管理员如果发现warning、error、failure以及一些不熟悉的信息,应该提高警惕。
7.命令“cmviewcl”
对于运行了双机备份软件的用户而言,应该定期检查系统的运行情况。
确认应用包、节点和网络均正常工作。
8.其他命令
用netstat–in检查网络状况,尤其是ATM网卡。
∙备份
系统管理员应该检查:
o是否按照计划完成了备份备份过程是否正常
o应用
系统管理员也应该养成定期检查应用的习惯。
在支持服务中,操作系统工作正常,但用户应用由于种种原因无常工作的例子并不罕见。
根据具体情况,系统管理员应该检查:
o应用的日志文件
o组成应用的主要进程的执行情况,例如数据库的DBWR,LGWR等等。
日常检查维护表
日常维护检查表
日期
检查人
检查容
检查结果
硬件
主机面板指示
扩展卡指示灯:
∙各个卡的自检灯(selftest)
∙以太网卡的LINK灯
∙SCSI卡的TERMINATIONPWR灯
∙其他卡1
∙其他卡2
外设状态:
∙M10/20/30的硬盘的指示灯
∙M10/20/30的维修(Service)灯
∙AutoRAID的面板
∙磁带库的面板
∙其他外设1
∙其他外设2
其他硬件检测1
其他硬件检测2
操作
系统
控制台(console)显示
Demsg命令
uptime命令
bdf命令
rootmail命令
cmviewcl命令
/var/adm/syslog/syslog.log
其他命令1
其他命令2
应用
应用的日志
应用的进程1
应用的进程2
应用的进程3
备份
备份是否完成
备份过程是否正常
注释:
检查过程是否碰到问题?
系统有多少CPU或MEMORY
SAM->performancemonitor->systemproperty->processerormemory
文件系统维护
文件系统是操作系统中的重要组成部分,由于系统需要经常的对文件系统进行操作,当文件系统空间满了或者有问题时,容易引起系统运行异常,因此客户应当经常对文件系统进行维护。
具体的维护方法主要是通过bdf命令来观察各个文件系统的使用情况,如果某个文件系统的使用率超过一定限度(一般为90%)时,应该采取行动删除此文件系统无用的文件或者扩充文件系统的空间大小。
请参见下面的“HP-UX技术专题--逻辑卷与文件系统”。
逻辑卷管理
根据以上介绍,在HPUX下正确使用硬盘的顺序及相应命令如下:
1.先建物理卷
#pvcreate-f/dev/rdsk/cCdDtT
这里必须使用硬盘的字符设备文件
2.再建逻辑卷组
#mkdir/dev/vg0X
X:
0~f,逻辑卷组名
#mknod/dev/vg0X/groupc640x0X0000
#vgcreatevg0X/dev/dsk/cCdDtT
3.然后划分逻辑卷
#lvcreate-Lsize–n/dev/vg0X/lvolYvg0X
size:
该逻辑卷大小
4.在LV上建文件系统
#newfs-Ffile_system_type/dev/vg0X/rlvolY
file_system_type:
文件系统类型,包括hfs和vxfs,注意此时用该逻辑卷的字符设备文件。
5.将此文件系统Mount到一个目录下
#mkdir/directory
#mount/dev/vg0X/lvolY/directory
到此为止,您已经可以使用这个硬盘了。
有时您可能在现有的环境下,需要添加、删除逻辑卷,或者是需要扩大文件系统。
我们可以这样做:
6.添加逻辑卷
1)添加文件系统卷。
例如:
在vg01上添加一个200M的文件系统卷,卷名为data,mount到目录/sample上。
A.创建逻辑卷,在系统提示符下键入命令:
#lvcreate-L200-ndata/dev/vg01
B.在逻辑卷data上创建文件系统:
#newfs-Fhfs/dev/vg01/rdata
注:
如果是vxfs文件系统,则用
#newfs-Fvxfs/dev/vg01/rdata
C.创建目录/sample,并将逻辑卷datamount到/sample.
#mkdirsample
#mount/dev/vg01/data/sample
D.用bdf命令,将会看到/dev/vg01/datamount到/sample上。
2)添加非文件系统卷(rawdatavolume)。
例同上。
A.创建逻辑卷,在系统提示符下键入命令:
#lvcreate-L200-ndata/dev/vg01
7.删除逻辑卷
例如:
删除vg01中名为data的逻辑卷,mount到/sample。
1)卸载所要删除的逻辑卷:
A.首先用umount命令将逻辑卷data从/sample上卸载下来:
#umount/sample
B.若系统提示设备忙,不能卸载;则在根目录系统提示符下,键入以下命令,进入单用户:
#shutdown-y0
C.在单用户下,先将所有文件系统mount上,键入命令:
#mount-a
D.用bdf命令看该逻辑卷是否已经mount上,如果mount上,键入以下命令:
#umount/sample
2)删除逻辑卷/dev/vg01/data,用命令:
#lvremove/dev/vg01/data
8.扩大文件系统
1)扩大文件系统,首先要找到这个文件系统所对应的逻辑卷,只有首先扩大逻辑卷,给文件系统以扩大的空间,才能扩大文件系统。
2)为扩大逻辑卷,先进单用户,在根目录系统提示符下,键入命令:
#shutdown-y0
3)进入单用户后,先将所有文件系统mount上,键入命令:
#mount-a
4)用bdf命令看该文件系统是否已经mount上,如果mount上,用命令#umount文件系统名umount该文件系统。
例如,想要扩大“/usr”到500M,就键入命令:
#umount/usr
5)用命令:
#lvextend-L500/dev/vg00/lvol4
这里,假定/usr对应/dev/vg00/lvol4
6)用命令:
#extendfs/dev/vg00/lvol4扩大文件系统。
注:
如果是vxfs文件系统,则用
#extendfs-Fvxfs/dev/vg00/lvol4
7)用命令:
#mount/dev/vg00/lvol4/usr
将文件系统mount到/usr,这样,文件系统“/usr”就被扩大了,
8)用命令:
#init3进入原来多用户运行级。
网络系统维护
同用户和用户组管理一样,维护网络系统可以用命令行的方式执行,但推荐用户使用SAM管理。
1.相关配置文件
1).主机名定义文件:
/etc/hosts文件格式如下:
internetaddressofficialhostnamealiases
internetaddress:
IP地址
officialhostname:
主机名
aliases:
别名
例如:
192.45.36.5hdxsgtesthost
2).主机网络配置文件:
/etc/rc.config.d/netconf文件,主要容如下:
INTERFACE_NAME[0]=lan1网卡设备
IP_ADDRESS[0]=""IP地址
SUBNET_MASK[0]=""子网掩码
BROADCAST_ADDRESS[0]=""广播地址
2.相关管理命令
1).查看所有网卡设备:
lanscan,参见《系统维护常用命令及工具》之“常用命令”;
2).查看、配置某个网卡:
ifconfig,参见《系统维护常用命令及工具》之“常用命令”;
3).查看网络状态:
netstat,参见《系统维护常用命令及工具》之“常用命令”;
4).增加动态路由–routeadd,显示如下:
routeadddestinationgatewaymetric
5).删除动态路由–routedelete,显示如下:
routedeletedestinationgateway
6).配置静态路由-/etc/rc.config.d/netconf,显示如下:
将需要配置的路由信息按照文件规定格式写入此文件,注意路由设置的编号不能重复。
7).更改主机IP地址
A.首先使用“lanscan”和“ifconfig”命令查出该网卡的设备名
B.使用vi命令编辑/etc/rc.config.d/netconf文件。
找到
INTERFACE_NAME[0]=lan1
IP_ADDRESS[0]=""
SUBNET_MASK[0]=""
BROADCAST_ADDRESS[0]=""
将原有的IP地址和SUBNET_MASK改成新值
C.使用vi命令编辑/etc/hosts文件,改变对应主机名的IP地址
注意:
不要在CDE环境中,直接改变IP地址,应退出CDE环境,完成修改过程。
8).其它命令
hostname,nslookup,ping,linkloop等
硬件维护常识
1.开机顺序
一般地说,系统开关机应严格遵循以下步骤:
->打开总电源。
->打开计算机机柜电源
->打开外部设备电源(如磁盘阵列,磁带库等)
->待外部设备自检完成后,最后打开主机电源.
2.关机顺序
->进行操作系统的关闭(shutdown-h-y0)
->关闭主机电源.
->关闭外设电源.(如磁盘阵列,磁带库等)
->关闭其他设备电源和机柜电源;
->最后关闭总电源。
3.电缆连接注意事项
在进行电缆连接(插拔)时,最重要的一点是,通过该电缆连接(或将要连接)的设备应当是没有加电的,即应当先将设备的电源关掉,然后再进行电缆连接(插拔)操作。
否则,如果带电进行电缆连接,会造成对设备无法预料的损坏。
4.硬件故障诊断
在此介绍简单的常见故障处理。
->电缆连接
注意计算机及各外设之间连线接触良好,不要无故拔插电缆;如果发生计算机不能识别某个设备,有可能是电缆的接触问题。
->硬件状态指示灯
如果发现系统工作不正常,可以观察硬件状态指示灯的情况。
开机后系统将自动完成自测试,诊断及引导启动代码。
检测顺序大致为:
高速缓存,中央处理器,总线,存,I/O设备。
当检测到相关的硬件时,对应的显示灯会亮。
硬盘,软盘,磁带机及光盘驱动器自检时,能从前面板上看到相应的灯亮一下,表明系统已经识别到上述设备。
相反,如果某驱动器的自检灯没亮,很可能是该设备有问题。
另外,主机背后的SCSI接口卡及网络接口卡上的自检指示灯亮为正常状态。
否则,可能该接口卡有问题。
如果发现这种问题,请马上与HP联系,考虑更换备件。
->错误代码
每次开机后,系统都会进行硬件自检及初始化,假如系统出现硬件故障,一般都不能正常启动,并在液晶显示屏及控制台上相应的显示出错误代码及出错信息。
若屏幕上出现ERROR且液晶显示上出现FLT,表明有故障发生,应根据上述提示确定故障点。
绝大部分硬件错误都能在自检时暴露出来,在液晶显示及控制台的左下角都有四位错误代码:
FLTxxxx。
分析这四位代码可以进一步检测出故障。
发现这种问题,请马上与HP联系,分析相应的故障原因。
HP设备运行环境要求
1.机房总体要求
1)机房应避免下列因素:
->温度:
20~25℃,最佳22℃
->电磁场
->磁场
->腐蚀性气体
->易燃物或易燃性气体
->爆炸物品
->湿气
2).计算机的前后左右应有足够的散热空间。
3).窗密封,机房场地保持清洁。
4).房避免直射。
5).不可铺设地毯,以防静电。
6).无线电杂波干扰应低于0.5V/米。
2.电源要求
1)电压和频率容许变动围:
电压:
单相交流,220V+4%,-8%(198~232V)
频率:
50Hz+/-0.5Hz
2)瞬间电压波动不能超过220V+/-15%,且必须在25个周期(0.5秒)恢复,对于磁盘存储设备则需在三个周期恢复。
3)总谐波(Harmonic)成分不得高于5%。
4)瞬间脉冲电压(Impulse)若大于100V(upto200us)时,将影响计算机系统的正常运行。
下表列出瞬间脉冲在不同情况下的摘要:
脉冲电压(V)
出现次数(次/天)
采取行动
50~100
20
不需校正
50~100
20~50
需要校正
50~100
>50
必须校正
100~250
2~3
需要校正
100~250
>3
必须校正
>250
>1
必须校正
5)电源插座及电缆
(1)如果购置了计算机机柜,请给每一个机柜由配电盘单独引出两
条大于20安培的电缆及两套插头座。
(2)若订购是V系列主机,需为每台主机配一条50安培的电缆。
(3)请为每条电缆配相应容量的空气开关并将电缆引致机柜所在位置的地板下面。
(6)请准备充足的电源接线板用于连接终端、Modem、及其他非机柜中设备。
(7)请确认电源保护地线的专用接地线电阻小于1欧姆且零地电压小于1V。
电源插座要求(俯视图):
由于HP服务器机柜原电源插头是美国标准,在发往中国时工厂已将插头取下,因此请根据所购买的机柜数量准备数套插头及插座,要求容量大于20A,插座接法如上。
保护地和零线间的电压要小于1.0伏。
3.机房环境要求
1)温度与湿度:
->温度:
20-25℃,最佳:
22℃
->相对湿度:
40%-60%,最佳:
55%
->机房最大温度变化率:
10℃/小时
->北部地区气候干燥,建议使用加湿器
->南方地区气候潮湿,建议使用去湿器
2)机房散热量计算:
保持机房计算机系统操作于最佳温/湿度空间,必须计算机房总散热量,其中包括
->机房机器散热量总和
->灯光
->人员散热量:
每人平均600BTU/小时
->未来扩充的设备
->机房空间散热量:
50BTU/平方英尺
->总散热量为上述各项散热量之和,下列有公式可换算成冷气机使用千卡:
BTU/hr=WATTS×3.413
K/hr=BTU/hr*0.25
3).空气含尘量:
机房应保持清洁,空气于0.5Micron的杂质在每立方英尺不多于45000个,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。
4).机房颤动度:
机房颤动度不得高于0.5G,机房产生震动的机器避免放置在一起,因颤动将使机器机械部分、接头、主机面板接触部分产生松动,而造成机器不正常。
5).磁场杂波干扰:
机房附近的无线电杂波干扰应低于0.5V/M(频率围从14KHz到1GHz),若机房附近有强烈磁场干扰时,应迁移机器,倘若还是无法避免,将机房四周用金属隔离,使磁场干扰降至标准之下。
4.机房空间及结构
1)如果配置有惠普标准机柜,要求机柜摆放前后需留出1米空间以便机柜门可以打开。
由于机柜之间可能有数据电缆相连,要求惠普机柜尽量靠紧摆放。
2)高架地板承重要求:
点荷重454kg,地板应使用防静电材。
3)准备足够数量的带边孔(30cmx20cm以上)的地板,以备设备走线。
一般为每个机柜备一块。
5.其它辅助设备要求
1.根据桌上设备的数量,准备适量的桌子或工作台。
2.请在机房准备一部直拨,以便我公司可以有效地提供远程登录和诊断服务。
常用工具--系统管理工具SAM
启动SAM
选择相应的项目
系统维护常用配置文件
1./etc/hosts
主机名字解析文件,提供主机名和IP地址的对应。
2./etc/passwd
口令文件,容为:
登录用户名:
加密口令:
用户ID:
组ID:
保留:
初始工作目录:
shell路径
3./etc/group
容为:
组名:
加密密码:
组ID:
所有属于该组的用户。
4./etc/profile
如果该文件存在,则每个用户登录时将执行该文件。
该文件一般用于设置一些通用环境变量,如果用户的home目录中存在.profile文件,则在执行/etc/profile之后,再执行用户的.profile文件。
5./etc/inittab
部初始化之后,系统将启动/etc/init这个deamon进程,使/etc/init进程取得引导序列的控制权。
而init进程从文件/etc/inittab(inittable,初始化表)取得指示,该文件的容控制所有init状态,同时也控制那些已消亡进程的再生。
6./etc/fstab
系统中可以mount的文件系统的信息。
7./etc/lvmtab
使用命令:
#strings/etc/lvmtab;查看系统VG和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HP 小型机 服务器 应急 处理 方案