IBM小型机常见故障的基本定位.docx
- 文档编号:17590143
- 上传时间:2023-07-26
- 格式:DOCX
- 页数:21
- 大小:29.47KB
IBM小型机常见故障的基本定位.docx
《IBM小型机常见故障的基本定位.docx》由会员分享,可在线阅读,更多相关《IBM小型机常见故障的基本定位.docx(21页珍藏版)》请在冰点文库上搜索。
IBM小型机常见故障的基本定位
之五兆芳芳创作
一毛病的定义
.弄清楚系统产生了什么问题
.系统现在能做什么?
不克不及做什么?
.毛病什么时候产生的?
.有没有做平时不合的操纵?
.毛病有没有纪律?
定时仍是不定时?
产生的频率有多高?
.是一台机械出现毛病仍是多台机械毛病?
毛病现象是否相同?
.最近有没有做修改?
如装置了新的硬件、软件,修改了系统的一些设置.
二毛病信息的收集
1)收集毛病信息对于判断、诊断毛病原因,修复系统很是重要.
2)系统毛病记实(errorlog)
errdemon进程在系统启动时自动运行
记实包含硬件、软件及其他操纵信息
毛病记实文件为/var/adm/ras/errlog,可备份下来或拷贝到此外机械上阐发
errpt命令的使用(普通用户权限也可使用)
#errpt|more列出冗长出错信息
ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION
192AC0710723100300T0errdemonErrorloggingturnedoff
0E017ED1071000PHmem2Memoryfailure
9DBCFDEE0701000000T0errdemonErrorloggingturnedon
038F25800624131000UHscdisk0UNDETERMINEDERROR
AA8AB2410405130900TOOPERATOROPERATORNOTIFICATION
TIMESTAMP:
MMDDHHMMYY(月日时分年)
T(类型):
P永久;T临时;U未知(永久性的错误应引起重视)
C(分类):
H硬件;S软件;O用户;U未知
#errptdH列出所有硬件出错信息
#errptdS列出所有软件出错信息
#errptajERROR_ID列出详细出错信息
#errptaj0502f666 例: LABEL: SCSI_ERR1 ID: 0502F666 ProbableCauses ADAPTERHARDWARECABLE CABLETERMINATORDEVICE FailureCauses ADAPTER CABLELOOSEORDEFECTIVE RecommendedActions PERFORMPROBLEMDETERMINATIONPROCEDURES CHECKCABLEANDITSCONNECTIONS DetailData SENSEDATA 000000000000000000000000000000000000000000000000 3)控制面板上的LED代码 .8位代码,通常系统毛病灯会同时亮起.某些机型还会同时显示毛病设备位置代码. .4位代码,通常是Exxx. .3位代码,通常为0yyy,只看后3位. .8位和4位代码可查抄系统办事手册(ServiceGuide). 3位代码可查抄系统诊断手册(DiagnosticInformationforMultipleBusSystem). .闪动的888,系统解体,硬件或软件原因造成.按reset键会显示更多内容. 888102一般为软件毛病(888102207例外) 系统会产生一个dump. 888102xxx0C9系统正在做dump,请等待. 888102xxx0C0系统dump完成,可关电重启. 888103或105 硬件毛病,一般有SRN代码及位置代码. 4)SMS(SystemManagementService)毛病记实 如何进入SMS菜单 当主控台出现键盘图标后(LED显示E1F1时)按1键. 选择"Utilities" 选择"ErrorLog",抄下8位毛病代码 (在SMS中还可以更改系统启动顺序表) 5)MAIL #mail 系统会向root用户发mail陈述出错信息.通常系统出现毛病后没有进行查抄修复,系统会定时提醒root. 6)运行毛病诊断程序(Diagnostic),对系统硬件进行查抄和诊断. 当发明有硬件毛病时应立即便用diag #diag >选初级诊断(AdvanceDiagnostic) >选问题诊断(ProblemDetermination)或 选系统查抄(SystemVerification) (选PD会对系统错误记实进行阐发) diag运行后会给出SRN代码,毛病设备名称及百分比,地址代码等. 对于PCI机型应在系统报错7天之内运行diag程序对出错记实里的sense数据进行阐发. 7)其他用于收集系统信息的命令 lsdevC系统设备信息 #lsdevCcdisk hdisk0Available0006002,04.5GB16BitSCSIDiskDrive hdisk1Available0006001,04.5GB16BitSCSIDiskDrive hdisk2Defined0006004,016BitSCSIDiskDrive lspv查抄物理卷信息 #lspv hdisk00007821160af3d76rootvg hdisk1000782117f571294rootvg hdisk20000000045c45bdedatavg lsvg查抄卷组信息 #lsvgdatavg VOLUMEGROUP: datavgVGIDENTIFIER: 0000000055e2458b VGSTATE: activePPSIZE: 4megabyte(s) VGPERMISSION: read/writeTOTALPPs: 2169(8676megabyt MAXLVs: 256FREEPPs: 1(4megabytes) LVs: 3USEDPPs: 2168(8672megabyt OPENLVs: 2QUORUM: 2 TOTALPVs: 1VGDESCRIPTORS: 2 STALEPVs: 0STALEPPs: 0 ACTIVEPVs: 1AUTOON: yes MAXPPsperPV: 2032MAXPVs: 16 #lsvglrootvg rootvg: LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINT hd5boot111closed/syncdN/A ... lv00jfs511021closed/stale/ibmcxx lv01jfs111open/syncd/cics_regions lv02jfs441open/syncd/var/mqm lslpp查抄文件组信息 #lslppL|grep23100020 .... devices.pci.23100020.rte4.3.2.7CIBMPCI10/100EthernetAdapt 看某个文件组是否已装置,如以太网卡驱动.也用于查询补丁程序的版本. lsattr查抄设备参数设置 #lsattrElent2 busio0x7fffc00BusI/OaddressFalse busintr9BusinterruptlevelFalse intr_priority3InterruptpriorityFalse tx_que_size512TRANSMITqueuesizeTrue rx_que_size256RECEIVEqueuesizeTrue rxbuf_pool_size384RECEIVEbufferpoolsizeTrue media_speed10_Half_DuplexMediaSpeedTrue use_alt_addrnoEnableALTERNATEETHERNETaddressTrue alt_addr0x000000000000ALTERNATEETHERNETaddressTrue ip_gap96InterPacketGapTrue lscfg查抄VPD信息(VirtualProductData) #lscfgvlssa1 DEVICELOCATIONDESCRIPTION ssa13068IBMSSAEnhancedRAIDAdapter (14104500) PartNumber.................097H0645 FRUNumber..................097H0645<备件号 SerialNumber...............C8217227 ECLevel....................0000F20825 Manufacturer................IBM053 ROSLevelandID............7201<微码版本 LoadableMicrocodeLevel....04 DeviceDriverLevel.........00 DisplayableMessage.........SSAADAPTER DeviceSpecific.(Z0)........DRAM=032 DeviceSpecific.(Z1)........CACHE=0 DeviceSpecific.(Z2)........000000062955dab2 DeviceSpecific.(YL)........P2I7<槽号 不合的硬件设备有不合的VPD,所含的格局和信息都不一样.通常备件号和微码 版本最有参考价值.注: FRU(FieldWordStrUnit)才是真正的备件号. 三硬件毛病定位办法 IBM小型机毛病定位办法包含小型机I/O柜上的显示面板上的Checkpoints信息,ErrorCode和SRNs. Checkpoints查抄点是系统加电CMOS初始化程序(initialprogramload(IPL))运行后显示在I/O柜的显示面板上一系列信息. IPL流程 当交换电源接到系统后,IPL流程就开始了,IPL流程包含四个步调: .Phase1: ServiceProcessor的初始化 Phase1开始于交换电源接到系统后,直到OK显示在I/O柜上的显示面板上为止.在这个步调会显示8xxx或9xxxcheckpoints代码. .Phase2: 由ServiceProcessor引导的硬件初始化 Phase2开始于按下I/O柜上的白色电源开关.在这个步调会显示9xxxcheckpoints.91FF是最后的代码标记取第三步调的开始 .Phase3: 系统固件的初始化 在Phase3,一个系统处理器接管控制并持续初始化系统资源,在这个步调会显示Exxx.E105是最后的代码标记取第四步调AIX启动的开始.在这个进程中还会显示各类位置码(位置码代表着系统的每一个部分) .Phase4: AIX启动 当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行.当AIX的登录窗口出现在控制台上时第四步调结束同时显示面板上再无任何信息出现. ErrorCode当系统运行有错误发明时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码. SRNs(Servicerequestnumbers,办事请求码)当系统运行有错误发明时,SRNs码会以xxxxxx的形式显示在显示面板上,同时在AIX的errorlog中也会有记录. 以上所有代码都会有相应的步调解决.由于代码单一,请在出现问题跋文录下代码,并致电IBM办事热线. 系统的启动顺序: .系统不克不及启动 系统停在Stage1,可能为电源、系统板、CPU、内存等硬件毛病.记实毛病代码通知IBM工程师. 系统停在Stage2,可能是启动顺序表(bootlist)损坏或I/O子系统毛病.可测验考试进入SMS菜单查抄启动顺序表,并修改.若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘毛病.若底子没有SCSI设备可选则链路有问题. 系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统毛病. .系统停在551,555或557 产生在系统启动的第三阶段(Stage3),可能是: 文件系统损坏 文件系统日志(jfslog)损坏 rootvg中有坏硬盘 修复办法 用系统光盘或系统备份带启动(必须与硬盘中的操纵系统版本一致) 启动后选择选项3 "StartMaintenanceModeforSystemRecovery" >"AccessaRootVolumeGroup" >"Accessthisvolumegroupandstartashell beforemountingthefilesystems" 格局化文件系统日志(jfslog) #/usr/sbin/logform/dev/hd8 查抄修复文件系统 #fscky/dev/hd1(/home文件系统) #fscky/dev/hd2(/usr文件系统) #fscky/dev/hd3(/tmp文件系统) #fscky/dev/hd4(/文件系统) #fscky/dev/hd9var(/var文件系统) ...... 用exit命令退出,文件系统会自动mount起来. 重建bootimage #lslvmhd5找出bootimage所在的硬盘,如hdisk0 #bosbootad/dev/hdisk0 #bootlistmnormal/dev/hdisk0重建启动顺序表. 重启动系统 #shutdownFr 如上述步调不奏效 用系统备份带恢复系统. 如备份带不克不及恢复,用诊断光盘(DiagnosticCDROM)查抄是否坏硬盘. .CDE图形界面挂死 CDE运行时不要更改网络参数(如: 主机名和IP地址) 更改网卡设置,请先退出CDE图形情况,选择命令行方法登录,在字符界面下更改. 如CDE已经挂死 远程telnet登录 找出所有dt有关的进程用kill命令杀掉 #psef|grepdt ...... #killPID 查抄当前主机名 #hostname tscf50 查抄主机名是否对应有效的IP地址 #netstati|greptscf50 tr0*15009.185.40tscf5050604902824700 更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系. #smittytcpip 重新启动CDE界面 #/etc/rc.dt HACMP情况下可把主机名alias到127.0.0.1上 #cat/etc/hosts 127.0.0.1loopbacklocalhosttscf50#loopback(lo0)name/addressbvg .系统dump 产生在系统解体时,AIX会做dump(系统内存的快照). 此时机械会显示闪动的888102xxx0cx代码: 0c9系统dump进行中.0c9状态可能会维持超出2分钟, 不要关电和按reset,等待dump做完. 0c0dump成功完成,这时可以断电重起. 0c2手动启动dump功效 0c4dump设备空间缺乏,只有部分信息保管下来 0c5不明原因导致dump失败 一般dump是由于软件出错引起(888102207除外),机械通常可以重启.重启时可能提示用户拔出磁带拷贝dump文件,不要选择退出,这样会丢失重要的毛病信息. dump的有关设置 预算系统dump的大小,在系统最忙碌时(内存使用最多) #sysdumpdeve 0453041Estimateddumpsizeinbytes: 53477376 #lspsa PageSpacePhysicalVolumeVolumeGroupSize%UsedActive paging00hdisk0rootvg480MB1yes hd6hdisk1rootvg544MB1yes 当前的设置 #sysdumpdevl primary/dev/hd6 secondary/dev/sysdumpnull copydirectory/var/adm/ras forcedcopyflagTRUE alwaysallowdumpTRUE hd6应比预算值稍大. /var/adm/ras是默认的dump拷贝目录,比较预算值,包管/var文件系统有足够的剩余空间拷贝dump文件.不然机械重起时会提示用户拔出磁带. dump文件名为vmcore.# 对PCI机型如要手动做dump,须把"alwaysallowdump"先设成true. #sysdumpdevK dump打包 #snapao/dev/rmt#或 #snapac把/tmp/ibmsupt目录做成一个压缩文件 snap.tar.Z如果/tmp文件系统空间不敷, 可用ddirectory参数指定此外目录代替/tmp/ibmsupt 四7133D40SSA磁盘柜的毛病定位 当SSA磁盘柜出现毛病时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的errorlog中也会有记录错误信息,如: DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等.请在出现问题跋文录下代码,并致电IBM办事热线. 五软件毛病定位办法 软件毛病情况错综庞杂,下面列举几个罕有案例的毛病处理办法. 1)文件系统空间不敷. 查抄有没有“满”的文件系统.特别是/、/var、/tmp,不要超出90%.文件系统满可导致系统不克不及正常任务,尤其是AIX的根本文件系统.如/(根文件系统)满则会导致用户不克不及登录.用df–k查抄. #dfk(查抄AIX的根本文件系统) Filesystem1024blocksFree%UsedIused%IusedMountedon /dev/hd424576145295%259922%/ /dev/hd26144002806896%2296715%/usr /dev/hd9var8192454045%64932%/var /dev/hd31679361579686%891%/tmp /dev/hd116384533268%140235%/home 除/usr文件系统,其他文件系统都不该太满,一般不超出80%. 处理办法1: 删除垃圾文件 #dusk*|sortrn|head 查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件.(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间.有时删除文件后空间其实不马上释放,这是由于你删除的文件正被某个程序打开.只有当这个程序停止后空间才释放,有时甚至需要重起系统. 处理办法2: 增加文件系统大小 #smittychjfs 文件系统可以在任什么时候候加大,前提是卷组(VG)中有剩余空间. 2)查抄文件系统的完整性 #umountfilesystem_name #fsckyfilesystem_name 注意: 文件系统必须先umount,再做查抄和修复,不然可导致未 知的结果. 3)查抄卷组信息(lsvglvg_name): 有没有"stale"状态的逻辑卷.若有,用syncvg命令修复"stale"逻辑卷. 4)查抄内存互换区(pagingspace)使用率(lspss): 使用率是否超出70%,若有则用chps–sXpgname增加X个PP或用mkps–a–n–sXmyvg在myvg上增加一个PP数为X的内存互换区. 5)小型机内存泄漏问题 小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐削减.如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪. 通常我们可以用ps和sar命令来查抄小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的成长趋势. (a)ps #psgv|headn1;psgv|egrepv"RSS"|sort+6b7nr|headn5 PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND 15674pts/11A0: 0103610836172327685240.624.0./tctestp 22742pts/11A0: 0002074820812327685240.014.0./backups 10256pts/1A0: 0001562815692327685240.011.0./tctestp 2064A2: 135646448xx063920.04.0kproc 1806A0: 200166408xx063920.04.0kproc SIZEvirtualsize(inthepagingspace),inkilobytes, RSSrealmemory(residentset)sizeinkilobytesoftheprocess. 通过不合时间输出的比较,就能不雅察出内存和CPU占用率的根本情况.找出其中占用内存数不竭变大的进程,这个进程可能就已经产生了内存泄漏. (b)sar指令也可以查抄CPU占用率,但统计的结果不是很准确.通常使用sar令的格局为: #sarPALL210 09: 29: 37cpu%usr%sys%wio%idle 09: 29: 39000495 110495 00495 09: 29: 41002692 134291 234
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IBM 小型机 常见故障 基本 定位