HACMP维护手册.ppt
- 文档编号:18727746
- 上传时间:2023-10-21
- 格式:PPT
- 页数:30
- 大小:210KB
HACMP维护手册.ppt
《HACMP维护手册.ppt》由会员分享,可在线阅读,更多相关《HACMP维护手册.ppt(30页珍藏版)》请在冰点文库上搜索。
HACMP维护文档,什么是HACMP在我们解释什么是HACMP以前,我们先来定义一下高可用性的概念。
Highavailability:
在当今复杂的环境下,成功实现IT应用的一个关键要素就是提供不间断的应用服务和数据保护。
HA就是这样一个可以通过消除计划内/计划外宕机事件从而向客户应用提供不间断服务的部件,它能达到消除从硬件到软件的单点故障(SPOFs)。
实现一个高可用性解决方案,需要:
冗余服务器、冗余网络、冗余网络接口卡、监视、故障检测、故障诊断、自动接管、自动重新控制HACMP的主要目标就是消除单点故障。
IBM针对AIX的高可用性解决方案-HACMP群集技术,它包括以下两个组件:
高可用性(HA):
该进程保证应用在用户复制共享资源时是可用的。
群集多处理(CMP):
该进程提供在同一节点上多个应用共享或并发访问数据。
基于HACMP的高可用性解决方案提供自动失效检测、诊断、应用恢复和节点重新控制。
在恰当的应用中,HACMP还可以在并行应用处理中提供对数据的并发访问,从而提供更高的可扩展性。
高可用性系统VS容错系统容错系统:
它是提供冗余的设计为不间断操作。
这样的系统中所有的组件都是双份的(不管硬件还是软件),CPU、内存、磁盘都有特殊的设计来提供不间断服务。
这样的系统是非常昂贵和非常专业的。
只有在要求0宕机的环境中,容错系统设备和方案才有需求。
高可用性系统:
配置为高可用性的系统是一组软件、硬件的组合,可以保证系统失效后在可接受的宕机时间内恢复。
在这种系统中,软件负责监测到环境故障后将应用交给另一个机器实现队员机器的接管。
因此,在这种环境下重要的是消除SPOF。
例如,如果只有一个网络连接,就需要提供第二块网卡以备主网卡失效后接管。
另一点就是通过将数据放在所有节点都可以访问的共享磁盘上并实现镜像。
HACMP相关概念1、群集拓扑:
包含基本的群集组件节点、网络、通讯接口、通讯设备、通讯适配器。
2、群集资源:
被设为高可用性的实体(例如文件系统、裸设备、服务IP标签、应用等)。
所有资源被组织成资源组(RG),HACMP保持唯一实体资源组的高可用性。
资源组可以被一个节点访问或者在并发应用中同时被多个节点访问。
3、Fallover:
在活动节点出现故障时,将资源组从活动节点转移到备份节点的动作。
4、Fallback:
原来的活动节点恢复时,将资源组切换回原节点的动作。
这是将失效节点重新集成到集群的标准动作。
HACMP相关术语要理解HACMP的正确功能并利用它,就必须知道一些术语:
1、群集(Cluster):
为共享资源和相互通讯而通过网络连接在一起的独立主机(节点)。
HACMP负责定义在协同的系统中哪个节点提供服务哪个节点不提供服务。
所有节点共同负责维护应用的功能可用。
2、节点(Node):
在群集中所有运行AIX系统和HACMP软件的IBMp系列服务器都是节点。
每个节点都有一个资源集(磁盘、文件系统、IP地址、应用)在该节点失效时可以被群集中其他节点接管。
3、资源(Resource):
是在群集配置中可以从一个节点转移到其他节点的逻辑组件。
所有必须提供高可用性应用的资源被构成资源组(RG)。
当节点失效时,资源组中的组件被一同从一个节点移动到另一个节点。
一个群集可以有多个RG,从而提高节点的效率(也就是HACMP中的Multi-Processing)。
HACMP相关术语4、接管:
在群集内部节点之间传送资源的操作称为接管。
如果一个节点发生硬件故障或AIX故障,它的资源应用会被移到另一个节点。
5、客户:
客户就是可以通过局域网访问群集节点应用的一个系统。
客户通过运行客户端程序连接到应用所在的服务器上。
HACMP的实现(此处略去),安装配置HACMP共分三步:
1、准备AIX:
在AIX中配置硬件、软件。
2、安装HACMP软件3、配置HACMP群集,AIX中需要配置网络、共享磁盘、LVM组件等,配置IP配置串行网络配置共享磁盘定义LVM组件编辑文件/.rhosts,串行网络,每个运行ClusterManager进程软件的节点会通过HACMP中配置的所有网卡持续送出Keep-alive包(心跳信号)到Cluster的其它各个节点。
HACMP就是通过检测节点间keep-alive包的中断来检测网络事件。
Keep-alive包通常在同一网络上的服务网卡间和备份网卡间双向传输。
传输中的任何中断都会激活故障检测过程,此时,Keepalive向所有网卡上传送。
通过简单的“淘汰过程”,故障原因被很快发现,然后群集可采取正确的事件处理脚本处理故障。
由于服务网卡和备份网卡都是采用TCP/IP进行通讯的,如果某节点的TCP/IP子系统发生故障或者网络拥塞,就会造成Keep-alive包无法正常传输。
此时因为所有的心跳停止了,其它节点将错误地认为该节点故障,导致其它节点试图接管资源,群集及其资源将处于不稳定状态。
因此HACMP中必须配置一条串行网络,当LAN故障时,可以提供另外的Keepalive路由。
由于串行网络不用TCP/IP协议,所以TCP/IP子系统的故障并不意味着HACMP故障,使得群集可以分清网络故障和节点故障,避免出现孤立节点,串行网络,HACMP日常系统管理维护,日常日志1:
日常日志主要是记录平时事件的启动,从中可以了解HACMP的动作,例如主机standby网卡故障,有fail_standby事件发生,系统管理员可从日志中得知何时出的故障,及有没有解决。
主要日志文件有:
(查找文件命令find/-name“文件名”)/var/hacmp/log/hacmp.out.1-7:
存放由HACMP脚本产生的带时间戳信息,包括执行的命令及其输出。
脚本中的每一命令及其参数占一行。
此文件一天刷新一次,保留七天;/var/hacmp/adm/cluster.log:
存放由HACMP脚本和daemon产生的带时间戳的信息。
每个事件在记录文件中有两行一行在开始时写入,一行在结束时写入。
日常日志2:
/tmp/cm.log:
(未找到)保存HACMP中clstrmgr进程产生信息的时间;HACMP技术人员在clstrmgr处于debug模式下排错需要参考此文件内容。
重启集群服务,这个文件就会被重写,因此需要做好备份。
(/var/hacmp/log中有参考日志文件)/var/hacmp/adm/history/cluster.mmddyyyy:
HACMP的历史记录文件,不同日期发生的集群事件记录在不同的文件中。
mm-月dd-日yyyy-年,HACMP日常系统管理维护,启动和关闭HACMP启动群集是指在一个或几个节点上启动ClusterManager,并使客户机能够访问群集的资源。
HACMP可以配置为自动启动或手动启动,自动启动是通过在文件/etc/inittab中的一条命令来实现的,但是配置为自动启动后,故障节点返回群集时可能发生资源的接管,造成不必要的停机。
因此,建议配置为手动启动。
启动关闭HA必须有root权限!
启动命令:
#smitclstart选项按缺省,建议在一个节点完全启动后再启动另一个节点,并在启动过程中监视事件脚本的输出(tailf/var/hacmp/log/hacmp.out.7)。
HACMP日常系统管理维护,关闭命令:
#smitclstop该命令中尤其要注意第四个选项SelectanActiononResourceGroups:
指停止HACMP后,其上的资源如何处理:
三种选择1、BringResourceGroupsOffline:
释放资源,但其它节点不接管2、MoveResourceGroups:
释放资源,其它节点接管资源3、UnmanageResourceGroups:
停止进程,但不释放资源(不处理)我们的配置中默认是其他节点接管资源。
注意:
我们不推荐在同一时间在多个节点上使用第三个选项来停止群集服务。
HACMP日常系统管理维护,无论何时,都应该避免用kill-9命令停止群集管理后台进程。
在这种情况下(使用kill-9命令),系统资源控制器(SRC)会检测到clstrmgr后台进程异常退出。
这会造成系统停止并有可能造成共享存储数据的破坏。
依照资源组策略,其他节点会初始化接管。
当出现主、备机在关电后,再次启动时,备机正常,主机不能启动,要按指定步骤操作:
在备机上执行#smithacmp选择SystemManagement(C-SPOC)-ResourceGroupandApplications-MoveaResourceGrouptoAnotherNode/Site-MoveResourceGroupstoAnotherNode-选择需要移动的资源组,选择备机节点进行接管。
退出命令行,启动HACMP,这时备机接管主机资源。
HACMP日常系统管理维护,查看HACMP状态在HACMP中,它启动一个进程来监控各节点。
用#psef|grepclinfo命令查看clinfo进程是否启动。
若未启动,有两种方法启动此进程:
1、执行#/usr/sbin/cluster/clinfo2、启动HACMP时,#smitclstart中StartupClusterInformationDaemon(后台守护程序)改为true用/usr/sbin/cluster/clstat命令查看各节点状态,因现使用的是字符终端,出现的将是字符界面。
须注意的是群集的substate属性,正常为Stable(稳定的;坚定的;牢固的),不是Stable时,HACMP可能有动作或者是不正常。
HACMP日常系统管理维护,HACMP日常系统管理维护,获取集群状态
(一)检查集群服务daemon状态:
lssrc-gcluster;lssrc-glock检查集群和网络接口状态:
/usr/sbin/cluster/clstat(在smithacmp中用问题诊断工具查看更好)查看集群记录文件:
tail-f/var/hacmp/log/hacmp.out.1-7more/var/hacmp/adm/history/cluster.mmddyyyytail-f/var/hacmp/adm/cluster.log检查节点名的正确性:
odmgetHACMPcluster,获取集群状态
(二)检验集群配置:
/usr/sbin/cluster/diag/clconfig-v-tr/一般慎用显示集群配置:
/usr/sbin/cluster/utilities/cllscf显示clstrmgr版本:
snmpinfo-mdump-o/usr/sbin/cluster/hacmp.defsclstrmgr,HACMP日常系统管理维护,校验HACMP执行#/usr/es/sbin/cluster/diag/clverify,将会出现一个交互式界面,可以检验HACMP软件(bos)和拓扑结构(topology),管理员可按提示操作。
HACMP日常系统管理维护,在磁盘阵列上添加逻辑卷、扩大卷组:
首先把主、备机的HACMP停下。
在主机上:
#varyonvgsharevg;扩大卷组或增加逻辑卷(在AIX中已讲)#varyoffvgsharevg;在备机上:
#exportvgsharevg;#smitimportvg将sharevg重新import进来;#smitchvg将sharevg在下次启动时不自动激活;#varyoffvgsharevg。
HACMP日常系统管理维护,增加文件系统、新的卷组,并要接管首先把主、备机的HACMP停下。
在主机上:
#varyonvgsharevg;增加文件系统、新的卷组;(AIX中讲述)#varyoffvgsharevg;在备机上:
#exportvgsharevg;#smitimportvg将sharevg重新import进来;#smitchvg将sharevg在下次启动时不自动激活;#varyoffvgsharevg。
在主机上:
#smithacmp-ClusterConfiguration-ClusterResource-Change/ShowResourcesforaResourceGroup在Filesystems选项中加入新的文件系统,VolumeGroups选项中加入新的卷组名;#smithacmp-ClusterConfiguration-ClusterResources-SynchronizeClusterResources按缺省选项执行。
HACMP日常系统管理维护,HACMP备份HACMP允许将群集的配置存储在一个文件中,称为snapshot,系统管理员可从此文件中恢复HACMP的配置。
文件缺省存放在/usr/es/sbin/cluster/etc/snapshot目录下,生成两个文件,后缀名分别为.odm、.info,.odm文件存放AIXODM数据库类的信息,.info为群集的信息,可查看。
创建方法:
#smithacmp-ClusterConfiguration-ClusterSnapshots-AddaClusterSnapshot,在ClusterSnapshotName中填写XX,在ClusterSnapshotDescription中填写Xxbackup,执行。
系统管理员将/usr/sbin/cluster/snapshots下的XX.odm、XX.info备份。
恢复方法:
先将备份的XX.odm、XX.info文件拷入/usr/sbin/cluster/snapshots目录下,执行#smithacmp-ClusterConfiguration-ClusterSnapshots-ApplyaClusterSnapshot选择XX,执行。
HACMP日常系统管理维护,错误恢复:
当HACMP配置出现问题时,启动不能正常结束,此时/tmp/hacmp.out文件中会出现eventerrot,管理员应按以下步骤停止HACMP:
#smithacmp-ClusterRecoveryAids-RecoveryfromScripFailure选择一块正在工作的网卡,建议用standby网卡,执行。
然后再将HACMP关闭。
HACMP日常系统管理维护,错误举例:
脚本运行超时错误(config_too_long)(发生原因及现象)每当集群状态发生变化时,HACMP软件将运行相应的脚本在某些情况下,比如脚本编写错误、应用运行错误、特殊集群状态等,可能造成脚本运行挂起HACMP判断脚本运行挂起的超时条件是6分钟(默认)HACMP认为脚本运行挂起后,将在/tmp/hacmp.out中记录config_too_long信息:
Thisclusterhasbeeninreconfigurationtoolong:
Somethingmaybewrong,HACMP日常系统管理维护,脚本运行超时错误(config_too_long)(原因分析及解决方法)多数情况下,是由于脚本运行失败。
但脚本中的命令确实需要运行较长时间的情况也不能排除,这种情况下,脚本运行并未失败,集群管理程序也正常,因此需要查看/tmp/hacmp.out以确定原因如果存在错误,可根据/tmp/hacmp.out和/var/adm/cluster.log的内容查找并排除错误运行clruncmd命令或使用SMIT的“ClusterRecoveryAids”屏,使集群管理器恢复集群处理,HACMP日常系统管理维护,DeadmanSwitch(发生错误接管的情况)集群中的主机定时向其他主机发送heartbeat信息服务主机并未失效,但可能由于性能原因不能及时发出heartbeat信息,比如某个优先级高于clstrmgr的应用占用了过多时间、等待I/O完成等,将发生接管服务主机完成相应工作后再次发送heartbeat信息并继续存取资源,而没有重入集群动作,于是发生冲突,HACMP日常系统管理维护,DeadmanSwitch(HACMP处理方法)Deadmanswitch是HACMP安装的AIX内核扩展,因此具有超出所有应用程序的优先级集群主机与发送heartbeat信息同步对本机的deadmanswitch发送reset消息如果deadmanswtich在超时没有被reset,它将关闭整个节点,由此避免了冲突,HACMP日常系统管理维护,DeadmanSwitch(HACMP处理方法)原因:
接管需要时间;方法:
调整性能参数调整I/Opacing(避免大数据块操作持续占用资源;略微降低I/O性能):
smitchgsys修改high/lowwatermark,建议值33/24增大syncd频率(增加I/O缓冲区清洗频率,避免短时发生重负荷I/O):
编辑/sbin/rc.boot文件,将syncd频率从默认的60秒降低到30、20或10秒增加通讯子系统的缓冲区(避免发生heartbeat发送不出的情况):
netstat-m判断是否有大量mbuf申请被拒绝errpt-a查看是否有LOW_MBUFS错误no-othewall=xxx如果需要,放松通讯缓冲区限制增大节点失效侦测频率(只在前述方法都不奏效的情况下):
SMIT的“Change/ShowaClusterNetworkModule”屏将失效侦测频率改为“Slow”,HACMP日常系统管理维护,THANKS!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HACMP 维护 手册