powerha

技术2024-06-17 90

IBMPowerHA®SystemMirror V7集群软件是IBMAIX®集群的下一版。为了提供与AIX操作系统的更紧密的集成，开发了一个新的内核级别层，称为Cluster Aware AIX（CAA）。群集软件利用这种新的基础进行心跳和消息通信。在内核级别运行可确保群集通信获得最高优先级，并且在发生内存泄漏或恶意应用程序占用系统资源的情况下不会受到影响。通过这种重新设计，可以跨所有网络接口进行运行状况监视，并具有从外部存储区域网络（SAN）存储柜启动时对根卷组（rootvg）丢失做出React的能力。此外，光纤通道（FC）适配器中的新目标模式功能允许进行新的存储框架通信，以通过SAN进行运行状况监视。以下说明旨在帮助您利用新的clmgr CLI快速部署PowerHA SystemMirror V7集群。它们还提供了常见管理任务，示例配置文件和有用日志的示例。

最低先决条件

PowerHA SystemMirror版本一般可用最低AIX级别 PowerHA SM版本7.1.0 2010年9月带有RSCT 3.1.0.1的AIX 7.1 带有RSCT 3.1.0.1的AIX 6.1 TL6 SP1 PowerHA SM版本7.1.1 2011年12月带有RSCT 3.1.2.0的AIX 7.1 TL1 SP3 带有RSCT 3.1.2.0的AIX 6.1 TL7 SP3 PowerHA SM版本7.1.2 2012年11月带有RSCT 3.1.2.0的AIX 7.1 TL2 SP1 带有RSCT 3.1.2.0的AIX 6.1 TL8 SP3 PowerHA SM版本7.1.3 2013年12月带有RSCT 3.1.5.0的AIX 7.1 TL3 SP1 带有RSCT 3.1.5.0的AIX 6.1 TL9 SP1 CAA功能所需的软件包包括： bos.cluster.rte Bos.ahafs bos.cluster.solid（在HA 7.1.0之后不再需要）版本7群集中的所有共享卷组（VG）必须是企业并行模式（ECM）VG： bos.clvm.enh

群集资源清单

IP地址规划请求IP（引导/基本IP，永久IP和服务IP的数量）。注册域名服务器（DNS）名称。更新配置文件：/ etc / hosts / etc / cluster / rhosts。接口上的硬IP。共享存储计划确定空间要求[数据逻辑单元号（LUN）和集群存储库磁盘的数量] 确定驱动程序和多路径要求定义LUN映射创建SAN区域创建或导入共享卷组，逻辑卷和文件系统信息对跨集群成员导入的资源使用唯一的名称高度可用的应用程序规划确定安装位置和空间要求。识别用户和权限设置。测试和部署应用程序启动和停止脚本。（可选）测试和部署应用程序监视脚本。 PowerHA SystemMirror集群部署：识别并在所有节点上安装AIX级别要求[包括CAA和可靠的可伸缩集群技术（RSCT）软件包]。在所有节点上标识并安装所需的PowerHA SystemMirror代码级别。重新启动逻辑分区（LPAR）以获取内核Bos更新从节点1：定义集群名称定义集群存储库磁盘定义多播地址（自动或手动）定义节点名称定义网络定义接口定义应用程序控制器定义服务IP 定义资源组为资源组定义资源验证并同步集群。在所有节点上启动群集服务。

配置完成并同步后，您可以继续执行以下任务：

故障转移测试：与重新启动–q（硬）相比，通过接管和资源组移动（软）平稳停止。监控环境。配置文件： / etc / hosts：此文件的内容应包括所有群集IP地址及其相应的IP标签，因为最好让群集在本地解析，然后在必要时还原为DNS。 / etc / cluster / rhosts：在两个节点上填充文件，然后刷新集群通信守护程序。（ refresh –s clcomd ）。在每行中明确定义的群集IP有助于避免名称解析问题。确保在此文件中仅定义有效的可访问群集IP。 /usr/es/sbin/cluster/netmon.cf：单个适配器网络中的集群使用此文件来尝试在发生故障时确定适配器状态。虚拟化环境应部署此文件以指向位于物理框架外部的默认网关或IP，以验证外部连接性。 IP地址：组播地址（自动或手动分配）：版本7集群上的集群心跳使用IP组播，默认情况下，在集群创建过程中分配组播地址。它通过根据在网络接口上检测到的第一个IP定义一个地址来尝试避免在群集之间重复（例如，en0 – 9.10.10.1基本IP可能会导致228.10.10.1多播地址）。如果您想定义自己的多播地址，也可以在集群配置的该部分中进行定义。此默认值在版本7.1.3中改回为单播通信，但是IP多播仍然是可用的选项。基本IP地址：AIX中的每个适配器通常在其ODM上都存储有一个IP地址，并设置为在系统引导过程中联机。如果这些适配器要在PowerHA网络中，则可以在集群定义中将它们定义为基础/引导适配器。请注意，除非管理员在PowerHA 专用网络中明确定义了它们，否则CAA都会尝试使用LPAR中的所有接口。具有将承载潜在服务IP的接口的虚拟局域网（VLAN）必须启用IP多播。否则，CAA会将这些接口视为关闭状态，并且从不尝试在其上获取服务IP别名。永久IP：这是特定于群集节点的别名，无论HA服务是否在运行，它都将在系统启动时可用。这些可以用作每个节点的管理IP，也可以用作群集故障转移时用于保存可路由子网路由的IP。一段时间以来，PowerHA允许单个适配器网络在同一可路由子网上定义基本/引导IP和服务IP。因此，对持久性IP的需求不像早期版本那样普遍，因此，通常不需要这些。服务IP：任何定义的服务IP地址别名都将由群集管理，只要它们在资源组中定义即可。根据资源组及其对应资源的托管位置，将确定服务IP别名的位置共享磁盘： CAA存储库磁盘（大小要求：最小512 MB和最大460 GB）：这是新的CAA要求，必须对所有集群成员可见。通常的做法是将此LUN定义为环境中的标准LUN大小，只要它在最小和最大大小要求之内即可。在第一次验证和同步操作时，群集在设备上创建一个私有卷组。共享数据卷：必须创建所有群集管理的共享卷组，或者将其转换为增强的并发模式，然后进行映射，然后将其导入所有群集节点。应将相应的LUN定义为在其后端多路径驱动程序中未设置保留。在群集处理期间，群集使用其自己的磁盘防护寄存器来管理设备，并且仅允许将文件系统安装在托管资源组的节点上。群集资源组策略：群集配置中的资源组是不同高可用性资源的容器。在规划阶段应建立不同的资源组启动，故障转移和回退策略，并应充分理解。

资源组策略

资源组策略可用选项启动政策在主节点上联机仅在第一个可用节点上联机在线使用分配政策在所有可用节点上联机失败转移政策过渡到列表中的下一个节点使用动态节点优先级进行故障转移脱机后备政策后退到列表中的较高优先级节点脱机集群应用程序（应用程序控制器定义）启动/停止脚本：应用程序控制器脚本必须位于所有参与群集成员的公共路径中。它们还必须由root用户可执行。脚本的内容不需要在所有集群成员之间都匹配。但是，如果内容需要根据应用程序要求进行匹配，则可以使用PowerHA文件收集功能来确保每10分钟自动复制一次更改。（可选）应用程序监视脚本：群集软件提供了可在任何部署中使用的可选应用程序监视框架。集群为在托管其资源组和相应应用程序控制器的节点上定义的每个监视器运行clappmon进程。任何监视脚本都应可以由root用户执行，经过全面测试，具有适当的脚本终止功能，并且应位于所有群集成员的公共位置。

CAA心跳通讯

存储库磁盘版本7群集通信要求使用共享的LUN（存储库磁盘）进行心跳并存储群集配置信息。 7.1.1和7.1.2发行版的大小要求为最小大小为512 MB，最大为460 GB。客户端通常使用其标准LUN大小而不是指定小于其当前数据LUN的卷。 IP接口：版本7群集使用的新通信协议要求在支持网络接口的第2层设备上启用IP多播。 CAA默认情况下使用系统上的所有接口，除非它们被定义为高度可用的专用网络。群集需要IP网络定义才能在群集成员之间执行IP地址接管。如果多播通信不起作用，群集将不会在接口上使服务IP别名联机，因为该接口将被视为不可用。（可选）存储框架通信[SANCOMM]：在版本7群集中，基于SAN的通信是附加的检测信号选项。如果正确启用，则存储框架通信将在共享SAN环境中的光纤通道适配器之间传递心跳，以提供其他心跳通信路径。此配置仅在SAS或4 GB和8 GB光纤通道适配器上受支持，并且可以在专用主机总线适配器（HBA）或使用虚拟小型计算机系统接口（VSCSI）或N端口ID虚拟化（NPIV）的虚拟化适配器中使用。在支持的HBA上，必须在拥有卡的LPAR上启用目标模式，并确保SAN分区提供所有集群成员上所有适用适配器之间的可见性。 chdev –l fscsi# -a dyntrk=yes –a fc_err_recov=fast_fail –P chdev –l fcs# -a tme=yes –P (reboot is required)

注意 –P仅在HBA上存在子设备时才用于更新AIX ODM，因此为什么需要重新引导才能使设置生效。

虚拟化环境要求在客户端LPAR和相应的虚拟I / O服务器（VIOS）实例之间使用保留的以太网VLAN（3358）。必须在客户端LPAR和VIOS上定义虚拟以太网适配器，以创建允许SAN心跳通信到达VIOS实例上的物理HBA的桥。虚拟以太网适配器不需要在其上定义IP地址。为了使存储数据包在跨物理服务器框架定义的群集成员之间传递，SAN分区必须包括所有对应的HBA全球端口号（WWPN）。在虚拟化环境中，需要在同一SAN区域中定义每个VIOS中HBA的物理WWPN（而不是客户端虚拟WWPN）。查看当前的在线文档或最新的红皮书出版物，以获取使用此功能的示例。

CLI快速部署说明

可以完全通过新的CLI创建PowerHA SystemMirror V7集群。在此示例中，IP已经被附加到/ etc / hosts文件中。该卷组已经导入到所有集群成员中，并且已经编写了应用程序脚本并将其传播到每个集群节点中的公共/ usr / local / hascripts目录。以下说明创建一个基本的两节点群集：

集群拓扑配置

网络标签功能接口节点 net_ether_01 Nodeb_base1 开机 en0 节点A net_ether_01 Nodeb_base1 开机 en0 节点B net_ether_01 共享IP 服务别名共享

资源组配置

资源组名称 DB_app1_rg 启动政策仅在主节点上联机失败转移政策转移到下一个优先级节点后备政策永不回退参与节点节点A 服务IP标签共享IP 卷组共享vg 应用控制器 DB_App1

注意：在此示例中，资源组策略设置为“仅在主节点上联机”（命令中的默认值，并且不需要输入），“切换到下一个可用节点”和“从不回退”等最常用的策略。

需要使用具有不同clmgr命令的以下任务来创建上表中概述的集群拓扑和资源组配置：

创建一个集群。 clmgr add cluster SampleCluster repository=hdisk10 nodes=nodea.dfw.ibm.com, nodeb.dfw.ibm.com 添加服务IP。 clmgr add service_ip sharedIP network=net_ether_01 定义应用程序控制器： clmgr add application_controller DB_app1 startscript="/usr/local/hascripts/DB_app_start.sh" stopscript="/usr/local/hascripts/DB_app_stop.sh" 创建资源组： clmgr add rg DB_app1_rg nodes=nodea.dfw.ibm.com, nodeb.dfw.ibm.com startup=ohn fallback=nfb service_label=sharedIP volume_group=sharedvg application=DB_app1 验证和同步集群： clmgr sync cluster

注意：仅在首次同步集群定义之后，才会显示在存储库磁盘上创建的CAA私有卷组。这是一个手动卷组，不应通过AIX LVM对其进行修改，镜像或扩展。另请注意，可以修改示例中的语法选项以包括其他群集功能。

常见的管理任务

本节概述了可以有效完成相同任务但可以使用clmgr或较旧的旧命令的不同操作或命令。

访问PowerHA SystemMirror SMIT菜单： smitty sysmirror smitty cl_admin 启动集群服务：（不同的选择） clmgr start cluster clmgr online node nodeA clmgr start node node A smitty clstart 停止集群服务：（不同的选择） clmgr stop cluster clmgr offline node nodeA clmgr stop node nodeA smitty clstop 验证/同步集群： clmgr verify cluster clmgr sync cluster 移动资源组：（不同的选择） clmgr move rg rgA, rgB node=nodeA （具有多个RG的移动是串行执行的） clRGmove -g RGname -n nodeA -m 添加一个应用程序监视器： clmgr add mon appA_mon TYPE=Custom APPLICATION=appA MONITORINTERVAL=60 FAILUREACTION=fallover STABILIZATION=300 RESTARTINTERVAL=1200 CLEANUPMETHOD=/usr/local/hascripts/appA_cleanup.sh RESTARTMETHOD=/usr/local/hascripts/appA_restart.sh RESTARTCOUNT=3 MONITORMETHOD=/usr/local/hascripts/appA_monitor.sh 暂停/恢复应用程序监视： clmgr manage application_controller suspend test_app1 clmgr resume application_controller resume test_app1

注意： clmgr操作将自动挂载文件系统，并更新其他集群节点中的ODM和/ etc / filesystems文件。如果已将卷组定义为资源组，则群集将自动管理文件系统。

验证IP多播流量：（必须在每个节点上运行） mping –v –r –a 228.10.10.1 (nodeA – receive flag) mping –v –s –a 228.10.10.1 (nodeB – send flag) 显示/修改可调项： clctrl – tune –L display default and set tunable values

样本输出：

root@mhoracle1 /> clctrl -tune -L NAME DEF MIN MAX UNIT SCOPE ENTITY_NAME(UUID) CUR config_timeout 240 0 2G-1 seconds c n sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) 240 deadman_mode a c n sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) a hb_src_disk 1 -1 3 c sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) 1 hb_src_lan 1 -1 3 c sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) 1 hb_src_san 2 -1 3 c sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) 2 link_timeout 30000 0 1171K milliseconds c n sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) 30000 node_down_delay 10000 5000 600000 milliseconds c n sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) 10000 node_timeout 20000 10000 600000 milliseconds c n sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) 20000 packet_ttl 32 1 64 c n sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) 32 remote_hb_factor 10 1 100 c sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) 10 repos_mode e c n sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) e site_merge_policy p c sapdemo71_cluster(1de50be8-6ab0-11e2-ace9-46a6ba546402) p n/a means parameter not supported by the current platform or kernel Scope codes: c = clusterwide: applies to the entire cluster s = per site: may be applied to one or more sites n = per node: may be applied to one or more nodes i = per interface: may be applied to one or more communication interfaces Value conventions: K = Kilo: 2^10 G = Giga: 2^30 P = Peta: 2^50 M = Mega: 2^20 T = Tera: 2^40 E = Exa: 2^60

注意：在AIX 61 TL9和AIX 71 TL3中，可用性得到增强，允许用户在[-b address]上指定要映射的接口的IP地址。请注意，在以前的版本中，只要命令可以关闭服务器上的接口之一，这些命令就可以报告成功。

CAA增强了可用性： bos.cluster.rte CAA软件包引入了clcmd命令。它使管理员可以在单个窗口中执行命令并从所有群集节点收集信息。 clcmd netstat –in显示所有群集节点的所有接口和IP clcmd lspv显示来自所有群集节点的所有物理卷标识符（ clcmd lspv ）和VG信息

样本输出：

root@mhoracle1 /> clcmd netstat –in ------------------------------- NODE mhoracle2.dfw.ibm.com ------------------------------- Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll en0 1500 link#2 32.43.2b.33.8a.2 3256281 0 267653 0 0 en0 1500 9.19.51 9.19.51.212 3256281 0 267653 0 0 lo0 16896 link#1 378442 0 378442 0 0 lo0 16896 127 127.0.0.1 378442 0 378442 0 0 lo0 16896 ::1%1 378442 0 378442 0 0 ------------------------------- NODE mhoracle1.dfw.ibm.com ------------------------------- Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll en0 1500 link#2 46.a6.ba.54.64.2 3318895 0 251392 0 0 en0 1500 9.19.51 9.19.51.239 3318895 0 251392 0 0 en0 1500 9.19.51 9.19.51.211 3318895 0 251392 0 0 lo0 16896 link#1 283853 0 283853 0 0 lo0 16896 127 127.0.0.1 283853 0 283853 0 0 lo0 16896 ::1%1 283853 0 283853 0 0

样本输出：

root@mhoracle1 /> clcmd lspv ------------------------------- NODE mhoracle2.dfw.ibm.com ------------------------------- hdisk0 00c23c9fedcf8f86 rootvg active hdisk1 00f604142514be43 sapvg concurrent hdisk2 00f604142514beb0 oravg concurrent hdisk3 00f604142514bf1c None hdisk4 00f604142514bfb3 None hdisk5 00f604142514c023 None hdisk6 00f604142514c090 None hdisk9 00f626d13aa3645a caavg_private active hdisk7 00f604143a421dd3 sapersvg concurrent hdisk8 00f604143a4243c4 sapsgfvg concurrent ------------------------------- NODE mhoracle1.dfw.ibm.com ------------------------------- hdisk0 00f60414ed2ecec2 rootvg active hdisk1 00f604142514be43 sapvg concurrent hdisk2 00f604142514beb0 oravg concurrent hdisk3 00f604142514bf1c None hdisk4 00f604142514bfb3 None hdisk5 00f604142514c023 None hdisk6 00f626d1ffcc98bb scrap_backup_vg active hdisk9 00f626d13aa3645a caavg_private active hdisk7 00f604143a421dd3 sapersvg concurrent hdisk8 00f604143a4243c4 sapsgfvg concurrent 更换存储库磁盘： clmgr replace repository new_disk

集群状态监控

本节概述了许多命令，以检查所使用的代码级别以及相应的群集守护程序和服务的状态。提供了示例输出，但是您可能需要在自己的环境中进行实验，以查看哪些对您最有用。

产品版本 halevel –s lslpp -l cluster.es.server.rte lssrc –ls clstrmgrES | grep fix clmgr query version

样本输出：

root@mhoracle1 /> halevel -s 7.1.2 SP3 root@mhoracle1 /> lslpp -l cluster.es.server.rte Fileset Level State Description Path: /usr/lib/objrepos cluster.es.server.rte 7.1.2.3 COMMITTED Base Server Runtime Path: /etc/objrepos cluster.es.server.rte 7.1.2.3 COMMITTED Base Server Runtime root@mhoracle1 /> lssrc -ls clstrmgrES | grep fix cluster fix level is "3" root@mhoracle1 /> clmgr query version SystemMirror Information: ========================= Version: 7.1.2 SP3 Build Level: 1323C_hacmp712 (Jul 12 2013, 14:21:00) Cluster Type: Multi Site Cluster Deployment (Stretched Cluster) CAA Information: ================ Oct 30 2012 14:30:59 h2012_44A1 @(#) _kdb_buildinfo unix_64 Oct 30 2012 14:30:59 h2012_44A1 Cluster Configured: Yes. Host Information: ================= HOSTNAME: mhoracle1.dfw.ibm.com IPADDRESS: 9.19.51.211 LOCALHOST: true HAVERSION: 7.1.2.3 VERSION_NUMBER: 14 HAEDITION: STANDARD AIX_LEVEL: 7100-02-01-1245 Director Information: ===================== DIRECTOR_AGENT_STATUS: ACTIVE DIRECTOR_AGENT_PLUGIN_STATUS: ACTIVE DIRECTOR_AGENT_PLUGIN_VERSION: 7.1.2.0 DIRECTOR_AGENT_PLUGIN_INST_DATE: Tue Jan 29 13:39:55 CST6CDT 2013 DIRECTOR_AGENT_PLUGIN_BUILD_DATE: Monday October 08, 2012 at 10:09:01 DIRECTOR_AGENT_FILE_SYSTEM: 96% DIRECTOR_AGENT_TRACE_LEVEL: NORMAL DIRECTOR_AGENT_MANAGER: DIRECTOR_AGENT_EVENT_STATUS: ERROR 查询集群设置/状态： clmgr query cluster clmgr –v –a name,state,raw_state query node lssrc –ls clstrmgrES | grep state clshowsrv –v

样本输出：

root@mhoracle1 /> clmgr query cluster CLUSTER_NAME="sapdemo71_cluster" CLUSTER_ID="1120652512" STATE="STABLE" TYPE="SC" VERSION="7.1.2.3" VERSION_NUMBER="14" EDITION="STANDARD" CLUSTER_IP="228.19.51.211" UNSYNCED_CHANGES="false" SECURITY="Standard" FC_SYNC_INTERVAL="10" RG_SETTLING_TIME="0" RG_DIST_POLICY="node" MAX_EVENT_TIME="180" MAX_RG_PROCESSING_TIME="180" DAILY_VERIFICATION="Enabled" VERIFICATION_NODE="Default" VERIFICATION_HOUR="0" VERIFICATION_DEBUGGING="Enabled" LEVEL="DISABLED" ALGORITHM="" GRACE_PERIOD_SEC="" REFRESH="" MECHANISM="" CERTIFICATE="" PRIVATE_KEY="" HEARTBEAT_FREQUENCY="20" GRACE_PERIOD="10" SITE_POLICY_FAILURE_ACTION="fallover" SITE_POLICY_NOTIFY_METHOD="" SITE_HEARTBEAT_CYCLE="0" SITE_GRACE_PERIOD="0" root@mhoracle1 /> clmgr -v -a name,state,raw_state query node NAME="mhoracle1" STATE="NORMAL" RAW_STATE="ST_STABLE" NAME="mhoracle2" STATE="NORMAL" RAW_STATE="ST_STABLE" root@mhoracle1 /> lssrc -ls clstrmgrES | grep state Current state: ST_STABLE root@mhoracle1 /> clshowsrv -v Status of the RSCT subsystems used by HACMP: Subsystem Group PID Status cthags cthags 5243090 active ctrmc rsct 5439656 active Status of the HACMP subsystems: Subsystem Group PID Status clstrmgrES cluster 5505208 active clcomd caa 7405578 active Status of the optional HACMP subsystems: Subsystem Group PID Status clinfoES cluster inoperative 显示集群配置： cltopinfo clmgr(查看基本报告） cllsif （群集拓扑视图） clshowres （资源组配置视图）

样本输出：

root@mhoracle1 /> cltopinfo Cluster Name: sapdemo71_cluster Cluster Connection Authentication Mode: Standard Cluster Message Authentication Mode: None Cluster Message Encryption: None Use Persistent Labels for Communication: No Repository Disk: hdisk9 Cluster IP Address: 228.19.51.211 There are 2 node(s) and 1 network(s) defined NODE mhoracle1: Network net_ether_01 sharesvc1 9.19.51.239 mhoracle1 9.19.51.211 NODE mhoracle2: Network net_ether_01 sharesvc1 9.19.51.239 mhoracle2 9.19.51.212 Resource Group SAP_rg Startup Policy Online On Home Node Only Fallover Policy Fallover To Next Priority Node In The List Fallback Policy Never Fallback Participating Nodes mhoracle1 mhoracle2 Service IP Label sharesvc1 root@mhoracle1 /> clmgr view report basic Cluster Name: sapdemo71_cluster Cluster Connection Authentication Mode: Standard Cluster Message Authentication Mode: None Cluster Message Encryption: None Use Persistent Labels for Communication: No Repository Disk: hdisk9 Cluster IP Address: 228.19.51.211 There are 2 node(s) and 1 network(s) defined NODE mhoracle1: Network net_ether_01 sharesvc1 9.19.51.239 mhoracle1 9.19.51.211 NODE mhoracle2: Network net_ether_01 sharesvc1 9.19.51.239 mhoracle2 9.19.51.212 Resource Group SAP_rg Startup Policy Online On Home Node Only Fallover Policy Fallover To Next Priority Node In The List Fallback Policy Never Fallback Participating Nodes mhoracle1 mhoracle2 Service IP Label sharesvc1 root@mhoracle1 /> cllsif Adapter Type Network Net Type Attribute Node IP Address Hardware Address Interface Name Global Name Netmask Alias for HB Prefix Length mhoracle1 boot net_ether_01 ether public mhoracle1 9.19.51.211 en0 255.255.255.0 24 sharesvc1 service net_ether_01 ether public mhoracle1 9.19.51.239 255.255.255.0 24 mhoracle2 boot net_ether_01 ether public mhoracle2 9.19.51.212 en0 255.255.255.0 24 sharesvc1 service net_ether_01 ether public mhoracle2 9.19.51.239 255.255.255.0 24 root@mhoracle1 /> clshowres Resource Group Name SAP_rg Participating Node Name(s) mhoracle1 mhoracle2 Startup Policy Online On Home Node Only Fallover Policy Fallover To Next Priority Node In The List Fallback Policy Never Fallback Site Relationship ignore Node Priority Service IP Label sharesvc1 Filesystems ALL Filesystems Consistency Check fsck Filesystems Recovery Method parallel Filesystems/Directories to be exported (NFSv3) /asap /sapmnt/TST /usr/sap/trans Filesystems/Directories to be exported (NFSv4) Filesystems to be NFS mounted Network For NFS Mount Filesystem/Directory for NFSv4 Stable Storage Volume Groups sapvg oravg sapersvg sapsgfvg Concurrent Volume Groups Use forced varyon for volume groups, if necessary false Disks Raw Disks Disk Error Management? no GMVG Replicated Resources GMD Replicated Resources PPRC Replicated Resources SVC PPRC Replicated Resources EMC SRDF® Replicated Resources Hitachi TrueCopy® Replicated Resources Generic XD Replicated Resources AIX Connections Services AIX Fast Connect Services Shared Tape Resources Application Servers sap Highly Available Communication Links Primary Workload Manager Class Secondary Workload Manager Class Delayed Fallback Timer Miscellaneous Data Automatically Import Volume Groups false Inactive Takeover SSA Disk Fencing false Filesystems mounted before IP configured true WPAR Name Run Time Parameters: Node Name mhoracle1 Debug Level high Format for hacmp.out Standard Node Name mhoracle2 Debug Level high Format for hacmp.out Standard 资源位置： clRGinfo –p

样本输出：

root@mhoracle1 /> clRGinfo -p Cluster Name: sapdemo71_cluster Resource Group Name: SAP_rg Node Group State ---------------------------- --------------- mhoracle1 ONLINE mhoracle2 OFFLINE CAA命令： lscluster –c （集群配置，多播地址） lscluster –i （集群接口的状态） lscluster –d （集群存储接口） lcluster –m （集群节点配置信息）

样本输出：

root@mhoracle1 /> lscluster -c Cluster Name: sapdemo71_cluster Cluster UUID: 1de50be8-6ab0-11e2-ace9-46a6ba546402 Number of nodes in cluster = 2 Cluster ID for node mhoracle1.dfw.ibm.com: 1 Primary IP address for node mhoracle1.dfw.ibm.com: 9.19.51.211 Cluster ID for node mhoracle2.dfw.ibm.com: 2 Primary IP address for node mhoracle2.dfw.ibm.com: 9.19.51.212 Number of disks in cluster = 1 Disk = hdisk9 UUID = d3ce4fd5-3003-ac21-9789-6d9a590242fd cluster_major = 0 cluster_minor = 1 Multicast for site LOCAL: IPv4 228.19.51.211 IPv6 ff05::e413:33d3 root@mhoracle1 /> lscluster -i Network/Storage Interface Query Cluster Name: sapdemo71_cluster Cluster UUID: 1de50be8-6ab0-11e2-ace9-46a6ba546402 Number of nodes reporting = 2 Number of nodes stale = 0 Number of nodes expected = 2 Node mhoracle1.dfw.ibm.com Node UUID = 1dfc2d5a-6ab0-11e2-ace9-46a6ba546402 Number of interfaces discovered = 3 Interface number 1, en0 IFNET type = 6 (IFT_ETHER) NDD type = 7 (NDD_ISO88023) MAC address length = 6 MAC address = 46:A6:BA:54:64:02 Smoothed RTT across interface = 7 Mean deviation in network RTT across interface = 3 Probe interval for interface = 100 ms IFNET flags for interface = 0x1E080863 NDD flags for interface = 0x0021081B Interface state = UP Number of regular addresses configured on interface = 2 IPv4 ADDRESS: 9.19.51.211 broadcast 9.19.51.255 netmask 255.255.255.0 IPv4 ADDRESS: 9.19.51.239 broadcast 9.19.51.255 netmask 255.255.255.0 Number of cluster multicast addresses configured on interface = 1 IPv4 MULTICAST ADDRESS: 228.19.51.211 Interface number 2, sfwcom IFNET type = 0 (none) NDD type = 304 (NDD_SANCOMM) Smoothed RTT across interface = 7 Mean deviation in network RTT across interface = 3 Probe interval for interface = 100 ms IFNET flags for interface = 0x00000000 NDD flags for interface = 0x00000009 Interface state = UP Interface number 3, dpcom IFNET type = 0 (none) NDD type = 305 (NDD_PINGCOMM) Smoothed RTT across interface = 750 Mean deviation in network RTT across interface = 1500 Probe interval for interface = 22500 ms IFNET flags for interface = 0x00000000 NDD flags for interface = 0x00000009 Interface state = UP RESTRICTED AIX_CONTROLLED Node mhoracle2.dfw.ibm.com Node UUID = 1e1476a8-6ab0-11e2-ace9-46a6ba546402 Number of interfaces discovered = 3 Interface number 1, en0 IFNET type = 6 (IFT_ETHER) NDD type = 7 (NDD_ISO88023) MAC address length = 6 MAC address = 32:43:2B:33:8A:02 Smoothed RTT across interface = 7 Mean deviation in network RTT across interface = 3 Probe interval for interface = 100 ms IFNET flags for interface = 0x1E080863 NDD flags for interface = 0x0021081B Interface state = UP Number of regular addresses configured on interface = 1 IPv4 ADDRESS: 9.19.51.212 broadcast 9.19.51.255 netmask 255.255.255.0 Number of cluster multicast addresses configured on interface = 1 IPv4 MULTICAST ADDRESS: 228.19.51.211 Interface number 2, sfwcom IFNET type = 0 (none) NDD type = 304 (NDD_SANCOMM) Smoothed RTT across interface = 7 Mean deviation in network RTT across interface = 3 Probe interval for interface = 100 ms IFNET flags for interface = 0x00000000 NDD flags for interface = 0x00000009 Interface state = UP Interface number 3, dpcom IFNET type = 0 (none) NDD type = 305 (NDD_PINGCOMM) Smoothed RTT across interface = 750 Mean deviation in network RTT across interface = 1500 Probe interval for interface = 22500 ms IFNET flags for interface = 0x00000000 NDD flags for interface = 0x00000009 Interface state = UP RESTRICTED AIX_CONTROLLED root@mhoracle1 /> lscluster -d Storage Interface Query Cluster Name: sapdemo71_cluster Cluster UUID: 1de50be8-6ab0-11e2-ace9-46a6ba546402 Number of nodes reporting = 2 Number of nodes expected = 2 Node mhoracle1.dfw.ibm.com Node UUID = 1dfc2d5a-6ab0-11e2-ace9-46a6ba546402 Number of disks discovered = 1 hdisk9: State : UP uDid : 3E213600A0B80001132D0000020024D3850960F1815 FAStT03IBMfcp uUid : d3ce4fd5-3003- ac21-9789-6d9a590242fd Site uUid : 51735173-5173-5173-5173- 517351735173 Type : REPDISK Node mhoracle2.dfw.ibm.com Node UUID = 1e1476a8-6ab0-11e2-ace9-46a6ba546402 Number of disks discovered = 1 hdisk9: State : UP uDid : 3E213600A0B80001132D0000020024D3850960F1815 FAStT03IBMfcp uUid : d3ce4fd5-3003- ac21-9789-6d9a590242fd Site uUid : 51735173-5173-5173-5173- 517351735173 Type : REPDISK root@mhoracle1 /> lscluster -m Calling node query for all nodes... Node query number of nodes examined: 2 Node name: mhoracle1.dfw.ibm.com Cluster shorthand id for node: 1 UUID for node: 1dfc2d5a-6ab0-11e2-ace9-46a6ba546402 State of node: UP NODE_LOCAL Smoothed rtt to node: 0 Mean Deviation in network rtt to node: 0 Number of clusters node is a member in: 1 CLUSTER NAME SHID UUID sapdemo71_cluster 0 1de50be8-6ab0- 11e2-ace9-46a6ba546402 SITE NAME SHID UUID LOCAL 1 51735173-5173-5173-5173- 517351735173 Points of contact for node: 0 ---------------------------------------------------------------------------- Node name: mhoracle2.dfw.ibm.com Cluster shorthand id for node: 2 UUID for node: 1e1476a8-6ab0-11e2-ace9-46a6ba546402 State of node: UP Smoothed rtt to node: 7 Mean Deviation in network rtt to node: 3 Number of clusters node is a member in: 1 CLUSTER NAME SHID UUID sapdemo71_cluster 0 1de50be8-6ab0- 11e2-ace9-46a6ba546402 SITE NAME SHID UUID LOCAL 1 51735173-5173- 5173-5173-517351735173 Points of contact for node: 3 ------------------------------------------ Interface State Protocol Status ------------------------------------------ dpcom DOWN none RESTRICTED en0 UP IPv4 none sfwcom UP none none

仅当在lscluster -m输出中可见sfwcom时，SANCOMM才起作用：

Interface State Protocol Status dpcom DOWN none RESTRICTED en0 UP IPv4 none sfwcom UP none none

lscluster –s群集统计信息

You can also check the sent and received storage packet counts in lscluster -s: storage pkts sent: 168493709 storage pkts recv: 82575360 # clras sancomm_status NAME UUID STATUS nodeA.dfw.ibm.com | e9b4d6a4-5e71-11-e2-af42-00145ee726e1 | UP |

lscluster –完整的样本输出

root@mhoracle1 /> lscluster -s Cluster Network Statistics: pkts seen: 15627136 passed: 3335048 IP pkts: 12873577 UDP pkts: 12344880 gossip pkts sent: 2470583 gossip pkts recv: 4932115 cluster address pkts: 0 CP pkts: 12292272 bad transmits: 0 bad posts: 33 Bad transmit (overflow): 0 Bad transmit (host unreachable): 0 Bad transmit (net unreachable): 0 Bad transmit (network down): 0 Bad transmit (no connection): 0 short pkts: 0 multicast pkts: 11664024 cluster wide errors: 0 bad pkts: 0 dup pkts: 398159 pkt fragments: 10964 fragments queued: 0 fragments freed: 0 pkts pulled: 0 no memory: 0 rxmit requests recv: 619 requests found: 511 requests missed: 157 ooo pkts: 76 requests reset sent: 157 reset recv: 90 remote tcpsock send: 0 tcpsock recv: 0 rxmit requests sent: 696 alive pkts sent: 0 alive pkts recv: 0 ahafs pkts sent: 14 ahafs pkts recv: 4 nodedown pkts sent: 0 nodedown pkts recv: 0 socket pkts sent: 24859 socket pkts recv: 24910 cwide pkts sent: 990856 cwide pkts recv: 992280 socket pkts no space: 0 pkts recv notforhere: 0 Pseudo socket pkts sent: 0 Pseudo socket pkts recv: 0 Pseudo socket pkts dropped: 0 arp pkts sent: 3 arp pkts recv: 1 stale pkts recv: 0 other cluster pkts: 2 storage pkts sent: 6022728 storage pkts recv: 5825646 disk pkts sent: 7023 disk pkts recv: 7508 unicast pkts sent: 435987 unicast pkts recv: 680571 out-of-range pkts recv: 0 IPv6 pkts sent: 0 IPv6 pkts recv: 0 IPv6 frags sent: 0 IPv6 frags recv: 0 Unhandled large pkts: 0

样本配置文件

/ etc /集群/主机

9.10.10.1 9.10.10.2

/ etc / hosts

127.0.0.1 loopback # PowerHA SystemMirror Cluster IP Addresses 9.10.10.1 nodea.dfw.ibm.com nodeA # node A base address 9.10.10.2 nodeb.dfw.ibm.com nodeB # node B base address 9.10.10.10 shared_ip.dfw.ibm.com shared_ip # Shared SVC IP address

/etc/netsvc.conf

hosts=local,bind

/etc/resolv.conf

nameserver 9.0.1.1 domain dfw.ibm.com

/usr/es/sbin/cluster/netmon.cf

9.10.10.6 !REQD owner target !IBQPORT owner !IBQPORTONLY owner Reference /usr/sbin/rsct/samples/hats/netmon.cf Documentation APARs: IZ01332 IZ01332

应用程序控制器脚本

/usr/local/hascripts/appA_start.sh（基本的SAP示例）

#!/bin/ksh su – orastst –c "lsnrctl start" su – tstadm –c "startsap" exit 0

/usr/local/hascripts/appA_stop.sh（基本的SAP示例）

#!/bin/ksh su – tstadm –c "stopsap" su – oratst –c "lsnrctl stop" exit 0

/usr/local/hascripts/appA_monitor.sh

#/bin/ksh …user provided logic …. exit 0

有用的集群日志文件

/var/hacmp/log/hacmp.out（详细的事件处理）

Aug 14 16:34:49 EVENT START: node_up nodea :node_up [165] [[ high==high ]] :node_up [165] version=1.10.11.32 :node_up [167] node_up_vg_fence_init …… ......

/var/hacmp/adm/cluster.log（高级集群事件）

Aug 14 16:34:49 nodea user:notice PowerHA SystemMirror for AIX: EVENT START: node_up nodea Aug 14 16:34:51 nodea user:notice PowerHA SystemMirror for AIX: EVENT COMPLETED: node_up nodea …... …..

/var/hacmp/log/clutils.log（由集群实用程序生成）

CLMGR STARTED (9153:10254698:5177392) : Thu Aug 14 16:34:49 CET 2013 CLMGR USER (9153:10254698:5177392) : ::root:system CLMGR COMMAND (9153:10254698:5177392) : clmgr online node nodea CLMGR ACTUAL (9153:10254698:5177392) : start_node nodea

/var/adm/ras/syslog.caa（CAA日志记录和故障排除）

Aug 14 16:34:28 nodea caa:info syslog: caa_query.c cl_get_capability 2594 There are 2 more capabilities defined at level 131072 Aug 14 16:34:49 nodea caa:info syslog: caa_query.c cl_get_capability 2594 There are 2 more capabilities defined at level 131072 检查也很有用： /var/hacmp/clverify/clverify.log（有关详细的验证检查输出） /var/hacmp/clcomd/clcomd.log（用于解决通信问题） /var/hacmp/log/cspoc.log.long（有关CSPOC的详细信息 /var/hacmp/log/clstrmgr.debug（由clstrmgr守护程序生成） /var/hacmp/log/autoverify.log（通过每晚验证生成）

有用的参考

IBM红皮书 SG24-8106适用于AIX的PowerHA SM 7.1.2企业版 SG24-8030 PowerHA SM Standard Edition for AIX 7.1.1更新 SG24-7841适用于AIX的PowerHA SM 6.1.0企业版 PowerHA SystemMirror外部站点（常见问题，文档，参考） IBM Systems Magazine“ clmgr”技术参考 YouTube视频（很多）从PowerHA SystemMirror 6.1。到v7.1.2的脱机迁移滚动迁移到PowerHA SystemMirror v7 为AIX集群配置PowerHA SystemMirror V7.1 – IBM培训使用IBM Systems Director演示配置PowerHA v7.1.2 IBM DeveloperWorks PowerHA（HACMP）论坛

翻译自: https://www.ibm.com/developerworks/aix/tutorials/au-ibm-powerha-system-mirror/index.html