powerha

    技术2024-07-04  101

    IBM PowerHA SystemMirror 7.2版引入了一项称为自动存储库磁盘替换(ARR)的新功能。

    配置此功能后,当活动集群存储库磁盘发生故障或无法访问时,可以防止集群进入受限模式 。 当检测到存储库磁盘故障,集群感知AIX(CAA),PowerHA的子系统时,会将集群存储库更新为备份列表中的任何其他可用备份存储库,并且集群将处于工作模式。

    存储库磁盘的定义和受限模式

    存储库磁盘是在群集的所有节点之间共享的磁盘,并充当配置和群集管理操作的中央存储库。

    在PowerHA的早期版本中,如果存储库磁盘发生故障,则集群将进入受限模式。 当群集处于受限模式时,仅允许进行关键的群集配置操作,例如将资源组从活动节点移动到备用节点。大多数与拓扑相关的操作,例如将节点添加到群集或进行同步不允许群集。 为了使群集脱离受限模式,管理员需要手动干预,在该操作中,必须手动配置备用存储库磁盘。

    如何使用ARR防止群集进入受限模式?

    在PowerHA 7.2版或更高版本中,管理员最多可以配置六个备份磁盘,这些备份磁盘可用作存储库磁盘。 当存储库磁盘发生故障时,PowerHA的CAA子系统将自动使用备用的预定义备份存储库替换并重建发生故障的存储库。 此交换将在syslog.caa文件中记录通知和信息。

    如果您有一个链接集群,其中有两个站点及其各自的CAA集群和关联的存储库磁盘,则可以为每个站点配置六个备份存储库磁盘。 由于标准群集和扩展群集只有一个CAA群集,因此可以配置六个备份存储库磁盘。

    支持的软件版本和前提条件

    ARR功能需要以下版本的PowerHA和AIX软件:

    PowerHA SystemMirror版本7.2或更高版本。 以下是IBMAIX®操作系统的以下版本之一: AIX 7.1.4或更高版本 AIX版本7.2.0或更高版本 相应的可靠可伸缩集群技术(RSCT)版本以及AIX版本。

    ARR的PowerHA集群配置

    图1:具有相同集群存储库和备份磁盘的扩展集群

    在本文中,我们将考虑一个具有两个站点的扩展集群,其中每个站点由一个节点组成。 SiteA是生产站点,SiteB是辅助站点。 Node1与SiteA关联,Node2与SiteB关联。

    以下是具有一个网络和一个资源组的群集配置。

    (0) root @ Node1: / # cltopinfo Cluster Name: Node1_cluster Cluster Type: Stretched Heartbeat Type: Multicast Repository Disk: hdisk1 (00f601736b563ee7) Cluster IP Address: 228.40.1.43 Cluster Nodes: Site 1 (SiteA): Node1 Site 2 (SiteB): Node2 There are 2 node(s) and 1 network(s) defined NODE Node1: Network net_ether_01 Node1 10.40.1.43 NODE Node2: Network net_ether_01 Node2 10.40.1.44 Resource Group RG1 Startup Policy Online On Home Node Only Fallover Policy Fallover To Next Priority Node In The List Fallback Policy Fallback To Higher Priority Node In The List Participating Nodes Node1 Node2

    在此群集配置中, hdisk1(00f601736b563ee7)具有caavg ,它是Node1和Node2的群集存储库,并且所有与群集相关的操作均从Node1执行。 从Node1完成同步后,对群集的所有更改都将传播到整个群集节点。

    (0) root @ Node1: / # lspv hdisk0 00f60173354ccb32 rootvg active hdisk1 00f601736b563ee7 caavg_private active (0) root @ Node2: / # lspv hdisk0 00f60173354cc8d9 rootvg active hdisk1 00f601736b563ee7 caavg_private active

    也可以在PowerHA clmgr实用程序命令的帮助下进行查看。

    (0) root @ Node1: /usr/es/sbin/cluster/utilities # clmgr query repository hdisk1 (00f601736b563ee7) (0) root @ Node2: /usr/es/sbin/cluster/utilities # clmgr query repository hdisk1 (00f601736b563ee7)

    对于PowerHA 7.2版和更高版本,运行集群的查询命令可指定是否使ARR可用。

    (0) root @ Node1: / # clmgr query cluster CLUSTER_NAME="Node1_cluster" CLUSTER_ID="1496423755" STATE="OFFLINE" TYPE="NSC" HEARTBEAT_TYPE="MULTICAST" CLUSTER_IP="228.40.1.43" REPOSITORIES="hdisk1 (00f601736b563ee7)" VERSION="7.2.0.1" VERSION_NUMBER="16" EDITION="ENTERPRISE" AGREE_TO_COD_COSTS="false" ONOFF_DAYS="30" LPM_POLICY="" HEARTBEAT_FREQUENCY_DURING_LPM="0" NETWORK_FAILURE_DETECTION_TIME="20" AUTOMATIC_REPOSITORY_REPLACEMENT="available"

    图2显示了配置ARR之前, HACMPsircol对象数据管理器(ODM)在群集节点之一上的对象的输出。 如您backup_repository , backup_repository字段为空。 HACMPsircol是ODM中与PowerHA相关的对象之一。 该对象将集群信息与存储库磁盘信息一起存储。

    图2:添加备份存储库磁盘之前的HACMPsircol输出

    您可以使用系统管理界面工具(SMIT)菜单或PowerHA clmgr实用程序命令行界面为ARR添加备份存储库。 在本文中,我们将看到如何使用SMIT添加备份存储库磁盘。 请参考以下命令,以使用clmgr实用程序添加备份存储库磁盘。

    (0) root @ Node1: / # clmgr add repository -? clmgr add repository <disk>[,<backup_disk#2>,...] \ [ SITE=<site_label> ] \ [ NODE=<reference_node> ] \ [ DISABLE_VALIDATION={false|true} ] add => create, make, mk repository => rp

    在命令提示符下使用smit hacmp命令打开SMIT界面,然后选择以下选项以添加备份存储库磁盘(如图3所示)。

    Smit hacmp→群集节点和网络→管理存储库磁盘→添加存储库磁盘。

    此操作在Node1上执行。 此后,您需要验证并同步整个集群中的更改。

    图3:添加备份存储库磁盘

    接下来,您需要从可用磁盘列表中选择备份存储库。 在这种情况下,将选择四个备份磁盘,如图4所示。ARR最多允许六个磁盘。

    图4:从可用共享磁盘中选择一个备份台

    添加磁盘后,如果磁盘成功添加到集群,则会显示命令状态消息(如图5所示)。

    图5:添加备份磁盘后的命令状态

    下一步是同步集群,以使配置反映在集群的所有节点上。 可以使用PowerHA提供的验证和同步选项来完成此操作。

    集群同步后,配置更改会反映在集群的所有节点上。 在每个节点上使用clmgr view report repository命令验证此信息。 这使您能够识别添加为备份磁盘的磁盘,以及当前群集处于活动状态的磁盘。

    站点A上的Node1

    (0) root @ Node1: / # clmgr view report repository Node1_cluster : 00f601736b563ee7 hdisk1(Node2) active 00f601736b563dad hdisk2(Node2) backup 00f601736b563cba hdisk3(Node2) backup 00f601736b563b84 hdisk4(Node2) backup 00f601736b563aa4 hdisk5(Node2) backup

    站点B上的Node2

    (0) root @ Node2: / # clmgr view report repository Node1_cluster : 00f601736b563ee7 hdisk1(Node2) active 00f601736b563dad hdisk2(Node2) backup 00f601736b563cba hdisk3(Node2) backup 00f601736b563b84 hdisk4(Node2) backup 00f601736b563aa4 hdisk5(Node2) backup

    在此,hdisk2,hdisk3,hdisk4和hdisk5是备份存储库磁盘。

    现在,每个群集节点上的HACMPsircol ODM对象都包含存储库磁盘的物理卷ID(PVID)。 图6显示了输出以及存储库磁盘和备份磁盘列表。

    图6:添加备份磁盘后的HACMPsircol输出

    设置备份磁盘后,启动群集服务并等待群集稳定。

    磁盘故障演示ARR

    如图6所示,PVID为"00f601736b563ee7" (hdisk1)的磁盘"00f601736b563ee7" (hdisk1)是集群存储库处于活动状态的磁盘。 出于演示目的,我们将使hdisk1上的I / O失败,如果该磁盘是虚拟小型计算机系统接口(VSCSI),则可以通过从虚拟I / O服务器(VIOS)删除磁盘来完成此操作,否则可以将其取消映射如果相应的活动集群存储库磁盘是N_Port ID虚拟化(NPIV),则从存储中进行存储。 如果磁盘来自后端存储,则可以使用光纤通道交换机中的portdisable命令来完成磁盘故障。

    一旦启动群集服务,群集状态将处于活动状态。

    (0) root @ Node1: /home/f/Tools # clcmd lssrc -ls clstrmgrES| grep state Current state: ST_STABLE Current state: ST_STABLE

    为了在本文中演示ARR,使用内核扩展应用程序完成了hdisk1上失败的I / O操作。

    (0) root @ Node1: /home/Tools # lke fail_io_kext a0256000 (0) root @ Node1: /home/Tools/ # fail_io -e /dev/hdisk1 ----------------------- failed I/O enabled I/O fail ON (0) root @ Node1: /home/Tools/ # dd if=/dev/hdisk1 of=/dev/null count=10 dd: 0511-051 The read failed. : There is an input or output error. ---------------- disk is inaccessible 0+0 records in. 0+0 records out.

    磁盘失败事件记录在来自CAA的syslog.caa中。 ARR的大部分工作是由CAA完成的,但是SystemMirror需要连接到CAA,以便配置更改可以从SystemMirror传播到CAA,或从CAA传播到SystemMirror。 图7和图8显示了syslog.caa的日志。 图7显示了当hdisk1发生故障时,启用了ARR,而图8显示了将活动集群存储库磁盘替换为备份列表中的下一个磁盘(即hdisk2)时发生的事件。

    图7:启用了ARR的syslog.caa日志
    图8:将活动磁盘替换为备份磁盘时的syslog.caa日志

    活动群集存储库磁盘发生故障后,活动磁盘将替换为备份存储库列表中的磁盘。 甚至可以使用lspv命令来验证。 图9显示,在hdisk1发生故障后,caavg将被替换并在hdisk2上处于活动状态,CAA会自动更新它,也可以通过检查HACMPsircol ODM值来进行验证。 与图6相比,hdisk1(00f601736b563ee7)存储库处于活动状态,而自动更新存储库后,hdisk2(00f601736b563dad)更改为活动存储库,并将hdisk1(00f601736b563ee7)添加到备份列表中,如图10所示。

    图9:替换存储库磁盘后的lspv输出
    图10:自动替换存储库后的HACMPsircol输出

    也可以使用CAA命令, lscluster -d和clmgr view report repository命令来验证。 lscluster -d命令显示磁盘列表,其中hdisk2是活动存储库磁盘,其他磁盘是备份磁盘。

    (0) root @ Node1: / # lscluster -d Storage Interface Query Cluster Name: Node1_cluster Cluster UUID: 8d6a2434-ccdd-11e5-8077-9a9da6c0850c Number of nodes reporting = 2 Number of nodes expected = 2 Node Node1.ausprv.stglabs.ibm.com Node UUID = 8d5cb556-ccdd-11e5-8077-9a9da6c0850c Number of disks discovered = 5 hdisk2: State : UP uDid : 200B75TL7711A0207210790003IBMfcp uUid : ba63c805-b68d-6157-91bb-b065d22c8c0b Site uUid : 51735173-5173-5173-5173-517351735173 Type : REPDISK hdisk3: State : UP uDid : 200B75TL7711A0307210790003IBMfcp uUid : 58633a20-cedf-ea49-0495-56d72a198b55 Site uUid : 51735173-5173-5173-5173-517351735173 Type : BACKUP_DISK hdisk4: State : UP uDid : 200B75TL7711A0407210790003IBMfcp uUid : 90728701-4766-c3bf-b14c-7406ba8eabe0 Site uUid : 51735173-5173-5173-5173-517351735173 Type : BACKUP_DISK hdisk5: State : UP uDid : 200B75TL7711A0507210790003IBMfcp uUid : 45405d44-d4da-7e18-181b-c2543f826382 Site uUid : 51735173-5173-5173-5173-517351735173 Type : BACKUP_DISK hdisk1: State : UP uDid : 200B75TL7711A0107210790003IBMfcp uUid : f98bc1f1-7220-f3b1-b6ec-aad108357fbb Site uUid : 51735173-5173-5173-5173-517351735173 Type : BACKUP_DISK Node Node2.ausprv.stglabs.ibm.com Node UUID = 8d4eb15e-ccdd-11e5-8077-9a9da6c0850c Number of disks discovered = 5 hdisk2: State : UP uDid : 200B75TL7711A0207210790003IBMfcp uUid : ba63c805-b68d-6157-91bb-b065d22c8c0b Site uUid : 51735173-5173-5173-5173-517351735173 Type : REPDISK hdisk3: State : UP uDid : 200B75TL7711A0307210790003IBMfcp uUid : 58633a20-cedf-ea49-0495-56d72a198b55 Site uUid : 51735173-5173-5173-5173-517351735173 Type : BACKUP_DISK hdisk4: State : UP uDid : 200B75TL7711A0407210790003IBMfcp uUid : 90728701-4766-c3bf-b14c-7406ba8eabe0 Site uUid : 51735173-5173-5173-5173-517351735173 Type : BACKUP_DISK hdisk5: State : UP uDid : 200B75TL7711A0507210790003IBMfcp uUid : 45405d44-d4da-7e18-181b-c2543f826382 Site uUid : 51735173-5173-5173-5173-517351735173 Type : BACKUP_DISK hdisk1: State : UP uDid : 200B75TL7711A0107210790003IBMfcp uUid : f98bc1f1-7220-f3b1-b6ec-aad108357fbb Site uUid : 51735173-5173-5173-5173-517351735173 Type : BACKUP_DISK (0) root @ Node1: /mnt/fvsysmirror/Tools # clmgr view report repository Node1_cluster : 00f601736b563dad hdisk2(Node2) active 00f601736b563cba hdisk3(Node2) backup 00f601736b563b84 hdisk4(Node2) backup 00f601736b563aa4 hdisk5(Node2) backup 00f601736b563ee7 hdisk1(Node2) backup

    如果无法访问备份存储库,则CAA将替换并重建列表中可用的任何备份磁盘,作为活动存储库。

    结论

    您可以使用IBM PowerHA SystemMirror的ARR功能来防止集群在活动集群存储库磁盘发生故障或不可访问时进入受限模式 ,从而确保集群始终保持稳定状态。

    翻译自: https://www.ibm.com/developerworks/aix/library/au-arr-in-ibm-powerha-cluster/index.html

    相关资源:微信小程序源码-合集6.rar
    Processed: 0.017, SQL: 9