【合法买球平台】DB2 PureScale无法启动处理报告

一、问题描述

客户核心营销系统DB2 PureScale数据库突发故障，宕机后无法启动。

硬件资源：CPU 40Core /MEM 128G

操作系统：RedHat 7.5

DB2版本：DB2 v11.1.4.5

二、问题分析

工程师查看发现数据库集群已经异常停止，并伴有Error的错误：

节点无法与集群管理器建立会话：

数据库日志有“Repair Domian failed”（修复集群失败的错误）：

手动启动失败，无法正常启动：

查看GPFS日志发现有GPFS无法正常准备的错误，两边此时GPFS的文件系统无法正常挂载：

DB2 PureScale使用GPFS作为共享文件系统，若GPFS故障，将导致DB2数据库无法使用：

三、问题处理

针对GPFS: 6027-305问题，查阅官方Guide，修改verifyGpfsReady为no，通过禁用verifyGpfsReady功能，解决/var/mmfs/etc/gpfsready不能成功执行的问题。执行后，GPFS可以正常启动，文件系统可自动挂载。

1、DB2 PureScale集群服务包含三个主要组件：

集群管理器：Tivoli SA MP，其中包含了可靠的可伸缩集群技术 (RSCT)；

共享的集群化文件系统：IBM 通用并行文件系统 (GPFS)；

DB2 集群管理：用于管理与监控集群的 DB2 命令与管理视图；

2、此时GPFS的故障已经解决，lsrpdomain、lsrpnode等RSCT命令在一个节点上可以执行，但在另一个节点上执行时，报错2612-022：

RSCT资源组未正常启动：

无法获取配置资源管理器状态：

由此判断RSCT发生问题：

3、执行以下步骤重新建立两个节点间远程客户端连接。

/usr/sbin/rsct/bin/rmcctrl -A

/usr/sbin/rsct/bin/rmcctrl -p

至此，数据库可以正常启动：

四、经验总结

1、出现此类问题时，逐一分析排查DB2、GPFS、RSCT等日志，准确定位故障原因；

2、与客户沟通得知系统管理员当天升级了OpenSSH，工程师由此判断：升级OpenSSH导致DB2集群两个节点信任出现了问题；

3、维护人员在对系统做出变更前后，应及时通知使用该设备的相关人员，包括系统管理员、数据库管理员、应用维护人员，以便应对突发故障。

如欲了解更多，请登录合法买球平台官方网站:fc8x.1acart.com

运维管理