故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。
一个完整的故障演练过程为 创建故障原子服务 > 创建故障演练场景 > 创建并发布演练方案 > 创建演练执行单并执行 > 查看演练报告 > 导出演练方案。
演练场景模块允许您根据容灾需要,自行设计故障演练场景,并对已创建的演练场景进行管理。此外,演练场景模块在原子能力的基础上还提供开箱即用的经验模板。
创建演练场景
在设置故障演练场景的每一个步骤时,可以根据需要设置是否在演练时自动执行该步骤。
操作步骤如下:
登录高可用管理控制台。
在左侧导航栏上,单击 故障演练 > 演练场景。
单击页面上的 创建演练场景 按钮,进入演练场景创建页面。
完成基本信息配置后,单击 下一步。
场景名称:自定义的场景名称。必填。
标签:选择所属标签。
场景描述:输入关于故障场景的描述。
预期目标:填写故障可能会造成的影响。
问题严重度:选择问题严重度。
说明关于问题严重程度,P0 代表严重程度最高,P4 代表严重程度最低。
关联的风险场景:选择关联的风险场景。如需关联多个风险场景,单击 添加 即可。
(可选)完成前置检查项配置后,单击 下一步。
设置是否在演练时自动执行该步骤,系统默认自动执行。若不想要自动执行,将 是否自动执行 设为 否。
添加检查项。支持通过巡检检查和通过测试镜像检查两种方式,可以添加多个检查项。
如果选择 通过巡检检查,需进行以下配置:
巡检规则:执行检查的巡检规则。
执行机房:执行巡检规则的机房。
期望结果:期望巡检通过或失败。
如果选择 通过测试镜像检查,需进行以下配置:
镜像产品:选择测试镜像。镜像产品必须与基本信息中选择的所属产品保持一致。
期望结果:期望巡检通过或失败。
注入故障。完后以下配置后,单击 下一步。
设置是否在演练时自动执行该步骤,系统默认自动执行。若不想要自动执行,将 是否自动执行 设为 否。
单击 添加故障注入,完成故障注入配置。
故障节点类型:支持 蚂蚁产品、用户应用、AKE 宿主机节点 或 自定义服务器。
如果选择 蚂蚁产品,需进行以下配置。
配置项
说明
故障注入产品
选择注入故障的产品。
应用
选择注入故障的应用。
IP 列表
指定执行演练的 IP 地址,如果有多个,可以用逗号分隔。
说明指定 IP 后,该演练场景不能在多个环境之间进行同步。
原子操作
根据实际业务需求选择原子操作。
重要请确保集群中已安装故障注入组件。该组件可以通过 容器应用服务(AKS)> 集群管理 > 组件管理 进行安装。
如果选择 用户应用,需进行以下配置。
配置项
说明
故障注入应用
选择注入故障的应用。支持选择多个应用。
工作空间组
选择注入故障应用所在的工作空间组。支持选择多个工作空间组。
命名空间
选择注入故障应用所在的命名空间。支持选择多个命名空间。
应用服务
选择一个或多个应用服务。
IP 列表
指定执行演练的 IP 地址,如果有多个,可以用逗号分隔。
说明指定 IP 后,该演练场景不能在多个环境之间进行同步。
label
指定物理机的 label。
原子操作
根据实际业务需求选择原子操作。
重要请确保集群中已安装故障注入组件。该组件可以通过 容器应用服务(AKS)> 集群管理 > 组件管理 进行安装。
如果选择 AKE 宿主机节点 或 自定义服务器,需进行以下配置。
配置项
说明
IP 列表
指定执行演练的 IP 地址,如果有多个,可以用逗号分隔。
说明指定 IP 后,该演练场景不能在多个环境之间进行同步。
原子操作
根据实际业务需求选择原子操作。
重要请确保集群中已安装故障注入组件。该组件可以通过 容器应用服务(AKS)> 集群管理 > 组件管理 进行安装。
原子操作设置:根据所选的原子操作设置对应的参数值。
(可选)故障恢复。完成以下配置后,单击 完成。
设置是否在演练时自动执行该步骤,系统默认不自动执行。若想要自动执行,将 是否自动执行 设为 是。
选择应急预案。
更多操作
修改演练场景
可通过如下方式对演练场景执行修改操作:
在 演练场景 页面,单击目标演练场景 操作 列下的 编辑,即可编辑场景,后续操作同创建演练场景。
单击目标演练场景名称,进入演练场景详情页,然后单击页面右上方的 编辑,开始修改演练场景中的各个步骤。
克隆演练场景
克隆演练场景,指基于已有的演练场景复制出一个新的演练场景。
在 演练场景 页面,单击目标演练场景 操作 列下的 > 克隆,克隆出一个新场景。然后根据需要,对克隆出来的演练场景配置进行修改。修改操作同编辑演练场景。
废弃演练场景
对于不再使用的演练场景,可以将其废弃。
在 演练场景 页面,单击目标演练场景 操作 列下的 > 废弃,使该场景失效。废弃后的演练场景后,仍会显示在演练场景列表中,状态会变为已废弃。
如果确定不再需要废弃后的演练场景,可将其删除。详情请参见 删除演练场景。
删除演练场景
演练场景删除后,不可恢复,请谨慎操作。
可以通过如下方式来删除演练场景:
在 演练场景 页面,单击目标演练场景 操作 列下的 > 删除。演练场景删除后,将不再显示在演练场景列表中。
更多操作
在演练场景列表页,您还可以基于目标演练场景快速创建演练方案,具体步骤如下:
在 演练场景 页面,单击目标演练场景 操作 列下的 > 创建演练方案。
在 创建演练方案 页面,只需填写演练方案名称和描述即可完成创建。详情请参见 创建演练方案。