预案管理

通过 预案管理 模块,您可以新建一个应急预案,直接执行或将其与风险事件进行关联执行。您还可以对所有的预案进行统一管理,包括查看、编辑、删除预案。

应急预案

新建应急预案

  1. 登录 SOFAStack 控制台。

  2. 在左侧导航栏选择 运维管理高可用管理

  3. 在左侧导航栏上,单击 应急预案 > 预案管理

  4. 单击 新建,在 新建应急预案 页面配置以下基本信息。

    参数说明如下:

    参数

    是否必填

    参数说明

    预案名称

    必填

    输入预案名称。

    预案风险等级

    必填

    选择预案风险等级。共 P0~P4 5 个风险等级可选,P0 代表最高风险等级,P4 代表最低风险等级。

    预案描述

    必填

    输入预案描述。

    预案类型

    必填

    选择预案类型。

    • 定时调度:针对已知场景,定时执行的应急预案,通过钉钉通知到相关人员进行执行。

      预案类型选择 定时调度 时需要配置定时通知策略和业务通知钉钉群,配置说明如下:

      • 开始时间:必填,单击文本框设置定时通知开启时间。

      • 结束时间:必填,单击文本框设置定时通知结束时间。

      • 通知策略:必填,可选 间隔定时,单击文本框填入时间。

      • 通知状态:默认为 关闭 状态,可手动打开/关闭通知开关。

      • 业务通知钉钉群:选填,选择需要接收通知的钉钉群,可多选。

    • 手动应急:对于通过巡检、诊断、监控上报的异常事件,通过风险管理模块进行展示,然后人工操作执行。

    对象类型

    必填

    选择预案的对象类型。

    • 用户应用:全部用户应用、指定用户应用。

    • 蚂蚁产品:全部蚂蚁产品、指定蚂蚁产品。

    • 基础资源:OB、ALB、AKE。

    对象范围

    必填

    输入预案的对象范围。

    • 选择全部产品/应用:该预案可以和所有产品/应用巡检规则关联。执行的时候,针对报出风险的容器去重启。

    • 选择指定产品/应用/资源:该预案只能和指定产品/应用/资源巡检规则关联。执行的时候,针对报出风险的容器去重启。

  5. 预案步骤 区域配置串行步骤。

    1. 添加串行步骤。

      您可以选择添加串行步骤或导入串行步骤,操作步骤如下:

      • 添加串行步骤:单击 添加串行步骤,在右侧弹出的节点列表中选择原子操作,并根据界面提示配置原子操作信息。

      • 导入串行步骤:单击 导入串行步骤,在右侧弹出的预案列表中,从已有预案中导入预案步骤。

      说明

      您可以添加多个串行步骤,各串行步骤将按照添加顺序依次执行。

    2. (可选)添加并行步骤。

      您可以选择添加并行步骤或导入并行步骤,操作步骤如下:

      • 添加并行步骤:单击 添加并行步骤,在右侧弹出的节点列表中选择原子操作,并根据界面提示配置原子操作信息。

      • 导入并行步骤:单击 导入并行步骤,在右侧弹出的预案列表中,从已有预案中导入预案步骤。

      说明

      您可以添加多个并行步骤,各并行步骤将按照添加顺序依次执行。

    3. (可选)调整节点顺序。

      节点添加完毕后,您可以通过单击各节点右上方的 上移下移 按钮进行顺序调整。

  6. 单击 提交,返回至应急预案列表。

    此时,预案状态为 可用,您可以执行该应急预案。

执行应急预案

  1. 在左侧导航栏上,单击 应急预案 > 预案管理

  2. 应急预案 页签,单击目标应急预案 操作 列下的 image..png > 执行。您也可以单击目标应急预案名称进入 应急预案详情 页面,单击页面右上角 执行

  3. 执行应急预案 页面,填写预案执行单名称,并选择目标机房。

  4. 单击 确定 跳转至预案执行页面。

  5. 单击 执行,系统将自动按步骤依次执行功能或资源的切换或恢复。

说明
  • 若无需执行该预案,您可以单击 取消执行

  • 若在执行过程中出现错误,您可以查看失败步骤对应的日志,分析出错原因,待问题排查完成后,单击 重试。或者单击 跳过 忽略该步骤。

更多操作

除了新建和执行应急预案,您还可以进行编辑、克隆、删除预案以及查看预案详情操作。

查看应急预案详情

应急预案新建完成后,您可以在应急预案列表中,单击预案名称,进入预案详情页面查看详情。详情页中,展示了预案的基本信息、预案步骤以及详细的执行记录。

应急预案详情页查看执行记录

  • 基本信息:展示当前应急预案的基本信息,包括预案名称、状态、风险等级、管理员用户组、标签、创建人、创建时间、修改时间、描述、业务钉钉群、预案类型、对象类型以及对象范围。

  • 预案步骤:展示当前应急预案的执行步骤。

  • 执行记录:展示当前应急预案的执行记录,包括预案执行单名称、预案类型、对象、状态、创建人、开始时间以及操作人。

编辑应急预案

您可以通过以下任一方式编辑预案信息:

  • 方法一:

    1. 在左侧导航栏上,单击 应急预案 > 预案管理

    2. 应急预案 页签,单击目标预案 操作 列下的 编辑,在 编辑应急预案 页面,修改预案信息。

    3. 单击 提交

  • 方法二:

    1. 在左侧导航栏上,单击 应急预案 > 预案管理

    2. 应急预案 页签,单击目标应急预案名称进入 应急预案详情 页面,单击页面右上角 编辑,在 编辑应急预案 页面,修改预案信息。

    3. 单击 提交

克隆应急预案

预案管理模块支持克隆已有的应急预案,您可以在已有预案的基础上进行调整,生成为新的预案。

操作步骤说明如下:

  1. 在左侧导航栏上,单击 应急预案 > 预案管理

  2. 应急预案 页签,单击目标预案 操作 列下的 image..png > 克隆

    克隆的预案将出现在预案列表中,当前预案状态为 编辑中,不能被执行,需要在提交后方可执行。

  3. 单击克隆的预案 操作 列下的 编辑,在 编辑应急预案 页面,修改预案信息,如名称、描述、风险等级,并对预案步骤进行设置、删除或顺序调整。

  4. 单击 提交 使该预案生效。

删除应急预案

重要

预案一旦删除,不可恢复,务必谨慎操作。

  1. 在左侧导航栏上,单击 应急预案 > 预案管理

  2. 应急预案 页签,单击目标预案 操作 列下的 image..png > 删除,并在弹出的对话框中单击 确定