异常应急

异常应急功能展示了数据库集群的性能监控数据,以及最近 3 天内发生或正在发生的异常事件。您可以通过该功能快速获取集群的健康状态,并在异常事件发生时,进行根因分析,定位问题原因。

查看性能监控数据

  1. 登录 OceanBase 管理控制台

  2. 在左侧导航栏,选择 自治服务 > 诊断中心

  3. 实例详情 区域,单击目标实例名称。

    系统自动跳转到诊断中心。

  4. 在左侧导航栏,单击 异常应急

  5. 性能监控 区域,查看 CPU 使用率租户 CPU 使用率请求等待队列耗时 等监控指标的数据。

    系统默认展示最近 3 天内的数据。

  6. 您也可以在右上角的时间选择器中单击 3d 下拉框,选择 近 1 小时近 6 小时近一天近三天自定义时间image

  7. 将光标悬停在问号图标 image.png 上方,可以查看监控指标说明。image

  8. 单击租户名称后的图标 image,可以查看该租户的监控数据。例如,下图显示了 forMySQLTenant 租户的请求等待队列耗时 数据。image

  9. 单击下钻图标 image.png,可以查看监控指标的细分数据。image

  10. 将光标置于某个时间点处,可以查看该时间点的监控数据。image

查看异常事件

  1. 登录 OceanBase 管理控制台

  2. 在左侧导航栏,选择 自治服务 > 诊断中心

  3. 实例详情 区域,单击目标实例名称。

    系统自动跳转到诊断中心。

  4. 在左侧导航栏,单击 异常应急

  5. 异常事件 区域,查看目标对象的异常事件,包括 对象异常类型异常表现当前状态发生时间恢复时间持续时间操作

  6. 单击单个事件 操作 列的 根因分析,查看该事件的根因分析和优化建议。

    • 如果异常事件的原因在分析图谱中,系统会红色高亮显示该原因,并提供优化建议。

      说明

      在分析图谱中,每个节点代表一条分析规则。当进行异常分析时,系统会遍历图谱以找到根因节点。根因节点会被红色高亮显示,而绿色节点则表示该规则未命中根因。

      示例如下:

      当指定时间段内 租户队列等待变长 时,系统提供 CPU 占比过高 的提示。在可疑原因 区域,您可以单击红色高亮方框查看对应的根因分析。

      image

      SQL 汇总信息 区域,系统默认显示 SQL 汇总时间段、总执行次数、总报错次数、最大响应时间、CPU 时间、计划生成时间。您可以通过单击 列管理 查看更多信息。image可能的根因 SQL 区域,您可以查看可能引起该问题的 SQL,并单击 操作 列的 查看 SQL 详情

      image

    • 如果异常事件的原因不在分析图谱中,系统会在 解决方案 区域提供优化建议。示例如下:

      当发现 租户 CPU 异常 时,系统仍会显示分析图谱,并在 解决方案 区域提供优化建议。

      image

开启自动刷新 Plan Cache

当系统分析出与异常事件相关的 SQL 时,会自动刷新该 SQL 的 Plan Cache,从而提升操作效率。

  1. 登录 OceanBase 管理控制台

  2. 在左侧导航栏,选择 自治服务 > 诊断中心

  3. 实例详情 区域,单击目标实例名称。

    系统自动跳转到诊断中心。

  4. 在左侧导航栏,单击 异常应急

  5. 在页面右上角,单击 自治设置

  6. 在弹窗中,打开特性开关,然后单击 确定

    说明

    当您开启自动刷新 Plan Cache 的特性后,对于自动刷新的部分,可以在 自治服务 > 诊断中心 > 优化管理 > 优化记录 里查询。