查看监控信息

云数据库 SelectDB 版集成了阿里云应用实时监控服务ARMS(Application Real-Time Monitoring Service)产品的监控功能,支持您在云数据库SelectDB控制台查看实例的实时监控信息,方便您查看和掌握云数据库SelectDB实例的运行状态。本文介绍如何在云数据库SelectDB控制台查看实例的实时监控信息。

说明

您也可以在阿里云监控(CloudMonitor)产品控制台查看云数据库SelectDB实例实时监控信息。如何操作,请参见云产品监控

前提条件

  • 创建云数据库 SelectDB 版服务关联角色AliyunServiceRoleForSelectDB(该角色默认已获取阿里云ARMS服务的访问权限。具体操作,请参见服务关联角色

  • 如果您需要将云数据库SelectDB实例监控信息上报到自己的阿里云ARMS中统一监控则需要先开通阿里云ARMS服务。具体操作,请参见开通ARMS

操作步骤

  1. 登录云数据库 SelectDB 控制台

  2. 在页面左上角,选择实例所在地域。

  3. 实例列表页面,单击目标实例ID,进入到实例详情页面。

  4. 在左侧导航栏,单击监控告警

  5. 监控告警页面,选择监控页签。

  6. 如果存在多个集群,您可以在监控页签内的左上角单击cluster选择不同集群,以查看不同集群的监控信息。

    说明
    • 监控指标通过Grafana仪表盘展示,并使用预设的PromQL查询语句。在编辑页面中,您可以修改PromQL以查看不同的监控指标,但是修改后的内容不支持保存。

    • 监控指标看板默认展示最近1小时内的集群监控信息,您可在看板右上角选择时间自行调整。

    • 监控指标看板默认每分钟自动刷新一次,您可随时点击看板右上角的图标手动刷新,或者修改自动刷新频率。

监控项

云数据库 SelectDB 版监控项分为节点基础指标、集群请求指标和实例请求指标三个粒度。

节点基础指标

云数据库 SelectDB 版集群内所有节点的基础指标。

监控项

说明

单位

CPU使用率

当前集群的所有节点CPU使用率。

如果CPU使用率持续较高,建议您考虑扩容集群的计算资源。具体操作,请参见伸缩集群

%

内存使用率

当前集群所有节点的内存利用率。

如果内存使用率持续较高,建议您考虑扩容集群的计算资源。具体操作,请参见伸缩集群

%

网络流入吞吐量

当前集群所有节点每秒通过网络写入的平均速度。

Byte/s

网络流出吞吐量

当前集群所有节点每秒通过网络读取的平均速度。

如果网络读的查询速度较慢,建议您修改缓存设置,尽量减少查询时的网络读取。具体操作,请参见数据缓存

Byte/s

硬盘读写次数(IOPS)

当前集群所有节点硬盘 I/O 利用情况,包括读次数和写次数两条曲线。

100GB硬盘缓存空间可提供约5000IOPS,如果您需要更的高硬盘读写能力,建议您考虑扩容集群缓存空间。具体操作,请参见伸缩集群

次/s

集群请求指标

云数据库 SelectDB 版集群粒度的请求指标。

监控项

说明

单位

每秒查询次数(QPS)

每秒连接到当前集群的查询请求总数。

查询成功率

计算公式:查询成功率=当前集群每分钟内查询成功的查询语句/该集群每分钟全部的查询

当查询成功率发生异常下降时,考虑是否出现了集群、节点的故障。

%

查询平均耗时

当前集群每分钟内所有查询的平均耗时。

ms

99th 查询耗时

当前集群每分钟内,统计升序排列在第 99% 位置的请求的响应时间。此指标可以反映集群慢查询的速度。

ms

导入数据速度

当前集群每秒导入的数据记录行数。

Row/s

导入数据量

当前集群每秒导入的数据量。

Byte/s

数据合并 Compaction Score

当前集群数据文件的合并压力,该指标图包括Cumulative Score和写Base Score两条曲线。

Score越大,进行合并计算的压力越大。大于 2000 后会触发写入反压,数据合并压力大的表会出现数据写入失败。

失效节点数

当前集群失效节点的个数。

缓存命中率

计算公式:缓存命中率=当前集群命中缓存的读写操作/该集群所有读写操作

如果缓存命中率过低,需要考虑更改缓存策略,或者提升缓存盘大小,来提升缓存被命中的可能。更多介绍,请参见数据缓存

%

缓存读写吞吐量

计算公式:缓存读写吞吐量=当前集群所有节点硬盘每秒的读取/集群所有节点硬盘每秒的写入

该指标图包括读吞吐量和写吞吐量两条曲线。更多介绍,请参见数据缓存

Byte/s

远端存储读吞吐量

当前集群每秒读取远端存储的数据量。

Byte/s

实例请求指标

云数据库 SelectDB 版实例粒度的请求指标。

监控项

说明

单位

FE CPU使用率

当前实例所有FE节点的CPU使用率,包括平均值(avg)和最大值(max)两条曲线。

%

FE 内存使用率

当前实例所有FE节点的内存利用率,包括平均值(avg)和最大值(max)两条曲线。

%

Stream Load导入作业频率

当前实例每秒支持的Stream Load导入的作业数。Stream Load的详情,请参见Stream Load

/s

Insert Load导入作业频率

当前实例每秒支持的Insert Load导入作业数。Insert Load的详情,请参见Insert Into

/s

Broker Load导入作业数

当前实例Broker Load各个状态的导入作业数量。Broker Load详情,请参见Broker Load

Routine Load导入作业数

当前实例Routine Load各个状态的导入作业数量。Routine Load的详情请参见Routine Load

Routine Load导入数据速度

当前实例每秒通过Routine Load导入的数据记录行数。Routine Load的详情请参见Routine Load

Row/s

Routine Load行错误率

当前实例Routine Load导入作业的错误行数在所有Routine Load导入行数的占比。Routine Load的详情,请参见Routine Load

%

对象存储容量

当前实例数据所占用的对象存储容量。

Byte

连接数

当前实例的活跃会话数,不区分集群。