云数据库 SelectDB 版集成了阿里云应用实时监控服务ARMS(Application Real-Time Monitoring Service)产品的监控功能,支持您在云数据库SelectDB控制台查看实例的实时监控信息,方便您查看和掌握云数据库SelectDB实例的运行状态。本文介绍如何在云数据库SelectDB控制台查看实例的实时监控信息。
您也可以在阿里云监控(CloudMonitor)产品控制台查看云数据库SelectDB实例的实时监控信息。如何操作,请参见云产品监控。
前提条件
操作步骤
在页面左上角,选择实例所在地域。
在实例列表页面,单击目标实例ID,进入到实例详情页面。
在左侧导航栏,单击监控告警。
在监控告警页面,选择监控页签。
如果存在多个集群,您可以在监控页签内的左上角单击cluster选择不同集群,以查看不同集群的监控信息。
说明监控指标通过Grafana仪表盘展示,并使用预设的PromQL查询语句。在编辑页面中,您可以修改PromQL以查看不同的监控指标,但是修改后的内容不支持保存。
监控指标看板默认展示最近1小时内的集群监控信息,您可在看板右上角选择时间自行调整。
监控指标看板默认每分钟自动刷新一次,您可随时点击看板右上角的图标手动刷新,或者修改自动刷新频率。
监控项
云数据库 SelectDB 版监控项分为节点基础指标、集群请求指标和实例请求指标三个粒度。
节点基础指标
云数据库 SelectDB 版集群内所有节点的基础指标。
监控项 | 说明 | 单位 |
CPU使用率 | 当前集群的所有节点CPU使用率。 如果CPU使用率持续较高,建议您考虑扩容集群的计算资源。具体操作,请参见伸缩集群。 | % |
内存使用率 | 当前集群所有节点的内存利用率。 如果内存使用率持续较高,建议您考虑扩容集群的计算资源。具体操作,请参见伸缩集群。 | % |
网络流入吞吐量 | 当前集群所有节点每秒通过网络写入的平均速度。 | Byte/s |
网络流出吞吐量 | 当前集群所有节点每秒通过网络读取的平均速度。 如果网络读的查询速度较慢,建议您修改缓存设置,尽量减少查询时的网络读取。具体操作,请参见数据缓存。 | Byte/s |
硬盘读写次数(IOPS) | 当前集群所有节点硬盘 每100GB硬盘缓存空间可提供约5000IOPS,如果您需要更的高硬盘读写能力,建议您考虑扩容集群缓存空间。具体操作,请参见伸缩集群。 | 次/s |
集群请求指标
云数据库 SelectDB 版集群粒度的请求指标。
监控项 | 说明 | 单位 |
每秒查询次数(QPS) | 每秒连接到当前集群的查询请求总数。 | 个 |
查询成功率 | 计算公式:查询成功率= 当查询成功率发生异常下降时,考虑是否出现了集群、节点的故障。 | % |
查询平均耗时 | 当前集群每分钟内所有查询的平均耗时。 | ms |
99th 查询耗时 | 当前集群每分钟内,统计升序排列在第 99% 位置的请求的响应时间。此指标可以反映集群慢查询的速度。 | ms |
导入数据速度 | 当前集群每秒导入的数据记录行数。 | Row/s |
导入数据量 | 当前集群每秒导入的数据量。 | Byte/s |
数据合并 Compaction Score | 当前集群数据文件的合并压力,该指标图包括 Score越大,进行合并计算的压力越大。大于 2000 后会触发写入反压,数据合并压力大的表会出现数据写入失败。 | 无 |
失效节点数 | 当前集群失效节点的个数。 | 个 |
缓存命中率 | 计算公式:缓存命中率= 如果缓存命中率过低,需要考虑更改缓存策略,或者提升缓存盘大小,来提升缓存被命中的可能。更多介绍,请参见数据缓存。 | % |
缓存读写吞吐量 | 计算公式:缓存读写吞吐量= 该指标图包括读吞吐量和写吞吐量两条曲线。更多介绍,请参见数据缓存。 | Byte/s |
远端存储读吞吐量 | 当前集群每秒读取远端存储的数据量。 | Byte/s |
实例请求指标
云数据库 SelectDB 版实例粒度的请求指标。
监控项 | 说明 | 单位 |
FE CPU使用率 | 当前实例所有FE节点的CPU使用率,包括平均值(avg)和最大值(max)两条曲线。 | % |
FE 内存使用率 | 当前实例所有FE节点的内存利用率,包括平均值(avg)和最大值(max)两条曲线。 | % |
Stream Load导入作业频率 | 当前实例每秒支持的Stream Load导入的作业数。Stream Load的详情,请参见Stream Load。 | 个/s |
Insert Load导入作业频率 | 当前实例每秒支持的Insert Load导入作业数。Insert Load的详情,请参见Insert Into。 | 个/s |
Broker Load导入作业数 | 当前实例Broker Load各个状态的导入作业数量。Broker Load详情,请参见Broker Load。 | 个 |
Routine Load导入作业数 | 当前实例Routine Load各个状态的导入作业数量。Routine Load的详情,请参见Routine Load。 | 个 |
Routine Load导入数据速度 | 当前实例每秒通过Routine Load导入的数据记录行数。Routine Load的详情,请参见Routine Load。 | Row/s |
Routine Load行错误率 | 当前实例Routine Load导入作业的错误行数在所有Routine Load导入行数的占比。Routine Load的详情,请参见Routine Load。 | % |
对象存储容量 | 当前实例数据所占用的对象存储容量。 | Byte |
连接数 | 当前实例的活跃会话数,不区分集群。 | 个 |