系统指标用来监控应用本身所在虚拟机或 ECS 的资源情况。 包括 CPU、Load、Memory 等情况。您无需配置日志,打开开关即可,监控 agent 会自动获取对应数据。
单击控制台左侧边栏 应用监控,选择 我的应用 或 全部应用,单击某个应用后,会进入应用详情页面。本文主要介绍应用详情在可视化展示时,对应的系统指标详情。关于监控信息的自定义配置等更多详情,请参见 应用总览。
RMS 支持的系统指标说明如下:
指标名称 | 说明 |
cpu_total_cores | 容器核心数 |
cpu_util | CPU 使用率,由 |
cpu_sys | 内核态时间比例 |
cpu_steal | 被偷走的 CPU 时间的占比 |
cpu_wait | io wait 时间的比例 |
cpu_user | 用户态时间的比例 |
load_load1 | 1 min 内 load 指标 |
load_load5 | 5 min 内 load 指标 |
load_load15 | 15 min 内 load 指标 |
mem_util | 内存使用率 |
mem_used | total - buff - cache - free 的内存的量,特别注意不包含 cache。 |
mem_total | 总的内存 |
traffic_bytin | 网卡 rx 方向的流量大小,单位 bytes/s。 |
traffic_bytout | 网卡 tx 方向的流量大小,单位 bytes/s。 |
traffic_pktin | 网卡 rx 方向的 pps。 |
traffic_pktout | 网卡 tx 方向的 pps。 |
traffic_pktdrp | 出入方向的丢包数和。在容器内(采用 veth pair)这个数据一般为 0。 |
traffic_pkterr | 出入方向的错误包数和。在容器内(采用 veth pair)这个数据一般为 0。 |
tcp_active | active open/s,主动发起连接的每秒次数。 |
tcp_lisove | listen overflow,这种是由于 listen accept 队列满导致被丢弃的数量。 |
tcp_AtmpFail | AttemptFails,发起连接失败的每秒次数,比如半连接队列满导致 syn 包被丢弃等。 |
tcp_CurrEstab | Current Established connection,当前 TCP 连接数。 |
tcp_pasive | passive open/s,被动生成连接的每秒次数。 |
tcp_retran | retransmit ratio,根据重传 segment 和总的 segment,计算出来的重传率。 |
udp_idgm | 主机收到的 udp 包的个数/s 与 odgm 一起来监控主机的 udp 报文的流量。 |
udp_odgm | 主机发送的 udp 包的个数/s。 |
udp_idmerr | udp 错误包的数目,包括 udp csum 错误等。一般用来监控 udp 通信的异常。 |
udp_noport | 未知 udp 端口号的包个数/s,主机侧没有进程监听在该端口导致。 |
partition_util | 使用的磁盘空间的比率,单位 %。 |
partition_bfree | 空闲的空间,单位 byte。该挂载点下剩余可用的磁盘空间。 |
partition_bused | 使用的空间,单位 byte。已经使用的磁盘空间。 |
partition_btotl | 总共的磁盘空间,单位 byte。该挂载点总共可用的磁盘空间。 |
partition_ifree | 文件系统可用的 inode 个数,ext4 文件系统有总的 inode 的使用个数限制。 |
partition_itotl | 总的可用的 inode 的个数。 |
partition_iutil | 使用的 inode 个数占总的可使用个数的占比,总体使用率,单位 %。 |
io_wio | 写 IO 每秒次数 |
io-rio | 读 IO 每秒次数 |
io_rbytes | 读 IO 每秒 byte 数 |
io_wbytes | 写 IO 每秒 byte 数 |
io_rqsize | request sector/IO ,每个 IO 请求的大小,单位为 KB。 |
io_qusize | queue size,当前 IO 队列中的IO请求数量。 |
io_await | average response time for I/O requests,每个 IO 从发起到结束平均消耗时间,单位 ms。 |
io_svctm | service time,实际下发到设备到返回的时间,不包含队列中等待的时间。 |