云数据库 SelectDB 版提供集群状态监控及报警功能,通过对重要的监控指标设置报警规则,让您及时得知指标数据发生异常,帮您迅速定位处理故障。
背景信息
监控报警是通过云监控产品实现的。通过阿里云云监控,您可以设置监控项,在触发监控项报警规则时,通知报警联系组中的所有联系人。您也可以维护报警监控项对应的报警联系组,以便发生报警时,能及时通知到相关联系人。
控制台操作步骤
在页面左上角,选择实例所在地域。
在实例列表页面,单击目标实例ID,进入到实例详情页面。
单击左侧导航栏的监控告警。
在监控告警页面,单击创建SelectDB监控告警。
在创建SelectDB监控告警页面设置参数。
您可以选择通过静态阈值或自定义PromQL创建SelectDB告警规则。
静态阈值:提供了系统预设的告警指标,通过选择已有的告警指标,您可以通过语义化的方式快速创建对应指标项的告警规则。
自定义PromQL:如果需要对静态阈值中系统预设指标之外的指标进行监控告警,可以通过自定义PromQL来创建告警规则。
静态阈值
参数
说明
示例
告警名称
告警的名称。
CPU使用率告警
检测类型
选择静态阈值。
静态阈值
实例
选择需要创建告警规则的实例。
selectdb-cn-7213n****
集群
选择需要创建告警规则的集群。
selectdb-cn-7213n****-be
告警分组
选择告警分组。
不同Prometheus类型支持的告警分组不同,告警分组备选项会随着选择的Prometheus实例类型的不同产生变化。
SelectDB监控告警
告警指标
选择配置告警的指标,每个告警分组对应不同的指标。
CPU使用率
告警条件
基于告警指标预置内容设置告警事件产生条件。
当CPU使用率大于80%时,发送告警。
筛选条件
无筛选
无
数据预览
数据预览区域展示告警条件对应的PromQL语句,并以时序曲线的形式展示当前告警规则配置的监控指标的值。
默认仅展示一个资源的实时值,您可以在该区域的筛选框中选择目标资源以及时间区间来查看不同时间区间和不同资源的值。
说明告警阈值将会以一条红色虚线的形式显示在面板中,满足告警阈值的时序曲线显示为深红色,不满足告警阈值的时序曲线显示为蓝色。
将鼠标悬浮于时序曲线上,可以查看对应时间点的资源详情。
在时序曲线上选中一段时间,可以查看对应时间段的时序曲线。
无
持续时间
当告警条件满足时,直接产生告警事件:有任何一个数据点满足阈值,就会产生告警事件。
当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。
1
告警等级
自定义告警等级。默认告警等级为默认,告警严重程度从默认、P4、P3、P2、P1逐级上升。
P2
告警内容
用户收到的告警信息。您可以使用Go template语法在告警内容中自定义告警参数变量。
节点:{{$labels.pod_name}} CPU使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%,当前值 {{ printf "%.2f" $value }}%
告警通知
极简模式:可以快速配置通知对象,通知时段,重复策略。
普通模式:选择通知策略,如果没有通知策略,您也可以单击新建通知策略创建新的通知策略,具体操作,请参见通知策略。
重要快速指定通知策略只能保证当前告警规则产生的告警事件一定能够被所选的通知策略匹配到并且产生对应告警。但是,当前告警规则产生的事件同时也可能被其它设置了模糊匹配的通知策略匹配到并且产生告警。告警规则产生的告警事件和通知策略之间是多对多的匹配关系。
无
高级设置
告警检查周期:指告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。默认1分钟,最少设置1分钟。
数据完整后检查:查看数据的齐全度,默认为是,建议保持该配置不变。
标签(labels):设置告警标签,设置的标签可用作通知策略匹配规则的选项。
注释(annotations):设置告警的注释。
告警检查周期:1分钟
数据完整后检查:是
标签(labels):无
注释(annotations):无
自定义PromQL
参数
说明
示例
告警名称
告警的名称。
Pod的CPU使用率大于80%
检测类型
设置为自定义PromQL。
自定义PromQL
实例
选择需要创建告警规则的实例。
selectdb-cn-7213n****
集群
选择需要创建告警规则的集群。
selectdb-cn-7213n****-be
参考告警分组
选择告警分组。
不同Prometheus类型支持的告警分组不同,告警分组备选项会随着选择的Prometheus实例类型的不同产生变化。
SelectDB监控告警
参考告警指标
(可选)参考指标中包括了常见指标的自定义PromQL配置方法,您可以选择已有的类似指标来进行填充,然后参考对应指标的配置方式进行修改以完成告警配置。
参考指标参数会根据选择的Prometheus实例类型自动过滤支持的告警指标。
说明参考告警指标提供的自定义PromQL语句模板并不是完整的PromQL,您需要根据自身需求进行修改和完善。
99th 查询耗时
自定义PromQL语句
使用PromQL语句设置告警则表达式。
avg(doris_fe_query_latency_ms{quantile="0.99",pod=~,cluster_id=~}) by (cluster_id) > 300
数据预览
数据预览区域展示告警条件对应的PromQL语句,并以时序曲线的形式展示当前告警规则配置的监控指标的值。
默认仅展示一个资源的实时值,您可以在该区域的筛选框中选择目标资源以及时间区间来查看不同时间区间和不同资源的值。
说明告警阈值将会以一条红色虚线的形式显示在面板中,满足告警阈值的时序曲线显示为深红色,不满足告警阈值的时序曲线显示为蓝色。
将鼠标悬浮于时序曲线上,可以查看对应时间点的资源详情。
在时序曲线上选中一段时间,可以查看对应时间段的时序曲线。
无
持续时间
当告警条件满足时,直接产生告警事件:有任何一个数据点满足阈值,就会产生告警事件。
当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。
1
告警等级
自定义告警等级。默认告警等级为默认,告警严重程度从默认、P4、P3、P2、P1逐级上升。
默认
告警内容
用户收到的告警信息。您可以使用Go template语法在告警内容中自定义告警参数变量。
命名空间:{{$labels.namespace}}/Pod: {{$labels.pod_name}}/磁盘设备:{{$labels.device}} 使用率超过90%,当前值{{ printf "%.2f" $value }}%
告警通知
极简模式:可以快速配置通知对象,通知时段,重复策略。
普通模式:选择通知策略,如果没有通知策略,您也可以单击新建通知策略创建新的通知策略,具体操作,请参见通知策略。
重要快速指定通知策略只能保证当前告警规则产生的告警事件一定能够被所选的通知策略匹配到并且产生对应告警。但是,当前告警规则产生的事件同时也可能被其它设置了模糊匹配的通知策略匹配到并且产生告警。告警规则产生的告警事件和通知策略之间是多对多的匹配关系。
无
高级设置
告警检查周期:指告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。默认1分钟,最少设置1分钟。
数据完整后检查:查看数据的齐全度,默认为是,建议保持该配置不变。
标签(labels):设置告警标签,设置的标签可用作通知策略匹配规则的选项。
注释(annotations):设置告警的注释。
告警检查周期:1分钟
数据完整后检查:是
标签(labels):无
注释(annotations):无
设置完成后单击保存,报警规则将自动生效。
告警配置建议
您可以根据自己的需求配置告警,以下是常见各指标的配置建议。
指标名称 | 建议阈值 | 告警配置建议 |
99th 查询耗时 | 无 | 长尾查询耗时指标,需根据您的业务自定义配置。 |
CPU使用率 | >90 | 强烈建议配置。 |
内存使用率 | >90 | 强烈建议配置。 |
失效节点数 | >0 | 您无需关注,SelectDB侧已有告警。 |
对象存储容量 | 无 | 若您关注存储使用情况,可按需配置告警。 |
导入数据速度 | 无 | 无 |
数据合并Base Score | <1500 | 强烈建议配置。 |
数据合并Cumulative Score | <1500 | 强烈建议配置。 |
查询平均耗时 | 无 | 建议配置。 |
查询成功率 | 无 | 建议配置。 |
每秒查询次数 (QPS) | 无 | 按需配置 |
硬盘写次数 (IOPS) | 无 | 无需配置。 |
硬盘读次数 (IOPS) | 无 | 无需配置。 |
缓存命中率 | 无 | 无需配置告警;该指标偏低,建议您评估是否需要扩容缓存。 |
缓存写吞吐量 | 无 | 无 |
缓存读吞吐量 | 无 | 无 |
网络流入吞吐量 | 无 | 无 |
网络流出吞吐量 | 无 | 无 |
远端存储读吞吐量 | 无 | 无 |
连接数 | 无 | 建议配置。 |