设置告警规则

云数据库 SelectDB 版集成了阿里云应用实时监控服务ARMS(Application Real-Time Monitoring Service)产品的告警功能,支持您在云数据库SelectDB控制台设置告警规则您可以设置监控项,在触发监控项告警规则时,通知告警联系组中的所有联系人。您也可以维护告警监控项对应的告警联系组,以便发生告警时,能及时通知到相关联系人。通过对重要的监控指标设置报警规则,您可以及时得知云数据库SelectDB实例指标数据发生异常,迅速定位处理故障。本文介绍如何在云数据库SelectDB控制台设置告警规则

说明

您也可以在阿里云监控(CloudMonitor)产品控制台设置适用于云数据库SelectDB实例的告警规则。具体操作,请参见云产品监控

前提条件

  • 创建云数据库 SelectDB 版服务关联角色AliyunServiceRoleForSelectDB(该角色默认已获取阿里云ARMS服务的访问权限。具体操作,请参见服务关联角色

  • 如果您需要将云数据库SelectDB实例监控信息上报到自己的阿里云ARMS中统一监控和告警,则需要先开通阿里云ARMS服务。具体操作,请参见开通ARMS

控制台操作步骤

  1. 登录云数据库 SelectDB 控制台

  2. 在页面左上角,选择实例所在地域。

  3. 实例列表页面,单击目标实例ID,进入到实例详情页面。

  4. 在左侧导航栏,单击监控告警

  5. 监控告警页面,选择告警管理页签,单击创建SelectDB监控告警

  6. 创建SelectDB监控告警页面设置参数。

    您可以选择通过静态阈值或自定义PromQL创建SelectDB告警规则。

    • 静态阈值:提供了系统预设的告警指标,通过选择已有的告警指标,您可以通过语义化的方式快速创建对应指标项的告警规则。

    • 自定义PromQL:如果需要对静态阈值中系统预设指标之外的指标进行监控告警,可以通过自定义PromQL来创建告警规则。

    静态阈值

    参数

    说明

    示例

    告警名称

    告警的名称。

    CPU使用率告警

    检测类型

    选择静态阈值

    静态阈值

    实例

    选择需要创建告警规则的实例。

    selectdb-cn-7213n****

    集群

    选择需要创建告警规则的集群。

    selectdb-cn-7213n****-be

    告警分组

    选择告警分组。

    不同Prometheus类型支持的告警分组不同,告警分组备选项会随着选择的Prometheus实例类型的不同产生变化。

    SelectDB监控告警

    告警指标

    选择配置告警的指标,每个告警分组对应不同的指标。

    CPU使用率

    告警条件

    基于告警指标预置内容设置告警事件产生条件。

    CPU使用率大于80%时,发送告警。

    筛选条件

    无筛选

    数据预览

    数据预览区域展示告警条件对应的PromQL语句,并以时序曲线的形式展示当前告警规则配置的监控指标的值。

    默认仅展示一个资源的实时值,您可以在该区域的筛选框中选择目标资源以及时间区间来查看不同时间区间和不同资源的值。

    说明
    • 告警阈值将会以一条红色虚线的形式显示在面板中,满足告警阈值的时序曲线显示为深红色,不满足告警阈值的时序曲线显示为蓝色。

    • 将鼠标悬浮于时序曲线上,可以查看对应时间点的资源详情。

    • 在时序曲线上选中一段时间,可以查看对应时间段的时序曲线。

    持续时间

    • 当告警条件满足时,直接产生告警事件:有任何一个数据点满足阈值,就会产生告警事件。

    • 当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。

    1

    告警等级

    自定义告警等级。默认告警等级为默认,告警严重程度从默认、P4、P3、P2、P1逐级上升。

    P2

    告警内容

    用户收到的告警信息。您可以使用Go template语法在告警内容中自定义告警参数变量。

    节点:{{$labels.pod_name}} CPU使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%,当前值 {{ printf "%.2f" $value }}%

    告警通知

    • 极简模式:可以快速配置通知对象通知时段重复策略

    • 普通模式:选择通知策略,如果没有通知策略,您也可以单击新建通知策略创建新的通知策略,具体操作,请参见通知策略

      重要

      快速指定通知策略只能保证当前告警规则产生的告警事件一定能够被所选的通知策略匹配到并且产生对应告警。但是,当前告警规则产生的事件同时也可能被其它设置了模糊匹配的通知策略匹配到并且产生告警。告警规则产生的告警事件和通知策略之间是多对多的匹配关系。

    高级设置

    • 告警检查周期:指告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。默认1分钟,最少设置1分钟。

    • 数据完整后检查:查看数据的齐全度,默认为是,建议保持该配置不变。

    • 标签(labels):设置告警标签,设置的标签可用作通知策略匹配规则的选项。

    • 注释(annotations):设置告警的注释。

    • 告警检查周期:1分钟

    • 数据完整后检查:是

    • 标签(labels):无

    • 注释(annotations):无

    自定义PromQL

    参数

    说明

    示例

    告警名称

    告警的名称。

    PodCPU使用率大于80%

    检测类型

    设置为自定义PromQL

    自定义PromQL

    实例

    选择需要创建告警规则的实例。

    selectdb-cn-7213n****

    集群

    选择需要创建告警规则的集群。

    selectdb-cn-7213n****-be

    参考告警分组

    选择告警分组。

    不同Prometheus类型支持的告警分组不同,告警分组备选项会随着选择的Prometheus实例类型的不同产生变化。

    SelectDB监控告警

    参考告警指标

    (可选)参考指标中包括了常见指标的自定义PromQL配置方法,您可以选择已有的类似指标来进行填充,然后参考对应指标的配置方式进行修改以完成告警配置。

    参考指标参数会根据选择的Prometheus实例类型自动过滤支持的告警指标。

    说明

    参考告警指标提供的自定义PromQL语句模板并不是完整的PromQL,您需要根据自身需求进行修改和完善。

    99th 查询耗时

    自定义PromQL语句

    使用PromQL语句设置告警则表达式。

    avg(doris_fe_query_latency_ms{quantile="0.99",pod=~,cluster_id=~}) by (cluster_id) > 300

    数据预览

    数据预览区域展示告警条件对应的PromQL语句,并以时序曲线的形式展示当前告警规则配置的监控指标的值。

    默认仅展示一个资源的实时值,您可以在该区域的筛选框中选择目标资源以及时间区间来查看不同时间区间和不同资源的值。

    说明
    • 告警阈值将会以一条红色虚线的形式显示在面板中,满足告警阈值的时序曲线显示为深红色,不满足告警阈值的时序曲线显示为蓝色。

    • 将鼠标悬浮于时序曲线上,可以查看对应时间点的资源详情。

    • 在时序曲线上选中一段时间,可以查看对应时间段的时序曲线。

    持续时间

    • 当告警条件满足时,直接产生告警事件:有任何一个数据点满足阈值,就会产生告警事件。

    • 当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。

    1

    告警等级

    自定义告警等级。默认告警等级为默认,告警严重程度从默认、P4、P3、P2、P1逐级上升。

    默认

    告警内容

    用户收到的告警信息。您可以使用Go template语法在告警内容中自定义告警参数变量。

    命名空间:{{$labels.namespace}}/Pod: {{$labels.pod_name}}/磁盘设备:{{$labels.device}} 使用率超过90%,当前值{{ printf "%.2f" $value }}%

    告警通知

    • 极简模式:可以快速配置通知对象通知时段重复策略

    • 普通模式:选择通知策略,如果没有通知策略,您也可以单击新建通知策略创建新的通知策略,具体操作,请参见通知策略

      重要

      快速指定通知策略只能保证当前告警规则产生的告警事件一定能够被所选的通知策略匹配到并且产生对应告警。但是,当前告警规则产生的事件同时也可能被其它设置了模糊匹配的通知策略匹配到并且产生告警。告警规则产生的告警事件和通知策略之间是多对多的匹配关系。

    高级设置

    • 告警检查周期:指告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。默认1分钟,最少设置1分钟。

    • 数据完整后检查:查看数据的齐全度,默认为是,建议保持该配置不变。

    • 标签(labels):设置告警标签,设置的标签可用作通知策略匹配规则的选项。

    • 注释(annotations):设置告警的注释。

    • 告警检查周期:1分钟

    • 数据完整后检查:是

    • 标签(labels):无

    • 注释(annotations):无

  7. 设置完成后单击保存,报警规则将自动生效。

告警配置建议

您可以根据自己的需求配置告警,以下是常见各指标的配置建议。

指标名称

建议阈值

告警配置建议

99th 查询耗时

长尾查询耗时指标,需根据您的业务自定义配置。

CPU使用率

>90

CPU是常用业务监控指标,建议配置。

内存使用率

>90

内存是常用的业务员监控指标,建议配置。

失效节点数

>0

计算集群底层节点重启次数,按需配置。

对象存储容量

若您关注存储使用情况,可按需配置。

导入数据速度

若您关注导入数据的速度,可按需配置。

数据合并Base Score

<1500

值越高,代表计算节点数据合并压力越大,建议配置。

数据合并Cumulative Score

<1500

值越高,代表计算节点数据合并压力越大,建议配置。

查询平均耗时

若您的业务对延迟敏感,可按需配置。

查询成功率

若您的业务关注查询成功率,可按需配置。

每秒查询次数 (QPS)

业务相关,可按需配置。

硬盘写次数 (IOPS)

相比其他更加直观的指标,一般您无需关注此指标。

硬盘读次数 (IOPS)

相比其他更加直观的指标,一般您无需关注此指标。

缓存命中率

缓存命中率会影响查询耗时,可按需配置。该指标降低,请评估是否需要扩容。

缓存写吞吐量

底层指标,一般无需业务关注,您可按需配置。

缓存读吞吐量

底层指标,一般无需业务关注,您可按需配置。

网络流入吞吐量

底层指标,一般无需业务关注,您可按需配置。

网络流出吞吐量

底层指标,一般无需业务关注,您可按需配置。

远端存储读吞吐量

底层指标,一般无需业务关注,您可按需配置。

连接数

代表业务客户端与数据库的连接总数,业务相关,可按需配置。