DLA不仅支持使用定义好的报警模板对所有作业进行监控报警,还支持对单个作业进行监控报警。本文介绍如何针对特定的作业进行监控报警。
前提条件
- 您已经成功购买DLA虚拟集群。
- 如果您是RAM用户,请确认已具备AliyunARMSFullAccess权限。
- 您已经成功创建了Spark作业。如何创建Spark作业,请参见创建和执行Spark作业。
指定作业延时触发报警
通常情况下,选择了作业延时的模板,只要有作业延时就会报警。如果您需要精确地针对特定虚拟集群的特定作业进行监控报警,可以在创建报警页面选择Spark Structure Streaming作业处理延时大于10秒模板,按下面的语法修改告警表达式。
spark_structured_streaming_driver_latency{vcName="$(vcName)",app_id=~"$(job_id).*"} / 1000 > $(latency_sec)
说明 如何进入创建报警页面请参见添加报警。
告警表达式中的参数说明如下。
参数名称 | 参数说明 |
---|---|
vcName |
作业相关的虚拟集群名称。 |
job_id |
作业ID。 |
latency_sec |
作业处理延时时间,以秒为单位。 |
说明 关于报警的更多信息,请参见管理报警。
指定作业停止触发报警
通常情况下,选择了作业停止的模板,只要有作业停止就会报警。如果您需要精确地针对特定作业进行监控报警,可以在创建报警页面选择Spark作业停止模板,按下面的语法修改告警表达式。
sum by (parent_job) (label_replace(up{pod_name=~"${job_id}.*-driver"}, "parent_job", "$1", "pod_name", "(.*?)-(.*)")) < 1
说明 如何进入创建报警页面请参见添加报警。
告警表达式中的参数说明如下。
参数名称 | 参数说明 |
---|---|
job_id |
作业ID。 |
说明 关于报警的更多信息,请参见管理报警。