客户端不在线问题排查

本文介绍客户端不在线问题的特征、排查思路以及解决思路。

相关问题

问题表现特征如下:

  • 客户端显示中没有某个机器的 IP。

  • 任务触发时报:No available target zone was found。

  • 客户端显示不在线。

排查思路

  1. 检查任务配置的应用配置是否有误。

    • 检查 InstanceId 和页面对应的 InstanceId 是否一致,如果不一致修改为一致,按页面对应的 InstanceId 进行修改。

      用 Google 浏览器打开开发者工具,单击调度任何一个页面,请求上会带着一个 InstanceId,这个就是你当前页面账号对应的 InstanceId。

    • 检查 AK/SK 是否正确。

    • 检查 com.antcloud.antvip.endpoint 的配置是否正确,是否连错环境。

    • 检查 spring.application.name 和页面任务配置中的应用名字是否一致。

  2. 检查应用进程是否正常。

    • 如果是 SOFABoot 或 Spring Boot 应用,可以使用这个命令 curl http://127.0.0.1:8080/actuator/readiness 查看(端口配置应用端口)是否健康,如果不健康,则说明业务进程有问题。

    • 查看 ~/conf/acvip-java-client-cache/domains/xxx-ANTSCHEDULER_CLOUD.json 是否能拉取下来。

      • 如果配置未拉取下来,则查看 ~/logs/acvip-java-client/inner-error.log 是否有报错。

      • 如果配置能拉取下来,查看内容是否为空,是否有 IP。

  3. 进入任务配置的应用机器(任意一台机器)查看连接情况。

    输入以下命令查看是否连接到任务调度机器。

    netstat -ant | grep 9001
    • 如果不存在连接,则请看自身进程问题,回到步骤 1、2 继续检查。

    • 如果存在连接,可以联系研发同学一起排查。