如何处理云监控插件进程自动退出问题?

云监控出于对您资源的保护,当您的资源消耗超过某个阈值时,云监控插件进程自动退出。本文为您介绍在Windows和Linux操作系统中,云监控插件进程自动退出的处理方法。

重要

云监控仅支持通过管理员账号权限(Linux操作系统使用root用户,Windows操作系统使用Administrator用户)操作云监控插件。使用管理员账号具有一定风险,如果操作不当可能导致系统稳定性问题或数据安全问题,请谨慎操作。

Windows

  1. 以Administrator用户登录云监控插件所在服务器。

  2. 进入云监控插件日志所在目录C:\Program Files\Alibaba\cloudmonitor\local_data\logs,查看文件argusagent.log中的日志。

    如果文件argusagent.log中的日志出现exceeds the maxValue字样,则说明资源消耗超过阈值,例如:

    • [WARN ]2022-12-07 23:54:55.805854 [4148] self_monitor.cpp(line:85):the agent's cpu usage(52.55%) exceeds the maxValue(50.00%)

    • [WARN ]2022-12-07 23:54:55.805861 [4148] self_monitor.cpp(line:109):the agent will exit, as the agent cpu-usage exceeds the maxValue 4 times

  3. 进入云监控插件所在目录C:\Program Files\Alibaba\cloudmonitor/local_data,修改文件agent.properties中资源限制相关参数。

    请您根据实际资源占用情况设置资源限制参数,以下数据仅做参考:

    #内存限制,单位为MB。
    agent.resource.memory.limit=200
    #打开文件数目限制。这里的数值仅供参考,需要考虑系统最大打开文件数。
    agent.resource.fd.limit=100
    #CPU限制为单核10%。
    agent.resource.cpu.limit=0.1
  4. 进入云监控插件所在目录C:\Program Files\Alibaba\cloudmonitor,删除文件agent.status

  5. 双击stop.bat,停止云监控插件。

  6. 双击start.bat,启动云监控插件。

Linux

  1. 以root用户登录云监控插件所在服务器。

  2. 执行以下命令,在云监控插件日志所在目录/usr/local/cloudmonitor/local_data/logs中,查看文件argusagent.log中的日志级别。

    cd /usr/local/cloudmonitor/local_data/logs

    cat argusagent.log

    如果文件argusagent.log中的日志出现exceeds the maxValue字样,则说明资源消耗超过阈值,例如:

    • [WARN ]2022-12-07 23:54:55.805854 [4148] self_monitor.cpp(line:85):the agent's cpu usage(52.55%) exceeds the maxValue(50.00%)

    • [WARN ]2022-12-07 23:54:55.805861 [4148] self_monitor.cpp(line:109):the agent will exit, as the agent cpu-usage exceeds the maxValue 4 times

  3. 在云监控插件所在目录/usr/local/cloudmonitor/local_data中,修改文件agent.properties中资源限制相关参数。

    1. 执行以下命令,修改目录/usr/local/cloudmonitor/local_data中的文件agent.properties

      cd /usr/local/cloudmonitor/local_data

      vi agent.properties

      请您根据实际资源占用情况设置资源限制参数,以下数据仅做参考:

      #内存限制,单位为MB。
      agent.resource.memory.limit=200
      #打开文件数目限制。这里的数值仅供参考,需要考虑系统最大打开文件数。
      agent.resource.fd.limit=100
      #CPU限制为单核10%。
      agent.resource.cpu.limit=0.1
    2. 按Esc键,输入:wq,再按Enter键,保存并退出文件agent.properties

  4. 执行以下命令,删除云监控插件所在目录/usr/local/cloudmonitor中的文件agent.status

    rm /usr/local/cloudmonitor/agent.status

  5. 执行以下命令,重启云监控插件。

    ./cloudmonitorCtl.sh restart