云监控Agent安装使用最佳实践

更新时间:
复制为 MD 格式

本文介绍如何在ENS计算实例(含裸金属服务器)上安装云监控(CloudMonitor)插件,并通过云监控控制台查看主机监控和GPU监控数据。

适用场景

本方案适用于以下场景:

  • 您需要对ENS计算实例(含裸金属服务器)进行CPU、内存、磁盘、网络、GPU等基础指标监控。

  • 您有批量安装云监控插件的需求,希望通过云助手统一下发安装指令。

前提条件

  • 已开通ENS服务并创建ENS计算实例

  • 已开通云监控服务

  • ENS实例能够通过公网访问云监控服务端点,确保网络连通性正常

  • 如需批量安装,请确保已在ENS实例上安装并启用云助手

方案概览

本方案包含以下操作步骤:

  1. 安装云监控插件:登录ENS实例,手动下载并安装云监控C++版本插件。

  2. (可选)批量安装云监控插件:如有批量安装需求,可通过云助手批量执行安装命令。

  3. 验证插件安装结果:检查云监控插件是否安装成功且正常运行。

  4. 查看主机监控数据:在云监控控制台查看实例的CPU、内存、磁盘、网络等监控指标。

  5. (可选)查看GPU监控数据:如实例配备GPU,查看GPU相关监控指标。

步骤一:安装云监控插件

由于ENS实例属于非阿里云ECS主机,需要采用手动方式安装云监控插件。

  1. 进入云监控控制台-主机监控功能

  2. 在主机监控页面,单击右上角操作 > 手动安装

    image

  3. 手动安装对话框中,选择非阿里云主机页签,选择ENS实例对应的操作系统架构,复制控制台页面中对应的安装命令。

    image

  4. 远程登录ENS实例,在ENS实例上执行安装命令。以Linux系统为例:

    # 根据控制台提示的实际下载地址执行
    CMS_AGENT_ACCESSKEY=<key1> CMS_AGENT_SECRETKEY=<key2> ARGUS_VERSION=4.0.0 /bin/bash -c "$(curl -s http://cms-download.aliyun.com/Argus/agent_install-2.0.1.sh)"
    重要

    请直接复制控制台页面提供的安装命令。安装命令中会自动填充相关Key。

    image

    出现argusagent installed at YYYY-MM-DD hh:mm:ss则表示安装成功。

步骤二(可选):批量安装云监控插件

如果您有多台ENS实例需要安装云监控插件,可以通过云助手批量执行安装命令,避免逐台登录操作。

前提条件

ENS实例上安装云助手

操作步骤

  1. 前往ENS云助手页面

  2. ENS 实例页签,勾选需要安装云监控插件的ENS实例后,单击执行命令

    image

  3. 在创建命令页面,配置以下参数后单击执行

    1. 命令名称:输入自定义命令名,如安装云监控Agent

    2. 命令类型:选择Shell

    3. 命令内容:将步骤一中控制台页面提供的下载和安装命令粘贴至命令内容输入框。

    4. 超时时间:建议120s。

      说明

      下载安装类命令,超时时间请务必调大至超出整体安装时间。

    image

  4. 执行完成后,在云助手页面查看各实例的命令执行结果,确认安装是否成功。

步骤三:验证插件安装结果

  1. 登录ENS实例或通过云助手,执行以下命令,查看云监控插件的运行状态:

    ps aux | grep argusagent | grep -v grep

    如果返回结果中显示如下,则代表运行正常:

    image

  2. 进入云监控控制台-主机监控功能,确认目标实例的Agent 状态显示为运行中

    image

    说明

    插件安装后,监控数据可能需要几分钟时间才能在控制台上显示。

步骤四:查看主机监控数据

安装云监控插件后,可通过云监控控制台查看ENS实例的主机监控数据。

  1. 进入云监控控制台-主机监控功能

  2. 在主机监控列表中,找到目标ENS实例,单击实例名称或操作列的监控图表

    说明

    可在选择主机类型中,筛选ECS,快速过滤ENS实例。

    image

  3. 在监控详情页面,主要查看以下监控类别:

    关于主机监控的更多信息,请参见监控主机
    1. 操作系统监控:包括CPU使用率内存使用率系统平均负载磁盘使用率等指标

      image

    2. 进程监控:主要包括Top5进程监控。

      image

    3. 网络监控:主要包括网卡带宽网络连接数等指标。

      image

步骤五(可选):查看GPU监控数据

如果您的ENS实例配备了GPU,云监控插件会自动采集GPU相关指标。

  1. 进入云监控控制台-主机监控功能

  2. 找到目标GPU实例,单击实例名称进入监控详情页。

  3. 单击GPU监控页签,查看以下GPU监控指标:

    关于GPU监控的更多信息,请参见GPU监控

    监控指标

    说明

    GPU使用率

    GPU计算核心的使用率

    GPU显存使用率

    GPU显存的使用百分比

    GPU温度

    GPU核心温度

    GPU功耗

    GPU的实时功耗

    GPU编解码器使用率

    GPU编码器和解码器的使用率

常见问题

插件安装后控制台未显示监控数据怎么办?

  • 检查ENS实例的公网连通性,确认实例能够访问云监控服务端点。

  • 确认插件是否正常运行。

  • 等待约5分钟后刷新控制台页面,新安装的插件需要一定时间上报数据。

批量安装时部分实例安装失败怎么办?

  • 在云助手页面查看失败实例的执行日志,根据错误信息排查原因。

  • 确认失败实例的云助手是否正常运行。

  • 确认失败实例的网络连通性是否正常。