您可使用Telegraf采集NVIDIA GPU监控数据,再通过日志服务Logtail将Telegraf数据上传到MetricStore中,搭建NVIDIA GPU可视化监控方案。本文介绍如何通过日志服务来完成NVIDIA GPU监控数据的采集和可视化。

前提条件

已在Linux服务器上安装Logtail(Linux Logtail 0.16.50及以上版本)。更多信息,请参见安装Logtail(Linux系统)

步骤1:安装NVIDIA GPU驱动

日志服务使用nvidia_smi命令采集GPU信息,该命令包含在GPU驱动程序中,因此需要先安装驱动程序。具体操作,请参见手动安装GPU驱动。如果您使用阿里云ECS的GPU实例,则GPU实例中已默认安装驱动,可跳过此步骤。

步骤2:创建Logtail采集配置

  1. 登录日志服务控制台
  2. 接入数据区域,选择NVIDIA GPU监控
  3. 选择日志空间页签中,选择目标Project和MetricStore,单击下一步
    您也可以单击立即创建,重新创建Project和MetricStore。更多信息,请参见创建Project创建MetricStore
  4. 创建机器组页签中,创建机器组。
    • 如果您已有可用的机器组,请单击使用现有机器组
    • 如果您还没有可用的机器组,请执行以下操作(以ECS为例):
      1. 选择ECS实例安装Logtail。更多信息,请参见安装Logtail(ECS实例)
        如果已在ECS上安装Logtail,请单击确认安装完毕
        说明 如果是自建集群、其他云厂商服务器,需要手动安装Logtail。更多信息,请参见安装Logtail(Linux系统)
      2. 安装完成后,单击确认安装完毕
      3. 创建机器组。

        如何创建机器组,请参见创建IP地址机器组创建用户自定义标识机器组

  5. 选中目标机器组,将该机器组从源机器组移动到应用机器组,单击下一步
    注意 如果创建机器组后立刻应用,可能因为连接未生效,导致心跳为FAIL,您可单击自动重试。如果还未解决,请参见Logtail机器组无心跳进行排查。
  6. 数据源设置页签中,配置如下参数。
    参数名称 说明
    配置名称 Logtail配置名称。
    集群名 集群名称。配置该参数后,日志服务会为您的数据添加cluster=集群名的标签。
    说明 请确保该集群名称唯一,否则将出现数据冲突。
    nvidia-smi路径 安装Nvidia-smi命令的路径。默认不需要填写。
    自定义标签 一个MetricStore下可创建多个Logtail配置,您可以使用自定义标签为通过该Logtail配置采集到的数据添加标签。

    单击+,添加自定义标签,支持添加多个标签。添加的标签将加入到每一条数据中。

常见问题

如何查看Telegraf采集是否正常?

您可以在服务器上查看/etc/ilogtail/telegraf/telegraf.log文件中记录的日志进行判断,还可以将该日志采集到日志服务中进行查询。

后续步骤

  • 查询分析

    配置完成后,Telegraf将采集到的监控数据通过Logtail上传到日志服务MetricStore中。您可以在MetricStore查询分析页面进行查询分析操作,详情请参见查询分析时序数据

  • 可视化

    完成NVIDIA GPU监控相关配置后,日志服务自动在对应Project中生成名为NVIDIA_GPU监控_集群名称的仪表盘,您可以直接使用该仪表盘,还可以进行告警设置等操作。