为Nvidia GPU接入监控数据-日志服务-阿里云

Nvidia GPU服务器中提供多项监控指标，您可以将Nvidia GPU服务器中的监控指标接入到全栈可观测应用中，进行可视化展示。

前提条件

已创建实例。具体操作，请参见创建实例。

步骤一：安装NVIDIA GPU驱动

日志服务使用nvidia-smi命令采集GPU信息，该命令包含在GPU驱动程序中，因此需要先安装驱动程序。具体操作，请参见在GPU计算型实例中安装GPU驱动（Linux）。如果您使用阿里云ECS的GPU实例，则GPU实例中已默认安装驱动，可跳过此步骤。

步骤二：创建Logtail采集配置

登录日志服务控制台。
在日志应用区域的智能运维页签下，单击全栈可观测。
在SLS全栈可观测页面，单击目标实例。
在左侧导航栏中，单击数据接入，然后在数据接入配置页面，找到中间件监控区域的Nvidia GPU。
首次创建目标监控项的接入配置时，打开创建开关，可进入配置页面。如果您已创建过接入配置，则单击图标，可进入配置页面。
创建机器组。
- 如果您已有可用的机器组，请单击使用现有机器组。
- 如果您还没有可用的机器组，请执行以下操作（以ECS为例）。
  1. 在ECS机器页签中，通过手动选择实例方式选择目标ECS实例，单击创建。
    更多信息，请参见安装Logtail（ECS实例）。
    重要
    如果您的服务器是与日志服务属于不同账号的ECS、其他云厂商的服务器和自建IDC时，您需要手动在目标服务器中安装Linux Logtail 0.16.50及以上版本。具体操作，请参见安装Logtail（Linux系统）。安装完成后，您还需要在该服务器上手动配置用户标识。具体操作，请参见配置用户标识。
  2. 安装完成后，单击确认安装完毕。
  3. 在创建机器组页面，输入名称，单击下一步。
    日志服务支持创建IP地址机器组和用户自定义标识机器组，详细参数说明请参见创建IP地址机器组和创建用户自定义标识机器组。
重要
请确保用于安装Logtail的服务器可连接目标Nvidia GPU服务器。
选中目标机器组，将该机器组从源机器组移动到应用机器组，单击下一步。
重要创建机器组后立刻应用，可能因为连接未生效，导致心跳为FAIL，您可单击自动重试。如果还未解决，请参见Logtail机器组无心跳进行排查。

在数据源设置配置向导中，配置如下参数，然后单击完成。

参数名称	说明
配置名称	自定义设置Logtail采集配置的名称。
集群名称	自定义设置Nvidia GPU集群的名称。设置该参数后，日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加cluster=集群名称的标签。重要请确保该集群名称唯一，否则可能出现数据冲突。
nvidia-smi路径	安装nvidia-smi命令的路径，默认为/usr/bin/nvidia-smi。
自定义标签	为采集到的Nvidia GPU监控数据添加自定义标签，该标签为键值对形式。设置该参数后，日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加标签。

设置完成后，日志服务将自动生成Metricstore等资产。更多信息，请参见资产说明。

后续步骤

接入Nvidia GPU监控数据后，全栈可观测应用会自动生成专属仪表盘。您可以通过仪表盘分析监控数据。具体操作，请参见查看仪表盘。