您可使用Telegraf采集NVIDIA GPU监控数据,再通过日志服务Logtail将Telegraf数据上传到MetricStore中,搭建NVIDIA GPU可视化监控方案。本文介绍如何通过日志服务来完成NVIDIA GPU监控数据的采集和可视化。
前提条件
已创建Project和MetricStore。具体操作,请参见创建项目Project和创建MetricStore。
使用限制
只有Linux Logtail 0.16.50及以上版本的Logtail支持采集NVIDIA GPU监控数据。如果您已在服务器上安装旧版本的Logtail,需先升级。具体操作,请参见安装Logtail(Linux系统)。
步骤一:安装NVIDIA GPU驱动
日志服务使用nvidia-smi命令采集GPU信息,该命令包含在GPU驱动程序中,因此需要先安装驱动程序。具体操作,请参见在GPU计算型实例中手动安装Tesla驱动(Linux)。如果您使用阿里云ECS的GPU实例,则GPU实例中已默认安装驱动,可跳过此步骤。
步骤二:创建Logtail采集配置
登录日志服务控制台。
在接入数据区域的监控数据页签下,单击NVIDIA GPU监控。
选择目标Project和MetricStore,单击下一步。
在创建机器组页签中。
如果已有可用的机器组,请单击使用现有机器组。
如果您还没有可用的机器组,请执行以下操作(以ECS为例)。
在ECS机器页签中,通过手动选择实例方式选择目标ECS实例,单击创建。
具体操作,请参见安装Logtail(ECS实例)。
重要如果您的服务器是与日志服务属于不同账号的ECS、其他云厂商的服务器和自建IDC时,您需要手动安装Logtail。具体操作,请参见安装Logtail(Linux系统)。手动安装Logtail后,您必须在该服务器上手动配置用户标识。具体操作,请参见配置用户标识。
安装完成后,单击确认安装完毕。
在创建机器组页面,输入名称,单击下一步。
日志服务支持创建IP地址机器组和用户自定义标识机器组,详细参数说明请参见创建IP地址机器组和创建用户自定义标识机器组。
确认目标机器组已在应用机器组区域,单击下一步。
重要创建机器组后立刻应用,可能因为连接未生效,导致心跳为FAIL,您可单击自动重试。如果还未解决,请参见Logtail机器组无心跳进行排查。
在数据源设置页签中,配置如下参数。
参数名称
说明
配置名称
自定义设置Logtail采集配置的名称。
集群名称
自定义设置Nvidia GPU集群的名称。
设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加cluster=集群名称的标签。
重要请确保该集群名称唯一,否则可能出现数据冲突。
nvidia-smi路径
安装nvidia-smi命令的路径,默认为/usr/bin/nvidia-smi。
自定义标签
为采集到的Nvidia GPU监控数据添加自定义标签,该标签为键值对形式。
设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加标签。
常见问题
如何查看Telegraf采集是否正常?
您可以在服务器上查看/etc/ilogtail/telegraf/telegraf.log文件中记录的日志进行判断,还可以将该日志采集到日志服务中进行查询。
后续步骤
- 查询分析
配置完成后,Telegraf将采集到的监控数据通过Logtail上传到日志服务MetricStore中。您可以在MetricStore查询分析页面进行查询分析操作,详情请参见查询和分析时序数据。
可视化
完成NVIDIA GPU监控相关配置后,日志服务自动在对应Project中生成名为NVIDIA_GPU监控_集群名称的仪表盘,您可以直接使用该仪表盘,还可以进行告警设置等操作。