Nvidia GPU服务器中提供多项监控指标,您可以将Nvidia GPU服务器中的监控指标接入到全栈监控应用中,进行可视化展示。
前提条件
已创建实例。具体操作,请参见创建实例。步骤一:安装NVIDIA GPU驱动
日志服务使用nvidia-smi命令采集GPU信息,该命令包含在GPU驱动程序中,因此需要先安装驱动程序。具体操作,请参见在GPU计算型实例中安装GPU驱动(Linux)。如果您使用阿里云ECS的GPU实例,则GPU实例中已默认安装驱动,可跳过此步骤。
步骤二:创建Logtail采集配置
- 登录日志服务控制台。
- 在日志应用区域的智能运维页签下,单击全栈监控。
- 在SLS全栈监控页面,单击目标实例。
- 在数据接入页面,选择中间件监控区域的Nvidia GPU。
首次创建目标监控项的接入配置时,打开创建开关,可进入配置页面。如果您已创建过接入配置,则单击
图标,可进入配置页面。
- 创建机器组。
- 如果您已有可用的机器组,请单击使用现有机器组。
- 如果您还没有可用的机器组,请执行以下操作(以ECS为例)。
- 在ECS机器页签中,通过手动选择实例方式选择目标ECS实例,单击创建。具体操作,请参见安装Logtail(ECS实例)。重要 如果您的服务器是与日志服务属于不同账号的ECS、其他云厂商的服务器和自建IDC时,您需要手动在目标服务器中安装Linux Logtail 0.16.50及以上版本。具体操作,请参见安装Logtail(Linux系统)。安装完成后,您还需要在该服务器上手动配置用户标识。具体操作,请参见配置用户标识。
- 安装完成后,单击确认安装完毕。
- 在创建机器组页面,输入名称,单击下一步。
日志服务支持创建IP地址机器组和用户自定义标识机器组,详细参数说明请参见创建IP地址机器组和创建用户自定义标识机器组。
- 在ECS机器页签中,通过手动选择实例方式选择目标ECS实例,单击创建。
重要 请确保用于安装Logtail的服务器可连接目标Nvidia GPU服务器。 - 选中目标机器组,将该机器组从源机器组移动到应用机器组,单击下一步。
- 在数据源设置配置向导中,配置如下参数,然后单击完成。
参数名称 说明 配置名称 自定义设置Logtail采集配置的名称。 集群名称 自定义设置Nvidia GPU集群的名称。 设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加cluster=集群名称的标签。
重要 请确保该集群名称唯一,否则可能出现数据冲突。nvidia-smi路径 安装nvidia-smi命令的路径,默认为/usr/bin/nvidia-smi。 自定义标签 为采集到的Nvidia GPU监控数据添加自定义标签,该标签为键值对形式。 设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加标签。
设置完成后,日志服务将自动生成Metricstore等资产。更多信息,请参见资产说明。
后续步骤
接入Nvidia GPU监控数据后,全栈监控应用会自动生成专属仪表盘。您可以通过仪表盘分析监控数据。具体操作,请参见查看仪表盘。