函数计算支持对 GPU 函数中的 LLM 推理服务进行指标监控,可在控制台查看请求状态、Token 吞吐量、首 Token 延迟等数据,帮助您监控服务运行情况并优化性能。
前提条件
已创建 GPU 函数,且使用 vLLM 或 SGLang 推理框架。
已开启日志服务(日志监控)。
使用限制
LLM 指标监控仅适用于 GPU 函数。
日志监控的配置方式需选择自定义配置,自动配置模式下无法开启 LLM 指标。
SGLang 需在启动命令中显式添加
--enable-metrics参数;vLLM 默认开启指标能力。
开启 LLM 指标
新建函数时开启
新建函数时,可按以下方式开启 LLM 指标监控:
登录函数计算控制台,在页面顶部选择地域。
在左侧菜单选择函数管理 > 函数,在右侧单击创建函数。
在打开的选择最适合你的函数类型页面,选择GPU 函数,单击创建{title}。
在创建{title}页面,找到高级配置下的日志监控、链路追踪部分,将配置方式选择为自定义配置,将LLM 指标选择为打开。
其他配置与创建 GPU 函数中的说明相同,按需配置后单击创建。
指标需在实例启动运行后才开始采集;若使用 SGLang,需在启动命令中添加--enable-metrics。
完成上述配置后,函数的 LLM 指标监控即已开启。
已有函数开启
在已有函数的场景,可以通过以下方式开启 LLM 指标配置:
在函数配置页面,找到高级配置部分,单击右上角编辑,打开高级配置编辑页面。
在日志区域,将LLM 指标选择为打开,单击部署。
等实例轮转完毕、新实例创建出来之后,即可在函数的监控指标页面看到 LLM 指标。
由于推理框架实现上的差异,vLLM 默认开启 LLM 指标能力,SGLang 需要通过配置启动参数--enable-metrics显式开启。
查看 LLM 指标
登录函数计算控制台,在页面顶部选择地域。
在左侧导航栏选择函数管理 > 函数,单击目标函数名称。
在函数详情页,单击监控指标页签。
单击LLM 指标子页签,查看各项指标数据。图表支持悬停查看详细数值。
如果 LLM 指标未开启,页面会显示提示信息并提供快捷链接引导您到配置页面开启。
指标说明
vLLM 指标
vLLM 支持如下指标:
指标名称 | 说明 |
Requests Status | 请求状态(Running 运行中、Waiting 等待中、Swapped 已换出) |
Token Throughput (tokens/sec) | Token 吞吐量(tokens/秒) |
Request Completion Status | 请求完成状态 |
Time to First Token (seconds) | 首 Token 延迟(秒),从请求开始到首个 Token 输出的耗时 |
E2E Request Latency (seconds) | 端到端请求延迟(秒) |
Queue Time (seconds) | 队列时间(秒) |
Inference Time (seconds) | 推理时间(秒) |
Prefill Time (seconds) | 预填充时间(秒) |
Decode Time (seconds) | 解码时间(秒) |
Processed Prefill Tokens | 已处理的预填充 Token 数 |
Processed Generation Tokens | 已处理的生成 Token 数 |
Request Parameters | 请求参数 |
SGLang 指标
SGLang 支持如下指标:
指标名称 | 说明 |
Requests Num | 请求数量 |
Token Throughput (tokens/sec) | Token 吞吐量(tokens/秒) |
Time to First Token (seconds) | 首 Token 延迟(秒),从请求开始到首个 Token 输出的耗时 |
E2E Request Latency | 端到端请求延迟 |
Cache Hit Rate (%) | KV Cache 命中率(%) |
Used Tokens Num | 已使用 Token 数 |
Token Usage (%) | Token 使用率(%) |
部分指标支持分位统计:
例如,vLLM 的 Time to First Token (seconds)、E2E Request Latency (seconds)、Queue Time (seconds)、Inference Time (seconds)、Prefill Time (seconds)、Decode Time (seconds)、Processed Prefill Tokens、Processed Generation Tokens 等指标,以及 SGLang 的 Time to First Token (seconds)、E2E Request Latency 等指标。