介绍如何在创建或配置 GPU 函数时开启 LLM 指标监控，以及在函数监控页面查看 vLLM、SGLang 等推理引擎的指标。-函数计算(FC)-阿里云帮助中心

函数计算支持对 GPU 函数中的 LLM 推理服务进行指标监控，可在控制台查看请求状态、Token 吞吐量、首 Token 延迟等数据，帮助您监控服务运行情况并优化性能。

前提条件

已创建 GPU 函数，且使用 vLLM 或 SGLang 推理框架。
已开启日志服务（日志监控）。

使用限制

LLM 指标监控仅适用于 GPU 函数。
日志监控的配置方式需选择自定义配置，自动配置模式下无法开启 LLM 指标。
SGLang 需在启动命令中显式添加--enable-metrics参数；vLLM 默认开启指标能力。

开启 LLM 指标

新建函数时开启

新建函数时，可按以下方式开启 LLM 指标监控：

登录函数计算控制台，在页面顶部选择地域。
在左侧菜单选择函数管理 > 函数，在右侧单击创建函数。
在打开的选择最适合你的函数类型页面，选择GPU 函数，单击创建{title}。
在创建{title}页面，找到高级配置下的日志监控、链路追踪部分，将配置方式选择为自定义配置，将LLM 指标选择为打开。
其他配置与创建 GPU 函数中的说明相同，按需配置后单击创建。

说明

指标需在实例启动运行后才开始采集；若使用 SGLang，需在启动命令中添加--enable-metrics。

完成上述配置后，函数的 LLM 指标监控即已开启。

已有函数开启

在已有函数的场景，可以通过以下方式开启 LLM 指标配置：

在函数配置页面，找到高级配置部分，单击右上角编辑，打开高级配置编辑页面。
在日志区域，将LLM 指标选择为打开，单击部署。
等实例轮转完毕、新实例创建出来之后，即可在函数的监控指标页面看到 LLM 指标。

说明

由于推理框架实现上的差异，vLLM 默认开启 LLM 指标能力，SGLang 需要通过配置启动参数--enable-metrics显式开启。

查看 LLM 指标

登录函数计算控制台，在页面顶部选择地域。
在左侧导航栏选择函数管理 > 函数，单击目标函数名称。
在函数详情页，单击监控指标页签。
单击LLM 指标子页签，查看各项指标数据。图表支持悬停查看详细数值。

说明

如果 LLM 指标未开启，页面会显示提示信息并提供快捷链接引导您到配置页面开启。

指标说明

vLLM 指标

vLLM 支持如下指标：

指标名称	说明
Requests Status	请求状态（Running 运行中、Waiting 等待中、Swapped 已换出）
Token Throughput (tokens/sec)	Token 吞吐量（tokens/秒）
Request Completion Status	请求完成状态
Time to First Token (seconds)	首 Token 延迟（秒），从请求开始到首个 Token 输出的耗时
E2E Request Latency (seconds)	端到端请求延迟（秒）
Queue Time (seconds)	队列时间（秒）
Inference Time (seconds)	推理时间（秒）
Prefill Time (seconds)	预填充时间（秒）
Decode Time (seconds)	解码时间（秒）
Processed Prefill Tokens	已处理的预填充 Token 数
Processed Generation Tokens	已处理的生成 Token 数
Request Parameters	请求参数

SGLang 指标

SGLang 支持如下指标：

指标名称	说明
Requests Num	请求数量
Token Throughput (tokens/sec)	Token 吞吐量（tokens/秒）
Time to First Token (seconds)	首 Token 延迟（秒），从请求开始到首个 Token 输出的耗时
E2E Request Latency	端到端请求延迟
Cache Hit Rate (%)	KV Cache 命中率（%）
Used Tokens Num	已使用 Token 数
Token Usage (%)	Token 使用率（%）

部分指标支持分位统计：

例如，vLLM 的 Time to First Token (seconds)、E2E Request Latency (seconds)、Queue Time (seconds)、Inference Time (seconds)、Prefill Time (seconds)、Decode Time (seconds)、Processed Prefill Tokens、Processed Generation Tokens 等指标，以及 SGLang 的 Time to First Token (seconds)、E2E Request Latency 等指标。