链路追踪

更新时间:
复制 MD 格式

链路追踪功能为您提供对 AI Agent 请求的端到端调用链追踪与分析能力,帮助您快速定位性能瓶颈、排查异常请求,并全面了解 Agent 的运行状况。

前提条件

  • 已开通云监控2.0服务并创建工作空间。

  • 已完成 AI Agent 应用的数据接入配置。

操作路径

登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择AI Agent可观测,单击链路追踪页签。

功能说明

搜索与筛选

页面顶部提供搜索框,您可以输入查询条件后按 Enter 键执行搜索。

说明

支持按 Shift+Enter 换行输入多行查询条件,以构建更精确的搜索表达式。

搜索框右侧提供聚合按钮及聚合维度选择器,您可以按指定维度对搜索结果进行聚合分析,快速获取统计概览。

概览图表

搜索区域下方展示三个并列的趋势图,帮助您直观掌握 AI Agent 调用的整体运行态势:

图表名称

说明

Trace 数

展示所选时间段内 Trace 数量的变化趋势,反映请求量的波动情况。

平均耗时

展示请求平均耗时的变化趋势,帮助您识别性能劣化或异常延迟。

Token 消耗

展示总 Token 消耗(total_tokens)的变化趋势,便于您监控模型资源用量。

视图模式

页面右上角提供视图切换控件,支持以下三种视图模式:

视图模式

说明

列表视图(默认)

以表格形式展示 Trace 列表,适合快速浏览和批量筛选。

卡片视图

以卡片形式展示 Trace 信息,提供更丰富的内容预览。

轨迹视图

以时间轴/瀑布图形式展示 Trace 轨迹,适合分析调用链的时序关系与耗时分布。

Trace 列表字段

在列表视图下,每条 Trace 记录包含以下字段:

字段

说明

Trace ID

调用链的唯一标识,可用于精确检索特定请求。

输入

请求的输入内容,即用户发送给 AI Agent 的原始信息。

输出

请求的输出内容,即 AI Agent 返回给用户的响应结果。

耗时

请求的端到端总耗时,单位为毫秒(ms)。

Total tokens

本次请求消耗的总 Token 数,包含输入和输出 Token 的总和。

入口应用名称

发起请求的应用名称,用于区分不同的 Agent 应用来源。

用户 ID

发起请求的用户标识。

会话 ID

所属会话的标识,同一会话中的多次请求共享相同的会话 ID。

开始时间

请求的开始时间,精确到毫秒。

操作

提供详情按钮,单击可查看完整的调用链详情,包括各 Span 的执行信息。

分页

列表底部显示搜索匹配的 Trace 总数,并提供分页控件,您可以翻页查看更多结果。

Trace详情

在 Trace 列表中找到目标 Trace 记录,单击右侧操作列的详情进入 Trace 详情页面。

说明

也可以从会话分析页面进入对应会话详情后,单击链路列表中的链路 ID 进入 Trace 详情。

顶部信息栏

页面顶部展示当前 Trace 的核心元数据,便于快速定位与共享。

字段

说明

Trace ID

当前调用链的唯一标识。

开始时间

请求发起的时间,精确到毫秒。

耗时

端到端总耗时,单位为毫秒(ms)。

Agents

本次链路中涉及的 AI Agent 数量。

Token消耗

本次请求消耗的全部 Token 数量。

会话ID

所属会话的标识,可用于关联同一会话下的其他请求。

用户ID

发起请求的用户标识。

LLM调用

本次链路中的大模型调用次数。

工具调用

本次链路中的工具调用次数。

页面右上角提供新页面打开免密分享切换旧版等操作入口,便于在不同场景下查看与分享 Trace 信息。

顶部信息栏下方同时展示本次请求的输入输出内容摘要,用于快速了解请求语义而无需进入子 Span 查看详情。

视图模式

Trace详情页面提供 5 种视图模式,可通过顶部页签切换:

视图

说明

调用树

以树形结构展示 Span 层级关系,每个节点展示类型(ENTRY/AGENT/LLM/TOOL 等)、Span 名称、关键属性(如 total tokens、model 名称等)及耗时甘特图,适合快速了解整体调用结构与耗时分布。

链路图

以拓扑图形式展示 Span 节点及调用关系,每个节点显示 duration、calls、status 等核心指标,支持轨迹视图 / 聚合视图切换,适合分析调用拓扑与节点依赖。

时序线

左侧以瀑布图形式展示 Span 列表(含耗时长条),右侧展示选中 Span 的完整详情(Info / Attributes / Resources / Details / Events / Links 等子标签),是最常用的精细分析视图。

推理轨迹

按 Agent 维度分组展示对话轨迹,以彩色气泡区分 System / User / Assistant / Tool 四类消息,完整呈现推理过程中的输入输出对话内容,适合分析 LLM 推理逻辑。

链路分析

聚合本次 Trace 的关键性能指标,并通过多个可视化图表展示性能与调用分布,适合从整体维度评估链路健康度。

说明

右上角的微服务视图链接可跳转到微服务可观测体系下的对应链路视图,便于与底层基础设施排障联动。

调用树视图

以缩进树形结构展示 Span 层级关系,每个节点包含:

  • Span 类型标签(如 ENTRY、AGENT、LLM、TOOL)。

  • Span 名称(如 enter_ai_application_systeminvoke_agent xxxgenerate_content xxx)。

  • 关键属性(如 total tokens: 2model: cosyvoice-v1)。

  • 右侧的耗时甘特图条与耗时数值。

页面提供搜索框仅高亮开关、展开/折叠视图配置等辅助操作,便于在大型链路中快速定位关键 Span。

链路图视图

以节点-连线的拓扑图展示 Span 间的调用关系。每个节点卡片显示:

  • Span 名称

  • duration(耗时)

  • calls(调用次数)

  • status(执行状态,如 OK / Error)

  • 关键属性(如 model 名称、total tokens 等)

右上角提供轨迹视图聚合视图切换:轨迹视图保留原始调用顺序展示完整链路;聚合视图将相同 Span 合并展示,便于识别热点节点与调用模式。

时序线视图

提供最精细的单 Span 分析能力。

  • 左侧 Span 列表:以瀑布图形式按时间顺序展示所有 Span,每个 Span 显示类型标签、Span 名称、耗时及甘特图条,直观体现 Span 间的时序与耗时关系。

  • 右侧 Span 详情:单击左侧任意 Span 可在右侧查看完整详情,包含以下子标签:

子标签

说明

Info

展示 Span 的核心元数据(开始时间、结束时间、耗时、状态等)以及输入(Input)与输出(Output)内容。输入输出按角色(USER / ASSISTANT / TOOL)分组展示,支持格式化(Pretty)原始数据切换。

Attributes

展示 OpenTelemetry 标准属性以及 GenAI 语义约定的扩展属性,括号中数字表示属性数量。

Resources

展示资源元数据(如服务、主机、SDK 版本等),用于定位 Span 来源。

Details

展示 Span 的扩展详细信息。

Events

展示与 Span 关联的事件(Event)列表。

Links

展示与 Span 关联的链接(Link)列表,用于跨 Trace 关联分析。

说明

详情面板右上角提供日志查询事件配置等联动操作入口,便于快速跳转至关联的日志或事件视图。

推理轨迹视图

按 Agent 维度组织对话流,以彩色气泡区分四类消息,便于还原 LLM 推理过程。

消息角色

说明

System

系统提示词或会话上下文设定。

User

用户输入或上游请求。

Assistant

模型回复或 Agent 决策内容。

Tool

工具调用的输入参数或返回结果。

每条消息以气泡形式展示完整 Text 或 JSON 内容(如 mime_typemodalityuri 等结构化字段),右上角显示该消息的耗时。

链路分析视图

聚合展示本次 Trace 的性能与调用指标。

核心指标

页面顶部提供 6 个核心指标卡片:

指标

说明

总耗时

本次链路的总执行耗时。

TT

总 Token 数。

Token消耗

链路时间窗口内的 Token 消耗趋势。

LLI

LLM 调用次数。

TO

工具调用次数。

SK

Skill 加载次数。

性能分析
  • LLM与工具调用耗时占比:饼图展示 LLM 与 TOOL 在本次链路中的耗时占比。

  • LLM调用耗时TOP:表格列出耗时最长的 LLM 调用 Span,字段包含 spanName、spanId、耗时、TTFT、输入 Tokens 等。

  • TOOL调用耗时TOP:表格列出耗时最长的工具调用 Span。

LLM调用分析

通过 4 张趋势图展示 LLM 调用的细粒度性能表现:

  • LLM 单轮耗时趋势(ttft / total_duration)

  • LLM 单轮 Token 趋势(input_tokens / output_tokens)

  • LLM 单轮 Token 输出速率(output_tokens / s)

  • LLM 缓存命中率(cache_hit)

TOOL调用分析

通过 3 张图表展示工具调用的运行表现:

  • TOOL 调用耗时趋势

  • TOOL 调用输入输出大小

  • 各工具调用次数

SKILL加载分析

展示 Skill 加载记录,便于分析 Agent 在执行过程中加载的 Skill 及其耗时。

常见使用场景

  • 性能瓶颈定位:通过调用树或时序线视图按耗时排序,快速识别耗时最长的 Span,并在链路分析视图中查看 LLM/TOOL 的耗时占比与 TOP 调用,定位优化方向。

  • 异常请求排查:在调用树中查找状态为 Error 的 Span,进入时序线视图查看其 Attributes、Events 中的错误堆栈与详细信息,快速定位失败原因。

  • 推理过程审计:通过推理轨迹视图回放完整的 User-Assistant-Tool 对话流,分析模型决策路径与工具调用合理性。

  • Token 用量分析:通过链路分析视图查看 Token 消耗分布与缓存命中率,识别高消耗节点并优化 Prompt 设计。