开发者可通过使用vLLM、SGLang推理加速框架来优化推理服务,简化生产级AI应用落地。通过安装Python Agent,可以针对上述场景的模型服务进行自动埋点实现模型服务侧的推理性能监控。
已经完成云监控2.0接入AI 应用可观测。
登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择应用中心 > 应用可观测 > AI 应用可观测。
在AI 应用可观测的导航栏,选择模型服务 > 推理应用。
在推理应用列表中,选择需要分析的推理应用对应名称,进入模型服务详情页
实体详情:您可以浏览目标应用监控分析指标的可视化大盘。
关联拓扑:选择目标应用的关联资源服务的拓扑图。
应用概览:选择目标应用的指标概览。
调用链分析:将会显示大模型调用链信息,包括调用次数、Tokens、耗时信息,以及Span列表和Trace列表。详情请参见调用链分析。