开发者可通过使用vLLM、SGLang推理加速框架来优化推理服务,简化生产级AI应用落地。通过安装Python Agent,可以针对上述场景的模型服务进行自动埋点实现模型服务侧的推理性能监控。
前提条件
已经完成云监控2.0接入AI 应用可观测。
操作步骤
登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择 。
在AI 应用可观测的导航栏,选择
。在模型服务(Python)列表中,提供了以下模型服务数据分析的详情。
应用名称
来源
语言
区域
请求次数
错误次数
平均延迟时间
选择字段列的搜索
图标,进行筛选模型服务列表数据。
在模型服务(Python)列表右上方,可以选择时间段或者自定义时间筛选数据,如:1分钟、5分钟、15分钟、1小时、1天等时间段。
在模型服务列表中,选择目标应用滑出页面。
实例概览:您可以浏览目标应用监控分析指标的可视化大盘。
关联实例:可以查看选择目标应用的相关实例资源。关联的资源如:应用、接口、kubernetes、基础设施、Upstream、Downstream。
关联拓扑:选择目标应用的关联资源服务的拓扑图。
应用概览:选择目标应用的指标概览。
调用链分析:将会显示大模型调用链信息,包括调用次数、Tokens、耗时信息,以及Span列表和Trace列表。详情请参见调用链分析。
该文章对您有帮助吗?