查看LLM应用的性能分析数据-应用实时监控服务-阿里云

为LLM（Large Language Model）应用安装Python探针后，ARMS即可开始监控LLM应用，您可以在性能分析页面了解LLM应用中大语言模型被调用次数、平均耗时、调用错误次数等信息。

前提条件

已为LLM应用安装探针，具体操作，请参见LLM 大语言模型应用接入 ARMS。

在上方导航栏单击性能分析。

面板	说明
模型调用次数	应用在指定时间段内调用大语言模型的次数。
模型调用平均耗时	应用在指定时间段内调用大语言模型的平均耗时。
模型调用错误次数	应用在指定时间段内调用大语言模型失败的次数。
模型调用次数/1m	应用每分钟调用大语言模型的次数。
模型调用平均耗时/1m	应用每分钟调用大语言模型的平均耗时。
模型调用错误/1m	应用每分钟调用大语言模型失败的次数。
模型耗时分位数（P99）/1m	应用每分钟调用大语言模型耗时的P99分位数值（即99%的调用耗时小于该值）。
模型调用首包平均耗时/1m	应用每分钟调用大语言模型返回首包数据的平均耗时。
模型首包耗时分位数（P99）/1m	应用每分钟调用大语言模型返回首包耗时的P99分位数值。
模型调用排行（Top5）	按调用次数从高到低排序，展示调用量最高的前5个模型。
模型调用平均耗时排行（Top5）	按平均耗时从高到低排序，展示耗时最长的前5个模型。
模型调用错误排行（Top5）	按调用错误次数从高到低排序，展示错误率最高的前5个模型。