为LLM(Large Language Model)应用安装Python探针后,ARMS即可开始监控LLM应用,您可以在性能分析页面了解LLM应用中大语言模型被调用次数、平均耗时、调用错误次数等信息。
前提条件
已为LLM应用安装探针,具体操作,请参见LLM 大语言模型应用接入 ARMS。
查看LLM应用性能分析
登录ARMS控制台,在左侧导航栏选择 。
在应用列表页面顶部选择目标地域,然后单击目标应用名称。
在上方导航栏单击性能分析。
面板
说明
模型调用次数
应用在指定时间段内调用大语言模型的次数。
模型调用平均耗时
应用在指定时间段内调用大语言模型的平均耗时。
模型调用错误次数
应用在指定时间段内调用大语言模型失败的次数。
模型调用次数/1m
应用每分钟调用大语言模型的次数。
模型调用平均耗时/1m
应用每分钟调用大语言模型的平均耗时。
模型调用错误/1m
应用每分钟调用大语言模型失败的次数。
模型耗时分位数(P99)/1m
应用每分钟调用大语言模型耗时的P99分位数值(即99%的调用耗时小于该值)。
模型调用首包平均耗时/1m
应用每分钟调用大语言模型返回首包数据的平均耗时。
模型首包耗时分位数(P99)/1m
应用每分钟调用大语言模型返回首包耗时的P99分位数值。
模型调用排行(Top5)
按调用次数从高到低排序,展示调用量最高的前5个模型。
模型调用平均耗时排行(Top5)
按平均耗时从高到低排序,展示耗时最长的前5个模型。
模型调用错误排行(Top5)
按调用错误次数从高到低排序,展示错误率最高的前5个模型。
相关文档
该文章对您有帮助吗?