性能分析

LLM(Large Language Model)应用安装Python探针后,ARMS即可开始监控LLM应用,您可以在性能分析页面了解LLM应用中大语言模型被调用次数、平均耗时、调用错误次数等信息。

前提条件

已为LLM应用安装探针,具体操作,请参见LLM 大语言模型应用接入 ARMS

查看LLM应用性能分析

  1. 登录ARMS控制台,在左侧导航栏选择LLM应用监控 > 应用列表

  2. 应用列表页面顶部选择目标地域,然后单击目标应用名称。

  3. 在上方导航栏单击性能分析

    image

    面板

    说明

    模型调用次数

    应用在指定时间段内调用大语言模型的次数。

    模型调用平均耗时

    应用在指定时间段内调用大语言模型的平均耗时。

    模型调用错误次数

    应用在指定时间段内调用大语言模型失败的次数。

    模型调用次数/1m

    应用每分钟调用大语言模型的次数。

    模型调用平均耗时/1m

    应用每分钟调用大语言模型的平均耗时。

    模型调用错误/1m

    应用每分钟调用大语言模型失败的次数。

    模型耗时分位数(P99)/1m

    应用每分钟调用大语言模型耗时的P99分位数值(即99%的调用耗时小于该值)。

    模型调用首包平均耗时/1m

    应用每分钟调用大语言模型返回首包数据的平均耗时。

    模型首包耗时分位数(P99)/1m

    应用每分钟调用大语言模型返回首包耗时的P99分位数值。

    模型调用排行(Top5)

    按调用次数从高到低排序,展示调用量最高的前5个模型。

    模型调用平均耗时排行(Top5)

    按平均耗时从高到低排序,展示耗时最长的前5个模型。

    模型调用错误排行(Top5)

    按调用错误次数从高到低排序,展示错误率最高的前5个模型。

相关文档