为LLM(Large Language Model)应用安装Python探针后,ARMS即可开始监控LLM应用,您可以在Token分析页面了解LLM应用中的Token使用情况。
在大模型应用中,Token 是文本处理的基本单位,用于表示模型输入和输出的最小语义单元。Token 可以是一个单词、一个子词(subword)或一个字符,具体取决于模型的分词方式(Tokenizer)。
前提条件
已为LLM应用安装探针,具体操作,请参见LLM 大语言模型应用接入 ARMS。
查看LLM应用Token分析
登录ARMS控制台,在左侧导航栏选择。
在应用列表页面顶部选择目标地域,然后单击目标应用名称。
在上方导航栏单击Token分析。

面板
说明
Token使用
指定时间段内所有模型调用消耗的 Token 总量。
Avg tokens per LLM call
每次模型调用(LLM Call)平均消耗的 Token 数量。
Avg tokens per request
每个用户请求(Request)平均消耗的 Token 数量。
Tokens消耗/1m
每分钟内所有模型调用消耗的 Token 总量。
Avg tokens per LLM call/1m
每分钟内每次模型调用平均消耗的 Token 数量。
Avg tokens per request/1m
每分钟内每个用户请求平均消耗的 Token 数量。
Token使用模型排行(Top5)
按 Token 消耗总量从高到低排序,展示 Token 使用最多的前5个模型。
Token使用会话排行(Top5)
按 Token 消耗总量从高到低排序,展示 Token 使用最多的前5个会话(Session)。
Token使用用户排行(Top5)
按 Token 消耗总量从高到低排序,展示 Token 使用最多的前5个用户。
相关文档
该文章对您有帮助吗?