LLM应用操作分析功能详解-应用实时监控服务-阿里云

为LLM（Large Language Model）应用安装Python探针后，ARMS即可开始监控LLM应用，您可以在LLM操作页面了解LLM应用中嵌入分析、检索增强、工具调用和方法调用的操作次数、耗时和错误次数等信息。

前提条件

已为LLM应用安装探针，具体操作，请参见LLM 大语言模型应用接入 ARMS。

在上方导航栏单击LLM操作下拉框，选择需要查看的操作类型。

在大模型应用中，Embedding（嵌入）是一种将文本、图像或其他类型的数据转换为低维向量的技术。这些向量能够捕捉数据的语义信息，并用于相似度计算、检索、分类等任务。

通过嵌入分析（Embedding Analysis），您可以全面监控 Embedding 功能的性能、稳定性和效果，为大模型应用的优化和运维提供数据支持。

面板	说明
Embedding次数	指定时间段内所有 Embedding 调用的总次数。
Embedding平均耗时	指定时间段内所有 Embedding 调用的平均耗时。
Embedding错误次数	指定时间段内所有 Embedding 调用失败的次数。
Embedding次数/1m	每分钟内 Embedding 调用的总次数。
Embedding耗时/1m	每分钟内所有 Embedding 调用的平均耗时。
Embedding错误/1m	每分钟内 Embedding 调用失败的次数。
Embedding次数排行（Top5）	按调用次数从高到低排序，展示调用量最高的前5个 Embedding 功能或模型。
Embedding耗时排行（Top5）	按平均耗时从高到低排序，展示耗时最长的前5个 Embedding 功能或模型。
Embedding错误排行（Top5）	按调用错误次数从高到低排序，展示错误率最高的前5个 Embedding 功能或模型。

在大模型应用中，检索增强（Retrieval-Augmented Generation, RAG）是一种结合检索（Retrieval）和重排序（Rerank）的技术，用于提升大模型生成内容的相关性和准确性。

通过监控 Retrieval 和 Rerank 的相关指标，您可以全面评估检索增强功能的性能、稳定性和效果，为优化大模型应用提供数据支持。

在大模型应用中，工具调用（Tool Calling）是指大模型在执行任务时，调用外部工具或 API 来完成特定功能的过程。这些工具可以是计算器、数据库查询接口、搜索引擎、翻译服务等，用于扩展大模型的能力，使其能够处理更复杂或更具体的任务。

通过工具调用的监控数据，您可以全面评估大模型应用与外部工具的交互情况，为优化和运维提供数据支持。

面板	说明
调用次数	指定时间段内所有工具的调用总次数。
调用平均耗时	指定时间段内所有工具调用的平均耗时。
错误次数	指定时间段内所有工具调用失败的次数。
调用次数/1m	每分钟内工具调用的总次数。
调用耗时/1m	每分钟内所有工具调用的平均耗时。
错误次数/1m	每分钟内工具调用失败的次数。
调用排行（Top5）	按调用次数从高到低排序，展示调用量最高的前5个工具。
调用耗时排行（Top5）	按平均耗时从高到低排序，展示耗时最长的前5个工具。
错误排行（Top5）	按调用错误次数从高到低排序，展示错误率最高的前5个工具。

在大模型应用中，方法调用（TASK）是指内部自定义方法，例如应用执行的本地方法调用，或者某类重要的任务操作。

通过方法调用的监控数据，您可以全面评估大模型应用内部方法的调用情况，为优化和运维提供数据支持。

面板	说明
调用次数	指定时间段内所有方法的调用总次数。
调用平均耗时	指定时间段内所有方法调用的平均耗时。
错误次数	指定时间段内所有方法调用失败的次数。
调用次数/1m	每分钟内方法调用的总次数。
调用耗时/1m	每分钟内所有方法调用的平均耗时。
错误次数/1m	每分钟内方法调用失败的次数。
调用排行（Top5）	按调用次数从高到低排序，展示调用量最高的前5个方法。
调用耗时排行（Top5）	按平均耗时从高到低排序，展示耗时最长的前5个方法。
错误排行（Top5）	按调用错误次数从高到低排序，展示错误率最高的前5个方法。