通过模型观测功能,可查看:
调用记录
Token消耗
性能指标,含Token延时、调用时长、RPM(每分钟调用次数)、TPM(每分钟消耗Token数)及失败率等
模型观测暂不支持查看单次调用的具体请求内容、响应内容或完整的调用链路日志。
应用场景
调用统计 支持查看模型在过去一段时间内的使用情况 | 性能指标 支持查看模型的多种常见性能指标 |
查看调用次数和调用量的趋势和波动 查看失败次数和失败率,及时发现异常 | 分析RPM和TPM,作为未来容量规划的依据 查看调用时长和Token延时,跟踪模型的性能变化 |
支持的模型
开始使用
前提条件按照模型观测(北京或新加坡)界面上的指引开通模型调用服务,之后模型监控(普通监控模式)将自动启用且无法关闭。 请使用主账号操作开通服务,开通后通常分钟级生效,高峰期可能稍有延迟。 如需使用RAM用户(子账号)操作,需主账号为该子账号配置 | ||||||||||||||||||||||||||||
监控模式模型观测提供两种监控模式:普通监控和高级监控。 普通监控:作为基础服务提供,随模型调用服务开通自动开启,不支持关闭。 高级监控:需主账号(或拥有足够权限的子账号)在目标业务空间的模型观测(北京或新加坡)界面手动开启,支持关闭。
| ||||||||||||||||||||||||||||
查看监控数据开通模型调用服务后,系统会自动采集主账号下所有业务空间内的模型调用数据。用户每次直接或间接请求模型时,系统会自动收集并同步相关数据至模型观测(北京或新加坡)列表。 列表记录按模型维度生成。新模型在首次数据同步完成后自动加入列表(普通监控的延迟通常为小时级,请耐心等待)。 默认业务空间成员可查看所有业务空间的模型调用情况;子业务空间成员只能查看当前空间的模型调用情况,不支持按业务空间筛选。 | ||||||||||||||||||||||||||||
模型出现在列表中后,点击右侧操作列的监控,查看过去30天的调用统计(如调用次数、消耗Token数等)和性能指标(如RPM、TPM、调用时长以及首Token延时等)明细。支持按API-KEY、推理类型,以及最长30天的时间范围进行筛选。 按API-KEY筛选:默认业务空间下可基于所有API-KEY筛选,子业务空间下仅支持当前业务空间的API-KEY筛选。其中,筛选条件中的其他选项,指通过阿里云百炼控制台发起的调用(包括直接和间接调用)。 | ||||||||||||||||||||||||||||
配置模型告警为关键指标设置告警,以便在业务出现异常(例如成本突增、调用频繁失败)时,及时收到通知并介入处理。此功能依赖高级监控。 配置步骤:
系统预设普通、警告、错误和紧急四个告警等级。建议为每个等级统一明确的评判标准,这有助于您的团队快速识别与响应问题。 告警等级不支持修改或新增,目前阿里云百炼对不同等级的通知方式没有差异。 |
配额与限制
API限制:模型观测尚未提供API接口。
替代方案:如需通过API获取Token消耗信息,可在每次调用模型时从响应中的
usage
字段提取当前调用数据(目前不支持历史或汇总查询)。该字段结构示例如下(更多说明请参见通义千问API参考):{ "prompt_tokens": 3019, "completion_tokens": 104, "total_tokens": 3123, "prompt_tokens_details": { "cached_tokens": 2048 } }
告警模板限制:每个业务空间最多可创建100个告警模板。
数据保留周期:普通和高级监控的数据默认均保留30天。
计费说明
常见问题
为什么调用了模型,但在模型观测中查不到调用次数和消耗Token数?
按以下步骤排查:
确认数据延迟:确认是否已等待足够的数据同步时间。普通监控延迟为小时级,高级监控为分钟级。
确认业务空间:如果当前处于某个子业务空间,则只能看到该空间内的数据。切换到默认业务空间可查看所有数据。
使用子账号开通高级监控,应如何配置权限?
操作步骤:
为子账号配置
AliyunBailianFullAccess
全局管理(阿里云百炼)权限。为子账号配置
模型观测-操作
(或管理员
)页面权限,使其能在模型观测页面执行写入类操作。为子账号配置创建服务关联角色系统策略。
登录RAM控制台,在左侧导航栏,选择 ,然后单击页面上的创建权限策略。
点击脚本编辑,将以下内容粘贴至策略输入框后,单击确定。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }
输入权限策略名称
CreateServiceLinkedRole
后,单击确定。在左侧导航栏,选择
。从页面列表中找到待授权的子账号,然后单击子账号操作列的添加权限。从权限策略列表中,选择刚创建的权限策略(CreateServiceLinkedRole),然后单击确认新增授权。至此,子账号拥有了创建服务关联角色的权限。
调用大模型时出现超时,可能是什么原因?
模型观测不提供具体的调用日志,需自行排查。常见原因包括:
输出内容过长:模型生成内容过多导致整体耗时超过客户端等待上限。建议改用流式输出方式,以更快获得首个Token,改善用户体验。
网络问题:检查客户端与阿里云服务之间的网络连接是否稳定。
附录
名词解释
名词 | 解释 |
实时推理 | 指对模型的所有直接和间接调用,主要涵盖以下场景:
|
批量推理 | 对于无需实时响应的场景,通过批量推理服务以离线方式进行的大规模数据处理。 |