查询当前支持量化压缩的模型列表及其配置模板。
列举可量化模型及配置模板
列出当前用户所有可量化的自定义调优模型,及每个模型对应的压缩模板。模板绑定在模型上,不同模型架构 × 精度 × 目标 MU 规格的组合对应不同模板。
仅返回当前用户基于基础模型做 SFT/DPO/CPT 全参调优的自定义模型。LoRA 调优模型和已量化模型不会出现在结果中。
地址
GET /api/v1/fine-tunes/compress/templates
请求参数
|
参数 |
类型 |
必选 |
默认 |
说明 |
|
model |
String |
否 |
- |
按模型 ID 过滤;传基础模型名时返回基于该基础模型的所有自定义模型 |
|
lang |
String |
否 |
zh-CN |
响应语言: |
请求示例
curl "https://dashscope.aliyuncs.com/api/v1/fine-tunes/compress/templates" \
-H "Authorization: Bearer ${API_KEY}"
响应示例(最小)
{
"request_id": "uuid-string",
"output": {
"base_models": ["qwen3.5-flash-2026-02-23"],
"custom_models": [
{
"model": "qwen3.5-flash-2026-02-23-ft-***",
"model_name": "我的SFT调优模型",
"base_model": "qwen3.5-flash-2026-02-23",
"templates": [
{
"template_id": "quant-flash-nvfp4-mlp-nomtp",
"template_name": "W4A4 NVFP4高性能压缩-MU5/MU8/MU9",
"description": "在更低比特压缩下兼顾高精度与高性能,进一步降低显存占用并提升推理吞吐。",
"compress_type": "quantization",
"hyper_parameters": []
}
]
}
]
}
}
响应参数
|
字段 |
类型 |
说明 |
|
base_models |
Array<String> |
支持压缩的基础模型名称列表 |
|
custom_models[].model |
String |
模型 ID |
|
custom_models[].model_name |
String |
模型展示名称 |
|
custom_models[].base_model |
String |
基础模型名称 |
|
custom_models[].templates |
Array |
该模型支持的压缩配置模板列表,继承其基础模型的模板 |
|
templates[].template_id |
String |
模板 ID,创建压缩任务时作为 template_id 参数传入,详见创建压缩任务 |
|
templates[].template_name |
String |
模板名称(支持多语言,根据 |
|
templates[].description |
String |
模板描述(支持多语言,根据 |
|
templates[].compress_type |
String |
压缩类型,固定为 |
|
templates[].hyper_parameters |
Array |
可调超参数;空数组表示无可调超参 |
|
hyper_parameters[].name |
String |
参数名(创建任务时作为 Key 使用) |
|
hyper_parameters[].type |
String |
类型: |
|
hyper_parameters[].display_name |
String |
参数展示名称(支持多语言,根据 |
|
hyper_parameters[].description |
String |
参数描述(支持多语言,根据 |
|
hyper_parameters[].defaultValue |
String |
默认值 |
|
hyper_parameters[].recommend_value |
String |
推荐值 |
|
hyper_parameters[].required |
Boolean |
是否必传 |
|
hyper_parameters[].support_values |
Array<String> |
枚举值列表(仅 |
|
hyper_parameters[].data_range |
Array<String> |
数值范围(仅 |
|
hyper_parameters[].step |
Integer |
步长(仅 |
错误码
通用错误码
|
错误码 |
HTTP |
说明 |
|
|
400 |
请求参数不合法 |
|
|
400 |
缺少必选参数 |
|
|
401 |
认证失败 |
|
|
403 |
无权限访问 |
|
|
404 |
资源不存在 |
|
|
400 |
资源状态不允许该操作(如取消已终态任务) |
|
|
429 |
配额超限 |
|
|
500 |
服务内部错误 |
业务错误码
以下业务错误码按场景分类列出。对外 Code 为接口实际返回的 code 字段值。
参数校验类
|
对外 Code |
HTTP |
说明 |
|
|
400 |
缺少必选参数 |
|
|
400 |
缺少必选参数 |
|
|
400 |
不支持对基础模型直接量化 |
|
|
400 |
指定的配置模板不存在 |
|
|
400 |
当前模型不支持该压缩模板 |
|
|
400 |
模型不支持量化 |
|
|
400 |
LoRA 调优模型不支持量化 |
|
|
400 |
模型数据不可用 |
|
|
400 |
任务名称包含不支持的字符 |
|
|
400 |
|
|
|
400 |
源模型尚未就绪 |
|
|
403 |
无权使用该压缩模板 |
超参数校验类
|
对外 Code |
HTTP |
说明 |
|
|
400 |
必选超参数未传 |
|
|
400 |
传入了未知超参数 |
|
|
400 |
超参数值不在枚举值列表中 |
|
|
400 |
超参数值超出数值范围 |
|
|
400 |
超参数值不是合法数字 |
任务查询类
|
对外 Code |
HTTP |
说明 |
|
|
404 |
指定的压缩任务不存在 |
|
|
400 |
缺少必选参数 |
分页与时间参数类
|
对外 Code |
HTTP |
说明 |
|
|
400 |
页码参数不合法(须 ≥ 1) |
|
|
400 |
每页数量不合法(须 1~100) |
|
|
400 |
时间格式不合法 |
错误响应示例
{
"request_id": "uuid-string",
"code": "InvalidParameter",
"message": "The specified model 'xxx-lora-yyy' is a LoRA model and not supported for quantization."
}