列举可量化模型及配置模板

更新时间:
复制为 MD 格式

查询当前支持量化压缩的模型列表及其配置模板。

列举可量化模型及配置模板

列出当前用户所有可量化的自定义调优模型,及每个模型对应的压缩模板。模板绑定在模型上,不同模型架构 × 精度 × 目标 MU 规格的组合对应不同模板。

仅返回当前用户基于基础模型做 SFT/DPO/CPT 全参调优的自定义模型。LoRA 调优模型和已量化模型不会出现在结果中。

地址

GET /api/v1/fine-tunes/compress/templates

请求参数

参数

类型

必选

默认

说明

model

String

-

按模型 ID 过滤;传基础模型名时返回基于该基础模型的所有自定义模型

lang

String

zh-CN

响应语言:zh-CN / en-US(详见多语言支持

请求示例

curl "https://dashscope.aliyuncs.com/api/v1/fine-tunes/compress/templates" \
  -H "Authorization: Bearer ${API_KEY}"

响应示例(最小)

{
  "request_id": "uuid-string",
  "output": {
    "base_models": ["qwen3.5-flash-2026-02-23"],
    "custom_models": [
      {
        "model": "qwen3.5-flash-2026-02-23-ft-***",
        "model_name": "我的SFT调优模型",
        "base_model": "qwen3.5-flash-2026-02-23",
        "templates": [
          {
            "template_id": "quant-flash-nvfp4-mlp-nomtp",
            "template_name": "W4A4 NVFP4高性能压缩-MU5/MU8/MU9",
            "description": "在更低比特压缩下兼顾高精度与高性能,进一步降低显存占用并提升推理吞吐。",
            "compress_type": "quantization",
            "hyper_parameters": []
          }
        ]
      }
    ]
  }
}

响应示例(完整:含可调超参)

{
  "request_id": "uuid-string",
  "output": {
    "base_models": ["qwen3.5-flash-2026-02-23"],
    "custom_models": [
      {
        "model": "qwen3.5-flash-2026-02-23-ft-***",
        "model_name": "我的SFT调优模型",
        "base_model": "qwen3.5-flash-2026-02-23",
        "templates": [
          {
            "template_id": "quant-flash-nvfp4-mlp-nomtp",
            "template_name": "W4A4 NVFP4高性能压缩-MU5/MU8/MU9",
            "description": "在更低比特压缩下兼顾高精度与高性能,进一步降低显存占用并提升推理吞吐。",
            "compress_type": "quantization",
            "hyper_parameters": [
              {
                "name": "calib_input",
                "type": "string",
                "display_name": "校准输入",
                "description": "是否启用校准输入",
                "support_values": ["true"],
                "defaultValue": "true",
                "recommend_value": "true",
                "required": false
              }
            ]
          }
        ]
      }
    ]
  }
}

响应参数

字段

类型

说明

base_models

Array<String>

支持压缩的基础模型名称列表

custom_models[].model

String

模型 ID

custom_models[].model_name

String

模型展示名称

custom_models[].base_model

String

基础模型名称

custom_models[].templates

Array

该模型支持的压缩配置模板列表,继承其基础模型的模板

templates[].template_id

String

模板 ID,创建压缩任务时作为 template_id 参数传入,详见创建压缩任务

templates[].template_name

String

模板名称(支持多语言,根据 lang 参数返回对应语言版本)

templates[].description

String

模板描述(支持多语言,根据 lang 参数返回对应语言版本)

templates[].compress_type

String

压缩类型,固定为 quantization

templates[].hyper_parameters

Array

可调超参数;空数组表示无可调超参

hyper_parameters[].name

String

参数名(创建任务时作为 Key 使用)

hyper_parameters[].type

String

类型:number(数值型,配合 data_range/step)/ string(枚举型,配合 support_values

hyper_parameters[].display_name

String

参数展示名称(支持多语言,根据 lang 参数返回对应语言版本)

hyper_parameters[].description

String

参数描述(支持多语言,根据 lang 参数返回对应语言版本)

hyper_parameters[].defaultValue

String

默认值

hyper_parameters[].recommend_value

String

推荐值

hyper_parameters[].required

Boolean

是否必传

hyper_parameters[].support_values

Array<String>

枚举值列表(仅 type=string 时存在),如 ["instruct", "think", "hybrid"]

hyper_parameters[].data_range

Array<String>

数值范围(仅 type=number 时存在),如 ["64","256"] 表示取值范围 64~256

hyper_parameters[].step

Integer

步长(仅 type=number 时存在)

错误码

通用错误码

错误码

HTTP

说明

InvalidParameter

400

请求参数不合法

MissingParameter

400

缺少必选参数

Unauthorized

401

认证失败

Forbidden

403

无权限访问

ResourceNotFound

404

资源不存在

UnsupportedOperation

400

资源状态不允许该操作(如取消已终态任务)

QuotaExceeded

429

配额超限

InternalError

500

服务内部错误

业务错误码

以下业务错误码按场景分类列出。对外 Code 为接口实际返回的 code 字段值。

参数校验类

对外 Code

HTTP

说明

InvalidParameter

400

缺少必选参数 model

InvalidParameter

400

缺少必选参数 template_id

InvalidParameter

400

不支持对基础模型直接量化

InvalidParameter

400

指定的配置模板不存在

InvalidParameter

400

当前模型不支持该压缩模板

InvalidParameter

400

模型不支持量化

InvalidParameter

400

LoRA 调优模型不支持量化

InvalidParameter

400

模型数据不可用

InvalidParameter

400

任务名称包含不支持的字符

InvalidParameter

400

output_model_suffix 超过 8 字符

InvalidParameter

400

源模型尚未就绪

AccessDenied

403

无权使用该压缩模板

超参数校验类

对外 Code

HTTP

说明

InvalidParameter

400

必选超参数未传

InvalidParameter

400

传入了未知超参数

InvalidParameter

400

超参数值不在枚举值列表中

InvalidParameter

400

超参数值超出数值范围

InvalidParameter

400

超参数值不是合法数字

任务查询类

对外 Code

HTTP

说明

NotFound

404

指定的压缩任务不存在

InvalidParameter

400

缺少必选参数 job_id

分页与时间参数类

对外 Code

HTTP

说明

InvalidParameter

400

页码参数不合法(须 ≥ 1)

InvalidParameter

400

每页数量不合法(须 1~100)

InvalidParameter

400

时间格式不合法

错误响应示例

{
  "request_id": "uuid-string",
  "code": "InvalidParameter",
  "message": "The specified model 'xxx-lora-yyy' is a LoRA model and not supported for quantization."
}