模型压缩使用量化算法将全精度微调模型转换为低精度版本。压缩后的模型在推理时显存占用更低,可以部署到更小规格的部署单元,从而降低部署成本并提升推理吞吐。
您可以在百炼控制台 模型训练 > 模型压缩 页面创建压缩任务,也可以通过 OpenAPI 调用。压缩产出的模型可直接用于 模型部署。
一、使用前提
压缩前,请确保满足以下条件:
二、支持压缩的模型
当前支持以下基础模型对应的自定义微调模型:
模型系列 | 模型名称 | 压缩前部署 | 压缩前部署 |
千问 | qwen3.5-flash-2026-02-23 | MU1 * 2 (¥108/小时) | MU8 * 1 (¥47/小时) |
具体支持模型以百炼控制台「模型压缩」页面为准。
三、操作步骤
登录百炼控制台,在左侧导航选择 模型训练 > 模型压缩。
单击页面右上角 + 创建压缩任务。
在创建压缩任务页面填写以下信息:

任务名称(必填)、任务描述(可选)。
选择源模型:从弹窗中选择当前工作空间内符合条件的自定义微调模型。
量化产出模型名后缀:用于生成产出模型 ID。
量化模板:从所选源模型支持的模板列表中选择。
校准数据(所选模板要求校准数据时显示):校准数据用于统计模型权重和激活值的数值分布,以确定量化时的缩放范围和分块大小。从已发布数据集中按"数据集 → 版本"选择,数据集需先在 数据管理 中创建并发布。OSS 挂载的数据集暂不支持作为校准数据,仅可使用百炼内置数据集。OpenAPI 调用时通过
custom_calibration_file_ids字段传入。
单击 开始压缩,任务进入列表。
跟踪任务进度。
在任务列表中查看运行状态(排队中 / 运行中 / 压缩成功 / 压缩失败 / 已取消)。
单击任务名进入详情页,切换到日志页签查看运行日志。
如需取消运行中的任务,在列表中单击 停止。
任务成功后,在任务列表中单击压缩后的模型名称,跳转到我的模型页面,单击部署即可上线。支持的部署规格由所选量化模板决定。
四、压缩要求与限制
仅支持压缩的模型列表中的自定义微调模型。已量化的模型不支持二次压缩。
部署规格:压缩产出的模型支持的部署单元规格由所选量化模板决定(模板名称中包含目标规格,如 MU5、MU8 等),部署数量在百炼控制台 模型部署 中配置。
任务状态:仅「排队中」或「运行中」状态的任务支持取消;终态任务(压缩成功 / 压缩失败 / 已取消)可删除。
任务不可逆:压缩产出的模型不支持继续训练,也不支持二次压缩。如需迭代,请回到上游全精度模型重新训练后再压缩。
删除任务的影响:删除任务记录仅删除任务本身,已生成的产出模型保留在 我的模型 中。
五、计费说明
当前模型压缩功能限时免费,具体免费截止时间以控制台公告为准。
压缩产出的模型部署上线后,按所选部署单元的标准规格计费,计费详情参见 模型部署。
六、常见问题
Q1:哪些模型可以压缩?
支持压缩的模型列表中的自定义微调模型。已量化的模型不支持二次压缩。具体支持模型以控制台为准。
Q2:任务可以取消吗?
「排队中」或「运行中」状态的任务支持取消,取消后状态变为「已取消」。终态任务无法取消。
Q3:压缩后的模型支持继续微调或再压缩吗?
压缩产出的模型不支持继续训练,也不支持二次压缩。如需迭代,请回到上游全精度模型重新训练。
Q4:校准数据可以使用 OSS 挂载的数据集吗?
控制台 UI 暂不支持选择 OSS 挂载 / 挂载存储类型的数据集,请使用 数据管理 中"内部上传"类型且"已发布"状态的数据集。OpenAPI 调用可通过 custom_calibration_file_ids 字段直接传入数据集组 ID,由后端校验。