模型压缩

更新时间:
复制为 MD 格式

模型压缩使用量化算法将全精度微调模型转换为低精度版本。压缩后的模型在推理时显存占用更低,可以部署到更小规格的部署单元,从而降低部署成本并提升推理吞吐。

您可以在百炼控制台 模型训练 > 模型压缩 页面创建压缩任务,也可以通过 OpenAPI 调用。压缩产出的模型可直接用于 模型部署

一、使用前提

压缩前,请确保满足以下条件:

  • 源模型准备:当前工作空间至少有一个支持压缩的自定义微调模型(通过模型调优产出)。具体支持哪些基础模型,请参见下方支持压缩的模型。微调流程详见 模型调优

二、支持压缩的模型

当前支持以下基础模型对应的自定义微调模型:

模型系列

模型名称

压缩前部署

压缩前部署

千问

qwen3.5-flash-2026-02-23

MU1 * 2 (¥108/小时)

MU8 * 1 (¥47/小时)

具体支持模型以百炼控制台「模型压缩」页面为准。

三、操作步骤

  1. 登录百炼控制台,在左侧导航选择 模型训练 > 模型压缩

  2. 单击页面右上角 + 创建压缩任务

  3. 在创建压缩任务页面填写以下信息:

    image

    • 任务名称(必填)、任务描述(可选)。

    • 选择源模型:从弹窗中选择当前工作空间内符合条件的自定义微调模型。

    • 量化产出模型名后缀:用于生成产出模型 ID。

    • 量化模板:从所选源模型支持的模板列表中选择。

    • 校准数据(所选模板要求校准数据时显示):校准数据用于统计模型权重和激活值的数值分布,以确定量化时的缩放范围和分块大小。从已发布数据集中按"数据集 → 版本"选择,数据集需先在 数据管理 中创建并发布。OSS 挂载的数据集暂不支持作为校准数据,仅可使用百炼内置数据集。OpenAPI 调用时通过 custom_calibration_file_ids 字段传入。

  4. 单击 开始压缩,任务进入列表。

  5. 跟踪任务进度。

    • 在任务列表中查看运行状态(排队中 / 运行中 / 压缩成功 / 压缩失败 / 已取消)。

    • 单击任务名进入详情页,切换到日志页签查看运行日志。

    • 如需取消运行中的任务,在列表中单击 停止

  6. 任务成功后,在任务列表中单击压缩后的模型名称,跳转到我的模型页面,单击部署即可上线。支持的部署规格由所选量化模板决定。

四、压缩要求与限制

重要

支持压缩的模型列表中的自定义微调模型。已量化的模型不支持二次压缩。

  • 部署规格:压缩产出的模型支持的部署单元规格由所选量化模板决定(模板名称中包含目标规格,如 MU5、MU8 等),部署数量在百炼控制台 模型部署 中配置。

  • 任务状态:仅「排队中」或「运行中」状态的任务支持取消;终态任务(压缩成功 / 压缩失败 / 已取消)可删除。

  • 任务不可逆:压缩产出的模型不支持继续训练,也不支持二次压缩。如需迭代,请回到上游全精度模型重新训练后再压缩。

  • 删除任务的影响:删除任务记录仅删除任务本身,已生成的产出模型保留在 我的模型 中。

五、计费说明

当前模型压缩功能限时免费,具体免费截止时间以控制台公告为准。

压缩产出的模型部署上线后,按所选部署单元的标准规格计费,计费详情参见 模型部署

六、常见问题

Q1:哪些模型可以压缩?

支持压缩的模型列表中的自定义微调模型。已量化的模型不支持二次压缩。具体支持模型以控制台为准。

Q2:任务可以取消吗?

「排队中」或「运行中」状态的任务支持取消,取消后状态变为「已取消」。终态任务无法取消。

Q3:压缩后的模型支持继续微调或再压缩吗?

压缩产出的模型不支持继续训练,也不支持二次压缩。如需迭代,请回到上游全精度模型重新训练。

Q4:校准数据可以使用 OSS 挂载的数据集吗?

控制台 UI 暂不支持选择 OSS 挂载 / 挂载存储类型的数据集,请使用 数据管理 中"内部上传"类型且"已发布"状态的数据集。OpenAPI 调用可通过 custom_calibration_file_ids 字段直接传入数据集组 ID,由后端校验。