PAI-Blade是PAI推出的通用推理优化框架,可以通过模型系统联合优化,使模型达到最优推理性能。

PAI-Blade机融合了Blade Graph Optimizer、TensorRT、PAI-TAO(Tensor Accelerator and Optimizer)、Blade Custom Optimizer、Blade INT8(Mixed-Precision)及Blade Auto-Compression等多种优化技术,会先对模型进行分析,再对其部分或全部应用优化技术。PAI-Blade的优化过程包括但不限于如下内容:

  • 通用图优化
  • 基于理解的计算图等效变换
  • 算子融合
  • 对计算图算子丰富且高效的实现进行组合优化
  • JIT编译
  • 基于模板及历史数据实现的半自动或自动Codegen
  • 启发式的Auto-Tuning
  • 模型压缩及剪裁
  • 模型低精度及混合精度量化
  • 以模型低精度量化为前提的精度恢复技术

PAI-Blade的所有优化技术均面向通用性设计,可以应用于不同的业务场景。同时,PAI-Blade对每一步优化的数值结果都进行了准确性验证,从而确保优化结果不会对模型的精度或指标产生非预期影响。

PAI-Blade仅在华东2(上海)开放公测,您可以从PAI控制台上传模型并一键优化该模型。