推理加速(Blade)概述

PAI-Blade结合了多种优化技术,对训练完成的模型进行优化,从而达到最优的推理性能。同时,PAI-Blade提供的C++ SDK可以部署优化后的模型推理,帮助您快速的将模型应用于生产。本文介绍PAI-Blade的工作原理和使用流程。

背景信息

PAI-BladePAI推出的通用推理优化工具,可以通过模型系统联合优化,使模型达到最优推理性能。它有机融合了计算图优化、TensorRT/oneDNNvendor优化库、AI编译优化、Blade手工优化算子库、Blade混合精度及Blade Auto-Compression等多种优化技术,会先对模型进行分析,再对其部分或全部应用优化技术。

PAI-Blade的所有优化技术均面向通用性设计,可以应用于不同的业务场景。同时,PAI-Blade对每一步优化的数值结果都进行了准确性验证,从而确保优化结果不会对模型的精度或指标产生非预期影响。

PAI-Blade是为了降低模型优化门槛、提升用户体验和生产效率而推出的新产品形态。

工作原理

PAI-BladeWheel包的形式安装到用户环境,无需申请资源、上传模型和数据的繁琐步骤。您可以在代码中调用PAI-BladePython接口,使模型优化集成在工作流中,且能够在本地对优化完成的模型进行性能验证。此外,您还可以便捷地尝试不同的优化策略、探索更多的优化参数组合。

同时,PAI-Blade提供C++ SDK供您部署服务。虽然优化完成的模型在运行时需要依赖SDK,但是无需修改模型代码,您只需要链接PAI-Blade的库文件即可。

使用流程

您可以参考如下流程使用PAI-Blade:

  1. 安装Blade

  2. 优化模型,详情请参见优化TensorFlow模型优化PyTorch模型

    如果您需要对模型进行量化优化,请参见量化优化。如果需要指定编译优化的模式,请参见AI编译器优化

  3. 解读优化报告,详情请参见优化报告

  4. 部署模型推理,详情请参见使用SDK部署TensorFlow模型推理使用SDK部署PyTorch模型推理使用Blade EAS Plugin优化并部署模型