AI加速：如何使用Blade实现推理加速_人工智能平台 PAI(PAI)-阿里云帮助中心

PAI-Blade结合了多种优化技术，对训练完成的模型进行优化，从而达到最优的推理性能。同时，PAI-Blade提供的C++ SDK可以部署优化后的模型推理，帮助您快速的将模型应用于生产。本文介绍PAI-Blade的工作原理和使用流程。

背景信息

PAI-Blade是PAI推出的通用推理优化工具，可以通过模型系统联合优化，使模型达到最优推理性能。它有机融合了计算图优化、TensorRT/oneDNN等vendor优化库、AI编译优化、Blade手工优化算子库、Blade混合精度及Blade Auto-Compression等多种优化技术，会先对模型进行分析，再对其部分或全部应用优化技术。

PAI-Blade的所有优化技术均面向通用性设计，可以应用于不同的业务场景。同时，PAI-Blade对每一步优化的数值结果都进行了准确性验证，从而确保优化结果不会对模型的精度或指标产生非预期影响。

PAI-Blade是为了降低模型优化门槛、提升用户体验和生产效率而推出的新产品形态。

工作原理

PAI-Blade以Wheel包的形式安装到用户环境，无需申请资源、上传模型和数据的繁琐步骤。您可以在代码中调用PAI-Blade的Python接口，使模型优化集成在工作流中，且能够在本地对优化完成的模型进行性能验证。此外，您还可以便捷地尝试不同的优化策略、探索更多的优化参数组合。

同时，PAI-Blade提供C++ SDK供您部署服务。虽然优化完成的模型在运行时需要依赖SDK，但是无需修改模型代码，您只需要链接PAI-Blade的库文件即可。

使用流程

您可以参考如下流程使用PAI-Blade：

安装Blade。
优化模型，详情请参见优化TensorFlow模型和优化PyTorch模型。
如果您需要对模型进行量化优化，请参见量化优化。如果需要指定编译优化的模式，请参见AI编译器优化。
解读优化报告，详情请参见优化报告。
部署模型推理，详情请参见使用SDK部署TensorFlow模型推理、使用SDK部署PyTorch模型推理和使用Blade EAS Plugin优化并部署模型。