PAI-Blade结合了多种优化技术,对训练完成的模型进行优化,从而达到最优的推理性能。同时,PAI-Blade提供的C++ SDK可以部署优化后的模型推理,帮助您快速的将模型应用于生产。本文介绍PAI-Blade的工作原理和使用流程。
背景信息
PAI-Blade是PAI推出的通用推理优化工具,可以通过模型系统联合优化,使模型达到最优推理性能。它有机融合了计算图优化、TensorRT/oneDNN等vendor优化库、AI编译优化、Blade手工优化算子库、Blade混合精度及Blade Auto-Compression等多种优化技术,会先对模型进行分析,再对其部分或全部应用优化技术。
PAI-Blade的所有优化技术均面向通用性设计,可以应用于不同的业务场景。同时,PAI-Blade对每一步优化的数值结果都进行了准确性验证,从而确保优化结果不会对模型的精度或指标产生非预期影响。
PAI-Blade是为了降低模型优化门槛、提升用户体验和生产效率而推出的新产品形态。
工作原理
PAI-Blade以Wheel包的形式安装到用户环境,无需申请资源、上传模型和数据的繁琐步骤。您可以在代码中调用PAI-Blade的Python接口,使模型优化集成在工作流中,且能够在本地对优化完成的模型进行性能验证。此外,您还可以便捷地尝试不同的优化策略、探索更多的优化参数组合。
同时,PAI-Blade提供C++ SDK供您部署服务。虽然优化完成的模型在运行时需要依赖SDK,但是无需修改模型代码,您只需要链接PAI-Blade的库文件即可。
使用流程
您可以参考如下流程使用PAI-Blade:
优化模型,详情请参见优化TensorFlow模型和优化PyTorch模型。
解读优化报告,详情请参见优化报告。
部署模型推理,详情请参见使用SDK部署TensorFlow模型推理、使用SDK部署PyTorch模型推理和使用Blade EAS Plugin优化并部署模型。