全部产品
云市场

模型优化操作手册

更新时间:2020-03-22 12:42:36

当前仅在上海Region开放公测

1. 用户模型优化

  1. 在PAI控制台模型列表页面点击左上角的上传模型,上传保存您的深度学习模型模型上传
  2. 在模型列表-指定模型-操作中,点击优化加速(非上海region这个按钮暂未开放),会自动跳转到Blade-模型优化页面,弹出配置窗口
    • 选择优化层级:
      • “O1”指的是无损优化,也是我们默认的优化选项,在线上推理环境是可以默认打开而不会对模型精度有影响。
      • “O2”将会在”O1”的基础上利用Blade int8的技术对模型进行量化。一方面量化会减小模型的体积,另一方面模型量化后的部分将使用低精度进行计算,这不仅从理论上可以提高计算的吞吐量,在许多特别支持低精度的硬件上还能享受到专门设计的硬件加速(例如NVIDIA TURING架构中的”TensorCore”),为性能带来额外的红利。但是性能优化没有银弹,在性能提升的同时,低精度量化技术可能会在某些场景带来模型精度和指标的下降。
    • 选择优化卡型:
      • 请选择您后续模型部署需要用的GPU卡型里指定优化,因为在不同的GPU卡上,优化效果会有所不同。当前提供了Nvidia T4/Nvidia P4/Nvidia V100三种卡型供您选择
    • 高级配置(可选):
      • 勾选后可通过json配置更多优化属性,详细配置字段参考高级配置文档
  3. 点击确认后,优化任务开始执行,通常会在几分钟内结束,在执行完成后,您可以查看优化效果
    • 加速比指经Blade加速后模型端到端推理时间对比模型来源框架下端到端推理时间的缩短比例,比如原模型推理时间为200ms,优化后模型推理时间为100ms,则加速比为200/100=2x
    • 如果无法评估模型来源框架,则会直接展示优化后模型端到端推理时间,如图中蓝色图标展示效果加速比

对于模型优化效果的问题,可以查看最佳实践进行调整,如果还有进一步的模型优化需求,欢迎通过工单和我们联系

2. Demo模型优化

在Blade-模型优化页面,我们提供了三个常用模型,来让您快速体验模型优化效果,可以直接点击使用demo模型

3. 优化后模型部署上线

由于Region之间数据隔离,当前也仅支持将优化后的模型部署至上海Region的PAI-EAS

  • 优化任务执行完成后,您可以直接在在优化任务列表中点击“一键部署”将优化模型发布上线。
  • 另外您的模型列表中原模型下会新增一条子模型。如图点击模型左侧+号展开后,可以看到优化后的子模型列表:子模型此时可以直接点击“模型部署”,也可以将优化后的模型部署到我们的EAS模型服务中
  • 跳转至EAS服务部署页面之后,系统会检测您是否已经拥有和您优化模型使用的GPU型号一致的EAS资源组
  • 选择好GPU型号一致的资源组之后,按照EAS页面部署指引一步步操作即可快速将服务部署完成,相关文档

4. 模型服务调用

部署后的模型调用SDK直接在Link中查看README文档及下载即可。SDK中封装提供了VPC地址调用以及VPC高速直连调用方法。