PAI-TF是阿里云计算平台PAI为了追求更极致的深度学习训练效率,优化原生Tensorflow的内核并开发周边工具,推出的一款产品。PAI-TF拥有服务化、分布式调度、全局计算调度、GPU卡映射及模型在线预测等特点。

背景

Tensorflow是Google最新的开源深度学习计算框架,支持CNN、RNN及LSTM等多种神经网络模型,对语音、图像及文本等领域的模型训练效率极佳。Tensorflow的功能丰富且强大,并拥有高度灵活的API,受到业界的高度关注。

PAI-TF是阿里云计算平台PAI为了追求更极致的深度学习训练效率,优化原生Tensorflow的内核并开发周边工具,推出的一款产品。PAI-TF完全兼容原生Tensorflow的代码,并且在许多工业化生产场景的性能更加优越。目前,PAI-TF已经在阿里云机器学习PAI、阿里云E-MapReduce等产品上线并应用。

产品特点

PAI-TF产品的特点如下:
  • 服务化

    MaxCompute是阿里云自主研发的飞天大数据平台,已经支持了数万企业及个人开发者。PAI-TF帮助您直接在MaxCompute中使用TensorFlow的计算框架。PAI-TF使用的API与开源版本一致,您可以直接通过TensorFlow Training Script接口提交作业至MaxCompute的计算集群中执行。

  • 分布式调度

    PAI为您提供海量的计算资源,所有的计算资源通过GPU Quota进行管理。PAI-TF的作业都是基于底层的分布式调度系统动态调度至不同机器。当您提交PAI-TF作业时,无需担心是否需要提前申请GPU物理主机,PAI-TF所需要的GPU资源随作业的提交动态分配,随作业的结束动态释放。

  • 全局计算调度

    当您在使用MaxCompute计算引擎时,您可以在一个项目中同时提交SQL作业和PAI-TF作业。MaxCompute全局计算调度服务能够将PAI-TF作业自动调度至相应的GPU集群,并将基于CPU集群的数据预处理作业和基于GPU集群的模型训练作业连接起来。

  • GPU卡映射

    PAI-TF支持将不同算子(Operators)指定至特定的CPU或GPU上。基于GPU卡映射,您无需感知宿主机的GPU卡物理结构,PAI-TF会将您作业中申请的GPU卡自动映射至作业进程空间,则您感知到的GPU卡为gpu:0、gpu:1….等。

  • 模型在线预测

    PAI为您提供了在线预测服务PAI-EAS。您可以将PAI-TF中训练生成的模型一键部署至在线预测服务。在线预测服务支持模型的动态扩容、滚动更新、A/B测试、高吞吐及低延时等特性。

支持的Python三方库

PAI-TF已经安装了Numpy及Six等常见的Python三方库,您可以在TensorFlow作业中直接导入相关的库。