PAI-TensorFlow使用指南
PAI-TF是人工智能平台PAI为了追求更极致的深度学习训练效率,优化原生Tensorflow的内核并开发周边工具,推出的一款产品。PAI-TF拥有服务化、分布式调度、全局计算调度、GPU卡映射及模型在线预测等特点。
公共云GPU服务器即将过保下线,您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练,请前往DLC提交任务,具体操作请参见创建训练任务。
背景
TensorFlow是Google最新的开源深度学习计算框架,支持CNN、RNN及LSTM等多种神经网络模型,对语音、图像及文本等领域的模型训练效率极佳。TensorFlow的功能丰富且强大,并拥有高度灵活的API,受到业界的高度关注。
PAI-TF是人工智能平台PAI为了追求更极致的深度学习训练效率,优化原生TensorFlow的内核并开发周边工具,推出的一款产品。PAI-TF完全兼容原生TensorFlow的代码,并且在许多工业化生产场景的性能更加优越。目前,PAI-TF已经在人工智能平台PAI、阿里云E-MapReduce等产品上线并应用。
产品特点
PAI-TF产品的特点如下:
服务化
MaxCompute是阿里云自主研发的飞天大数据平台,已经支持了数万企业及个人开发者。PAI-TF帮助您直接在MaxCompute中使用TensorFlow的计算框架。PAI-TF使用的API与开源版本一致,您可以直接通过TensorFlow Training Script接口提交作业至MaxCompute的计算集群中执行。
分布式调度
PAI为您提供海量的计算资源,所有的计算资源通过GPU Quota进行管理。PAI-TF的作业都是基于底层的分布式调度系统动态调度至不同机器。当您提交PAI-TF作业时,无需担心是否需要提前申请GPU物理主机,PAI-TF所需要的GPU资源随作业的提交动态分配,随作业的结束动态释放。
全局计算调度
当您在使用MaxCompute计算引擎时,您可以在一个项目中同时提交SQL作业和PAI-TF作业。MaxCompute全局计算调度服务能够将PAI-TF作业自动调度至相应的GPU集群,并将基于CPU集群的数据预处理作业和基于GPU集群的模型训练作业连接起来。
GPU卡映射
PAI-TF支持将不同算子(Operators)指定至特定的CPU或GPU上。基于GPU卡映射,您无需感知宿主机的GPU卡物理结构,PAI-TF会将您作业中申请的GPU卡自动映射至作业进程空间,则您感知到的GPU卡为gpu:0、gpu:1….等。
模型在线预测
PAI为您提供了在线预测服务EAS。您可以将PAI-TF中训练生成的模型一键部署至在线预测服务。在线预测服务支持模型的动态扩容、滚动更新、A/B测试、高吞吐及低延时等特性。
支持的Python三方库
PAI-TF已经安装了Numpy及Six等常见的Python三方库,您可以在TensorFlow作业中直接导入相关的库。