全部产品
云市场

PAI-TF概述

更新时间:2020-02-25 11:55:16


目录


前言

Tensorflow是Google最新开源的深度学习计算框架,支持包括CNN、RNN、LSTM等多种神经网络模型,在语音、图像、文本等认知领域的模型训练具有极佳的效率。由于其强大丰富的功能、高度灵活的API,目前TensorFlow收到了业界的高度关注。这一点从该项目在Github上收到的Star数就能够感受到。Tensorflow在阿里内部也同样受到了许多业务部门的关注。目前有多个业务部门都正在使用或者调研TensorFlow与其业务场景的结合,希望能够在生产上能够尽快使用Tensorflow深度学习计算框架。

基于以上原因,阿里云计算平台PAI团队在原生Tensorflow基础上,为了追求更极致的深度学习训练效率,不断优化Tensorflow内核并且开发周边工具,推出了PAI-TF。目前PAI-TF已经在阿里云机器学习PAI、阿里云EMR等产品上线并应用。PAI-TF完全兼容原生Tensorflow代码,并且在许多工业化生产场景表现了更优越的性能。

主要特点

PAI-TF服务化

MaxCompute作为阿里云自研的飞天大数据平台,已经支持了数万企业及个人开发者。PAI-TF on MaxCompute是的用户可以直接在MaxCompute中使用TensorFlow计算框架。我们提供和开源版本一致的API,用户可以直接通过接口TensorFlow Training Script提交到MaxCompute计算集群上执行。

分布式调度

所有的PAI-TF作业都是基于底层的分布式调度系统动态调度到不同机器上。PAI团队提供海量的计算资源。当用户提交PAI-TF作业的时候,无需担心是否需要提前申请GPU物理主机。所有的计算资源通过GPU Quota进行管理。PAI-TF所需要的GPU资源随着作业的提交而动态分配,随着作业的结束而动态释放。

全局计算调度

用户在使用MaxCompute作为计算引擎的时候,可以在同一个Project下面同时提交SQL作业和PAI-TF作业。基于MaxCompute全局计算调度服务,能够将PAI-TF作业自动调度到相应的GPU集群。这样,用户可以将基于CPU集群的数据预处理作业和基于GPU集群的模型训练作业串联起来。

GPU卡映射

PAI-TF支持将不同算子(Operators)指定到特定的Device(CPU, GPU)上。基于GPU卡映射,用户无需感知宿主机的GPU卡物理结构。PAI-TF会将用户作业申请的GPU卡自动映射到用户作业进程空间,用户所感知到的GPU卡会是gpu:0, gpu:1….等。

模型在线预测

目前PAI团队提供了在线预测服务PAI-EAS。用户在PAI-TF上训练生成的模型,可以一键部署到在线预测服务上。在线预测服务支持模型的动态扩容、滚动更新、A/B测试、高吞吐、低延时等特性

Python三方库支持

预装了诸如Numpy, Six等常见的Python三方库,用户可以在TensorFlow作业里直接Import相关的库。