文档

什么是人工智能平台PAI

更新时间:

阿里云人工智能平台PAI(Platform For AI),提供一站式的机器学习解决方案。本文为您介绍什么是人工智能平台PAI。

前置概念

阅读本文前,可以按需了解基础概念:什么是人工智能(AI)?

什么是机器学习

机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识,它使用计算机作为工具并致力于真实、实时地模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。机器学习对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数,并最终对数据进行预测和分析。它可以在以下一些场景得到使用。

  • 内容生成:根据需要,生成主题相关的文字、图片、视频、音频内容。

  • 营销类场景:商品推荐、用户群体画像或广告精准投放。

  • 金融类场景:贷款发放预测、金融风险控制、股票走势预测或黄金价格预测。

  • 社交网络服务关系挖掘场景:微博粉丝领袖分析或社交关系链分析。

  • 文本类场景:新闻分类、关键词提取、文章摘要或文本内容分析。

  • 非结构化数据处理场景:图片分类或图片文本内容提取。

  • 其他各类预测场景:降雨预测或足球比赛结果预测。

机器学习包括传统机器学习和深度学习,有以下几种类型:

  • 监督学习(Supervised Learning):每个样本都有对应的目标值,通过搭建模型实现从输入特征向量到目标值的映射,例如解决回归和分类问题。

  • 无监督学习(Unsupervised Learning):所有样本没有目标值,期望从数据本身发现一些潜在规律,例如解决聚类问题。

  • 强化学习(Reinforcement Learning):相对较为复杂,系统与外界环境不断交互,在外界反馈的基础上决定自身行为,以达到目标最优化。例如阿尔法围棋和无人驾驶。

什么是人工智能平台PAI

人工智能平台PAI起初是服务于阿里巴巴集团内部(例如淘宝、支付宝和高德)的机器学习平台,致力于让公司内部开发者更高效、简洁、标准地使用人工智能AI(Artificial Intelligence)技术。随着PAI的不断发展,2018年PAI平台正式商业化,目前已经积累了数万的企业客户和个人开发者,是中国云端机器学习平台之一。

PAI底层支持多种计算框架:

  • 流式计算框架Flink。

  • 基于开源版本深度优化的深度学习框架TensorFlow、PyTorch、Megatron和DeepSpeed。

  • 千亿级特征样本的大规模并行计算框架Parameter Server。

  • Spark、PySpark、MapReduce等业内主流开源框架。

PAI提供的服务:

PAI依托于阿里云及阿里巴巴集团多年的应用及技术积累,具备以下多种优势。

  • AI 研发全生命周期全链路:

    • 支持数据标注、模型开发、模型训练、模型优化、模型部署以及AI运维管控,是一站式AI平台。

    • 拥有140+种优化的内置算法组件。

    • 支持业内TensorFlow、PyTorch等多种深度学习框架。

    • 提供多种模式、大数据引擎深度结合、多框架兼容、自定义镜像等核心能力。

    • 提供云原生架构的AI开发、训练、部署的产品。

  • 多样的产品输出方式:

    • 公共云支持全托管、半托管。

    • 支持AI 高性能计算集群和轻量化输出产品形态。

  • 业内领先的AI优化:

    • 高性能的训练框架,稀疏训练场景,支持数十亿到数百亿的稀疏特征规模,数百

      亿到数千亿的样本规模,上千worker的分布式增量训练。

    • 主流框架模型加速,使用PAI Blade提升RestNet50、Transformer+LM等十数个主流模型加速比。

  • 该服务支持单独或组合使用。支持一站式机器学习,您只需准备好训练数据(存放到OSS或MaxCompute中),所有建模工作(包括数据上传、数据预处理、特征工程、模型训练、模型评估和模型发布至离线或在线环境)都可以通过PAI实现。

  • 对接DataWorks,支持SQL、UDF、UDAF、MR等多种数据处理方式,灵活性高。

  • 生成训练模型的实验流程支持DataWorks周期性调度,且调度任务区分生产环境和开发环境,从而实现数据安全隔离。