全部产品
云市场

什么是机器学习PAI

更新时间:2020-01-19 14:32:20

什么是机器学习

机器学习指机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。目前机器学习主要在以下方面发挥作用:

  • 营销类场景:商品推荐、用户群体画像、广告精准投放
  • 金融类场景:贷款发放预测、金融风险控制、股票走势预测、黄金价格预测
  • SNS关系挖掘:微博粉丝领袖分析、社交关系链分析
  • 文本类场景:新闻分类、关键词提取、文章摘要、文本内容分析
  • 非结构化数据处理场景:图片分类、图片文本内容提取OCR
  • 其它各类预测场景:降雨预测、足球比赛结果预测

笼统地讲,机器学习可以分为三类:

  • 有监督学习(Supervised Learning):指每个样本都有对应的期望值,通过模型搭建,完成从输入的特征向量到目标值的映射。典型的案例就是回归和分类问题。
  • 无监督学习(Unsupervised Learning):指在所有的样本中没有任何目标值,期望从数据本身发现一些潜在的规律,例如一些简单的聚类。
  • 增强学习(Reinforcement Learning):相对来说比较复杂,是指一个系统和外界环境不断地交互,获得外界反馈,然后决定自身的行为,达到长期目标的最优化。其中典型的案例就是阿法狗下围棋,或者无人驾驶。

什么是机器学习平台PAI

PAI起初是一个定位于服务阿里集团的机器学习平台,致力于让AI技术更加高效、简洁、标准的被公司内部开发者使用。对集团内,PAI服务了淘宝、支付宝、高德等部门的业务。随着PAI的算法的不断积累,2015年底PAI作为天池大赛的官方比赛平台在阿里云正式上线,也成为了国内最早的云端机器学习平台之一。随着PAI在阿里云的业务的不断发展,2018年PAI平台正式商业化,目前已经在公有云积累了数万的企业客户以及个人开发者,是目前国内领先的云端机器学习平台之一。

PAI底层支持多种计算框架:有流式算法框架Flink,基于开源版本深度优化的深度学习框架TensorFlow,支持千亿特征千亿样本的大规模并行化计算框架Parameter Server,同时也兼容Spark、PYSpark、MapReduce等业内主流开源框架。

PAI平台提供:PAI-STUDIO(可视化建模和分布式训练)、PAI-DSW(notebook交互式AI研发)、PAI-AutoLearning(自动化建模)、PAI-EAS(在线预测服务)四套服务,每个服务既可单独使用,也可相互打通。用户可以从数据上传、数据预处理、特征工程、模型训练、模型评估,到最终的模型发布到离线或者在线环境,一站式完成建模,有效的提升开发效率。在数据预处理方面,PAI跟阿里云DataWorks(一站式大数据智能云研发平台)也是无缝打通的,支持SQL、UDF、UDAF、MR等多种数据处理开发方式,灵活性较高。在PAI平台上训练模型,生成的模型可以通过EAS部署到线上环境,整个实验流程支持周期性调度,可以发布到DataWorks与其它上下游任务节点打通依赖关系,另外调度任务区分生产环境以及开发环境,可以做到数据安全隔离。

一站式的机器学习平台意味着只要训练数据准备好(存放到OSS或MaxCompute中),用户就不需要额外的迁移工作,所有的建模工作都可以通过PAI来实现。