全部产品
云市场

PAI自动学习简介

更新时间:2020-02-19 10:28:27

PAI AutoLearning自动学习是PAI平台推出的全新自动机器学习平台,主打业务应用场景,目前包含图像分类和推荐召回两个业务场景,后续会不断衍生出更多跟用户业务相关的功能。

推荐召回

在推荐系统中通常包含,两个核心模块,分别是召回和排序。召回的作用是从是从海量的待推荐候选集选取待推荐列表,排序模块是对待推荐列表进行排序。另外,仅使用召回模块也可以构造一个简单的推荐系统。

PAI-Autolearning推荐召回工具,可以跟PAI-Studio已有的召回算法配合,帮助开发者快速构建完整的召回链路,目前召回模块已经内置了协同过滤召回和语意召回两种模式,并且提供了多种数据过滤策略,最终可以自动将服务发布到PAI-EAS成为Restful服务。

整个产品功能包含三个模块:召回策略配置、过滤策略配置、服务部署

  • 召回策略配置:需要用户将使用的召回策略配置到表格存储中,目前支持自定义召回策略、协同过滤召回和语意召回
  • 过滤策略配置:用户可以配置召回结果中需要去除的user和item,比如说用户业务不希望item ”001“这款产品出现在最终的召回列表,就可以使用I策略过滤,将001写到表里,系统会自动过滤该款产品
  • 对召回服务进行线上验证,如果验证效果ok,就可以部署到PAI-EAS成为在线服务

使用流程

1.进入产品

可以选择内置模板创建实验进行产品功能了解,内置的模板已经录入了真实的新闻推荐数据,并且配置好了相应策略。如果是基于用户自身业务创建召回服务,可以点击”创建实例“按钮。

2.创建实例

切换实例类型到推荐找回,并且设置实例名称。目前推荐找回服务需要用户将数据存储于阿里云表格存储,阿里云表格存储是一款类似于Redis的KV存储数据库。用户在使用召回服务的时候需要将生成的召回数据提前存储到表格存储服务中。

产品地址:https://www.aliyun.com/product/ots

3.召回策略配置

召回策略包含三种,分别是协同过滤召回、语义召回、自定义召回策略。

  • 协同过滤召回:协同过滤推荐召回是推荐领域最经典的召回策略,通过人和物品的相关性生成召回结果
  • 语义召回:语义召回多被应用于新闻推荐,是根据人物感兴趣的文章类型进行召回
  • 自定义召回:用户可以基于自己的业务生成一些user-item的召回策略

召回策略可以添加多个,每次可以通过小问号查看对应的表的格式说明:

每次添加一个召回策略,都需要点击”添加到策略列表“,这时候就可以在右侧菜单进行策略的管理。当所有策略都填写完,可以点击”下一步“进入过滤配置。

4.过滤策略配置

过滤策略配置有两种模式:基于user-item关系对的过滤和基于item的过滤

user-item关系过滤指的是,当召回结果中出现对应的user时,过滤掉这个user对应的item,数据格式如下:

item过滤指的是只要召回结果出现该item的id,就会过滤掉,数据格式如下:

5.部署和测试

当召回以及数据过滤配置都结束后,点击”部署并测试“。在测试页面,会自动根据用户配置的召回和过滤策略部署成服务,可以在页面中输入一个userID去看下推荐的内容是否符合预期。

输入userID ”1“,召回100个推荐结果,在右侧调试信息中返回了为userID=1的用户推荐的内容ID,以json形式返回。

如果客户认为服务效果满意,可以将服务部署到PAI-EAS成为一个Restful请求。点击”前往EAS部署“按钮即可。

图像分类

PAI AutoLearning(简称PAI AL)自动学习支持在线标注、自动模型训练、超参优化以及模型评估。在平台上只需准备少量标注数据,设置训练时长即可得到深度优化的模型。同时自动学习PAI AL平台与EAS模型在线服务打通,一键完成模型部署。

  • 已支持区域:华北2、华东1
  • 已支持场景:图片分类

公测阶段

目前处于公测阶段,在此期间模型训练不收取费用。

模板示例

在产品首页提供了两个图片分类的模板实例:动物分类和商品分类(即将上架)。使用模板示例创建的实例无需OSS授权,可直接使用产品内置的源数据进行训练,一键体验PAI AL自动学习平台模型训练三部曲:数据标注、模型训练评估以及模型试用部署。

OSS授权

PAI AL的训练数据存放于阿里云OSS中,在创建PAI AL实例之前需要先完成OSS授权,OSS授权可参考OSS授权文档

两种图片标注方式

PAI AutoLearning平台接入OSS数据源,支持两种图片打标方式,一种是在线图片标注,另一种是导入已经打标的图片数据,两种方式的使用方式和限制分别介绍如下。

在线图片标注

如果数据量较小,比如训练图片小于50张时,可以使用在线图片标注的方式。PAI AL平台提供了在线打标的功能,可以在平台完成增加标签、删除标签、在线图片标注。

注意:

  • 要求所有图片数据放在同一个文件夹下,创建实例时指定该文件夹路径;
  • 支持图片格式:jpeg、jpg、png、bmp、tiff等

导入已标注文件

如果训练数据量较大,可以采用导入已标注文件的方式。要求所有图片和标注文件放在同一个OSS路径下,创建实例时,只需指定标注文件,系统自动读取所有图片。

已标注文件的格式如下:

  1. id,oss data,label
  2. 0,"{""tfspath"":""oss://autodl/yuyi/t4.jpeg""}","{""option"":""虎""}"
  3. 1,"{""tfspath"":""oss://autodl/yuyi/pb5.jpeg""}","{""option"":""北极熊""}"
  4. 2,"{""tfspath"":""oss://autodl/yuyi/cat4.jpeg""}","{""option"":""猫""}"

注意:

  • 要求所有图片数据和标注文件放在同一个文件夹下,创建实例时指定标注文件,如上图例中路径:oss://beijing-xzh02.oss-cn-beijing.aliyuncs.com/greypictures/483_1567498472601.csv;
  • 支持图片格式:jpeg、jpg、png、bmp、tiff等

训练设置

在完成图片打标后,直接进入模型训练设置页面。

PAI AutoLearning模型训练仅需设置最大训练时长,同时支持模型增量训练。公测期间限制训练时长最长为1小时。

最大训练时长:模型训练的最长时间。PAI AutoLearning预置了Early Stop机制,防止模型训练时间过长出现过拟合。

增量训练:在历史已有模型上进行增量训练。利用新的输入数据扩展现有模型。

模型效果评估

完成训练基础设置后,进入模型训练及评估页面。

当前页面展示了模型训练的完整进度,通过模型列表下拉的方式可查看每次训练生成模型的效果,包括准确率、精确率、召回率、F1-Score。同时提供了测试集的预测结果以及F1-Score评估指标。模型右侧提供了查看日志、模型试用、模型部署及删除按钮。

  • 查看日志:可直接查看模型训练的完整过程,以及运行成功、失败的错误日志。
  • 模型试用:在生成模型后,点击试用可上传本地文件调用模型进行预测。
  • 模型部署:训练得到的最佳模型可一键部署到PAI EAS。(如何部署PAI AutoLearning模型

模型试用

在生成模型后,即可进入模型试用页面,免费试用5次模型预测。支持从本地上传文件进行预测,首次试用模型预测预计需要3~5分钟。试用模型效果满意可点击“前往PAI EAS部署”将模型部署为服务。(如何部署PAI EAS服务参考EAS部署,PAI EAS模型服务将收取费用,收费标准参考EAS定价

子账号授权

PAI自动学习平台支持子账号授权,如创建实例、模型训练、图片标注等等。需要授权给子账号赋予不同权限时,可以参考子账号授权文档