本文以使用PAI IDE上传数据为例,为您介绍如何准备数据。

前提条件

完成项目的创建,详情请参考创建项目

背景信息

PAI支持使用MaxCompute和OSS存储数据:
  • 使用MaxCompute存储的表结构数据,用于常规算法组件。
    说明 当数据小于20 MB时,建议使用PAI IDE上传数据。当数据大于20 MB时,建议使用命令行工具上传数据,详情请参见使用Tunnel命令上传下载数据
  • 使用OSS存储的结构化或非结构化数据,用于深度学习算法组件。

操作步骤

  1. 登录PAI控制台
  2. 在PAI控制台首页,选择模型开发和训练 > Studio-可视化建模,进入PAI可视化建模页面。
  3. 单击进入机器学习进入机器学习
  4. 上传数据。
    1. 在左侧菜单栏,单击数据源
    2. 单击页面下方的创建表
    3. 输入表名保存时长(天)
    4. 单击表结构后的加表列图标,输入列名,选择数据类型
    5. 单击下一步
    6. 单击选择文件,并根据提示上传本地数据文件。
    7. 单击确定
  5. 创建实验。
    1. 在左侧菜单栏,单击首页
    2. 单击新建实验,选择新建空白实验
    3. 输入名称,单击确定
  6. 配置数据源。
    1. 在左侧菜单栏,单击组件
    2. 在组件列表,将源/目标下的读数据表组件拖入画布中。
    3. 单击画布中的读数据表组件,在右侧表选择页签,输入已创建的表名
    4. 单击字段信息页签,可以查看输入表的字段、数据类型前100条记录范围

后续步骤

完成数据准备后,需要进行数据预处理,详情请参见数据预处理