全部产品
云市场

数据准备

更新时间:2019-03-05 17:36:35

机器学习平台上传数据说明

机器学习平台底层支持两种数据源,一种是MaxCompute存储数据,另一种是OSS存储数据。

注意:使用MaxCompute作为存储,建议当数据小于20MB时使用机器学习IDE环境上传,当数据大于20MB时使用命令行工具上传。

  • MaxCompute上传数据:MaxCompute主要用来存储表结构数据,支持稀疏与稠密两种格式的数据,支持机器学习IDE上传命令行工具上传两种方式。这部分的数据主要针对平台中除了深度学习以外的算法组件。

  • OSS上传数据:OSS数据源主要针对深度学习相关算法组件,可用来存储结构化或非结构化数据。

IDE端上传数据到MaxCompute

  1. 进入机器学习平台,单击数据源,创建表。

  2. 选择相应的数据源,并创建与之匹配的字段。建议使用txt格式上传,csv格式易出现特殊字符。

对于稀疏格式数据,请参考libsvm数据使用文件上传数据。

命令行工具上传数据到MaxCompute

MaxCompute提供多种数据上传方式。请参考数据迁移到MaxCompute的N种方式,选择最合适的方式上传数据。

OSS上传数据

请参见OSS上传数据

操作步骤

  1. 开通并进入机器学习界面后,单击左边菜单栏的首页,选择新建->新建空白试验,如下图所示。new test

  2. 单击左边菜单栏的组件,打开源/目标文件夹,向画布中拖入读数据表组件,在右侧表选择栏填入对应的MaxCompute表名,如下图所示。datatable

  3. 切换到字段信息栏,如下图所示,可以查看输入表的字段名、数据类型和前100行数据的数值分布。view-data