MaxCompute提供了多种数据同步的方式,可以通过DataWorks的数据集成功能,也可以通过tunnel命令的方式。更新详情见:通用数据上传场景与工具。
本文以示例的全量数据为例,说明如何将数据通过tunnel本地上传至MaxCompute项目中。
操作步骤
下载示例数据
1、根据自己将要创建的实例的行业属性,找到对应的示例的全量数据下载链接。
2、将3张表下载至本地。
以新闻行业为例,oss下载链接:行为数据,item数据,user数据
安装MaxCompute客户端
1、后面建表,上传数据都需要使用客户端。
2、MaxCompute客户端官网文档介绍:使用客户端(odpscmd)连接。
3、智能推荐帮助文档,MaxCompute授权子账户的Step2中,也有详细介绍:地址。

在MaxCompute中创建3张表
有两种方式在MaxCompute中建表,1:DataWorks控制台,2:MaxCompute的客户端。
1、通过MaxCompute客户端建表
直接在命令行中输入建表语句,注意要分号结尾,下图以创建行为表为例

注意语句中不能有换行,以分号结尾
各行业的建表语句详见其数据规范的最下方:
2、通过DataWorks的控制台建表
详细见DataWorks官方文档说明:DataWorks。
上传数据
1、打开MaxCompute客户端
2、tunnel命令详解:Tunnel命令。
tunnel upload -acp=true -h=true /Users/xxx/workspace/data/news/behavior_news.csv behavior_airec_test/ds=20190125
由于本文创建的表为分区key为ds的分区表,因此upload的时候,behavior_airec_test/ds=20190125后面需要带上分区信息【注:ds为分区字段名】

其中 -h参数为跳过本地表头(示例数据中包含表头),-acp参数为自动创建分区
3、确认数据是否成功,select一下表中的数据。
select * from behavior_airec_test where ds = 20190125;
该文章对您有帮助吗?