全部产品
云市场

快速分析OSS数据

更新时间:2019-01-14 12:44:45

前提条件

使用Data Lake Analytics进行OSS分析,必须满足以下条件。

  • 您已经注册了一个阿里云账号,并成功开通了Data Lake Analytics服务(连接Data Lake Analytics服务所需的用户名和密码)
  • 您已经将一个要分析的数据文件,成功的上传至OSS

注意事项

  • 在Data Lake Analytics所在的Region只能操作同Region的OSS文件,暂时不能跨阿里云Region操作。
  • Data Lake Analytics提供经典互联网访问的Endpoint和VPC的Endpoint。

    • 经典互联网访问的endpoint:供任何能访问互联网的应用访问。
    • 供与Data Lake Analytics服务在同阿里云Region的VPC内ECS上的应用访问。

操作步骤

  • 进入Data Lake Analytics的SQL控制台DMS

  • 如果还未创建访问地址,则点击“创建访问地址”,创建公网访问的服务访问地址。

image.png | left | 827x331

  • 弹出窗口可以进行IPv4白名单设置,默认0.0.0.0/0,表示允许任何IPv4地址访问。多个IPv4地址用英文逗号分隔。

endpoint

  • 点击“确定”,完成设置,并生成公网访问地址。默认隐藏,可以点击查看。

image.png | left | 827x104

  • 点击“登录DMS”,可以使用您的账号密码完成登录。

image.png | left | 516x393

  • 创建schema,指向OSS文件的目录

注意

1). OSS LOCATION地址,请务必以’/‘结尾以表示目录,因为后续建表的LOCATION所指向的数据文件,必须在这个OSS目录或者其子目录下。

2).LOCATION一定要指向数据文件所在的OSS bucket的目录,而不是数据文件本身。

  1. CREATE SCHEMA my_test_schema1 with DBPROPERTIES(
  2. LOCATION = 'oss://mybucket102/',
  3. catalog='oss'
  4. );

n5 | left

  • 创建Data Lake Analytics表,指向OSS文件夹。
    1. use my_test_schema1 ;
    2. CREATE EXTERNAL TABLE my_test_file1 (
    3. id INT,
    4. name STRING,
    5. location STRING,
    6. create_date DATE,
    7. create_timestamp TIMESTAMP,
    8. longitude DOUBLE,
    9. latitude DOUBLE
    10. )
    11. ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
    12. STORED AS TEXTFILE LOCATION 'oss://mybucket102/';

如下图所示:

n6 | left

  • 查询Data Lake Analytics表中的数据
    1. select * from my_test_file1

n7 | left

访问Data Lake Analytics,除使用SQL控制台DMS外,您还可以使用MySQL命令行或者客户端GUI管理工具来操作Data Lake Analytics表