使用Scala与SQL批式读写Delta Lake表-开源大数据平台 E-MapReduce-阿里云

本文介绍Delta Lake如何批式读写数据。

建表并写入数据

Scala

// 非分区表
data.write.format("delta").save("/tmp/delta_table")
// 分区表
data.write.format("delta").partitionedBy("date").save("/tmp/delta_table")

SQL

-- 非分区表
CREATE TABLE delta_table (id INT) USING delta LOCATION "/tmp/delta_table";
INSERT INTO delta_table VALUES 0,1,2,3,4;
-- 分区表
CREATE TABLE delta_table (


id INT, date STRING) USING delta PARTITIONED BY (date) LOCATION "/tmp/delta_table";
INSERT INTO delta_table PARTITION (date='2019-11-11') VALUES 0,1,2,3,4;
-- 或者使用动态分区写入
INSERT INTO delta_table PARTITION (date) VALUES (0,'2019-11-01'),(1,'2019-11-02'),(2,'2019-11-05'),(3,'2019-11-08'),(4,'2019-11-11');

追加数据

Scala

// 非分区表
data.write.format("delta").mode("append").save("/tmp/delta_table")
// 分区表
data.write.format("delta").mode("append").save("/tmp/delta_table")

SQL

-- 非分区表
INSERT INTO delta_table VALUES 0,1,2,3,4;
-- 分区表
INSERT INTO delta_table PARTITION (date='2019-11-11') VALUES 0,1,2,3,4;
-- 或者使用动态分区写入
INSERT INTO delta_table PARTITION (date) VALUES (0,'2019-11-01'),(1,'2019-11-02'),(2,'2019-11-05'),(3,'2019-11-08'),(4,'2019-11-11');

覆盖数据

Scala

// 非分区表
data.write.format("delta").mode("overwrite").save("/tmp/delta_table")
// 分区表
data.write.format("delta").mode("overwrite").option("replaceWhere", "date >= '2019-11-01' AND date <= '2019-11-11'").save("/tmp/delta_table")

SQL

INSERT OVERWRITE TABLE delta_table VALUES 0,1,2,3,4;
-- 分区表
INSERT OVERWRITE delta_table PARTITION (date='2019-11-11') VALUES 0,1,2,3,4;
-- 或者使用动态分区写入
INSERT OVERWRITE delta_table PARTITION (date) VALUES (0,'2019-11-01'),(1,'2019-11-02'),(2,'2019-11-05'),(3,'2019-11-08'),(4,'2019-11-11');

读表

Scala

spark.read.format("delta").load("/tmp/delta_table")

SQL
```
SELECT * FROM delta_table;
```

历史版本访问

Scala

df1 = spark.read.format("delta").option("timestampAsOf", timestamp_string).load("/tmp/delta_table")
df2 = spark.read.format("delta").option("versionAsOf", version).load("/tmp/delta_table")

SQL
不支持。