如何更新或删除数据_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

MaxCompute支持通过DELETE、UPDATE操作，在行级别删除或更新Transactional表中的数据。

本文中的命令您可以在如下工具平台执行：

前提条件

执行DELETE、UPDATE操作前需要具备目标Transactional表的读取表数据权限（Select）及更新表数据权限（Update）。授权操作请参见MaxCompute权限。

功能介绍

MaxCompute的DELETE、UPDATE功能具备与传统数据库用法类似的删除或更新表中指定行的能力。

实际使用DELETE、UPDATE功能时，系统会针对每一次删除或更新操作自动生成用户不可见的Delta文件，用于记录删除或更新的数据信息。具体实现原理如下：

DELETE：Delta文件中使用txnid(bigint)和rowid(bigint)字段标识Transactional表的Base文件（表在系统中的存储形式）中的记录在哪次删除操作中被删除。
例如，表t1的Base文件为f1，且内容为a, b, c, a, b，当执行DELETE FROM t1 WHERE c1='a';命令后，系统会生成一个单独的f1.delta文件。假设txnid是t0，则f1.delta的内容是((0, t0), (3, t0))，标识行0和行3，在txnt0中被删除了。如果再执行一次DELETE操作，系统会又生成一个f2.delta文件，该文件仍然是根据Base文件f1编号，读取文件时，基于Base文件f1和当前所有Delta文件的共同表示结果，读取没有被删除的数据。
UPDATE：UPDATE操作会转换为DELETE+INSERT INTO的实现逻辑。

DELETE、UPDATE功能具备的优势如下：

写数据量下降
此前，MaxCompute通过INSERT INTO或INSERT OVERWRITE操作方式删除或更新表数据，更多信息，请参见插入或覆写数据（INSERT INTO | INSERT OVERWRITE）。当用户需要更新表或分区中的少量数据时，如果通过INSERT操作实现，需要先读取表的全量数据，然后通过SELECT操作更新数据，最后通过INSERT操作将全量数据写回表中，效率较低。使用DELETE、UPDATE功能后，系统无需写回全部数据，写数据量会显著下降。
说明
- 对于按量计费场景，DELETE、UPDATE和INSERT OVERWRITE任务的写数据部分不收费，但是DELETE、UPDATE任务需要按分区过滤读取需要变更的数据，用于标注删除的记录或写回更新的记录，而读取数据部分依然遵照SQL作业按量计费模型收费，所以DELETE、UPDATE任务相比INSERT OVERWRITE任务，费用并不能因为写数据量减少而减少。
- 对于包年包月场景，DELETE、UPDATE减少了写数据资源消耗，与INSERT OVERWRITE相比，相同资源可以运行更多的任务。
可直接读取最新状态的表
此前，MaxCompute在批量更新表数据场景使用的是拉链表，该方式需要在表中增加start_date和end_date辅助列，标识某一行记录的生命周期。当查询表的最新状态时，系统需要从大量数据中根据时间戳获取表的最新状态，使用起来不够直观。使用DELETE、UPDATE功能后，系统可以基于表的Base文件和Delta文件的共同表示结果，直接读取最新状态的表。

重要

多次DELETE、UPDATE操作会使Transactional表的底层存储增大，增加存储和后续查询费用，且影响后续查询效率，建议定期合并（Compact）后台数据。更多合并操作信息，请参见合并Transactional表文件。

当作业并发运行且操作的目标表相同时，可能会出现作业冲突问题，更多信息，请参见ACID语义。

应用场景

DELETE、UPDATE功能适用于随机、低频删除或更新表或分区中的少量数据。例如，按照T+1周期性地批量对表或分区中5%以下的行删除或更新数据。

DELETE、UPDATE功能不适用于高频更新、删除数据或实时写入目标表场景。

使用限制

DELETE、UPDATE功能及对应Transactional表、Delta Table表的使用限制如下：
说明
关于Transaction表和Delta Table表详细信息，详情请参见Transaction Table与Delta Table表参数。
- Delta Table表UPDATE语法不支持修改PK列。

注意事项

通过DELETE、UPDATE操作删除或更新表或分区内的数据时，注意事项如下：

如果需要对表中较少数据进行删除或更新操作，且操作和后续读数据的频率也不频繁，建议使用DELETE、UPDATE操作，并且在多次执行删除或更新操作之后，请合并表的Base文件和Delta文件，降低表的实际存储。更多信息，请参见合并Transactional表文件。
如果删除或更新行数较多（超过5%）并且操作不频繁，但后续对该表的读操作比较频繁，建议使用INSERT OVERWRITE或INSERT INTO操作。更多信息，请参见插入或覆写数据（INSERT INTO | INSERT OVERWRITE）。
例如，某业务场景为每次删除或更新10%的数据，一天更新10次。建议根据实际情况评估DELETE、UPDATE操作产生的费用及后续对读性能的消耗是否小于每次使用INSERT OVERWRITE或INSERT INTO操作产生的费用及后续对读性能的消耗，比较两种方式在具体场景中的效率，选择更优方案。
删除数据会生成Delta文件，所以删除数据不一定能降低存储，如果您希望通过DELETE操作删除数据来降低存储，请合并表的Base文件和Delta文件，降低表的实际存储。更多信息，请参见合并Transactional表文件。
MaxCompute会按照批处理方式执行DELETE、UPDATE作业，每一条语句都会使用资源并产生费用，建议您使用批量方式删除或更新数据。例如您通过Python脚本生成并提交了大量行级别更新作业，且每条语句只操作一行或者少量行数据，则每条语句都会产生与SQL扫描输入数据量对应的费用，并使用相应的计算资源，多条语句累加时将明显增加费用成本，降低系统效率。命令示例如下。
- 推荐方案：
  UPDATE table1 SET col1= (SELECT value1 FROM table2 WHERE table1.id = table2.id AND table1.region = table2.region);
- 不推荐方案：
  UPDATE table1 SET col1=1 WHERE id='2021063001'AND region='beijing'; UPDATE table1 SET col1=2 WHERE id='2021063002'AND region='beijing';

删除数据（DELETE）

DELETE操作用于删除Transactional或Delta Table表中满足指定条件的单行或多行数据。

命令格式

DELETE FROM <table_name> [WHERE <where_condition>];

参数说明

参数名	是否必填	描述

参数名

是否必填

描述

table_name

是

待执行DELETE操作的Transactional或Delta Table表名称。

where_condition

否

WHERE子句，用于筛选满足条件的数据。

更多WHERE子句信息，请参见WHERE子句（where_condition）。如果不带WHERE子句，会删除表中的所有数据。

使用示例

示例1：创建非分区表acid_delete，并导入数据，执行DELETE操作删除满足指定条件的行数据。命令示例如下：

--创建Transactional表acid_delete。
CREATE TABLE IF  NOT EXISTS acid_delete(id BIGINT) tblproperties ("transactional"="true"); 

--插入数据。
INSERT OVERWRITE TABLE acid_delete VALUES(1),(2),(3),(2); 

--查看插入结果。
SELECT * FROM acid_delete; 
--返回结果
+------------+
| id         |
+------------+
| 1          |
| 2          |
| 3          |
| 2          |
+------------+

--删除id为2的行，如果在MaxCompute客户端（odpscmd）执行，需要输入yes|no确认。
DELETE FROM acid_delete WHERE id = 2; 

--查看结果表中数据只有1、3。
SELECT * FROM acid_delete; 
--返回结果
+------------+
| id         |
+------------+
| 1          |
| 3          |
+------------+

示例2：创建分区表acid_delete_pt，并导入数据，执行DELETE操作删除满足指定条件的行。命令示例如下：

--创建Transactional表acid_delete_pt。 
CREATE TABLE IF  NOT EXISTS acid_delete_pt(id BIGINT) PARTITIONED BY(ds STRING) tblproperties ("transactional"="true");

--添加分区。
ALTER TABLE acid_delete_pt ADD IF  NOT EXISTS PARTITION (ds= '2019');
ALTER TABLE acid_delete_pt ADD IF  NOT EXISTS PARTITION (ds= '2018');

--插入数据。
INSERT OVERWRITE TABLE acid_delete_pt PARTITION (ds='2019') VALUES(1),(2),(3);
INSERT OVERWRITE TABLE acid_delete_pt PARTITION (ds='2018') VALUES(1),(2),(3);

--查看插入结果。
SET odps.sql.allow.fullscan=true;
SELECT * FROM acid_delete_pt;
--返回结果
+------------+------------+
| id         | ds         |
+------------+------------+
| 1          | 2018       |
| 2          | 2018       |
| 3          | 2018       |
| 1          | 2019       |
| 2          | 2019       |
| 3          | 2019       |
+------------+------------+

--删除分区为2019且id为2的数据，如果在MaxCompute客户端（odpscmd）执行，需要输入yes|no确认。
DELETE FROM acid_delete_pt WHERE ds='2019' AND id = 2;

--查看结果表中已删除分区为2019且id为2的数据。
SET odps.sql.allow.fullscan=true;
SELECT * FROM acid_delete_pt;
--返回结果
+------------+------------+
| id         | ds         |
+------------+------------+
| 1          | 2018       |
| 2          | 2018       |
| 3          | 2018       |
| 1          | 2019       |
| 3          | 2019       |
+------------+------------+

示例3：创建目标表acid_delete_t和关联表acid_delete_s，通过关联操作删除满足指定条件的行。命令示例如下：

--创建目标Transactional表acid_delete_t和关联表acid_delete_s。
CREATE TABLE IF  NOT EXISTS acid_delete_t(id INT,value1 INT,value2 INT) tblproperties ("transactional"="true");
CREATE TABLE IF  NOT EXISTS acid_delete_s(id INT,value1 INT,value2 INT);

--插入数据。
INSERT OVERWRITE TABLE acid_delete_t VALUES(2,20,21),(3,30,31),(4,40,41);
INSERT OVERWRITE TABLE acid_delete_s VALUES(1,100,101),(2,200,201),(3,300,301);

--删除acid_delete_t表中id与acid_delete_s表中id不匹配的行。如果在MaxCompute客户端（odpscmd）执行，需要输入yes|no确认。
DELETE FROM acid_delete_t WHERE  NOT EXISTS (SELECT * FROM acid_delete_s WHERE acid_delete_t.id=acid_delete_s.id);

--查看结果表中只有id为2、3的数据。
SELECT * FROM acid_delete_t;

--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 2          | 20         | 21         |
| 3          | 30         | 31         |
+------------+------------+------------+

示例4：创建Delta Table表mf_dt，并导入数据，执行DELETE操作删除满足指定条件的行。命令示例如下：

--创建目标Delta Table表mf_dt。
CREATE TABLE IF  NOT EXISTS mf_dt (pk BIGINT  NOT NULL PRIMARY KEY, 
                  val  BIGINT NOT NULL) 
                  PARTITIONED BY(dd STRING, hh STRING) 
                  tblproperties ("transactional"="true");

--插入数据
INSERT OVERWRITE TABLE mf_dt PARTITION (dd='01', hh='02') VALUES (1, 1), (2, 2), (3, 3);

--查看插入结果                 
SELECT * FROM mf_dt WHERE dd='01' AND hh='02';

--返回结果
+------------+------------+----+----+
| pk         | val        | dd | hh |
+------------+------------+----+----+
| 1          | 1          | 01 | 02 |
| 3          | 3          | 01 | 02 |
| 2          | 2          | 01 | 02 |
+------------+------------+----+----+

--删除分区为01和02，且val为2的数据。
DELETE FROM mf_dt WHERE val = 2  AND dd='01' AND hh='02';

--查看结果表中只有val为1、3的数据
SELECT * FROM mf_dt WHERE dd='01' AND hh='02';

--返回结果
+------------+------------+----+----+
| pk         | val        | dd | hh |
+------------+------------+----+----+
| 1          | 1          | 01 | 02 |
| 3          | 3          | 01 | 02 |
+------------+------------+----+----+

清空列数据

使用CLEAR COLUMN命令清空普通表的列，将不再使用的列数据从磁盘删除并置NULL，从而达到降低存储成本的目的。

命令格式

ALTER TABLE <table_name> 
           [PARTITION ( <pt_spec>[, <pt_spec>....] )] 
					 CLEAR COLUMN column1[, column2, column3, ...]
			                         [WITHOUT TOUCH];

参数说明

参数名	描述

参数名	描述
table_name	将要执行清空列数据的表名称。
`column1 , column2 ...`	将要被清空数据的列名称。
PARTITION	指定分区，若未指定，则表示操作所有分区。
pt_spec	分区描述，格式为`(partition_col1 = PARTITION_col_value1, PARTITION_col2 = PARTITION_col_value2, ...)`。
WITHOUT TOUCH	表示不更新`LastDataModifiedTime`；若未指定，则会更新`LastDataModifiedTime`。

说明

目前默认指定WITHOUT TOUCH，计划在下一阶段支持未指定WITHOUT TOUCH的清空列数据行为，即若未指定WITHOUT TOUCH，则会更新LastDataModifiedTime。

使用限制
- 不支持对具有非空属性的列进行clear column操作，可以手动取消not nullable属性：
  ALTER TABLE <table_name> change COLUMN <old_col_name> NULL;
- ACID表不支持清空列数据。
- Cluster不支持清空列数据。
- 不支持对嵌套类型内部执行清空列数据操作。
- 不支持清空所有列数据（DROP TABLE可以起到相同效果，且性能更好）。
注意事项
- Clear Column操作不会改变表的Archive属性。
- 对嵌套类型的列执行Clear Column操作可能会失败。
  失败的情况为在列式（Columnar）嵌套类型关闭的情况下对含有Columnar嵌套类型的表做Clear Column操作。
- Clear Column命令执行需要依赖Storage Service在线服务，在作业量多的情况下可能需要排队导致任务变慢。
- Clear Column操作需要使用计算资源对数据进行读取与写入，所以针对包年包月用户，会占用计算资源，对按量付费用户，会产生和SQL一样的费用。（目前正在邀测中，暂时不进行收费。）

使用示例

--创建表
CREATE TABLE IF  NOT EXISTS mf_cc(key STRING, 
     value STRING, 
     a1 BIGINT , 
     a2 BIGINT , 
     a3 BIGINT , 
     a4 BIGINT)  
     PARTITIONED BY(ds STRING, hr STRING);
                 
--添加分区
ALTER TABLE mf_cc ADD IF  NOT EXISTS PARTITION (ds='20230509', hr='1641');

--插入数据
INSERT INTO mf_cc PARTITION (ds='20230509', hr='1641') 
     VALUES("key","value",1,22,3,4);
     
--查询数据     
SELECT * FROM mf_cc WHERE ds='20230509' AND  hr='1641';
--返回结果
+-----+-------+------------+------------+--------+------+---------+-----+
| key | value | a1         | a2         | a3     | a4   | ds      | hr  |
+-----+-------+------------+------------+--------+------+---------+-----+
| key | value | 1          | 22         | 3      | 4    | 20230509| 1641|
+-----+-------+------------+------------+--------+------+---------+-----+
--清空列数据
ALTER TABLE mf_cc PARTITION(ds='20230509', hr='1641') 
                  CLEAR COLUMN key,a1 
    WITHOUT TOUCH;
--查询数据     
SELECT * FROM mf_cc WHERE ds='20230509' AND  hr='1641';
--返回结果，key和a1的数据已经变成null
+-----+-------+------------+------------+--------+------+---------+-----+
| key | value | a1         | a2         | a3     | a4   | ds      | hr  |
+-----+-------+------------+------------+--------+------+---------+-----+
| null| value | null       | 22         | 3      | 4    | 20230509| 1641|
+-----+-------+------------+------------+--------+------+---------+-----+

下图为lineitem表（aliorc格式）的总存储大小随着对每一列进行Clear Column后的变化过程。lineitem表共16列，有Bigint、Decimal、Char、Date、Varchar几种类型。
可以看出随着表的16个列陆续被Clear Column命令置为Null，存储空间总共下降了99.97%（由最初的186783526byte下降到了236715byte）。
说明
- 列的数据类型和实际存储的值和Clear Column操作节省的空间有关，比如在这个例子中，对Decimal类型的l_extendedprice列，Clear Column操作节省了24.2%的空间（146538799 byte -> 111138117 byte）明显好于平均水平。
- 当所有列被置Null后表的大小是236715 byte，而不是0。这是因为表的文件结构还存在，Null字段会占用少量的存储空间，系统也需要保留文件Footer信息。

更新数据（UPDATE）

UPDATE操作用于将Transactional表或Delta Table表中行对应的单列或多列数据更新为新值。

命令格式

--方式1
UPDATE <table_name> SET <col1_name> = <value1> [, <col2_name> = <value2> ...] [WHERE <where_condition>];

--方式2
UPDATE <table_name> SET (<col1_name> [, <col2_name> ...]) = (<value1> [, <value2> ...])[WHERE <where_condition>];

--方式3
UPDATE <table_name>
       SET <col1_name> = <value1> [ , <col2_name> = <value2> , ... ]
        [ FROM <additional_tables> ]
        [ WHERE <where_condition> ]

参数说明

参数名	是否必填	描述

参数名	是否必填	描述
table_name	是	待执行`UPDATE`操作的Transactional表名称。
col1_name/col2_name	是	至少更新一个。待修改行对应的列名称。
value1/value2	是	至少更新一个列值。修改后的新值。
where_condition	否	WHERE子句，用于筛选满足条件的数据。更多WHERE子句信息，请参见WHERE子句（where_condition）。如果不带WHERE子句，会更新表中的所有数据。
additional_tables	否	FROM子句。

UPDATE支持FROM子句，使用FROM子句时，UPDATE的使用会更加方便，不使用FROM子句与使用FROM子句的对比示例如下。

场景	示例代码

场景

示例代码

不使用from子句

UPDATE target SET v =
  (SELECT MIN(v) FROM src GROUP BY k WHERE target.k = src.key)
  WHERE target.k IN (SELECT k FROM src);

使用from子句

UPDATE target SET v = b.v
  FROM (SELECT k, MIN(v) v FROM src GROUP BY k) b
  WHERE target.k = b.k;

从上述示例代码可见：

当用源表的多行数据更新目标表的一行数据的时，由于不知道使用哪条源表的数据进行更新，所以遇到这种情况需要用户写聚合操作来保证数据源的唯一性，可以看出不使用FROM子句时，代码不够简洁，用FROM子句的写法比较简洁易懂。
关联更新的时候，如果只更新交集数据，不使用FROM子句时需要写额外的WHERE条件，相对于FROM语法而言也不太简洁。

使用示例

示例1：创建非分区表acid_update，并导入数据，执行UPDATE操作更新满足指定条件的行对应的列数据。命令示例如下：

--创建Transactional表acid_update。  
CREATE TABLE IF  NOT EXISTS acid_update(id BIGINT) tblproperties ("transactional"="true");

--插入数据。
INSERT OVERWRITE TABLE acid_update VALUES(1),(2),(3),(2);

--查看插入结果。
SELECT * FROM acid_update; 

--返回结果
+------------+
| id         |
+------------+
| 1          |
| 2          |
| 3          |
| 2          |
+------------+

--将所有id为2的行，id值更新为4。
UPDATE acid_update SET id = 4 WHERE id = 2; 

--查看更新结果，2被更新为4。
SELECT * FROM acid_update; 

--返回结果
+------------+
| id         |
+------------+
| 1          |
| 3          |
| 4          |
| 4          |
+------------+

示例2：创建分区表acid_update，并导入数据，执行UPDATE操作更新满足指定条件的行对应的列数据。命令示例如下：

--创建Transactional表acid_update_pt。 
CREATE TABLE IF  NOT EXISTS acid_update_pt(id BIGINT) PARTITIONED BY(ds STRING) tblproperties ("transactional"="true");

--添加分区。
ALTER TABLE acid_update_pt ADD IF  NOT EXISTS PARTITION (ds= '2019');

--插入数据。
INSERT OVERWRITE TABLE acid_update_pt PARTITION (ds='2019') VALUES(1),(2),(3);

--查看插入结果
SELECT * FROM acid_update_pt WHERE ds = '2019';

--返回结果
+------------+------------+
| id         | ds         |
+------------+------------+
| 1          | 2019       |
| 2          | 2019       |
| 3          | 2019       |
+------------+------------+

--更新指定行的一列数据，将分区为2019的所有id=2的行，id值更新为4。
UPDATE acid_update_pt SET id = 4 WHERE ds = '2019' AND id = 2; 

--查看更新结果，2被更新为4。
SELECT * FROM acid_update_pt WHERE ds = '2019';

--返回结果
+------------+------------+
| id         | ds         |
+------------+------------+
| 4          | 2019       |
| 1          | 2019       |
| 3          | 2019       |
+------------+------------+

示例3：创建目标表acid_update_t和关联表acid_update_s，实现同时更新多列值。命令示例如下：

--创建待更新目标Transactional表acid_update_t和关联表acid_update_s。
CREATE TABLE IF  NOT EXISTS acid_update_t(id INT,value1 INT,value2 INT) tblproperties ("transactional"="true");
CREATE TABLE IF  NOT EXISTS acid_update_s(id INT,value1 INT,value2 INT);

--插入数据。
INSERT OVERWRITE TABLE acid_update_t VALUES(2,20,21),(3,30,31),(4,40,41);
INSERT OVERWRITE TABLE acid_update_s VALUES(1,100,101),(2,200,201),(3,300,301);

--方式一：用常量更新。
UPDATE acid_update_t SET (value1, value2) = (60,61);
--查询方式一目标表结果数据。
SELECT * FROM acid_update_t;

--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 2          | 60         | 61         |
| 3          | 60         | 61         |
| 4          | 60         | 61         |
+------------+------------+------------+

--方式二：关联更新，规则为acid_update_t表左关联acid_update_s表。
UPDATE acid_update_t SET (value1, value2) = (SELECT value1, value2 FROM acid_update_s WHERE acid_update_t.id = acid_update_s.id);
--查询方式二目标表结果数据。
SELECT * FROM acid_update_t;

--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 2          | 200        | 201        |
| 3          | 300        | 301        |
| 4          | NULL       | NULL       |
+------------+------------+------------+

--方式三（基于“方式二”的结果进行更新）：关联更新，规则为增加过滤条件，只更新交集。
UPDATE acid_update_t SET (value1, value2) = (SELECT value1, value2 FROM acid_update_s WHERE acid_update_t.id = acid_update_s.id) WHERE acid_update_t.id IN (SELECT id FROM acid_update_s);
--查询方式三目标表结果数据。
SELECT * FROM acid_update_t;

--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 2          | 200        | 201        |
| 3          | 300        | 301        |
| 4          | NULL       | NULL       |
+------------+------------+------------+

--方式四（基于“方式三”的结果进行更新）：用汇总结果关联更新。
UPDATE acid_update_t SET (id, value1, value2) = (SELECT id, MAX(value1),MAX(value2) FROM acid_update_s WHERE acid_update_t.id = acid_update_s.id GROUP BY acid_update_s.id) WHERE acid_update_t.id IN (SELECT id FROM acid_update_s);
--查询方式四目标表结果数据。
SELECT * FROM acid_update_t;

--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 2          | 200        | 201        |
| 3          | 300        | 301        |
| 4          | NULL       | NULL       |
+------------+------------+------------+

示例4：涉及两个表的简单关联查询，示例命令如下：

--创建更新目标表acid_update_t和关联表acid_update_s
CREATE TABLE IF  NOT EXISTS acid_update_t(id BIGINT,value1 BIGINT,value2 BIGINT) tblproperties ("transactional"="true");
CREATE TABLE IF  NOT EXISTS acid_update_s(id BIGINT,value1 BIGINT,value2 BIGINT);

--插入数据
INSERT OVERWRITE TABLE acid_update_t VALUES(2,20,21),(3,30,31),(4,40,41);
INSERT OVERWRITE TABLE acid_update_s VALUES(1,100,101),(2,200,201),(3,300,301);

--查询acid_update_t表数据
SELECT * FROM acid_update_t;
--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 2          | 20         | 21         |
| 3          | 30         | 31         |
| 4          | 40         | 41         |
+------------+------------+------------+

--查询acid_update_s表数据
SELECT * FROM acid_update_s;
--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 1          | 100        | 101        |
| 2          | 200        | 201        |
| 3          | 300        | 301        |
+------------+------------+------------+

--关联更新，目标表增加过滤条件，只取交集
UPDATE acid_update_t SET value1 = b.value1, value2 = b.value2 
FROM acid_update_s b WHERE acid_update_t.id = b.id;

--查看更新结果，20被更新为200，21被更新为201，30被更新为300，31被更新为301
SELECT * FROM acid_update_t;
--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 4          | 40         | 41         |
| 2          | 200        | 201        |
| 3          | 300        | 301        |
+------------+------------+------------+

示例5：涉及多个表的复杂关联查询，示例命令如下：

--创建更新目标表acid_update_t和关联表acid_update_s
CREATE TABLE IF  NOT EXISTS acid_update_t(id BIGINT,value1 BIGINT,value2 BIGINT) tblproperties ("transactional"="true");
CREATE TABLE IF  NOT EXISTS acid_update_s(id BIGINT,value1 BIGINT,value2 BIGINT);
CREATE TABLE IF  NOT EXISTS acid_update_m(id BIGINT,value1 BIGINT,value2 BIGINT);

--插入数据
INSERT OVERWRITE TABLE acid_update_t VALUES(2,20,21),(3,30,31),(4,40,41),(5,50,51);
INSERT OVERWRITE TABLE acid_update_s VALUES (1,100,101),(2,200,201),(3,300,301),(4,400,401),(5,500,501);
INSERT OVERWRITE TABLE acid_update_m VALUES(3,30,101),(4,400,201),(5,300,301);

--查询acid_update_t表数据
SELECT * FROM acid_update_t;
--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 2          | 20         | 21         |
| 3          | 30         | 31         |
| 4          | 40         | 41         |
| 5          | 50         | 51         |
+------------+------------+------------+

--查询acid_update_s表数据
SELECT * FROM acid_update_s;
--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 1          | 100        | 101        |
| 2          | 200        | 201        |
| 3          | 300        | 301        |
| 4          | 400        | 401        |
| 5          | 500        | 501        |
+------------+------------+------------+

--查询acid_update_m表数据
SELECT * FROM acid_update_m;
--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 3          | 30         | 101        |
| 4          | 400        | 201        |
| 5          | 300        | 301        |
+------------+------------+------------+

--关联更新，并且在where中同时对原表和目标表进行过滤
UPDATE acid_update_t 
SET value1 = acid_update_s.value1, value2 = acid_update_s.value2 
FROM acid_update_s 
WHERE acid_update_t.id = acid_update_s.id 
AND acid_update_s.id > 2 
AND acid_update_t.value1 NOT IN 
(SELECT value1 FROM acid_update_m WHERE id = acid_update_t.id) 
AND acid_update_s.value1 NOT IN 
(SELECT value1 FROM acid_update_m WHERE id = acid_update_s.id);

--查看更新结果，acid_update_t表只有id为5的数据符合条件，对应value1被更新为500，valu2被更新为501
SELECT * FROM acid_update_t;
--返回结果
+------------+------------+------------+
| id         | value1     | value2     |
+------------+------------+------------+
| 5          | 500        | 501        |
| 2          | 20         | 21         |
| 3          | 30         | 31         |
| 4          | 40         | 41         |
+------------+------------+------------+

示例6：创建Delta Table表mf_dt，并导入数据，执行UPDATE操作删除满足指定条件的行。命令示例如下：

--创建目标Delta Table表mf_dt。
CREATE TABLE IF  NOT EXISTS mf_dt (pk BIGINT  NOT NULL PRIMARY KEY, 
                  val  BIGINT NOT NULL) 
                  PARTITIONED BY(dd STRING, hh STRING) 
                  tblproperties ("transactional"="true");

--插入数据
INSERT OVERWRITE TABLE mf_dt PARTITION (dd='01', hh='02') 
                 VALUES (1, 1), (2, 2), (3, 3);

--查看插入结果                 
SELECT * FROM mf_dt WHERE dd='01' AND hh='02';
--返回结果
+------------+------------+----+----+
| pk         | val        | dd | hh |
+------------+------------+----+----+
| 1          | 1          | 01 | 02 |
| 3          | 3          | 01 | 02 |
| 2          | 2          | 01 | 02 |
+------------+------------+----+----+

--更新指定行的一列数据，将分区为01和02的所有pk=3的行，val值更新为30。
--方法一
UPDATE mf_dt SET val = 30 WHERE pk = 3 AND dd='01' AND hh='02';

--方法二
UPDATE mf_dt SET val = delta.val 
              FROM (SELECT pk, val FROM VALUES (3, 30) t (pk, val)) delta 
              WHERE delta.pk = mf_dt.pk AND mf_dt.dd='01' AND mf_dt.hh='02';

--查看更新结果。
SELECT * FROM mf_dt WHERE dd='01' AND hh='02';
--返回结果，pk=3的行val值被更新为30。
+------------+------------+----+----+
| pk         | val        | dd | hh |
+------------+------------+----+----+
| 1          | 1          | 01 | 02 |
| 3          | 30         | 01 | 02 |
| 2          | 2          | 01 | 02 |
+------------+------------+----+----+

合并Transactional表文件

Transactional表底层物理存储为不支持直接读取的Base文件和Delta文件。对Transactional表执行UPDATE或DELETE操作，不会修改Base文件，只会追加Delta文件，所以会出现更新或删除次数越多，表实际占用存储越大的情况，多次累积的Delta文件会产生较高的存储和后续查询费用。

对同一表或分区，执行多次UPDATE或DELETE操作，会生成较多Delta文件。系统读数据时，需要加载这些Delta文件来确定哪些行被更新或删除，较多的Delta文件会影响数据读取效率。此时您可以将Base文件和Delta合并，减少存储以便提升数据读取效率。

命令格式

ALTER TABLE <table_name> [PARTITION (<partition_key> = '<partition_value>' [, ...])] compact {minor|major};

参数说明

参数名	是否必填	描述

参数名	是否必填	描述
table_name	是	待合并文件的Transactional表名称。
partition_key	否	当Transactional表为分区表时，指定分区列名。
partition_value	否	当Transactional表为分区表时，指定分区列名对应的列值。
major\|minor	是	至少选择其中一个。二者的区别是： `minor`：只将Base文件及其下所有的Delta文件合并，消除Delta文件。 `major`：不仅将Base文件及其下所有的Delta文件合并，消除Delta文件，还会把表对应的Base文件中的小文件进行合并。当Base文件较小（小于32 MB）或有Delta文件的情况下，等价于重新对表执行`INSERT OVERWRITE`操作，但当Base文件足够大（大于等于32 MB ），且不存在Delta文件的情况下，不会重写。

注意事项
通过Compact操作合并的小文件将在1天后被删除。如果使用备份与恢复功能恢复历史记录，并且该历史记录依赖于这些小文件，将会因为小文件的缺失，导致恢复失败。

使用示例

示例1：基于Transactional表acid_delete，合并表文件。命令示例如下：

ALTER TABLE acid_delete compact minor;

返回结果如下：

Summary:
Nothing found to merge, set odps.merge.cross.paths=true if cross path merge is permitted.
OK

示例2：基于Transactional表acid_update_pt，合并表文件。命令示例如下：

ALTER TABLE acid_update_pt PARTITION (ds = '2019') compact major;

返回结果如下：

Summary:
table name: acid_update_pt /ds=2019  instance count: 2  run time: 6
  before merge, file count:        8  file size: 2613  file physical size: 7839
   after merge, file count:        2  file size: 679  file physical size: 2037

OK

常见问题

问题一：
- 问题现象：执行UPDATE操作时，报错ODPS-0010000:System internal error - fuxi job failed, caused by: Data Set should contain exactly one row。
- 问题原因：待更新的行数据与子查询结果中的数据无法一一对应，系统无法判断对哪一行数据进行更新。命令示例如下：
```
UPDATE store SET (s_county, s_manager) = (SELECT d_country, d_manager FROM store_delta sd WHERE sd.s_store_sk = store.s_store_sk) WHERE s_store_sk IN (SELECT s_store_sk FROM store_delta);
```
  通过子查询SELECT d_country, d_manager FROM store_delta sd WHERE sd.s_store_sk = store.s_store_sk与store_delta关联，并用store_delta的数据更新store。假设store的s_store_sk中有[1, 2, 3]三行数据，如果store_delta的s_store_sk有[1, 1]两行数据，数据无法一一对应，执行报错。
- 解决措施：确保待更新的行数据与子查询结果中的数据一一对应。
问题二：
- 问题现象：在DataWorks DataStudio中使用compact命令时，报错ODPS-0130161:[1,39] Parse exception - invalid token 'minor', expect one of 'StringLiteral','DoubleQuoteStringLiteral'。
- 问题原因：DataWorks独享资源组中的MaxCompute客户端版本不支持compact命令。
- 解决措施：请通过DataWorks交流群联系技术支持团队升级独享资源组中的MaxCompute客户端版本。