通过注释提示调整执行计划-pg_hint_plan-云原生数据库 PolarDB-阿里云

pg_hint_plan插件通过特殊的注释语句提示来调整既定的执行计划。

背景信息

PostgreSQL使用基于代价的优化器，优化路线使用统计数据而非固定的规则。对于一条SQL语句，优化器会去评估所有可能的代价并最终选择代价最低的去执行。优化器会尽力选择最好的执行计划，但由于其并不了解数据中可能存在的一些内在连接关系，导致这些执行计划可能并不完美。

通过指定GUC变量，可以调整执行计划，但会影响整个会话。而pg_hint_plan只调整单个执行计划，不影响整个会话，可以优化执行计划。

前提条件

支持的PolarDB PostgreSQL版的版本如下：

PostgreSQL 16（内核小版本2.0.16.9.6.0及以上）
PostgreSQL 14（无内核小版本限制）
PostgreSQL 11（无内核小版本限制）

说明

您可在控制台查看内核小版本号，也可以通过SHOW polardb_version;语句查看。如未满足内核小版本要求，请升级内核小版本。

注意事项

DMS暂时不支持提示注释，请使用其他连接方式连接数据库。
pg_hint_plan插件只识别第一个注释块中的内容。
当进行扫描时，如果遇到了除字母、数字、空格、下划线、逗号、圆括号以外的字符时会立即停止扫描。
pg_hint_plan插件对于对象的处理与PostgreSQL并不一致，只会按照对象的对象名进行比较。例如，一个名为TBL的对象在提示语句中只会匹配TBL，而不会匹配tbl或Tbl。

使用限制

在PL/pgSQL存储过程中使用pg_hint_plan插件的限制如下：

提示只对以下类型的语句生效：
- 返回一行的查询（SELECT、INSERT、UPDATE、DELETE）。
- 返回多行的查询（RETURN QUERY）。
- 执行SQL语句（EXECUTE QUERY）。
- 打开游标（OPEN）。
- 对查询结果的遍历（FOR）。
一个提示语句必须被放置于每个查询的第一个单词之后，因为过早的提示语句无法被认为是该查询的一部分。

创建插件

创建插件。
```
CREATE EXTENSION pg_hint_plan;
```
加载插件。
- 单个用户自动加载。
  - 执行以下命令，加载插件。
```
ALTER USER xxx set session_preload_libraries='pg_hint_plan';
```
    说明
    其中，xxx需要更改为实际登录的用户名。
  - 执行以下命令，对单独数据库自动加载。
```
ALTER DATABASE xxx set session_preload_libraries='pg_hint_plan';
```
  说明
  如果配置错误导致无法登录数据库，则需要以其它用户/数据库登录到PolarDB中，进行重置：
```
ALTER USER xxx reset session_preload_libraries;
ALTER DATABASE xxx reset session_preload_libraries;
```
- 数据库集群自动加载。
  请前往配额中心，在配额名称PolarDB PG pg_hint_plan使用的操作列，单击申请，申请添加pg_hint_plan插件。
- 查看是否已加载插件。
  1. 执行以下命令，将调试信息输出到客户端。
```
SET pg_hint_plan.debug_print TO on;
SET pg_hint_plan.message_level TO notice;
```
  2. 执行以下命令，查看是否加载成功。
```
/*+Set(enable_seqscan 1)*/select 1;
```
    显示结果如下，表示加载成功。
```
NOTICE:  pg_hint_plan: used hint: Set(enable_seqscan 1)
```
  3. 执行以下命令，关闭调试信息输出。
```
RESET pg_hint_plan.debug_print;
RESET pg_hint_plan.message_level;
```

使用说明

注释提示

pg_hint_plan的注释以/*+开头，以*/结束。提示语句包括提示名和参数（参数使用括号包裹，参数之间使用空格分隔）。为了增加可读性，每一个提示语句都可以重新换行。

示例

HashJoin作为连接方法，并且使用序列扫描SeqScan来扫描表pgbench_accounts：

/*+
   HashJoin(a b)
   SeqScan(a)
 */
EXPLAIN SELECT *
   FROM pgbench_branches b
   JOIN pgbench_accounts a ON b.bid = a.bid
   ORDER BY a.aid;

返回结果如下：

                                      QUERY PLAN
---------------------------------------------------------------------------------------
 Sort  (cost=31465.84..31715.84 rows=100000 width=197)
   Sort Key: a.aid
   ->  Hash Join  (cost=1.02..4016.02 rows=100000 width=197)
         Hash Cond: (a.bid = b.bid)
         ->  Seq Scan on pgbench_accounts a  (cost=0.00..2640.00 rows=100000 width=97)
         ->  Hash  (cost=1.01..1.01 rows=1 width=100)
               ->  Seq Scan on pgbench_branches b  (cost=0.00..1.01 rows=1 width=100)
(7 rows)

提示类型

提示类型
根据提示短语影响执行计划的方式，支持的提示类型包括扫描方法提示、连接方法提示、连接顺序提示、行数校正提示、并行执行提示和GUC参数设置提示。
- 扫描方法提示
  扫描方法提示对目标表强制执行特定的扫描方法，pg_hint_plan通过表的别名（如果存在的话）来识别目标表。扫描方法可能是序列扫描、索引扫描等。
  扫描提示对普通表、继承表、无日志表、临时表和系统表有效。对外部表、表函数、常量值语句、通用表达式、视图和子查询无效。
  示例命令如下：
```
/*+
    SeqScan(t1)
    IndexScan(t2 t2_pkey)
 */
 SELECT * FROM table1 t1 JOIN table table2 t2 ON (t1.key = t2.key);
```
- 连接方法提示
  连接方法提示强制指定相关表聚合在一起的方法。对普通表、继承表、无日志表、临时表、外部表、系统表、表函数、常量值命令和通用表达式有效。对视图和子查询无效。
- 连接顺序提示
  连接顺序提示指定两张或多张表的连接顺序。包括两种强制指定方法：
  - 强制执行特定的连接顺序，但不限制每个连接级别的方向。
  - 强制连接方向。
  示例命令如下：
```
 /*+
    NestLoop(t1 t2)
    MergeJoin(t1 t2 t3)
    Leading(t1 t2 t3)
  */
 SELECT * FROM table1 t1
     JOIN table table2 t2 ON (t1.key = t2.key)
     JOIN table table3 t3 ON (t2.key = t3.key);
```
  说明
  其中
  NestLoop(t1 t2)：指定表t1和t2的连接方法。
  MergeJoin(t1 t2 t3)：指定表t1、t2和t3之间的连接方法。
  Leading(t1 t2 t3)：指定三张表的连接顺序。
- 行数校正提示
  行数校正提示会校正由于查询优化器限制而导致的行数错误。
```
 /*+ Rows(a b #10) */ SELECT... ; # 设置连接结果的行数为10
 /*+ Rows(a b +10) */ SELECT... ; # 行数增加10
 /*+ Rows(a b -10) */ SELECT... ; # 行数减去10
 /*+ Rows(a b *10) */ SELECT... ; # 行数增大10倍
```
- 并行执行提示
  并行执行提示会指定并行的执行计划。
  并行级别提示对普通的表、继承表、无日志表和系统表有效。对外部表、常量从句、通用表达式、视图和子查询无效。视图的内部表可以通过其真实名称或别名指定目标对象。
  下面两个示例说明在每张表上执行查询的方式不同：
  - 方式一：指定表c1的并行度为3，表c2的并行度为5。
```
EXPLAIN /*+ Parallel(c1 3 hard) Parallel(c2 5 hard) */
       SELECT c2.a FROM c1 JOIN c2 ON (c1.a = c2.a);
```
    返回结果如下：
```
                                  QUERY PLAN
-------------------------------------------------------------------------------
 Hash Join  (cost=2.86..11406.38 rows=101 width=4)
   Hash Cond: (c1.a = c2.a)
   ->  Gather  (cost=0.00..7652.13 rows=1000101 width=4)
         Workers Planned: 3
         ->  Parallel Seq Scan on c1  (cost=0.00..7652.13 rows=322613 width=4)
   ->  Hash  (cost=1.59..1.59 rows=101 width=4)
         ->  Gather  (cost=0.00..1.59 rows=101 width=4)
               Workers Planned: 5
               ->  Parallel Seq Scan on c2  (cost=0.00..1.59 rows=59 width=4)
                                        
```
  - 方式二：指定表t1的并行度为5。
```
EXPLAIN /*+ Parallel(tl 5 hard) */ SELECT sum(a) FROM tl;
```
    返回结果如下：
```
                                    QUERY PLAN
-----------------------------------------------------------------------------------
 Finalize Aggregate  (cost=693.02..693.03 rows=1 width=8)
   ->  Gather  (cost=693.00..693.01 rows=5 width=8)
         Workers Planned: 5
         ->  Partial Aggregate  (cost=693.00..693.01 rows=1 width=8)
               ->  Parallel Seq Scan on tl  (cost=0.00..643.00 rows=20000 width=4)
```
- GUC参数设置提示
  在执行查询的过程中改变GUC参数的值。此值仅在执行器生成查询计划期间有效，并且不会对其它语句产生影响。如果对同一个GUC参数进行多次设置，则以最后一个为准。
  示例命令如下：
```
 /*+ Set(random_page_cost 2.0) */
 SELECT * FROM table1 t1 WHERE key = 'value';
```

提示格式列表

所有提示支持的格式如下所示。在注释中增加以下格式的字段，可以使用相应的功能。其中[]表示可选参数。

类型	格式	说明
扫描方法提示（Scan method）	SeqScan(table)	强制对名为table的表使用Sequence Scan。
	TidScan(table)	强制对名为table的表使用TID Scan。
	IndexScan(table[ index...])	强制对名为table的表使用Index Scan，如果在后面增加index名称，则可以指定需要使用的索引。
	IndexOnlyScan(table[ index...])	强制对名为table的表使用Index Only Scan，如果在后面增加index名称，则可以指定需要使用的索引。
	BitmapScan(table[ index...])	强制对名为table的表使用Bitmap Index Scan，如果在后面增加index名称，则可以指定需要使用的索引。
	NoSeqScan(table)	禁止对名为table的表使用Seqence Scan。
	NoTidScan(table)	禁止对名为table的表使用Tid Scan。
	NoIndexScan(table)	禁止对名为table的表使用Index Scan。
	NoIndexOnlyScan(table)	禁止对名为table的表使用Index Only Scan。
	NoBitmapScan(table)	禁止对名为table的表强制使用Bitmap Index Scan。
连接方法提示（Join method）	NestLoop(table table[ table...])	对包含指定表名的表之间的Join连接操作，强制使用Nest Loop Join进行连接操作。
	HashJoin(table table[ table...])	对包含指定表名的表之间的Join连接操作，强制使用Hash Join进行连接操作。
	MergeJoin(table table[ table...])	对包含指定表名的表之间的Join连接操作，强制使用Merge Join进行连接操作。
	NoNestLoop(table table[ table...])	对包含指定表名的表之间的Join连接操作，禁止使用Nest Loop Join进行连接操作。
	NoHashJoin(table table[ table...])	对包含指定表名的表之间的Join连接操作，禁止使用Hash Join进行连接操作。
	NoMergeJoin(table table[ table...])	对包含指定表名的表之间的Join连接操作，禁止使用Merge Join进行连接操作。
连接顺序提示（Join order）	Leading(table table[ table...])	指定表之间进行Join连接的顺序。
连接顺序提示（Join order）	Leading(<join pair>)	指定两个表之间进行Join的先后顺序。
行数校正提示（Row number correction）	Rows(table table[ table...] correction)	校正由指定表组成的联结结果的行数。可用的校正方法包括绝对值（＃<n>）、加法（+ <n>）、减法（-<n>）和乘法（* <n>），其中<n>表示需要指定的行的数量。
并行执行提示（Parallel query configuration）	Parallel(table <# of workers> [soft\|hard])	强制或禁止并行执行针对指定表的扫描。说明 <# of workers>是所需的并行度（并行执行的程序数量），其中0表示禁止并行执行。如果第三个参数是soft（默认），表示仅修改max_parallel_workers_per_gather参数的值，由优化器决定实际的并行度。 hard表示强制使用其指定的并行度。
	PX(<# of workers>)	表示跨机并行查询时进行并行查询。说明 <# of workers>表示并行度。
	NoPX()	表示针对此查询强制不使用跨机并行查询功能。
GUC参数配置提示	Set(GUC-param value)	优化器运行时，将GUC参数设置为该值。

说明

pg_hint_plan也可以指定跨机并行查询生成的查询计划。目前在跨机并行查询场景下，不支持行数校正提示，连接方法提示仅能作用于两表之间的连接，连接顺序提示仅能指定全部表之间的先后顺序。