pg_hint_plan插件通过特殊的注释语句提示来调整既定的执行计划。
背景信息
PostgreSQL使用基于代价的优化器,优化路线使用统计数据而非固定的规则。对于一条SQL语句,优化器会去评估所有可能的代价并最终选择代价最低的去执行。优化器会尽力选择最好的执行计划,但由于其并不了解数据中可能存在的一些内在连接关系,导致这些执行计划可能并不完美。
通过指定GUC变量,可以调整执行计划,但会影响整个会话。而pg_hint_plan只调整单个执行计划,不影响整个会话,可以优化执行计划。
注意事项
- DMS暂时不支持提示注释,请使用其他连接方式连接数据库。
- pg_hint_plan插件只识别第一个注释块中的内容。
- 当进行扫描时,如果遇到了除字母、数字、空格、下划线、逗号、圆括号以外的字符时会立即停止扫描。
- pg_hint_plan插件对于对象的处理与PostgreSQL并不一致,只会按照对象的对象名进行比较。例如,一个名为TBL的对象在提示语句中只会匹配TBL,而不会匹配tbl或Tbl。
使用限制
- 提示只对以下类型的语句生效:
- 返回一行的查询(SELECT、INSERT、UPDATE、DELETE)。
- 返回多行的查询(RETURN QUERY)。
- 执行SQL语句(EXECUTE QUERY)。
- 打开游标(OPEN)。
- 对查询结果的遍历(FOR)。
- 一个提示语句必须被放置于每个查询的第一个单词之后,因为过早的提示语句无法被认为是该查询的一部分。
创建插件
- 创建插件。
CREATE EXTENSION pg_hint_plan;
- 加载插件。
- 单个用户自动加载。
- 执行以下命令,加载插件。
ALTER USER xxx set session_preload_libraries='pg_hint_plan';
说明 其中,xxx需要更改为实际登录的用户名。 - 执行以下命令,对单独数据库自动加载。
ALTER DATABASE xxx set session_preload_libraries='pg_hint_plan';
说明 如果配置错误导致无法登录数据库,则需要以其它用户/数据库登录到PolarDB中,进行重置:ALTER USER xxx reset session_preload_libraries; ALTER DATABASE xxx reset session_preload_libraries;
- 执行以下命令,加载插件。
- 数据库集群自动加载。
请前往配额中心,在配额名称PolarDB PG pg_hint_plan使用的操作列,单击申请,申请添加pg_hint_plan插件。
- 查看是否已加载插件。
- 执行以下命令,将调试信息输出到客户端。
SET pg_hint_plan.debug_print TO on; SET pg_hint_plan.message_level TO notice;
- 执行以下命令,查看是否加载成功。
显示结果如下,表示加载成功。/*+Set(enable_seqscan 1)*/select 1;
NOTICE: pg_hint_plan: used hint: Set(enable_seqscan 1)
- 执行以下命令,关闭调试信息输出。
RESET pg_hint_plan.debug_print; RESET pg_hint_plan.message_level;
- 执行以下命令,将调试信息输出到客户端。
- 单个用户自动加载。
使用说明
- 注释提示
pg_hint_plan的注释以
/*+
开头,以*/
结束。提示语句包括提示名和参数(参数使用括号包裹,参数之间使用空格分隔)。为了增加可读性,每一个提示语句都可以重新换行。示例
HashJoin作为连接方法,并且使用序列扫描SeqScan来扫描表pgbench_accounts:
返回结果如下:/*+ HashJoin(a b) SeqScan(a) */ EXPLAIN SELECT * FROM pgbench_branches b JOIN pgbench_accounts a ON b.bid = a.bid ORDER BY a.aid;
QUERY PLAN --------------------------------------------------------------------------------------- Sort (cost=31465.84..31715.84 rows=100000 width=197) Sort Key: a.aid -> Hash Join (cost=1.02..4016.02 rows=100000 width=197) Hash Cond: (a.bid = b.bid) -> Seq Scan on pgbench_accounts a (cost=0.00..2640.00 rows=100000 width=97) -> Hash (cost=1.01..1.01 rows=1 width=100) -> Seq Scan on pgbench_branches b (cost=0.00..1.01 rows=1 width=100) (7 rows)
- 提示表虽然可以使用注释提示的方式对SQL语句进行提示,但是当SQL语句无法编辑时,该提示方式便不可用。对于这种情况,可以将这些提示放在一张特殊的表hint_plan.hints中。表结构如下所示:
以下是提示表的示例,用户在创建插件时,默认拥有提示表的权限。当提示表和注释中的单语句提示同时存在时,提示表的优先级高于注释中的单语句提示:字段 说明 id 提示ID号,唯一且自动填充。 norm_query_string 与要提示的查询匹配的模式。所有的常量可以被替换为 ?,并且空格在这个模式中是有意义的。 application_name 应用会话的名称,置空表示任何应用。 hints 提示语句,不需要注释标记。 INSERT INTO hint_plan.hints(norm_query_string, application_name, hints) VALUES ( 'EXPLAIN (COSTS false) SELECT * FROM t1 WHERE t1.id = ?;', '', 'SeqScan(t1)' ); INSERT 0 1 UPDATE hint_plan.hints SET hints = 'IndexScan(t1)' WHERE id = 1; UPDATE 1 DELETE FROM hint_plan.hints WHERE id = 1; DELETE 1
提示类型
- 提示类型
根据提示短语影响执行计划的方式,支持的提示类型包括扫描方法提示、连接方法提示、连接顺序提示、行数校正提示、并行执行提示和GUC参数设置提示。
- 扫描方法提示
扫描方法提示对目标表强制执行特定的扫描方法,pg_hint_plan通过表的别名(如果存在的话)来识别目标表。扫描方法可能是序列扫描、索引扫描等。
扫描提示对普通表、继承表、无日志表、临时表和系统表有效。对外部表、表函数、常量值语句、通用表达式、视图和子查询无效。
示例命令如下:/*+ SeqScan(t1) IndexScan(t2 t2_pkey) */ SELECT * FROM table1 t1 JOIN table table2 t2 ON (t1.key = t2.key);
- 连接方法提示
连接方法提示强制指定相关表聚合在一起的方法。对普通表、继承表、无日志表、临时表、外部表、系统表、表函数、常量值命令和通用表达式有效。对视图和子查询无效。
- 连接顺序提示连接顺序提示指定两张或多张表的连接顺序。包括两种强制指定方法:
- 强制执行特定的连接顺序,但不限制每个连接级别的方向。
- 强制连接方向。
示例命令如下:/*+ NestLoop(t1 t2) MergeJoin(t1 t2 t3) Leading(t1 t2 t3) */ SELECT * FROM table1 t1 JOIN table table2 t2 ON (t1.key = t2.key) JOIN table table3 t3 ON (t2.key = t3.key);
说明 其中- NestLoop(t1 t2):指定表t1和t2的连接方法。
- MergeJoin(t1 t2 t3):指定表t1、t2和t3之间的连接方法。
- Leading(t1 t2 t3):指定三张表的连接顺序。
- 行数校正提示
行数校正提示会校正由于查询优化器限制而导致的行数错误。
/*+ Rows(a b #10) */ SELECT... ; # 设置连接结果的行数为10 /*+ Rows(a b +10) */ SELECT... ; # 行数增加10 /*+ Rows(a b -10) */ SELECT... ; # 行数减去10 /*+ Rows(a b *10) */ SELECT... ; # 行数增大10倍
- 并行执行提示
并行执行提示会指定并行的执行计划。
并行级别提示对普通的表、继承表、无日志表和系统表有效。对外部表、常量从句、通用表达式、视图和子查询无效。视图的内部表可以通过其真实名称或别名指定目标对象。
下面两个示例说明在每张表上执行查询的方式不同:- 方式一:指定表c1的并行度为3,表c2的并行度为5。
返回结果如下:EXPLAIN /*+ Parallel(c1 3 hard) Parallel(c2 5 hard) */ SELECT c2.a FROM c1 JOIN c2 ON (c1.a = c2.a);
QUERY PLAN ------------------------------------------------------------------------------- Hash Join (cost=2.86..11406.38 rows=101 width=4) Hash Cond: (c1.a = c2.a) -> Gather (cost=0.00..7652.13 rows=1000101 width=4) Workers Planned: 3 -> Parallel Seq Scan on c1 (cost=0.00..7652.13 rows=322613 width=4) -> Hash (cost=1.59..1.59 rows=101 width=4) -> Gather (cost=0.00..1.59 rows=101 width=4) Workers Planned: 5 -> Parallel Seq Scan on c2 (cost=0.00..1.59 rows=59 width=4)
- 方式二:指定表t1的并行度为5。
返回结果如下:EXPLAIN /*+ Parallel(tl 5 hard) */ SELECT sum(a) FROM tl;
QUERY PLAN ----------------------------------------------------------------------------------- Finalize Aggregate (cost=693.02..693.03 rows=1 width=8) -> Gather (cost=693.00..693.01 rows=5 width=8) Workers Planned: 5 -> Partial Aggregate (cost=693.00..693.01 rows=1 width=8) -> Parallel Seq Scan on tl (cost=0.00..643.00 rows=20000 width=4)
- 方式一:指定表c1的并行度为3,表c2的并行度为5。
- GUC参数设置提示
在执行查询的过程中改变GUC参数的值。此值仅在执行器生成查询计划期间有效,并且不会对其它语句产生影响。如果对同一个GUC参数进行多次设置,则以最后一个为准。
示例命令如下:/*+ Set(random_page_cost 2.0) */ SELECT * FROM table1 t1 WHERE key = 'value';
- 扫描方法提示
- 提示格式列表所有提示支持的格式如下所示。在注释中增加以下格式的字段,可以使用相应的功能。其中[]表示可选参数。
类型 格式 说明 扫描方法提示(Scan method) SeqScan(table) 强制对名为table的表使用Sequence Scan。 TidScan(table) 强制对名为table的表使用TID Scan。 IndexScan(table[ index...]) 强制对名为table的表使用Index Scan,如果在后面增加index名称,则可以指定需要使用的索引。 IndexOnlyScan(table[ index...]) 强制对名为table的表使用Index Only Scan,如果在后面增加index名称,则可以指定需要使用的索引。 BitmapScan(table[ index...]) 强制对名为table的表使用Bitmap Index Scan,如果在后面增加index名称,则可以指定需要使用的索引。 NoSeqScan(table) 禁止对名为table的表使用Seqence Scan。 NoTidScan(table) 禁止对名为table的表使用Tid Scan。 NoIndexScan(table) 禁止对名为table的表使用Index Scan。 NoIndexOnlyScan(table) 禁止对名为table的表使用Index Only Scan。 NoBitmapScan(table) 禁止对名为table的表强制使用Bitmap Index Scan。 连接方法提示(Join method) NestLoop(table table[ table...]) 对包含指定表名的表之间的Join连接操作,强制使用Nest Loop Join进行连接操作。 HashJoin(table table[ table...]) 对包含指定表名的表之间的Join连接操作,强制使用Hash Join进行连接操作。 MergeJoin(table table[ table...]) 对包含指定表名的表之间的Join连接操作,强制使用Merge Join进行连接操作。 NoNestLoop(table table[ table...]) 对包含指定表名的表之间的Join连接操作,禁止使用Nest Loop Join进行连接操作。 NoHashJoin(table table[ table...]) 对包含指定表名的表之间的Join连接操作,禁止使用Hash Join进行连接操作。 NoMergeJoin(table table[ table...]) 对包含指定表名的表之间的Join连接操作,禁止使用Merge Join进行连接操作。 连接顺序提示(Join order) Leading(table table[ table...]) 指定表之间进行Join连接的顺序。 Leading(<join pair>) 指定两个表之间进行Join的先后顺序。 行数校正提示(Row number correction) Rows(table table[ table...] correction) 校正由指定表组成的联结结果的行数。 可用的校正方法包括绝对值(#<n>)、加法(+ <n>)、减法(-<n>)和乘法(* <n>), 其中<n>表示需要指定的行的数量。 并行执行提示(Parallel query configuration) Parallel(table <# of workers> [soft|hard]) 强制或禁止并行执行针对指定表的扫描。 说明- <# of workers>是所需的并行度(并行执行的程序数量),其中0表示禁止并行执行。
- 如果第三个参数是soft(默认),表示仅修改max_parallel_workers_per_gather参数的值,由优化器决定实际的并行度。
- hard表示强制使用其指定的并行度。
PX(<# of workers>) 表示跨机并行查询时进行并行查询。 说明 <# of workers>表示并行度。NoPX() 表示针对此查询强制不使用跨机并行查询功能。 GUC参数配置提示 Set(GUC-param value) 优化器运行时,将GUC参数设置为该值。 说明 pg_hint_plan也可以指定跨机并行查询生成的查询计划。目前在跨机并行查询场景下,不支持行数校正提示,连接方法提示仅能作用于两表之间的连接,连接顺序提示仅能指定全部表之间的先后顺序。