查看增强监控

更新时间:2025-03-21 09:47:00

RDS PostgreSQL提供了丰富的性能监控项,包括操作系统指标和数据库指标,您可以通过RDS管理控制台查看这些监控数据。

操作步骤

  1. 访问RDS实例列表,在上方选择地域,然后单击目标实例ID。

  2. 在左侧导航栏单击监控与报警

  3. 选择增强监控页签,单击指标管理,分别在操作系统指标页签和数据库指标页签中选择需要显示的指标项,各指标项详情,请参见参考信息

    说明
    • 增强监控页面中最多能显示30个指标。

    • 您可以将已选择显示的指标项方案应用到当前地域的所有RDS PostgreSQL实例:

      • 如果当前为云盘版实例,将会应用到已存在以及以后创建的RDS PostgreSQL云盘实例。

      • 如果当前为本地盘实例,将会应用到已存在以及以后创建的RDS PostgreSQL本地盘实例。

  4. 单击更新指标后,在增强监控页即可看到对应的指标项监控数据。

    增强监控对支持做了聚合,其中:

    • 指标名称.avg:代表该指标的平均值。

    • 指标名称.max:代表该指标的最大值。

    • 指标名称.min:代表该指标的最小值。

  5. 增强监控页面还提供了多种查询设置,使您更方便地查看相应的监控数据。更多功能

    序号

    功能

    说明

    序号

    功能

    说明

    查询时间范围

    支持按照预设的时间范围和自定义时间范围查询。

    • 预设时间范围支持:30分钟、1小时、2小时、6小时、1天、7天和30天。

    • 自定义时间范围:开始时间(YYYY-MM-DD hh:mm:ss) - 结束时间(YYYY-MM-DD hh:mm:ss)

    聚合方式

    支持按照如下聚合方式显示指标结果。

    • 求平均

    • 求最大

    • 求最小

    布局

    支持按如下分布调整显示结果的布局。

    • 一列

    • 二列

    • 三列

    • 四列

    时间粒度

    表示显示图表中横坐标的时间粒度。

    时间粒度与查询时间相关联,对应关系如下:

    • 查询时间范围小于等于1小时,时间粒度为5

    • 查询时间范围大于1小时且小于等于2小时,时间粒度为10

    • 查询时间范围大于2小时且小于等于6小时,时间粒度为30

    • 查询时间范围大于6小时且小于等于12小时,时间粒度为1分钟

    • 查询时间范围大于12小时且小于等于1天, 时间粒度为2分钟

    • 查询时间范围大于1天且小于等于5天, 时间粒度为10分钟

    • 查询时间范围大于5天且小于等于15天,时间粒度为30分钟

    • 查询时间范围大于15天且小于等于30天,时间粒度为1小时

    光标联动

    支持打开光标联动开关,当光标悬浮在图表的某一时间点时,其他图表联动显示对应时间点的指标数据。

    刷新

    支持通过手动刷新来更新图表数据。

参考信息

操作系统指标和数据库指标的详细信息如下。

操作系统指标

指标分类

指标名称

指标含义

指标单位

本地盘实例

云盘版实例

网络流量

os.network.rx

网络输入流量

MB/s

✔️

os.network.tx

网络输出流量

MB/s

✔️

CPU使用率

os.cpu_usage.sys

sys cpu使用率,sys cpu使用量 / cpu总量

%

✔️

✔️

os.cpu_usage.user

user cpu使用率,user cpu使用量 / cpu总量

%

✔️

✔️

os.cpu_usage.total

cpu使用率,(sys + user) cpu使用量 / cpu总量

%

✔️

✔️

CPU按照进程堆叠

os.cpu_process.backend

backend cpu使用量(1cpu=100%,2cpu=200%,以次类推)

%

✔️

✔️

os.cpu_process.bgwriter

bgwriter cpu使用量(1cpu=100%,2cpu=200%,以次类推)

%

✔️

✔️

os.cpu_process.checkpoint

checkpoint cpu使用量(1cpu=100%,2cpu=200%,以次类推)

%

✔️

✔️

os.cpu_process.logger

logger cpu使用量(1cpu=100%,2cpu=200%,以次类推)

%

✔️

✔️

os.cpu_process.pgstat

pgstat cpu使用量(1cpu=100%,2cpu=200%,以次类推)

%

✔️

✔️

os.cpu_process.walwriter

walwriter cpu使用量(1cpu=100%,2cpu=200%,以次类推)

%

✔️

✔️

os.cpu_process.autovacuum

autovacuum cpu使用量(1cpu=100%,2cpu=200%,以次类推)

%

✔️

✔️

os.cpu_process.walsender

walsender cpu使用量(1cpu=100%,2cpu=200%,以次类推)

%

✔️

✔️

os.cpu_process.postmaster

postmaster cpu使用量(1cpu=100%,2cpu=200%,以次类推)

%

✔️

✔️

内存详情

os.mem_size.spec

规格内存大小

MB

✔️

✔️

os.mem_size.used

内存使用量

MB

✔️

✔️

os.mem_size.cache

page cache内存使用量

MB

✔️

✔️

os.mem_size.mapped_file

共享内存使用量

MB

✔️

✔️

os.mem_size.rss

rss内存使用量

MB

✔️

✔️

os.mem_size.hugetlb_usage_2m

2M大页使用量(MB)

MB

✔️

✔️

内存按照进程堆叠

os.mem_process.backend

后台进程内存使用量

MB

✔️

✔️

os.mem_process.bgwriter

bgwriter进程内存使用量

MB

✔️

✔️

os.mem_process.checkpoint

checkpoint进程内存使用量

MB

✔️

✔️

os.mem_process.logger

logger进程内存使用量

MB

✔️

✔️

os.mem_process.pgstat

pgstat进程内存使用量

MB

✔️

✔️

os.mem_process.walwriter

walwriter进程内存使用量

MB

✔️

✔️

os.mem_process.autovacuum

autovacuum进程内存使用量

MB

✔️

✔️

os.mem_process.walsender

walsender进程内存使用量

MB

✔️

✔️

os.mem_process.postmaster

postmaster进程内存使用量

MB

✔️

✔️

内存使用率

os.mem_usage.total

内存使用率

%

✔️

✔️

IOPS

os.iops.total

磁盘读写IOPS

Counts/s

✔️

os.iops.read

磁盘读IOPS

Counts/s

✔️

os.iops.write

磁盘写IOPS

Counts/s

✔️

os.iops.limit

磁盘IOPS基准限制

Counts/s

✔️

os.iops.burst_limit

磁盘IOPS突发限制

说明

已启用IO突发的通用云盘指标。

Counts/s

✔️

os.iops.data

本地数据盘IOPS

Counts/s

✔️

os.iops.wal

本地日志盘IOPS

Counts/s

✔️

IO吞吐

os.iothroughput.total

磁盘读写吞吐量

MB/s

✔️

os.iothroughput.read

磁盘读吞吐量

MB/s

✔️

os.iothroughput.write

磁盘写吞吐量

MB/s

✔️

os.iothroughput.limit

磁盘IO带宽基准限制

MB/s

✔️

os.iothroughput.burst_limit

磁盘IO带宽突发限制

说明

已启用IO突发的通用云盘指标。

MB/s

✔️

os.iothroughput.data

本地数据盘吞吐

MB/s

✔️

os.iothroughput.wal

本地日志盘吞吐

MB/s

✔️

IO使用率

os.io_usage.iops_usage

IOPS使用率

%

✔️

os.io_usage.iops_burst_ratio

IOPS突发倍率

%

✔️

os.io_usage.mbps_usage

IO带宽使用率

%

✔️

os.io_usage.mbps_burst_ratio

IO带宽突发倍率

%

✔️

磁盘使用率

os.fs_usage.total

磁盘使用率

%

✔️

磁盘空间

os.fs_size.used

磁盘已用空间

MB

✔️

os.fs_size.total

磁盘总空间

MB

✔️

os.fs_size.log_dir

日志文件大小(包含审计日志、错误日志、慢SQL日志)

MB

✔️

✔️

os.fs_size.wal_dir

wal文件大小

MB

✔️

✔️

os.fs_size.base_dir

数据文件大小(不包含日志和wal)

MB

✔️

✔️

数据库指标

说明

下表中监控指标的更多解释,请参见PostgreSQL官方文档

指标分类

指标名称

指标含义

指标单位

本地盘实例

云盘版实例

连接

db.connections.active

活跃连接数

Counts

✔️

✔️

db.connections.waiting

等待连接数

Counts

✔️

✔️

db.connections.idle

空闲连接数

Counts

✔️

✔️

db.connections.total

连接数

Counts

✔️

✔️

db.connections.spec

规格连接数

Counts

✔️

✔️

SQL

db.sql.tup_returned

每秒返回行数

Tuples/s

✔️

✔️

db.sql.tup_fetched

每秒读取行数

Tuples/s

✔️

✔️

db.sql.tup_inserted

每秒插入行数

Tuples/s

✔️

✔️

db.sql.tup_deleted

每秒删除行数

Tuples/s

✔️

✔️

db.sql.tup_updated

每秒更新行数

Tuples/s

✔️

✔️

SQL

db.slow_sql.one_second

已执行1sSQL

Counts

✔️

✔️

db.slow_sql.three_seconds

已执行3sSQL

Counts

✔️

✔️

db.slow_sql.five_seconds

已执行5sSQL

Counts

✔️

✔️

长事务

db.long_transactions.active_one_second

已执行1s的事务数

Counts

✔️

✔️

db.long_transactions.active_three_seconds

已执行3s的事务数

Counts

✔️

✔️

db.long_transactions.idle_one_second

已空闲1s的事务数

Counts

✔️

✔️

db.long_transactions.idle_three_seconds

已空闲3s的事务数

Counts

✔️

✔️

db.long_transactions.idle_five_seconds

已空闲5s的事务数

Counts

✔️

✔️

db.long_transactions.two_pc_one_second

已执行1s的两阶段事务

Counts

✔️

✔️

db.long_transactions.two_pc_three_seconds

已执行3s的两阶段事务

Counts

✔️

✔️

db.long_transactions.two_pc_five_seconds

已执行5s的两阶段事务

Counts

✔️

✔️

临时文件数

db.temp.temp_files

每秒临时文件生成个数

Counts/s

✔️

✔️

临时文件大小

db.temp.temp_bytes

每秒临时文件数据生成大小

Bytes/s

✔️

✔️

数据库最大年龄

db.age.max_age.

数据库最大年龄

xids

✔️

✔️

只读同步延迟

db.ro_replica.replay_lag

只读实例replay延迟时间

s

✔️

✔️

db.ro_replica.write_lag

只读实例write延迟时间

s

✔️

✔️

db.ro_replica.flush_lag

只读实例flush延迟时间

s

✔️

✔️

数据库内存分布

db.mem_size.spec

规格内存大小

MB

✔️

✔️

db.mem_size.shared_buffer

shared_buffer内存使用量

说明

第一级数据缓存,增长到最高25%内存后保持不变。

MB

✔️

✔️

db.mem_size.rss

rss内存使用量

说明

表示PostgreSQL进程的malloc内存,与连接数量、运行的SQL相关,与db.mem_size.cache弹性共享75%内存,通常在10%左右。

  • 当使用量超过75%,PostgreSQL服务就会OOM。

  • 当使用量增大时,db.mem_size.cache会相应减小。

MB

✔️

✔️

db.mem_size.free

空闲内存

说明

完全空闲的内存,将会慢慢趋近于0,PostgreSQL会尽可能将空闲内存用于db.mem_size.cache,使实例内存利用率达到100%。

MB

✔️

✔️

db.mem_size.cache

page cache内存使用量

说明

第二级数据缓存,与db.mem_size.rss弹性共享75%内存,通常在65%左右。

  • 该内存可以被回收,以避免OOM。

  • 为了提升内存利用率,db.mem_size.cache将会充分使用db.mem_size.free的内存

MB

✔️

✔️

数据库可用内存

db.mem_available.size

数据库可用内存

说明

可用内存=空闲内存+可快速回收的cache内存,当db.mem_size.rss持续增加时,将会使用此部分内存以防止OOM。

MB

✔️

✔️

数据库可用内存率

db.mem_available.ratio

数据库可用内存率

说明

%

✔️

✔️

SharedBuffers命中率

db.buffers.hit_ratio

shared_buffers命中率

%

✔️

✔️

SharedBuffers命中次数

db.buffers.blks_hit

shared_buffers每秒命中数

Blocks/s

✔️

✔️

IO

db.io.blks_read

backend进程每秒磁盘read次数(OS buffered read)

Counts/s

✔️

✔️

db.io.buffers_backend

backend进程每秒磁盘write次数(OS buffered write)

Counts/s

✔️

✔️

db.io.buffers_checkpoint

checkpoint进程每秒磁盘write次数(OS buffered write)

Counts/s

✔️

✔️

db.io.buffers_clean

bgwriter进程每秒磁盘write次数(OS buffered write)

Counts/s

✔️

✔️

db.io.buffers_backend_fsync

backend进程每秒执行磁盘fsync的次数

Counts/s

✔️

✔️

Checkpoint次数

db.checkpoint.checkpoints_timed

每秒内核调度的checkpoints数量

Counts/s

✔️

✔️

db.checkpoint.checkpoints_req

每秒外部请求的checkpoints数量

Counts/s

✔️

✔️

事务TPS

db.transactions.xact_commit

每秒写事务提交数

Counts/s

✔️

✔️

db.transactions.xact_rollback

每秒写事务回滚数

Counts/s

✔️

✔️

事务状态

db.transactions.active

活跃状态事务数

Counts

✔️

✔️

db.transactions.waiting

等待状态事务数

Counts

✔️

✔️

db.transactions.idle

idle-in-transaction状态事务数(注意:不合理状态,需要尽快处理)

Counts

✔️

✔️

膨胀点

db.swell.swell_time

膨胀点,最长事务已执行时间

s

✔️

✔️

ReplicationSlot延迟

db.slots.max_slot_wal_delay

最大ReplicationSlot wal复制延迟(注意:复制位点之后的wal需要被保留,该值较大时会导致wal堆积,需要尽快处理)

MB

✔️

✔️

Checkpoint写时间

db.checkpoint.checkpoints_sync_time

checkpoint进程平均每秒磁盘fsync时间

ms/s

✔️

✔️

db.checkpoint.checkpoints_write_time

checkpoint进程平均每秒磁盘write时间(OS buffered write)

ms/s

✔️

✔️

PgBouncer连接

db.pgbouncer.client_connections.active

客户端活跃连接数

说明

只有开启连接池功能后,才可以在增强监控中查看连接池的相关监控指标。

Counts

✔️

db.pgbouncer.client_connections.waiting

客户端等待连接数

Counts

✔️

db.pgbouncer.server_connections.active

服务端活跃连接数

Counts

✔️

db.pgbouncer.server_connections.idle

服务端空闲连接数

Counts

✔️

db.pgbouncer.total_pooled_connections

连接池总连接数

Counts

✔️

db.pgbouncer.num_pools

连接池数量

Counts

✔️

相关API

API

描述

API

描述

DescribeDBInstancePerformance

查询性能数据

DescribeAvailableMetrics

获取增强监控指标列表

ModifyDBInstanceMetrics

变更增强监控指标项

DescribeDBInstanceMetrics

查询实例已开启的增强指标

  • 本页导读 (1)
  • 操作步骤
  • 参考信息
  • 相关API
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等