RDS PostgreSQL增强监控_云数据库 RDS(RDS)-阿里云帮助中心

RDS PostgreSQL提供了丰富的性能监控项，包括操作系统指标和数据库指标，您可以通过RDS管理控制台查看这些监控数据。

操作步骤

访问RDS实例列表，在上方选择地域，然后单击目标实例ID。
在左侧导航栏单击监控与报警。
选择增强监控页签，单击指标管理，分别在操作系统指标页签和数据库指标页签中选择需要显示的指标项，各指标项详情，请参见参考信息。
说明
- 增强监控页面中最多能显示30个指标。
- 您可以将已选择显示的指标项方案应用到当前地域的所有RDS PostgreSQL实例：
  - 如果当前为云盘版实例，将会应用到已存在以及以后创建的RDS PostgreSQL云盘实例。
  - 如果当前为高性能本地盘实例，将会应用到已存在以及以后创建的RDS PostgreSQL高性能本地盘实例。
单击更新指标后，在增强监控页即可看到对应的指标项监控数据。
增强监控对支持做了聚合，其中：
- 指标名称.avg：代表该指标的平均值。
- 指标名称.max：代表该指标的最大值。
- 指标名称.min：代表该指标的最小值。

增强监控页面还提供了多种查询设置，使您更方便地查看相应的监控数据。更多功能

序号	功能	说明

序号	功能	说明
①	查询时间范围	支持按照预设的时间范围和自定义时间范围查询。预设时间范围支持：30分钟、1小时、2小时、6小时、1天、7天和30天。自定义时间范围：开始时间（YYYY-MM-DD hh:mm:ss） - 结束时间（YYYY-MM-DD hh:mm:ss）
②	聚合方式	支持按照如下聚合方式显示指标结果。求平均求最大求最小
③	布局	支持按如下分布调整显示结果的布局。一列二列三列四列
④	时间粒度	表示显示图表中横坐标的时间粒度。时间粒度与查询时间相关联，对应关系如下：查询时间范围小于等于1小时，时间粒度为5秒查询时间范围大于1小时且小于等于2小时，时间粒度为10秒查询时间范围大于2小时且小于等于6小时，时间粒度为30秒查询时间范围大于6小时且小于等于12小时，时间粒度为1分钟查询时间范围大于12小时且小于等于1天，时间粒度为2分钟查询时间范围大于1天且小于等于5天，时间粒度为10分钟查询时间范围大于5天且小于等于15天，时间粒度为30分钟查询时间范围大于15天且小于等于30天，时间粒度为1小时
⑤	光标联动	支持打开光标联动开关，当光标悬浮在图表的某一时间点时，其他图表联动显示对应时间点的指标数据。
⑥	刷新	支持通过手动刷新来更新图表数据。

参考信息

操作系统指标和数据库指标的详细信息如下。

操作系统指标

指标分类	指标名称	指标含义	指标单位	高性能本地盘实例	云盘版实例
网络流量	os.network.rx	网络输入流量	MB/s	❌	✔️
网络流量	os.network.tx	网络输出流量	MB/s	❌	✔️
CPU使用率	os.cpu_usage.sys	sys cpu使用率，sys cpu使用量 / cpu总量	%	✔️	✔️
	os.cpu_usage.user	user cpu使用率，user cpu使用量 / cpu总量	%	✔️	✔️
	os.cpu_usage.total	cpu使用率，(sys + user) cpu使用量 / cpu总量	%	✔️	✔️
CPU按照进程堆叠	os.cpu_process.backend	backend cpu使用量（1cpu=100%，2cpu=200%，以次类推）	%	✔️	✔️
	os.cpu_process.bgwriter	bgwriter cpu使用量（1cpu=100%，2cpu=200%，以次类推）	%	✔️	✔️
	os.cpu_process.checkpoint	checkpoint cpu使用量（1cpu=100%，2cpu=200%，以次类推）	%	✔️	✔️
	os.cpu_process.logger	logger cpu使用量（1cpu=100%，2cpu=200%，以次类推）	%	✔️	✔️
	os.cpu_process.pgstat	pgstat cpu使用量（1cpu=100%，2cpu=200%，以次类推）	%	✔️	✔️
	os.cpu_process.walwriter	walwriter cpu使用量（1cpu=100%，2cpu=200%，以次类推）	%	✔️	✔️
	os.cpu_process.autovacuum	autovacuum cpu使用量（1cpu=100%，2cpu=200%，以次类推）	%	✔️	✔️
	os.cpu_process.walsender	walsender cpu使用量（1cpu=100%，2cpu=200%，以次类推）	%	✔️	✔️
	os.cpu_process.postmaster	postmaster cpu使用量（1cpu=100%，2cpu=200%，以次类推）	%	✔️	✔️
内存详情	os.mem_size.spec	规格内存大小	MB	✔️	✔️
	os.mem_size.used	内存使用量	MB	✔️	✔️
	os.mem_size.cache	page cache内存使用量	MB	✔️	✔️
	os.mem_size.mapped_file	共享内存使用量	MB	✔️	✔️
	os.mem_size.rss	rss内存使用量	MB	✔️	✔️
	os.mem_size.hugetlb_usage_2m	2M大页使用量(MB)	MB	✔️	✔️
内存按照进程堆叠	os.mem_process.backend	后台进程内存使用量	MB	✔️	✔️
	os.mem_process.bgwriter	bgwriter进程内存使用量	MB	✔️	✔️
	os.mem_process.checkpoint	checkpoint进程内存使用量	MB	✔️	✔️
	os.mem_process.logger	logger进程内存使用量	MB	✔️	✔️
	os.mem_process.pgstat	pgstat进程内存使用量	MB	✔️	✔️
	os.mem_process.walwriter	walwriter进程内存使用量	MB	✔️	✔️
	os.mem_process.autovacuum	autovacuum进程内存使用量	MB	✔️	✔️
	os.mem_process.walsender	walsender进程内存使用量	MB	✔️	✔️
	os.mem_process.postmaster	postmaster进程内存使用量	MB	✔️	✔️
内存使用率	os.mem_usage.total	内存使用率	%	✔️	✔️
IOPS	os.iops.total	磁盘读写IOPS	Counts/s	❌	✔️
	os.iops.read	磁盘读IOPS	Counts/s	❌	✔️
	os.iops.write	磁盘写IOPS	Counts/s	❌	✔️
	os.iops.limit	磁盘IOPS基准限制	Counts/s	❌	✔️
	os.iops.burst_limit	磁盘IOPS突发限制说明已启用IO性能突发的高性能云盘指标。	Counts/s	❌	✔️
	os.iops.data	高性能本地数据盘IOPS	Counts/s	✔️	❌
	os.iops.wal	高性能本地日志盘IOPS	Counts/s	✔️	❌
IO吞吐	os.iothroughput.total	磁盘读写吞吐量	MB/s	❌	✔️
	os.iothroughput.read	磁盘读吞吐量	MB/s	❌	✔️
	os.iothroughput.write	磁盘写吞吐量	MB/s	❌	✔️
	os.iothroughput.limit	磁盘IO带宽基准限制	MB/s	❌	✔️
	os.iothroughput.burst_limit	磁盘IO带宽突发限制说明已启用IO性能突发的高性能云盘指标。	MB/s	❌	✔️
	os.iothroughput.data	高性能本地数据盘吞吐	MB/s	✔️	❌
	os.iothroughput.wal	高性能本地日志盘吞吐	MB/s	✔️	❌
IO使用率	os.io_usage.iops_usage	IOPS使用率	%	❌	✔️
	os.io_usage.iops_burst_ratio	IOPS突发倍率	%	❌	✔️
	os.io_usage.mbps_usage	IO带宽使用率	%	❌	✔️
	os.io_usage.mbps_burst_ratio	IO带宽突发倍率	%	❌	✔️
磁盘使用率	os.fs_usage.total	磁盘使用率	%	❌	✔️
磁盘空间	os.fs_size.used	磁盘已用空间	MB	❌	✔️
	os.fs_size.total	磁盘总空间	MB	❌	✔️
	os.fs_size.log_dir	日志文件大小（包含审计日志、错误日志、慢SQL日志）	MB	✔️	✔️
	os.fs_size.wal_dir	wal文件大小	MB	✔️	✔️
	os.fs_size.base_dir	数据文件大小（不包含日志和wal）	MB	✔️	✔️

数据库指标

说明

下表中监控指标的更多解释，请参见PostgreSQL官方文档。

指标分类	指标名称	指标含义	指标单位	高性能本地盘实例	云盘版实例
连接	db.connections.active	活跃连接数	Counts	✔️	✔️
	db.connections.waiting	等待连接数	Counts	✔️	✔️
	db.connections.idle	空闲连接数	Counts	✔️	✔️
	db.connections.total	连接数	Counts	✔️	✔️
	db.connections.spec	规格连接数	Counts	✔️	✔️
SQL	db.sql.tup_returned	每秒返回行数	Tuples/s	✔️	✔️
	db.sql.tup_fetched	每秒读取行数	Tuples/s	✔️	✔️
	db.sql.tup_inserted	每秒插入行数	Tuples/s	✔️	✔️
	db.sql.tup_deleted	每秒删除行数	Tuples/s	✔️	✔️
	db.sql.tup_updated	每秒更新行数	Tuples/s	✔️	✔️
慢SQL	db.slow_sql.one_second	已执行1s的SQL数	Counts	✔️	✔️
	db.slow_sql.three_seconds	已执行3s的SQL数	Counts	✔️	✔️
	db.slow_sql.five_seconds	已执行5s的SQL数	Counts	✔️	✔️
长事务	db.long_transactions.active_one_second	已执行1s的事务数	Counts	✔️	✔️
	db.long_transactions.active_three_seconds	已执行3s的事务数	Counts	✔️	✔️
	db.long_transactions.idle_one_second	已空闲1s的事务数	Counts	✔️	✔️
	db.long_transactions.idle_three_seconds	已空闲3s的事务数	Counts	✔️	✔️
	db.long_transactions.idle_five_seconds	已空闲5s的事务数	Counts	✔️	✔️
	db.long_transactions.two_pc_one_second	已执行1s的两阶段事务	Counts	✔️	✔️
	db.long_transactions.two_pc_three_seconds	已执行3s的两阶段事务	Counts	✔️	✔️
	db.long_transactions.two_pc_five_seconds	已执行5s的两阶段事务	Counts	✔️	✔️
临时文件数	db.temp.temp_files	每秒临时文件生成个数	Counts/s	✔️	✔️
临时文件大小	db.temp.temp_bytes	每秒临时文件数据生成大小	Bytes/s	✔️	✔️
数据库最大年龄	db.age.max_age.	数据库最大年龄	xids	✔️	✔️
只读同步延迟	db.ro_replica.replay_lag	只读实例replay延迟时间	s	✔️	✔️
	db.ro_replica.write_lag	只读实例write延迟时间	s	✔️	✔️
	db.ro_replica.flush_lag	只读实例flush延迟时间	s	✔️	✔️
数据库内存分布	db.mem_size.spec	规格内存大小	MB	✔️	✔️
	db.mem_size.shared_buffer	shared_buffer内存使用量说明第一级数据缓存，增长到最高25%内存后保持不变。	MB	✔️	✔️
	db.mem_size.rss	rss内存使用量说明表示PostgreSQL进程的malloc内存，与连接数量、运行的SQL相关，与`db.mem_size.cache`弹性共享75%内存，通常在10%左右。当使用量超过75%，PostgreSQL服务就会OOM。当使用量增大时，`db.mem_size.cache`会相应减小。	MB	✔️	✔️
	db.mem_size.free	空闲内存说明完全空闲的内存，将会慢慢趋近于0，PostgreSQL会尽可能将空闲内存用于db.mem_size.cache，使实例内存利用率达到100%。	MB	✔️	✔️
	db.mem_size.cache	page cache内存使用量说明第二级数据缓存，与`db.mem_size.rss`弹性共享75%内存，通常在65%左右。该内存可以被回收，以避免OOM。为了提升内存利用率，`db.mem_size.cache`将会充分使用`db.mem_size.free`的内存	MB	✔️	✔️
数据库可用内存	db.mem_available.size	数据库可用内存说明 `可用内存=空闲内存+可快速回收的cache内存`，当`db.mem_size.rss`持续增加时，将会使用此部分内存以防止OOM。	MB	✔️	✔️
数据库可用内存率	db.mem_available.ratio	数据库可用内存率说明 db.mem_available.size占比，与云监控报警功能中“内存使用率”互补，两者之和等于1。当小于20%时，需要开始干预：通过减少idle connection数量、优化SQL或者增大内存规格等增加available memory占比。内存使用率的计算方式，请参见【产品/功能变更】RDS PostgreSQL云盘版实例的内存利用率监控项优化。	%	✔️	✔️
SharedBuffers命中率	db.buffers.hit_ratio	shared_buffers命中率	%	✔️	✔️
SharedBuffers命中次数	db.buffers.blks_hit	shared_buffers每秒命中数	Blocks/s	✔️	✔️
IO	db.io.blks_read	backend进程每秒磁盘read次数（OS buffered read）	Counts/s	✔️	✔️
	db.io.buffers_backend	backend进程每秒磁盘write次数（OS buffered write）	Counts/s	✔️	✔️
	db.io.buffers_checkpoint	checkpoint进程每秒磁盘write次数（OS buffered write）	Counts/s	✔️	✔️
	db.io.buffers_clean	bgwriter进程每秒磁盘write次数（OS buffered write）	Counts/s	✔️	✔️
	db.io.buffers_backend_fsync	backend进程每秒执行磁盘fsync的次数	Counts/s	✔️	✔️
Checkpoint次数	db.checkpoint.checkpoints_timed	每秒内核调度的checkpoints数量	Counts/s	✔️	✔️
Checkpoint次数	db.checkpoint.checkpoints_req	每秒外部请求的checkpoints数量	Counts/s	✔️	✔️
事务TPS	db.transactions.xact_commit	每秒写事务提交数	Counts/s	✔️	✔️
事务TPS	db.transactions.xact_rollback	每秒写事务回滚数	Counts/s	✔️	✔️
事务状态	db.transactions.active	活跃状态事务数	Counts	✔️	✔️
	db.transactions.waiting	等待状态事务数	Counts	✔️	✔️
	db.transactions.idle	idle-in-transaction状态事务数（注意：不合理状态，需要尽快处理）	Counts	✔️	✔️
膨胀点	db.swell.swell_time	膨胀点，最长事务已执行时间	s	✔️	✔️
ReplicationSlot延迟	db.slots.max_slot_wal_delay	最大ReplicationSlot wal复制延迟（注意：复制位点之后的wal需要被保留，该值较大时会导致wal堆积，需要尽快处理）	MB	✔️	✔️
Checkpoint写时间	db.checkpoint.checkpoints_sync_time	checkpoint进程平均每秒磁盘fsync时间	ms/s	✔️	✔️
Checkpoint写时间	db.checkpoint.checkpoints_write_time	checkpoint进程平均每秒磁盘write时间（OS buffered write）	ms/s	✔️	✔️
PgBouncer连接	db.pgbouncer.client_connections.active	客户端活跃连接数说明只有开启连接池功能后，才可以在增强监控中查看连接池的相关监控指标。	Counts	❌	✔️
	db.pgbouncer.client_connections.waiting	客户端等待连接数	Counts	❌	✔️
	db.pgbouncer.server_connections.active	服务端活跃连接数	Counts	❌	✔️
	db.pgbouncer.server_connections.idle	服务端空闲连接数	Counts	❌	✔️
	db.pgbouncer.total_pooled_connections	连接池总连接数	Counts	❌	✔️
	db.pgbouncer.num_pools	连接池数量	Counts	❌	✔️

API	描述
DescribeDBInstancePerformance	查询性能数据
DescribeAvailableMetrics	获取增强监控指标列表
ModifyDBInstanceMetrics	变更增强监控指标项
DescribeDBInstanceMetrics	查询实例已开启的增强指标

查看增强监控

操作步骤

参考信息

相关API