本文旨在介绍如何使用一键报警功能一键开启关键监控项报警的服务。

背景信息

一键报警功能为您提供一键开启关键监控项报警的服务,旨在解决刚刚接触云服务的开发、运维人员,面对种类繁多的云产品和监控项时,无法快速建立起基本的云上监控报警体系,导致重要指标异常无法快速知晓的问题。

使用一键报警的准备工作

使用一键报警功能前,我们先了解一下一键报警功能目前支持哪些产品及规则详情。
服务名称 指标名称 规则描述
ECS CPUUtilization(CPU使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,邮件通知。
vm.DiskUtilization(磁盘使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,短信、邮件通知。
vm.MemoryUtilization(内存使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,邮件通知。
InternetOutRate_Percent(公网流出带宽使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,邮件通知。
RDS CpuUsage(CPU使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
DiskUsage(磁盘使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,短信、邮件通知。
IOPSUsage(IOPS使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
ConnectionUsage(连接数使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时, 邮件通知。
DataDelay(只读实例延迟) 五分钟内最大值>5,连续五次,沉默时间1小时,邮件通知。
SLB DropConnection (监听每秒丢失连接数) 一分钟内最大值>0,连续五次,沉默时间1小时,邮件通知。
DropTrafficRX(监听每秒丢失入bit数) 一分钟内最大值>0,连续五次,沉默时间1小时,邮件通知。
DropTrafficTX(监听每秒丢失出bit数 ) 一分钟内最大值>0,连续五次,沉默时间1小时,邮件通知。
Redis CpuUsage(CPU使用率 ) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
ConnectionUsage(连接数使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
MemoryUsage(内存使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
IntranetInRatio(写入带宽使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
IntranetOutRatio(读取带宽使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
MongoDB(副本集) CPUUtilization(CPU使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
MemoryUtilization(内存使用百分比) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
DiskUtilization(磁盘使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
IOPSUtilization(IOPS使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
ConnectionUtilization(连接数使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
MongoDB (分片集群) ShardingCPUUtilization (CPU使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
ShardingMemoryUtilization(内存使用百分比) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
ShardingDiskUtilization(磁盘使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
ShardingIOPSUtilization(IOPS使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
ShardingConnectionUtilization(连接数使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知。
HBase LoadPerCpu 五分钟内最大值>3,连续三次,沉默时间1小时,邮件通知。
cpu_idle 五分钟内最大值<10,连续三次,沉默时间1小时,邮件通知。
compactionQueueSize 五分钟内最大值>2000,连续三次,沉默时间1小时,邮件通知。
rs_handlerQueueSize 五分钟内最大值>1000,连续三次,沉默时间1小时,邮件通知。
CapacityUsedPercent 五分钟内最大值>0.8,连续三次,沉默时间1小时,邮件通知。
zookeeper_tcp_count 五分钟内最大值>2000,连续三次,沉默时间1小时,邮件通知。
ElasticSearch ClusterStatus(集群状态) 一分钟内最大值>2,连续十次,沉默时间1小时,邮件通知。
NodeDiskUtilization (节点磁盘使用率 ) 一分钟内最大值>75%,连续十次,沉默时间1小时,邮件通知。
NodeHeapMemoryUtilization(节点HeapMemory使用率) 一分钟内最大值>85%,连续十次,沉默时间1小时,邮件通知。
Opensearch开放搜索 DocSizeRatiobyApp (存储容量使用率) 十分钟内最大值>85%,连续一次,沉默时间1小时,邮件通知。
ComputeResourceRatiobyApp(计算资源使用率) 十分钟内最大值>85%,连续一次,沉默时间1小时,邮件通知。

使用一键报警的实施步骤

注意事项

  • 一键报警功能开启后,默认开启云监控预置的报警规则,快速建立云监控报警体系监控重要指标,并未全面覆盖所有监控指标。
  • 一键报警功能开启后,对应的报警规则作用于您选中产品的当前实例及后续新生成的实例。
  • 一键报警功能支持您对预置的报警规则进行修改、禁用和删除操作。

操作步骤

  1. 登录云监控控制台
  2. 单击左侧导航栏中报警服务下的一键报警,进入一键报警页面。
  3. 对需要设置报警的云产品,单击一键报警开关,开启一键报警。

  4. 单击一键报警右侧的下拉按钮,可查看云监控为您自动生成的报警规则。

  5. (可选)您可以单击操作栏中的禁用修改删除,禁用、修改、删除对应的报警规则。