报警配置功能提供容器场景报警能力的统一管理,包括容器服务异常事件报警,以及容器场景指标报警。您可以通过集群内部署CRD的方式配置容器服务的报警规则。本文介绍在注册集群中如何接入报警配置功能及如何配置报警规则。

前提条件

功能使用场景

容器服务报警配置功能集合容器场景的监控报警能力,提供报警的统一配置管理,有如下几个典型的使用场景:

  • 集群运维
    可以通过监控报警了解集群管控、存储、网络、弹性扩缩容等异常事件。例如:
    • 通过集群资源异常报警规则集感知集群基础资源的关键指标是否异常。例如,CPU、Memory、网络等关键指标是否出现高水位情况,避免影响集群稳定性。
    • 通过配置并查看集群异常事件报警规则集感知集群节点或容器节点异常。例如,集群节点Docker进程异常、集群节点进程异常及集群容器副本启动失败等异常。
    • 通过配置并查看集群存储异常事件报警规则集感知集群存储的变更与异常。
    • 通过配置并查看集群网络异常事件报警规则集感知集群网络的变更与异常。
    • 通过配置并查看集群管控运维异常报警规则集感知集群管控的变更与异常等。
  • 应用开发

    可以通过监控报警了解在集群中运行应用的异常事件、指标是否异常。例如,集群容器副本异常或者应用Deployment的CPU、内存水位指标是否超过阈值等。可通过开启报警配置功能中的默认报警规则模板,即可快速接受集群内应用容器副本的异常事件报警通知。例如,通过配置并订阅关注集群容器副本异常报警规则集感知所属应用的Pod是否异常。

  • 应用管理

    关注运行在集群上的应用健康、容量规划、集群运行稳定性及异常甚至是错误报警等贯穿应用生命周期的一系列问题。例如,通过配置并订阅关注集群重要事件报警规则集感知集群内所有Warning、Error等异常报警;关注集群资源异常报警规则集感知集群的资源情况,从而更好地做容量规划等。

  • 多集群管理

    当您有多个集群需要管理,为集群配置报警规则往往会是一个重复繁琐且难以同步的操作。容器服务报警配置功能,支持通过集群内部署CRD配置的方式管理报警规则。可通过维护多个集群中同样配置的CRD资源,来方便快捷地实现多集群中报警规则的同步配置。

在注册集群中配置云监控组件

步骤一:为云监控组件配置RAM权限

在注册集群中安装组件前,您需要在接入集群中设置AccessKey用来访问云服务的权限。设置AccessKey前,您需要创建RAM用户并为其添加访问相关云资源的权限。

  1. 创建RAM用户。具体操作,请参见创建RAM用户
  2. 创建权限策略。具体操作,请参见创建自定义权限策略
    权限策略模板如下所示:
    {
                "Action": [
                    "log:*",
                    "arms:*",
                    "cs:UpdateContactGroup"
                ],
                "Resource": [
                    "*"
                ],
                "Effect": "Allow"
    }
  3. 为RAM用户添加权限。具体操作,请参见为RAM用户授权
  4. 为RAM用户创建AccessKey。具体操作,请参见获取AccessKey
  5. 使用AccessKey在注册集群中创建名为alibaba-addon-secret的Secret资源。
    安装云监控组件时将自动引用此AccessKey访问对应的云服务资源。
    kubectl -n kube-system create secret generic alibaba-addon-secret --from-literal='access-key-id=<your access key id>' --from-literal='access-key-secret=<your access key secret>'
    说明 <your access key id><your access key secret>为上一步获取的AccessKey信息。

步骤二:安装与升级云监控组件

控制台会自动检测报警配置环境是否符合要求,并会引导进行开通、安装或升级组件。

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏,单击集群
  3. 集群列表页面,单击目标集群名称或者目标集群右侧操作列下的详情
  4. 在集群管理页左侧导航栏,选择运维管理 > 报警配置
  5. 报警配置页面控制台会自动检查以下条件。
    若不符合条件,请按以下提示完成操作。
    • 已开通SLS日志服务云产品。当您首次使用日志服务时,需要登录日志服务控制台,根据页面提示开通日志服务。
      说明 关于日志服务的详细计费,请参见计费项
    • 已安装事件中心。具体操作,请参见事件监控
    • 集群托管组件alicloud-monitor-controller升级到最新版本。更多信息,请参见alicloud-monitor-controller
    报警配置

接入报警配置功能

步骤一:开启默认报警规则

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏,单击集群
  3. 集群列表页面,单击目标集群名称或者目标集群右侧操作列下的详情
  4. 在集群管理页左侧导航栏,选择运维管理 > 报警配置
  5. 报警规则管理页签,开启对应报警规则集。
    报警规则管理

步骤二:手动配置报警规则

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏,单击集群
  3. 集群列表页面,单击目标集群名称或者目标集群右侧操作列下的详情
  4. 在集群管理页左侧导航栏,选择运维管理 > 报警配置
    功能特性说明
    报警规则管理
    • 容器服务报警规则功能会默认生成容器场景下的报警模板(包含异常事件报警、异常指标报警)。
    • 报警规则被分类为若干个报警规则集,可为报警规则集关联多个联系人分组,并启动或关闭报警规则集。
    • 报警规则集中包含多个报警规则,一个报警规则对应单个异常的检查项。多个报警规则集可以通过一个YAML资源配置到对应集群中,修改YAML会同步生成报警规则。
    • 关于报警规则YAML配置,请参见如何通过CRD配置报警规则
    • 关于默认报警规则模板,请参见默认报警规则模板
    报警历史目前可查看最近发送的近100条历史记录。单击对应报警规则类型的链接,可跳转到对应监控系统中查看详细规则配置;单击对应报警排查现场的链接可快速定位到异常发生的资源页面(异常事件、指标异常的资源)。报警历史查看
    联系人管理对联系人进行管理,可创建、编辑或删除联系人。
    联系人分组管理对联系人分组进行管理,可创建、编辑或删除联系人分组。当无联系人分组时,控制台会从您的阿里云账号注册信息中同步创建一个默认联系人分组。
  5. 报警规则管理页签,单击编辑通知对象可设置关联的通知对象;打开启动状态可开启对应报警规则集。

如何通过CRD配置报警规则

报警配置功能开启时,会默认在kube-system命名空间下创建一个AckAlertRule类型的资源配置,包含默认报警规则模板。容器服务报警规则集可通过此资源配置在集群中。

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏,单击集群
  3. 集群列表页面,单击目标集群名称或者目标集群右侧操作列下的详情
  4. 在集群管理页左侧导航栏,选择运维管理 > 报警配置
  5. 报警规则管理页签中,单击右上角编辑报警配置,可查看当前集群中的AckAlertRule资源配置,并可通过YAML文件修改。
    报警规则配置的YAML文件示例如下:
    apiVersion: alert.alibabacloud.com/v1beta1
    kind: AckAlertRule
    metadata:
      name: default
    spec:
      groups:
        #以下是一个集群事件报警规则配置样例。
        - name: pod-exceptions                             #报警规则分组名,对应报警模板中的Group_Name字段。
          rules:
            - name: pod-oom                                #报警规则名。
              type: event                                  #报警规则类型(Rule_Type),枚举值为event(事件类型)、metric-cms(云监控指标类型)。
              expression: sls.app.ack.pod.oom              #报警规则表达式,当规则类型为event时,表达式的值为本文默认报警规则模板中Rule_Expression_Id值。
              enable: enable                               #报警规则开启状态,枚举值为enable、disable。
            - name: pod-failed
              type: event
              expression: sls.app.ack.pod.failed
              enable: enable
        #以下是一个集群基础资源报警规则配置样例。
        - name: res-exceptions                              #报警规则分组名,对应报警模板中的Group_Name字段。
          rules:
            - name: node_cpu_util_high                      #报警规则名。
              type: metric-cms                              #报警规则类型(Rule_Type),枚举值为event(事件类型)、metric-cms(云监控指标类型)。
              expression: cms.host.cpu.utilization          #报警规则表达式,当规则类型为metric-cms时,表达式的值为本文默认报警规则模板中Rule_Expression_Id值。
              contactGroups:                                #报警规则映射的联系人分组配置,由ACK控制台生成,同一个账号下联系人相同,可在多集群中复用。
              enable: enable                                #报警规则开启状态,枚举值为enable、disable。
              thresholds:                                   #报警规则阈值,详情见文档如何更改报警规则阈值部分。            
                - key: CMS_ESCALATIONS_CRITICAL_Threshold
                  unit: percent
                  value: '1'

默认报警规则模板

在以下情况下注册集群会默认创建相应报警规则:
  • 开启默认报警规则功能。
  • 未开启默认报警规则,首次进入报警规则页面。
默认创建的报警规则如下表所示。
规则集类型规则名规则说明Rule_TypeACK_CR_Rule_NameSLS_Event_ID
critical-events集群重要事件报警规则集集群Error事件集群中所有Error Level异常事件触发该报警。eventerror-eventsls.app.ack.error
集群Warn事件集群中关键Warn Level异常事件触发该报警,排除部分可忽略事件。eventwarn-eventsls.app.ack.warn
cluster-error集群异常事件报警规则集集群节点Docker进程异常集群中节点Dockerd或Containerd 运行时异常。eventdocker-hangsls.app.ack.docker.hang
集群驱逐事件集群中发生驱逐事件。eventeviction-eventsls.app.ack.eviction
集群GPU的XID错误事件集群中GPU XID异常事件。eventgpu-xid-errorsls.app.ack.gpu.xid_error
集群节点下线集群中节点下线。eventnode-downsls.app.ack.node.down
集群节点重启集群中节点重启。eventnode-restartsls.app.ack.node.restart
集群节点时间服务异常集群中节点时间同步系统服务异常。eventnode-ntp-downsls.app.ack.ntp.down
集群节点PLEG异常集群中节点PLEG异常。eventnode-pleg-errorsls.app.ack.node.pleg_error
集群节点进程异常集群中节点进程数异常。eventps-hangsls.app.ack.ps.hang
res-exceptions集群资源异常报警规则集集群节点-CPU使用率≥85%集群中节点实例CPU使用率超过水位。默认值85%。

在剩余资源不足15%时,Kubelet会发生强制驱逐行为。

关于如何调整阈值,请参见如何修改集群基础资源报警规则的阈值

metric-cmsnode_cpu_util_highcms.host.cpu.utilization
集群节点-内存使用率≥85%集群中节点实例内存使用率超过水位。默认值85%。

在剩余资源不足15%时,Kubelet会发生强制驱逐行为。

关于如何调整阈值,请参见如何修改集群基础资源报警规则的阈值

metric-cmsnode_mem_util_highcms.host.memory.utilization
集群节点-磁盘使用率≥85%集群中节点实例磁盘使用率超过水位。默认值85%。

关于如何调整阈值,请参见如何修改集群基础资源报警规则的阈值

metric-cmsnode_disk_util_highcms.host.disk.utilization
集群节点-公网流出带宽使用率≥85%集群中节点实例公网流出带宽使用率超过水位。默认值85%。

关于如何调整阈值,请参见如何修改集群基础资源报警规则的阈值

metric-cmsnode_public_net_util_highcms.host.public.network.utilization
集群节点-inode使用率≥85%集群中节点实例inode使用率超过水位。默认值85%。

关于如何调整阈值,请参见如何修改集群基础资源报警规则的阈值

metric-cmsnode_fs_inode_util_highcms.host.fs.inode.utilization
集群资源-负载均衡最大连接数使用率≥85%集群中负载均衡实例最大连接数超过水位。默认值85%。
说明 负载均衡实例,即API-Server、Ingress所关联的SLB负载均衡实例。

关于如何调整阈值,请参见如何修改集群基础资源报警规则的阈值

metric-cmsslb_qps_util_highcms.slb.qps.utilization
集群资源-负载均衡网络流出带宽使用率≥85%集群中负载均衡实例网络流出带宽使用率超过水位。默认值85%。
说明 负载均衡实例,即API-Server、Ingress所关联的SLB负载均衡实例。

关于如何调整阈值,请参见如何修改集群基础资源报警规则的阈值

metric-cmsslb_traff_tx_util_highcms.slb.traffic.tx.utilization
集群资源-负载均衡最大连接数使用率≥85%集群中负载均衡实例最大连接数使用率超过水位。默认值85%。
说明 负载均衡实例,即API-Server、Ingress所关联的SLB负载均衡实例。

关于如何调整阈值,请参见如何修改集群基础资源报警规则的阈值

metric-cmsslb_max_con_util_highcms.slb.max.connection.utilization
集群资源-负载均衡监听每秒丢失连接数持续≥1集群中负载均衡实例每秒丢失连接数持续超过水位。默认值1次。
说明 负载均衡实例,即API-Server、Ingress所关联的SLB负载均衡实例。

关于如何调整阈值,请参见如何修改集群基础资源报警规则的阈值

metric-cmsslb_drop_con_highcms.slb.drop.connection
集群节点文件句柄过多集群中节点文件句柄数过多异常。eventnode-fd-pressuresls.app.ack.node.fd_pressure
集群节点磁盘空间不足集群中节点磁盘空间不足异常事件。eventnode-disk-pressuresls.app.ack.node.disk_pressure
集群节点进程数过多集群中节点进程数过多异常事件。eventnode-pid-pressuresls.app.ack.node.pid_pressure
集群节点调度资源不足集群中无调度资源异常事件。eventnode-res-insufficientsls.app.ack.resource.insufficient
集群节点IP资源不足集群中IP资源不足异常事件。eventnode-ip-pressuresls.app.ack.ip.not_enough
pod-exceptions集群容器副本异常报警规则集集群容器副本OOM集群容器副本Pod或其中进程出现OOM(Out of Memory)。eventpod-oomsls.app.ack.pod.oom
集群容器副本启动失败集群容器副本Pod启动失败事件(Pod Start Failed)。eventpod-failedsls.app.ack.pod.failed
集群镜像拉取失败事件集群容器副本Pod出现镜像拉取失败事件。eventimage-pull-back-offsls.app.ack.image.pull_back_off
cluster-ops-err集群管控运维异常报警规则集无可用LoadBalancer集群无法创建LoadBalancer事件。请提交工单联系容器服务团队。eventslb-no-avasls.app.ack.ccm.no_ava_slb
同步LoadBalancer失败集群创建LoadBalancer同步失败事件。请提交工单联系容器服务团队。eventslb-sync-errsls.app.ack.ccm.sync_slb_failed
删除LoadBalancer失败集群删除LoadBalancer失败事件。请提交工单联系容器服务团队。eventslb-del-errsls.app.ack.ccm.del_slb_failed
删除节点失败集群删除节点失败事件。请提交工单联系容器服务团队。eventnode-del-errsls.app.ack.ccm.del_node_failed
添加节点失败集群添加节点失败事件。请提交工单联系容器服务团队。eventnode-add-errsls.app.ack.ccm.add_node_failed
创建VPC网络路由失败集群创建VPC网络路由失败事件。请提交工单联系容器服务团队。eventroute-create-errsls.app.ack.ccm.create_route_failed
同步VPC网络路由失败集群同步VPC网络路由失败事件。请提交工单联系容器服务团队。eventroute-sync-errsls.app.ack.ccm.sync_route_failed
托管节点池命令执行失败集群托管节点池异常事件。请提交工单联系容器服务团队。eventnlc-run-cmd-errsls.app.ack.nlc.run_command_fail
托管节点池未提供任务的具体命令集群托管节点池异常事件。请提交工单联系容器服务团队。eventnlc-empty-cmdsls.app.ack.nlc.empty_task_cmd
托管节点池出现未实现的任务模式集群托管节点池异常事件。请提交工单联系容器服务团队。eventnlc-url-m-unimpsls.app.ack.nlc.url_mode_unimpl
托管节点池发生未知的修复操作集群托管节点池异常事件。请提交工单联系容器服务团队。eventnlc-opt-no-foundsls.app.ack.nlc.op_not_found
托管节点池销毁节点发生错误集群托管节点池异常事件。请提交工单联系容器服务团队。eventnlc-des-node-errsls.app.ack.nlc.destroy_node_fail
托管节点池节点排水失败集群托管节点池排水异常事件。请提交工单联系容器服务团队。eventnlc-drain-node-errsls.app.ack.nlc.drain_node_fail
托管节点池重启ECS未达到终态集群托管节点池异常事件。请提交工单联系容器服务团队。eventnlc-restart-ecs-waitsls.app.ack.nlc.restart_ecs_wait_fail
托管节点池重启ECS失败集群托管节点池异常事件。请提交工单联系容器服务团队。eventnlc-restart-ecs-errsls.app.ack.nlc.restart_ecs_fail
托管节点池重置ECS失败集群托管节点池异常事件。请提交工单联系容器服务团队。eventnlc-reset-ecs-errsls.app.ack.nlc.reset_ecs_fail
托管节点池自愈任务失败集群托管节点池异常事件。请提交工单联系容器服务团队。eventnlc-sel-repair-errsls.app.ack.nlc.repair_fail
cluster-network-err集群网络异常事件报警规则集Terway资源无效集群Terway网络资源无效异常事件。请提交工单联系容器服务团队。eventterway-invalid-ressls.app.ack.terway.invalid_resource
Terway分配IP失败集群Terway网络资源分配IP失败异常事件。请提交工单联系容器服务团队。eventterway-alloc-ip-errsls.app.ack.terway.alloc_ip_fail
解析Ingress带宽配置失败集群Ingress网络解析配置异常事件。请提交工单联系容器服务团队。eventterway-parse-errsls.app.ack.terway.parse_fail
Terway分配网络资源失败集群Terway网络资源分配失败异常事件。请提交工单联系容器服务团队。eventterway-alloc-res-errsls.app.ack.terway.allocate_failure
Terway回收网络资源失败集群Terway网络资源回收失败异常事件。请提交工单联系容器服务团队。eventterway-dispose-errsls.app.ack.terway.dispose_failure
Terway虚拟模式变更集群Terway网络虚拟模式变更事件。eventterway-virt-mod-errsls.app.ack.terway.virtual_mode_change
Terway触发PodIP配置检查集群Terway网络触发PodIP配置检查事件。eventterway-ip-checksls.app.ack.terway.config_check
Ingress重载配置失败集群Ingress网络配置重载异常事件。请检查Ingress配置是否正确。eventingress-reload-errsls.app.ack.ingress.err_reload_nginx
cluster-storage-err集群存储异常事件报警规则集云盘容量少于20 GiB限制集群网盘固定限制,无法挂载小于20 GiB的磁盘。请检查所挂载云盘的容量大小。eventcsi_invalid_sizesls.app.ack.csi.invalid_disk_size
容器数据卷暂不支持包年包月类型云盘集群网盘固定限制,无法挂载包年包月类型的云盘。请检查所挂载云盘的售卖方式。eventcsi_not_portablesls.app.ack.csi.disk_not_portable
挂载点正在被进程占用,卸载挂载点失败集群存储挂载点正在被进程占用,卸载挂载点失败。eventcsi_device_busysls.app.ack.csi.deivce_busy
无可用云盘集群存储挂载时无可用云盘异常。请提交工单联系容器服务团队。eventcsi_no_ava_disksls.app.ack.csi.no_ava_disk
云盘IOHang集群出现IOHang异常。请提交工单联系容器服务团队。eventcsi_disk_iohangsls.app.ack.csi.disk_iohang
磁盘绑定的PVC发生slowIO集群磁盘绑定的PVC发生slowIO异常。请提交工单联系容器服务团队。eventcsi_latency_highsls.app.ack.csi.latency_too_high
磁盘容量超过水位阈值集群磁盘使用量超过水位值异常。请检查你的集群磁盘水位情况。eventdisk_space_presssls.app.ack.csi.no_enough_disk_space
security-err集群安全异常事件安全巡检发现高危风险配置集群安全巡检发现高危风险配置事件。请提交工单联系容器服务团队。eventsi-c-a-risksls.app.ack.si.config_audit_high_risk