容器演练是针对Kubernetes集群定制的故障演练,可以对Kubernetes集群中至关重要的高可用特性进行验证。目前AHAS仅支持容器演练中的报警演练。本文主要介绍容器演练中的报警演练功能。

报警演练功能概述

Kubernetes集群的自动报警功能是保障Kubernetes集群高可用的重要功能之一。当集群的API Server监测到特定事件,报警模块会通过邮件、短信等方式通知用户处理。

AHAS容器演练中的监控报警验证功能通过模拟事件触发,验证集群监控报警设置是否正常可用,并统计报警成功率、以及事件触发到监控报警的平均延迟,从而验证Kubernetes集群监控报警系统的有效性。

报警演练功能特性

  • 无损。不同于其他故障演练模块对系统注入真实故障,报警演练只会对集群的API Server投递事件,由事件触发报警链路,不会对系统造成真实故障。
  • 无侵入。无需在用户集群中安装探针以注入故障,所有事件投递都是通过API Server来进行网络请求。