前提条件

  • 如果之前没有创建过集群,您需要创建Kubernetes集群
  • Kubernetes 版本需要在 1.8.4 及以上,若集群版本过低,您可以先对集群进行升级,然后通过升级监控服务的方式快速建立资源报警分组。

背景信息

在 IT 系统基础设施运维中,监控告警一直是保证可靠性和安全性的基础,有助于日常运维、系统监测、故障排除和调试。

在 Kubernetes 场景下,传统的容器监控方案通过静态配置化的监控 agent 或中心化的 server 进行资源监控和告警,会遇到很大的难题。例如,由于容器更多的是在资源池中调度,宿主机部署监控 agent 会造成缺乏必要信息来识别监控对象;容器的生命周期与传统应用相比而言会更加短暂,而由容器抽象的上层概念如 kubernetes 中的 ReplicaSet、Deployment 等则没有太好的办法从采集的数据中进行反向的抽象,造成单纯的容器监控数据无法有效地进行监控数据的聚合和告警,一旦应用的发布可能会导致原有的监控与报警规则无法生效。

阿里云容器服务 Kubernetes 与云监控进行了深度集成,用应用分组来抽象逻辑概念,实现逻辑的概念和物理概念在监控数据、生命周期上面的统一。此外,阿里云云监控服务提供丰富的功能特性和自定义工具,帮助您快速实现 Kuberbetes 资源监控和告警的最佳实践。

操作步骤

  1. 登录容器服务管理控制台
  2. 在 Kubernetes 菜单下,单击左侧导航栏中的集群,在集群列表下找到目标集群。
  3. 查看 kubernetes 版本和集群 ID 等信息,单击集群右侧的更多 > 升级监控服务 ,快速建立资源报警分组。
    说明 若您的集群版本低于 1.8.4,请先单击 集群升级进行升级。


  4. 登录 云监控服务控制台。在左侧导航栏中单击应用分组,在应用分组中,可以看到包含集群 ID 信息的 kubernetes 资源分组。


  5. 单击分组名称,进入具体的分组页面,您可以查看组内的各项监控视图。以 kubernetes 的 master 分组为例,默认显示分组的拓扑视图。
    Kubernetes 节点从职能上分为 Worker 和 Master 两种不同的节点。Master 节点上面通常会部署管控类型的应用,整体的资源要求以强鲁棒性为主;而 Worker 节点更多的承担实际的 Pod 调度,整体的资源以调度能力为主。当你创建资源报警分组时,容器服务会为你自动创建两个资源分组,一个是 Master 组,一个是 Worker 组。Master 组中包含了 Master 节点以及与其相关的负载均衡器;Worker 组包含了所有的工作节点。


  6. 您若想了解分组内详细的机器信息,请单击列表视图的图标,您可以查看分组内的各云产品的详细信息。


  7. 单击右下角的添加监控图表,您可以添加更多的监控图表。


  8. 在左侧导航栏中单击监控视图,您可以查看分组内各云产品的详细监控指标。


  9. 在左侧导航栏中单击报警规则,该页面列出当前分组中已有的报警规则列表,默认会在 Master 分组中设置所有节点的核心组件的健康检查。
    1. 您可以单击新建报警规则,根据业务需求,来创建属于该分组的报警规则。


    2. 进入报警规则页面,您需要设置报警规则。
      • 您可选择报警关联对象,如云服务器 ECS。
      • 您可选择是否使用模板创建报警规则。若选择使用模板创建报警规则,您可以在选择模板下拉框中选择已有的报警模板;或者可以单击创建报警模板,创建新的自定义报警模板,参见 使用报警模板,然后再进行选择。
      • 您可设置通知方式,如通过钉钉、邮件、短信的方式在第一时间获取到 Kubernetes 的集群状态。


    3. 最后单击确认,本例中新建的报警规则会出现在规则列表下。


下一步

在左侧导航栏中,您可以探索更多符合自己资源监控需求的功能特性,如故障列表、事件监控、可用性监控、日志监控等。