随着容器技术的发展与使用,大量的业务运行于容器中,使得容器技术越来越离不开对容器本身的监控。ARMS 容器监控面向部署在阿里云上的容器服务 Kubernetes 版集群,能够对节点机器上的资源及容器进行实时监控和性能数据采集,并进行可视化展示,旨在为您提供容器化环境端到端的监控排查路径。

产品功能

容器监控自动获取当前账号下的阿里云容器服务 Kubernetes 版集群信息,能够基于 Prometheus 监控数据、集群事件持久化数据以及集群的基本配置信息提供以下功能。

异常 Pod 检测

异常 Pod 是指:

  • 频繁重启的 Pod
  • 网络流量不均的 Pod
  • 未设置 Limit 资源但实际占用资源较多的 Pod
  • 实际占用资源较少但设置 Request 较大的 Pod
  • 有驱逐风险的 Pod 以及其他异常 Pod

容器监控提供异常 Pod 检测功能,通过 Pod 资源配置、资源使用分布情况和历史异常事件预估和展示当前集群中可能有风险的 Pod,并帮助您降低其风险。

pg_docker_node

资源使用情况可视化

容器监控提供集群资源监控功能,帮助您快速查看集群内 Pod 的健康状态、Pod 的 CPU 和内存资源的使用情况。

sc_docker_pod_status

Deployment 监控

ARMS 容器监控提供 Deployment 监控,主要监控应用运行时对环境的依赖情况,包括 CPU 以及内存的监控。

Pod 监控

ARMS 容器监控还提供集群中运行的所有 Pod 状态以及 Pod 本身的监控,Pod 本身的监控包括事件监控、生命周期监控、资源监控以及日志监控:

  • 事件监控是监控集群的事件信息,例如告警和错误事件等。

    Kubernetes 的架构设计是基于状态机的,不同的状态之间进行转换则会生成相应的事件,正常的状态之间转换会生成 Normal 等级的事件,正常状态与异常状态之间的转换会生成 Warning 等级的事件。您可以通过获取事件,实时诊断集群的异常与问题。

  • 生命周期监控

    生命周期监控可以帮助您随时掌握 Pod 在整个生命周期的各个状态,以便您更好地调度和管理 Pod。

    Timeline Monitor
  • 资源监控

    通过资源监控可以快速查看负载的 CPU、内存、网络等指标的使用率。

    Resource Monitor
  • 日志监控

    日志监控展示 Pod 实时监控日志,方便您进行问题诊断。

    Log Detail Monitor

应用性能监控

对于部署在容器服务 Kubernetes 版集群中的应用,您可以使用 ARMS 应用监控对其监控,详情请参见准备工作概述。安装应用监控探针后,可将容器与应用关联,即将容器的 CPU、内存和网络资源使用情况,以及集群异常事件和日志等信息与应用关联,帮助您排查当前容器环境是否会对您的业务产生影响。

报警功能(敬请期待)

容器监控提供报警功能,当报警规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒您采取必要的问题解决措施。

报警功能目前正在开发中,敬请期待。