阿里云Kubernetes监控是一套针对Kubernetes集群开发的一站式可观测性产品。基于Kubernetes集群下的指标、应用链路、日志和事件,阿里云Kubernetes监控旨在为IT开发运维人员提供整体的可观测性方案。

阿里云Kubernetes监控特性

  • 代码无侵入:阿里云Kubernetes监控通过旁路技术,不需要对代码进行埋点即可获取到丰富的网络性能数据。
  • 语言无关:阿里云Kubernetes监控在内核层进行网络协议解析,支持任意语言,任意框架。
  • 高性能:阿里云Kubernetes监控基于eBPF技术,能以极低的消耗获取丰富的网络性能数据。
  • 资源关联:阿里云Kubernetes监控通过网络拓扑,资源拓扑展示相关资源的关联。
  • 数据多样:阿里云Kubernetes监控支持可观测的各种类型数据(监控指标、链路、日志和事件)。
  • 整体性:阿里云Kubernetes监控通过控制台的场景设计,关联起架构感知拓扑、Prometheus监控、云拨测、内网拨测、告警配置、集群管理。

功能说明

  • 资源性能监控

    阿里云Kubernetes监控通过eBPF无侵入地获取容器RED性能数据,快速发现目标容器和关联Pod存在的性能问题。同时阿里云Kubernetes监控会自动关联对应的Service和Controller Workload(Deployment、StatefulSet和Daemonset)资源,进一步缩短发现问题的时间。更多信息,请参见查看总览

  • 集群网络拓扑、网络跟踪
    • 阿里云Kubernetes监控能够分析网络请求,自动解析网络协议,构建网络拓扑,并且支持HTTP,Redis,Kafka和MySQL。
    • 通过网络拓扑展示特定容器之间或容器与特定云产品实例之间的网络性能,快速发现关联服务的性能问题。
    • 默认将HTTP返回码≥400、响应时间>500 ms的错慢请求明细进行存储,方便您查看具体错慢原因。

    更多信息,请参见查看集群网络拓扑

  • 告警配置

    阿里云Kubernetes监控提供开箱即用的告警模板,您可以根据预置的告警模板创建告警规则,也可以自定义针对特定Kubernetes集群的告警规则。当告警规则被触发时,系统的通知策略会以您指定的告警方式向联系人发送告警信息,以提醒告警联系人采取必要的问题解决措施。更多信息,请参见创建Kubernetes监控告警规则

  • 资源3D拓扑

    阿里云Kubernetes监控基于Kubernetes资源的关联性,支持以3D的方式自顶向下查看Service、Controller Workload(Deployment、StatefulSet和Daemonset)、Pod、Container和Node资源之间的关联拓扑。更多信息,请参见查看容器层3D

  • 主机资源和工作负载资源监控
    • 通过监控云服务器ECS的CPU使用率、内存使用率、磁盘使用率等基础指标,确保主机的资源充足。
    • 通过监控Pod和Container的CPU使用率、请求率、限制率,内存使用率、请求率、限制率,磁盘使用率等基础指标,确保工作负载的资源充足。

    更多信息,请参见Pod详情Container详情

  • 内网拨测

    内网拨测下的巡检支持定期对Service进行连接测试,帮助您掌握服务的健康状况,及时发现异常,从而采取针对性的有效措施。更多信息,请参见巡检

    内网拨测下的探针检查支持通过Blackbox Exporter采集HTTP、DNS、TCP、ICMP等协议的监控数据。更多信息,请参见多协议指标详情

  • 云拨测

    通过阿里云Kubernetes监控的云拨测功能,您可以检测Ingress的健康程度。更多信息,请参见云拨测

  • 集群管理

    阿里云Kubernetes监控的集群管理功能支持设置Kubernetes监控采集的协议端口、指标和链路相关配置,并支持手动重启探针。更多信息,请参见集群配置探针管理

阿里云Kubernetes监控的优势

整体而言,与开源Kubernetes监控相比,阿里云Kubernetes监控的优势体现为:

  • 创新的资源关联交互

    阿里云Kubernetes监控通过监控网络请求,构建出网络拓扑,便于您查看服务依赖状态。

    容器简介2D拓扑

    除了网络拓扑之外,阿里云Kubernetes监控的3D拓扑功能支持同时查看网络拓扑和资源拓扑,便于您快速定位问题。

    容器简介3D拓扑
  • 丰富的数据多样性

    阿里云Kubernetes监控支持对各种类型数据进行可视化展示,同时会串联不同类型数据,比如错误数指标和错误链路。

    图 1. 错误数指标
    错误数指标
    图 2. 错误链路
    错误链路
  • 一站式的工具串联

    阿里云Kubernetes监控通过控制台的场景设计,关联起架构感知拓扑、Prometheus监控、云拨测、内网拨测、告警配置、集群管理。

    • 支持通过Prometheus监控进行指标的存储查询。
    • 支持Ingress开启云拨测。
    • 支持Service开启健康巡检。
    • 支持开启告警通知。
    • 支持手动配置采集指标。

联系我们

如果您在使用Kubernetes监控中有任何问题,请联系Kubernetes监控答疑钉钉群(群号:31588365)获取帮助。