注册的集群接入 node-problem-detector(NPD)组件能为分布在各处的 Kubernetes 集群提供统一的管理方式。本文介绍如何通过容器服务 Kubernetes 版中的应用将 NPD 接入至注册的 Kubernetes 集群。

前提条件

您已通过容器服务 Kubernetes 版接入一个注册的 Kubernetes 集群。具体操作步骤,请参见注册外部 Kubernetes 集群

操作步骤

  1. 登录容器服务管理控制台
  2. 选择左侧导航栏中的市场 > 应用目录进入阿里云应用页签。
  3. 单击运维/可观测性 (6) > ack-node-problem-detector
    cluster_NPD_01
  4. 单击参数页签,设置相应的参数。单击创建
    参数 描述
    alibaba_cloud_plugins 删除 ram_role_check

    另外,当机器没有 GPU 卡时,删除 nvidia_gpu_check

    serviceaccount 填入拥有管理员权限的 serviceaccount。您可以执行kubectl -n kube-system get sa查看 serviceaccount。详情请查看在CloudShell上通过kubectl管理Kubernetes集群
    env 填入 AccessKeyIdAccessKeySecretRegionId 三个参数。
    sls enabled 如果需要将 event 归档到日志服务,就将 enabled 设为 true
    topic 填写您的集群可读名称。
    project 填写您的集群对应的日志服务 project 名称。
    logstore 填写 project 下已有的某个 logstore(如果要使用日志服务的事件中心功能,˙这里要填为k8s-event)。
    internal 如果有专线,填为 true,否则填为 false
    dingtalk enabled 如果需要将 event 告警发送到钉钉群,则将 enabled 设为 true
    monitorkinds 选择要接收的告警类型,取值:
    • Node
    • Pod
    如果告警只发送到钉钉,建议只选 Node
    token 填入钉钉群助手的 token。token 可以从钉钉群助手的 URL 中获取。

执行结果

配置成功后,钉钉告警效果如下。cluster_NPD_03