注册的集群接入node-problem-detector(NPD)组件能为分布在各处的Kubernetes集群提供统一的管理方式。本文介绍如何通过容器服务Kubernetes版中的应用将NPD接入至注册的Kubernetes集群。

前提条件

您已通过容器服务Kubernetes版接入一个注册的Kubernetes集群。具体操作步骤,请参见注册外部Kubernetes集群

操作步骤

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,选择市场 > 应用目录
  3. 应用目录页面单击阿里云应用页签,选中ack-node-problem-detector应用。
    阿里云应用包含较多应用,您可在页面右上角搜索ack-node-problem-detector,支持关键字搜索。
  4. 应用目录 - ack-node-problem-detector页面右侧创建区域,选择目标集群。
  5. 应用目录 - ack-node-problem-detector页面单击参数页签,设置相应的参数,然后单击右侧创建区域的创建
    参数 描述
    alibaba_cloud_plugins 删除ram_role_check

    另外,当机器没有GPU卡时,删除nvidia_gpu_check

    serviceaccount 填入拥有管理员权限的serviceaccount。您可以执行kubectl -n kube-system get sa查看serviceaccount。详情请查看在CloudShell上通过kubectl管理Kubernetes集群
    env 填入AccessKeyIdAccessKeySecretRegionId三个参数。
    sls enabled 如果需要将event归档到日志服务,就将enabled设为true
    topic 填写您的集群可读名称。
    project 填写您的集群对应的日志服务project名称。
    logstore 填写project下已有的某个logstore(如果要使用日志服务的事件中心功能,˙这里要填为k8s-event)。
    internal 如果有专线,填为true,否则填为false
    dingtalk enabled 如果需要将event告警发送到钉钉群,则将enabled设为true
    monitorkinds 选择要接收的告警类型,取值:
    • Node
    • Pod
    如果告警只发送到钉钉,建议只选Node
    token 填入钉钉群助手的token。token可以从钉钉群助手的URL中获取。

执行结果

配置成功后,钉钉告警效果如下。cluster_NPD_03