容器服务ACK提供了集群巡检功能,您可以定时扫描集群运行状况,发现集群中潜在的风险,如云资源配额余量、Kuberrnetes集群关键资源水位等。本文介绍如何通过集群巡检功能防范集群中的潜在风险。

前提条件

配置集群巡检

使用集群巡检功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果,采集的信息包括系统版本、负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会对您的业务信息及敏感数据进行采集。配置集群巡检的具体步骤如下:

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,选择目标集群,并在目标集群右侧的操作列下,选择更多 > 集群检查
  4. 在容器智能运维左侧导航栏中,选择检查 > 定时巡检
  5. 巡检规则区域,单击添加
  6. 运行配置配置向导中,配置相应的时区和定时规则。
    如果您已配置定时规则,可以在定时巡检页面的巡检规则区域,单击删除。删除已有规则后,重新配置新的规则。

    配置完成后,将按照指定的时间进行集群巡检。当发现集群中存在风险时,将在集群内生成异常事件。您可以通过容器服务管理控制台,在集群概览页签的事件区域,查看异常事件。

    说明 您也可以在定时巡检页面的检查报告列表区域,单击执行巡检检查进行手动巡检。
  7. (可选)配置容器服务报警管理。
    您可以通过容器服务报警管理功能,第一时间了解集群的风险信息。具体操作,请参见容器服务报警管理

查看集群巡检结果

集群巡检配置完成后,将按照指定的时间进行集群巡检。查看集群巡检结果的具体步骤如下:

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,选择目标集群,并在目标集群右侧的操作列下,选择更多 > 集群检查
  4. 在容器智能运维左侧导航栏中,选择检查 > 定时巡检
  5. 检查报告列表区域,单击操作列下方的查看详情
    检查报告示例如下:检查报告检查报告包括风险等级、风险项名称、风险的具体描述及修复建议。风险等级包括低危、中危和高危。您可以通过检查报告对集群中的风险进行处理。关于集群巡检的常见风险预警及修复方案的更多信息,请参见集群巡检预警参考