使用集群巡检排查集群的潜在风险

阿里云容器计算服务ACS支持容器智能运维平台提供的集群巡检功能。您可以扫描集群运行状况,发现集群中存在的潜在风险,例如云资源配额余量、Kubernetes集群关键资源水位等,排查风险项并根据推荐的解决方案修复问题。本文介绍如何使用集群巡检功能排查集群的潜在风险。

前提条件

  • 已创建ACS集群。具体操作,请参见创建ACS集群

  • 集群已处于正常运行状态。

    访问容器计算服务控制台,在集群列表页面,查看目标集群的集群状态。若集群状态运行中,表示集群处于正常运行状态。

配置集群巡检

重要

使用集群巡检功能时,系统将在您的集群中执行数据采集程序并收集检查结果。采集的信息包括系统版本、负载、容器组件等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。

  1. 登录容器计算服务控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 巡检和诊断 > 集群巡检

  3. 集群巡检页面的巡检规则区域,单击添加

  4. 配置定时巡检规则面板,设置相应的时区定时规则,仔细检查后选中我已知晓并同意,然后单击保存配置

    集群定时巡检配置完成后,将按照指定的时间巡检集群。

    您也可以在集群巡检页面的检查报告列表区域,单击执行巡检检查,手动巡检集群。巡检完成后,将在报告列表区域显示相关信息。

查看巡检结果

  1. 登录容器计算服务控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 巡检和诊断 > 集群巡检

  3. 集群巡检页面的检查报告列表区域右侧的操作列,单击目标检查报告右侧的查看详情

  4. 检查报告页面,查看风险项、异常影响以及推荐的解决方案。

    • 集群巡检会按照触发风险的程度分为低危、中危和高危,并高亮显示。

    • 集群巡检详细内容包含风险级别、风险项名称、异常影响及解决方案。关于集群巡检的常见风险预警及修复方案的更多信息,请参见集群巡检项及解决方案

相关操作

管理巡检规则

集群定时巡检配置完成后,您可以在巡检规则区域进行以下操作。

  • 单击编辑,设置新的巡检规则。

  • 单击删除,删除无需使用的巡检规则。规则删除后,集群将不再按此规则巡检。

相关文档

集群巡检通过定期检查,提前发现潜在问题。当巡检发现异常时,集群诊断便接手深入分析,从而定位和解决问题。具体信息,请参见使用集群诊断