配置巡检检查集群工作负载

ACK提供巡检功能,帮助您扫描集群中工作负载配置的安全隐患。执行巡检任务后,系统会生成巡检报告,您可以根据报告结果查看并处理风险项,实时了解集群中工作负载的健康状态。

前提条件

  • 集群版本为v1.14及以上版本。如需升级集群,请参见手动升级集群

  • 如果您当前使用的是RAM用户,请确保已参见下方内容完成RAM授权和RBAC授权。

    • RAM授权

      请完成配置巡检页面的RAM授权操作,确保当前RAM用户拥有操作当前集群的配置巡检页面的权限,否则会出现权限不足无法操作配置巡检页面功能的问题。具体操作,请参见自定义RAM授权策略

      展开查看配置巡检授权代码

      {
        "Statement": [
          {
            "Action": [
              "cs:DescribePolarisConfig",
              "cs:DescribePolarisJob",
              "cs:DescribePolarisCronJob",
              "cs:UpdatePolarisJob",
              "cs:UpdatePolarisCronJob"
            ],
            "Effect": "Allow",
            "Resource": [
              "acs:cs:*:*:cluster/<yourclusterID>"
            ]
          }
        ],
        "Version": "1"
      }

      如果您需要使用巡检报告功能,请完成日志服务指定logproject(当前集群logtail-ds组件所使用的logproject)的RAM授权,确保当前RAM用户拥有日志服务指定logproject的数据读取权限,否则会出现权限不足无法查看巡检报告的问题。具体操作,请参见RAM自定义授权示例

      展开查看日志服务日志读取授权代码

      {
          "Version": "1",
          "Statement": [
              {
                  "Action": [
                      "log:Get*",
                      "log:List*"
                  ],
                  "Resource": "acs:log:*:*:project/<指定的Project名称>/*",
                  "Effect": "Allow"
              }
          ]
      }
    • RBAC授权

      请完成配置巡检页面涉及资源的RBAC授权,授予RAM用户指定集群的管理员权限,以确保RAM用户拥有操作配置巡检页面中涉及的Kubernetes资源的权限。具体操作,请参见为RAM用户或RAM角色授予RBAC权限

执行巡检

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择安全管理 > 配置巡检

  3. 可选:按照页面提示安装并升级巡检组件。

    巡检组件security-inspector本身不计费,但会占用您的Pod资源。组件介绍及变更记录,请参见security-inspector

  4. 执行巡检。

    重要
    • 请在业务低峰期执行巡检操作。

    • 默认巡检所有支持的检查项,您可以在配置巡检页面右上方,单击巡检配置,然后配置巡检时执行的检查项。更多信息,请参见检查项

    • 立即执行:在配置巡检页面右上方,单击立即执行巡检

    • 定期执行:在配置巡检页面右上方,单击巡检配置,然后选中定期巡检,并配置巡检周期。

  5. 等待巡检完成后,在巡检详情页签,单击巡检结果对应操作列中的详情,查看检查结果。

巡检详情

巡检详情页面通过表格化的方式展示不同工作负载的详细巡检结果,主要包括以下功能:

  • 支持按照是否有风险命名空间工作负载类别等条件对结果进行过滤展示工作负载的巡检通过项风险项数量。

  • 展示巡检结果的各个检查项的详细信息,包括Pod和Container维度的检查状态(已通过、未通过)、检查项详细说明以及加固建议。如有未通过的检查项无需处理,您可以将其加入白名单。

  • 查看工作负载的YAML文件。

巡检报告

巡检报告页面主要展示最近执行的巡检扫描结果,主要包括以下几类信息:

  • 扫描结果概览,包括总的检查条目数、检查各个资源项数目及百分比、整体的健康度。

  • 各大类扫描结果统计,包括报告健康检查、镜像、网络、资源、安全等大类的结果。

  • 各个Workload配置的详细扫描结果,包括资源类别、资源名称、命名空间、检查类型、检查项、检查结果等内容。

检查项

配置巡检功能会扫描并展示以下检查项的扫描结果。

检查项ID

检查项

检查的内容及安全风险

修复建议

hostNetworkSet

禁止容器共享主机的网络命名空间

通过检查Workload的Pod spec中是否配置了hostNetwork: true,检查是否配置了共享使用主机的网络namespace。如果配置了,存在Pod中容器攻击主机网络、嗅探主机网络数据的风险。

修改Pod spec,删除hostNetwork字段。

示例:1

hostIPCSet

禁止容器共享主机的IPC命名空间

通过检查Workload的Pod spec中是否配置了hostIPC: true,检查是否配置了共享使用主机的IPC namespace。如果配置了,存在Pod中容器攻击主机上进程、嗅探主机上进程数据的风险。

修改Pod spec,删除hostIPC字段。

示例:2

hostPIDSet

禁止容器共享主机的PID命名空间

通过检查Workload的Pod spec中是否配置了hostPID: true,检查是否配置了共享使用主机的PID namespace。如果配置了,存在Pod中容器攻击主机上进程、采集主机上进程数据的风险。

修改Pod spec,删除hostPID字段。

示例:3

hostPortSet

禁止容器内进程监听节点主机端口

通过检查Workload的Pod spec中是否配置了hostPort,检查是否配置了把容器中监听的端口映射到主机指定端口上。如果配置了,存在挤占主机可用端口以及被非预期的请求方请求容器端口的风险。

修改Pod spec,删除hostPort字段。

示例:4

runAsRootAllowed

禁止以root用户启动容器

通过检查Workload的Pod spec中是否未配置runAsNonRoot: true,检查是否未配置使用非root用户运行容器。如果未配置,存在被容器中的恶意进程入侵用户应用、入侵主机甚至入侵整个集群的风险。

修改Pod spec,增加runAsNonRoot: true

示例:5

runAsPrivileged

禁止以特权模式启动容器

通过检查Workload的Pod spec中是否配置了privileged: true,检查是否配置了允许以特权模式运行容器。如果配置了,存在被容器中的恶意进程入侵用户应用、入侵主机甚至入侵集群的风险。

修改Pod spec,删除privileged字段。

示例:6

privilegeEscalationAllowed

禁止容器内子进程拥有提升权限的能力

通过检查Workload的Pod spec中是否未配置allowPrivilegeEscalation: false,检查是否未配置禁止容器中的子进程拥有比父进程更高的权限。如果未配置,存在被容器中的恶意进程实现越权操作的风险。

修改Pod spec,增加allowPrivilegeEscalation:false字段。

示例:7

capabilitiesAdded

禁用非必需的Linux Capabilities

通过检查Workload的Pod spec中的capabilities字段,检查是否配置了允许容器中的进程拥有SYS_ADMIN、NET_ADMIN、ALL等特权Linux Capabilities。如果配置了,存在被容器中的恶意进程通过这些特权入侵用户应用、入侵或破坏组件和集群的风险。

修改Pod spec,根据实际需求只添加必需的Linux Capabilities,删除不需要的Linux Capabilities。

不依赖额外Linux Capabilities,删除所有不需要的Linux Capabilities。示例:

8

只添加必需的Linux Capabilities,删除所有不需要的Linux Capabilities。示例:9

notReadOnlyRootFileSystem

开启容器内的文件系统只读功能

通过检查Workload的Pod spec中是否未配置readOnlyRootFilesystem: true,检查是否未配置容器中的文件系统是不可修改的。如果未配置,则存在被容器中的恶意进程恶意修改系统文件的风险。

修改Pod spec,增加readOnlyRootFilesystem: true,如果有需要修改某个目录下文件的需求,可以通过volumeMounts实现。

示例:

10

如果需要修改某个目录下的文件,通过volumeMounts字段实现。

示例:11

cpuRequestsMissing

配置运行容器所需的最少CPU资源

通过检查Workload的Pod spec中是否未配置resources.requests.cpu字段,可以检查是否未配置运行容器所需的最少CPU资源。如果未配置,则Pod有被调度到资源紧张的节点上的风险,可能会出现容器内进程运行缓慢的情况。

修改Pod spec,增加resources.requests.cpu字段。

示例:

12

cpuLimitsMissing

限制运行容器可使用的最大CPU资源

通过检查Workload的Pod spec中是否未配置resources.limits.cpu字段,检查是否未配置运行容器所需的最大CPU资源。如果未配置,则存在被容器内的异常进程消耗大量节点资源,甚至把整个节点或集群的资源消耗殆尽的风险。

修改Pod spec,增加resources.limits.cpu字段。

示例:

13

memoryRequestsMissing

配置运行容器所需的最少内存资源

通过检查Workload的Pod spec中是否未配置resources.requests.memory字段,检查是否未配置运行容器所需的最少内存资源。如果未配置,Pod有被调度到资源紧张的节点上的风险,可能会出现容器内进程OOM的风险。

修改Pod spec,增加resources.requests.memory字段。

示例:

14

memoryLimitsMissing

限制容器可使用的最大内存资源

通过检查Workload的Pod spec中是否未配置resources.limits.memory字段,检查是否未配置运行容器所需的最大内存资源。如果未配置,则存在被容器内的异常进程消耗大量节点资源,甚至把整个节点或集群的资源消耗殆尽的风险。

修改Pod spec,增加resources.limits.memory字段。

示例:

15

readinessProbeMissing

配置容器就绪探针

通过检查Workload的Pod spec中是否未配置readinessProbe字段,检查是否未配置检测容器内应用能否正常处理请求的探针。如果未配置,则存在容器内应用异常无法处理请求时仍旧有请求发送,继而导致业务异常的风险。

修改Pod spec,增加readinessProbe字段。

示例:

16

livenessProbeMissing

配置容器存活探针

通过检查Workload的Pod spec中是否未配置livenessProbe,检查是否未配置检测容器内应用是否出现异常需要重启容器的探针。如果未配置,存在容器内应用异常需要重启容器才能恢复时未及时重启导致业务异常的风险。

修改Pod spec,增加livenessProbe字段。

示例:

17

tagNotSpecified

容器使用明确的镜像版本

通过检查Workload的Pod spec中的image字段的值是否未包含镜像Tag或者使用了latest作为镜像Tag,检查是否未配置运行容器时使用指定Tag的容器镜像。如果未配置,存在运行容器时运行了非预期的容器镜像版本导致业务异常的风险。

修改Pod spec,修改image字段,使用指定的镜像Tag,并且不要使用latest作为镜像Tag。

示例:

18

anonymousUserRBACBinding

禁止匿名用户访问集群

通过检查集群内的RBAC(Role-based access control)绑定找出配置了匿名用户访问权限的配置项。如果配置了允许匿名用户访问集群资源的配置项,则存在被恶意匿名用户窃取集群敏感信息、攻击和入侵集群的风险。

修改扫描出来的RBAC绑定,根据实际情况删除允许匿名用户访问集群资源的权限配置项。

示例:

z-1

事件

事件类型

事件名称

事件内容示例

事件说明

处理措施

Normal

SecurityInspectorConfigAuditStart

Start to running config audit

开始执行巡检任务。

无需处理。

Normal

SecurityInspectorConfigAuditFinished

Finished running once config audit

巡检任务执行完成。

无需处理。

Warning

SecurityInspectorConfigAuditHighRiskFound

2 high risks have been found after running config audit

巡检执行完之后,发现部分工作负载存在未修复的高风险检查项。

  1. 在集群的配置巡检页面的巡检详情页签,查看详细的巡检结果。

  2. 按需过滤选项中的是否有风险命名空间工作负载类别,过滤查看有风险的工作负载。

  3. 单击详情,查看该工作负载中每个检查项的检查结果。

    • 对于确认无需修复的检查项,单击加白名单,将该检查项加入白名单。

    • 对于确认需要修复的检查项,单击详情,参考加固建议进行修复。