治理成熟度检测提供专项检测-Lens能力,将卓越架构提供的指导扩展到特定行业和技术领域,帮助企业从特定行业需求或技术场景出发,对云资源进行精细化治理评估。通过专项检测-Lens功能,您可以选择并查看针对某一领域的专项检测模型,从而更精准地识别潜在风险、优化资源配置,并获得针对性的改进建议。
支持的专项检测-Lens
当前支持的专项检测-Lens如下:
容器构建
帮助构建容器防护体系,提供从部署、监控到运维风险的全面检测,持续保障容器安全、可靠基线。
机器学习
检测训练AI模型训练场景下的基础设施架构设计,包括核心资源ECS、NAS、OSS等与训练需求的匹配,确保符合任务要求。
网络服务
帮助深度巡检网络资源健康状态,提供多款网络产品资源的容量水位、容灾架构、资源闲置等检测,保障网络高可用性。
说明使用网络服务专项检测-Lens前,您需要先启用网络智能服务。
支持的检测项
每个专项检测-Lens支持的检测项如下表所示。
专项检测-Lens | 检测项 | 检测项说明 |
容器构建 | ACK集群存在未使用高可用实例规格 | ACK Pro托管版集群相比原托管版进一步增强了集群的可靠性、安全性和调度性,适合生产环境下有着大规模业务。未使用专业版的托管类型集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未启用成本套件 | 传统方式面对云原生场景缺少有效的成本洞察和成本控制的手段,成本套件提供了资源浪费检查、资源费用预测等功能。存在ACK集群未启用成本套件功能,则视为不符合最佳实践。 |
容器构建 | ACK集群存在未使用稳定版本 | ACK集群未升级到最新版本,则视为“不合规”。 |
容器构建 | ACK集群存在未开启删除保护 | ACK集群未开启删除保护,则视为“不合规”。 |
容器构建 | ACK集群存在未使用多可用区架构 | 使用区域级集群能够实现跨区域的容灾能力。使用区域级ACK集群,节点分布在3个及以上可用区,视为“合规”。 |
容器构建 | 存在ACK集群未配置Secret落盘加密 | Secret落盘加密可以使用您密钥管理服务KMS中创建的密钥加密Kubernetes Secret密钥,提升敏感信息的安全性。若存在未使用阿里云KMS进行Secret的落盘加密的ACK Pro集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未通过ack-ram-authenticator实现基于RAM的鉴权 | ack-ram-authenticator组件基于Kubernetes原生Webhook Token认证方式,实现通过RAM完成集群APIServer的请求认证。在SSO角色对接场景下,支持更安全地审计不同用户在扮演相同角色时对集群APIServer的访问请求。若存在未开通ack-ram-authenticator组件的ACK集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未通过策略治理限制容器特权配置 | 开启策略治理可以帮助企业安全运维管理人员更好地使用容器安全策略。若存在未开启任何策略管理的ACK集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未通过RRSA实现应用Pod维度的云资源访问权限隔离 | 通过RRSA可以在集群内实现Pod维度的OpenAPI权限隔离,从而实现云资源访问权限的细粒度隔离,降低安全风险。若存在未开启RRSA功能的ACK集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未开启APIServer审计日志 | 在Kubernetes集群中,API Server的审计日志可以帮助集群管理人员记录或追溯不同用户的日常操作,是集群安全运维中重要的环节。若存在未开启APIServer审计日志的ACK集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未开启控制平面组件日志 | 将日志从ACK控制层采集到您账号中的SLS日志服务的Log Project中,使您可以更方便进行运维审计、异常排查。若存在未开启控制平面组件日志的ACK集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未开启容器智能运维(CIS)集群配置巡检 | 容器智能运维CIS帮助您发现集群中存在的潜在风险,例如:云资源配额余量、Kubernetes集群关键资源水位等,排查风险项并根据推荐的解决方案修复问题。若存在未开启智能运维(CIS)集群配置巡检的ACK集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未开启集群安全配置巡检 | 配置巡检功能可以扫描集群中Workload配置的安全隐患并输出巡检报告。若存在未开启安全配置巡检的ACK集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未开启容器内部操作审计日志 | 容器内部操作审计功能可以方便您审计组织内成员或应用程序进入容器后执行的命令操作。若存在未开启内部操作审计日志的ACK集群,则视为“不合规”。 |
容器构建 | 存在ACK集群未使用托管节点池 | 托管节点池可以自动完成部分节点运维操作,例如高危CVE漏洞自动修复、部分故障修复等,从而降低您的节点运维负担。若存在未开启节点池托管功能的ACK集群,则视为“不合规”。 |
容器构建 | 存在ACK集群节点池未开启弹性伸缩 | 弹性伸缩可以按需弹出按量计费的实例,帮助您经济地自动调整弹性计算资源。若存在未开启节点池弹性伸缩功能的ACK集群,则视为“不合规”。 |
机器学习 | ECS实例未禁止绑定公网地址 | 防止ECS实例直接暴露在公网以减少被攻击的风险,建议通过NAT网关或负载均衡器接入公网。若存在ECS实例绑定了公网地址,则视为“不合规”。 |
机器学习 | 安全组入网设置0.0.0.0/0和任意端口 | 禁止安全组规则允许所有IP地址(0.0.0.0/0)从任意端口访问,必须限制为特定IP段和端口。若安全组的入网规则中存在0.0.0.0/0且未指定具体端口,则视为“不合规”。 |
机器学习 | 安全组对公网开放高危端口(22/3389/……) | 禁止安全组规则允许公网访问SSH(22)和RDP(3389)等高危端口,以防网络攻击和未经授权访问。若安全组对公网开放SSH(22)、RDP(3389)等高危端口,则视为“不合规”。 |
机器学习 | ACK集群存在未使用稳定版本 | ACK集群未升级到最新版本,则视为“不合规”。 |
机器学习 | OSS资源存在未使用多可用区架构 | OSS存储空间未开启同城冗余存储,则视为“不合规”。 |
机器学习 | ECS资源存在未开启释放保护 | ECS实例未开启释放保护,则视为“不合规”。 |
机器学习 | OSS存储空间存在未开启版本控制 | 如果OSS实例没有开启版本控制,会导致数据被覆盖或删除时无法恢复。OSS实例未开启版本控制,则视为“不合规”。 |
机器学习 | NAS文件系统未创建备份计划 | 为避免存储在NAS文件系统中的数据丢失或受损影响业务,建议您通过云备份服务定期备份通用型NAS中的所有目录及文件。云备份服务支持配置灵活备份策略,将数据备份至云端,您可以随时查看和恢复数据。为NAS文件系统创建备份计划,视为“合规”。 |
机器学习 | 存在ACK集群未配置Secret落盘加密 | Secret落盘加密可以使用您密钥管理服务KMS中创建的密钥加密Kubernetes Secret密钥,提升敏感信息的安全性。若存在未使用阿里云KMS进行Secret的落盘加密的ACK Pro集群,则视为“不合规”。 |
机器学习 | VPC未开启流日志记录 | VPC提供流日志功能,通过记录VPC中弹性网卡ENI传入和传出的流量信息,帮助您检查访问控制规则、监控网络流量和排查网络故障。VPC已开启流日志(Flowlog)记录功能,视为“合规”。 |
机器学习 | OSS存储空间未开启服务端加密 | OSS通过服务器端加密机制,提供静态数据保护。适合于对于文件存储有高安全性或者合规性要求的应用场景。OSS存储空间开启服务端KMS加密或OSS完全托管加密,视为“合规”。 |
机器学习 | VPC自定义网段未设置路由 | 您可以在专有网络VPC(Virtual Private Cloud)内创建自定义路由表,并在自定义路由表中添加自定义路由条目,然后将自定义路由表绑定至交换机来控制该交换机的流量,方便您更灵活地进行网络管理。VPC自定义网段在关联路由表中存在至少一条网段内IP的路由信息,视为“合规”。 |
机器学习 | ECS实例使用的镜像未定期更新加固 | 定期更新镜像可以确保操作系统和软件始终包含最新的安全补丁,减少被攻击的风险,同时确保服务器运行在最佳性能状态,在快速部署或恢复时快速启动并运作。ECS实例使用镜像的创建时间距当前的天数,当小于指定天数时,视为“合规”,参数默认值180天。 |
机器学习 | OSS存储空间权限策略未设置安全访问 | 相对于HTTP,HTTPS具有更高的安全性。OSS存储空间权限策略中包含了读写操作的访问方式设置为HTTPS,或者拒绝访问的访问方式设置为HTTP,视为“合规”。权限策略为空的OSS存储空间视为“不适用”。 |
机器学习 | NAS文件存储接入点未启用RAM策略 | 接入点策略是阿里云NAS推出的针对接入点客户端的自定义授权策略,可直接授权给同账号下的不同RAM用户或RAM角色挂载读写或允许使用root账号访问文件系统内资源的权限,更大程度地满足您的细粒度权限要求,从而实现更灵活的权限管理。NAS文件存储接入点启用RAM策略,视为“合规”。 |
机器学习 | ECS实例未被授予实例RAM角色 | 实例RAM角色是指为ECS实例授予的RAM角色,该RAM角色是一个受信服务为云服务器的普通服务角色。使用实例RAM角色可以实现在ECS实例内部无需配置AccessKey即可获取临时访问凭证(STS Token),从而调用其他云产品的API。由于临时身份凭证仅可在实例内部获取,并且无需配置AccessKey,这不仅确保了云账号AccessKey的安全性,还能够通过访问控制RAM实现精细化的控制与权限管理。ECS实例被授予了实例RAM角色,视为“合规”。 |
机器学习 | 运行中的ECS实例未安装云监控插件 | 云监控的主机监控服务通过在主机上安装云监控插件,为您提供主机的系统监控服务。当您需要通过云监控采集主机操作系统层面的监控指标,并对重要监控指标设置报警规则,以便及时关注其动态时,需要为主机安装云监控插件。运行中的ECS实例安装云监控插件而且插件状态为运行中,视为“合规”。非运行中状态的实例不适用本规则,视为“不适用”。 |
机器学习 | NAS文件系统未设置加密 | 当您对文件存储有高安全性或者合规性要求时,建议您开启服务器端加密功能。开启该功能后,NAS会对存储在文件系统中的数据进行加密,访问数据时,NAS自动将加密数据解密后返回给用户。NAS文件系统设置了加密,视为“合规”。 |
机器学习 | 运行中的ECS实例未开启云安全中心防护 | 云安全中心的安全防护能力,包括资产清点、风险发现、入侵检测、合规基线等,用于收集和分析多种日志和数据,以监控和检测服务器中潜在的安全威胁。通过在主机上安装云安全中心插件,提供主机的安全防护服务。如果有安装云安全中心插件则视为"合规"。非运行中状态的实例不适用本规则,视为“不适用”。 |
机器学习 | OSS存储空间未开启日志转存 | 访问OSS的过程中会产生大量的访问日志。您可以通过日志转存功能将这些日志按照固定命名规则,以小时为单位生成日志文件写入您指定的存储空间(Bucket)。对于已存储的日志,您可以通过阿里云日志服务或搭建Spark集群等方式进行分析。OSS存储空间的日志管理中开启日志转存,视为“合规”。 |
机器学习 | 未使用维护中的ACK版本 | Kubernetes社区每4个月左右发布一个次要版本,建议使用维护中的版本,过期版本集群存在安全隐患和稳定性风险。集群版本过期后,将无法享受新Kubernetes版本支持的功能特性及缺陷修复,无法获得及时有效的技术支持,面临无法修复安全漏洞的风险。使用的ACK集群版本未停止维护,视为“合规”。 |
机器学习 | ACK集群不应设置公网连接端点 | 开放的公网端点容易成为网络攻击的目标,通过访问控制,可以更好地限制访问权限。此外,通过公网传输敏感数据可能会违反合规要求。ACK集群未设置公网连接端点,视为“合规”。 |
网络服务 | EIP资源存在闲置 | EIP未绑定资源实例,且创建时间超过7天,则视为“不合规”。 |
网络服务 | VPN实例存在未使用多可用区架构 | 对于存量单隧道实例强烈建议您在控制台开启AZ高可靠,并同时配置双隧道与对端建立连接。如果VPN使用了单隧道实例,则视为“不合规”。 |
网络服务 | NLB实例存在未使用多可用区架构 | 对于网络负载均衡实例强烈建议配置多可用区,满足多可用区容灾。使用单可用区的网络负载均衡实例,视为“不合规”。 |
网络服务 | EIP资源存在运行状态异常 | 检查弹性EIP是否存在运行异常的资源。若EIP处于禁用或未激活状态,视为“不合规”。 |
网络服务 | NAT网关存在处理水位异常 | 检查在巡检周期间NAT网关的处理水位情况,包括识别并发连接数、新建连接数、流量处理速率和SNAT源端口超负载使用情况,帮助评估目前资源配置是否满足业务发展诉求,识别因资源水位不足导致业务受损的网络风险。在最近一次巡检间隔周期内,触发过“NAT会话超限丢弃连接”或“NAT新建会话超限丢弃告警”或“SNAT源端口分配失败告警”,或者NAT实例流量处理率过高,视为“不合规”。 |
网络服务 | VPN服务存在水位异常 | 检查在巡检周期间VPN服务水位情况,统计带宽超限风险和BGP动态路由传播超限的发生频次,帮助评估目前VPN服务健康度,识别因资源配置不足导致业务受损的网络风险。VPN实例SSL连接数过高或SSL VPN服务端客户端网段地址不足;或者在最近一次巡检间隔周期内,触发过BGP动态路由数量超限或者VPN带宽超限风险告警。以上情况,视为“不合规”。 |
网络服务 | ALB虚拟IP处理存在水位异常 | 检查在巡检周期间ALB虚拟IP的负载情况,包括识别会话、连接、QPS和带宽的负载情况,帮助评估目前资源配置是否满足业务发展诉求,识别因资源负载不足导致业务受损的网络风险。在最近一次巡检间隔周期内,触发过ALB会话超限导致新建连接丢失告警或连接失败数骤增告警或QPS超限告警或带宽超限丢包告警,视为“不合规”。 |
网络服务 | NLB虚拟IP处理存在水位异常 | 检查在巡检周期间NLB虚拟IP的负载情况,包括识别新建连接和并发连接的负载情况,帮助评估目前资源配置是否满足业务发展诉求,识别因资源负载不足导致业务受损的网络风险。在最近一次巡检间隔周期内,触发过NLB失败连接数骤增或新建连接丢弃告警或新建连接超限告警或并发连接超限告警,视为“不合规”。 |
网络服务 | VBR资源的BGP连接状态存在异常 | 检查在巡检周期间专线BGP连接的运行状态,统计专线端口异常的发生频次,帮助观测运营商专线链路的质量,及时发现稳定性风险。在最近一次巡检间隔周期内,触发过BGP连接故障,视为“不合规”。 |
网络服务 | CLB处理存在水位异常 | 检查在巡检周期间CLB的负载情况,包括识别会话、连接和带宽的负载情况,帮助评估目前资源配置是否满足业务发展诉求,识别因资源负载不足导致业务受损的网络风险。在最近一次巡检间隔周期内,触发过CLB带宽超限丢包告警或会话超限新建连接丢失告警或连接失败数骤增告警,视为“不合规”。 |
网络服务 | TR配置路由存在风险 | 基础版TR路由表路由条目数量已达到最大配额的80%,超出后新增路由将无法加载到TR路由表中,可能导致网络不通。基础版TR路由Quota已达到80%。 |
网络服务 | VBR未配置健康检查 | VBR上配置了静态路由指向云下,但是没有配置健康检查。若专线故障无法自动进行切换。CEN或者VBR上联未配置健康检查或者VBR上联没有配置健康检查,视为“不合规”。 |
网络服务 | VBR存在冗余缺失 | 检查VBR冗余配置的完整性,识别专线场景稳定性风险。VPC到VBR部分网段未配置冗余线路或完全未配置冗余线路。或者云企业网上的转发路由器(TR)到VBR部分网段未配置冗余线路或完全未配置冗余线路,视为“不合规”。 |
网络服务 | 物理专线存在端口异常 | 检查在巡检周期间物理专线端口的运行状态,统计BGP连接异常的发生频次,帮助观测运营商专线链路的质量,及时发现稳定性风险。在最近一次巡检间隔周期内,触发过专线端口或链路故障告警,视为“不合规”。 |
网络服务 | EIP带宽存在水位异常 | 检查在巡检周期间EIP带宽水位的使用情况,统计带宽利用率过高,或带宽超限丢包的发生频次,帮助评估目前资源带宽是否满足业务发展诉求,识别因带宽不足导致业务受损的网络风险。最近一次巡检间隔周期内,触发过公网带宽即将超限风险预警或超限丢包告警。最近一次巡检间隔周期内,弹性公网IP未检测出异常,若触发过公网带宽即将超限风险预警或超限丢包告警,视为”不合规“。 |
网络服务 | 跨地域带宽存在水位异常 | 检查在巡检周期间云企业网跨地域带宽水位的使用情况,统计带宽利用率过高或带宽超限丢包的发生频次,帮助评估目前资源带宽是否满足业务发展诉求,识别因带宽不足导致业务受损的网络风险。在最近一次巡检间隔周期里,触发过跨域连接带宽超限丢包告警或者跨地域连接的流量调度队列存在超过带宽限速导致丢包。 |
查看专项检测-Lens的检测结果
云治理中心每天会进行一次云上的治理成熟度状况检测(包含所有专项检测-Lens),您可以查看检测数据,并根据修复指引治理风险项。
登录云治理中心控制台。
在左侧导航栏,选择 下任意的Lens,查看检测结果。
下图以机器学习专项检测-Lens为例。
说明单击重新检测,手动获取Lens新的检测数据。
单击存在风险的检测项,然后在检测详情面板,查看检测数据详情和治理方案。