资源静态配置风险巡检与治理方案
方案概述
对于已上云客户,控风险是客户关注的关键因素之一。很多企业选择上阿里云就是希望能够借助云平台的高可用性来提升业务的SLA。如何高效、全面地帮助云上客户发现云资源配置方面存在的风险,是提升企业业务连续性非常关键的组成部分。
本方案提供一站式巡检云资源的静态配置,全面高效地识别云资源配置风险,减少因配置不当导致的系统故障。
方案优势
提供更全面的资源巡检规则
客户对云的熟悉程度有限,导致制订的巡检规则不全。而基于这套方案,能够直接享受到阿里云提供的最佳巡检规则列表,更全面。
提供更稳定地巡检平台
相较于企业自建巡检平台,通过配置审计(Config)来做资源风险巡检,依托于云平台自身的系统稳定性,可以享受更高的系统稳定性。
客户场景
有巡检意识,但缺工具与经验
场景描述
客户运维人员有云资源风险巡检意识,但缺乏工具支撑,运维人员没有开发能力去写巡检脚本,同时缺乏最佳实践,不清楚要检查哪些配置项。
适用客户
需要对云资源进行巡检
运维团队没有系统研发能力
有巡检意识,且有脚本化工具
场景描述
客户运维人员有云资源风险巡检意识,并且客户运维人员有研发能力,通过编写脚本来扫描各云资源配置,识别风险但缺乏最佳实践,不清楚检查的范围是否全面。
适用客户
需要对云资源进行巡检
缺乏云资源使用的最佳实践
企业内部有安全合规基线但缺运维巡检场景
场景描述
企业内部有明确的安全合规基线要求,但缺乏运维场景的资源风险审计。
适用客户
典型的MNC企业
关注资源稳定性
客户案例
客户背景
某游戏公司,其运维团队编写了一套面向资源巡检的脚本。定期分析云资源是否存在风险,如:是否存在开公网的RDS实例。
客户需求
通过脚本的方式定期巡检云资源风险隐患,存在一个比较大的稳定性问题,比如跑脚本的这台主机异常了。还得维护这套脚本,本身也是一个工作负担。另外客户对于巡检规则定义的也不是很全面,有些关键的规则遗漏掉了。所以客户希望能够有一套云生的巡检平台,能够把在用的资源关键配置风险巡检出来。
实施方案
客户巡检主要包括两部分:
面向资源配置层面:通过配置审计(Config)开启资源稳定性合规包,可以准确全面巡检出多账号内资源是否存在风险。
面向主机配置层面:通过配置审计、函数计算,定期对主机配置进行巡检,可以快速发现主机上是否存在配置异常。
客户收益
对比维度 | 过去 | 现在 |
研发效率 | 新增一条规则,需要从0到1研发 | 开箱即用 |
运维效率 | 部署在一台主机上,定期维护脚本 | 免运维 |
稳定性 | 取决于单机稳定性 | 取决于云平台级别的稳定性 |
方案架构
架构图
架构分两个层面
规则层面:源于阿里在运维领域的最佳实践、服务众多大客户在运维稳定性的实践经验总结。
产品层面:通过Config一键开启资源稳定性合规包,分钟级查看有风险的资源报表,并对有风险的资源提供治理建议,实现风险治理闭环。
产品费用及名词
产品费用
产品名称 | 产品说明 | 产品费用 |
资源目录(RD) | RD(Resource Directory,资源目录)是面向企业客户提供的一套多级账号和资源管理服务,使得企业IT团队可以轻松管理多个阿里云账号和集中化管理账号内的云资源。 | 免费,详情参见官网链接。 |
配置审计(Config) | 配置审计(CloudConfig)是一项面向资源的审计服务。在面对大量资源时,配置审计可以帮助您实现持续的基础设施的合规监管。 | 配置审计公测期间所有阿里云有效账号均可免费使用。但具体涉及到其他服务,详情计费参考链接 |
名词解释
云上已经有了像云监控这样的产品,为什么还需要去做巡检。这里介绍一下监控与巡检的主要区别:
监控和巡检的主要区别:
时效性。监控的时效性较强,通常以秒为单位采集指标;而巡检一般是小时级甚至天级,亦或是不依赖周期性运行,运维人员按需主动手工触发巡检。
关注点。监控的强时效性决定了监控指标一般具有很强的时间连续性,监控通常关注指标的当前值(瞬时值)以及指标在一段时间内的变化趋势;而巡检关注的是当前巡检用例通过还是不通过。
数据源。监控一般通过监控agent从单一数据源获取监控指标;而巡检对象通常会组合多个数据源的指标或存在复杂的组件关联、上下游依赖。
安全性
资源目录角色权限
资源目录服务关联角色(AliyunServiceRoleForResourceDirectory)为资源目录集成服务提供可信访问通道,详情参见资源目录服务关联角色。
配置审计服务关联角色
配置审计服务关联角色(AliyunServiceRoleForConfig)是在某些场景下,为了完成配置审计的某个功能,需要获取其他云服务的访问权限而提供的RAM角色。详情参见配置审计服务关联角色。
配置审计管理员角色
运维人员为了能够正常开启这个审计合规包,需要有配置审计产品的管理员权限。相应的RAM授权:AliyunConfigFullAccess。
注意事项
配置审计支持产品列表
配置审计目前正在努力覆盖阿里云的云产品和事件,但目前支持的产品和事件类型有限。
支持 几十款阿里云产品的资源配置数据。请持续关注支持的产品列表。
通常情况下,资源配置巡检信息会在1~2分钟内完成。
实施步骤
实施时长
在实施准备工作完成的情况下,本方案实施预计时长:3分钟。
实施准备
请确保您已开通资源目录。具体操作,请参见开通资源目录。
在您使用配置审计之前,必须先授权配置审计服务。具体操作,请参见企业管理账号快速入门。
操作步骤
注意,以下操作均是在资源管理主账号进行。
新建账号组
登录配置审计控制台。
在左侧导航栏,单击账号组。
在账号组页面,单击新建账号组。
在新建账号组页面,先设置账号组名称和描述,再单击添加成员。
在资源目录中选中目标成员账号,单击确定。
单击提交。在账号组列表中,目标账号组的状态为创建完成,说明新建账号组成功。您还可以查看目标账号组的名称、描述、成员账号数量、账号组类型和创建时间。
建议:可以把生产业务相关的账号统一放到生产账号组。这样可以对生产账号组开启相同的合规包。
启用合规包
登录配置审计控制台。
在左侧导航栏,单击合规包。
在合规包页面,单击目标账号组页签。
在目标账号组页签,单击右上角的启用合规包,选择“资源稳定性最佳实践”这个合规包。
在基本信息页面,设置合规包名称和风险等级,单击下一步。
在选择规则页面,从合规包模板、规则列表或托管规则中选择规则,单击下一步。
在规则设置页面,设置规则的名称、风险等级、描述和参数,单击完成。
查看合规报告
登录配置审计控制台。
在左侧导航栏,单击合规包。
在合规包页面,单击目标账号组页签。
在目标账号组页签,单击目标合规包名称或合规包名称对应操作列的详情。
在合规包详情页面,查看合规检查的基本信息和检查结果。
不合规事件告警
对于不合规的资源,需要触发告警事件给企业员工。采用云监控来触发报警通知,配置链接 。
云监控配置报警
创建报警联系人
创建报警联系组
创建系统事件报警规则。
注意!这里的关键词过滤不要填错了,否则会导致报警不出来。