ECS使用成熟度评估与洞察(ECS Insight)会从基础能力、成本洞察、自动化能力、可靠性能力、弹性能力、安全能力六个维度,对ECS的使用成熟度进行评估,并提供优化建议。
评估维度说明
评估维度 | 说明 |
评估当前账号下所有ECS和关联资源分布是否合理,识别业务在性能、高可用等维度存在的潜在风险,并提供对应的优化建议。 | |
评估当前账号下ECS的付费方式选择、实例规格与业务负载的匹配度、以及成本精细化管理是否合理,并提供对应的优化建议。 | |
评估用户在使用ECS和关联资源的过程中,是否使用了自动化能力提升ECS运维效率,并提供对应的优化建议。 | |
评估该账号下ECS是否存在单点稳定性隐患、以及业务高可用风险,并提供对应的优化建议。 | |
评估该账号下ECS资源的弹性能力使用情况,以及是否存在弹性风险,并提供对应的优化建议。 | |
评估该账号下的ECS及关联资源是否存在数据安全、网络安全和访问安全的风险,并提供对应的优化建议。 |
评估项等级说明
对于每个评估项,ECS Insight会给出不同的结果和对应的严重程度评估,各等级代表的评估结果及建议操作如下:
高危项(Critical):表示当前账号下资源的使用方式不符合该评估项的标准,且该问题属于高危风险,建议用户尽快根据最佳实践进行修复和优化。得0分。
警告项(Warn):表示当前账号下资源的使用方式不符合该评估项的标准,且该问题存在一定风险。建议用户根据最佳实践进行修复和优化。得分由具体评分标准而定。
提示项(Info):表示当前账号下资源的使用方式不符合该评估项的标准,但是该问题不严重。用户可以根据业务需要选择是否进行优化。得分由具体评分标准而定。
不参与评估(Not-Applicable):表示当前账号下资源不符合该评估项的评估门槛,暂时不做评估,用户无需关注。
得分项(OK):表示当前账号下资源的使用情况已经满足该评估项的标准,没有风险,用户无需关注。得该评估项分值的满分。
ECS基础能力
ECS基础能力主要评估当前账号下所有ECS和关联资源分布是否合理,识别业务在性能、高可用等维度存在的潜在风险,并提供优化建议。
该维度包含计算基础能力、存储基础能力、网络基础能力和API与资源管理基础能力四大分类,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
计算基础能力 | 评估该账号拥有的所有ECS实例在地域、可用区、实例规格族等分布是否合理。 | ECS实例的可用区分布均衡 | 检查账号下所有ECS实例对应的可用区分布是否合理,避免单可用区带来的稳定性风险。 | 10 |
| 是 | |
未保有经典网络类型的ECS实例 | 检查账号下是否保有经典网络类型的ECS实例,避免经典网络存在的安全风险。 | 10 |
| 是 | 请根据业务需要,将全部或部分经典网络类型的实例迁移至专有网络VPC。具体操作,请参见经典网络迁移到专有网络。 | ||
未保有已停售或过老规格族的ECS实例 | 检查账号下是否保有已停售或过老规格族(即没有待处理的因系统架构升级需迁移实例的事件)的ECS实例。 | 10 |
| 是 | 请尽快迁移已停售规格的ECS实例,提升ECS实例的稳定性。具体操作,请参见实例因底层升级需迁移。 | ||
存储基础能力 | 评估本账号在磁盘使用上是否合理。 | 未保有普通云盘 | 检查账号下是否保有已停售的EBS云盘类型。 | 10 |
| 是 |
|
未保有过老的本地盘实例 | 检查账号下是否保有已停售的本地盘类型的实例。 | 10 |
| 是 | 请根据业务需求,对已停售的本地盘类型的实例上的数据进行备份后,释放过老的本地盘后购买新的本地盘类型的实例。搭载本地盘的实例类型,请参见大数据型和本地SSD型(i系列)。 | ||
网络基础能力 | 评估本账号下在过去一段时间内所有ECS实例对应的安全组配置是否合理。 | 保有非默认的安全组 | 检查账号下是否保有且使用了非默认安全组。 | 10 |
| 否 | |
API与资源管理基础能力 | 评估本账号下所有RAM用户(子账号)和资源分类的管理是否合理 | 使用标签对资源进行合理分组 | 检查账号下是否正确使用了标签进行资源分组。 | 20 |
| 是 | 建议您使用标签策略及时发现并定位未绑定指定标签键和标签值的资源,并为未打标签的ECS实例打上2个以上的用户标签。更多信息,请参见使用标签策略实现标签自动检测、创建或绑定标签和标签设计最佳实践。 |
OpenAPI的调用成功率位于合理范围 | 检查账号下的OpenAPI调用是否存在大量失败。 | 20 |
| 是 | 请根据业务需要,关注OpenAPI的返回值是否符合预期。更多错误码详情,请参见ECS错误码。 |
成本洞察能力
ECS成本洞察能力主要评估ECS和关联资源付费方式的使用是否合理,以及是否进行了精细的成本管理和分析。
该维度包含基础的ECS成本分析能力、精细化的ECS成本洞察能力和成本分析能力三大分类,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
基础的ECS成本分析能力 | 评估账号下的资源是否使用了合适的成本管理方式,避免成本浪费或业务中断。 | ECS实例退款次数超过上限 | 检查账号下的包年包月实例当月退款次数是否达到配额上限。 | 5 |
| 是 | 对于临时使用的ECS实例,建议采用按量方式购买。更多信息,请参见按量付费。 |
使用节省停机模式 | 检查账号下已关机的实例是否采用节省停机模式关机,避免资源浪费。 | 10 |
| 是 |
| ||
存在因欠费而不可用的ECS实例 | 检查账号下是否存在因欠费而不可用的ECS实例。 | 10 |
| 是 | |||
存在因包月到期而不可用的ECS实例 | 检查账号下是否存在因包月到期而不可用的ECS实例 | 10 |
| 是 |
| ||
账号可用额度小于100元 | 检查账号下余额是否小于100元 | 5 |
| 是 | 建议您尽快充值,以免影响您的业务使用。具体操作,请参见充值操作指引。 | ||
精细化的ECS成本洞察能力 | 评估该账号在过去一段时间是否使用了ECS高阶能力(比如升级)进行成本优化。 | 预付费的ECS实例开通自动续费功能 | 检查账号下包年包月的ECS实例是否设置自动续费,避免业务中断风险。 | 10 |
| 是 | 请根据业务需要,对于长期使用的ECS实例开通自动续费,减少手动续费的管理成本,避免因忘记手动续费而导致ECS实例服务中断。更多信息,请参见自动续费。 |
预留实例券的使用率正常 | 检查账号下预留实例券的使用率是否偏低。 | 10 |
| 是 |
| ||
节省计划的使用率正常 | 检查账号下节省计划的使用率是否偏低。 | 10 |
| 是 | 阿里云建议您日常监测已购买的节省计划使用情况,并根据业务变动及时调整节省计划的配置,以获得更好的成本效益。阿里云为您提供了节省计划使用率和覆盖率报告,您可以结合查询与优化节省计划使用情况中的指导建议或参见节省计划购买方案测算页面的建议对节省计划进行优化。 | ||
节省计划即将到期 | 检查账号下是否存在剩余有效期小于30天的节省计划。 | 5 |
| 是 | 在节省计划到期之前,您可以随时选择手动续费或设置自动续费,以延长节省计划的使用时间。您可以在节省计划概览控制台续费节省计划,或进入费用与成本中心,参见续费管理/资源续订使用介绍指引完成续费或设置自动续费操作。 | ||
成本分析能力 | 评估该账号在过去一段时间是否使用了阿里云提供的成本分析工具进行成本分析与成本优化。 | 使用财务单元和费用标签进行分账管理 | 检查账号下是否使用财务单元和费用标签进行成本管理。 | 10 |
| 否 | 请根据业务需要,使用财务单元和费用标签进行分账管理,可以根据具体资源用量和分拆费用为企业内部分账提供参考依据。更多信息,请参见分账明细和使用标签实现成本分摊管理。 |
使用了预算管理功能 | 检查账号下是否使用预算进行成本管理。 | 5 |
| 否 | 请根据业务需要,使用预算管理功能对成本进行精细化管理。更多信息,请参见预算管理。 | ||
存在未使用的闲置资源 | 检查账号下是否存在未使用的闲置资源。 | 10 |
| 是 | 如果该资源不再使用,建议您释放该资源以节省成本。 |
自动化能力
ECS自动化能力主要评估用户在使用ECS和关联资源的过程中,是否使用了自动化能力提升ECS运维效率,并提供优化建议。
该维度包含自动化基础能力、自动化进阶能力与自动化高阶能力三大分类,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
自动化基础能力 | 评估该账号在过去一段时间是否使用了自动化工具。 | 使用了ECS的OpenAPI进行运维管理 | 检查账号下是否通过OpenAPI调用进行ECS实例管理。 | 10 |
| 否 | 请根据业务需要,使用相关API进行对应管理操作,提高操作效率。更多信息,请参见API概览。 |
使用最新的SDK创建和管理ECS等资源 | 检查账号下是否使用最新的SDK创建或管理ECS实例,提升运维效率。 | 10 |
| 否 | 请根据业务需要,使用最新的SDK创建或管理ECS等资源,提升云上资源管理效率。更多信息,请参见通过SDK创建并使用ECS实例。 | ||
使用最新的CLI创建和管理ECS等资源 | 检查账号下是否使用最新的CLI创建或管理ECS实例,提升运维效率。 | 10 |
| 否 | 请根据业务需要,使用最新的CLI创建或管理ECS等资源,提升云上资源管理效率。更多信息,请参见通过CLI使用ECS实例。 | ||
自动化进阶能力 | 评估该账号在过去一段时间是否使用了自动化进阶能力。 | 使用资源编排(ROS)一键交付ECS等资源 | 检查账号下是否使用资源编排ROS交付资源,提升运维效率。 | 10 |
| 否 | |
使用云助手进行运维管理 | 检查账号下是否使用云助手进行部署和运维,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用云助手完成ECS实例的日常运维,包括执行命令、上传文件等,以提升运维效率。更多信息,请参见云助手概述和使用云助手。 | ||
使用系统运维管理(OOS)进行自动化运维管理 | 检查账号下是否使用系统运维管理(OOS)进行运维,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用OOS进行ECS的批量操作,包括批量操作实例、定时开关机、带宽临时升级等,提升实例管理效率。具体操作,请参见批量操作实例、定时开关机、带宽临时升级。 | ||
自动化高阶能力 | 评估该账号在过去一段时间是否使用了自动化高阶能力。 | 使用系统运维管理(OOS)的定时、告警或事件触发方式进行自动化运维管理 | 检查账号下是否使用系统运维管理(OOS)的定时、事件或告警运维,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用OOS的定时、告警或事件触发的自动化运维响应,提升运维的自动化程度和效率。具体操作,请参见参考定时运维、创建告警运维任务、创建事件运维任务。 |
使用补丁管理进行运维管理 | 检查账号下是否使用补丁管理服务对ECS实例进行系统补丁扫描或安装,提升实例的安全性。 | 10 |
| 否 | 请根据业务需要,使用补丁管理功能自动升级系统补丁,提升操作系统的安全性。更多信息,请参见补丁管理概述。 | ||
使用软件包进行运维管理 | 检查账号下是否使用软件包进行应用的管理或升级,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用软件包对不同团队使用的软件进行统一管理,提升云上管理效率。具体操作,请参见批量管理自定义扩展程序。 | ||
使用系统运维管理(OOS)的公共模板或自定义模板创建镜像 | 检查账号下是否使用系统运维管理(OOS)的模板创建镜像,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用OOS的自定义模板创建自定义镜像,提升镜像管理效率。具体操作,请参见使用OOS创建自定义镜像。 |
可靠性能力
ECS可靠性能力主要评估ECS是否存在单点稳定性隐患、以及业务高可用风险,并提供优化建议。
该维度包含实例稳定性、性能可靠性和应用可靠性三大分类,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
实例稳定性 | 评估该账号在过去一段时间是否对重要的ECS实例主动进行运维规避,提升单个实例的稳定性体感。 | 及时响应计划内运维事件 | 检查账号下是否存在待处理的运维事件,提升实例稳定性。 | 10 |
| 是 | 请根据业务需要,查看并响应ECS系统事件,并设置事件驱动的自动化响应,及时规避业务风险。具体操作,请参见查询和响应ECS系统事件和设置事件通知。 |
ECS实例未出现被动停机 | 检查账号下是否存在因欠费或安全问题导致ECS实例被动停机,提升实例稳定性。 | 10 |
| 是 | |||
最近7天有创建快照进行数据备份 | 检查账号下过去7天是否有创建新的快照,提升实例数据可靠性。 | 10 |
| 否 | 对于重要的ECS实例,建议您设置自动快照策略,周期性进行数据备份。具体操作,请参见创建自动快照策略。 | ||
性能可靠性 | 评估该账号在过去一段时间是否存在性能表现异常的ECS实例,并采取对应的措施规避性能引发的可靠性问题。 | ECS实例的CPU使用率过高 | 检查账号下是否存在CPU使用率偏高的ECS实例,提升业务可靠性。 | 10 |
| 是 | 请根据业务需要,对ECS实例的CPU使用率进行监控设置与报警,在CPU使用率异常时及时采取行动,避免影响业务正常运行。具体操作,请参见设置ECS实例报警。 |
ECS实例的内存使用率过高 | 检查账号下是否存在内存使用率偏高的ECS实例,提升业务可靠性。 | 10 |
| 是 | 请根据业务需要,对ECS实例的内存使用率进行监控设置与报警,在内存使用率异常时及时采取行动,避免影响业务正常运行。具体操作,请参见设置ECS实例报警。 | ||
云盘的磁盘空间使用率过高 | 检查账号下是否存在磁盘空间使用率偏高的EBS云盘,提升业务可靠性。 | 10 |
| 是 | 请根据业务需要,对ECS实例的磁盘使用率进行监控,并根据业务需要及时对磁盘空间使用率较高的磁盘进行扩容,提前规避业务风险。具体操作,请参见设置ECS实例报警。 | ||
云盘性能指标使用率过高 | 检查账号下是否存在使用率偏高的EBS云盘,提升业务可靠性。 | 10 |
| 是 | |||
ECS实例关联的安全组规则过多 | 检查账号下ECS实例关联的安全组规则是否过多 | 10 |
| 是 | 请根据业务需要,删除不需要的安全组规则,避免单个ECS实例关联的安全组规则过多。更多信息,请参见安全组应用案例。 | ||
ECS实例的网络性能状态正常 | 检查账号下是否存在网络性能受损的ECS实例,提升业务可靠性。 | 10 |
| 是 | 请根据业务需要,查看并响应对应的系统事件,避免网络性能受损影响业务正常运行。具体操作,请参见查询和响应ECS系统事件和设置事件通知。 | ||
应用可靠性 | 评估该账号在过去一段时间是否使用部署集功能提升整个应用的可靠性和可用性。 | 部署集使用合理 | 检查账号下是否使用部署集,提升集群的可用性。 | 10 |
| 否 | 请根据业务需要,创建部署集并调整实例所属的部署集,将ECS实例分散部署在不同的物理服务器上,提升业务的高可用性和底层容灾能力。具体操作,请参见部署集。 |
弹性能力
ECS弹性能力主要评估ECS资源的弹性能力使用情况,以及是否存在弹性风险,并提供优化建议。
该维度包含弹性基础能力、弹性进阶能力和弹性高阶能力三大分类,该分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
弹性基础能力 | 评估本账号在过去一段时间是否使用了ECS的基本弹性能力,比如是否使用弹性能力。 | 使用弹性进行频繁扩缩 | 检查存在频繁扩缩的特征时是否使用弹性的情况。 | 10 |
| 否 | 建议您根据业务需要,使用弹性伸缩,帮助您应对业务流量波动的同时,提高资源利用率,有效降低成本。具体操作,请参见弹性伸缩使用流程。 |
使用弹性进行大规模扩容 | 检查存在大规模扩缩容但是未使用弹性的情况。 | 10 |
| 否 | |||
弹性进阶能力 | 评估该账号在过去一段时间识别伸缩活动不活跃、组负载使用过高、伸缩活动成功率过低风险 | 最近一月伸缩组存在活跃伸缩活动 | 检查账号存在伸缩组长期不活跃的情况。 | 10 |
| 否 | 伸缩活动可能会因某些原因导致伸缩活动异常无法继续进行,您需要及时排查处理。更多信息,请参见排查伸缩活动异常。 |
弹性成功率在合理范围 | 检查账号下弹性成功率在合理范围内。 | 10 |
| 否 |
| ||
弹性伸缩组负载过高 | 检查弹性伸缩组负载较高。 | 20 |
| 否 | |||
弹性高阶能力 | 评估该账号在过去一段时间是否使用成本优化策略或者实例规格组合指定方式等高阶弹性能力提升弹性体验。 | 周期任务使用弹性竞价实例或者成本优化策略 | 检查该账号短周期任务是否使用SPOT或者成本优化策略。 | 20 |
| 否 | 您可以根据业务需要,利用弹性伸缩组来降低成本,更多信息,请参见利用弹性伸缩降低成本和设置扩缩容策略和多实例规格降低成本。 |
使用弹性伸缩的多规格和多可用区配置能力 | 检查账号下的伸缩组是否存在弹性成功率低的风险,提升弹性扩容成功率。 | 20 |
| 否 |
|
安全性能力
ECS安全性能力主要评估该账号下的ECS及关联资源是否存在数据安全、网络安全和访问安全的风险,并提供对应的优化建议。
该维度包含实例的数据安全能力、实例的访问安全能力和实例的网络安全,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
实例的数据安全能力 | 评估该账号在过去一段时间是否通过数据加密等能力提升实例的数据安全等级。 | 避免使用阿里云账号(主账号)进行日常功能操作(账号安全) | 检查是否存在直接使用阿里云账号(主账号)进行日常功能操作,为了提升账号安全。 | 15 |
| 是 | 推荐您使用RAM用户(子账号)、角色、账号组,提高账号安全性,保障业务安全。更多信息,请参见创建RAM用户和为RAM用户授权。 |
使用云盘加密能力提升数据安全性 | 检查账号下是否使用云盘加密能力,以提升数据安全性。 | 10 |
| 是 | 请根据业务需要,对系统盘或数据盘进行加密,提升云盘上的数据安全。具体操作,请参见加密云盘。 | ||
实例的访问安全能力 | 评估该账号在过去一段时间是否通过安全加固等能力提升ECS实例的访问安全能力。 | 使用密钥对(仅Linux) | 检查账号下是否使用密钥对登录Linux实例,提升实例的访问安全性。 | 10 |
| 否 | 请根据业务需要,使用密钥对登录Linux实例,提升实例访问安全性。具体操作,请参见通过密钥认证登录Linux实例。 |
使用非root账号登录Linux实例 | 检查账号下是否使用非root账号登录Linux实例,提升实例的访问安全性。 | 10 |
| 是 | |||
安全组的特定端口无限制访问 | 检查账号下安全组的特定端口访问是否无限制。 | 15 |
| 是 | 请根据业务需要,修改安全组的规则,添加对关键端口(20、21、1433、1434、3306、3389、4333、5432、5500)的访问限制。更多信息,请参见安全组规则和安全组应用案例。 | ||
ECS实例的操作系统即将停止维护或已经停止维护 | 检查账号下的ECS实例所使用的操作系统即将停止维护或已经停止维护。 | 10 |
| 是 | 当操作系统因生命周期、第三方支持、开源计划演进等原因停止技术支持后,建议您将操作系统迁移或升级至稳定的软件版本。更多信息,请参见操作系统迁移及升级。 | ||
实例的网络安全 | 评估该账号在过去一段时间内是否存在网络安全风险。 | ECS实例遭受DDoS安全攻击 | 检查账号下的ECS实例是否正在遭遇DDoS安全攻击。 | 15 |
| 是 | 请根据业务需要,设置清洗阈值,避免使用固定阈值可能导致的误清洗。具体操作,请参见设置流量清洗阈值。 |
ECS实例因挖矿等违法行为被封禁 | 检查账号下的ECS实例是否正在因挖矿等违法行为被封禁。 | 15 |
| 是 | 当收到实例被安全封禁事件时,您可以根据需要选择一种响应方式: |