系统运维管理OOS

阿里云系统运维管理(CloudOps Orchestration Service, OOS),是阿里云提供的云上自动化运维服务,能够自动化管理和执行任务。您可以通过模板来定义执行任务、执行顺序、执行输入和输出,然后通过执行模板来完成任务的自动化运行。本文介绍如何使用系统运维管理OOS管理ECS。

应用场景

系统运维管理OOS常见的应用场景如下表所示:

场景

描述

事件驱动的自动化场景

当一个事件发生时,触发一个运维动作。事件驱动场景可以提供主动运维支持,免去中间的人为因素,提高运维效率。

例如,当某台ECS实例的vCPU使用率达到了85%时,为了防止业务中断,可以通过系统运维管理OOS自动重启ECS实例。

批量操作

批量地执行运维命令,即需要针对多个目标(如ECS实例)进行常规操作,以确保业务的正常和平滑运行,并保持业务的健康状态。

例如,需要批量检查ECS实例中的云盘剩余空间,您可以通过名称匹配、标签分组、资源组分组等方式选择需要检查的ECS实例列表,再使用云助手命令执行云盘检查,并最终统一查看结果。

需要审批的场景

在很多场景下都需要使用审批来确保操作是安全并符合预期的。通过在模板中增加审批动作(ACS::Approve)可以在运维动作实际执行前进行人工审批,以确保运维动作执行的必要性,避免浪费和误操作。

定时任务

定时执行所定义的运维动作。例如,使OSS定时开关机节省成本、自动定时重启ECS云服务器等。

跨地域的运维场景

多地域部署已经成为了高可用(HA)架构的通用架构。随之而来的跨地域运维却变得越来越复杂,使用OOS可以帮助您解决跨地域的运维难题。您可以将不同地域的运维操作定义在一个模板内,即可实现跨地域的运维场景。

多地域的运维场景

当您在使用多个地域资源时,经常需要对它们进行同步操作,以便保持它们的一致性。例如,将对象存储(OSS)的多个地域的存储空间(Bucket)进行相同的操作——开启日志功能。

系统运维管理OOS还可作为运维任务的标准化平台,通过将运维手册、操作手册和维护手册等转化为模板,来实现运维即代码(Operations as Code)。有关系统运维管理OOS更多场景详情,请参见应用场景

产品优势

OOS可以帮助您更好地规范、管理和执行自动化运维操作,从而提高整体运维操作的效率、增强运维操作的安全性。系统运维管理具有以下优势:

  • 可视化的执行过程和执行结果

  • 免费的全托管自动化

  • 高效的批量管理

  • 完备的鉴权和审计

  • 快速模板构建能力

  • 跨地域、多地域的运维能力

  • 标准化运维任务(Operations as Code)

  • 运维权限收敛(委托授权)

有关系统运维管理OOS产品优势详情,请参见产品优势

常见应用案例

系统运维管理OOS支持多种方式管理云服务器ECS,常见操作场景如下:

更多使用场景,请参见系统运维管理实践教程