日常运维管理
运维是云平台持续、稳定、安全运行的保障,通过运维过程,满足对云基础设施的需求,对云上应用进行监控和告警、及时发现问题并处理和解决,并进行持续优化,这些是云管理团队的主要日常工作。
运维管理流程由CCoE基于企业现有运维管理流程,针对云运维的三个特点进行调整:
运维对象的不同:云基础设施不再需要对物理设备进行运维,运维界面也从不同设备的操作界面转为云平台提供的统一运维管理平台;
运维手段的不同:相比于传统基础设施,云平台通过提供大量的OpenAPI,使得运维团队能够应用更多的自动化手段实现运维需求;
优化方式的不同:由于云基础设施以服务方式提供各类资源和能力,因此运维和持续优化具有诸如采购云原生的运维工具、购买运维服务、践行最佳实践等更多的方式。
需求管理与资源开通
云平台的弹性,使得云资源的开通变得更加便利,能够敏捷满足各类需求。但是对于企业而言,仍然需要规范对云资源的需求,以及对云资源的开通。企业有两种对云资源的需求和开通进行管理的方式:
平台运营型。在这种方式下,云管理团队将资源开通的权限,通过授权的方式交由需求方直接开通,做事后管理;
运维管理型。在这种方式下,云管理团队工作与传统运维模式类似,根据需求方提出的正式需求进行评审,随后操作资源开通。
第一种方式容易引起Landing Zone所构建的架构体系,和CCoE追求的良好云上架构失控,从而进一步导致云战略目标无法完美达成,但是充分发挥了云资源的弹性,使得需求方能够迅速满足对资源的需求。第二种方式牺牲了云资源面向直接使用方的弹性和敏捷性,换来了管理的规范性。
通常建议针对不同的场合平衡两种方式的基本策略:
针对开发、测试等非敏感环境,可以采用第一种方式。
针对正式生产环境,或敏感应用,建议采用第二种方式。
在第二种方式提出需求后,或第一种方式上线前,进行云资源规范性评审,避免形成技术债务。
对常用云资源形成模板,基于模板开通资源
如具备一定技术能力,可通过基础设施自动化进行系统化管理
无论使用哪种方式,运维团队都需要参照Landing Zone执行与之相关的管理动作,即使采用第一种方式,也需要进行事后的监督和管理。
相比于传统资源,运维团队还需要考虑充分应用云资源的以下特性:
云资源的弹性对于调整环境配置极为友好,因此调整配置应当作为运维服务的一部分
大部分云资源都是开箱即用的,无需囤积资源,应定期清理闲置资源
对于小规模突破Landing Zone和其他规则的云资源需求,在费用可控、外部影响有限的情况下应当允许需求方有所创新,作为持续引入的基础
监控与观测
监控和观测,以及与之相关的告警作为大部分日常运维工作的关键,需要关注的云平台能力分为两个部分:
基础监控:通过云平台提供的监控能力,对IT设施基础和网络质量进行监控,是基于事件、自定义指标和日志的业务监控,为企业全方位提供更高效、全面的监控服务,及时发现故障,提升系统服务可用时长,降低企业IT运维监控成本。阿里云上对应于“云监控”产品
应用监控:针对云原生应用,实现全栈性能监控与端到端追踪诊断,提高监控效率,减少运维工作量,覆盖浏览器、小程序、APP、分布式应用、容器等不同可观测环境与场景,进行应用监控和用户体验监控。阿里云上对应于“应用实时监控服务 ARMS”产品。
云管理团队优先实现覆盖所有云资源的基础监控。在企业大规模使用云计算的情况下,应用监控也已经变得非常重要,帮助企业建立面向云原生应用的统一应用监控。
巡检
巡检是针对一段时间的监控和观测情况,结合过程中的各类事件等,周期性地对云上架构和资源情况进行复审。CCoE通过巡检过程关注云上良好架构,对技术采用、Landing Zone基线、技术扩展和引入、架构债务进行复审。运维管理团队通过巡检过程关注云上资源情况,对云资源、安全、权限、成本情况进行复审。复审的目标在于为风险和问题的识别、防护、治理提供输入。
运维管理团队的巡检过程通常是全方位的,企业IT需要制定标准,兼顾基础设施、技术框架、应用等各个方面,在针对云资源的巡检过程中,需要关注额外的内容包括:
安全
新开通或发生变更的资源,其涉及到的南北向和东西向防护,会偏离安全防护基线,需要巡检中核对基线并安排修复
云上资源的权限配置和账号的身份权限,是否符合安全防护基线要求
因各种原因未采用的安全产品和安全措施,是否与巡检周期内出现的安全事件相关,是否需要引入新的安全产品和技术进行防护
云平台的安全中心服务,具备威胁检测、响应、溯源的自动化安全运营闭环能力,云安全中心的提示需要做重点关注和解决
资源
通过导出云资源清单,与上次巡检的清单进行对比,核对资源实际变更情况与变更请求是否一致,尤其是在云资源的开通、变更等权限交由需求方自助的情况下
对巡检周期内的业务连续性情况进行判断,评估云资源的稳定性的同时,对高可用架构进行复审
针对监控中的异常事件进行原因定位,例如SLB延迟过大、5xx错误等,此类事件可能一时不影响业务,但是存在故障隐患
对非异常事件进行检查,以找到资源优化空间,例如ECS负载过高和过低的情况,发现的问题有助于进行持续优化
监控及自动化
所有巡检中发现的问题,一旦判断为监控缺失或配置错误造成的误报或者漏报,需要调整监控项和监控阈值
在巡检中发现的问题,如果存在共性,建议考虑开发自动化脚本和应用进行持续跟踪和优化
优化
基于监控与观测行动,结合巡检,CCoE关注架构上的优化,这项工作与Landing Zone基线变更、技术持续引入等工作相关,以达成云战略的目标
云管理团队关注各类配置基线、安全、稳定性和成本方面的优化,这项工作与风险识别/防护/治理、问题处理等工作相关,并可因此加强基础设施自动化
事后巡检发现的问题应当推动云资源的规划、引入、运维的流程优化
费用和成本
由于云资源为成本管理和优化提供了更多的数字化支撑,因此巡检和资源对账过程可以整合在一起,以更好评估云战略的投入。
云资源通过标签等方式,可以具体出具云上各个应用对应的成本信息,这部分信息有助于CCoE及业务团队评价业务本身的ROI。
以上巡检不是巡检的全部,无论是计算、网络、存储这样的IaaS,还是数据库、中间件、大数据这样的PaaS,都需要同时包括应用、架构、资源三个方面的巡检,但云资源的容量和配置巡检是运维管理团队的主要工作。大部分巡检工作都可以通过云平台提供的API工具进行数据采集和分析,很多企业大数据上云的第一步,就是运维大数据上云。
备份
备份是稳定性保障的兜底,在故障后的恢复过程中,保证生产环境的数据尽量少丢失。
备份的主要对象是企业需要持久化保存的结构化和非结构化数据,不仅仅是业务数据,也包括应用程序、配置信息等运营运维相关的IT数据。备份是运维的日常工作,云技术降低了备份的难度和成本,有助于运维管理为企业提供更强的备份能力。
任何含有企业进行持久化数据保存的云资源都需要进行备份评估,计算、存储、中间件、数据库、大数据等产品都会涉及。具体的备份方案和实施步骤在产品文档和最佳实践中都有体现,不同产品的备份方式并不一致,运维管理团队需要为备份建立单独的策略和基线,并为备份及恢复制定流程规范并进行演练。
存储和数据库备份对于传统IT运维而言已经非常熟悉,一些云技术有助于运维管理团队基于云技术更好地针对混合云场景进行备份工作:
数据库备份(Database Backup,简称DBS)可以为多种环境的数据库提供强有力的保护,包括本地数据中心、其他云厂商、公共云及混合云。
混合云备份HBR(Hybrid Backup Recovery)可以为阿里云ECS整机、ECS数据库、文件系统、NAS、OSS、Tablestore以及自建机房内的文件、数据库、虚拟机、大规模NAS等提供备份、容灾保护以及策略化归档管理。
云平台进行数据备份的核心产品是云存储服务(阿里云对象存储OSS),存储服务通常提供多种存储类型,具有不同的特性,成本也不同。在备份策略制定中,可以通过采用低成本存储类型满足非关键性需求,以降低备份成本。
外部运维资源
云服务商会提供云运维相关的专家服务,针对云上系统稳定高效运行、应对业务高峰的需求,提供面向各类云产品的架构检查等运维管理服务。内容包括:

MSP(Managed Service Provider)作为原厂的伙伴,同样能够为企业提供产品或服务的交付能力,为客户设计、架构、搭建、迁移和管理其在云上的工作负载和应用程序。
企业通过MSP提供的服务,能够帮助企业:
通过驻场和个性化服务,弥补企业云管理团队在技能或人员上的不足,部分企业会将整个云管理工作外包给MSP;
提供更加实时的响应,能够在问题发生的第一时间介入现场,快速定位问题,并能够解决大部分常见问题;
更加了解企业的云战略和云应用现状,提供专业的运维管理和持续优化建议,让云技术更紧密地贴合企业需求。
对于跨平台场景,提供混合云或多云管理平台和服务,为企业建立一站式的基础设施运维和管理提供助力。
运维管理工具
企业的日常运维需要一个用于管理和运营企业业务连续性的平台,具备监控集成、报警降噪、事件通知和流转、基于ITIL的故障管理等功能。帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更连续的业务体验。

运维事件中心平台通过提供上图展示的能力,以支持:
多监控系统集成:支持10+常见监控系统集成,简单配置即可快速完成对接;
灵活的报警降噪能力:支持横向抑制、纵向收敛,全面压制报警风暴,不再遗漏核心报警;
大幅降低事务性操作:完善的事件分配、通知机制,避免重复事务性操作,提升运维效率;
阿里巴巴故障管理最佳实践输出:帮助云上企业构建故障管理体系,持续提升业务连续性。
从具体的使用场景来看,主要包含两个方面:
1、一站式运维事件管理
在该场景下,运维事件中心平台可以满足各类监控场景下报警统一事件化管理需求,支持集成对接各监控系统,支持服务器自定义推送异常事件,对报警、事件、故障进行全流程一站式管理,提升企业运维效率。

在一站式运维事件管理的场景下,通过运维事件中心平台可以帮助企业解决如下典型问题:
多源监控集成:将多个常见监控系统集成,简单配置即可完成集成对接。
报警统一处理:将报警进行集中降噪处理,抑制收敛,避免报警风暴。
事件闭环管理:对报警生成事件进行全生命周期管理,避免遗漏
2、体系化故障闭环管理
运维事件中心平台将满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。

在体系化故障闭环管理的场景下,通过运维事件中心平台可以帮助企业解决如下典型问题:
故障应急:将故障全局应急通告,通过电话、短信、邮件、IM等多种通知渠道,加快信息流转。
故障跟踪:对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理与协同,提升故障处理效率。
故障复盘:基于最佳实践经验,沉淀对故障进行深度复盘的结构化要求,形成了线上检查点,以产品的方式承载流程落地。
故障改进:对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进。