管控中心提供运维窗口和运维事件两大模块,用于管理平台对项目空间内资源执行计划内变更的时间范围与事件记录。
模块说明
在全托管Serverless架构下,底层基础设施的计划内维护(如系统升级、节点轮转、热迁移)可能导致运行中的作业发生短暂Failover。通过管控中心,可将计划内变更限制在指定的运维窗口内执行,在业务高峰时段自动推迟变更,降低非预期中断对业务的影响。
运维窗口:自定义允许平台执行底层资源变更的时间范围。窗口期内,平台可执行无感迁移、节点轮转等操作;窗口期外,所有计划内变更将被自动推迟至下一个运维窗口执行。
运维事件:集中展示由平台发起的计划内维护操作记录,包括ECS实例维护、节点轮转、宿主机热迁移等。提供事件的全生命周期视图,支持事后追溯与复盘。
运维窗口在项目空间维度生效,作用于该空间内的全部资源。
若未配置任何运维窗口,平台采用默认策略,即每日02:00–06:00(UTC+8)为允许变更时段。
前提条件
已开通实时计算Flink版服务,详情请参见开通实时计算Flink版。
拥有目标项目空间的Owner或Admin权限。
运维窗口
新建运维窗口
在左侧导航栏,单击管控中心。
在运维窗口页签,单击新建运维窗口。
配置以下参数。
参数
说明
窗口名称
运维窗口的名称。长度为 2~200 个字符,支持中文、英文、数字及
-._符号。资源范围
运维窗口的生效范围。当前仅支持全部(项目空间级),即对当前项目空间内的所有资源生效。
重复周期
运维窗口的执行频率,支持每天、每周和每月三种周期。选择每周时,需勾选具体的星期几;选择每月时,需勾选具体的日期。若选择的日期在当月不存在(如31日),则该月不生效。
时间范围(UTC)
每次运维窗口的起止时间,以UTC时区表示。页面同时显示对应的本地时间(UTC+08:00),便于确认。
说明单个窗口时长不少于1小时,支持跨天设置(如23:00–01:00)。
按月重复时,每月至少设置 5 个变更日,且任意两个相邻变更日之间的间隔不得超过 7 天(跨月首尾日期同样适用)。
是否启用
控制运维窗口是否立即生效。开启后保存即立即生效;关闭则仅保存配置,后续可随时开启。
单击确定。
管理运维窗口
在运维窗口列表中,可查看各窗口的名称、资源范围、时间范围和生效状态,并执行以下操作:
详情:查看运维窗口的完整配置信息及关联的历史运维事件。
编辑:修改窗口的名称、时间范围或启用状态。
删除:删除该运维窗口。删除后,平台不再受此窗口约束。若所有自定义窗口均被删除,将回退至平台默认策略(每日02:00–06:00)。
当前处于禁止变更期时,页面顶部将显示提示信息,表明所有计划内变更已被推迟至下一个运维窗口期执行。
查看运维事件
切换至运维事件页签,可查看近30天内发生及预计发生的计划内运维事件。
事件列表
字段 | 说明 |
事件名称 | 底层引擎运维事件的名称。 |
事件类型 | 事件来源类型,如Flink运维、ECS计划内维护、ECS异常宕机等。 |
触发时间 | 事件预计或实际发生的时间。 |
事件状态 | 事件的当前状态,包括:已完成(变更成功,作业已恢复)、预计发生(已调度,等待执行)、已推迟(不在运维窗口内,推迟至下一窗口)、需人工干预(变更失败或超时,需手动重启作业)。 |
影响作业数 | 受该事件影响的作业数量。单击可查看具体作业列表及恢复状态。 |
事件详情
单击事件列表中的查看详情,可查看以下信息:
基础信息:事件来源、预计执行时间段、触发时间等。
窗口匹配情况:该事件是否命中已配置的运维窗口规则。
影响作业分析:受影响的作业列表及各作业的当前状态。
事件历史:事件的完整生命周期记录。
配置运维事件通知
运维事件支持通过告警通知推送,确保关键事件不遗漏。
常规通知:运维事件状态变更时推送,包括即将执行、已完成、已推迟等状态。
强制变更通知:当运维事件未命中任何运维窗口,且距离最晚执行时间不足24小时时,平台将强制执行变更,并通过控制台弹窗、顶部Banner进行推送。
常见问题
多个运维窗口时间重叠时如何处理?
系统允许窗口重叠。重叠的时间段均视为允许变更期,平台可在该时间段内执行变更。
变更被推迟的原因是什么?
计划内运维事件发生时,若当前时间不在任一运维窗口内,系统会自动将变更推迟至下一个运维窗口执行。可在运维事件页签查看被推迟的事件,状态标记为已推迟。
运维窗口是否支持作业级别的控制?
当前仅支持项目空间级别。作业级别的细粒度控制将在后续版本中支持。
跨天的运维窗口如何生效?
支持跨天设置(如23:00–01:00)。系统将该时间段拆分为当日23:00–24:00和次日00:00–01:00两个片段。当前时间落在任一片段内,即视为命中运维窗口。