为保障云数据库 SelectDB 服务的稳定性、安全性与性能,平台会定期执行主动运维。本文介绍主动运维事件的类型、影响、通知方式、时间管理策略及应对建议,协助您平稳管理运维窗口。
什么是主动运维事件
主动运维事件是云数据库 SelectDB 为提升服务质量、修复潜在风险或执行必要升级而规划的维护操作。主要分为版本升级、部署架构升级、ECS重启三大类。这些操作对保障您的实例长期稳定、安全、高效运行至关重要。
在事件执行期间,您的实例可能会经历短暂的连接闪断、短时间的只读或不可用状态。为将业务影响降至最低,我们强烈建议您:
在业务低峰期执行主动运维事件。
确保您的应用程序具备自动重连与重试机制。
事件类型与业务影响
主动运维事件主要分为以下三类。了解其影响和应对建议,将有助于您更好地进行业务容灾规划。
版本升级
对 SelectDB 内核、代理或相关组件进行小版本升级、安全修复或功能优化。
典型场景
内核小版本升级。
代理、访问层组件升级。
安全相关更新(如 SSL 证书更新)。
监控、备份等依赖组件升级。
主要影响
连接闪断与只读:升级通常涉及实例重启或切换,会导致短暂的连接中断。为保证数据一致性,实例可能进入秒级到数分钟的只读或不可用状态。
管控操作受限:升级期间,扩缩容、参数修改等管控操作暂时不可用。
核心建议
应用务必实现自动重连及合理的重试策略。
避免在运维窗口内执行长事务或大批量数据导入导出。
部署架构升级
优化或调整底层基础设施、网络或高可用架构。
典型场景
底层宿主机更换或节点迁移。
网络拓扑调整或硬件升级。
高可用架构变更(例如主备方案调整、跨可用区部署)。
FE 节点部署方式升级(例如从Master/Observer升级为 3 Follower)。
主要影响
连接闪断与只读:实例切换时,会导致连接闪断和短暂的只读状态。
周边系统影响:若使用 BI 工具或数据同步服务,升级后可能需要重新配置数据源或重启同步任务,以重新发现并连接实例。
核心建议
强烈建议:始终使用平台提供的域名或连接串访问实例,避免在应用中硬编码 IP 地址。
提前规划,在维护窗口前后准备数据校验、流量控制等应急预案。
ECS 重启
因宿主机维护或规格变更导致的实例所在 ECS 重启。
典型场景
ECS 实例规格变更(CPU/内存)。
宿主机操作系统补丁或安全加固。
宿主机硬件维护或异常修复。
主要影响
连接闪断与只读:影响与版本升级类似,会造成短暂的连接中断和只读状态。
可能会中断依赖单节点的长事务或批处理任务。
核心建议
将此类事件视为一次小型维护,确保应用具备容错和重试能力。
建议在运维窗口前后,额外关注连接数、错误率等关键业务指标。
事件通知
SelectDB 通过多渠道通知和灵活的时间管理机制,帮助您及时获知并妥善安排运维计划。
事件级别
根据紧急程度,主动运维事件分为两类,并通过多种渠道通知您。
级别 | 说明 | 通知时间 | 管理策略 |
S0 紧急级别 (风险修复) | 处理严重漏洞、安全风险或宿主机异常,需尽快修复以避免重大故障。 | 通常在执行前约 3 天或更早通知。 | 一般不支持取消,仅支持在限定时间范围内微调执行时间。 |
S1 计划级别 (系统维护) | 常规的功能优化、软硬件升级、架构优化等计划内维护。 | 通常在执行前 ≥ 3 天 通知。 | 一般支持调整计划切换时间,部分情况下支持取消本次计划事件。 |
通知渠道
为确保您及时获知事件信息,请重点关注以下渠道:
控制台事件中心
在 SelectDB 控制台的事件中心 页面,您可以查看事件的详细信息,包括类型、涉及实例、原因、影响以及当前状态(计划中、已完成、已取消)。
消息中心 (短信、邮件、站内信)
为避免错过重要通知,强烈建议您在消息中心()进行以下配置:
勾选短信和邮件通知方式。
将接收人设置为实际的数据库或应用运维负责人。
操作指南
查看与管理主动运维事件
在左侧导航栏中,进入事件中心 。
在计划内事件列表上方,单击计划中,查看所有计划中的主动运维事件。
对于部分 S1 事件,可以通过勾选一个或多个事件,然后单击取消计划配置的选项进行取消。
调整主动运维事件的执行时间
SelectDB 提供灵活的时间管理机制,帮助您将运维影响控制在预期范围内。执行时间的优先级遵循以下规则:计划切换时间 > 周期时间 > 实例自身可维护时间段。
计划切换时间 (按事件配置,优先级最高)为单个事件指定的执行时间。您可以在事件的最晚操作时间之前,在控制台为该事件单独设置一个确切的执行时间点。
周期时间 (全局运维窗口,优先级中)您可以设置一个全局的、周期性的运维窗口(例如,每周二 00:00–02:00)。对于未单独设置计划切换时间的 S1 计划级别事件,系统会自动安排在此窗口内执行。
说明此设置对紧急的 S0 事件可能不生效。
可维护时间段 (兜底机制,优先级最低)这是实例级别的最终兜底策略。如果一个事件既未设置计划切换时间,也未在周期时间内执行,系统将默认在您为该实例设定的“可维护时间段”内执行。建议为所有关键实例配置业务低峰期作为可维护时间段。
所有时间调整都必须在系统提示的最晚操作时间之前完成。
修改计划切换时间
进入事件中心 。
在计划内事件列表上方,单击计划中,查看所有计划中的主动运维事件。
勾选一个或多个事件,然后单击列表下方计划时间配置。在右侧弹出框中,您可以:
设置一个具体的计划切换日期和时间。
或勾选设置最早执行时间,系统将在您指定的时间之后自动安排执行。
配置周期运维时间
在事件中心 页面,单击周期时间配置。
按周或按月设置您期望的固定运维窗口。
保存后,后续未指定计划切换时间的 S1 事件将默认在此窗口内执行。
修改实例自身可维护时间段
参考设置可维护时间段。
查看历史事件
进入事件中心 。
在计划内事件列表中,单击已完成或已取消。
您可以查看所有已完成或已取消的事件记录,用于变更审计和问题追溯。
最佳实践与常见问题
最佳实践
应用高可用设计:始终使用域名或连接串访问实例,并确保应用程序具备可靠的自动重连与重试机制。
合理规划时间:为关键实例配置业务低峰期作为可维护时间段,并善用周期时间将常规维护集中在固定窗口。
完善运维通知:确保消息中心已正确配置通知,并将实际的数据库或应用运维负责人添加为联系人。
常见问题
Q:主动运维事件会自动执行吗?我可以不执行吗?
A:是的,为保障服务稳定和安全,事件在到达指定时间后会自动执行。对于 S1 计划级别事件,您通常可以在“最晚操作时间”前调整执行时间,部分事件还支持取消。对于 S0 紧急级别事件,通常不支持取消,以确保风险被及时修复。
Q:主动运维事件对我的业务影响有多大?
A:绝大多数事件的影响是短暂的连接闪断和只读状态(秒级到数分钟)。对于设计了自动重连机制的在线应用,影响通常很小。如果您的业务包含长连接或长事务,建议在维护时段前暂停相关任务,或确保任务具备容错和断点续作能力。