PolarDB计划内的运维事件(例如数据库软件升级、硬件维护与升级)除了会通过短信、语音、邮件或站内信通知您,还会在控制台上进行通知。您可以在计划内事件中,查看具体的事件类型、任务ID、集群名称、切换时间等,也可以手动修改切换时间。
注意事项
事件按紧急程度不同分为两类:
【S0紧急级别】风险修复:通常是非预期的需要尽快修复避免故障的场景,因此其通知可能会提前3天或更早且允许修改计划切换时间的窗口更小,典型场景为紧急问题版本替换升级、宿主机异常修复、SSL证书过期升级等。
【S1计划级别】系统维护:通常是低风险问题修复或有计划的软硬件升级换代,通常提前3天以上发送通知且允许用户取消事件。
为了确保您能接收运维事件的预约通知,您需要登录消息中心,确保云数据库故障或运维通知的通知方式复选框处于选中状态并设置消息接收人(推荐设置为数据库运维人员),否则您将无法收到事件通知信息。通知方式为短信、邮件、站内信,建议同时选中短信和邮件,提高触达成功率。
图1 消息中心通知设置入口
图2 云数据库通知设置
如您需要第一时间获知运维事件的动态或者希望通过事件驱动的方式做自定义运维自动化,您可以通过云监控平台配置系统事件订阅。云数据库会对运维事件的生命周期(预约、开始、完成、取消等)推送云监控系统事件。具体操作,请参见管理事件订阅(推荐),可订阅的云监控事件参见附录1 云监控相关系统事件。
云监控事件格式示例:
{ "eventId": "c864b30b-7f69-5f04-b0e7-8dfb0eabcfd9", // 事件ID,同一个事件的ID相同 "product": "RDS", // 产品代码 "reason": "Host software/hardware upgrade", // 事件原因 "extra": { "impactZh": "实例闪断", // 事件影响 "impactEn": "Transient instance disconnection", // 事件影响 "eventCode": "rds_apsaradb_transfer", // 运维事件类型代码 "eventNameEn": "Instance migration", // 运维事件名称 "eventNameZh": "实例迁移", // 运维事件名称 "switchTime": "2024-09-15T01:30:00+08:00", // 计划切换时间,如果有切换即为实例连接闪断的时间 "startTime": "2024-09-14T21:30:00+08:00", // 计划开始时间,进入调度队列等待执行 "cancelCode": "OutOfGoodPerfBySoftHardwareUpgrade", // 取消风险码,参见附录2: 详细原因码和取消风险 "detailCode": "HostSoftHardwareUpgrade", // 详细原因码,参见附录2: 详细原因码和取消风险 "instanceInfo": "" }, "instanceId": "rm-2ze9d66o65q1g02g6", // 实例ID "eventType": "Maintenance", "instanceComment": "rm-2ze9d66o65q1g02g6", // 实例别名 "instanceType": "Instance", "publishTime": "2024-09-10T16:01:47+08:00" }
操作步骤
登录各产品管理控制台。
在左侧导航栏单击,并在控制台上方选择地域。
在计划内事件页面,可查看事件详细信息,默认显示的为计划中未完结的事件,查看历史已完结事件可以点击已完成或已取消切换查询,事件属性的详细介绍如下:
属性
示例
说明
属性
示例
说明
事件类型
风险修复
事件按紧急程度不同分为“风险修复”和“系统维护”。
运行状态
等待执行
事件的调度状态,需要关注的状态如下:
等待设置时间:事件的执行时间为空,需要您根据业务情况设置时间,如果截至最晚操作时间仍未设置时间,系统会自动取消且不会自动执行。
等待执行:事件等待到达计划开始时间进入到调度阶段。
执行中:事件进入调度执行,此时无法人工干预,如需紧急终止需要提工单(非标操作可能有未知风险)。
成功结束:执行成功。
已取消:执行失败或取消,常见取消原因。
客户自主取消(UserCancel):用户在控制台或通过OpenAPI取消。
客户响应超时(UserResponseTimeout):需要指定时间的事件超截止时间未设置时间,事件自动取消。
数据库管控取消(SupervisorCancel):事件发起端主动取消。
无需执行的规避性取消(AvoidCancel):风险已解除或实例当前状态已无需执行此事件,比如实例已经是最新版本无需再做升级。
系统自动取消(AutoCancel):系统会对计划中事件定期巡检,如果实例不具备执行事件条件可能会被取消,比如当前实例状态异常无法下发动作。
执行超时(ExecuteTimeout):事件进入执行队列未在预期时间内完结。
执行失败(ExecuteFail):事件执行过程中有未知异常失败。
事件类型
小版本升级
参见事件的类型与影响。
事件原因
-
业务影响
实例闪断
不同事件的业务影响不同,参见事件的类型与影响。
运维建议
确认业务应用具备数据库自动重连机制并关注业务影响
不同事件的运维建议不同,参见附录1 云监控相关系统事件。
计划开始时间
-
事件开始进入到调度队列的时间,在开始时间之前,此事件对实例无任何影响,过了开始时间您仍可正常访问数据库,但是无法执行实例级别的操作(例如变更配置、迁移可用区等);状态为“等待设置时间”时此时间为空。
计划切换时间
-
主备或链路切换(如果有)的时间,通常指实例连接有闪断影响的时间;此时间是预估值,发生切换在此时间附近都符合预期,极端情况下,比如涉及回切可用区场景下可能有二次切换。
考虑到事件调度、数据准备耗时等因素通常在切换之前需要一定的前置准备时间,因此开始时间和切换时间有一定间隔,不同数据库产品不同事件间隔可能不同。
最晚操作时间
-
可设置切换时间的最晚时间,要调整的切换时间不能晚于此时间。
是否可取消
是
如需屏蔽本次事件您可以操作取消,通常“系统运维”类事件开放此功能。
计划事件通常是云数据库管控系统定期巡检下发,当次取消后可能会在下个巡检周期有新事件下发,如果频繁取消也可能会出现风险升级,建议您根据业务情况选择合适时间执行而不是取消事件。取消后的风险参见附录2 详细原因码和取消风险。
是否可改时间
是
绝大多数都可以调整事件执行时间,很少场景的高危风险紧急修复没有足够的执行时间调整窗口可能不允许调整时间。
修改计划事件(可选)
可选中需要调整执行时间的记录,点击修改计划事件进入设置切换时间界面,支持两种修改方式:
立即执行:即任务开始时间将设置为当前时间,随后进入执行队列立即执行。
指定切换时间:根据可配置切换时间范围选择合适的时间点作为切换时间执行,开始时间将会根据切换时间自动计算,但新的开始时间不能早于当前时间,否则无法修改。
修改周期时间窗口(可选)
点击事件列表右上角的“周期时间窗口配置”可进入周期时间窗口配置页面。
计划内事件的执行时间通常是根据实例的运维时间自动计算的(参见设置可维护时间段 RDS|Tair/Redis|MongoDB|PolarDB),您也可以根据自己的运维需要自定义周期时间窗口,云数据库在后续发起新事件时会优先根据您设置的时间窗口编排计算执行时间。
支持按月或周两个维度设置窗口,例如设置的周期切换时间为每周一、周二的02:00~03:00,云平台的计划事件窗口为本周二至下周日,则事件的切换时间会命中本周二的02:00~03:00和下周一的02:00~03:00,通常优先选择本周二切换。
此配置仅对未来新的事件有效,当前事件列表中的事件如果希望调整时间请点击“设置执行时间”
此配置仅作为辅助计算执行时间的配置且仅对事件类型为“系统维护”的事件有效,实际计算的执行时间请以事件列表的时间为准。
此配置为账号级别配置,配置后所有支持周期时间的数据库产品均会同步生效。
取消计划事件(可选)
可选中需要取消的事件记录,点击取消计划事件进入取消界面,知晓取消风险后可点击确认发起取消。
事件的类型与影响
事件类型 | 影响类型 | 影响说明 |
事件类型 | 影响类型 | 影响说明 |
集群迁移 因主机风险、硬件过保或操作系统升级而发起的计划内运维操作,系统会将集群迁移至新的服务器节点,包含非高可用集群和只读集群。 | 集群闪断 | |
主备切换 因主机风险、硬件过保或操作系统升级而发起的计划内运维操作,系统会将发起主备节点切换操作,仅包含高可用集群。 | ||
集群参数调整 因已知的参数风险而发起的计划内运维操作,系统会对集群发起参数修改操作,如果下发的参数包含需要重启的参数,则集群会被重启。 | ||
主机风险修复 修复集群所属主机存在的故障风险。 | ||
SSL证书更新 为保障集群持续提供更出色的安全性和稳定性,当集群的SSL证书即将过期时会发起该操作。 | ||
备份模式升级 为保障集群提供更快速的备份恢复能力,将集群的备份模式从逻辑备份切换到物理库表备份。 | ||
可用区迁移 对部分老、旧地域和可用区的物理基础设施进行升级和技术改造。 | ||
小版本升级 为提升用户体验,云数据库会不定期地发布集群的小版本,用于丰富云产品功能或修复已知缺陷。 | 集群闪断 | 进入计划切换时间后,将产生下述影响: 待处理事件通常会产生集群切换操作,该操作将在计划切换时间之后的集群可维护时间段执行。 |
小版本号间的差异 | 不同的小版本号(内核版本号)更新的内容有所区别,您需要关注升级后的小版本和当前小版本的差异,具体请参见相关产品的小版本更新日志(部分产品暂未开放小版本更新日志): | |
代理小版本升级 为提升用户体验,云数据库会不定期地发布代理节点(Proxy)的小版本,用于丰富代理服务的功能或修复已知缺陷。 | 集群闪断 | 进入计划切换时间后,将产生下述影响: 待处理事件通常会产生集群切换操作,该操作将在计划切换时间之后的集群可维护时间段执行。 |
小版本号间的差异 | 不同的小版本号更新的内容有所区别,您需要关注升级后的小版本和当前小版本的差异,具体请参见相关产品的小版本更新日志(部分产品没有代理节点或暂未开放代理节点更新日志):
| |
网络升级 为提升集群的网络性能和稳定性而升级网络硬件。 | 集群闪断 | 进入计划切换时间后,将产生下述影响: 待处理事件通常会产生集群切换操作,该操作将在计划切换时间之后的集群可维护时间段执行。 |
VIP直连影响 | 部分网络升级过程中可能涉及跨可用区迁移,集群的虚拟IP(VIP)地址会发生改变,如果客户端使用VIP连接云数据库将会引起连接中断。 为避免影响,您应当使用集群提供的域名形式的连接地址,同时关闭应用及其所属服务器的DNS缓存。 | |
存储网关升级 为提升集群的存储性能和稳定性而升级存储网关。 | I/O 抖动 | 可能出现短暂的I/O抖动或SQL时延增加,影响的时间不超过3秒。 |
开启无感迁移能力 为提升用户体验而开启无感迁移。 | 参数修改 | 无影响。 不涉及重启迁移,对您当前业务无影响。 |
代理迁移 代理所在宿主机升级或维护,提高代理节点稳定性。 | 代理节点迁移 | 代理节点迁移过程中,集群地址和自定义地址会出现一次闪断,闪断时间不超过10秒。 |
常见问题
1 关于通知
2 关于开始时间和切换时间
3 关于事件操作
4 其他问题
相关API
API | 描述 |
API | 描述 |
查看不同任务类型下待处理事件的数量。 | |
修改待处理事件的任务切换时间。 | |
查询待处理事件的详情。 |
- 本页导读 (1)
- 注意事项
- 操作步骤
- 事件的类型与影响
- 常见问题
- 1 关于通知
- 2 关于开始时间和切换时间
- 3 关于事件操作
- 4 其他问题
- 相关API