查看并管理计划内事件

更新时间:2025-03-19 03:12:58

PolarDB计划内的运维事件(例如数据库软件升级、硬件维护与升级)除了会通过短信、语音、邮件或站内信通知您,还会在控制台上进行通知。您可以在计划内事件中,查看具体的事件类型、任务ID、集群名称、切换时间等,也可以手动修改切换时间。

注意事项

  • 事件按紧急程度不同分为两类:

    • 【S0紧急级别】风险修复:通常是非预期的需要尽快修复避免故障的场景,因此其通知可能会提前3天或更早且允许修改计划切换时间的窗口更小,典型场景为紧急问题版本替换升级、宿主机异常修复、SSL证书过期升级等。

    • 【S1计划级别】系统维护:通常是低风险问题修复或有计划的软硬件升级换代,通常提前3天以上发送通知且允许用户取消事件。

  • 为了确保您能接收运维事件的预约通知,您需要登录消息中心,确保云数据库故障或运维通知的通知方式复选框处于选中状态并设置消息接收人(推荐设置为数据库运维人员),否则您将无法收到事件通知信息。通知方式为短信、邮件、站内信,建议同时选中短信和邮件,提高触达成功率。

    image.png

    1 消息中心通知设置入口

    image

    2 云数据库通知设置

  • 如您需要第一时间获知运维事件的动态或者希望通过事件驱动的方式做自定义运维自动化,您可以通过云监控平台配置系统事件订阅。云数据库会对运维事件的生命周期(预约、开始、完成、取消等)推送云监控系统事件。具体操作,请参见管理事件订阅(推荐),可订阅的云监控事件参见附录1 云监控相关系统事件

    云监控事件格式示例:

    {
      "eventId": "c864b30b-7f69-5f04-b0e7-8dfb0eabcfd9", // 事件ID,同一个事件的ID相同
      "product": "RDS",                                  // 产品代码
      "reason": "Host software/hardware upgrade",        // 事件原因
      "extra": {
        "impactZh": "实例闪断",                           // 事件影响
        "impactEn": "Transient instance disconnection",  // 事件影响
        "eventCode": "rds_apsaradb_transfer",            // 运维事件类型代码
        "eventNameEn": "Instance migration",             // 运维事件名称
        "eventNameZh": "实例迁移",                        // 运维事件名称   
        "switchTime": "2024-09-15T01:30:00+08:00",       // 计划切换时间,如果有切换即为实例连接闪断的时间
        "startTime": "2024-09-14T21:30:00+08:00",          // 计划开始时间,进入调度队列等待执行
        "cancelCode": "OutOfGoodPerfBySoftHardwareUpgrade", // 取消风险码,参见附录2: 详细原因码和取消风险
        "detailCode": "HostSoftHardwareUpgrade",            // 详细原因码,参见附录2: 详细原因码和取消风险
        "instanceInfo": ""
      },
      "instanceId": "rm-2ze9d66o65q1g02g6",             // 实例ID
      "eventType": "Maintenance",
      "instanceComment": "rm-2ze9d66o65q1g02g6",        // 实例别名
      "instanceType": "Instance",
      "publishTime": "2024-09-10T16:01:47+08:00"
    }

操作步骤

  1. 登录各产品管理控制台。

  2. 在左侧导航栏单击事件中心(原名:事件管理) > 计划内事件,并在控制台上方选择地域。

  3. 在计划内事件页面,可查看事件详细信息,默认显示的为计划中未完结的事件,查看历史已完结事件可以点击已完成已取消切换查询,事件属性的详细介绍如下:

    属性

    示例

    说明

    属性

    示例

    说明

    事件类型

    风险修复

    事件按紧急程度不同分为“风险修复”和“系统维护”。

    运行状态

    等待执行

    事件的调度状态,需要关注的状态如下:

    • 等待设置时间:事件的执行时间为空,需要您根据业务情况设置时间,如果截至最晚操作时间仍未设置时间,系统会自动取消且不会自动执行。

    • 等待执行:事件等待到达计划开始时间进入到调度阶段。

    • 执行中:事件进入调度执行,此时无法人工干预,如需紧急终止需要提工单(非标操作可能有未知风险)。

    • 成功结束:执行成功。

    • 已取消:执行失败或取消,常见取消原因。

      • 客户自主取消(UserCancel):用户在控制台或通过OpenAPI取消。

      • 客户响应超时(UserResponseTimeout):需要指定时间的事件超截止时间未设置时间,事件自动取消。

      • 数据库管控取消(SupervisorCancel):事件发起端主动取消。

      • 无需执行的规避性取消(AvoidCancel):风险已解除或实例当前状态已无需执行此事件,比如实例已经是最新版本无需再做升级。

      • 系统自动取消(AutoCancel):系统会对计划中事件定期巡检,如果实例不具备执行事件条件可能会被取消,比如当前实例状态异常无法下发动作。

      • 执行超时(ExecuteTimeout):事件进入执行队列未在预期时间内完结。

      • 执行失败(ExecuteFail):事件执行过程中有未知异常失败。

    事件类型

    小版本升级

    参见事件的类型与影响

    事件原因

    -

    参见附录2 详细原因码和取消风险

    业务影响

    实例闪断

    不同事件的业务影响不同,参见事件的类型与影响

    运维建议

    确认业务应用具备数据库自动重连机制并关注业务影响

    不同事件的运维建议不同,参见附录1 云监控相关系统事件

    计划开始时间

    -

    事件开始进入到调度队列的时间,在开始时间之前,此事件对实例无任何影响,过了开始时间您仍可正常访问数据库,但是无法执行实例级别的操作(例如变更配置、迁移可用区等);状态为“等待设置时间”时此时间为空。

    计划切换时间

    -

    主备或链路切换(如果有)的时间,通常指实例连接有闪断影响的时间;此时间是预估值,发生切换在此时间附近都符合预期,极端情况下,比如涉及回切可用区场景下可能有二次切换。

    说明

    考虑到事件调度、数据准备耗时等因素通常在切换之前需要一定的前置准备时间,因此开始时间和切换时间有一定间隔,不同数据库产品不同事件间隔可能不同。

    最晚操作时间

    -

    可设置切换时间的最晚时间,要调整的切换时间不能晚于此时间。

    是否可取消

    如需屏蔽本次事件您可以操作取消,通常“系统运维”类事件开放此功能。

    重要

    计划事件通常是云数据库管控系统定期巡检下发,当次取消后可能会在下个巡检周期有新事件下发,如果频繁取消也可能会出现风险升级,建议您根据业务情况选择合适时间执行而不是取消事件。取消后的风险参见附录2 详细原因码和取消风险

    是否可改时间

    绝大多数都可以调整事件执行时间,很少场景的高危风险紧急修复没有足够的执行时间调整窗口可能不允许调整时间。

  4. 修改计划事件(可选)

    可选中需要调整执行时间的记录,点击修改计划事件进入设置切换时间界面,支持两种修改方式:

    • 立即执行:即任务开始时间将设置为当前时间,随后进入执行队列立即执行。

    • 指定切换时间:根据可配置切换时间范围选择合适的时间点作为切换时间执行,开始时间将会根据切换时间自动计算,但新的开始时间不能早于当前时间,否则无法修改。

  5. 修改周期时间窗口(可选)

    点击事件列表右上角的“周期时间窗口配置”可进入周期时间窗口配置页面。

    计划内事件的执行时间通常是根据实例的运维时间自动计算的(参见设置可维护时间段 RDS|Tair/Redis|MongoDB|PolarDB),您也可以根据自己的运维需要自定义周期时间窗口,云数据库在后续发起新事件时会优先根据您设置的时间窗口编排计算执行时间。

    支持按月或周两个维度设置窗口,例如设置的周期切换时间为每周一、周二的02:00~03:00,云平台的计划事件窗口为本周二至下周日,则事件的切换时间会命中本周二的02:00~03:00和下周一的02:00~03:00,通常优先选择本周二切换。

    重要
    1. 此配置仅对未来新的事件有效,当前事件列表中的事件如果希望调整时间请点击“设置执行时间”

    2. 此配置仅作为辅助计算执行时间的配置且仅对事件类型为“系统维护”的事件有效,实际计算的执行时间请以事件列表的时间为准。

    3. 此配置为账号级别配置,配置后所有支持周期时间的数据库产品均会同步生效。

  6. 取消计划事件(可选)

    可选中需要取消的事件记录,点击取消计划事件进入取消界面,知晓取消风险后可点击确认发起取消。

事件的类型与影响

事件类型

影响类型

影响说明

事件类型

影响类型

影响说明

集群迁移

说明

因主机风险、硬件过保或操作系统升级而发起的计划内运维操作,系统会将集群迁移至新的服务器节点,包含非高可用集群和只读集群。

集群闪断

进入计划切换时间后,将产生下述影响:

说明

待处理事件通常会产生集群切换操作,该操作将在计划切换时间之后的集群可维护时间段执行。

  • 集群或集群中涉及切换的分片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步),请在业务低峰期执行,并确保应用程序具备重连机制。

  • 短暂影响该集群在DMSDTS中的使用,操作完成后自动恢复正常。

主备切换

说明

因主机风险、硬件过保或操作系统升级而发起的计划内运维操作,系统会将发起主备节点切换操作,仅包含高可用集群。

集群参数调整

说明

因已知的参数风险而发起的计划内运维操作,系统会对集群发起参数修改操作,如果下发的参数包含需要重启的参数,则集群会被重启。

主机风险修复

说明

修复集群所属主机存在的故障风险。

SSL证书更新

说明

为保障集群持续提供更出色的安全性和稳定性,当集群的SSL证书即将过期时会发起该操作。

备份模式升级

说明

为保障集群提供更快速的备份恢复能力,将集群的备份模式从逻辑备份切换到物理库表备份。

可用区迁移

说明

对部分老、旧地域和可用区的物理基础设施进行升级和技术改造。

小版本升级

说明

为提升用户体验,云数据库会不定期地发布集群的小版本,用于丰富云产品功能或修复已知缺陷。

集群闪断

进入计划切换时间后,将产生下述影响:

说明

待处理事件通常会产生集群切换操作,该操作将在计划切换时间之后的集群可维护时间段执行。

  • 集群或集群中涉及切换的分片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步),请在业务低峰期执行,并确保应用程序具备重连机制。

  • 短暂影响该集群在DMSDTS中的使用,操作完成后自动恢复正常。

小版本号间的差异

不同的小版本号(内核版本号)更新的内容有所区别,您需要关注升级后的小版本和当前小版本的差异,具体请参见相关产品的小版本更新日志(部分产品暂未开放小版本更新日志):

代理小版本升级

说明

为提升用户体验,云数据库会不定期地发布代理节点(Proxy)的小版本,用于丰富代理服务的功能或修复已知缺陷。

集群闪断

进入计划切换时间后,将产生下述影响:

说明

待处理事件通常会产生集群切换操作,该操作将在计划切换时间之后的集群可维护时间段执行。

  • 集群或集群中涉及切换的分片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步),请在业务低峰期执行,并确保应用程序具备重连机制。

  • 短暂影响该集群在DMSDTS中的使用,操作完成后自动恢复正常。

小版本号间的差异

不同的小版本号更新的内容有所区别,您需要关注升级后的小版本和当前小版本的差异,具体请参见相关产品的小版本更新日志(部分产品没有代理节点或暂未开放代理节点更新日志):

网络升级

说明

为提升集群的网络性能和稳定性而升级网络硬件。

集群闪断

进入计划切换时间后,将产生下述影响:

说明

待处理事件通常会产生集群切换操作,该操作将在计划切换时间之后的集群可维护时间段执行。

  • 集群或集群中涉及切换的分片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步),请在业务低峰期执行,并确保应用程序具备重连机制。

  • 短暂影响该集群在DMSDTS中的使用,操作完成后自动恢复正常。

VIP直连影响

部分网络升级过程中可能涉及跨可用区迁移,集群的虚拟IP(VIP)地址会发生改变,如果客户端使用VIP连接云数据库将会引起连接中断。

说明

为避免影响,您应当使用集群提供的域名形式的连接地址,同时关闭应用及其所属服务器的DNS缓存。

存储网关升级

说明

为提升集群的存储性能和稳定性而升级存储网关。

I/O 抖动

可能出现短暂的I/O抖动或SQL时延增加,影响的时间不超过3秒。

开启无感迁移能力

说明

为提升用户体验而开启无感迁移。

参数修改

无影响。

说明

不涉及重启迁移,对您当前业务无影响。

代理迁移

说明

代理所在宿主机升级或维护,提高代理节点稳定性。

代理节点迁移

代理节点迁移过程中,集群地址和自定义地址会出现一次闪断,闪断时间不超过10秒。

常见问题

1 关于通知

为什么会收到运维事件通知?

为提供持续、稳定且优质的云数据库服务,我们可能会对您的部分实例发起计划运维事件进行软硬件、配置升级和网络换代升级,事件类型涉及实例迁移、主备切换、版本升级、参数调整等。如果您开启了实例的自动版本升级,您会定期收到小版本升级事件通知。

提前多长时间通知?为什么没有查到事件通知

根据事件紧急程度计划内事件通常都会提前1~3天对客发送通知,通道主要有短信和邮件,可在消息中心查看具体通知接收人,可查找下历史一个月内的短信和邮件,邮件标题关键字为“数据库计划内运维事件通知”。

为什么收到了数据库运维通知,在计划内事件中并没有看到事件?

  • 由于运营商的通知状态回调有一定延时,您收到通知后可以等1~3分钟尝试重新刷新计划内事件页面,另外,请注意需要切换到实例所在的正确地域。

  • 邮件标题关键字为“阿里云数据库网络升级通知”等非数据库计划内事件运维通知,是由底层网络等基础设施团队发起的软硬件升级,此类通常是实例或机房级别变更,并不是数据库实例级别变更,无法针对某个实例修改执行时间或取消,因此不会有计划内事件记录,且具体的影响和说明请以当次的邮件或站内信为准。

2 关于开始时间和切换时间

为什么过了事件开始时间实例上没有看到有任务执行?

  • 过了开始时间,事件进入调度队列等待执行,其中包括任务检查、环境初始化以及运维动作编排等环节,此时可能还没有下发实例级别任务,对实例可用性无任何影响,请耐心等待,您只需要关注切换时间。

  • 不同数据库产品不同变更事件对应的运维编排可能不同,过了开始时间下发任务的时机也不同,比如高可用实例的实例迁移过程通常为备库跨机重搭+主备切换+备库跨机重搭,如果只是做主实例迁移其迁移过程为主备切换+备库重搭,此时过了开始时间也不会立即下发任务,会持续等待到切换时间附近下发切换。

如何修改计划切换时间?

您可以通过控制台或API修改,具体操作参见修改计划事件(可选)ModifyActiveOperationTasks。

为什么无法修改计划切换时间?

不支持修改计划切换时间的场景如下:

  • 事件状态为执行中。

  • 事件已经过了开始时间。

  • 当前时间晚于事件最晚操作时间。

  • 新的事件开始时间早于当前时间。

  • 事件自身不支持修改切换时间。

需要设置的切换时间不在可配置的时间范围内,如何延期执行?

按设定事件切换时间不能晚于“最晚操作时间”,此时间是系统定义的安全操作窗口,如果晚于此时间可能会有故障风险,建议优先在此时间之前执行。如已知晓风险仍需要延期,可以提工单修改。

可以预估迁移的结束时间吗?

当前仅展示迁移的开始时间和预估切换时间,由于受网络、任务队列、数据量大小等多种因素影响,无法预估结束的时间。

“等待设置时间”状态的事件如果在截止时间前未设置执行时间事件会自动执行吗?

不会,超过截止时间未设置时间会自动取消,系统判定如需继续变更会重新下发预约通知。

3 关于事件操作

如何取消事件?

通常不建议取消,您可以推迟计划切换时间,例如选择一个业务低峰期时间点来执行。如果您确实有取消事件的诉求,请参考操作步骤6. 可选:取消计划事件。

手动取消事件后,还会重复推送吗?

大部分事件是巡检系统周期性巡检下发的,如果手动取消当次事件,在一定静默期(1~30天不等)后可能会重复下发,具体下发周期可根据具体原因在附录2 详细原因码和取消风险查看(仅供参考)。

如何屏蔽计划内事件?

重要

计划内事件旨在提升服务质量和稳定性,强烈建议开启,屏蔽后可能有稳定性风险。

如已知晓风险仍需屏蔽,可提工单,但为了保障服务稳定性,对于紧急风险修复事件无法屏蔽,典型场景为:宿主机故障、磁盘满锁定、SSL证书过期升级等。

4 其他问题

如何确定事件已完成?

实例对应的变更动作完成后会从计划内事件中移除,可在已完成事件中查看,如需事件驱动地感知其状态可以参考注意事项3订阅云监控系统事件。

实例迁移事件会把实例迁移至其他可用区吗?

不会,实例的可用区、账号、网络、连接地址均不会发生变化。

相关API

  • 本页导读 (1)
  • 注意事项
  • 操作步骤
  • 事件的类型与影响
  • 常见问题
  • 1 关于通知
  • 2 关于开始时间和切换时间
  • 3 关于事件操作
  • 4 其他问题
  • 相关API