数据传输服务DTS(Data Transmission Service)支持运维事件报警功能,当系统检测到可能会导致DTS实例无法正常运行的风险时会触发相应的运维事件,并会通过控制台、短信、邮件或站内消息进行通知。您可以查看运维事件涉及的DTS实例信息、运维事件的时间信息、操作建议等信息,同时也可以在DTS控制台手动修改运维事件的执行时间。
前提条件
您需要登录消息中心,确保云数据库故障或运维通知的通知开关处于开启状态并设置消息接收人(推荐设置为数据库运维人员),否则您将无法收到相应的通知信息。
注意事项
事件等级为严重的运维事件需要优先关注。
DTS的运维事件通常在执行前至少1天通知您,部分运维事件需要您配合处理,请在收到相关通知后尽快登录DTS控制台查看操作建议并完成相应的变更操作。
建议您设定预约执行时间,让系统在截止日期前的业务低峰期执行运维事件,并手动完成DTS建议的变更操作(操作建议),以确保DTS实例可以正常运行。否则运维事件默认会在计划执行时间执行,可能会造成任务中断等异常,由此造成的损失不在DTS的SLA保障范围内。
仅事件状态为计划中的运维事件支持修改预约时间,且预约时间需要晚于当前时间5分钟,并早于最晚可预约时间。
操作步骤
事件类型
事件分类 | 事件代码 | 事件类型 | 云监控事件名称 | 事件说明 | 处理建议 |
计划内运维事件 | SystemMaintenance.Shift | 因底层硬件升级腾挪任务 |
| 系统检测到DTS实例的底层软件或硬件服务存在可能导致实例无法正常运行的风险,将会切换实例运行的机器,并提前告知您涉及的实例、执行时间、事件状态、操作建议等信息。 | 设置预约执行时间,选择业务低峰期自动执行运维事件。系统会在您设置的预约执行时间自动将DTS实例切换到新机器运行,避免业务在高峰期时受到影响。 重要 若运维事件提供了操作建议,请您配合处理。 |
事件等级
按照对实例正常运行的影响程度进行划分,运维事件分为以下几个等级:
严重:影响重大,需要尽快处理,否则可能导致实例无法使用。
警告:有一定影响,需要您在影响持续期间加以关注。
信息:您可以根据实际情况自行选择是否关注。
事件状态
DTS事件状态 | 说明 |
计划中 | 计划执行运维任务,但尚未开始执行,开始执行后会进入执行中状态。 |
执行中 | 运维任务正在执行中。 |
执行完成 | 运维任务执行成功。 |
已取消 | 系统取消执行运维任务。 |
待处理 | DTS实例运行遇到了阻塞,例如需要添加白名单、更新DTS实例中填写的数据库密码。 |
执行失败 | 运维任务执行失败。 说明 运维任务执行失败不代表对应的DTS实例运行失败。 |