管理运维事件

数据传输服务DTS(Data Transmission Service)支持运维事件报警功能,当系统检测到可能会导致DTS实例无法正常运行的风险时会触发相应的运维事件,并会通过控制台、短信、邮件或站内消息进行通知。您可以查看运维事件涉及的DTS实例信息、运维事件的时间信息、操作建议等信息,同时也可以在DTS控制台手动修改运维事件的执行时间。

前提条件

您需要登录消息中心,确保云数据库故障或运维通知的通知开关处于开启状态并设置消息接收人(推荐设置为数据库运维人员),否则您将无法收到相应的通知信息。

注意事项

  • 事件等级严重的运维事件需要优先关注。

  • DTS的运维事件通常在执行前至少1天通知您,部分运维事件需要您配合处理,请在收到相关通知后尽快登录DTS控制台查看操作建议并完成相应的变更操作。

  • 建议您设定预约执行时间,让系统在截止日期前的业务低峰期执行运维事件,并手动完成DTS建议的变更操作(操作建议),以确保DTS实例可以正常运行。否则运维事件默认会在计划执行时间执行,可能会造成任务中断等异常,由此造成的损失不在DTSSLA保障范围内。

  • 事件状态计划中的计划内运维事件支持修改预约时间,且预约时间需要晚于当前时间5分钟,并早于最晚可预约时间

管理计划内运维事件

  1. 进入事件中心页面。

    1. 登录DTS控制台

    2. 单击左侧导航栏的事件中心

    3. 在控制台上方选择地域。

  2. 可选:单击计划内运维事件页签。

  3. 管理计划内运维事件。

    查看计划内运维事件的详细信息

    您可以使用实例ID、计划执行时间、发布时间,筛选其对应的计划内运维事件。

    image

    说明
    • 事件发布时间:计划内运维事件生成的时间。

    • 计划执行时间:DTS默认的计划内运维事件执行的时间,未设置预约执行时间时才生效。

    • 预约执行时间:您自行设置的计划内运维事件执行的时间。

    事件类型

    事件分类

    事件代码

    事件类型

    云监控事件名称

    事件说明

    处理建议

    计划内运维事件

    SystemMaintenance.Shift

    因底层硬件升级腾挪任务

    • 因底层硬件升级腾挪任务(计划中)

    • 因底层硬件升级腾挪任务(执行中)

    • 因底层硬件升级腾挪任务(已完成)

    • 因底层硬件升级腾挪任务(已取消)

    • 因底层硬件升级腾挪任务(待客户处理)

    • 因底层硬件升级腾挪任务(执行失败)

    系统检测到DTS实例的底层软件或硬件服务存在可能导致实例无法正常运行的风险,将会切换实例运行的机器,并提前告知您涉及的实例、执行时间、事件状态、操作建议等信息。

    设置预约执行时间,选择业务低峰期自动执行运维事件。系统会在您设置的预约执行时间自动将DTS实例切换到新机器运行,避免业务在高峰期时受到影响。

    重要

    若运维事件提供了操作建议,请您配合处理。

    事件等级

    按照对实例正常运行的影响程度进行划分,计划内运维事件分为以下几个等级:

    • 严重:影响重大,需要尽快处理,否则可能导致实例无法使用。

    • 警告:有一定影响,需要您在影响持续期间加以关注。

    • 信息:您可以根据实际情况自行选择是否关注。

    事件状态

    事件状态

    说明

    计划中

    计划执行运维任务,但尚未开始执行,开始执行后会进入执行中状态。

    执行中

    运维任务正在执行中。

    执行完成

    运维任务执行成功。

    已取消

    系统取消执行运维任务。

    待处理

    DTS实例运行遇到了阻塞,例如需要添加白名单、更新DTS实例中填写的数据库密码。

    执行失败

    运维任务执行失败。

    说明

    运维任务执行失败不代表对应的DTS实例运行失败。

    修改预约执行时间

    1. 单击目标运维事件操作列的修改预约时间

    2. 在弹出的预约执行时间对话框,选择预约日期预约时间

    3. 单击确认

管理DTS Insight事件

  1. 进入事件中心页面。

    1. 登录DTS控制台

    2. 单击左侧导航栏的事件中心

    3. 在控制台上方选择地域。

  2. 单击DTS Insight事件页签。

  3. 管理DTS Insight事件。

    说明

    默认显示最近7天的DTS Insight事件。

    查看DTS Insight事件的详细信息

    您可以使用实例ID(在资源名称文本框中输入DTS实例ID),筛选其对应的DTS Insight事件。image

    说明
    • 您可以单击操作查看历史,筛选当前实例的所有DTS Insight事件。

    • 事件发布时间:DTS Insight事件生成的时间。

    • 事件更新时间:触发该DTS Insight事件的最新时间。

    事件类型和等级

    事件分类

    事件等级

    事件类型

    事件说明

    DTS Insight事件

    严重

    失败任务

    对应的DTS实例运行失败。

    一键修正任务

    对应的DTS实例触发了一键修正功能。

    异常任务

    对应的DTS实例有异常。

    警告

    延迟任务

    对应的DTS实例产生了延迟。

    暂停任务

    对应的DTS实例处于暂停状态过久。

    事件状态

    事件状态

    说明

    待用户处理

    DTS实例无法自动修复,需要您手动修复。

    已恢复

    DTS实例已手动或自动修复。

    修复DTS Insight事件

    1. 查看目标DTS Insight事件对应DTS实例的报错信息(二选一)。

      • 在目标DTS Insight事件的事件原因和详情列,单击详情

      • 在目标DTS Insight事件的操作列,单击任务详情

    2. 根据报错信息和DTS Insight运维助手的提示信息,修复DTS实例。

    3. 返回事件中心页面的DTS Insight事件页签。

    4. 在目标DTS Insight事件的操作列,单击重启

    修改DTS Insight事件主动诊断告警

    1. 在目标DTS Insight事件的操作列,单击任务详情

      说明

      您也可以在实例ID/名称列,单击目标DTS Insight事件所对应DTS实例的ID。

    2. 左侧导航栏,单击告警设置

    3. DTS Insight 主动诊断告警监控项,单击操作修改

    4. 根据及时情况修改告警信息。

      说明
      • 取消选中启用,即可关闭DTS Insight事件主动诊断告警。

      • 告警规则的阈值为0,则DTS实例触发DTS Insight事件即产生告警。

    5. 单击确定

常见问题

  • 计划内运维事件是否支持手动执行?

    计划内运维事件中除操作建议以外的操作均为系统自动执行,不支持手动执行。

  • 计划内运维事件是否支持取消?

    计划内运维事件不支持直接取消。您可以在业务允许的前提条件下,结束或释放计划内运维事件对应的DTS实例,计划内运维事件将会自动取消,并处于已取消状态。相关操作,请参见结束DTS实例释放DTS实例

    重要

    在结束或释放DTS实例前,请仔细阅读相关注意事项。

  • 计划内运维事件的最晚可预约时间和计划执行时间是什么关系?

    最晚可预约时间计划执行时间前的30分钟。

  • 是否支持通过API管理运维事件?

    不支持。