发现和排查实例问题

合理使用监控相关的功能可以帮助您及时发现和排查实例问题,在故障发生前处理掉潜在风险,避免影响业务。

诊断实例的健康状态

实例健康诊断功能可以全方位诊断实例的操作系统配置、网络状态、磁盘状态等。诊断报告中针对异常诊断项目的影响按照严重程度区分,并提供修复方案,方便您及时处理潜在风险。更多信息,请参见诊断实例的健康状态

诊断.png

及时处理系统事件

系统在执行某些运维动作或检测到某些异常,判断会影响实例正常运行时,会自动发送系统事件。系统事件中会同时提供应对措施、事件周期等信息,建议您及时处理系统事件,避免实例重启、停止等问题影响您的业务。更多信息,请参见ECS系统事件概述

通知包年包月实例到期的系统事件示例如下图所示。事件

请确保在消息中心开启接收ECS到期通知、产品运维通知、ECS故障通知等消息相关的站内信,否则在ECS管理控制台将不能收到系统事件,设置页面如下图所示。noti

关注实例运行指标

阿里云收集并展示实例运行指标,供您了解实例的实时和历史运行情况。您可以基于运行指标判断实例运行是否正常,例如CPU使用率持续偏高时,可能需要排查是否存在异常进程或者实例配置过低。

您可以在ECS管理控制台的实例详情页的监控页签下或者云监控控制台的主机监控页面查看实例运行指标,更多信息,请参见查看实例监控信息主机监控概览

  • ECS管理控制台的实例详情页面中展示的运行指标如下:

    • 实例计算、存储、网络的资源使用情况,例如CPU使用率、磁盘读写情况、网络收发包数量等。

    • 突发性能实例的CPU积分使用情况。

    instance-monitoring
  • 云监控控制台的主机监控页的操作系统监控页签下展示的运行指标如下:

    • 实例计算、存储、网络的资源使用情况,例如CPU使用率、磁盘读写情况、网络收发包数量等。

    • 实例内活跃进程的信息。

    • GPU实例的显存使用情况。

    cloudmonitor-host

利用报警服务自动通知

使用云监控的报警服务,您可以针对关注的事件或者实例运行指标设置报警规则,在发生指定事件或实例运行指标出现异常时,自动以邮件等方式通知到联系人,减轻人工运维压力。更多信息,请参见设置事件通知设置ECS实例报警

针对事件的报警规则示例如下所示。

云监控.png

针对实例运行指标的报警规则示例如下所示。

jiankong.png