文档

风险事件说明

更新时间:

CloudLens for EBS监测到云盘存在性能数据达到规格上限或没有及时创建快照备份数据等风险情况时,会上报风险事件,提醒您及时进行处理,以确保云盘的稳定运行和数据的安全性。本文介绍CloudLens for EBS支持上报的风险事件类型、详细的事件说明以及针对不同事件的处理建议。

事件属性说明

事件属性

说明

EventName

事件名称。

ResourceId

事件关联的资源ID,即云盘ID。

ResourceType

事件关联的资源类型,例如:云盘。

Description

事件的描述信息。

EventType

事件类型:

  • Notification:使用触发,上报事件后可以即刻自动恢复

  • Alert:使用触发,需要手动执行恢复操作

  • System Exception:底层触发,影响用户使用的严重事件

EventLevel

事件级别:

  • Critical:严重

  • Warn:警告

  • Info:通知

EventId

事件ID,每条事件唯一。

EventStatus

事件状态:

  • 正在发生

  • 已恢复

StartTime

事件的开始时间。

EndTime

事件的结束时间。

RecommendAction

针对该事件推荐的操作:

  • ModifyDiskSpec:变配

  • CreateSnapshot:创建快照

  • ResizeDisk:扩容

  • AdjustProvision:调节预配置

  • ModifyInstanceSpec:实例变配

RecommendParam

在处理具体事件过程中的参数。例如处理成本优化事件时,推荐的预配置值。

说明

您可以通过控制台风险事件页面或API接口DescribeEvents查询具体事件的属性。

事件处理建议

不同事件类型的处理建议说明如下表所示。

事件名称

说明

触发频率

事件类型

事件级别

处理建议

判断事件是否恢复

数据保护

如果长时间没有给云盘创建快照,一旦遇到勒索病毒等,就无法将云盘数据恢复到最近的状态,可能会有数据丢失的风险。

每天上午上报

Alert

Warn

创建一个云盘快照

恢复后,系统会在第二天上午针对该云盘推送一条已恢复状态的新事件,历史已推送的正在发生事件不会消失。

成本优化

  • 如果云盘设置预配置性能(例如1,000 IOPS)高于实际工作负载(例如800 IOPS),却按照较高的性能等级付费,会造成成本浪费。

  • 如果云盘设置的预配置性能(例如1,000 IOPS)低于实际工作负载(例如1,200 IOPS),云盘将频繁依赖突发性能来处理超出的I/O请求,会造成总成本增加。

您可以通过调节预配置值,以达到性能与成本之间的平衡。更多信息,请参见ESSD AutoPL云盘

一周上报一次

Alert

Info

恢复后,后续不再对该云盘推送同类型的事件。

磁盘有I/O Hang发生

您的云盘存在I/O Hang,即磁盘内的文件系统因读写I/O延迟过高导致系统不稳定或宕机。

实时上报

SystemException

Critical

建议您查看云盘的性能指标,帮助您分析导致I/O Hang的原因。具体操作,请参见查看云盘监控信息。Alibaba Cloud Linux操作系统检测I/O Hang的操作,请参见检测文件系统和块层的IO hang

恢复后,系统会对该云盘推送一条已恢复状态的新事件,历史已推送的正在发生事件不会消失。

实例与磁盘规格不匹配

您的磁盘规格总和超过实例规格上限,磁盘性能上限可能受到实例规格限制。

例如,某ECS实例最大IOPS为60,000,挂载了1块IOPS最大为100,000的云盘,则该云盘性能会受实例规格的限制。

每天下午12点到15点之间上报

Alert

Warn

当磁盘性能总和达到实例规格上限时,可能会导致数据处理速度变慢、响应延迟增加等问题。

建议您根据业务需求变配实例规格。具体操作,请参见包年包月实例升配规格更改按量付费实例规格

恢复后,后续不再对该云盘推送同类型的事件。

实例IOPS达到上限

您实例中的磁盘IOPS(每秒输入输出操作次数)总和达到了实例IOPS上限。

例如,某ECS实例最大IOPS为60,000,挂载了2块云盘(一块IOPS为10,000、一块IOPS为51,000),则实例中磁盘实时IOPS总和达到了实例IOPS上限。

5分钟之内有触发就上报事件

说明

5分钟精度,延迟分钟级。

Notification

Warn

事件触发时上报一条已恢复状态的事件,提醒您当前云盘存在这些问题,不涉及事件是否恢复。

实例BPS达到上限

您实例中的磁盘读写速度BPS(Bytes Per Second)总和达到实例BPS上限。

例如,某ECS实例最大BPS为150 MBps,挂载了2块磁盘(一块BPS为100 MBps、一块BPS为60 MBps),则实例中磁盘实时BPS总和达到实例BPS上限。

Notification

Warn

磁盘IOPS达到实例上限

您的磁盘IOPS达到实例IOPS上限。

例如,某ECS实例最大IOPS为60,000, 挂载了N块磁盘,其中一块磁盘的IOPS为70,000,则磁盘的实时IOPS达到实例IOPS上限。

Notification

Warn

磁盘BPS达到实例上限

您的磁盘BPS达到实例BPS上限。

例如,某ECS实例最大BPS为150 MBps,挂载了N块磁盘,其中一块磁盘的BPS为160 MBps,则磁盘实时BPS达到实例BPS上限。

Notification

Warn

磁盘IOPS达到磁盘上限

您的磁盘IOPS达到磁盘IOPS上限。

Notification

Warn

磁盘性能达到磁盘规格的上限时,可能会导致数据处理速度变慢、响应延迟增加等问题。各类云盘的性能指标,请参见块存储性能

  • 建议您查看云盘性能指标。具体操作,请参见查看云盘监控信息

  • 建议您降低磁盘的读写频率或升级为更高性能的云盘类型。具体操作,请参见变更云盘类型

  • 您也可以通过扩大云盘容量来提升云盘的性能。具体操作,请参见云盘扩容

磁盘BPS达到磁盘上限

您的磁盘BPS达到磁盘BPS上限。

Notification

Warn

非4K对齐读写

您的云盘I/O行为检测到非4K对齐,可能影响您的云盘I/O性能。

说明

如果硬盘分区没有按照4K对齐,写入数据时可能会跨越两个4K扇区的边界,导致读写操作时需要两次或更多次的I/O操作,会影响硬盘的性能。

每天下午12点到15点之间上报

Notification

Info

可参考I/O性能优化:通过4K对齐提高I/O性能处理

检测到您的磁盘存在慢I/O

您的云盘存在1秒及以上的慢I/O。

实时上报

Notification

Warn

慢I/O可能会对依赖云盘性能的应用程序造成影响,比如网站加载延迟等问题。建议您及时监测业务是否受损。

突发I/O

您的云盘发生了突发I/O,可能产生突发性能费用。

更多信息,请参见ESSD AutoPL云盘

每隔1小时监测过去1小时内是否有突发I/O

Notification

Info

建议您确认突发I/O是否符合业务预期。