附录:健康状态支持产品及说明

更新时间:

本文介绍云服务诊断健康状态已支持的产品及详细说明,如需更多帮助请查看云服务诊断目录下其他帮助文档。欢迎加入钉钉交流群(群号:86570007290)与产品团队分享您的问题和观点。

健康状态已支持的产品及详情如下表,更多产品及资源的健康状态将陆续上线,敬请期待。

分类

产品名称

缩写

资源类型

不可用定义

不可用判断标准

周期

计算

云服务器 ECS

ECS

实例

某时段内ECS实例受到底层宿主机、存储、网络等限制,导致性能受到影响或降级,或遭到OOM出现蓝屏、夯住(Hang)等问题,视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障

ECS对实例状态进行监测,并上报至云监控系统事件。

Product: ecs;

事件名称:Instance:HealthStatusChange,当healthStatus变更为 Impaired时为不可用

状态变化时记录一次

函数计算

FC

服务

某时段内FC服务请求错误率(HTTP状态码为500的请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单上报故障

FC对服务请求进行监测,并上报至云监控时序指标。

Namespace: acs_fc;

失败请求:ServiceServerErrors;

错误率:ServiceServerErrorsRate;

ServiceServerErrorsRate > 10%为不可用。但每分钟ServiceServerErrors < 10时不计算错误率,默认为正常

10分钟记录一次(固定间隔)

容器

容器服务 Kubernetes 版

ACK

集群

某时段内客户所有试图与指定的 ACK Pro 集群 Kubernetes API 服务建立连接并使用服务的连续尝试均失败,则视为该时段内该 ACK Pro 集群服务不可用,标记异常。若未及时恢复,可提交工单上报故障(注意:ACK控制台集群状态的“不可用”指因集群API ServerCLB实例被释放导致的集群无法正常使用,与健康状态含义不同。因此可能出现健康状态正常但ACK控制台集群状态为不可用的情况

ACK对集群状态进行监测,并记录日志。

Project:meta-cluster-sla-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,start_timestamp - end_timestamp为不可用时段

10分钟记录一次(任意间隔)

存储

对象存储

OSS

Bucket

某时段内OSS HTTP请求错误率(状态码为5XX的失败请求/全部请求)>10%则视为该时段内该OSS服务不可用,标记异常。若未及时恢复,可提交工单上报故障

OSSHTTP请求进行监测和计算,并上报至云监控时序指标。Namespace:acs_oss_dashboard;

可用性:Availability;

Availability<90%时为不可用

10分钟记录一次(固定间隔)

块存储

EBS

磁盘

某时段内EBS无法进行读写或读写性能严重下降,则视为该时段内该EBS实例不可用,标记异常。若未及时恢复,可提交工单上报故障

EBS对磁盘状态进行监测,并上报至云监控系统事件。

Product: ecs;

本地磁盘开始出现损坏告警:Disk:ErrorDetected:Executing;

磁盘性能开始受到严重影响:Disk:Stalled:Executing;

以上两个事件任意一个出现即为不可用

状态变化时记录一次

文件存储 NAS

NAS

文件系统

某时段内客户所有试图与指定的 NAS 单个文件系统实例建立连接的连续尝试均失败,则视为该时段内该 NAS 单个文件系统实例服务不可用,标记异常。若未及时恢复,可提交工单上报故障

NAS对文件系统实例状态进行监测,并记录日志。

Project:ali-aliyun-nas;Slilevel=unavailable为不可用,startTime - EndTime为不可用时段

10分钟记录一次(任意间隔)

云备份

Cloud Backup

存储库

某时段内云备份的备份任务失败且失败原因为“备份仓库不可用”,或云备份的恢复任务失败且失败原因为“备份仓库不可用”时则视为该时段内云备份不可用,标记异常。若未及时恢复,可提交工单上报故障

云备份对备份仓库实例(存储库)状态进行监测,并记录日志。

Project:hbr;sli_level=unavailable为不可用,start_timestamp - end_timestamp为不可用时段

10分钟记录一次(任意间隔)

日志服务

SLS

日志项目

日志服务服务器端接收到的请求,视为有效请求。由于日志服务原因造成的调用失败,则视为失败请求。某连续时段(10分钟及以上)错误率(失败请求/有效请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单处理

SLS对服务请求进行监测,并上报至云监控时序指标。

Namespace:acs_sls_dashboard;

失败请求LogCodeQps指标中筛选5XX的数量;

有效请求:LogCodeQps总数量;

计算每10分钟时段的错误率(失败请求总量/有效请求总量)> 10%为不可用。有效请求总量 < 100时不计算错误率,默认为正常

10分钟记录一次(固定间隔)

网络与CDN

CDN

CDN

域名

某时段内CDN服务请求错误率(因CDN系统原因导致的域名返回的5XX的失败请求/全部请求)>10%则视为该时段内该CDN服务不可用,标记异常。若未及时恢复,可提交工单上报故障

CDN对服务请求进行监测,并上报至云监控时序指标。Namespace: acs_cdn;

错误率:code5xx;

全部请求:QPS*60;code5xx>10%为不可用,但每分钟全部请求(QPS*60)<40时不计算错误率,默认为正常

10分钟记录一次(固定间隔)

全站加速DCDN

DCDN

域名

某时段内DCDN服务请求错误率(因DCDN系统原因导致的域名返回的5XX的失败请求/全部请求)>10%则视为该时段内该DCDN服务不可用,标记异常。若未及时恢复,可提交工单上报故障

DCDN对服务请求进行监测,并上报至云监控时序指标。Namespace: acs_dcdn;

错误率:code_ratio_5;

全部请求:dcdn_qps*60;code_ratio_5>10%为不可用,但每分钟全部请求(dcdn_qps*60)<40时不计算错误率,默认为正常

10分钟记录一次(固定间隔)

弹性公网 IP

EIP

实例

某时段内 EIP 实例出方向所有数据包都在阿里云出口网关设备丢弃时,则视为该时段内该 EIP 实例服务不可用,标记异常。若未及时恢复,可提交工单上报故障

EIP对实例状态进行监测,并记录日志。

Project:metric-eip-ops-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,begin_ts - end_ts为不可用时段

10分钟记录一次(任意间隔)

云数据传输

CDT

NA

某时段内CDT提供的统一计费和出账功能异常则视为该时段内CDT服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

云数据传输属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-云数据传输

状态变化时记录一次

负载均衡

SLB

实例

某时段内客户所有试图与指定的 SLB 实例中某个监听所建立连接的连续尝试均失败,则视为该时段内该 SLB 实例服务不可用,标记异常。可通过停止/启动实例尝试恢复,或提交工单上报故障

SLB对实例状态进行监测,并记录日志。

Project:metric-slb-ops-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,begin_ts - end_ts为不可用时段

10分钟记录一次(任意间隔)

NAT 网关

NAT Gateway

实例

某时段内NAT网关实例出方向所有数据包都被阿里云出口网关设备丢弃时,则视为该时段内该NAT网关实例服务不可用,标记异常。若未及时恢复,可提交工单处理

NAT网关对实例状态进行监测,并上报至云监控系统事件。

Product: nis;

NAT数据链路不可用:problem-nat-datapathUnavailable;

不可用超过10分钟会发送一次该事件,若持续不可用,会每隔10分钟发送一次该事件。当收不到该事件时表明已恢复正常

10分钟记录一次(任意间隔)

安全

数字证书管理服务(原SSL证书)

SSL Certificate

NA

某时段内客户签发证书验证时候试图链接/访问证书产品的对应的CRL/OCSP服务时连接尝试均失败,则视为该时段内该数字证书管理服务的CRL/OCSP服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

数字证书管理服务属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-数字证书管理服务(原SSL证书)

状态变化时记录一次

Web应用防火墙

WAF

防护对象

某时段内WAF服务请求错误率(因WAF系统原因导致的域名返回状态码为5XX4XX请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

Web应用防火墙属于全球服务,不区分地域。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-Web应用防火墙

状态变化时记录一次

云安全中心

Security Center

NA

某时段内云安全中心服务请求错误率(因云安全中心系统原因导致的域名返回状态码为5XX的失败请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单上报故障

云安全中心对服务请求进行监测,并记录日志。

Project:sas-sla-pop-aliyun-cn-sh;

失败请求:error_count_5xx;

成功请求:success_count;

错误率=

(error_count_5xx/(success_count+error_count_5xx))>10%为不可用

10分钟记录一次(任意间隔)

内容安全

Content Moderation

NA

某时段内内容安全服务请求错误率(HTTP状态码为5XX的请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

内容安全属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-内容安全

状态变化时记录一次

数据库

云数据库 RDS

RDS

实例

某时段内客户所有试图与指定的RDS实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障

RDS对实例状态进行监测,并上报至云监控系统事件。

Product: rds

事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常

状态变化时记录一次

云数据库 MongoDB 版

MongoDB

实例

某时段内客户所有试图与指定的MongoDB实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例、组件或节点尝试恢复,或提交工单上报故障

MongoDB对实例状态进行监测,并上报至云监控系统事件。

Product: mongodb

事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常

状态变化时记录一次

云原生数据库 PolarDB

PolarDB

集群

某时段内客户所有试图与指定的PolarDB集群建立连接的连续尝试均失败,则视为该时段内该集群服务不可用,标记异常。可通过节点管理尝试恢复,或提交工单上报故障

PolarDB对实例状态进行监测,并上报至云监控系统事件。

Product: polardb

事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常

状态变化时记录一次

云数据库 Redis 版

Redis

实例

某时段内客户所有试图与指定的Redis实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障

Redis对实例状态进行监测,并上报至云监控系统事件。

Product: redis

事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常

状态变化时记录一次

云原生分布式数据库 PolarDB-X

PolarDB-X

实例

某时段内客户所有试图与指定的PolarDB-X实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单处理。(注意:仅支持2.0实例,1.0实例建议升级到2.0,可参考PolarDB-X 1.0升级至PolarDB-X 2.0

PolarDB-X对实例状态进行监测,并上报至云监控系统事件。

Product: drds;

事件名称:Instance_Failure_Start,故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常

状态变化时记录一次

数据传输服务

DTS

实例

某时段内DTS实例的写入数据无法同步到目的端,且状态持续超过5分钟以上,则视为该时段内该实例服务不可用,标记异常。若未及时恢复,可提交工单处理

DTS对实例状态进行监测,并上报至云监控时序指标。

Namespace:acs_dts;

同步任务实例不可用:SynchronizationLatency(同步任务延迟)超过5分钟且持续5分钟以上为不可用

订阅任务实例不可用:ChangeTrackingLatency(订阅任务延迟)超过5分钟且持续5分钟以上为不可用

迁移任务实例不可用:MigrationLatency(迁移任务延迟)超过5分钟且持续5分钟以上为不可用

5分钟记录一次(固定间隔)

中间件

API 网关

API Gateway

实例

某时段内API网关服务请求错误率(由于⽹关原因造成的API调⽤失败请求/全部请求)>10%则视为该时段内该实例不可用,标记异常。若未及时恢复,可提交工单上报故障

API网关对服务请求进行监测和计算,并上报至云监控时序指标。Namespace:acs_apigateway_dashboard;

全部请求:request_count_instance;

失败请求:error_count_instance;

实例节点丢失比例:instance_lost;

1、instance_lost = 100%为不可用

2、(error_count_instance /request_count_instance)> 10%为不可用。但每10分钟request_count_instance < 100时不计算错误率,默认为正常

10分钟记录一次(固定间隔)

其他

视频直播

LIVE

域名

因视频直播故障导致(1)FLV-HTTP/RTMP:维持链接20秒未返回数据;(2)HLS:5XX类错误 的请求视为失败请求。某时段内错误率(失败请求/全部请求)>20%则视为该时段内该视频直播服务不可用,标记异常。若未及时恢复,可提交工单上报故障

LIVE对服务请求进行监测,并上报至云监控时序指标。Namespace: acs_videolive;

错误率:code5xx;

全部请求:QPS*60;

code5xx>20%为不可用,但每分钟总请求(QPS*60)<100时不计算错误率,默认为正常

10分钟记录一次(固定间隔)

短信服务

SMS

NA

某时段内所有提交短信的有效号码结果均为明确失败(指短信(验证码、行业通知短信、推广短信)提交至有效号码终端导致的失败),则视为该时段内该短信服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

短信服务属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-短信服务

状态变化时记录一次

语音服务

VS

NA

某时段内客户所有调用发起语音外呼API接口的尝试均失败,则视为该时段内该语音服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

语音服务属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-语音服务

状态变化时记录一次

号码隐私保护

PNP

NA

某时段内客户所有调用发起号码隐私保护的绑定API接口尝试均失败,则视为该时段内该号码隐私保护服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

号码隐私保护属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-号码隐私保护

状态变化时记录一次

邮件推送

Direct Mail

NA

某时段内因阿里云邮件推送系统原因导致客户所有有效请求(用户连接到阿里云邮件推送服务器并验证成功的请求)均发信失败,则视为该时段内该邮件推送服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

邮件推送属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-邮件推送

状态变化时记录一次

阿里邮箱

Alibaba Mail

NA

某时段内客户通过 SMTP、POP、IMAPWebmail中任意一种方式收发邮件一直失败,则视为该时段内该阿里邮箱服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

阿里邮箱属于全球服务,不区分地域及实例。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-阿里邮箱

状态变化时记录一次

云解析DNS

DNS

域名

某时段内客户所有对云解析DNS服务器的域名查询均失败,则视为该时段内该云解析DNS实例服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

云解析DNS属于全球服务,不区分地域。其对服务状态进行监测,并将可用性状态同步至阿里云健康看板的非区域性-云解析DNS

状态变化时记录一次

说明
  • 状态变化时记录一次:由可用变为不可用记录一次,由不可用变为可用再记录一次。如12:00:02开始不可用,12:00:06恢复正常,则12:00:02-12:00:06会标记为异常。

  • 10分钟记录一次(固定间隔):00:00-09:59、10:00-19:59等固定10分钟间隔记录一次该时段计算的结果。如12:00:00-12:09:59计算为不可用则标记为异常,12:10:00-12:19:59计算为可用则标记为正常,系统不会计算12:01:00-12:10:59此类时段结果。

  • 10分钟记录一次(任意间隔):任意时刻开始不可用且不可用持续10分钟,则记录该10分钟为不可用。如12:00:02开始不可用且持续到12:12:05,则12:00:02-12:10:01标记为异常,而12:10:02-12:12:05不足10分钟标记为正常。