附录:健康状态支持产品及说明

更新时间:

本文介绍云服务诊断健康状态已支持的产品及详细说明,如需更多帮助请查看云服务诊断目录下其他帮助文档。欢迎加入钉钉交流群(群号:86570007290)与产品团队分享您的问题和观点。

健康状态已支持的产品及详情如下表,更多产品及资源的健康状态将陆续上线,敬请期待。

分类

产品名称

缩写

资源类型

不可用定义

不可用判断标准

周期

计算

云服务器 ECS

ECS

实例

某时段内ECS实例受到底层宿主机、存储、网络等限制,导致性能受到影响或降级,或遭到OOM出现蓝屏、夯住(Hang)等问题,视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障

ECS对实例进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance:HealthStatusChange,当healthStatus 变更为 Impaired时为不可用

状态变化时记录一次,精确到秒

函数计算

FC

服务

某时段内FC服务请求错误率(HTTP状态码为500的请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单上报故障

FC通过云监控时序指标上报请求失败情况。

Namespace: acs_fc

MetricName:ServiceServerErrors 服务服务端错误数

MetricName:ServiceServerErrorsRate 服务服务端错误数占总调用数比例

ServiceServerErrorsRate > 10%为不可用。但每分钟ServiceServerErrors < 10时不计算错误率,默认为正常

每小时记录一次

容器

容器服务 Kubernetes 版

ACK

集群

某时段内客户所有试图与指定的 ACK Pro 集群 Kubernetes API 服务建立连接并使用服务的连续尝试均失败,则视为该时段内该 ACK Pro 集群服务不可用,标记异常。若未及时恢复,可提交工单上报故障(注意:ACK控制台集群状态的“不可用”指因集群API Server的CLB实例被释放导致的集群无法正常使用,与健康状态含义不同。因此可能出现健康状态正常但ACK控制台集群状态为不可用的情况

ACK对集群进行状态监测,并通过日志记录可用性状态的变化。

Project:meta-cluster-sla-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,start_timestamp - end_timestamp为不可用时段(>=5分钟才标记异常)

状态变化时记录一次,精确到秒

存储

对象存储

OSS

Bucket

某时段内OSS HTTP请求错误率(状态码为5XX的失败请求/全部请求)>10%则视为该时段内该OSS服务不可用,标记异常。若未及时恢复,可提交工单上报故障

OSS对HTTP请求状态码进行监测和计算,并通过云监控时序指标上报可用性状态。Namespace:acs_oss_dashboard,MetricName:Availability<90%时为不可用

每小时记录一次

块存储

EBS

磁盘

某时段内EBS无法进行读写或读写性能严重下降,则视为该时段内该EBS实例不可用,标记异常。若未及时恢复,可提交工单上报故障

EBS对磁盘进行状态监测,并通过云监控系统事件上报可用性状态的变化。Product: ecs;事件名称:Disk:ErrorDetected:Executing(本地磁盘开始出现损坏告警)或Disk:Stalled:Executing(磁盘性能开始受到严重影响),为不可用

状态变化时记录一次,精确到秒

文件存储 NAS

NAS

文件系统

某时段内客户所有试图与指定的 NAS 单个文件系统实例建立连接的连续尝试均失败,则视为该时段内该 NAS 单个文件系统实例服务不可用,标记异常。若未及时恢复,可提交工单上报故障

NAS对文件系统实例进行状态监测,并通过日志记录可用性状态的变化。

Project:ali-aliyun-nas;Slilevel=unavailable为不可用,startTime - EndTime为不可用时段

状态变化时记录一次,精确到秒

云备份

Cloud Backup

存储库

某时段内云备份的备份任务失败且失败原因为“备份仓库不可用”,或云备份的恢复任务失败且失败原因为“备份仓库不可用”时则视为该时段内云备份不可用,标记异常。若未及时恢复,可提交工单上报故障

云备份对备份仓库实例(存储库)进行状态监测,并通过日志记录可用性状态的变化。

Project:hbr;sli_level=unavailable为不可用,start_timestamp - end_timestamp为不可用时段

状态变化时记录一次,精确到秒

网络与CDN

CDN

CDN

域名

某时段内CDN服务请求错误率(因CDN系统原因导致的域名返回的5XX的失败请求/全部请求)>10%则视为该时段内该CDN服务不可用,标记异常。若未及时恢复,可提交工单上报故障

CDN对服务请求状态码进行监测,并通过云监控时序指标(Namespace: acs_cdn)上报5XX状态码占比(MetricName:code5xx)及QPS(MetricName:QPS)。code5xx>10%时为不可用,但每分钟平均请求(QPS*60)<40时不计算错误率,默认为正常

每小时记录一次

全站加速DCDN

DCDN

域名

某时段内DCDN服务请求错误率(因DCDN系统原因导致的域名返回的5XX的失败请求/全部请求)>10%则视为该时段内该DCDN服务不可用,标记异常。若未及时恢复,可提交工单上报故障

DCDN对服务请求状态码进行监测,并通过云监控时序指标(Namespace: acs_dcdn)上报5XX状态码占比(MetricName:code_ratio_5)及QPS(MetricName:dcdn_qps)。code_ratio_5>10%时为不可用,但每分钟平均请求(dcdn_qps*60)<40时不计算错误率,默认为正常

每小时记录一次

弹性公网 IP

EIP

实例

某时段内 EIP 实例出方向所有数据包都在阿里云出口网关设备丢弃时,则视为该时段内该 EIP 实例服务不可用,标记异常。若未及时恢复,可提交工单上报故障

EIP对实例进行状态监测,并通过日志记录可用性状态的变化。

Project:metric-eip-ops-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,begin_ts - end_ts为不可用时段

状态变化时记录一次,精确到秒

云数据传输

CDT

NA

某时段内CDT提供的统一计费和出账功能异常则视为该时段内CDT服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

云数据传输属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-云数据传输

状态变化时记录一次,精确到秒

安全

数字证书管理服务(原SSL证书)

SSL Certificate

NA

某时段内客户签发证书验证时候试图链接/访问证书产品的对应的CRL/OCSP服务时连接尝试均失败,则视为该时段内该数字证书管理服务的CRL/OCSP服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

数字证书管理服务属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-数字证书管理服务(原SSL证书)

状态变化时记录一次,精确到秒

Web应用防火墙

WAF

防护对象

某时段内WAF服务请求错误率(因WAF系统原因导致的域名返回状态码为5XX和4XX请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

Web应用防火墙属于全球服务,不区分地域。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-Web应用防火墙

状态变化时记录一次,精确到秒

云安全中心

Security Center

NA

某时段内云安全中心服务请求错误率(因云安全中心系统原因导致的域名返回状态码为5XX的失败请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单上报故障

云安全中心对服务请求进行状态监测,并通过日志记录失败请求及成功请求。

Project:sas-sla-pop-aliyun-cn-sh;

5XX请求:error_count_5xx;

成功请求:success_count;

错误率=

(error_count_5xx/(success_count+error_count_5xx))>10%时为不可用

每小时记录一次

内容安全

Content Moderation

NA

某时段内内容安全服务请求错误率(HTTP状态码为5XX的请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

内容安全属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-内容安全

状态变化时记录一次,精确到秒

数据库

云数据库 RDS

RDS

实例

某时段内客户所有试图与指定的RDS实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障

RDS对实例进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance_Failure_Start:故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常

状态变化时记录一次,精确到秒

云数据库 MongoDB 版

MongoDB

实例

某时段内客户所有试图与指定的MongoDB实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例、组件或节点尝试恢复,或提交工单上报故障

MongoDB对实例进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance_Failure_Start:故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常

状态变化时记录一次,精确到秒

云原生数据库 PolarDB

PolarDB

集群

某时段内客户所有试图与指定的PolarDB集群建立连接的连续尝试均失败,则视为该时段内该集群服务不可用,标记异常。可通过节点管理尝试恢复,或提交工单上报故障

PolarDB对集群进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance_Failure_Start:故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常

状态变化时记录一次,精确到秒

云数据库 Redis 版

Redis

实例

某时段内客户所有试图与指定的Redis实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障

Redis对实例进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance_Failure_Start:故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常

状态变化时记录一次,精确到秒

其他

视频直播

LIVE

域名

因视频直播故障导致(1)FLV-HTTP/RTMP:维持链接20秒未返回数据;(2)HLS:5XX类错误 的请求视为失败请求。某时段内错误率(失败请求/全部请求)>20%则视为该时段内该视频直播服务不可用,标记异常。若未及时恢复,可提交工单上报故障

LIVE对服务请求进行监测,并通过云监控时序指标(Namespace: acs_videolive)上报返回码5XX占比(MetricName:code5xx)及每秒访问次数(MetricName:QPS)。

code5xx>20%时为不可用,但每分钟总请求(QPS*60)<100时不计算错误率,默认为正常

每小时记录一次

短信服务

SMS

NA

某时段内所有提交短信的有效号码结果均为明确失败(指短信(验证码、行业通知短信、推广短信)提交至有效号码终端导致的失败),则视为该时段内该短信服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

短信服务属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-短信服务

状态变化时记录一次,精确到秒

语音服务

VS

NA

某时段内客户所有调用发起语音外呼API接口的尝试均失败,则视为该时段内该语音服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

语音服务属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-语音服务

状态变化时记录一次,精确到秒

号码隐私保护

PNP

NA

某时段内客户所有调用发起号码隐私保护的绑定API接口尝试均失败,则视为该时段内该号码隐私保护服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

号码隐私保护属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-号码隐私保护

状态变化时记录一次,精确到秒

邮件推送

Direct Mail

NA

某时段内因阿里云邮件推送系统原因导致客户所有有效请求(用户连接到阿里云邮件推送服务器并验证成功的请求)均发信失败,则视为该时段内该邮件推送服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

邮件推送属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-邮件推送

状态变化时记录一次,精确到秒

阿里邮箱

Alibaba Mail

NA

某时段内客户通过 SMTP、POP、IMAP或Webmail中任意一种方式收发邮件一直失败,则视为该时段内该阿里邮箱服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

阿里邮箱属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-阿里邮箱

状态变化时记录一次,精确到秒

云解析DNS

DNS

域名

某时段内客户所有对云解析DNS服务器的域名查询均失败,则视为该时段内该云解析DNS实例服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障

云解析DNS属于全球服务,不区分地域。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-云解析DNS

状态变化时记录一次,精确到秒