附录:健康状态支持产品及说明
本文介绍云服务诊断健康状态已支持的产品及详细说明,如需更多帮助请查看云服务诊断目录下其他帮助文档。欢迎加入钉钉交流群(群号:86570007290)与产品团队分享您的问题和观点。
健康状态已支持的产品及详情如下表,更多产品及资源的健康状态将陆续上线,敬请期待。
分类 | 产品名称 | 缩写 | 资源类型 | 不可用定义 | 不可用判断标准 | 周期 |
计算 | 云服务器 ECS | ECS | 实例 | 某时段内ECS实例受到底层宿主机、存储、网络等限制,导致性能受到影响或降级,或遭到OOM出现蓝屏、夯住(Hang)等问题,视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障 | ECS对实例进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance:HealthStatusChange,当healthStatus 变更为 Impaired时为不可用 | 状态变化时记录一次,精确到秒 |
函数计算 | FC | 服务 | 某时段内FC服务请求错误率(HTTP状态码为500的请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | FC通过云监控时序指标上报请求失败情况。 Namespace: acs_fc MetricName:ServiceServerErrors 服务服务端错误数 MetricName:ServiceServerErrorsRate 服务服务端错误数占总调用数比例 ServiceServerErrorsRate > 10%为不可用。但每分钟ServiceServerErrors < 10时不计算错误率,默认为正常 | 每小时记录一次 | |
容器 | 容器服务 Kubernetes 版 | ACK | 集群 | 某时段内客户所有试图与指定的 ACK Pro 集群 Kubernetes API 服务建立连接并使用服务的连续尝试均失败,则视为该时段内该 ACK Pro 集群服务不可用,标记异常。若未及时恢复,可提交工单上报故障(注意:ACK控制台集群状态的“不可用”指因集群API Server的CLB实例被释放导致的集群无法正常使用,与健康状态含义不同。因此可能出现健康状态正常但ACK控制台集群状态为不可用的情况) | ACK对集群进行状态监测,并通过日志记录可用性状态的变化。 Project:meta-cluster-sla-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,start_timestamp - end_timestamp为不可用时段(>=5分钟才标记异常) | 状态变化时记录一次,精确到秒 |
存储 | 对象存储 | OSS | Bucket | 某时段内OSS HTTP请求错误率(状态码为5XX的失败请求/全部请求)>10%则视为该时段内该OSS服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | OSS对HTTP请求状态码进行监测和计算,并通过云监控时序指标上报可用性状态。Namespace:acs_oss_dashboard,MetricName:Availability<90%时为不可用 | 每小时记录一次 |
块存储 | EBS | 磁盘 | 某时段内EBS无法进行读写或读写性能严重下降,则视为该时段内该EBS实例不可用,标记异常。若未及时恢复,可提交工单上报故障 | EBS对磁盘进行状态监测,并通过云监控系统事件上报可用性状态的变化。Product: ecs;事件名称:Disk:ErrorDetected:Executing(本地磁盘开始出现损坏告警)或Disk:Stalled:Executing(磁盘性能开始受到严重影响),为不可用 | 状态变化时记录一次,精确到秒 | |
文件存储 NAS | NAS | 文件系统 | 某时段内客户所有试图与指定的 NAS 单个文件系统实例建立连接的连续尝试均失败,则视为该时段内该 NAS 单个文件系统实例服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | NAS对文件系统实例进行状态监测,并通过日志记录可用性状态的变化。 Project:ali-aliyun-nas;Slilevel=unavailable为不可用,startTime - EndTime为不可用时段 | 状态变化时记录一次,精确到秒 | |
云备份 | Cloud Backup | 存储库 | 某时段内云备份的备份任务失败且失败原因为“备份仓库不可用”,或云备份的恢复任务失败且失败原因为“备份仓库不可用”时则视为该时段内云备份不可用,标记异常。若未及时恢复,可提交工单上报故障 | 云备份对备份仓库实例(存储库)进行状态监测,并通过日志记录可用性状态的变化。 Project:hbr;sli_level=unavailable为不可用,start_timestamp - end_timestamp为不可用时段 | 状态变化时记录一次,精确到秒 | |
网络与CDN | CDN | CDN | 域名 | 某时段内CDN服务请求错误率(因CDN系统原因导致的域名返回的5XX的失败请求/全部请求)>10%则视为该时段内该CDN服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | CDN对服务请求状态码进行监测,并通过云监控时序指标(Namespace: acs_cdn)上报5XX状态码占比(MetricName:code5xx)及QPS(MetricName:QPS)。code5xx>10%时为不可用,但每分钟平均请求(QPS*60)<40时不计算错误率,默认为正常 | 每小时记录一次 |
全站加速DCDN | DCDN | 域名 | 某时段内DCDN服务请求错误率(因DCDN系统原因导致的域名返回的5XX的失败请求/全部请求)>10%则视为该时段内该DCDN服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | DCDN对服务请求状态码进行监测,并通过云监控时序指标(Namespace: acs_dcdn)上报5XX状态码占比(MetricName:code_ratio_5)及QPS(MetricName:dcdn_qps)。code_ratio_5>10%时为不可用,但每分钟平均请求(dcdn_qps*60)<40时不计算错误率,默认为正常 | 每小时记录一次 | |
弹性公网 IP | EIP | 实例 | 某时段内 EIP 实例出方向所有数据包都在阿里云出口网关设备丢弃时,则视为该时段内该 EIP 实例服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | EIP对实例进行状态监测,并通过日志记录可用性状态的变化。 Project:metric-eip-ops-cn-beijing等(每个可用区独立);sli_level=unavailable为不可用,begin_ts - end_ts为不可用时段 | 状态变化时记录一次,精确到秒 | |
云数据传输 | CDT | NA | 某时段内CDT提供的统一计费和出账功能异常则视为该时段内CDT服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 云数据传输属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-云数据传输 | 状态变化时记录一次,精确到秒 | |
安全 | 数字证书管理服务(原SSL证书) | SSL Certificate | NA | 某时段内客户签发证书验证时候试图链接/访问证书产品的对应的CRL/OCSP服务时连接尝试均失败,则视为该时段内该数字证书管理服务的CRL/OCSP服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 数字证书管理服务属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-数字证书管理服务(原SSL证书) | 状态变化时记录一次,精确到秒 |
Web应用防火墙 | WAF | 防护对象 | 某时段内WAF服务请求错误率(因WAF系统原因导致的域名返回状态码为5XX和4XX请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | Web应用防火墙属于全球服务,不区分地域。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-Web应用防火墙 | 状态变化时记录一次,精确到秒 | |
云安全中心 | Security Center | NA | 某时段内云安全中心服务请求错误率(因云安全中心系统原因导致的域名返回状态码为5XX的失败请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | 云安全中心对服务请求进行状态监测,并通过日志记录失败请求及成功请求。 Project:sas-sla-pop-aliyun-cn-sh; 5XX请求:error_count_5xx; 成功请求:success_count; 错误率= (error_count_5xx/(success_count+error_count_5xx))>10%时为不可用 | 每小时记录一次 | |
内容安全 | Content Moderation | NA | 某时段内内容安全服务请求错误率(HTTP状态码为5XX的请求/全部请求)>10%则视为该时段内该服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 内容安全属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-内容安全 | 状态变化时记录一次,精确到秒 | |
数据库 | 云数据库 RDS | RDS | 实例 | 某时段内客户所有试图与指定的RDS实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障 | RDS对实例进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance_Failure_Start:故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常 | 状态变化时记录一次,精确到秒 |
云数据库 MongoDB 版 | MongoDB | 实例 | 某时段内客户所有试图与指定的MongoDB实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例、组件或节点尝试恢复,或提交工单上报故障 | MongoDB对实例进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance_Failure_Start:故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常 | 状态变化时记录一次,精确到秒 | |
云原生数据库 PolarDB | PolarDB | 集群 | 某时段内客户所有试图与指定的PolarDB集群建立连接的连续尝试均失败,则视为该时段内该集群服务不可用,标记异常。可通过节点管理尝试恢复,或提交工单上报故障 | PolarDB对集群进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance_Failure_Start:故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常 | 状态变化时记录一次,精确到秒 | |
云数据库 Redis 版 | Redis | 实例 | 某时段内客户所有试图与指定的Redis实例建立连接的连续尝试均失败,则视为该时段内该实例服务不可用,标记异常。可通过重启实例尝试恢复,或提交工单上报故障 | Redis对实例进行状态监测,并通过云监控系统事件上报可用性状态的变化。事件名称:Instance_Failure_Start:故障开始,即不可用;Instance_Failure_End:故障结束,即恢复正常 | 状态变化时记录一次,精确到秒 | |
其他 | 视频直播 | LIVE | 域名 | 因视频直播故障导致(1)FLV-HTTP/RTMP:维持链接20秒未返回数据;(2)HLS:5XX类错误 的请求视为失败请求。某时段内错误率(失败请求/全部请求)>20%则视为该时段内该视频直播服务不可用,标记异常。若未及时恢复,可提交工单上报故障 | LIVE对服务请求进行监测,并通过云监控时序指标(Namespace: acs_videolive)上报返回码5XX占比(MetricName:code5xx)及每秒访问次数(MetricName:QPS)。 code5xx>20%时为不可用,但每分钟总请求(QPS*60)<100时不计算错误率,默认为正常 | 每小时记录一次 |
短信服务 | SMS | NA | 某时段内所有提交短信的有效号码结果均为明确失败(指短信(验证码、行业通知短信、推广短信)提交至有效号码终端导致的失败),则视为该时段内该短信服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 短信服务属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-短信服务 | 状态变化时记录一次,精确到秒 | |
语音服务 | VS | NA | 某时段内客户所有调用发起语音外呼API接口的尝试均失败,则视为该时段内该语音服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 语音服务属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-语音服务 | 状态变化时记录一次,精确到秒 | |
号码隐私保护 | PNP | NA | 某时段内客户所有调用发起号码隐私保护的绑定API接口尝试均失败,则视为该时段内该号码隐私保护服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 号码隐私保护属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-号码隐私保护 | 状态变化时记录一次,精确到秒 | |
邮件推送 | Direct Mail | NA | 某时段内因阿里云邮件推送系统原因导致客户所有有效请求(用户连接到阿里云邮件推送服务器并验证成功的请求)均发信失败,则视为该时段内该邮件推送服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 邮件推送属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-邮件推送 | 状态变化时记录一次,精确到秒 | |
阿里邮箱 | Alibaba Mail | NA | 某时段内客户通过 SMTP、POP、IMAP或Webmail中任意一种方式收发邮件一直失败,则视为该时段内该阿里邮箱服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 阿里邮箱属于全球服务,不区分地域及实例。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-阿里邮箱 | 状态变化时记录一次,精确到秒 | |
云解析DNS | DNS | 域名 | 某时段内客户所有对云解析DNS服务器的域名查询均失败,则视为该时段内该云解析DNS实例服务不可用,标记异常。可查看阿里云健康看板事件修复进展,或提交工单上报故障 | 云解析DNS属于全球服务,不区分地域。其对服务进行状态监测,并将可用性状态同步至阿里云健康看板的非区域性-云解析DNS | 状态变化时记录一次,精确到秒 |