本文介绍在使用阿里云云监控产品监控 OSS 数据时遇到的一些常见问题及解决方案。

OSS 和云监控是两个独立的产品,OSS 将数据推送至云监控,由云监控产品进行分析处理。 OSS 控制台上看到的存储容量监控以及带宽流量监控来自于云监控产品的数据。

OSS 的数据推送到云监控会延迟 2-3 小时,同时云监控在接收 OSS 数据时存在窗口期,单次数据推送的时间间隔不能超过5分钟。如果OSS 推送数据超过5 分钟,那么云监控过会拒绝接收这个过期数据,同时也不支持补推。所以,不建议根据云监控的数据计算您的费用。如需核对费用,建议联系售后技术支持

案例:报警规则的状态出现“数据不足”

问题分析:此问题可以查看用户概况服务监控总览内的数据,若无数据产生,就会出现数据不足的情况。

案例:云监控上发现上传下载延迟



问题分析:云监控平台上查看到的数据是云监控产品节点发起探测请求获得的数据,并不代表真实用户环境。

解决方案:云监控平台监控到访问延迟较大的情况,可通过如下步骤排查:
  1. 确认客户端访问是否真的有延迟。
  2. 若用户访问对应的 Bucket 也出现延迟的情况,需通过抓包获取访问数据分析。
  3. 您也可以通过日志分析对应时间内的访问数据,确认是否有访问延迟的情况。

案例:某公司自己的监控系统发现OSS请求数据有延迟



某公司因业务需求,自己搭建了一套监控系统监控 OSS 的数据,发现访问 OSS 延迟较大,可通过如下步骤排查:
  1. 排查公司网络是否正常,可通过 ping 其他网站的形式测试延迟。
  2. 在 OSS 同地域创建一个 ECS 服务器去访问 OSS 测试是否有延迟。
  3. 将上传延迟的 OSS requestID 发送给售后技术支持,查看出现问题时访问是否真的延迟。
  4. 通过抓包获取上传数据进行分析,可通过如下参数分析数据包:
    tcpdump -i <出口网卡> -s0 ( 本机出口IP and OSS域名 ) -w result.pcap

案例:有效请求率降低

问题现象:云监控出现“对象存储 OSS (<)Bucket=p2xxx,userId=135114002(>),有效请求率(30.51<90% ),持续时间0分钟”的报错。

解决方案:异常请求率是通过 2xx+3xx/总体数量 计算出来的,您可以先查看云监控的 OSS 控制台统计的 2XX 3XX 以及其他异常状态码的占比,确认是否因异常状态码增加导致的有效请求率下降。您也可以通过开通 OSS 日志分析请求行为。

案例:云监控报警 404

问题现象:云监控出现“对象存储OSS实例:Bucket=***-ali,userId=197*****745,资源不存在错误请求数于11:45恢复正常,值为30次,持续时间5分钟”的报错。

问题分析:这种问题就是 Bucket 资源不存在导致的报警,属于正常的响应,并非是异常状态。

案例:云监控出现 NoSuchWebSiteConfigration



问题分析:此问题是客户端在请求 OSS 数据时加载的功能配置不存在,导致出现 404 的报错,200 的状态码是用户已经在 OSS 上配置的功能模块,并非异常现象。

案例:OSS 控制台 API 统计图无数据



问题分析:API 的监控数据都是隔天显示,例如,今天是 10 月 12 日,完整的数据还没有出来,所以不能画点,需等到 13 号才能看到 12 号的完整数据。

案例:通过 OSS 监控计费核对账单发现数据不准确



OSS 的数据推送到云监控会延迟 1-2 小时,同时云监控在接收 OSS 数据时存在窗口期,单次数据推送的时间间隔不能超过5分钟。如果OSS 推送数据超过5 分钟,那么云监控过会拒绝接收这个过期数据,同时也不支持补推。所以,不建议使用云监控的数据和您的账号进行对账,因为数据并不准确,您可以通过以下方式对账:
  • 提前开启 OSS 日志,之后通过 OSS 日志的统计和账单核对。
  • 若您不愿意核对日志,可以开启 OSS 的日志分析功能,把 OSS 的日志导入通过日志分析处理后直接查看结果。

案例:云监控显示某个时间段的有效请求率下降为 0,但是 OSS 的 log 以及控制台的监控数据都是正常



问题分析:云监控有效请求率的计算公式是:100%-(2xx+3xx)/总请求数量。发现类似情况可查看 OSS 控制台或 OSS log 有没有异常即可。

出现这种问题是因为 OSS 将整个集群日志推送到云监控时超过了云监控的接收窗口期,而云监控不支持补推,所以导致数据为 0 。