文档

常见问题

更新时间:

本文介绍在使用阿里云云监控产品监控OSS数据时遇到的一些常见问题及解决方案。

OSS和云监控是两个独立的产品,OSS将数据推送至云监控,由云监控产品进行分析处理。 OSS控制台上看到的存储容量监控以及带宽流量监控来自于云监控产品的数据。

OSS的数据推送到云监控会延迟2~3小时,同时云监控在接收OSS数据时存在窗口期,单次数据推送的时间间隔不能超过5分钟。如果OSS推送数据超过5分钟,则云监控过会拒绝接收这个过期数据,同时也不支持补推。因此,不建议根据云监控的数据计算您的费用。如需核对费用,建议联系技术支持

案例:报警规则的状态出现“数据不足”

问题分析:此问题可以查看用户概况服务监控总览内的数据。如果无数据产生,则会出现数据不足的情况。

案例:云监控上发现上传下载延迟

问题分析:云监控平台上查看到的数据是云监控产品节点发起探测请求获得的数据,并不代表真实用户环境。

解决方案:云监控平台监控到访问延迟较大的情况,可通过如下步骤排查:

  1. 确认客户端访问是否真的有延迟。

  2. 若用户访问对应的Bucket也出现延迟的情况,需通过抓包获取访问数据分析。

  3. 您也可以通过日志分析对应时间内的访问数据,确认是否有访问延迟的情况。

案例:某公司自己的监控系统发现OSS请求数据有延迟

某公司因业务需求搭建了一套监控系统监控OSS的数据,发现访问OSS延迟较大,可通过如下步骤排查:

  1. 排查公司网络是否正常,可通过ping其他网站的形式测试延迟。

  2. 在OSS同地域创建一个ECS服务器去访问OSS测试是否有延迟。

  3. 将上传延迟的OSS requestID发送给技术支持,查看出现问题时访问是否存在延迟。

  4. 通过抓包获取上传数据进行分析,可通过如下参数分析数据包:

    tcpdump -i <出口网卡> -s0 ( 本机出口IP and OSS域名 ) -w result.pcap

案例:有效请求率降低

问题现象:云监控出现“对象存储 OSS (<)Bucket=p2xxx,userId=135114002(>),有效请求率(30.51<90% ),持续时间0分钟”的报错。

解决方案:异常请求率是通过2xx+3xx总体数量计算得出,您可以先查看云监控的 OSS 控制台统计的2xx+3xx以及其他异常状态码的占比,确认是否因异常状态码增加导致的有效请求率下降。您也可以通过开通OSS日志分析请求行为。

案例:云监控报警404

问题现象:云监控出现“对象存储OSS实例:Bucket=***-ali,userId=197*****745,资源不存在错误请求数于11:45恢复正常,值为30次,持续时间5分钟”的报错。

问题分析:原因是Bucket资源不存在导致的报警,属于正常的响应,并非是异常状态。

案例:云监控出现NoSuchWebSiteConfigration

问题分析:此问题是客户端在请求OSS数据时加载的功能配置不存在,导致出现404的报错,200的状态码是用户已经在OSS上配置的功能模块,并非异常现象。

案例:OSS控制台API统计图无数据

问题分析:API的监控数据都是隔天显示,例如10月13日才能查看10月12日产生的完整数据。

案例:通过OSS监控计费核对账单发现数据不准确

image.png

OSS的数据推送到云监控会延迟1~2小时,同时云监控在接收OSS数据时存在窗口期,单次数据推送的时间间隔不能超过5分钟。如果OSS推送数据超过5分钟,那么云监控会拒绝接收这个过期数据,同时也不支持补推。所以,不建议使用云监控的数据和您的账号进行对账,因为数据并不准确,您可以通过以下方式对账:

  • 提前开启OSS日志,然后将OSS日志统计情况与账单核对。

  • 开启OSS日志分析功能,导入OSS日志后通过日志分析处理后直接查看结果。

案例:云监控显示某个时间段的有效请求率下降为0,但是OSS的log以及控制台的监控数据都是正常

问题分析:云监控有效请求率的计算公式是:100%-(2xx+3xx)/总请求数量。发现类似情况可查看OSS控制台或OSS log有没有异常即可。

原因是OSS将整个集群日志推送到云监控时超过了云监控的接收窗口期,而云监控不支持补推,所以导致数据为0 。