使用监控与报警服务

更新时间:
复制为 MD 格式

通过查看OSS-HDFS服务的监控数据,可了解OSS-HDFS元数据操作调用情况和服务资源使用情况。通过为OSS-HDFS服务的重要监控指标设置报警规则,还可以及时得知指标异常并快速处理异常。

注意事项

监控数据可能 存在数分钟的延迟 ,仅供参考,不能作为计量数据。

前提条件

使用RAM用户查看OSS-HDFS服务的监控数据时,请为RAM用户授予管理对象存储服务(OSS)权限AliyunOSSFullAccess)/只读访问对象存储服务(OSS)AliyunOSSReadOnlyAccess)、管理云监控(CloudMonitor)的权限AliyunCloudMonitorFullAccess)/只读访问云监控(CloudMonitor)的权限AliyunCloudMonitorReadOnlyAccess),并按需完成授权访问OSS-HDFS服务。具体操作,请参见RAM用户授权

查看监控数据

可通过以下方式查看OSS-HDFS服务监控数据:

  • OSS管理控制台:支持查看使用带宽、请求次数。

  • 云监控控制台:支持查看指定HDFS API的成功请求E2E平均延迟、指定HDFS API的成功请求 QPS。

  • 云监控SDK:支持获取全部OSS-HDFS监控指标。更多信息,请参见Metric

重要

访问OSS-HDFS服务时使用JindoSDK 6.10.1 及以上版本才支持查看其延迟与QPS相关监控指标。

  • 阿里云 EMR 环境:请创建EMR-3.55.0 及以上或EMR-5.21.0及以上版本的集群,OSS-HDFS 服务已默认集成。具体操作,请参见创建集群

  • 非 EMR 或自建 Hadoop 环境:需手动部署JindoSDK 6.10.1 及以上版本。具体操作,请分别参见在非EMR集群中部署JindoSDK创建Hadoop运行环境

使用OSS管理控制台

  1. 登录OSS管理控制台

  2. 在左侧导航栏,单击Bucket 列表,然后单击已开启OSS-HDFS服务的目标Bucket名称。

  3. 在左侧导航栏,选择数据湖管理 > HDFS 用量查询

  4. HDFS 用量查询页签,查看Bucket的使用带宽和请求次数。

    默认显示当天的使用带宽和请求次数,您可以根据自身的使用情况自定义查询的时间范围,例如最近15分钟。

    • 使用带宽

      统计通过阿里云内网访问和下载Bucket的数据,以及通过阿里云内网上传数据到Bucket所使用的带宽。

    • 请求次数

      仅统计当前Bucket使用OSS-HDFS服务的总请求数,不区分PUT类请求、GET类请求等。

使用云监控控制台

云监控会自动获取当前阿里云账号下所有云产品的资源。

  1. 进入对象存储的监控页面。

    使用云监控2.0

    1. 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏单击云产品监控

    2. 云产品监控页面选择存储后,在对象存储OSS卡片上单击监控指标悬浮框中的对象存储OSS

    3. 在对象存储的监控页面,单击目标Bucket对应操作列的监控图表

    使用云监控1.0

    云监控-对象存储OSS页面,选择Bucket名称。

  2. 在对象存储的监控页面,单击HDFS 请求页签。

  3. HDFS 请求页签,选择时间范围和OSS-HDFS服务操作,查看相应操作的监控数据。

    重要

    云监控仅支持查询2小时内有请求的HDFS API的监控数据。

    OSS-HDFS服务操作的格式为HdfsOperation:<HdfsOperation>,其中<HdfsOperation>请替换为常用HdfsOperation中的具体操作,例如HdfsOperation:getListing

    • 指定HDFS API名称的成功请求E2E平均延迟

      统计当前BucketOSS-HDFS操作执行成功的请求从客户端发起请求到收到完整响应之间的平均耗时。

    • 指定HDFS API名称的成功请求QPS

      统计当前Bucket每秒成功处理的OSS-HDFS操作请求数量。

使用云监控SDK

通过云监控服务提供的APISDK查询OSS-HDFS服务的监控数据。推荐使用OpenAPI直接调用云监控的DescribeMetricList接口获取所需的监控指标信息。

说明

云监控服务SDK示例,请参见SDK参考

Space

Space用于指定监控的云服务。OSS监控服务使用的Namespaceacs_oss_dashboard

例如,通过Java SDK指定监控OSS服务的示例代码如下:

DescribeMetricListRequest request = new DescribeMetricListRequest();
request.setNamespace("acs_oss_dashboard");

StartTimeEndTime

StartTimeEndTime用于指定查询监控数据的时间范围。云监控的时间参数取值范围采用左开右闭的形式(StartTime, EndTime],即可以查询StartTimeEndTime之间的数据(包含EndTime的数据)。

例如,通过Java SDK指定查询监控数据时间范围的示例代码如下:

//设置监控数据的结束时间。
request.setEndTime("2026-02-03 11:06:27");
//设置监控数据的开始时间。
request.setStartTime("2026-02-03 10:20:27");

Dimensions

Dimensions用于指定待查询的Bucket。不指定Dimensions时,表示查询账号级别下各个Bucket的指标数据。层级说明请参见Metric

例如,通过Java SDK查询HdfsOperation操作getListing的示例代码如下:

//指定待查询数据的Bucket名称。
request.setDimensions("{\"HdfsOperation\":\"getListing\"}");

Period

Period用于指定指标项的查询周期。OSS-HDFS服务的所有相关指标的查询周期均为60s。各指标项的说明,请参见Metric。Java SDK示例代码如下:

request.setPeriod("60");

Metric

Metric用于指定查询的指标。Java SDK代码示例如下:

说明

打开对象存储OSS监控页面,输入HDFS可获取OSS-HDFS服务所有相关的监控指标。

//设置Metric名称。
request.setMetric("<MetricName>");

各监控指标的名称请参见下表。

层级

MetricName

对应指标项名称

Dimensions

单位

Bucket层级

HdfsIntranRecvRate

HDFS内网上行带宽

userId、BucketName

bit/s

HdfsIntranRecvSize

HDFS内网上行流量

userId、BucketName

B

HdfsIntranSendRate

HDFS内网下行带宽

userId、BucketName

bit/s

HdfsIntranSendSize

HDFS内网下行流量

userId、BucketName

B

HdfsMetaE2eLatency

HDFS元数据请求平均E2E延时

userId、BucketName

ms

HdfsMetaRequestQps

HDFS元数据请求QPS

userId、BucketName

count/s

HdfsOperationE2eLatency

指定HDFS API名称的成功请求E2E平均延迟

userId、BucketName、HdfsOperation

ms

HdfsOperationRequestQps

指定HDFS API名称的成功请求QPS

userId、BucketName、HdfsOperation

count/s

HdfsRequestQps

HDFS总数据请求QPS

userId、BucketName

count/s

用户层级

UserHdfsIntranRecvSize

用户层级HDFS内网上行流量

userId

B

UserHdfsIntranSendSize

用户层级HDFS内网下行流量

userId

B

设置监控指标报警

通过云监控控制台设置报警规则后,当触发报警规则时,云监控自动发送报警通知,便于您获悉资源的运行状况,并及时处理异常。

在设置报警规则时,需将规则描述中的维度设置为常用HdfsOperation中的HDFS操作,例如getListing,其他参数按需配置即可。具体操作,请参见使用报警服务

常用HdfsOperation

HdfsOperation

语义

getBlockLocations

获取文件的数据块位置

getFileInfo

获取文件信息

getListing

list文件

complete

关闭文件

create

创建和打开文件

addBlock

为打开的文件添加数据块

delete

删除文件

mkdirs

创建目录

rename

重命名文件