使用Prometheus监控E-MapReduce

更新时间: 2024-02-08 18:04:03

本文介绍如何使用Prometheus监控E-MapReduce(简称EMR)。

前提条件

创建EMR集群,具体操作,请参见创建集群

使用限制

目前仅Prometheus实例 for ECS类型实例支持该组件接入。

步骤一:开启Exporter端口

创建完EMR集群后,系统会默认在ECS上安装taihao-exporter,但此时的Prometheus端口未打开,需要您手动开启。

  1. 登录EMR on ECS控制台,获取EMR集群ID,然后单击目标集群名称。

    vrp

  2. 单击节点管理页签,找到master和core节点,并分别单击这两个节点右侧的详情,然后在对应节点实例详情页签的基本信息区域,单击远程连接(图标①),远程登录ECS。

    ry

  3. 执行以下命令,查找Exporter进程。

    rt

    ps -ef | grep taihao_exporter
  4. 执行以下命令,修改taihao_exporter.yaml配置prom_sink_enable=true,并重启服务。

    sed -i 's/prom_sink_enable:\s*false/prom_sink_enable: true/g' /usr/local/taihao_exporter/taihao_exporter.yaml
    service taihao_exporter restart
    说明

    需要修改所有节点配置。

步骤二:接入EMR

功能入口

功能入口一:集成中心

  1. 登录ARMS控制台

  2. 在左侧导航栏选择Prometheus监控 > 实例列表,进入可观测监控 Prometheus 版的实例列表页面。

  3. 单击目标Prometheus实例名称,进入集成中心页面。

功能入口二:接入中心

  1. 登录ARMS控制台

  2. 在左侧导航栏单击接入中心,然后在组件应用区域单击E-MapReduce卡片的添加,然后在弹出的页面根据控制台指引完成组件接入。

接入EMR

这里以从集成中心入口为例,介绍接入EMR组件的操作,具体步骤如下。

  1. 接入EMR组件。

    • 若您初次安装EMR类型的组件:

      在集成中心页面单击未安装区域E-MapReduce组件卡片的安装

      说明

      单击该卡片,在弹出的面板中您可以看到关于EMR监控常见的指标和大盘缩略预览效果图。这里列举出的指标只是EMR常见的一部分关键指标信息,具体请参见下文E-MapReduce观测指标说明,待您安装EMR成功后,您将会查看到可观测监控 Prometheus 版监控EMR的实际指标详情。

      qe

    • 若您已安装EMR类型的组件,需要再次添加该组件:

      在集成中心页面单击已安装区域E-MapReduce组件卡片的添加

  2. STEP2区域的配置页签配置相关参数,并单击确定,完成组件接入。

    参数

    说明

    EMR集群ID

    填写EMR集群的实际ID,即在步骤一:开启Exporter端口中获取的EMR集群ID。

    EMR集群名称

    当前EMR集群监控的名称,建议可使用EMR集群自身的名称。

    exporter名称

    当前Exporter名称。

    • 仅可包含小写字母、数字和短划线(-),且短划线不可出现在开头或结尾。

    • 名称具有唯一性。

    exporter端口

    Metric的监听端口,以便可观测监控 Prometheus 版访问这些端口获取监控数据。默认9712。

    metrics采集路径

    Prometheus采集Exporter的HTTP Path,使用默认值/metrics_preget。

    metrics采集间隔(秒)

    可观测监控 Prometheus 版采集EMR监控数据的时间间隔,默认30秒。

    ECS标签(服务发现)

    部署Exporter的ECS标签和标签值,Prometheus通过该标签进行服务发现,key取值: acs:emr:nodeGroupType或acs:emr:hostGroupType。

    ECS标签值

    可参考ECS标签值,默认是CORE、MASTER,多个值之间使用半角逗号(,)来分隔。

    说明

    STEP2区域的指标页签可查看监控指标。

    已接入的组件会显示在集成中心页面的已安装区域。单击该组件卡片,在弹出的面板中可以查看Targets、指标、大盘、告警、服务发现配置、Exporter等信息。集成中心的更多信息,请参见集成中心

步骤三:查看监控数据大盘

可观测监控 Prometheus 版提供HOST、HDFS、Hive、YARN、Impala、ZooKeeper、Spark、Flink、ClickHouse等20多个Grafana大盘。

集成中心页面单击已安装区域的E-MapReduce组件卡片,然后在弹出的对话框中单击大盘页签可以查看该组件的大盘缩略图和超链接,单击超链接进入阿里云Grafana页面,查看对应观测大盘。这里为您展示几个常见的大盘数据。

  • HOST大盘:展示ECS节点CPU、内存、磁盘、Load、Network、Socket等。er

  • HDFS大盘

    • HDFS-HOMEeru

    • HDFS-NameNodes

    • HDFS-DataNodeswr

    • HDFS-JournanlNodeset

  • Hive大盘

    • HiveServer2:HiveQL查询服务器,接收来自JDBC客户端提交的SQL请求。qa

    • HiveMetaStore:元数据管理模块,用于存储Database和Table等元信息。we

  • YARN大盘

    • HOME:展示集群状态、内存、任务、节点、Container等。wf

    • NodeManager:负责节点的资源管理、监控和作业运行。el

    • ResourceManager:负责集群的资源管理与调度,为运行在YARN上的各种类型作业分配资源。ml

    • TimeLineServer:收集作业的指标,并展示作业执行情况。mo

    • JobHistoryqwp

  • Kafka大盘

    • KAFKA-HOMEqw

    • KAFKA-Brokerert

    • KAFKA-Topicbi

  • ClickHouse大盘qd

  • Flink大盘

  • Impala大盘ax

  • ZooKeeper大盘wd

  • Spark大盘qs

E-MapReduce观测指标说明

Metric指标采集

E-MapReduce指标观测主要包括HOST监控、HDFS 、YARN、Hive、Kafka、Zookeeper、ClickHouse和Flink等,具体说明如下。

HOST指标

提供ECS节点CPU、内存、磁盘、Load、网络、Socket等监控指标。

HDFS指标

HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,适用于大规模数据的分布式读写,特别是读多写少的场景。HDFS指标包括HOME、NameNodes、DataNodes和JournalNodes指标。

YARN指标

YARN是Hadoop系统的核心组件,主要功能包括负责Hadoop集群的资源管理,对作业进行调度运行以及监控。YARN指标包括HOME、Queue、ResourceManager、NodeManager、TimeLineServer和JobHistory。

Hive指标

Hive是一个基于Hadoop的数据仓库框架,在大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。Hive由HiveServer2(HiveQL查询服务器)、Hive MetaStore(元数据管理模块)和Hive Client构成,其指标包括HiveMetaStore和HiveServer2。

  • HiveMetaStore

    指标

    说明

    hive_memory_heap_max

    JVM最大可用堆内存,单位:Byte。

    hive_memory_heap_used

    JVM已使用堆内存,单位:Byte。

    hive_memory_non_heap_used

    JVM已使用堆外内存量,单位:Byte。

    hive_active_calls_api_alter_table

    当前活跃的alter table请求数。

    hive_active_calls_api_create_table

    当前活跃的create table请求数。

    hive_active_calls_api_drop_table

    当前活跃的drop table请求数。

    hive_api_alter_table

    alter table请求平均时间,单位:ms。

    hive_api_alter_table_with_environment_context

    alter table with env context请求平均时间,单位:ms。

    hive_api_create_table

    create table请求平均时间,单位:ms。

    hive_api_create_table_with_environment_context

    create table with env context请求平均时间,单位:ms。

    api_drop_table

    drop table请求平均时间,单位:ms。

    hive_api_drop_table_with_environment_context

    drop table with env context请求平均时间,单位:ms。

    hive_api_get_all_databases

    get all databases请求平均时间,单位:ms。

    hive_api_get_all_functions

    get all functions请求平均时间,单位:ms。

    hive_api_get_database

    get database请求平均时间,单位:ms。

    hive_api_get_multi_table

    get multi table请求平均时间,单位:ms。

    hive_api_get_tables_by_type

    get table请求平均时间,单位:ms。

    hive_api_get_table_objects_by_name_req

    get table objects by name请求平均时间,单位:ms。

    hive_api_get_table_req

    get table req请求平均时间,单位:ms。

    hive_api_get_table_statistics_req

    get table statistics请求平均时间,单位:ms。

    hive_api_get_tables

    get tables请求平均时间,单位:ms。

    hive_api_get_tables_by_type

    get tables by type请求平均时间,单位:ms。

  • HiveServer2

    指标

    说明

    hive_metrics_hs2_active_sessions

    当前活跃的session个数。

    hive_metrics_memory_total_init

    JVM初始化总内存,单位:Byte。

    hive_metrics_memory_total_committed

    JVM已预留总内存,单位:Byte。

    hive_metrics_memory_total_max

    JVM最大可用总内存,单位:Byte。

    hive_metrics_memory_heap_committed

    JVM已预留堆内存,单位:Byte。

    hive_metrics_memory_heap_inithive_metrics_memory_heap_committed

    JVM初始化堆内存,单位:Byte。

    hive_metrics_memory_non_heap_committed

    JVM已预留堆外内存,单位:Byte。

    hive_metrics_memory_non_heap_init

    JVM初始化堆外内存,单位:Byte。

    hive_metrics_memory_non_heap_max

    JVM最大可用堆外内存,单位:Byte。

    hive_metrics_gc_PS_MarkSweep_count

    JVM PS MarkSweep GC次数。

    hive_metrics_gc_PS_MarkSweep_time

    JVM PS MarkSweep GC时间,单位:ms。

    hive_metrics_gc_PS_Scavenge_time

    JVM PS Scavenge GC时间,单位:ms。

    hive_metrics_threads_daemon_count

    JVM daemon线程数。

    hive_metrics_threads_count

    JVM线程数。

    hive_metrics_threads_blocked_count

    JVM blocked线程数。

    hive_metrics_threads_deadlock_count

    JVM deadlock线程数。

    hive_metrics_threads_new_count

    JVM new状态线程数。

    hive_metrics_threads_runnable_count

    JVM runnable线程数。

    hive_metrics_threads_terminated_count

    JVM terminated线程数。

    hive_metrics_threads_waiting_count

    JVM waiting线程数。

    hive_metrics_threads_timed_waiting_count

    JVM timed_waiting线程数。

    hive_metrics_memory_heap_max

    JVM最大可用堆内存,单位:Byte。

    hive_metrics_memory_heap_used

    JVM已使用堆内存,单位:Byte。

    hive_metrics_memory_non_heap_used

    JVM已使用堆外内存量,单位:Byte。

    hive_metrics_hs2_open_sessions

    当前打开的session数。

    hive_metrics_hive_mapred_tasks

    提交的Hive on MR作业总数。

    hive_metrics_hive_tez_tasks

    提交的Hive on Tez作业总数。

    hive_metrics_cumulative_connection_count

    累计连接数。

    hive_metrics_active_calls_api_runTasks

    当前runtask请求数。

    hive_metrics_hs2_completed_sql_operation_FINISHED

    已结束的SQL总数。

    hive_metrics_hs2_sql_operation_active_user

    当前活跃用户数。

    hive_metrics_open_connections

    当前打开的连接数。

    hive_metrics_api_PostHook_com_aliyun_emr_meta_hive_hook_LineageLoggerHook

    执行LineageLoggerHook的平均时间,单位:ms。

    hive_metrics_api_hs2_sql_operation_PENDING

    SQL任务处于PENDING状态的平均时间,单位:ms。

    hive_metrics_api_hs2_sql_operation_RUNNING

    SQL任务处于RUNNING状态的平均时间,单位:ms。

    hive_metrics_hs2_submitted_queries

    提交查询的平均时间,单位:ms。

    hive_metrics_hs2_executing_queries

    执行查询的平均时间,单位:ms。

    hive_metrics_hs2_succeeded_queries

    服务启动后成功的查询数。

    hive_metrics_hs2_failed_queries

    服务启动后失败的查询数。

ZooKeeper指标

ZooKeeper是一个分布式、高可用性的协调服务。ZooKeeper提供分布式配置服务、同步服务和命名注册等功能。

指标

说明

zk_packets_received

ZooKeeper接收的包的数量。

zk_packets_sent

ZooKeeper发送的包的数量。

zk_avg_latency

ZooKeeper平均请求延迟,单位:ms。

zk_min_latency

ZooKeeper最小请求延迟,单位:ms。

zk_max_latency

ZooKeeper最大请求延迟,单位:ms。

zk_watch_count

ZooKeeper watch的数量。

zk_znode_count

ZooKeeper znode的数量。

zk_num_alive_connections

ZooKeeper存活的连接数。

zk_outstanding_requests

ZooKeeper排队请求的数量。当ZooKeeper超过了它的处理能力时,该值会增大。

zk_approximate_data_size

ZooKeeper的数据大小(近似值),单位:Byte。

zk_open_file_descriptor_count

ZooKeeper打开文件的数量。

zk_max_file_descriptor_count

ZooKeeper最大允许打开的文件数量。

zk_node_status

ZooKeeper节点状态:

  • -1:节点不可用。

  • 0:作为follower节点。

  • 1:作为leader节点。

zk_synced_followers

同步的ZooKeeper服务数量。

Kafka指标

消息队列Kafka版是阿里云提供的分布式、高吞吐、可扩展的消息队列服务。消息队列Kafka版广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域,已成为大数据生态中不可或缺的部分。

Impala指标

Impala为存储在Apache Hadoop中的数据提供了高性能和低延迟的SQL查询。

指标

说明

impala_impala_server_resultset_cache_total_bytes

结果集缓存大小,单位:Byte。

impala_num_executing_queries

当前正在执行的查询数量。

impala_num_waiting_queries

当前正在等待的查询数量。

impala_impala_server_query_durations_ms_95th

95%的查询耗时时间,单位:ms。

impala_num_in_flight_queries

集群正在in flight状态的查询数量。

impala_impala_server_query_durations_ms_75th

75%的查询耗时时间,单位:ms。

impala_impala_thrift_server_CatalogService_svc_thread_wait_time_99_9th

Catalog Service的客户端对服务线程的等待时间,单位:ms。

impala_impala_thrift_server_CatalogService_connection_setup_time_99_9th

99%的Catalog Service客户端等待建立连接所花费的时间,单位:ms。

impala_impala_server_query_durations_ms_99_9th

99%的查询耗时时间,单位:ms。

impala_impala_server_ddl_durations_ms_99_9th

99%的DDL操作耗时时间,单位:ms。

impala_impala_server_query_durations_ms_90th

90%的查询耗时时间,单位:ms。

impala_impala_server_ddl_durations_ms_90th

90%的DDL操作耗时时间,单位:ms。

impala_impala_server_query_durations_ms_50th

50%的查询耗时时间,单位:ms。

impala_impala_server_ddl_durations_ms_50th

50%的DDL操作耗时时间,单位:ms。

impala_impala_server_ddl_durations_ms_95th

95%的DDL操作耗时时间,单位:ms。

impala_impala_server_scan_ranges_num_missing_volume_id

在进程生命周期内缺失volume id的scan range总数。

impala_impala_server_ddl_durations_ms_75th

75%的DDL操作耗时时间,单位:ms。

impala_impala_server_num_queries_spilled

任何运算符溢出的查询数。

impala_impala_server_scan_ranges_total

在进程生命周期内读取的扫描范围总数。

impala_impala_server_num_queries_expired

由于不活动而过期的查询数。

impala_impala_server_resultset_cache_total_num_rows

结果集缓存记录数。

impala_impala_server_num_open_hiveserver2_sessions

打开的HiveServer2会话数。

impala_impala_server_num_sessions_expired

由于不活动而过期的会话数。

impala_impala_server_num_fragments_in_flight

当前正在执行的查询片段实例的数量。

impala_impala_server_num_queries_registered

在此Impala服务器实例上注册的查询总数。包括正在进行中并等待关闭的查询。

impala_impala_server_num_files_open_for_insert

当前为写入而打开的HDFS文件数。

impala_impala_server_num_queries

在进程生命周期内处理的查询总数。

impala_impala_server_hedged_read_ops

在进程生命周期内尝试的hedged reads总数。

impala_impala_server_num_open_beeswax_sessions

打开Beeswax会话的数量。

impala_impala_server_backend_num_queries_executed

在进程的生命周期内在此后端执行的查询总数。

impala_impala_server_num_fragments

在进程生命周期内处理的查询片段总数。

impala_rpc_impala_ControlService_rpcs_queue_overflow

ControlService由于服务队列溢出而被拒绝的传入RPC总数。

impala_impala_server_hedged_read_ops_win

Hedged read比常规读取操作快的总次数。

impala_mem_tracker_DataStreamService_current_usage_bytes

Memtracker DataStreamService当前使用的字节数。

impala_impala_server_backend_num_queries_executing

当前在此后端上执行的查询数。

impala_cluster_membership_executor_groups_total_healthy

处于健康状态的执行器组总数。

impala_rpc_impala_DataStreamService_rpcs_queue_overflow

DataStreamService由于服务队列溢出而被拒绝的传入RPC总数。

impala_cluster_membership_backends_total

向statestore注册的后端总数。

impala_mem_tracker_DataStreamService_peak_usage_bytes

Memtracker DataStreamService峰值使用的字节数。

impala_total_senders_blocked_on_recvr_creation

已被阻止等待接收片段初始化的发件人总数。

impala_mem_tracker_ControlService_peak_usage_bytes

Memtracker ControlService峰值使用字节数。

impala_simple_scheduler_local_assignments_total

本地作业数。

impala_mem_tracker_ControlService_current_usage_bytes

Memtracker ControlService当前使用字节数。

impala_memory_total_used

已使用内存,单位:Byte。

impala_cluster_membership_executor_groups_total

至少有一个执行程序的执行程序组总数。

impala_memory_rss

RSS的内存大小,包括TCMalloc、缓冲池和JVM,单位:Byte。

impala_total_senders_timedout_waiting_for_recvr_creation

超时等待接收片段初始化的发送者总数。

impala_senders_blocked_on_recvr_creation

等待接收片段初始化的发送者数量。

impala_simple_scheduler_assignments_total

作业数。

impala_memory_mapped_bytes

进程中内存映射的总字节数(虚拟内存大小),单位:Byte。

HUE指标

指标

说明

hue_requests_response_time_avg

请求响应时间平均值。

hue_requests_response_time_95_percentile

95%的请求响应时间。

hue_requests_response_time_std_dev

请求响应时间标准差。

hue_requests_response_time_median

50%的请求响应时间。

hue_requests_response_time_75_percentile

75%的请求响应时间。

hue_requests_response_time_count

请求响应时间计数。

hue_requests_response_time_5m_rate

最近5分钟的请求响应速率。

hue_requests_response_time_min

请求响应时间最小值。

hue_requests_response_time_sum

请求响应时间总和。

hue_requests_response_time_max

请求响应时间的最大值。

hue_requests_response_time_mean_rate

请求响应速率平均值。

hue_requests_response_time_99_percentile

99%的最近1小时请求响应时间。

hue_requests_response_time_15m_rate

最近15分钟请求响应速率。

hue_requests_response_time_999_percentile

99.9%的请求响应时间。

hue_requests_response_time_1m_rate

最近1分钟的请求响应速率。

hue_users_active_total

活跃用户总数。

hue_users_active

最近1小时的活跃用户数。

hue_users

用户总数。

hue_threads_total

当前线程总数。

hue_threads_daemon

常驻线程数量。

hue_queries_number

查询数量总和。

hue_requests_exceptions

当前异常请求数。

hue_requests_active

当前活跃请求数。

Kudu指标

参数

指标

说明

op_apply_queue_length(99)

kudu_op_apply_queue_length_percentile_99

99%的操作队列的长度。

op_apply_queue_length(75)

kudu_op_apply_queue_length_percentile_75

75%的操作队列的长度。

op_apply_queue_length(mean)

kudu_op_apply_queue_length_mean

操作队列的长度的平均值。

rpc_incoming_queue_time(99)

kudu_rpc_incoming_queue_time_percentile_99

99%的RPC队列的等待时间,单位:μs。

rpc_incoming_queue_time(75)

kudu_rpc_incoming_queue_time_percentile_75

75%的RPC队列的等待时间,单位:μs。

rpc_incoming_queue_time(mean)

kudu_rpc_incoming_queue_time_mean

RPC队列的等待时间的平均值,单位:μs。

reactor_load_percent(99)

kudu_reactor_load_percent_percentile_99

99%的Reactor线程的负载。

reactor_load_percent(75)

kudu_reactor_load_percent_percentile_75

75%的Reactor线程的负载。

reactor_load_percent(mean)

kudu_reactor_load_percent_mean

Reactor线程的负载的平均值。

op_apply_run_time(99)

kudu_op_apply_run_time_percentile_99

99%的操作执行时间,单位:μs。

op_apply_run_time(75)

kudu_op_apply_run_time_percentile_75

75%的操作执行时间,单位:μs。

op_apply_run_time(mean)

kudu_op_apply_run_time_mean

操作执行时间的平均值,单位:μs。

op_prepare_run_time(99)

kudu_op_prepare_run_time_percentile_99

99%的操作准备时间,单位:μs。

op_prepare_run_time(75)

kudu_op_prepare_run_time_percentile_75

75%的操作准备时间,单位:μs。

op_prepare_run_time(mean)

kudu_op_prepare_run_time_mean

操作准备时间的平均值,单位:μs。

flush_mrs_duration(99)

kudu_flush_mrs_duration_percentile_99

99%的MemRowSet flush时间,单位:ms。

flush_mrs_duration(75)

kudu_flush_mrs_duration_percentile_75

75%的MemRowSet flush时间,单位:ms。

flush_mrs_duration(mean)

kudu_flush_mrs_duration_mean

MemRowSet flush时间的平均值,单位:ms。

log_append_latency(99)

kudu_log_append_latency_percentile_99

99%的日志的append时间,单位:μs。

log_append_latency(75)

kudu_log_append_latency_percentile_75

75%的日志的append时间,单位:μs。

log_append_latency(mean)

kudu_log_append_latency_mean

日志的append时间的平均值,单位:μs。

flush_dms_duration(99)

kudu_flush_dms_duration_percentile_99

99%的DeltaMemStore flush时间,单位:ms。

flush_dms_duration(75)

kudu_flush_dms_duration_percentile_75

75%的DeltaMemStore flush时间,单位:ms。

flush_dms_duration(mean)

kudu_flush_dms_duration_mean

DeltaMemStore flush时间的平均值,单位:ms。

op_prepare_queue_length(99)

kudu_op_prepare_queue_length_percentile_99

99%的准备队列的长度。

op_prepare_queue_length(75)

kudu_op_prepare_queue_length_percentile_75

75%的准备队列的长度。

op_prepare_queue_length(mean)

kudu_op_prepare_queue_length_mean

准备队列的长度的平均值。

log_gc_duration(99)

kudu_log_gc_duration_percentile_99

99%的日志GC的时间,单位:ms。

log_gc_duration(75)

kudu_log_gc_duration_percentile_75

75%的日志GC的时间,单位:ms。

log_gc_duration(mean)

kudu_log_gc_duration_mean

日志GC的时间的平均值,单位:ms。

log_sync_latency(99)

kudu_log_sync_latency_percentile_99

99%的日志Sync的时间,单位:μs。

log_sync_latency(75)

kudu_log_sync_latency_percentile_75

75%的日志Sync的时间,单位:μs。

log_sync_latency(mean)

kudu_log_sync_latency_mean

日志Sync的时间的平均值,单位:μs。

prepare_queue_time(99)

kudu_op_prepare_queue_time_percentile_99

99%的操作在准备队列的等待时间,单位:μs。

prepare_queue_time(75)

kudu_op_prepare_queue_time_percentile_75

75%的操作在准备队列的等待时间,单位:μs。

prepare_queue_time(mean)

kudu_op_prepare_queue_time_mean

操作在准备队列的等待时间的平均值,单位:μs。

rpc_connections_accepted

kudu_rpc_connections_accepted

RPC请求接收的数量。

block_cache_usage

kudu_block_cache_usage

Tserver Block缓存的使用量,单位:Byte。

active_scanners

kudu_active_scanners

处于Active状态的Scanner数量。

data_dirs_full

kudu_data_dirs_full

Full状态的数据目录个数。

rpcs_queue_overflow

kudu_rpcs_queue_overflow

RPC队列溢出次数。

cluster_replica_skew

kudu_cluster_replica_skew

服务器上承载的最多的tablet数量与最少的tablet数量的差值。

log_gc_running

kudu_log_gc_running

正在GC的日志数量。

data_dirs_failed

kudu_data_dirs_failed

失效的数据目录个数。

leader_memory_pressure_rejections

kudu_leader_memory_pressure_rejections

内存压力拒绝的请求个数。

transaction_memory_pressure_rejections

kudu_transaction_memory_pressure_rejections

内存压力拒绝的事务个数。

ClickHouse指标

EMR ClickHouse完全兼容开源版本的产品特性,并且在开源的基础上优化了读写性能,提升了ClickHouse与EMR其他组件快速集成的能力。

指标

说明

clickhouse_server_events_ReplicatedPartFailedFetches

数据无法从Replicated*MergeTree表中任一副本获取的次数。

clickhouse_server_events_ReplicatedPartChecksFailed

Replicated*MergeTree表中数据检查失败的次数。

clickhouse_server_events_ReplicatedDataLoss

Replicated*MergeTree表中数据不在任何一个副本中的次数。

clickhouse_server_events_ReplicatedMetaDataChecksFailed

Replicated*MergeTree表检查元数据失败的次数。

clickhouse_server_events_ReplicatedMetaDataLoss

Replicated*MergeTree表中元数据丢失的次数。

clickhouse_server_events_DuplicatedInsertedBlocks

写入Replicated*MergeTree表中的Block重复的次数。

clickhouse_server_events_ZooKeeperUserExceptions

Zookeeper中与ClickHouse状态相关错误出现的次数。

clickhouse_server_events_ZooKeeperHardwareExceptions

ZooKeeper网络或类似的错误出现的次数。

clickhouse_server_events_ZooKeeperOtherExceptions

ZooKeeper中非硬件或状态错误出现的次数。

clickhouse_server_events_DistributedConnectionFailTry

分布式连接重试出错的次数。

clickhouse_server_events_DistributedConnectionMissingTable

分布式连接无法找到表的次数。

clickhouse_server_events_DistributedConnectionStaleReplica

分布式连接得到的副本不新鲜的次数。

clickhouse_server_events_DistributedConnectionFailAtAll

在所有重试结束后分布式连接失败的次数。

clickhouse_server_events_SlowRead

Slow Read的次数。

clickhouse_server_events_ReadBackoff

由于Slow Read导致的线程减少的次数。

clickhouse_server_metrics_BackgroundPoolTask

background_pool中的任务个数。

clickhouse_server_metrics_BackgroundMovePoolTask

background_move_pool中的任务个数。

clickhouse_server_metrics_BackgroundSchedulePoolTask

schedule_pool中的任务个数。

clickhouse_server_metrics_BackgroundBufferFlushSchedulePoolTask

buffer_flush_schedule_pool中的任务个数。

clickhouse_server_metrics_BackgroundDistributedSchedulePoolTask

distributed_schedule_pool中的任务个数。

clickhouse_server_metrics_BackgroundTrivialSchedulePoolTask

trivial_schedule_pool中的任务个数。

clickhouse_server_metrics_TCPConnection

TCP连接个数。

clickhouse_server_metrics_HTTPConnection

HTTP连接个数。

clickhouse_server_metrics_InterserverConnection

用于从其他副本上获取数据的连接个数。

clickhouse_server_metrics_MemoryTracking

Server使用的总内存,单位:Byte。

clickhouse_server_metrics_MemoryTrackingInBackgroundProcessingPool

background_pool中任务执行所使用的内存,单位:Byte。

clickhouse_server_metrics_MemoryTrackingInBackgroundMoveProcessingPool

background_move_pool中任务执行所使用的内存,单位:Byte。

clickhouse_server_metrics_MemoryTrackingInBackgroundBufferFlushSchedulePool

buffer_flush_schedule_pool中任务执行所使用的内存,单位:Byte。

clickhouse_server_metrics_MemoryTrackingInBackgroundSchedulePool

schedule_pool中任务执行所使用的内存,单位:Byte。

clickhouse_server_metrics_MemoryTrackingInBackgroundDistributedSchedulePool

distributed_schedule_pool中任务执行所使用的内存,单位:Byte。

clickhouse_server_metrics_MemoryTrackingInBackgroundTrivialSchedulePool

trivial_schedule_pool中任务执行所使用的内存,单位:Byte。

clickhouse_server_metrics_MemoryTrackingForMerges

后台执行Merge时使用的内存,单位:Byte。

Flink指标

Flink是一个流式数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。

  • Overview

    参数

    指标

    说明

    Num Of RunningJobs

    numRunningJobs

    JM中正在运行的作业数。

    Job Uptime

    job_uptime

    作业已运行时间,单位:ms。仅支持返回单个系列或表的查询。

    TaskSlots Available

    taskSlotsAvailable

    当前可用的TaskSlots数量。

    TaskSlots Total

    taskSlotsTotal

    TaskSlots的总数量。

    Num of TM

    numRegisteredTaskManagers

    已注册的TM数量。

    sourceIdleTime

    sourceIdleTime

    源没有处理任何记录的时间,单位:ms。

    currentFetchEventTimeLag

    currentFetchEventTimeLag

    业务延时(fetch=数据发生时间与数据进入Flink Source时间之间的差值)。

    currentEmitEventTimeLag

    currentEmitEventTimeLag

    业务延时(emit=数据发生时间与数据离开Flink Source时间之间的差值)。

  • Checkpoint

    参数

    指标

    说明

    Num of Checkpoints

    totalNumberOfCheckpoints

    检查点总数。

    numberOfFailedCheckpoints

    失败的检查点数量。

    numberOfCompletedCheckpoints

    已完成的检查点数量。

    numberOfInProgressCheckpoints

    正在进行的检查点数量。

    lastCheckpointDuration

    lastCheckpointDuration

    最近一个检查点完成时间,单位:ms。

    lastCheckpointSize

    lastCheckpointSize

    最近一个检查点的大小,单位:Byte。

    lastCheckpointRestoreTimestamp

    lastCheckpointRestoreTimestamp

    协调器上最近一个检查点的恢复时间,单位:ms。

  • Network

    参数

    指标

    说明

    InPool Usage

    inPoolUsage

    输入缓冲区使用量。

    OutPool Usage

    outPoolUsage

    输出缓冲区使用量。

    OutputQueue Length

    outputQueueLength

    输出缓冲区排队数量。

    InputQueue Length

    inputQueueLength

    输入缓冲区排队数量。

  • IO

    参数

    指标

    说明

    numBytesIn PerSecond

    numBytesInLocalPerSecond

    每秒本地读取数据的字节数。

    numBytesInRemotePerSecond

    每秒远端读取数据的字节数。

    numBuffersInLocalPerSecond

    每秒本地读取网络缓冲区的数量。

    numBuffersInRemotePerSecond

    每秒远端读取网络缓冲区的数量。

    numBytesOut PerSecond

    numBytesOutPerSecond

    每秒发出字节数。

    numBuffersOutPerSecond

    每秒发出网络缓冲区的数量。

    Task numRecords I/O PerSecond

    numRecordsInPerSecond

    每秒接收的记录数。

    numRecordsOutPerSecond

    每秒发出的记录数。

    Task numRecords I/O

    numRecordsIn

    接收的记录数。

    numRecordsOut

    发出的记录数。

    Operator CurrentSendTime

    currentSendTime

    发送最新一条记录的耗时时间,单位:ms。

  • Watermark

    参数

    指标

    说明

    Task InputWatermark

    currentInputWatermark

    任务收到最后一个水印的时间,单位:ms。

    Operator In/Out Watermark

    currentInputWatermark

    算子收到最后一个水印的时间,单位:ms。

    currentOutputWatermark

    算子发出最后一个水印的时间,单位:ms。

    watermarkLag

    watermarkLag

    Watermark滞后时间,单位:ms。

  • CPU

    参数

    指标

    说明

    JM CPU Load

    CPU_Load

    JM CPU使用率。

    TM CPU Load

    CPU_Load

    TM CPU使用率。

    CPU Usage

    CPU_Usage

    TM CPU使用率(基于ProcessTree)。

  • Memory

    参数

    指标

    说明

    JM Heap Memory

    Memory_Heap_Used

    JM Heap Memory已使用量,单位:Byte。

    Memory_Heap_Committed

    JM Heap Memory已申请量,单位:Byte。

    Memory_Heap_Max

    JM Heap Memory最大可用量,单位:Byte。

    JM NonHeap Memory

    Memory_NonHeap_Used

    JM NonHeap Memory已使用量,单位:Byte。

    Memory_NonHeap_Committed

    JM NonHeap Memory已申请量,单位:Byte。

    Memory_NonHeap_Max

    JM NonHeap Memory最大可用量,单位:Byte。

    TM Heap Memory

    Memory_Heap_Used

    TM Heap Memory已使用量,单位:Byte。

    Memory_Heap_Committed

    TM Heap Memory已申请量,单位:Byte。

    Memory_Heap_Max

    TM Heap Memory最大可用量,单位:Byte。

    TM NonHeap Memory

    Memory_NonHeap_Used

    TM NonHeap Memory已使用量,单位:Byte。

    Memory_NonHeap_Committed

    TM NonHeap Memory已申请量,单位:Byte。

    Memory_NonHeap_Max

    TM NonHeap Memory最大可用量,单位:Byte。

    Memory RSS

    Memory_RSS

    TM当前已使用的堆内存量,单位:Byte。

  • JVM

    参数

    指标

    说明

    JM Threads

    Threads_Count

    JM活跃线程总数。

    TM Threads

    Threads_Count

    TM活跃线程总数。

    JM GC Time

    GarbageCollector_PS_Scavenge_Time

    JM年轻代垃圾回收器运行时间。

    GarbageCollector_PS_MarkSweep_Time

    JM老年代“标记-清除”垃圾回收器的运行时间。

    JM GC Count

    GarbageCollector_PS_Scavenge_Count

    JM年轻代垃圾回收器运行次数。

    GarbageCollector_PS_MarkSweep_Count

    JM老年代“标记-清除”垃圾回收器的运行次数。

    TM GC Count

    GarbageCollector_PS_Scavenge_Count

    TM年轻代垃圾回收器运行次数。

    GarbageCollector_PS_MarkSweep_Count

    TM老年代“标记-清除”垃圾回收器的运行次数。

    TM GC Time

    GarbageCollector_PS_Scavenge_Time

    TM年轻代垃圾回收器运行时间。

    GarbageCollector_PS_MarkSweep_Time

    TM老年代“标记-清除”垃圾回收器的运行时间。

    TM ClassLoader

    ClassLoader_ClassesLoaded

    TM自JVM启动以来已加载的类总数。

    ClassLoader_ClassesUnloaded

    TM自JVM启动以来已卸载的类总数。

    JM ClassLoader

    ClassLoader_ClassesLoaded

    JM自JVM启动以来已加载的类总数。

    ClassLoader_ClassesUnloaded

    JM自JVM启动以来已卸载的类总数。

阿里云首页 应用实时监控服务 相关技术圈