配置说明

EMR Doctor的基本配置在安装过程中已设置,主要控制集群元数据和任务元数据的采集行为,通常情况下不需要修改和下发配置。本文为您介绍EMR Doctor的基本配置信息以及如何修改基本配置。

重要
  • 本文为您列出了EMR Doctor中可以修改的配置。其余配置请勿修改,否则会导致任务运行失败等严重问题。

  • 本文配置中的新版本集群指的是数据湖(DataLake)和数据服务(DataServing)场景以及自定义集群场景的集群。旧版本集群指的是旧版控制台的Hadoop集群和Gateway集群。

存储元数据采集配置

配置名称

默认配置

说明

collect.storage.enable

false

是否采集存储元数据,EMR Doctor默认不采集存储元数据。

您可以在监控诊断 > 集群日报页面手动打开存储资源信息采集开关,开启该配置。open

collect.storage.intermediate.path

/mnt/disk1/log/doctor/derby/

存储元数据采集过程产生的中间数据的路径。

存储元数据采集过程会产生中间数据,数据大小与FSImage成正比。

collect.storage.max.depth

6

高级配置。存储元数据遍历目录层深,包含从'/'开始的目录层级。

说明

不建议您将该参数值修改的过大,过大可能会造成分析时间过长、中间存储数据过大等问题。

collect.storage.top.size

100

高级配置。存储元数据每个层级获取的top目录个数,默认是每个层级获取top100。

说明

不建议您将该参数值修改得过大,可能会造成分析时间过长、中间存储数据过大等问题。

collect.oss.bucket

被分析的Bucket名称。

分析OSS数据时使用,相关功能请参见开通并配置OSS存储分析

collect.oss.manifest.dir

清单文件的目录。

分析OSS数据时使用,相关功能请参见开通并配置OSS存储分析

您可以在EMR控制台TAIHAODOCTOR服务的配置页面,查看或修改以上配置项。具体操作如下。

  1. 进入任意服务的配置页面。

    说明

    因为EMR Doctor是隐藏的服务,所以您需要修改相应链接才能访问EMR Doctor。本文以HDFS为例。

    1. 在EMR控制台,单击目标集群操作列的集群服务

    2. 集群服务页面,单击HDFS区域的配置

  2. 修改浏览器链接中的服务名称为TAIHAODOCTOR。HDFS

    替换服务名称后,即可进入TAIHAODOCTOR服务的配置页面。TAIHAODOCTOR

  3. 在TAIHAODOCTOR服务配置页面,您可以根据实际情况修改上述配置,然后保存并生效配置。

    修改配置项详情,请参见修改配置项

调度器采集配置

您可以在EMR控制台TAIHAODOCTOR服务的配置页面,查看或修改以下配置项。修改以下配置的具体操作,请参见存储元数据采集配置

配置名称

默认配置

说明

collect.job.interval

120

对YARN调度的任务状态进行采集,默认每120S采集一次。

collect.jobs.intermediate.path

/mnt/disk1/log/doctor/jobs/

存储YARN调度任务状态中间数据的路径。

通用配置

您可以在EMR控制台TAIHAODOCTOR服务的配置页面,查看或修改以下配置项。修改以下配置的具体操作,请参见存储元数据采集配置

配置名称

默认配置

说明

collect.metrics.interval

15

对引擎每个任务的Counters采集的时间间隔,默认每15S采集一次。

说明

不建议您将该参数值修改的过大或过小,过大会造成任务建议不准确,过小会造成采集的压力过大,影响任务稳定性。

collect.rate.limit

5000

流控配置,每个进程每秒最大采集的记录条数。超过流控的数据会被直接丢弃,防止影响进程稳定性。

MR任务采集配置

您可以在EMR控制台YARN服务的配置页面,查看或修改以下配置项。

修改配置项详情,请参见修改配置项

配置名称

默认配置

说明

yarn.app.mapreduce.am.command-opts

  • 新版本集群

    ${user_config} -javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr

  • 旧版本集群

    ${user_config} -javaagent:/usr/lib/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr

采集MR AppMaster元数据。

${user_config}是您集群的配置,后面的内容为EMR Doctor配置。

mapreduce.map.java.opts

  • 新版本集群

    ${user_config} -javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr

  • 旧版本集群

    ${user_config} -javaagent:/usr/lib/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr

采集MR Map任务元数据。

${user_config}是您集群的配置,后面的内容为EMR Doctor配置。

mapreduce.reduce.java.opts

  • 新版本集群

    ${user_config} -javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr

  • 旧版本集群

    ${user_config} -javaagent:/usr/lib/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr

采集MR Reduce任务元数据。

${user_config}是您集群的配置,后面的内容为EMR Doctor配置。

Tez任务采集配置

您可以在EMR控制台Tez服务的配置页面,查看或修改以下配置项。

修改配置项详情,请参见修改配置项

配置名称

默认配置

说明

tez.am.launch.cmd-opts

  • 新版本集群

    ${user_config} -javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr,config=tez

  • 旧版本集群

    ${user_config} -javaagent:/usr/lib/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr,config=tez

采集Tez AppMaster元数据。

tez.task.launch.cmd-opts

  • 新版本集群

    ${user_config} -javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr,config=tez

  • 旧版本集群

    ${user_config} -javaagent:/usr/lib/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr,config=tez

采集Tez Task元数据。

Spark任务采集配置

您可以在EMR控制台Spark服务的配置页面,查看或修改以下配置项。

修改配置项详情,请参见修改配置项

配置名称

默认配置

说明

spark.driver.extraJavaOptions

  • 新版本集群

    ${user_config} -noverify -javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=spark

  • 旧版本集群

    ${user_config} -noverify -javaagent:/usr/lib/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=spark

采集Spark Driver元数据。

${user_config}是您集群的配置,后面的内容为EMR Doctor配置。

spark.executor.extraJavaOptions

  • 新版本集群

    ${user_config} -noverify -javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=spark

  • 旧版本集群

    ${user_config} -noverify -javaagent:/usr/lib/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=spark

采集Spark Executor元数据。

${user_config}是您集群的配置,后面的内容为EMR Doctor配置。

YARN Timeline Server配置

您可以在EMR控制台YARN服务的配置页面,查看或修改以下配置项。

修改配置项详情,请参见修改配置项

配置名称

默认配置

说明

YARN_TIMELINESERVER_OPTS

  • 新版本集群

    ${user_config} -javaagent:/opt/apps/TAIHAODOCTOR/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr,config=history

  • 旧版本集群

    ${user_config} -javaagent:/usr/lib/taihaodoctor-current/emr-agent/btrace-agent.jar=libs=mr,config=history

采集任务结束标志。

${user_config}是您集群的配置,后面的内容为EMR Doctor配置。