EMR Doctor的基本配置在安装过程中已设置,主要控制集群元数据和任务元数据的采集行为,通常情况下不需要修改和下发配置。本文为您介绍EMR Doctor的基本配置信息以及如何修改基本配置。
本文为您列出了EMR Doctor中可以修改的配置。其余配置请勿修改,否则会导致任务运行失败等严重问题。
本文配置中的新版本集群指的是数据湖(DataLake)和数据服务(DataServing)场景以及自定义集群场景的集群。旧版本集群指的是旧版控制台的Hadoop集群和Gateway集群。
存储元数据采集配置
配置名称 | 默认配置 | 说明 |
collect.storage.enable | false | 是否采集存储元数据,EMR Doctor默认不采集存储元数据。 您可以在 页面手动打开存储资源信息采集开关,开启该配置。 |
collect.storage.intermediate.path | /mnt/disk1/log/doctor/derby/ | 存储元数据采集过程产生的中间数据的路径。 存储元数据采集过程会产生中间数据,数据大小与FSImage成正比。 |
collect.storage.max.depth | 6 | 高级配置。存储元数据遍历目录层深,包含从'/'开始的目录层级。 说明 不建议您将该参数值修改的过大,过大可能会造成分析时间过长、中间存储数据过大等问题。 |
collect.storage.top.size | 100 | 高级配置。存储元数据每个层级获取的top目录个数,默认是每个层级获取top100。 说明 不建议您将该参数值修改得过大,可能会造成分析时间过长、中间存储数据过大等问题。 |
collect.oss.bucket | 无 | 被分析的Bucket名称。 分析OSS数据时使用,相关功能请参见开通并配置OSS存储分析。 |
collect.oss.manifest.dir | 无 | 清单文件的目录。 分析OSS数据时使用,相关功能请参见开通并配置OSS存储分析。 |
您可以在EMR控制台TAIHAODOCTOR服务的配置页面,查看或修改以上配置项。具体操作如下。
进入任意服务的配置页面。
说明因为EMR Doctor是隐藏的服务,所以您需要修改相应链接才能访问EMR Doctor。本文以HDFS为例。
在EMR控制台,单击目标集群操作列的集群服务。
在集群服务页面,单击HDFS区域的配置。
修改浏览器链接中的服务名称为TAIHAODOCTOR。
替换服务名称后,即可进入TAIHAODOCTOR服务的配置页面。
在TAIHAODOCTOR服务配置页面,您可以根据实际情况修改上述配置,然后保存并生效配置。
修改配置项详情,请参见修改配置项。
调度器采集配置
您可以在EMR控制台TAIHAODOCTOR服务的配置页面,查看或修改以下配置项。修改以下配置的具体操作,请参见存储元数据采集配置。
配置名称 | 默认配置 | 说明 |
collect.job.interval | 120 | 对YARN调度的任务状态进行采集,默认每120S采集一次。 |
collect.jobs.intermediate.path | /mnt/disk1/log/doctor/jobs/ | 存储YARN调度任务状态中间数据的路径。 |
通用配置
您可以在EMR控制台TAIHAODOCTOR服务的配置页面,查看或修改以下配置项。修改以下配置的具体操作,请参见存储元数据采集配置。
配置名称 | 默认配置 | 说明 |
collect.metrics.interval | 15 | 对引擎每个任务的Counters采集的时间间隔,默认每15S采集一次。 说明 不建议您将该参数值修改的过大或过小,过大会造成任务建议不准确,过小会造成采集的压力过大,影响任务稳定性。 |
collect.rate.limit | 5000 | 流控配置,每个进程每秒最大采集的记录条数。超过流控的数据会被直接丢弃,防止影响进程稳定性。 |
MR任务采集配置
您可以在EMR控制台YARN服务的配置页面,查看或修改以下配置项。
修改配置项详情,请参见修改配置项。
配置名称 | 默认配置 | 说明 |
yarn.app.mapreduce.am.command-opts |
| 采集MR AppMaster元数据。
|
mapreduce.map.java.opts |
| 采集MR Map任务元数据。
|
mapreduce.reduce.java.opts |
| 采集MR Reduce任务元数据。
|
Tez任务采集配置
您可以在EMR控制台Tez服务的配置页面,查看或修改以下配置项。
修改配置项详情,请参见修改配置项。
配置名称 | 默认配置 | 说明 |
tez.am.launch.cmd-opts |
| 采集Tez AppMaster元数据。 |
tez.task.launch.cmd-opts |
| 采集Tez Task元数据。 |
Spark任务采集配置
您可以在EMR控制台Spark服务的配置页面,查看或修改以下配置项。
修改配置项详情,请参见修改配置项。
配置名称 | 默认配置 | 说明 |
spark.driver.extraJavaOptions |
| 采集Spark Driver元数据。
|
spark.executor.extraJavaOptions |
| 采集Spark Executor元数据。
|
YARN Timeline Server配置
您可以在EMR控制台YARN服务的配置页面,查看或修改以下配置项。
修改配置项详情,请参见修改配置项。
配置名称 | 默认配置 | 说明 |
YARN_TIMELINESERVER_OPTS |
| 采集任务结束标志。
|