阿里云E-MapReduce(简称EMR)的EMRStudio集群中,您可以修改Airflow.cfg文件的配置。本文为您介绍Airflow中常用的配置。

Airflow所有配置信息的详情,请参见Configuration Reference

参数 描述
core default_timezone 默认时区设置,遵循IANA时区字符。

默认值为Asia/Shanghai。

parallelism Airflow全局可以并行运行的最大任务数。

默认值为32。

default_task_retries 默认状态下每个任务的重试次数,可以在DAG或者Task中重新设置以覆盖默认值。

默认值为0。

scheduler catchup_by_default 设置此参数为False可以使Scheduler不执行catchup操作,即Airflow不会自行对当前日期和DAG的start_date之间做backfill操作,但是在命令行执行backfill时依然可以生效。此参数也可以在定义DAG时针对每个DAG进行单独配置。

默认值为True。

scheduler_zombie_task_threshold 本地任务周期性会向数据库发送心跳,如果在此设定值内没有发送心跳,则Scheduler会把该任务标记为失败,并且重新调度该任务。

默认值为300。单位为秒。

celery worker_concurrency 启动celery worker时的默认并发度。该参数设置了一个worker节点分配的Task数量。请根据worker上的资源和任务本身需要设置该数值。
worker_autoscale 启动celery worker时的最大和最小并发度(始终保持最少的进程,但是如果有需要的话可以增加到最多进程数)。请根据worker上的资源和任务本身需要设置这两个数值。

如果worker_autoscale选项有设定数值,则参数worker_concurrency会被忽略。例如,设置worker_autoscale的值为16,12时,则会忽略worker_concurrency参数。