阿里云E-MapReduce(简称EMR)的EMRStudio集群中,您可以修改Airflow.cfg文件的配置。本文为您介绍Airflow中常用的配置。
Airflow所有配置信息的详情,请参见Configuration Reference。
参数 | 描述 |
---|
参数 | 描述 | |
---|---|---|
core | default_timezone | 默认时区设置,遵循IANA时区字符。
默认值为Asia/Shanghai。 |
parallelism | Airflow全局可以并行运行的最大任务数。
默认值为32。 |
|
default_task_retries | 默认状态下每个任务的重试次数,可以在DAG或者Task中重新设置以覆盖默认值。
默认值为0。 |
|
scheduler | catchup_by_default | 设置此参数为False可以使Scheduler不执行catchup操作,即Airflow不会自行对当前日期和DAG的start_date之间做backfill操作,但是在命令行执行backfill时依然可以生效。此参数也可以在定义DAG时针对每个DAG进行单独配置。
默认值为True。 |
scheduler_zombie_task_threshold | 本地任务周期性会向数据库发送心跳,如果在此设定值内没有发送心跳,则Scheduler会把该任务标记为失败,并且重新调度该任务。
默认值为300。单位为秒。 |
|
celery | worker_concurrency | 启动celery worker时的默认并发度。该参数设置了一个worker节点分配的Task数量。请根据worker上的资源和任务本身需要设置该数值。 |
worker_autoscale | 启动celery worker时的最大和最小并发度(始终保持最少的进程,但是如果有需要的话可以增加到最多进程数)。请根据worker上的资源和任务本身需要设置这两个数值。
如果worker_autoscale选项有设定数值,则参数worker_concurrency会被忽略。例如,设置worker_autoscale的值为16,12时,则会忽略worker_concurrency参数。 |