Airflow工作流

更新时间:2025-05-07 02:09:08

Airflow是一款面向大数据开发场景的开源工作流编排和调度工具,支持作业开发、DAG(有向无环图)调度和监控工作流批处理。Airflow允许通过Python代码定义工作流。借助其Python插件,用户可以灵活地将Airflow与大多数外部技术或系统集成。

说明

目前Airflow功能处于邀测中。如果您有使用需求,请联系DMS技术支持。

使用场景

  • 编排DMS中的数据开发任务,如执行SQL脚本、数据清洗等。

  • 调度AnalyticDB for MySQLSpark执行批处理任务。

  • 调度DTS的数据集成任务。

注意事项

目前仅华东1(杭州)、华北2(北京)、华东2(上海)和华南1(深圳)支持此功能。

方案概览

  1. 准备Airflow所需资源

    准备RDS PostgreSQLRedisOSS资源,并为Airflow开通公网访问权限。

  2. 创建Airflow实例

  3. 创建git关联账号

    创建git账号,即创建一个专用账号。该账号用于在代码仓库中进行操作,且这些操作不会被同一工作空间的用户(包括阿里云主账号或RAM子账号)查看。

  4. 创建代码仓库

    Git或其他版本控制系统中创建代码仓库,用于存储和管理AirflowDAG文件。

  5. 进行代码开发

    在代码仓库中编辑对应代码、进行代码发布等操作。

  6. 查看Airflow的执行情况

    Airflow空间查看DAG调度以及监控工作流批处理的情况。

  • 本页导读 (1)
  • 使用场景
  • 注意事项
  • 方案概览