本文将为您介绍如何将数据源数据同步到您的工作空间,包括同步任务的创建及配置。

  1. 登录Dataphin。
  2. 在Dataphin首页,单击顶部菜单栏的研发,进入研发页面。
  3. 选择开发 > 数据处理 > 同步任务功能菜单,单击新建文件按钮。
  4. 新建文件对话框中,填写信息。
    参数 说明
    名称 填写dataphin。
    调度类型 选择手动节点
    说明 周期性节点指按照调度周期定期执行的任务,手动节点指每次运行需要手动触发的任务。
    描述 填写对文件简单的描述。
    目录 选择同步任务
  5. 在左侧同步任务列表中,单击上述步骤中新建的dataphin同步任务节点,进入同步任务配置页面。
  6. 配置同步任务。按照同步任务配置要求,填写同步来源、同步目标、来源字段信息。
    分区 参数 说明
    同步来源 数据源 选择dataphin。
    模式 选择单表
    说明
    • 单表模式下,可以搜索表名,支持前缀匹配,在匹配到的下拉列表中选择需要的来源表。
    • 多表模式下,支持按照输入的表达式规则,匹配多张相同结构的数据表。例如,输入a2019061[0-5]
    选择company_sales_record_copy
    同步目标 数据源 选择您新建项目时添加的计算引擎源。本示例以test_xianshang_dev为例。
    选择dataphin_test
    加载策略 选择覆盖数据
    说明
    • 覆盖数据即以当前来源表为准,覆盖目标表中的历史数据。
    • 追加数据即在目标表的已有的数据基础上追加数据,且不修改历史数据。
    分区策略 填写ds=${bizdate}
    来源字段 order_id 表示订单号。
    area 表示区域。
    province 表示省份。
    city 表示城市。
    product_type 表示产品类型。
    customer_name 表示客户名称。
    report_date 表示订单日期。
    order_amt 表示销售额。
  7. 配置参数控制。
    参数 说明
    速度上限 数据同步的传输速率,默认为1MB/s。系统数据同步的传输速率会尽可能地达到速度上限,且不会超过速度上限。速度上限会影响整个调度的资源情况,速度上限设置的越高,运行任务的调度资源量会越大。本例中速度上限保持默认值。
    并发数 启动并发抽取数据的任务并发数,默认值为3。
    出错限制 指数据同步过程中,出错的记录数超过多少条则任务中止。默认为0条,即不允许出错。
  8. 配置完成后,单击右上方的,如果出现已进入提交流程,提交中字样,表示同步任务提交成功。