引入数据

本文为您介绍如何将数据源的数据集成到您的工作空间。

前提条件

背景信息

  • 如果您是在2020年4月份之后购买的Dataphin,则数据同步能力已升级为数据集成。数据集成为您提供简单高效、安全可靠的数据同步平台。

  • 如果您是在2020年4月份之前购买的Dataphin,则数据源的数据通过数据同步任务,同步到您的工作空间,详情请参见数据同步

操作步骤

  1. 登录Dataphin控制台

  2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>

  3. 进入数据集成页面。

    1. 在Dataphin首页,单击顶部菜单栏的研发

    2. 在数据开发页面,单击项目名称后的test图标,单击Dev页签,选择beginner_test_dev为数据开发的项目空间。

      1
    3. 在数据开发页面,鼠标悬停至顶部菜单栏中的开发上,单击集成

  4. 创建管道开发脚本。

    1. 在数据集成页面,鼠标悬停在ddd图标,单击离线单条管道1

    2. 创建管道开发脚本对话框,配置参数。

      1

      参数

      描述

      管道名称

      输入test

      调度类型

      调度类型选择周期性节点

      描述

      填写对离线单条管道的简单描述。

      选择目录

      默认目录为离线管道

    3. 单击确定

  5. 开发离线管道脚本。

    1
    1. 在离线单条管道开发页面,单击右上方的组件库

    2. 单击输入前的dgd图标后,选中MySQL组件并拖动至左侧的管道画布中。

    3. 鼠标悬停至组件框内并右键单击,选择属性配置。在MySQL输入配置对话框,配置参数。

      1

      参数

      描述

      数据源

      选择数据源Dataphin

      数据源

      选择单表

      选择来源表company_sales_record_copy

      切分键

      无需添加切分键。

      输入过滤

      无需添加过滤条件。

      输出字段

      查看输出字段。

    4. 单击确认,完成输入组件的属性配置。

    5. 单击输出前的dgd图标后,选中MaxCompute组件并拖动至左侧的管道画布中。

    6. 单击下图中输入组件(MySQL)①处后拖动并指向输出组件(MaxCompute)的②处,形成有向连线。

      参数

      说明

      步骤名称

      保持默认。

      数据源

      选择目标数据源

      创建目标表:

      1. 单击一键生成目标表

      2. 在代码输入框中,输入建表语句。

        CREATE TABLE IF NOT EXISTS datax_test
        (order_id bigint comment '订单号',
        area string comment '区域',
        province string comment '省份',
        city   string comment '城市',
        product_type string comment '类型',
        order_name string comment '客户名称',
        report_date datetime comment '日期',
        order_amt double comment '销售额')
        PARTITIONED BY (  `ds` STRING);
      3. 单击新建

      加载策略

      选择追加数据

      分区

      输入ds=${bizdate}

      输入字段

      根据上游的输入,为您展示输入字段。

      输出字段

      为您展示输出字段。

      快速映射

      映射关系选择为同名映射的操作步骤:

      1. 单击快速映射后的ceshi图标。

      2. 选择同名映射

      3. 提醒对话框中,单击确定

    7. 单击确认,完成输出组件的属性配置。

  6. 单击管道开发脚本页面左上方的预览。在对话框中,bizdate填写为20200810,单击确定

  7. 单击管道开发脚本页面左上方的执行。在对话框中,bizdate填写为20200810,单击确定。集成源数据源的数据至您的目标数据源。

  8. 配置管道脚本的调度参数。

    1
    1. 在管道脚本页面,单击调度配置

    2. 调度配置页面,配置依赖关系区域参数,其他参数保持默认。

      参数

      描述

      上游依赖

      添加上游依赖:

      1. 单击新建上游依赖

      2. 新建上游依赖对话框,输入virtual_root_node

        ,搜索并选择虚拟节点。

      3. 单击确定新增

      当前节点

      添加当前节点的输出节点:

      1. 单击新增

      2. 新增当前节点输出对话框,输入beginner_test_dev.test

      3. 单击确定新增

    3. 单击确定

  9. 保存、提交和发布离线单条管道脚本。

    1. 单击页面右上方的gaga图标,保存管道脚本。1

    2. 单击页面右上方的dggd图标,提交管道脚本。2

    3. 提交备注对话框,输入备注信息。2

    4. 单击确定并提交

    5. 发布离线单条管道脚本至生产环境。

      1. 如果您的开发模式是Dev-Prod,则需要发布已提交的离线单条管道脚本,详情请参见管理发布任务

      2. 如果您的开发模式是Basic,则提交成功的离线单条管道脚本,即可参与生产环境的调度。

阿里云首页 智能数据构建与管理 Dataphin 相关技术圈