文档

步骤三:引入数据

更新时间:

完成数据仓库的规划和数据源信息的配置后,您还需将您的源数据product表、customer表、orders表引入到项目中。本文将指导您如何将数据源的数据集成到您的创建的项目空间。

背景信息

product表、customer表、orders表的集成步骤相同,仅管道名称不同。本文以集成product表为例介绍如何集成product表至项目。

重要

完成product表集成后,您还需参考本文集成customer表、orders表至项目。

步骤一:创建管道开发脚本

  1. 在Dataphin首页,单击顶部菜单栏的研发

  2. 按照下图操作指引,选择dataphin_tutorial项目并进入创建管道开发脚本对话框。

    image.png
  3. 创建管道开发脚本对话框,配置参数。

    参数

    描述

    管道名称

    输入产品表集成

    调度类型

    调度类型选择周期性节点

    描述

    默认不填。可以填写对离线单条管道的简单描述。

    选择目录

    默认目录为离线管道

  4. 单击确定

步骤二:开发离线管道脚本

  1. 在离线单条管道开发页面,选中MySQL输入组件MaxCompute输出组件并拖动至管道画布中,同时进行连接。如下图所示:

    image.png
  2. 单击组件的image.png图标,配置MySQL输入组件MaxCompute输出组件

    • MySQL输入组件

      参数

      描述

      步骤名称

      保持默认。

      数据源

      选择数据源dataphin_tutorial

      来源表量

      选择单表

      选择来源表product

      切分键

      无需添加切分键。

      批量条数

      默认为1024。

      输入过滤

      无需添加过滤条件。

      输出字段

      默认输出字段。

    • MaxCompute输出组件

      参数

      描述

      步骤名称

      保持默认。

      数据源

      选择项目/dataphin_tutorial(dataphin_tutorial)(当前项目)

      创建目标表:

      1. 单击一键生成目标表

      2. 在代码输入框中,使用默认建表语句,无需修改。

      3. 单击新建

      加载策略

      默认为追加数据

      映射关系

      在映射关系中选择同名映射

  3. 单击确定

步骤三:配置管道脚本的调度参数

  1. 在管道脚本页面,单击调度配置

  2. 调度配置页面,配置调度依赖区域参数,其他参数保持默认。

    参数

    描述

    上游依赖

    单击添加根节点为上游依赖。

  3. 单击确定

步骤四:提交和发布离线单条管道脚本

  1. 单击页面右上方的image图标,提交管道脚本。

  2. 提交备注对话框,输入备注信息。

  3. 单击确定并提交