引入数据
本文为您介绍如何将数据源的数据集成到您的工作空间。
前提条件
背景信息
如果您是在2020年4月份之后购买的Dataphin,则数据同步能力已升级为数据集成。数据集成为您提供简单高效、安全可靠的数据同步平台。
如果您是在2020年4月份之前购买的Dataphin,则数据源的数据通过数据同步任务,同步到您的工作空间,详情请参见数据同步。
操作步骤
登录Dataphin控制台。
在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>。
进入数据集成页面。
在Dataphin首页,单击顶部菜单栏的研发。
在数据开发页面,单击项目名称后的
图标,单击Dev页签,选择beginner_test_dev为数据开发的项目空间。
在数据开发页面,鼠标悬停至顶部菜单栏中的开发上,单击集成。
创建管道开发脚本。
在数据集成页面,鼠标悬停在
图标,单击离线单条管道。
在创建管道开发脚本对话框,配置参数。
参数
描述
管道名称
输入test。
调度类型
调度类型选择周期性节点。
描述
填写对离线单条管道的简单描述。
选择目录
默认目录为离线管道。
单击确定。
开发离线管道脚本。
在离线单条管道开发页面,单击右上方的组件库。
单击输入前的
图标后,选中MySQL组件并拖动至左侧的管道画布中。
鼠标悬停至组件框内并右键单击,选择属性配置。在MySQL输入配置对话框,配置参数。
参数
描述
数据源
选择数据源Dataphin。
数据源
选择单表。
表
选择来源表company_sales_record_copy。
切分键
无需添加切分键。
输入过滤
无需添加过滤条件。
输出字段
查看输出字段。
单击确认,完成输入组件的属性配置。
单击输出前的
图标后,选中MaxCompute组件并拖动至左侧的管道画布中。
单击下图中输入组件(MySQL)①处后拖动并指向输出组件(MaxCompute)的②处,形成有向连线。
参数
说明
步骤名称
保持默认。
数据源
选择目标数据源。
表
创建目标表:
单击一键生成目标表。
在代码输入框中,输入建表语句。
CREATE TABLE IF NOT EXISTS datax_test (order_id bigint comment '订单号', area string comment '区域', province string comment '省份', city string comment '城市', product_type string comment '类型', order_name string comment '客户名称', report_date datetime comment '日期', order_amt double comment '销售额') PARTITIONED BY ( `ds` STRING);
单击新建。
加载策略
选择追加数据。
分区
输入ds=${bizdate}。
输入字段
根据上游的输入,为您展示输入字段。
输出字段
为您展示输出字段。
快速映射
映射关系选择为同名映射的操作步骤:
单击快速映射后的
图标。
选择同名映射。
在提醒对话框中,单击确定。
单击确认,完成输出组件的属性配置。
单击管道开发脚本页面左上方的预览。在对话框中,bizdate填写为20200810,单击确定。
单击管道开发脚本页面左上方的执行。在对话框中,bizdate填写为20200810,单击确定。集成源数据源的数据至您的目标数据源。
配置管道脚本的调度参数。
在管道脚本页面,单击调度配置。
在调度配置页面,配置依赖关系区域参数,其他参数保持默认。
参数
描述
上游依赖
添加上游依赖:
单击新建上游依赖。
在新建上游依赖对话框,输入virtual_root_node
,搜索并选择虚拟节点。
单击确定新增。
当前节点
添加当前节点的输出节点:
单击新增。
在新增当前节点输出对话框,输入beginner_test_dev.test
。
单击确定新增。
单击确定。
保存、提交和发布离线单条管道脚本。
单击页面右上方的
图标,保存管道脚本。
单击页面右上方的
图标,提交管道脚本。
在提交备注对话框,输入备注信息。
单击确定并提交。
发布离线单条管道脚本至生产环境。
如果您的开发模式是Dev-Prod,则需要发布已提交的离线单条管道脚本,详情请参见管理发布任务。
如果您的开发模式是Basic,则提交成功的离线单条管道脚本,即可参与生产环境的调度。