本文将介绍如何创建HttpFile和MySQL数据源以访问用户信息和网站日志数据,配置数据同步链路将这些数据同步到在环境准备阶段创建的OSS存储中,并通过创建EMR Hive外表解析OSS中存储的数据。通过查询验证数据同步结果,确认是否完成整个数据同步操作。
前提条件
步骤一:新建数据源
为确保后续数据处理流程的顺利进行,您需要在DataWorks工作空间中绑定如下数据源,用于获取和存储测试数据。
MySQL数据源:DataWorks平台提供的用于存储用户基本信息的测试数据源。
Httpfile数据源:DataWorks平台提供的用于存储用户网站访问记录的测试数据源。
OSS数据源:您在EMR环境准备中创建的EMR OSS-HDFS存储。用于存储从MySQL数据源和HTTP文件数据源同步的用户基本信息及用户网站访问记录的测试数据。
新建MySQL数据源(user_behavior_analysis_mysql)
本教程提供的用户基本信息存储在MySQL数据库中,您需要创建MySQL数据源,获取MySQL数据库中的用户基本信息数据(ods_user_info_d
)。
在管理中心页面,单击左侧导航栏的数据源。
单击新增数据源,搜索选择数据源类型为MySQL。
在创建MySQL数据源页面,配置相关参数。在本教程中开发环境和生产环境都按如下示例值填写。
以下为本教程所需配置的关键参数,未说明参数保持默认即可。
参数
描述
参数
描述
数据源名称
输入数据源名称,本教程请填写
user_behavior_analysis_mysql
。数据源描述
DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景读取,其他模块不支持使用。
配置模式
选择连接串模式。
连接地址
主机地址IP:
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com
端口号:
3306
数据库名称
输入数据库名,本教程请填写
workshop
。用户名
输入用户名,本教程请填写
workshop
。密码
输入密码,本教程请填写
workshop#2017
。认证选项
无认证。
在连通配置区域,分别单击生产环境和开发环境的测试连通性,确保连通状态为可连通。
需确保资源组已绑定至工作空间,并配置了公网访问能力,否则后续数据同步时将会报错。配置步骤请参见准备环境。
如果您无可选的资源组,可参考链接配置区域的说明提示,单击前往购买和绑定已购资源组。
单击完成创建。
新建HttpFile数据源(user_behavior_analysis_httpfile)
本教程提供的用户网站访问记录数据存储在DataWorks平台用于测试的OSS中,您需要创建Httpfile数据源,获取该OSS中的用户网站访问记录(user_log.txt
)。
进入数据源页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入管理中心。
单击左侧导航栏的数据源,进入数据源页面。
单击新增数据源,在新增数据源对话框中,搜索选择数据源类型为HttpFile。
在创建HttpFile数据源页面,配置相关参数。在本教程中开发环境和生产环境都按如下示例值填写。
以下为本教程所需配置的关键参数,未说明参数保持默认即可。
参数
描述
参数
描述
数据源名称
输入数据源名称,本教程请填写
user_behavior_analysis_httpfile
。数据源描述
DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景读取,其他模块不支持使用。
URL域名
开发环境和生产环境的URL域名均配置为
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com
。在连通配置区域,分别单击生产环境和开发环境的测试连通性,确保连通状态为可连通。
需确保资源组已绑定至工作空间,并配置了公网访问能力,否则后续数据同步时将会报错。配置步骤请参见准备环境。
如果您无可选的资源组,可参考链接配置区域的说明提示,单击前往购买和绑定已购资源组。
单击完成创建。
新建OSS数据源(test_g)
您可以通过以下操作,将EMR环境准备中创建的OSS存储添加到DataWorks平台,以便存储从MySQL数据源和HttpFile数据源同步过来的数据。
在管理中心页面,单击左侧导航栏的数据源。
单击新增数据源,搜索选择数据源类型为OSS。
在创建OSS数据源页面,配置各项参数。在本教程中开发环境和生产环境都按如下示例值填写。
参数
描述
参数
描述
数据源名称
输入数据源的名称,本示例为
test_g
。数据源描述
对数据源进行简单描述。
访问模式
选择Access Key模式。
AccessKey ID
当前登录账号的AccessKey ID,您可以进入AccessKey页面复制AccessKey ID。
AccessKey Secret
输入当前登录账号的AccessKey Secret。
AccessKey Secret只在创建时显示,不支持后续再次查看,请妥善保管。如果AccessKey泄露或丢失,请删除并创建新的AccessKey。
地域
选择华东2(上海)地域。
Endpoint
输入
oss-cn-shanghai-internal.aliyuncs.com
。Bucket
您准备环境时创建EMR集群配置的OSS Bucket的名称,示例为
dw-emr-demo
。在连通配置区域,分别单击生产环境和开发环境的测试连通性,确保连通状态为可连通。
需确保资源组已绑定至工作空间,并配置了公网访问能力,否则后续数据同步时将会报错。配置步骤请参见准备环境。
如果您无可选的资源组,可参考链接配置区域的说明提示,单击前往购买和绑定已购资源组。
单击完成创建。
步骤二:搭建同步链路
本步骤需要搭建同步链路,将用户基本信息数据和网站访问记录数据分别同步至Hive的表中,为后续加工数据做准备。
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的 ,进入Data Studio。
在Data Studio一级功能入口单击
,进入数据开发,在二级功能入口找到项目目录区域。
进入添加节点面板,新建虚拟节点、离线同步及EMR Hive节点。
选择
拖拽至右侧的编辑页面,在添加节点对话框中,输入节点名称workshop_start_emr
后单击确认。选择
拖拽至右侧的编辑页面,在添加节点对话框中,输入节点名称ods_user_info_d_2oss_emr
和ods_raw_log_d_2oss_emr
,用于后续同步MySQL用户信息与HttpFile日志信息到您所创建的OSS中,最后单击确认。选择
拖拽至右侧的编辑页面,在添加节点对话框中,输入节点名称ods_user_info_d_emr
和ods_raw_log_d_emr
,用于将您所创建的OSS中的数据加载到Hive表中,最后单击确认。
本教程节点名称示例及作用如下:
节点类型
节点名称
节点作用
节点类型
节点名称
节点作用
虚拟节点
workshop_start_emr
用于统筹管理整个用户画像分析工作流,可使数据流转路径更清晰。该节点为空跑任务,无须编辑代码。
离线同步节点
ods_user_info_d_2oss_emr
用于将存储于MySQL的用户基本信息数据同步至您所创建的OSS数据源(
test_g
)中。离线同步节点
ods_raw_log_d_2oss_emr
用于将存储于Httpfile数据源(OSS)中的用户网站访问记录同步至您所创建的OSS数据源(
test_g
)中。EMR Hive节点
ods_user_info_d_emr
用于将存储于您所创建OSS数据源(
test_g
)中的用户基本信息数据解析至Hive的ods_user_info_d_emr
表。EMR Hive节点
ods_raw_log_d_emr
用于将存储于您所创建OSS数据源(
test_g
)中的用户网站访问记录解析至Hive的ods_raw_log_d_emr
表。在工作流开发面板,通过拖拽连线,将
workshop_start_emr
节点设置为两个离线同步节点的上游节点。最终效果如下:工作流调度配置。
在工作流页面右侧单击调度配置,配置相关参数。以下为本教程所需配置的关键参数,未说明参数保持默认即可。
调度配置参数
说明
调度配置参数
说明
调度参数
为整个工作流设置调度参数,工作流中的内部节点可直接使用。本教程配置为
bizdate=$[yyyymmdd-1]
,获取前一天的日期。调度周期
本教程配置为
日
。调度时间
本教程配置调度时间为
00:30
,该工作流会在每日00:30
启动。节点依赖配置
Workflow无上游依赖,可不配置。为了方便统一管理,您可以单击使用工作空间根节点,将工作流挂载到工作空间根节点下。
工作空间根节点命名格式为:
工作空间名_root
。完成工作流调度时间配置后,单击保存工作流。并在变更检查弹窗确认保存。
步骤三:配置同步任务
您可以通过以下步骤将MySQL数据源中的用户信息和HttpFile数据源中的日志信息同步到您所创建的OSS中,并通过创建Hive外部表来解析获取该OSS中存储的数据。
配置虚拟节点
您可根据以下操作进行虚拟节点的调度配置。
打开虚拟节点。
鼠标悬浮于虚拟节点上,单击上方出现的打开节点,进入虚拟节点编辑页面。
配置虚拟节点。
打开节点右侧的调度配置,配置以下参数信息。
参数
说明
参数
说明
重跑属性
设置为运行成功或失败皆可重跑。
调度资源组
选择您在环境准备中创建的Serverless资源组。
节点依赖配置
Workflow无上游依赖,可不配置。为了方便统一管理,您可以单击使用工作空间根节点,将工作流挂载到工作空间根节点下。
工作空间根节点命名格式为:
工作空间名_root
。保存虚拟任务。
配置完成后,单击工具栏中的
图标保存任务节点。
步骤四:运行同步任务
在Workflow画布顶部工具栏中,单击运行,设置各节点定义的参数变量在本次运行中的取值(本教程使用20250223
,您可以按需修改),单击确定后,等待运行完成。
步骤五:解析OSS数据
等待离线同步任务运行完成,您可通过以下步骤,创建Hive外部表,以解析您在test_g
数据源OSS中存储的测试数据。
后续步骤
现在,您已经学习了如何进行日志数据同步,完成数据的同步,您可以继续下一个教程。在该教程中,您将学习如何对同步的数据进行计算与分析。详情请参见加工数据。
- 本页导读 (1)
- 前提条件
- 步骤一:新建数据源
- 新建MySQL数据源(user_behavior_analysis_mysql)
- 新建HttpFile数据源(user_behavior_analysis_httpfile)
- 新建OSS数据源(test_g)
- 步骤二:搭建同步链路
- 步骤三:配置同步任务
- 配置虚拟节点
- 同步MySQL数据源的用户信息至OSS数据源
- 同步HttpFile数据源的日志信息至OSS数据源
- 步骤四:运行同步任务
- 步骤五:解析OSS数据
- 新建ods_user_info_d_emr表解析数据
- 新建ods_raw_log_d_emr表解析数据
- 后续步骤