本文介绍环境准备和数据准备工作。
环境准备
- 已创建阿里云E-MapReduce的Hadoop集群。具体操作,请参见创建集群。
- 已下载E-MapReduce的最新SDK,SDK包的名称格式为emr-datasources_shaded_*.jar,emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。
- 已开通表格存储服务并创建实例。具体操作,请参见通过控制台使用或者通过命令行工具使用。
- 当阿里云E-MapReduce的Hadoop集群在VPC中时,请确保已绑定表格存储的实例和E-MapReduce的Hadoop集群所在的VPC。具体操作,请参见(可选)绑定VPC。
- 已开通DataV服务并制作大屏。具体操作,请参见开通DataV服务。
数据准备
产品 | 数据收集 | 说明 |
---|---|---|
E-MapReduce的Hadoop集群 | 登录EMR Header服务器的IP地址、用户名和密码。 | 用于通过远程登录工具(如putty等)登录EMR Header服务器进行Spark流批处理。 |
表格存储Tablestore |
|
用于访问表格存储服务,将原始数据和聚合结果写入表格存储的数据表中。
说明 在表格存储中通过控制台或者SDK创建存储电商数据的原始订单表OrderSource,OrderSource表有两个主键UserId(用户ID)和OrderId(订单ID)和两个属性列price(价格)和timestamp(订单时间)。
|
DataV数据可视化 | 登录DataV的用户名和密码。 | 用于添加表格存储数据源在大屏上显示数据。 |