准备结合Spark对表格存储进行流批处理的环境-表格存储-阿里云

本文介绍表格存储结合Spark流批处理实现一体化存储和计算场景的环境准备和数据准备工作。

环境准备

已创建阿里云E-MapReduce的Hadoop集群。具体操作，请参见创建集群。
已下载E-MapReduce的最新SDK，SDK包的名称格式为emr-datasources_shaded_*.jar，emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。
已开通表格存储服务并创建实例。具体操作，请参见开通服务并创建实例。
当阿里云E-MapReduce的Hadoop集群在VPC中时，请确保已绑定表格存储的实例和E-MapReduce的Hadoop集群所在的VPC。具体操作，请参见为实例绑定VPC。
已开通DataV服务并制作大屏。具体操作，请参见开通DataV服务。

产品	数据收集	说明
E-MapReduce的Hadoop集群	登录EMR Header服务器的IP地址、用户名和密码。	用于通过远程登录工具（如Putty等）登录EMR Header服务器进行Spark流批处理。
表格存储Tablestore	访问表格存储服务的AccessKey ID和AccessKey Secret。登录控制台的用户名和密码。实例的名称和服务地址。	用于访问表格存储服务，将原始数据和聚合结果写入表格存储的数据表中。说明在表格存储中通过控制台或者SDK创建存储电商数据的原始订单表OrderSource，OrderSource表有两个主键UserId（用户ID）和OrderId（订单ID），以及两个属性列price（价格）和timestamp（订单时间）。
DataV数据可视化	登录DataV的用户名和密码。	用于添加表格存储数据源在大屏上显示数据。