Sqoop是一款Apache社区的开源软件,支持在Hadoop生态软件和结构化数据集(例如数据库)之间进行高效的批量数据传输。
背景信息
将MySQL数据导入HDFS
在Master节点上执行如下命令。
sqoop import --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --target-dir <hdfs-dir> --split-by <split-column> --check-column <col> --incremental <mode> --last-value <value>
参数 | 描述 |
---|---|
dburi | 数据库的访问链接。例如jdbc:mysql://192.168.**.**:3306/。 |
dbname | 数据库的名称。 |
username | 数据库登录用户名。 |
password | 数据库登录密码。 |
tablename | MySQL表的名称。 |
hdfs-dir | HDFS的写入目录。例如/user/hive/result。 |
split-column | 可选参数。指定一个用于切分任务的列,默认为表主键列。 |
col | 可选参数。增量导入场景的检查列。 |
mode | 可选参数。增量导入模式,支持append和lastmodified两种模式。 |
value | 可选参数。指定上次增量导入的检查列的最大值。 |
详细的参数信息请参见Sqoop Import。
将HDFS数据导入MySQL
创建好对应HDFS中的数据结构的MySQL表后,在集群的Master节点上执行如下命令。
sqoop export --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --export-dir <hdfs-dir>
参数 | 描述 |
---|---|
dburi | 数据库的访问链接。例如jdbc:mysql://192.168.**.**:3306/。 |
dbname | 数据库的名称。 |
username | 数据库登录用户名。 |
password | 数据库登录密码。 |
tablename | MySQL表的名称。 |
hdfs-dir | HDFS的写入目录。例如/user/hive/result。 |
详细的参数信息请参见Sqoop Import。
将MySQL数据导入Hive
在集群的Master节点上执行如下命令。
sqoop import --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --check-column <col> --incremental <mode> --last-value <value> --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --target-dir <hdfs-dir> --hive-table <hive-tablename>
参数 | 描述 |
---|---|
dburi | 数据库的访问链接。例如jdbc:mysql://192.168.**.**:3306/。 |
dbname | 数据库的名称。 |
username | 数据库登录用户名。 |
password | 数据库登录密码。 |
tablename | MySQL表的名称。 |
col | 可选参数。增量导入场景的检查列。 |
mode | 可选参数。增量导入模式,支持append和lastmodified两种模式。 |
value | 可选参数。指定上次增量导入的检查列的最大值。 |
hdfs-dir | HDFS的写入目录。例如/user/hive/result。 |
hive-tablename | Hive中的表名。 |
详细的参数信息请参见Sqoop Import。
将Hive数据导入MySQL
执行命令与导入HDFS数据至MySQL一致,但需要指定Hive表对应的HDFS路径。详情请参见将HDFS数据导入MySQL。
将MySQL数据导入OSS
在集群的Master节点上执行如下命令。
sqoop import --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --target-dir <oss-dir> --temporary-rootdir <oss-tmpdir> --check-column <col> --incremental <mode> --last-value <value>
参数 | 描述 |
---|---|
dburi | 数据库的访问链接。例如jdbc:mysql://192.168.**.**:3306/。 |
dbname | 数据库的名称。 |
username | 数据库登录用户名。 |
password | 数据库登录密码。 |
tablename | MySQL表的名称。 |
oss-dir | OSS的写入目录。例如oss://<accessid>:<accesskey>@<bucketname>.oss-cn-hangzhou-internal.aliyuncs.com/result。 |
oss-tmpdir | 临时写入目录。指定mode为append模式时,需要指定该参数。 采用append模式后,Sqoop会先将数据导入临时目录,然后将文件重命名为正常目标目录。如果目标目录已经存在于HDFS中,则Sqoop拒绝导入并覆盖该目录的内容。 |
col | 可选参数。增量导入场景的检查列。 |
mode | 可选参数。增量导入模式,支持append和lastmodified两种模式。 |
value | 可选参数。指定上次增量导入的检查列的最大值。 |
详细的参数信息请参见Sqoop Import。
将OSS数据导入MySQL
创建好对应OSS中数据结构的MySQL表后,在集群的Master节点上执行如下命令。
sqoop export --connect <dburi>/<dbname> --username <username> --password <password> --table <tablename> --export-dir <oss-dir>
参数 | 描述 |
---|---|
dburi | 数据库的访问链接。例如jdbc:mysql://192.168.**.**:3306/。 |
dbname | 数据库的名称。 |
username | 数据库登录用户名。 |
password | 数据库登录密码。 |
tablename | MySQL表的名称。 |
oss-dir | OSS的写入目录。例如oss://<accessid>:<accesskey>@<bucketname>.oss-cn-hangzhou-internal.aliyuncs.com/result。 |
详细的参数信息请参见Sqoop Import。
使用SQL作为导入条件
命令和参数如下所示。
sqoop import --connect <dburi>/<dbname> --username <username> --password <password> --query <query-sql> --split-by <sp-column> --hive-import --hive-table <hive-tablename> --target-dir <hdfs-dir>
参数 | 描述 |
---|---|
dburi | 数据库的访问链接。例如jdbc:mysql://192.168.**.**:3306/。 |
dbname | 数据库的名称。 |
username | 数据库登录用户名。 |
password | 数据库登录密码。 |
query-sql | 使用的查询语句。例如SELECT * FROM profile WHERE id>1 AND \$CONDITIONS 。 |
sp-column | 进行切分的条件。通常跟MySQL表的主键有关。 |
hdfs-dir | HDFS的写入目录。例如/user/hive/result。 |
hive-tablename | Hive中的表名。 |
详细的参数信息请参见Sqoop Import。
集群和其他数据库的网络配置请参见在 E-MapReduce上使用 Sqoop工具与数据库同步数据进行网络配置。