自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

自建Hive数据仓库迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势 易用性 您可以简单选择所需ECS机型(CPU、...

什么是EMR on ECS

自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...

常见问题

本文为您介绍数据湖构建的常见问题。如何申请数据湖构建产品的公测资格?数据湖构建如何收费?...目前DLF支持与阿里云E-MapReduce产品组合实现Spark数据的读取,详细请参考:EMR+DLF数据湖解决方案,暂不支持与自建Hadoop/Spark集群的集成。

产品优势

优势总结 对比类目 自建Hadoop系统 阿里云 DLA+OSS方案 产品体系 复杂、组件较多 一体化、端到端(入湖=>管理=>ETL=>分析查询),产品体验好;组件精耕细作Presto、Spark;弹性 无 云原生、弹性强、一分钟可弹300节点参与计算 性价比 开源...

数据湖生态接入

生态类型 引擎/平台 参考文档 开源生态 Elasticsearch 将Elasticsearch的快照备份至OSS Flink 使用Flink访问OSS 开源Flink写入OSS-HDFS服务 Fluentd 使用Fluentd访问OSS Flume Flume使用JindoSDK写入OSS-HDFS服务 Hadoop 自建Hadoop使用...

E-MapReduce数据迁移方案

新旧集群网络打通 线下IDC自建Hadoop 自建Hadoop迁移到E-MapReduce可以通过OSS进行过渡,或者使用阿里云高速通道产品建立线下IDC和线上E-MapReduce所在VPC网络的连通。利用ECS自建Hadoop 由于VPC实现用户专有网络之间的逻辑隔离,E-...

测试环境

场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比 场景说明:使用自建Spark和DLA Spark分别访问自建Hadoop集群,运行Terasort 1 TB基准测试,对它们的耗时进行对比分析。DLA Spark+OSS配置如下:配置名称 ...

数据迁移

数据迁移和脚本迁移遇到的问题及解决方案请参见 迁移自建Hadoop数据至MaxCompute实践。迁移Oracle数据至MaxCompute,详情请参见 迁移Oracle数据至MaxCompute。迁移消息队列for Apache Kafka集群数据至MaxCompute,详情请参见 迁移消息队列...

测试结果

1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果 集群类型 运行Terasort基准测试集耗时(min)DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用,自建Hadoop集群在高峰期需要...

自建HDFS迁移数据

自建Hadoop集群数据迁移 阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时,可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示:hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

客户案例

价值体现 从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(...

测试方法

场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比 准备测试数据 在自建Hadoop上生成1 TB Terasort测试数据。使用spark-submit命令向自建Spark集群中提交运行生成1 TB Terasort测试数据的Spark程序。示例如下...

使用限制

您在使用数据湖构建(Data Lake Formation,简称DLF)控制台和接口时,产品做了如下限制,请在使用时...不支持Hive LLAP 建议使用Presto/Spark等引擎替代 目前DLF不支持与自建Hadoop集群集成,如需使用数据湖请选择阿里云E-MapReduce集群。

接入阿里云ECS自建数据库实例

本文介绍如何在数据库自治服务DAS中接入阿里云ECS自建数据库。前提条件 DAS目前支持接入的ECS自建数据库引擎有:MySQL PostgreSQL MongoDB Redis 说明 目前DAS仅支持接入6.0及以下版本的自建Redis。部署数据库实例的ECS与DAS属于同一个阿里...

使用前必读

其他 由于自建Kubernetes集群的版本、集群初始化方式以及集群节点配置与阿里云容器服务ACK差异化较大,一些组件如CSI、MetricServer等默认使用的节点配置文件路径或端口号与自建集群对应的配置不一致,会导致组件运行异常,因此这部分组件...

使用AOF文件进行迁移

redis-cli-h<自建Redis实例IP地址>-p<自建Redis实例端口号>CONFIG SET appendonly no 常见问题 Q:在导入时产生报错:ERR Protocol error:too big inline request。A:请通过 CONFIG GET aof-use-rdb-preamble 命令,检查实例的 aof-use-...

解读上云评估报告

Check rds empty(检查RDS PostgreSQL数据库是否是空库)Check source connectivity(检查自建PostgreSQL的连通性)Check source version(检查自建PostgreSQL的大版本)Check source glibc version(检查自建PostgreSQL的GLIBC版本)Check...

自建Redis迁移至阿里云Redis

本文介绍如何使用数据传输服务DTS(Data Transmission Service),将自建Redis迁移至阿里云Redis实例。DTS支持全量数据迁移以及增量数据迁移,同时使用这两种迁移类型可以实现在自建应用不停服的情况下,平滑地完成自建Redis数据库的迁移...

自建MySQL同步至云消息队列 Kafka 版

通过数据传输服务DTS(Data Transmission Service),您可以将自建MySQL同步至 云消息队列 Kafka 版,扩展消息处理能力。前提条件 您已完成以下操作:自建MySQL数据库且数据库版本为5.1、5.5、5.6、5.7或8.0版本。购买并部署 云消息队列 ...

使用CreateCluster API创建集群

参数值为USER_RDS,对应控制台的 自建RDS。参数值${dbURL}:填写RDS地址,示例值:jdbc:mysql:/rm-bp1qg11xjszt3x3*.mysql.rds.aliyuncs.com/hivemeta 。参数${dbUser}:填写RDS用户名。参数${dbPassword}:填写RDS用户${dbUser}对应的密码...

(可选)ECS配置安全组

本文介绍上云前,ECS自建PostgreSQL配置安全组,允许RDS PostgreSQL访问自建PostgreSQL数据库端口。前提条件 如果您需要将ECS自建PostgreSQL迁移到RDS PostgreSQL,则需要执行本文配置。ECS需要满足以下条件:ECS实例需要与RDS PostgreSQL...

自建Greenplum迁移到AnalyticDB PostgreSQL版

使用gpcopy迁移数据 提交工单 联系阿里云技术支持,并将AnalyticDB PostgreSQL版实例ID、自建Greenplum集群的IP地址和端口号、可用于迁移数据的Greenplum superuser权限账号和安装自建Greenplum集群的服务器的IP地址提供给阿里云技术支持。...

从RDS MySQL迁移至自建Kafka

ECS上的自建数据库 通过专线/VPN网关/智能接入网关接入的自建数据库 无公网IP:Port的数据库(通过数据库网关DG接入)通过云企业网CEN接入的自建数据库 如果Kafka集群的部署位置为本地,且不符合上述场景,您可以将自建Kafka的服务端口开放...

一键创建OSS数据仓库

端口 RDS、PolarDB for MySQL、MongoDB实例或者ECS自建数据库的连接端口。用户名 RDS、PolarDB for MySQL、MongoDB实例或者ECS自建数据库的数据库账号名。密码 用户名对应的密码。Schema名称 RDS、PolarDB for MySQL、MongoDB实例或者ECS...

对象存储服务路径

为保证数据导入的性能,请确保云数据库与自建的MinIO所在Region相同,并使用内网地址进行访问。HDFS文件路径 基于HDFS的文件路径格式如下:HDFS:/<user_name>@[:]/path_to/file 如不指定user_name参数,会自动使用hadoop。host与port为HDFS...

对象存储服务路径

为保证数据导入的性能,请确保云数据库与自建的MinIO所在Region相同,并使用内网地址进行访问。HDFS文件路径 基于HDFS的文件路径格式如下:HDFS:/<user_name>@[:]/path_to/file 如不指定user_name参数,会自动使用hadoop。host与port为HDFS...

对象存储服务路径

为保证数据导入的性能,请确保云数据库与自建的MinIO所在Region相同,并使用内网地址进行访问。HDFS文件路径 基于HDFS的文件路径格式如下:HDFS:/<user_name>@[:]/path_to/file 如不指定user_name参数,会自动使用hadoop。host与port为HDFS...

异构数据源访问

当目标数据源为自建Hadoop集群,选择 自建Hadoop。数据库类型 选择 HDFS。数据来源 E-MapReduce集群ID。说明 自建Hadoop集群无此参数。网络校验 单击 网络校验,提示网络连通。单击下一步,填写 配置文件。参数 说明 获取方式 参数配置 无 ...

执行在线评估

选择 评估模式 为 MySQL>>OceanBase MySQL Mode 时,支持的实例类型包括 RDS 实例、POLAR 实例、VPC 内自建数据库和公网 IP 自建数据库。从 实例类型 下拉列表选择不同的 实例类型 后,下方会自动显示对应的表单。实例类型 参数 描述 RDS ...

对象存储服务路径

为保证数据导入的性能,请确保云数据库与自建的MinIO所在Region相同,并使用内网地址进行访问。HDFS文件路径 基于HDFS的文件路径格式如下:HDFS:/<user_name>@<host>:<port>/path_to/file[:]说明 如果是具有SubSet的NetCDF,可以通过:方式...

RDS MySQL或自建MySQL逻辑备份

有公网IP:Port的自建数据库:可通过公网IP备份自建数据库,您还需配置源数据库实例的连接地址与端口号。通过专线/VPN网关/智能网关接入的自建数据库:可通过专有网络备份自建数据库,您需提前为数据库实例配置专有网络,并在此配置步骤选择...

云·智选站简介

介绍云·智选站产品,为客户进一步了解,选择适合的产品。云·智选站,是一款所见即所得的在线自助站产品,三合一终端,以易用流畅、轻松快速、效果丰富、百度收录、赋能获客与留客为特色,帮助企业建立多端网站,提升品牌,最终为...

EMR对接外部KDC

EMR-3.43.1及后续版本,EMR-5.9.1及后续版本的E-MapReduce(简称EMR)集群支持在创建集群时对接您外部自建的KDC(Key Distribution Center)。这意味着当您在EMR集群中使用Kerberos身份验证时,您可以选择使用由集群创建的KDC,也可以选择...

对象存储服务路径

为保证数据导入的性能,请确保云数据库与自建的MinIO所在Region相同,处于同一VPC下,能够内网互通。HDFS文件路径 基于HDFS的文件路径格式如下:HDFS:/<user_name>@<host>:<port>/path_to/file[:]如不指定user_name参数,会自动使用默认值...

对象存储服务路径

为保证数据导入的性能,请确保云数据库与自建的MinIO所在Region相同,处于同一VPC下,能够内网互通。HDFS文件路径 基于HDFS的文件路径格式如下:HDFS:/<user_name>@<host>:<port>/path_to/file[:]如不指定user_name参数,会自动使用默认值...

私网 CLB 监听端口自转发

通过云速搭实现一个 EIP-CLB->ECS 的简单架构,实现其中 CLB 前端在监听到 http80 端口的请求时,基于...产品列表 云速搭CADT 云服务器ECS 专有网络VPC 负载均衡SLB 方案架构 操作步骤 具体操作步骤请参考《私网 CLB 监听端口自转发》最佳实践

绑定源代码托管平台

绑定企业版实例与GitLab代码平台 如果您使用的是自建的GitLab,绑定自建GitLab需要注意以下端口事项:HTTP服务 默认使用80端口。如果要使用其他端口,请在触发器URL末尾手动添加端口号,而且只能选择以下端口号:80、21、443、70、210、280...

绑定源代码托管平台

绑定个人版实例与GitLab代码平台 如果您使用的是自建的GitLab,绑定自建GitLab需要注意以下端口事项:HTTP服务 默认使用80端口。如果要使用其他端口,请在触发器URL末尾手动添加端口号,而且只能选择以下端口号:80、21、443、70、210、280...

配置自建RDS

本文介绍如何配置自建的阿里云RDS,作为E-MapReduce(简称EMR)上DataLake集群、Custom集群或Hadoop集群的元数据。前提条件 已购买RDS MySQL实例(EMR所有版本均支持MySQL 5.7,仅EMR-3.35.0以上版本、EMR-5.0.0以上版本同时支持MySQL 5.7...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 智能商业分析 Quick BI 邮件推送 云虚拟主机 云备份 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用