阿里云首页
开源大数据平台E-MapReduce
相关技术圈
开源大数据平台E-MapReduce
开源大数据平台E-MapReduce(Elastic MapReduce)是运行在阿里云平台上的一种大数据处理的系统解决方案。
查看文档
版本总览
购买产品
常见问题
相关技术圈
学习路径
由浅入深,带您玩转 EMR!
了解
EMR介绍
什么是E-MapReduce
产品优势
产品架构
使用场景
使用限制
联系我们
购买EMR
计费概述
按量计费
包年包月
按量转包月
续费说明
欠费说明
查看账单
退款说明
上手
快速入门
EMR快速入门
EMR on ACK快速入门
使用
集群管理
创建集群
角色授权
管理用户
管理安全组
管理元数据
登录集群
扩容集群
缩容集群
常用文件路径
EMR Studio
EMR Studio概述
创建EMR Studio集群
EMR Studio快速入门
组件操作
ClickHouse
SmartData
JupyterHub
Kubeflow
Iceberg
EMR on ACK
EMR on ACK概述
角色授权
资源管理
服务管理
作业管理
组件操作指南
实践
日志传输
日志准实时传输
数据迁移
通过Kafka Connect进行数据迁移
自建Hadoop数据迁移到阿里云E-MapReduce
自建Hive数据仓库迁移到阿里云E-MapReduce
作业提交
通过Flink作业处理OSS数据
通过Spark Streaming作业处理Kafka数据
通过PyFlink作业处理Kafka数据
HDFS
JVM内存调优
实时计算场景优化
HDFS使用优化
Kudu
数据迁移
YARN
使用YARN CGroups功能对CPU进行控制测试
Spark
Spark处理Delta Lake和Hudi数据
Hive
Hive访问EMR HBase数据
Hive访问EMR Phoenix数据
Hive访问Delta Lake和Hudi数据
通过Hive作业处理TableStore数据
在EMR集群运行TPC-DS Benchmark
通过JDBC连接HiveServer2来访问Hive数据
DeltaLake
场景一:流式入库
场景二:数据同步
场景三:冷热分层
场景四:Slowly Changing Dimension
Flume
同步HDFS Audit日志至HDFS
同步EMR Kafka数据至HDFS
同步EMR Kafka数据至Hive
同步EMR Kafka数据至HBase
同步EMR Kafka数据至OSS
同步LogHub数据至HDFS
Hue
配置Hue访问Presto服务
在Hue WebUI使用HBase服务
在Hue WebUI使用文件浏览器
在Hue WebUI使用编辑器
开发
开发者文档
API接口概览
SDK参考
免费云资源,真实云环境,丰富实践场景
基于EMR离线数据分析
本实验免费提供EMR集群,基于EMR集群进行离线数据分析。
本场景将通过开通登录EMR Hadoop集群,简单进行hive操作,使用hive对数据进行加载,计算等操作。展示了如何构建弹性低成本的离线大数据分析。
立即体验
了解更多相关常见问题、案例和解决方案
常见问题总览
集群管理常见问题
ClickHouse常见问题
SmartData常见问题
HDFS常见问题
Kudu常见问题
Hudi常见问题
HDFS常见问题
集群创建
创建并运行作业
编写工作流
开源大数据平台E-MapReduce
动态与公告
产品公告
EMR包年包月优惠活动到期公告
EMR StarRocks 2.2.0版本升级公告
EMR元数据迁移公告
EMR数据开发停止更新公告
新版控制台上线公告
YARN缺陷修复公告
SmartData数据读取异常修复公告
安全公告
漏洞公告 | Apache Log4j2远程代码执行漏洞
漏洞公告 | Apache Hadoop FileUtil.unTar命令注入漏洞
产品简介
什么是E-MapReduce
产品优势
产品架构
应用场景
基本概念
使用限制
技术支持
发行版本
版本概述
版本说明(EMR-5.x系列)
EMR-5.10.x版本说明
EMR-5.9.x版本说明
EMR-5.8.x版本说明
EMR-5.6.x版本说明
EMR-5.5.x版本说明
EMR-5.4.x版本说明
EMR-5.3.x版本说明
EMR-5.2.x版本说明
版本说明(EMR-4.x系列)
EMR-4.10.x版本说明
EMR-4.9.x版本说明
EMR-4.8.x版本说明
EMR-4.6.x版本说明
EMR-4.5.x版本说明
EMR-4.4.x版本说明
EMR-4.3.x版本说明
版本说明(EMR-3.x系列)
EMR-3.44.x版本说明
EMR-3.43.x版本说明
EMR-3.42.x版本说明
EMR-3.40.x版本说明
EMR-3.39.x版本说明
EMR-3.38.x版本说明
EMR-3.37.x版本说明
EMR-3.36.x版本说明
EMR-3.35.x版本说明
EMR-3.34.x版本说明
EMR-3.33.x版本说明
EMR-3.32.x版本说明
EMR-3.30.x版本说明
EMR-3.29.x版本说明
EMR-3.28.x版本说明
EMR-3.27.x版本说明
EMR-3.26.x版本说明
EMR-3.25.x版本说明
EMR-3.24.x版本说明
EMR-3.23.x版本说明
EMR-3.22.x版本说明
EMR-3.22.x之前版本说明
产品计费
计费概述
计费项
计费方式
包年包月
按量计费
按量付费转包年包月
欠费说明
续费说明
退款说明
查看账单
计费常见问题
快速入门
E-MapReduce快速入门
DataWorks on EMR快速入门
集群管理指南
集群管理
集群类型
数据湖集群
数据服务集群
集群规划
选型配置说明
实例类型
ECS实例说明
Gateway实例说明
存储说明
集群容灾能力
Hive元数据说明
集群配置
创建集群
创建Gateway集群
克隆集群
管理权限
角色授权
EMR服务角色
ECS应用角色(EMR 3.32及之前版本和EMR 4.5及之前版本)
ECS应用角色(EMR 3.32之后版本和EMR 4.5之后版本)
使用自定义ECS应用角色访问同账号云资源
为RAM用户授权
开启部署集
管理用户
设置标签
使用资源组
管理安全组
管理元数据
DLF统一元数据
配置自建RDS
脚本操作
管理引导操作
手动执行脚本
查看集群列表
服务管理
新增服务
重启服务
回滚配置
配置自定义软件
访问链接与端口
管理配置项
集群运维
常用文件路径
登录集群
扩容集群
缩容集群
扩容磁盘
弹性伸缩
弹性伸缩概述
添加弹性伸缩规则
查看弹性伸缩记录
配置弹性伸缩(仅Hadoop集群类型)
开启或关闭弹性伸缩(仅Hadoop集群类型)
查看弹性伸缩记录(仅Hadoop集群类型)
开启自动补偿
管理节点组(DataLake、DataFlow、OLAP和DataServing集群)
管理节点组(Hadoop、Data science和EMR Studio集群)
管理日志
释放集群
集群监控
集群指标
HDFS指标
RSS指标
PRESTO指标
HUE指标
IMPALA指标
Flink指标
ClickHouse指标
Hive指标
STARROCKS指标
HBASE指标
YARN指标
SPARK指标
KYUUBI指标
KAFKA指标
KUDU指标
HOST指标
ZOOKEEPER指标
管理事件中心
查看服务监控指标
创建阈值报警规则
创建事件报警规则
E-MapReduce Doctor
EMR Doctor概述
开通EMR Doctor(Hadoop集群类型)
配置说明
启动实时检测与分析
查看集群日报与分析
在调度中使用EMR Doctor任务采集功能
开通并配置OSS存储分析
EMR Doctor常见问题
组件操作指南
HDFS
HDFS概述
基础使用
HDFS的部署拓扑
HDFS服务日志
HDFS组件使用的本地磁盘目录
HDFS Web UI介绍
HDFS常见命令介绍
Hadoop DistCp介绍
HDFS Balancer
HDFS高可用相关命令(HaAdmin)介绍
HDFS DiskBalancer介绍
HDFS快照(Snapshots)介绍
HDFS配额(Quotas)介绍
HaAdmin工具
高阶使用
下线DataNode
修复单台JournalNode异常
手动恢复Standby NameNode
手动进行NameNode checkpoint
开发指南
最佳实践
JVM内存调优
实时计算场景优化
HDFS使用优化
常见问题
DataNode出现Xceiver数量限制异常
写入文件提示DataXceiver Premature EOF from inputStream
写入文件提示无法满足最小写入副本要求
写入HDFS出现无法close文件的异常
JournalNode EditsLog异常导致NameNode启动失败
JournalNode出现异常
NameNode或JournalNode的editlogs目录占用较大磁盘空间
YARN
YARN概述
YARN资源配置
YARN授权
Node Labels特性使用
YARN高可用特性使用指南
YARN调度器
常见问题
Hive
Hive概述
EMR Hive功能增强
基础使用
Hive连接方式
Hive基础操作
高阶使用
使用Kerberos认证
使用LDAP认证
Hive作业调优
HiveServer2负载均衡
开发指南
自定义函数(UDF)
最佳实践
Hive访问EMR HBase数据
Hive访问EMR Phoenix数据
Hive访问Delta Lake和Hudi数据
Hive访问TableStore数据
Hive访问云HBase数据
在EMR集群运行TPC-DS Benchmark
使用Hive在EMR集群中创建OSS表
常见问题和故障诊断
常见问题
Hive作业异常排查及处理
Hive服务异常排查及处理
Hive服务内存参数调整
Hive巡检项及服务关键指标说明
Spark
Spark概述
EMR Spark功能增强
基础使用
Spark SQL、Dataset和DataFrame基础操作
Spark Shell和RDD基础操作
PySpark基础操作
开发指南
Spark对接OSS
Spark对接MaxCompute
Spark对接RocketMQ
Spark访问Table Store
Spark访问云HBase或Lindorm
Spark对接SLS
开发入门
实时Spark Streaming消费示例
离线Spark消费示例
Spark对接MNS
Spark对接HBase
Spark对接Kafka
Spark对接DataHub
Spark对接MySQL
Spark本地调试环境搭建
Spark Streaming SQL
简介
DDL概述
建表语句
SCAN语句
STREAM语句
流式查询
配置说明
作业模板(EMR-3.23.0及之后版本)
作业模板
提交作业和查看作业信息
DML概述
MERGE INTO
INSERT INTO
数据源
数据源支持概述
HBase数据源
JDBC数据源
Kafka数据源
Loghub数据源
TableStore数据源
DataHub数据源
Druid数据源
Redis数据源
查询概述
SELECT语句
WHERE语句
GROUP BY语句
JOIN语句
WATERMARK语句
UNION ALL语句
窗口函数
概述
滚动窗口
滑动窗口
内建函数
DTS_BINLOG_PARSER
高阶使用
管理LDAP认证
Spark SIMD JSON使用说明
SparkSQL合并小文件功能使用说明
最佳实践
Spark处理Delta Lake和Hudi数据
常见问题和故障诊断
常见问题
Spark服务异常排查及处理
Spark作业异常排查及处理
HBase
EMR HBase版本
使用HBase Shell
使用HBase快照
Hive访问EMR HBase数据
Spark访问EMR HBase数据
HBase HBCK2
HBase Thrift Server
HBase Replication
EMR HBase日志说明
开启HBase ACL
HBase存算一体转存算分离
HBase集成Ranger
使用OSS-HDFS作为HBase的底层存储
JindoData
JindoData概述
JindoData版本说明
版本已知问题
统一命名空间缓存加速
JindoFSx P2P分布式下载缓存
Jindo CLI支持操作JindoFSx命令
阿里云OSS/OSS-HDFS服务透明缓存加速
Apache HDFS透明缓存加速
JindoFuse支持JindoFSx
阿里云OSS-HDFS服务(JindoFS 服务)Endpoint配置
在非EMR集群中部署JindoSDK
JindoFuse使用指南
JindoFSx高可用服务配置指南
JindoDistCp使用说明
JindoDistCp常见问题
Jindo CLI使用指南
EMR集群JindoSDK升级流程(新版控制台)
EMR集群JindoData升级流程(新版控制台)
EMR集群JindoSDK升级流程(旧版控制台)
EMR集群JindoData升级流程(旧版控制台)
配置OSS/OSS-HDFS Credential Provider
按Bucket配置OSS/OSS-HDFS Credential Provider
使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS
OSS/OSS-HDFS
OSS/OSS-HDFS概述
OSS/OSS-HDFS快速入门
OSS/OSS-HDFS授权
基础使用
通过Hadoop Shell命令访问OSS/OSS-HDFS
通过Jindo CLI命令访问OSS/OSS-HDFS
通过POSIX命令访问OSS/OSS-HDFS
通过RootPolicy访问OSS-HDFS
阿里云OSS-HDFS服务(JindoFS服务)文件内容校验
阿里云OSS-HDFS(JindoFS服务)回收站使用说明
阿里云OSS-HDFS(JindoFS服务)快照使用说明
阿里云OSS-HDFS服务(JindoFS服务)元数据导出使用说明
常见问题
访问OSS/OSS-HDFS时AccessKey相关的常见问题
EMR集群不支持跨区域访问OSS问题
访问OSS出现InvalidArgument Part number问题
访问OSS出现AccessDenied问题
访问OSS出现CopyNotExcecuted问题
JindoSDK访问OSS出现Reached timeout问题
JindoSDK访问OSS出现NoSuchUpload问题
StarRocks
StarRocks概述
创建StarRocks集群
快速入门
数据导入
导入概述
Broker Load
Spark Load
Stream Load
Routine Load
Insert Into
DataX Writer
Flink Connector
数据分析
Catalog概述
数据湖分析
Hive数据源
Iceberg数据源
Hudi数据源
使用DLF元数据
查询OSS数据
内表分析
内表数据源
性能测试
TPC-H Benchmark性能测试
运维管理
UI和端口
用户和权限管理
内存管理
参数配置
资源隔离
使用CLB实现负载均衡
查看服务监控和节点状态
使用StarRocks Console
扩缩容StarRocks
最佳实践
数仓场景:即席查询
数仓场景:增量数据实时统计
数仓场景:分钟级准实时分析
使用Flink CDC实现MySQL至StarRocks的数据同步
使用CTAS语句同步MySQL数据至StarRocks
使用阿里云实时计算Flink实现MySQL至StarRocks的数据同步
基于实时计算Flink使用CTAS&CDAS功能同步MySQL数据至StarRocks
常见问题
ClickHouse
ClickHouse概述
快速入门
创建ClickHouse集群
访问模式
快速使用ClickHouse
数据导入
从Spark导入数据至ClickHouse
从Flink导入数据至ClickHouse
从HDFS导入数据至ClickHouse
从OSS导入数据至ClickHouse
从RDS导入数据至ClickHouse
从Kafka导入数据至ClickHouse
ClickHouse运维
日志配置说明
系统表说明
监控
配置项说明
访问权限控制
扩容ClickHouse集群
缩容磁盘
扩容磁盘
冷热分离
使用HDFS进行数据冷热分离
使用OSS进行数据冷热分离
事务使用
常见问题
Kyuubi
Kyuubi概述
基础使用
连接Kyuubi
高阶使用
Kyuubi计算引擎管理
Doris
Doris概述
创建Doris集群
快速入门
数据导入
导入概述
Stream Load
Broker Load
Routine Load
Insert Into
Spark Load
JSON格式导入
运维管理
监控指标
BE参数配置
FE参数配置
多租户和资源划分
DLF-Auth
OpenLDAP
Sqoop
Sqoop概述
Sqoop常见问题
Knox
Tez
Livy
Phoenix
RSS
Hudi
Hudi概述
基础使用
高阶使用
Hudi与Spark SQL集成
Hudi MetaStore使用说明
通过数据湖元数据DLF读写Hudi
开发指南
DDL语句
DML语句
设置Hudi参数
常见问题
Impala
Impala概述
连接Impala
管理LDAP认证
Impala Web UI
常见问题
Zookeeper
概述
基础使用
常见问题
Flink
概述
基础使用
开发指南
Flink SQL参考
Flink DataStream参考
Flink Python参考
作业迁移
迁移方案
最佳实践
DataFlow集群通过Hive Catalog连接数据湖元数据DLF
使用Flink将Kafka数据流式写入阿里云OSS
常见问题
Kafka
概述
基础使用
集群资源规格评估建议
快速开始使用EMR Kafka
创建DataFlow Kafka集群
EMR Kafka配置说明
通过公网访问Kafka
使用SSL加密Kafka链接
使用SASL登录认证Kafka服务
高阶使用
Kafka Rebalancer工具介绍
使用Cruise Control
Kafka运维
EMR Kafka磁盘故障运维
EMR Kafka磁盘写满运维
EMR Kafka ECS磁盘事件处理
限制Kafka服务端运维流量
如何排查EMR Kafka服务异常
最佳实践
使用MirrorMaker 2(Dedicated)跨集群同步数据
使用MirrorMaker 2(on Connect)跨集群同步数据
手动集成Ranger Kafka插件
Kafka常见问题
Kafka Manager
Trino
Trino概述
基础使用
通过命令方式访问Trino
使用JDBC
使用独立的Trino集群
Trino扩缩容
Trino集群选型与内存配置建议
常用连接器
高阶使用
管理LDAP认证
动态加载UDF
常见问题
Flume
概述
高阶使用
开发指南
安装第三方插件
自定义Source
自定义Sink
常用参数调优
最佳实践
同步HDFS Audit日志至HDFS
同步EMR Kafka数据至HDFS
同步EMR Kafka数据至Hive
同步EMR Kafka数据至HBase
同步EMR Kafka数据至OSS
同步EMR Kafka数据至OSS-HDFS
同步LogHub数据至HDFS
常见问题
Hue
使用说明
基础使用
添加配置
管理用户
调整YARN队列
高阶使用
Hue对接LDAP
Hue连接开启LDAP认证的引擎
管理LDAP认证
实现Hue多实例负载均衡
在DataLake集群自建Hue组件
最佳实践
配置Hue访问Presto服务
在Hue WebUI使用HBase服务
在Hue WebUI使用文件浏览器
在Hue WebUI使用编辑器
Iceberg
Iceberg概述
基础使用
开发指南
Spark批式读写Iceberg
Spark流式写入Iceberg
Hive访问Iceberg数据
数据湖元数据配置
Kudu
概述
基础使用
常见命令
Impala集成Kudu
开发指南
操作表
最佳实践
数据迁移
常见问题
Ranger
Ranger概述
组件集成
配置HDFS集成Ranger
配置Hive开启Ranger权限控制
配置Spark开启Ranger权限控制
高阶功能
配置Ranger UserSync集成LDAP
Hive数据脱敏
Hive数据按行过滤
查看Ranger日记审计信息
Security Zone功能
Kerberos
Kerberos概述
基础使用
Kerberos基础使用
高阶使用
EMR对接外部KDC
跨域互信
Oozie
Superset
Druid
概述
使用Druid
数据格式描述文件
Kafka Indexing Service
SLS Indexing Service
常见问题
ESS
SmartData
概述
JindoFS介绍和使用
SmartData 3.8.x
JindoFS Block模式
Block模式使用说明
使用RocksDB作为元数据后端
访问JindoFS Web UI
使用Raft-RocksDB-Tablestore作为存储后端
AuditLog使用说明
权限功能
文件元数据离线分析
数据管理策略
JindoFS Credential Provider使用说明
JindoFS Block模式加密使用说明
SmartData 3.8.x版本简介
JindoFS Cache模式
Cache模式使用说明
使用JindoFS SDK免密功能
AuditLog使用说明
Jindo Job Committer使用说明
JindoFS OSS Credential Provider使用说明
访问JindoFS Web UI
权限功能
JindoTable
开启native查询加速
JindoTable使用说明
JindoTable SDK模式归档和解冻命令介绍
JindoTable MoveTo命令介绍
JindoTable表或分区访问热度收集
JindoTable表或分区访问冷度收集
工具集
Jindo sql命令介绍
FUSE使用说明
Jindo DistCp使用说明
Jindo DistCp场景化使用指导
分层存储命令使用说明
SmartData 3.7.x
SmartData 3.7.x版本简介
JindoFS Block模式
Block模式使用说明
使用RocksDB作为元数据后端
使用Raft-RocksDB-Tablestore作为存储后端
AuditLog使用说明
访问JindoFS Web UI
权限功能
数据管理策略
文件元数据离线分析
JindoFS Credential Provider使用说明
JindoFS Block模式加密使用说明
JindoFS Cache模式
Cache模式使用说明
使用JindoFS SDK免密功能
AuditLog使用说明
Jindo Job Committer使用说明
JindoFS OSS Credential Provider使用说明
访问JindoFS Web UI
权限功能
JindoTable
开启native查询加速
JindoTable使用说明
JindoTable SDK模式归档和解冻命令介绍
JindoTable MoveTo命令介绍
JindoTable表或分区访问热度收集
JindoTable表或分区访问冷度收集
工具集
Jindo sql命令介绍
FUSE使用说明
Jindo DistCp使用说明
Jindo DistCp场景化使用指导
分层存储命令使用说明
SmartData 3.6.x
SmartData 3.6.x版本简介
JindoFS Block模式
Block模式使用说明
使用RocksDB作为元数据后端
使用Raft-RocksDB-Tablestore作为存储后端
访问JindoFS Web UI
AuditLog使用说明
文件元数据离线分析
权限功能
数据管理策略
JindoFS Credential Provider使用说明
JindoFS Block模式加密使用说明
JindoFS Cache模式
Cache模式使用说明
使用JindoFS SDK免密功能
AuditLog使用说明
访问JindoFS Web UI
Jindo Job Committer使用说明
JindoFS OSS Credential Provider使用说明
权限功能
JindoTable
开启native查询加速
JindoTable使用说明
JindoTable SDK模式归档和解冻命令介绍
JindoTable MoveTo命令介绍
JindoTable表或分区访问热度收集
JindoTable表或分区访问冷度收集
工具集
Jindo sql命令介绍
FUSE使用说明
Jindo DistCp使用说明
Jindo DistCp场景化使用指导
分层存储命令使用说明
SmartData 3.5.x
SmartData 3.5.x版本简介
JindoFS Block模式
Block模式使用说明
使用RocksDB作为元数据后端
使用Raft-RocksDB-Tablestore作为存储后端
AuditLog使用说明
访问JindoFS Web UI
文件元数据离线分析
权限功能
数据管理策略
JindoFS Credential Provider使用说明
JindoFS Block模式加密使用说明
JindoFS Cache模式
Cache模式使用说明
使用JindoFS SDK免密功能
AuditLog使用说明
访问JindoFS Web UI
Jindo Job Committer使用说明
JindoFS OSS Credential Provider使用说明
权限功能
JindoTable
开启native查询加速
JindoCube使用说明
JindoTable使用说明
JindoTable表或分区访问热度收集
JindoTable表或分区访问冷度收集
工具集
FUSE使用说明
Jindo DistCp使用说明
Jindo DistCp场景化使用指导
分层存储命令使用说明
SmartData 3.4.x
SmartData 3.4.x版本简介
JindoFS Block模式
Block模式使用说明
使用RocksDB作为元数据后端
使用Raft-RocksDB-Tablestore作为存储后端
AuditLog使用说明
访问JindoFS Web UI
权限功能
数据管理策略
文件元数据离线分析
JindoFS Credential Provider使用说明
JindoFS Block模式加密使用说明
JindoFS Cache模式
Cache模式使用说明
使用JindoFS SDK免密功能
AuditLog使用说明
Jindo Job Committer使用说明
JindoFS OSS Credential Provider使用说明
访问JindoFS Web UI
权限功能
JindoTable
开启ORC查询加速
JindoTable使用说明
JindoCube使用说明
JindoTable表或分区访问热度收集
工具集
FUSE使用说明
Jindo DistCp使用说明
Jindo DistCp场景化使用指导
分层存储命令使用说明
SmartData 3.2.x
SmartData 3.2.x版本简介
JindoFS Block模式
Block模式使用说明
使用RocksDB作为元数据后端
使用Raft-RocksDB-Tablestore作为存储后端
AuditLog使用说明
访问JindoFS Web UI
权限功能
数据管理策略
文件元数据离线分析
JindoFS Cache模式
Cache模式使用说明
使用JindoFS SDK免密功能
AuditLog使用说明
Jindo Job Committer使用说明
Credential Provider使用说明
访问JindoFS Web UI
权限功能
JindoTable
开启ORC查询加速
JindoTable使用说明
JindoCube使用说明
JindoTable表或分区访问热度收集
工具集
FUSE使用说明
Jindo DistCp使用说明
Jindo DistCp场景化使用指导
分层存储命令使用说明
SmartData 3.1.x
SmartData 3.1.x版本简介
JindoFS Block模式
Block模式使用说明
使用RocksDB作为元数据后端
使用Raft-RocksDB-Tablestore作为存储后端
AuditLog使用说明
访问JindoFS Web UI
权限功能
数据管理策略
文件元数据离线分析
JindoFS Cache模式
Cache模式使用说明
使用JindoFS SDK免密功能
AuditLog使用说明
Jindo Job Committer使用说明
Credential Provider使用说明
访问JindoFS Web UI
权限功能
JindoTable
JindoTable使用说明
JindoTable表或分区的访问热度收集
JindoCube使用说明
工具集
FUSE使用说明
Jindo DistCp使用说明
Jindo DistCp场景化使用指导
分层存储命令使用说明
SmartData 3.0.x
SmartData 3.0.x版本简介
JindoFS Block模式
Block模式使用说明
访问JindoFS Web UI
使用RocksDB作为元数据后端
使用Raft-RocksDB-Tablestore作为存储后端
权限功能
AuditLog使用说明
文件元数据离线分析
JindoFS Cache模式
访问JindoFS Web UI
JindoFS缓存模式使用说明
使用JindoFS SDK免密功能
权限功能
Jindo Job Committer使用说明
AuditLog使用说明
Credential Provider使用说明
JindoTable
JindoTable使用说明
JindoCube使用说明
工具集
JindoFS FUSE使用说明
分层存储命令使用说明
Jindo DistCp使用说明
Jindo DistCp场景化使用指导
SmartData 2.7.3-2.7.4
JindoFS Block模式
Block模式使用说明
使用Tablestore作为存储后端
使用RocksDB作为元数据后端
使用Raft-RocksDB-Tablestore作为存储后端
JindoFS权限功能
Jindo AuditLog使用说明
JindoFS Cache模式
JindoFS缓存模式使用说明
使用JindoFS SDK免密功能
Jindo Job Committer使用说明
JindoFS权限功能
Jindo AuditLog使用说明
JindoTable
JindoCube使用说明
工具集
Jindo DistCp使用说明
FUSE使用说明
SmartData 2.6.0-2.7.2
SmartData 2.6.0-2.7.2版本简介
JindoFS Block模式
JindoFS块存储模式使用说明
使用Tablestore作为存储后端
使用RocksDB作为元数据后端
使用Raft-RocksDB-Tablestore作为存储后端
JindoFS权限功能
JindoFS Cache模式
JindoFS缓存模式使用说明
JindoFS权限功能
Jindo Job Committer使用说明
JindoTable
JindoCube使用说明
工具集
Jindo DistCp使用说明
SmartData 2.2.x及之前版本
SmartData使用说明(EMR-3.20.0~3.22.0版本)
SmartData使用说明(EMR-3.22.0~3.25.1版本)
使用JindoFS SDK免密功能
JindoFS块存储模式
JindoFS缓存模式
JindoFS外部客户端
最佳实践
迁移Hadoop文件系统数据至JindoFS
使用MapReduce处理JindoFS上的数据
使用Hive查询JindoFS上的数据
使用Spark处理JindoFS上的数据
使用Flink处理JindoFS上的数据
基于JindoFS存储YARN MR或SPARK作业日志
使用Impala或Presto查询JindoFS上的数据
将Kafka数据导入JindoFS
使用JindoFS作为HBase的底层存储
跨集群访问JindoFS
改写Jindo HDFS客户端路径
支持Flink可恢复性写入JindoFS或OSS
使用Flume写入JindoFS
SmartData常见问题
DeltaLake
Delta Lake概述
基础使用
高阶使用
访问Delta表数据
开发指南
Delta Lake参数
批式读写
管理数据
流式读写
最佳实践
场景一:流式入库
场景二:数据同步
场景三:冷热分层
场景四:Slowly Changing Dimension
常见问题
Alluxio
概述
基础使用
常见命令
高阶使用
管理员常见命令
管理缓存
设置权限
常见问题
TensorFlow
GKS
Kubeflow
基于Kubeflow的Training示例
基于Kubeflow或Seldon的在线服务
Kubeflow MLPipeline示例
转换自定义DAG为Pipeline
配置钉钉机器人接收Kubeflow报警
PairecEngine
PAI-Rec使用示例
EasyRec
使用EasyRec读取Hive表
读取MaxCompute训练EasyRec模型
集群管理和开发指南(旧版控制台)
集群管理
集群类型
集群规划
选型配置说明
实例类型
Gateway实例说明
ECS实例说明
存储说明
集群容灾能力
EMR Hive元数据介绍与对比
集群配置
创建集群
创建Gateway集群
管理权限
角色授权
ECS应用角色(EMR 3.32及之前版本和EMR 4.5及之前版本)
EMR服务角色
ECS应用角色(EMR 3.32之后版本和EMR 4.5之后版本)
使用自定义ECS应用角色访问同账号云资源
为RAM用户授权
管理用户
设置标签
使用资源组
管理安全组
管理元数据
数据湖元数据
配置独立RDS
管理引导操作
集群脚本
集群服务管理页面
管理集群资源
集群资源概述
Capacity Scheduler使用说明
Fair Scheduler使用说明
查看集群列表与详情
服务管理
查看服务信息
添加服务
重启服务
回滚配置
配置自定义软件
管理组件参数
访问Web UI
访问链接与端口
通过SSH隧道方式访问开源组件Web UI
查看组件部署信息
集群运维
常用文件路径
扩容集群
登录集群
配置弹性伸缩
弹性伸缩概述
新建弹性伸缩机器组
按时间伸缩规则配置
管理弹性伸缩
按负载伸缩规则配置
查看弹性伸缩记录
设置弹性伸缩监控告警
缩容集群
新增机器组
扩容磁盘
移除异常节点
升级节点配置
状态表
集群运维指南
更换Hadoop集群损坏的本地盘
释放集群
节点下线
集群管理常见问题
元数据管理(旧版功能)
Hive元数据管理
Hive统一元数据
Hive元数据基本操作
Hive元数据迁移
从统一元数据库迁出到用户自建的RDS实例
Kafka元数据管理
元数据管理常见问题
监控大盘(旧版)
概览
集群指标
概述
HOST指标
HDFS指标
YARN指标
Hive指标
ZooKeeper指标
Kafka指标
Impala指标
HUE指标
Kudu指标
ClickHouse指标
Flink指标
作业列表
事件中心
日志中心
集群告警
创建阈值报警规则
创建事件报警规则
数据开发工作台(已停止更新)
概述
项目管理
作业编辑
工作流编辑
临时查询
运维中心
创建集群模板
云监控事件编码
作业配置
作业日期设置
Shell作业配置
Hive作业配置
Hive SQL作业配置
Spark作业配置
Spark SQL作业配置
Spark Shell作业配置
Spark Streaming作业配置
Hadoop MapReduce作业配置
Sqoop作业配置
Pig作业配置
Flink(VVR)作业配置
Streaming SQL作业配置
Presto SQL作业配置
Impala SQL作业配置
数据开发常见问题
EMR Studio(已不支持新购)
EMR Studio概述
创建EMR Studio集群
快速入门
Airflow
基础使用
管理DAG
Airflow常用配置说明
配置Airflow报警事件
代码示例
最佳实践
定期调度Zeppelin中的作业
定期调度Jupyter中的作业
动态启动计算集群运行工作流调度
常见问题
Zeppelin
Zeppelin概述
交互式开发教程
Flink
Hive
Spark
Presto
Shell
TPCH和TPCDS
Zeppelin常见问题
JupyterHub
管理JupyterHub
使用Python3 Kernel运行EMR PySpark
数据开发指南
准备
开发准备
OSS参考使用说明
示例项目使用说明
Python使用说明
Hadoop
参数说明
MapReduce开发手册
Hive开发手册
Pig开发手册
Hadoop Streaming
HBase
访问HBase
备份HBase集群
使用OSS作为HBase的底层存储
组件操作指南
HDFS
高阶使用
开启权限认证
HDFS授权
常见问题
Ranger
组件集成
Presto配置
Impala配置
YARN配置
JindoFS配置
JindoFS OSS配置
高阶功能
Ranger Admin集成LDAP
管理LDAP认证
Kerberos
概述
EMR对接外部的MIT Kerberos
兼容MIT Kerberos认证
跨域互信
RAM认证
数据开发认证
EMR on ACK
EMR on ACK概述
准备工作
角色授权
快速入门
集群管理
资源管理
查看集群信息
释放集群
服务管理
重启服务
访问Web UI
管理配置项
作业管理
查看作业列表
组件操作指南
Presto
配置hosts
配置连接器
使用Hive连接器读取DLF数据表
使用日志服务收集Presto作业日志
作业管理
使用CLI提交Presto作业
使用JDBC提交Presto作业
使用Python Client提交Presto作业
Spark
提交Spark作业
使用kubectl管理作业
使用日志服务收集Spark作业日志
为Spark集群关联RSS
为Spark集群设置元数据
使用ECI弹性调度Spark作业
使用JindoFS加速OSS文件访问
配置并查看Spark作业监控与报警
Flink
提交Flink作业
查看Flink作业日志和访问Flink Web UI
使用日志服务收集Flink作业日志
使用ECI弹性调度Flink作业
配置并查看Flink作业监控与报警
使用OSS存储Checkpoint和Savepoint
EMR Serverless(公测)
产品简介
什么是EMR Serverless StarRocks
产品架构
典型应用场景
基本概念
使用限制
快速入门
快速使用EMR Serverless StarRocks
快速使用EMR StarRocks Manager
快速使用EMR Notebook连接StarRocks实例
实例管理
创建实例
查看实例列表与详情
实例状态表
实例监控
查看监控报表
配置监控告警
监控指标说明
实例配置
查询配置信息
修改配置信息
查看修改历史
StarRocks Manager
管理连接
元数据管理
查看元数据
安全与权限
管理用户
管理数据授权
诊断与分析
性能测试
TPC-H性能测试说明
API参考
新版API
API概览
服务接入点
授权信息
API目录
集群
CreateCluster - 创建集群
GetCluster - 获取集群
ListClusters - 查询集群
DeleteCluster - 删除集群
节点组
ListNodeGroups - 查询节点组
GetNodeGroup - 获取节点组
IncreaseNodes - 扩容
DecreaseNodes - 缩容
ListNodes - 查询节点
操作
GetOperation - 获取操作
资源组
JoinResourceGroup - 加入资源组
标签
TagResources - 打标签
UntagResources - 删标签
ListTagResources - 查询标签
数据结构
Application
ApplicationConfig
Cluster
ClusterStateChangeReason
ClusterSummary
CostOptimizedConfig
DataDisk
Node
NodeAttributes
NodeGroup
NodeGroupConfig
NodeGroupStateChangeReason
NodeSelector
Operation
OperationStateChangeReason
Script
SpotBidPrice
StateChangeReason
SubscriptionConfig
SystemDisk
Tag
版本说明
旧版API(即将停止维护)
API概览
调用说明
请求结构
公共参数
签名机制
返回结果
集群
创建集群
创建集群模板
通过模版创建集群
删除集群模版
查询集群模版详情
查询集群基本信息
查询集群信息
查询集群主机列表
查询集群列表
查询集群模版列表
查询服务的快捷链接
查询集群机器组列表
查询可用集群信息列表
查询可用资源
修改集群模版
查看EMR版本信息
修改集群名称
释放集群
集群扩容
加入资源组
集群缩容
集群服务
添加服务
查看集群操作日志
查询服务信息
查询服务配置详情
查询集群服务配置标签
查询组件列表
查询集群的操作历史列表
查询操作历史的主机列表
查看指定主机的任务列表
查询集群已安装服务列表
查询指定主机的任务列表
查看集群支持的服务列表
查询集群的服务列表
查看健康信息列表
查询服务配置的修改历史
修改集群指定服务的配置信息
运行指定操作
弹性伸缩
创建伸缩组
新建弹性伸缩配置项
修改伸缩组
修改伸缩配置项
查看伸缩组
查看伸缩配置项
查看伸缩活动
查询伸缩配置项详情
查看伸缩组实例详情
查询伸缩组详情
操作伸缩组实例
删除弹性伸缩配置项
资源管理
创建资源池
创建资源队列
删除指定资源池
删除资源队列
查询资源池列表
更新资源池
修改资源池调度类型
修改资源队列
同步资源池并配置到集群
查看资源池策略类型
标签
创建并绑定标签
查询标签列表
解绑标签
数据开发
克隆作业
创建作业
创建工作流
克隆工作流
创建数据开发项目
创建工作流目录文件夹
创建项目集群设置
添加项目用户
删除工作流
删除工作流目录
删除作业
删除数据开发项目
删除项目集群设置
删除项目用户
查询工作流信息
查询目录信息
获取目录树
获取工作流实例信息
查询作业信息
查询节点实例详情
查询节点实例容器日志
查询项目详情
查询节点实例启动器日志
查询项目设置详情
停止作业实例
查询工作流列表
查询项目中可用的集群列表
获取提交代理节点列表
查询数据开发中可用的集群列表
查询可提交作业的客户端列表
查询工作流实例列表
查询作业列表
查询作业运行实例列表
查询工作流节点实例列表
查询节点实例的容器状态详情
查询节点实例SQL结果
查询项目列表
查询项目集群设置列表
查询项目用户信息
修改工作流
查询工作流目录
修改项目集群设置
重命名目录
修改图形信息的工作流
修改数据开发项目
修改作业
重试工作流
恢复工作流
提交运行工作流
提交运行作业
暂停工作流
常用API教程
创建集群
扩容集群
修改集群配置
管理项目
编辑作业
运行工作流
SDK参考(旧版)
SDK概述
Java SDK
SDK下载
初始化
示例项目
样例代码
Python SDK
安装SDK
样例代码
最佳实践
集群管理
手工缩容节点组
通过SSH隧道方式访问开源组件Web UI
数据分析
E-MapReduce本地盘实例大规模数据集测试
E-MapReduce弹性低成本离线大数据分析
SparkSQL自适应执行
在EMR Hive或Spark中访问OSS-HDFS
使用EMR-CLI自定义部署Gateway环境
数据迁移和同步
EMR元数据迁移到数据湖构建(DLF)
从HDFS迁移数据到OSS/OSS-HDFS
通过Presto查询RDS MySQL数据库
使用E-MapReduce采集Kafka客户端Metrics数据
E-MapReduce数据迁移方案
通过Flink作业处理OSS数据
使用E-MapReduce Hive关联云HBase
使用E-MapReduce进行MySQL Binlog日志准实时传输
Gateway节点运行Flume进行数据同步
在EMR上使用Sqoop与数据库同步数据时的网络配置
通过Spark Streaming作业处理Kafka数据
自建Hadoop数据迁移到阿里云E-MapReduce
自建Hive数据仓库迁移到阿里云E-MapReduce
通过PyFlink作业处理Kafka数据
使用JindoTable将Hive表和分区数据迁移至OSS/OSS-HDFS
使用JindoDistCp工具迁移第三方云对象存储数据到OSS/OSS-HDFS
视频专区
JindoFS实战演示
常见问题
相关协议
E-MapReduce服务等级协议(SLA)
DataHub
隐私增强计算
实时数仓Hologres
数据湖构建
流数据服务 Confluent
实时计算Flink版
Quick BI
DataV-Card可视分析创作间
数据资源平台
检索分析服务Elasticsearch版
首页
开源大数据平台E-MapReduce