Q: E-MapReduce 按量高配节点问题

按量的 8 核以及 8 核以上的机器默认是不展示的,您可以去 ECS 申请开通 ECS 的高配节点,然后就能在 EMR 这里使用了。推荐您使用包年包月集群,不受高配的限制。

Q: 高安全集群

创建集群的时候的高安全集群,指的是 Kerberos。具体请参见官方文档 Kerberos 简介。 如果用户创建了这个类型的集群,低版本还不能支持直接关闭。 3.12 以及后续的版本可以支持关闭,之前的版本目前只能重新创建。

Q: 创建大数据机型(D1)的问题

默认情况下,您在 EMR 上是无法看到和创建大数据机型(D1)的集群的,如果您需要使用,请提工单联系我们开通,因为需要到 ECS 开通一些权限,所以需要一定的时间。

Q: 创建集群失败,构建失败 "The specified instance Type exceeds the maximum limit for the PostPaid instances. "

通常是用户的按量节点数量的上限到了。ECS 根据不同用户,按量节点上限是不一样的,需要用户去申请加大。如果确认不是上述的原因,还有一种可能是用户是没有创建的机型的权限,需要去 ECS 开通这个机型的使用权限。

Q:集群续费问题

续费操作请参考集群续费。经常会有用户反馈续费了但是还是会通知说没有续费。这是因为 EMR 现在有 2 块,一块是 EMR,一块是 ECS,大部分的用户都只是续费了 ECS 而没有续费 EMR。您可以打开续费界面查看 ECS 和 EMR 到期时间。

Q:自动续费

EMR 支持自动续费操作,支持 EMR 和 ECS 的自动续费。

Q:已有/现存 ECS 是否可以用到 EMR 集群中

目前还不能支持,用户要创建 EMR 集群需要在 EMR 控制台上来创建 ECS。

Q:E-Mapreduce 主节点不允许安装其它软件?

理论上可以在不破坏集群环境的前提下安装。但是这些软件的运行可能会影响到集群的稳定可靠性,不建议进行此类操作。

Q:如何登陆 Core 节点,并进行 root 权限操作

请参考文档创建集群登录 Core 节点部分

Q:E-MapReduce 集群 header 节点有公网 IP,存在安全风险,是否可以通过 ECS 控制台关闭公网 IP,关闭公网 IP 是否会对 E-MapReduce 服务产生影响?

如果您没有使用 EMR 的统一元数据库功能,可以关闭公网 IP。

Q:各个节点之上的服务开机会自动启动吗?服务挂掉也会自动重启吗

会自动启动。服务挂掉会自动恢复,但是如果启动有错误导致无法启动,会重试 3 次。

Q:开源组件的访问问题

目前新的集群都是用 knox 的方式访问。参考文档访问链接与端口, 另外有一些场景,要确认集群的公网 IP 存在,有可能用户释放了公网 IP,或者是其他的原因,也会导致无法访问。可以确认域名确实可以解析,telnet 域名 8443 的方式来确认。

Q:子账号需要什么权限才能操作EMR

首先主账号必须有 EMRdefaultRole 和 ECSdefaultRole 权限策略 否则子账号也开通不了EMR 服务。然后子账号必须有EMRfullaccessrole 权限策略才能操作EMR。

Q:HUE相关问题

HUE 的默认初始用户和密码,参考Hue 使用说明。如果忘记了用户名和密码,也请参考上面的文档进行操作。Hue 无法访问 HDFS, Hue 如果出现无法访问 WebHDFS 的情况是因为 HDFS 的 dfs.webhdfs.enabled 的值为 false, 在 EMR 控制台上设置这个参数为 true, 重启一下 HDFS 就好了。

Q:E-Mapreduce 服务,Zeppelin 默认可以匿名访问,请问想关闭匿名访问要怎么操作?E-Mapreduce 中的 Zeppelin 配置管理页面没有配置选项,要修改 master 节点上的配置文件吗?

需要手动修改配置,并重启 Zeppelin,可以参考 Apache Zeppelin 设置访问登录

Q:用 thrift 连接 Hbase,程序中用端口号 9090 连接不上,请问 thrift 的 Hbase 端口号用多少?

使用 9099 端口。

Q:在控制台的表管理里面新建了新的数据库,创建成功后刷新页面,库不见了,但是在 Zeeplin 中使用 show databases 命令查看可以看我们新建的库,请问这是什么原因?(在Hive 命令行中可以看到新建的库)

目前和这个功能主要是配合,统一 meta 数据库使用,才能在页面上看到库和表,如果没有选择,无法使用界面上的查看库和表,直接 Hue 建库建表或者登录集群使用 hive cli 操作。 目前已经创建的集群列表页不支持查看 Hvie 算数据存储的方式,可以通过以下方式来确认:登录 header 1 查看 /etc/ecm/hive-conf/hive-site.xml 文件,确认一下 javax.jdo.option.ConnectionURL 这个配置的值,如果配置的是 emr-header-1,那说明就是没有选择统一 meta 元数据。

Q:E-MapReduce 是否支持竞价实例?

目前还不能支持,后续会进行支持。

Q:创建集群时是选择了统一meta库的,不能执行 Hive,错误信息如下:FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

通常是集群没有公网 EIP 导致的,统一 meta 是需要公网 IP 的,用户的 EIP 满了,导致创建集群的时候没有创建出来,然后就无法连接上。用户需要手工绑定,然后通知我们给这个 EIP 加到数据库的安全组中。

Q:关于低配节点

低配节点指的是 2c8g 的配置的节点,可以给部分用户开白名单使用,但是需要说明的是出问题的概率很高,用户需要自己解决。

Q:Master 节点没有可用的机型

用户在该可用区没有可选的 master 机型,可以切换可用区。

Q:E-MapReduce 如何让其他的 ECS 机器提交任务,并获取任务结果?

可以使用 Gateway 功能,请参考文档 Gateway 实例,直接在 EMR 控制台上购买 Gateway。

Q:E-MapReduce 磁盘如何进行扩容?

请参考文档磁盘扩容,很快在控制台上会支持磁盘的扩容。

Q:已建集群如果没有配置 OSS 运行日志,后期可以变更配置吗?

目前不支持。推荐使用新版工作流上去,就不需要这个设置了。可以直接查看日志。

Q:使用 E-MapReduce 的服务搭建集群使用Zookeeper,Kafka,Storm, 然后购买阿里云 Hbase 服务,双方能数据会连接吗 ?

可以连接的。请使用专有网络,E-MapReduce 集群和 HBase 集群需要置于同一个 VPC 下。且打开了 HBase 的白名单,使 EMR 集群可以访问到 HBase。

Q:E-MapReduce 集群如何减少 Core 和 Task 节点?将现有集群 4 个 Core 和 2 个 Task 节点变为只有 2 个Core节点可以实现吗?

Core 节点目前不支持减少,如果您需要缩容,可以通过提交 ECS 工单的方式来退掉集群中的 ECS 节点。部分有 ZK 服务的节点,退节点的时候按照 worker 的编号,从后往前退,例如 worker1,worker2,worker3,worker4,那么在退的时候就按照4->3->2 这样的顺序。包月的 Core 和 Task 节点目前都无法支持控制台上缩容。按量的 Task 节点目前可以直接在控制台上进行缩容。

Q:E-MapReduce 退款操作

您如需申请退款,请提工单联系 EMR 产品团队,我们想要知道您退款的原因。

Q:E-MapReduce 和 MaxCompute 的区别

两者的使用场景差异不大,都是大数据处理解决方案。E-MapReduce 是完全在开源的基础上构建的大数据平台,对开源软件的使用方式和实践方式都 100% 兼容的。MaxCompute 是由阿里巴巴开发的,对外不开源,但是封装后使用起来比较方便,而且运维成本也较低。E-MapReduce 是基于开源的 Hadoop 体系做的产品 。如果您的开发人员有比较多的 Hadoop 经验的话,可以直接使用。而用 MaxCompute 的话,需要对代码做一些修改,但修改量并不大 。

Q:E-MapReduce 集群的 mysql 密码是什么?

可以直接在集群的配置管理,单击 Hive 服务进入,然后单击配置查看
javax.jdo.option.ConnectionURL
javax.jdo.option.ConnectionUserName
javax.jdo.option.ConnectionPassword

Q:购买了 E-mapreduce 3.x 版本,在 Zeppelin 中运行 Spark 例子时,提示“Spark 2.2.1 is not supported”,经确认 Zeppelin 0.71 确实不支持 Spark 2.2,请问这种情况要怎么处理?

旧版本中会有这个问题。目前在 3.11 以及以后的版本中已经解决了这个问题,Zeppelin 升级到了 0.73。

Q:之前购买了一套 E-MapReduce,版本是3.4.3的,现在要购买另一套,为什么选不到3.4.3版本了?

对于这种有老版本的需求用户,看看需要的是什么软件的版本,比如 Hive,或者Spark,可以引导到新的版本上。如果不能引导,可以联系开发团队来开启白名单使用老版本。

Q:存储会自动负载均衡还是需要手动均衡? 如果需要手动均衡在哪里操作?

需要手动均衡,在控制台 > 配置管理 > 集群与服务管理 > HDFS 服务,单击操作 选择 REBLANCE HDFS

Q:E-MapReduce 可以减配置(降低配置)吗,例如 Master 或者 Core、Task 节点由 16CPU/32G 内存减为 8CPU16G 内存?

目前还不能支持。

Q:" The specified DataDisk Size beyond the permitted range, or the capacity of snapshot exceeds the size limit of the specified disk category"

通过 SDK/API 的方式创建的集群,磁盘参数设置的太小了,建议您调整到40G以上重试就可以了。

Q:" User real name authenticate failed! "

用户的账号没有完成实名认证。到阿里云上完成即可。或者找 CBM 协助打标。EMR 部分也会有这个实名认证,可以工单联系 EMR 产品团队完成认证。

Q:"Your account does not have enough balance"

用户的账号余额不足。

Q:"The maximum number of Pay-As-You-Go instances is exceeded: create ecs vcpu quota per region limited by user quota [xxx]."

您的按量 ECS 使用量达到上限,需要到 ECS 申请提高上限,或者是释放部分按量 ECS 才能继续创建 EMR。

Q:使用 Flume 推送数据到 Hadoop 配置的 OSS 中, 但是发现 EMR 集群没有 Flume 程序, 请问如何集成?

目前 EMR 还不没有集成 Flume,可以先自己安装使用。

Q:Spark 提交任务是否可以使用 standlone 模式?

目前在 EMR 中默认使用 Spark on Yarn 模式,还不支持 standlone 模式。

Q:软件配置上没有自定义的选项

因为早期的版本还不支持该功能,需要后台来补充升级。如果您需要修改软件配置,且老版本还无法支持的情况下,可以采用如下的方式:
  1. 登陆到集群的 Master 节点上
  2. 前往配置模板的目录
    cd /var/lib/ecm-agent/cache/ecm/service/A
  3. 找到对应服务的目录,例如这里是 Hue,那就进入到 Hue 的目录
  4. 选择对应的版本,例如 /var/lib/ecm-agent/cache/ecm/service/HUE/4.1.0.1.3
  5. 进入 /package/templates/ 目录会看到对应的配置文件
  6. 添加您需要的配置就可以了,添加配置分为两种情况:
    • 配置是新增,那么需要按照格式来添加,注意不要写错换行,空格等;
    • 配置本身存在,直接打开注释,或者是修改参数值即可;
  7. 修改完成以后,在 EMR 控制台界面上,选择重启服务生效。
  8. 最后可以确认,在实际的配置目录 /etc/ecm/ 服务名 -conf/ 对应的文件内容已经被修改。