本文为您介绍创建DataFlow Kafka集群(选择了Kafka服务)的详细操作步骤和相关配置。

注意事项

创建DataFlow Kafka集群前,您需要根据业务的预估负载,选择合适的ECS实例机型以及Broker实例个数。由于业务场景差异很大,所以无法给出通用的集群规划,您需要根据您的实际环境创建集群。通常,建议您选择机型时考虑以下配置:
  • Broker机型的CPU和内存配比为1:4。
  • 选择云盘作为数据存储盘。
  • 充分考虑云盘的IO吞吐率以及网卡带宽之间的关系。
在部署参数上,考虑以下因素:
  • 由于EMR Kafka版本仍依赖于Zookeeper,且Zookeeper的可用性直接关系到Kafka服务的高可用,因此,建议您创建集群时,选择高可用的部署方式。启用高可用后,将创建3个节点的Zookeeper服务。
  • 如果Master机器组只部署Zookeeper,则Master机器组只需要配置1块数据盘即可。

更详细的评估建议,请参见集群资源规格评估建议

操作步骤

  1. 进入创建集群页面。
    1. 登录EMR on ECS控制台
    2. 可选:在顶部菜单栏处,根据实际情况选择地域和资源组。
      • 地域:创建的集群将会在对应的地域内,一旦创建不能修改。
      • 资源组:默认显示账号全部资源。
    3. 单击上方的创建集群,进行创建。
  2. 配置集群信息。
    创建集群时,您需要对集群进行软件配置、硬件配置和基础配置。
    重要 集群创建完成后,除了集群名称以外,其他配置均无法修改,所以在创建时请仔细确认各项配置。
    1. 软件配置。
      Create Kafka
      配置项示例描述
      地域华东1(杭州)创建的集群将会在对应的地域内,一旦创建不能修改。
      业务场景实时数据流场景选择实时数据流场景
      产品版本EMR-3.43.1选择EMR版本后,您可以查看各服务的版本。

      例如,EMR-3.43.1版本中的Kafka为2.12_2.4.1,其中2.12表示Scala的版本,2.4.1为开源Kafka的版本。

      服务高可用开启默认不开启。
      重要 启用高可用后,将在Master机器组上部署3个节点的Zookeeper服务。由于EMR Kafka版本的服务可用性仍依赖于Zookeeper,所以建议您创建集群时,选择高可用的部署方式。
      可选服务Kafka

      选择Kafka服务。

      您也可以根据您的实际需求选择其他的一些组件,被选中的组件会默认启动相关的服务进程。
      高级设置不开启软件自定义配置:可指定JSON文件对集群中的基础软件(例如Hadoop、Spark和Hive等)进行配置。默认不开启。
    2. 硬件配置。
      配置项示例描述
      付费类型按量付费默认包年包月。当前支持的付费类型如下:
      • 按量付费:一种后付费模式,即先使用再付费。按量付费是根据实际使用的小时数来支付费用,每小时计费一次,适合短期的测试任务或是灵活的动态任务。
      • 包年包月:一种预付费模式,即先付费再使用。
        说明

        建议测试场景下使用按量付费,测试正常后再新建一个包年包月的生产集群正式使用。

      可用区华东1(杭州) 可用区 I可用区为在同一地域下的不同物理区域,可用区之间内网互通。通常使用默认的可用区即可。
      专有网络emr_test/vpc-bp1f4epmkvncimpgs****默认选择已有的专有网络。

      如需创建新的专有网络,请在专有网络控制台新创建一个,详情请参见创建和管理专有网络

      交换机vsw_test/vsw-bp1e2f5fhaplp0g6p****选择在对应VPC下可用区的交换机,如果在这个可用区没有可用的交换机,则需要在专有网络控制台新创建一个,详情请参见创建和管理交换机
      默认安全组sg-bp1ddw7sm2risw****/sg-bp1ddw7sm2risw****默认选择已有的安全组。安全组详情请参见安全组概述

      您也可以单击新建安全组,在ECS控制台新建一个安全组,详情请参见创建安全组

      重要 禁止使用ECS上创建的企业安全组。
      节点组根据实际情况配置
      • 实例类型:您可以根据需要或者评估建议选择实例规格。评估建议详情,请参见集群资源规格评估建议
      • 加入部署集:开启高可用后,Master默认加入部署集,详情请参见开启部署集
      • 系统盘:根据需要选择系统盘。
      • 系统盘大小:根据需要调整磁盘容量,推荐至少120 GiB。取值范围为80 ~ 500 GiB。
      • 数据盘:根据需要选择数据盘。
        说明 建议选择云盘。
      • 数据盘大小:根据需要调整磁盘容量,推荐至少80 GiB。取值范围为40 ~ 32768 GiB。
      • 实例数量:默认3台Master,3台Core。
      • 附加安全组:您可以为该节点组关联最多2个附加安全组,附加安全组可以灵活定制不同的外部资源或应用程序之间的访问。
      • 挂载公网:集群是否挂载弹性公网IP地址,默认不开启。
        说明 创建后如果您需要使用公网IP地址访问,请在ECS上申请开通公网IP地址,详情请参见弹性公网IP中的申请EIP的内容。
    3. 基础配置。
      基础信息区域,配置如下参数。
      重要 暂不支持高级配置区域的参数,因此请勿设置。
      配置项示例描述
      集群名称Emr-Kafka集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。
      身份凭证自定义密码密钥对(默认):使用SSH密钥对登录Linux实例。

      关于密钥对的使用详情,请参见SSH密钥对

      密码:设置Master节点的登录密码,使用密码对登录Linux实例。

      密码规则:8~30个字符,且必须同时包含大写字母、小写字母、数字和特殊字符。

      特殊字符包括:感叹号(!)、at(@)、井号(#)、美元符号($)、百分号(%)、乘方(^)、and(&)和星号(*)。

      高级设置根据需求配置
      • ECS应用角色:当用户的程序在EMR计算节点上运行时,可不填写阿里云AccessKey来访问相关的云服务(例如OSS),EMR会自动申请一个临时AccessKey来授权本次访问。ECS应用角色用于控制这个AccessKey的权限。
      • 引导操作:可选配置,您可以在集群启动Hadoop前执行您自定义的脚本,详情请参见管理引导操作
      • 标签:可选配置,您可以在创建集群时绑定标签,也可以在集群创建完成后,在集群详情页绑定标签,详情请参见设置标签
      • 资源组:可选配置。详情请参见使用资源组
      • 数据盘加密:可选配置。仅支持在创建集群时开启该功能,详情请参见开启数据盘加密
  3. 确认订单页面,选中E-MapReduce服务条款复选框。
  4. 单击创建
    创建集群后可以通过刷新页面来查看进度,当集群状态显示为运行中时,表示集群创建成功。

后续步骤

集群创建成功后,您可以根据实际的业务场景,修改集群的默认参数,使集群正式交付生产时符合相关的要求。例如: