选型配置说明

更新时间:

选择合适的集群规格是CDP产品使用的第一步,CDP的选型配置需要考虑的主要因素包括:使用场景,估算数据量,服务可靠性以及预算等。​

基础版CDP集群有主节点(Master)、工具节点(Utility)和核心实例(Core)三种实例类型。

专业版CDP集群有主节点(Master)、工具节点(Utility)、核心实例(Core)和数据服务实例(Data-Service)四种实例类型。

Master节点的选型

Master节点主要用于部署HDFS NameNode,YARN ResourceManager以及Zookeeper Server等。

在生产集群中,建议至少部署两台Master节点以实现集群的高可用,Master节点数大于一台时,自动开启HDFS,YARN和Hive的HA。

由于Master节点主要用于存储HDFS元数据,且HDFS元数据存储在内存中,因此,建议根据HDFS中的文件数量选择16GB内存以上的机型。

Utility节点的选型

在一个集群中仅需部署一台工具节点,工具节点主要用于部署CM(CDP的管控),以及Hive Metastore,Hue以及集群的元数据信息。针对高可用集群,工具节点还会用于部署HDFS 的JournalNode以及ZooKeeper的Server。针对高安全集群,工具节点也会用于安装Solr server,Ranger以及Knox代理。

Utility工具节点在集群中扮演很重要的角色,存储了大量的集群元数据,并且维护了CDP的管控平台,因此Utility工具节点的可用性至关重要,Utility工具节点的存储仅支持云盘存储,以保证数据的可靠性。

Core节点的选型

Core节点主要用于数据存储和计算,运行HDFS DataNode和YARN NodeManager。

一个集群中,至少部署3台Core节点,节点的选型主要取决于集群的数据量:

  • 当HDFS的数据量大于60TB,建议选择本地盘机型(ecs.d1族系机型)。

  • HDFS的数据量小于60TB,可以考虑高效云盘和SSD云盘。

Data-Service节点的选型

Data-Service节点主要用于数据计算,包含了Data Warehouse,Machine Learning和Data Engineering(Spark)三种服务。一个集群中至少部署3台Data-Service节点,且节点配置至少为16 core,内存128GB。