全部产品

Spark版本说明

更新时间:2019-06-06 09:46:01

关于升级

云HBase的Spark分析引擎,会不断的推出新功能、解决线上问题、优化性能。这些新特性会以小版本升级的方式交付到用户,为了不影响客户的业务,我们不会主动升级客户的集群,我们建议客户在业务低峰期自主升级小版本。

2.3.2

该版本Spark从社区2.3.2版本发展过来,增加了如下主要特性:

  • 支持Spark特性包括 spark streaming、spark sql等
  • 内置支持spark 分析hbase 、phoenix,控制台关联hbase集群
  • 提供作业管理服务Livy、SQL提交服务Thrifserver

2.3.2.1

该版本主要上线数据工作台、发布spark-connectors、解决上一版本的相关问题、集群自带HDFS服务

  • 数据工作台上线:支持资源管理、作业管理、工作流、报警
  • 发布spark-connectors:目前包括phoenix-spark、alihbase-spark、mongo-spark,其他connector会持续发布
  • 解决上一版本问题:解决作业运行完后Spark UI无法访问、master节点磁盘满、作业运行结束后临时目录回收、作业日志的自动滚动等
  • 集群自带HDFS服务:作为Spark内表的默认存储,以及存储非结构化数据

2.4.3

该版本主要发布spark-connectors 1.0.4版本,升级spark内核到社区最新稳定版本2.4.3:

  • Spark connectors:目前已经支持NoSQL系列:HBase&Phoenix、MongoDB、Redis、TableStore、ElasticSearch等;OLTP数据库:POLARDB、RDS、DRDS等;OLAP数据库:ADB;消息中间件:kafka、loghub、datahub;MaxCompute等;
  • Spark 2.4.3版本核心功能,具体参考社区release note
    • 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当 地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。
    • 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。
    • Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。
    • 内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪(schema pruning)
    • JDBC Connector支持 Date/Timestamp类型作为分区并发字段
    • 支持 Scala 2.12。