全部产品
云市场

Spark版本说明

更新时间:2019-09-30 16:39:00

关于升级

云HBase的Spark分析引擎,会不断的推出新功能、解决线上问题、优化性能。这些新特性会以小版本升级的方式交付到用户,为了不影响客户的业务,我们不会主动升级客户的集群,我们建议客户在业务低峰期自主升级小版本。

2.3.2

该版本Spark从社区2.3.2版本发展过来,增加了如下主要特性:

  • 支持Spark特性包括 spark streaming、spark sql等
  • 内置支持spark 分析hbase 、phoenix,控制台关联hbase集群
  • 提供作业管理服务Livy、SQL提交服务Thrifserver

2.3.2.1

该版本主要上线数据工作台、发布spark-connectors、解决上一版本的相关问题、集群自带HDFS服务

  • 数据工作台上线:支持资源管理、作业管理、工作流、报警
  • 发布spark-connectors:目前包括phoenix-spark、alihbase-spark、mongo-spark,其他connector会持续发布
  • 解决上一版本问题:解决作业运行完后Spark UI无法访问、master节点磁盘满、作业运行结束后临时目录回收、作业日志的自动滚动等
  • 集群自带HDFS服务:作为Spark内表的默认存储,以及存储非结构化数据

2.4.3

该版本主要发布spark-connectors 1.0.4版本,升级spark内核到社区最新稳定版本2.4.3:

  • Spark connectors:目前已经支持NoSQL系列:HBase&Phoenix、MongoDB、Redis、TableStore、ElasticSearch等;OLTP数据库:POLARDB、RDS、DRDS等;OLAP数据库:ADB;消息中间件:kafka、loghub、datahub;MaxCompute等;
  • Spark 2.4.3版本核心功能,具体参考社区release note
    • 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当 地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。
    • 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。
    • Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。
    • 内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪(schema pruning)
    • JDBC Connector支持 Date/Timestamp类型作为分区并发字段
    • 支持 Scala 2.12。

2.4.3.1

该版本支持一键归档分析一期、解决spark访问phoenix5.x bug、交互式查询bug、同时支持用户使用x-pack spark发布的connector,以及使用开源的相关connector等问题

  • 一键归档分析一期
    • 支持批量归档分析RDS for mysql、polardb
    • 流式增量归档分析hbase
  • 数据工作台
  • 解决spark 2.4.3版本和phoenix 5.x客户端包冲突问题
  • 支持可以通过jdbcRDD对phoenix 5.x进行数据写入
  • 解决spark sql对接phoenix 5.x timestamp字段无法下推问题
  • 解决spark thriftserver对于;转义字符无法处理的问题
  • 解决交互式查询pyspark遇到”java.lang.NoClassDefFoundError”问题
  • 支持使用开源的hbase-connector、mongo、redis等connector
  • 支持用户上传自定义的hbase-site