云HBase的Spark分析引擎,会不断的推出新功能、解决线上问题、优化性能。这些新特性会以小版本升级的方式交付到用户,为了不影响客户的业务,我们不会主动升级客户的集群,我们建议客户在业务低峰期自主升级小版本。
2.3.2
该版本Spark从社区2.3.2版本发展过来,增加了如下主要特性:
- 支持Spark特性包括Spark streaming、Spark SQL等。
- 内置支持Spark分析HBase 、Phoenix,控制台关联HBase集群。
- 提供作业管理服务Livy、SQL提交服务Thrifserver。
2.3.2.1
该版本主要上线数据工作台、发布Spark-Connectors、解决上一版本的相关问题、集群自带HDFS服务。
- 数据工作台上线:支持资源管理、作业管理、工作流、报警。
- 发布spark-connectors:目前包括phoenix-spark、alihbase-spark、mongo-spark,其他connector会持续发布。
- 解决上一版本问题:解决作业运行完后Spark UI无法访问、Master节点磁盘满、作业运行结束后临时目录回收、作业日志的自动滚动等。
- 集群自带HDFS服务:作为Spark内表的默认存储,以及存储非结构化数据。
2.4.3
该版本主要发布spark-connectors 1.0.4版本,升级spark内核到社区最新稳定版本2.4.3。
- Spark connectors:目前已经支持NoSQL系列:HBase&Phoenix、MongoDB、Redis、TableStore、ElasticSearch等;OLTP数据库:PolarDB、RDS、DRDS等;OLAP数据库:ADB;消息中间件:Kafka、Loghub、datahub;MaxCompute等。
- Spark 2.4.3版本核心功能,具体参考社区release note。
- 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到Spark的stage中,以简化分布式训练工作流程。
- 添加了35个高阶函数,用于在Spark SQL中操作数组/map。
- Structured Streaming的各种增强功能。例如,连续处理(continuous processing)中的有状态操作符。
- 内置数据源的各种性能改进。例如,Parquet嵌套模式修剪(schema pruning)。
- JDBC Connector支持Date/Timestamp类型作为分区并发字段。
- 支持Scala 2.12。
2.4.3.1
该版本支持一键归档分析一期、解决spark访问phoenix5.x bug、交互式查询bug、同时支持用户使用X-pack spark发布的connector,以及使用开源的相关connector等问题。
- 一键归档分析一期。
- 支持批量归档分析RDS for MySQL、PolarDB。
- 流式增量归档分析HBase。
- 数据工作台。
- 支持SQL类型作业。
- 作业支持配置参数,以及动态时间参数。
- 解决spark 2.4.3版本和phoenix 5.x客户端包冲突问题。
- 支持可以通过jdbcRDD对phoenix 5.x进行数据写入。
- 解决spark sql对接phoenix 5.x timestamp字段无法下推问题。
- 解决spark thriftserver对于;转义字符无法处理的问题。
- 解决交互式查询pyspark遇到java.lang.NoClassDefFoundError问题。
- 支持使用开源的hbase-connector、mongo、redis等connector。
- 支持用户上传自定义的hbase-site。