全部产品
阿里云办公

基本介绍

更新时间:2018-12-06 16:03:35

概述

HBase生态相关服务擅长在线查询场景,分析集群通过外部计算资源的方式,为HBase服务提供复杂分析、流式处理及入库、机器学习的能力,从而更好的解决大的数据量及物联网等场景问题。

云HBase提供的分析集群具有以下几个特点:

  • 服务化:通过“SQL服务”、“作业服务”简化HBase分析集群的使用;用户不用再投入额外的精力去部署、服务化、运维相关的工作,可以把主要精力放在解决业务问题上面;
  • 高效:HBase的分析集群具有较好的性能,比如算子下推到HBase、直读HFile、分析HBase备份的列存、管理HBase表等功能;
  • 稳定:集群核心服务具有HA及failover的能力,来保证分析集群可用性及稳定性;
  • 弹性:分析集群为HBase集群提供弹性的资源满足业务峰值的计算资源需求。
注意:购买前请填写分析集群商用申请单

业务架构图

结合云HBase服务及分析集群能够构建典型的Lambda架构,主要分为三层:

  • 批量处理层:对于外部多数据源、HBase/Phoenix等使用分析集群 SQL、Dataset、MLlib进行分析,结果数据入库到HBase/Phoenix;
  • 在线服务层:分析后的结果数据存储在HBase/Phoenix,对外提供在线查询服务;
  • 流式加速层:借助于分析集群 Streaming,能够做实时的ETL以及增量入库到HBase/Phoenix。

典型场景

1、 流式处理及查询系统

  • 数据处理流程

    • Streaming实时读取Kafka数据做ETL
    • 复杂的ETL可以实时读取HBase/Phoenix的维表数据做关联
    • 结果数据写入HBase/Phoenix对外提供在线查询服务
  • 具体适用的业务包括:

    • 商业智能:在线统计广告投放转化率、在线统计不同商品的pv、ipv等
    • 物联网:终端采集数据,流式处理
    • 数据时效性:需要数据及时的处理后,供运营及用户查询

2、 复杂分析及查询系统

  • 数据处理流程

    • 在上一个场景流式入库之后添加了复杂分析(大表join、大表groupby等)的部分
  • 具体适用的业务包括:

    • 复杂分析:”流式处理及查询系统”业务场景需要添加复杂分析
    • 数据归档:定期把在线库的数据归档到分析集群数仓做复杂分析
    • 数据仓库:构建分析集群数仓来解决复杂分析的数据管理

3、 算法分析及查询系统

  • 数据处理流程

    • 业务具有算法分析场景,可以在Streaming阶段和复杂分析阶段分别添加在线机器学习、离线机器学习的能力
  • 具体适用的业务包括:

    • 算法分析:使用分析集群的机器学习、图计算能够有效的支持业务的算法需求
    • 在线算法处理:比如事中风控、在线分类等
    • 离线算法处理:模型训练、大规模机器学习算法运行

4、 其他垂直行业使用见文档,包括“物联网&车联网行业”、“金融行业风控”等