本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。
HBase标准版的全文索引特性目前处于关闭状态,相关能力已全面迁移到Lindorm中,更强大、更成熟、更好用,详情参考Lindorm Searchindex
服务介绍
概述
本文介绍“HBase全文索引服务”,及其常规使用的场景说明。“HBase全文索引服务”是基于稳定的阿里云HBase为底座,引进了使用广泛的Solr全文索引服务,进一步增强了HBase的检索能力,使得用户可以在充分发挥HBase KV能力的同时,也能利用全文检索构建复杂条件的查询业务。如图:
注意:目前只有2019年1月25日之后
创建的
新实例支持
控制台有开启“全文索引服务”开关。如果2019年1月25之后创建的实例也没有对应Solr服务开启按钮,就是这个区开放时间是延后几天。另外所有
2019年1月25日之前
创建的
旧实例目前不支持开启
,如果需要,可以购买新实例,或者联系“云HBase答疑”客服
申请旧实例迁移新版本实例
。具体请与客服沟通。
使用场景
我们都知道HBase是大数据在线存储优秀选择,而Solr是分布式全文检索的最佳实践之一。HBase合适大数据存储,高并发高效KV查询,水平扩展性更强。Solr在分布式全文检索能力上功能完善,支持各种复杂的条件查询。通过结合HBase/Solr,可以最大限度发挥HBase和Solr各自的优点,从而使得我们可以构建复杂的大数据存储&检索服务。常见的使用场景可总结为:需要保存大数据量数据,查询条件的字段数据仅占原数据的一小部分,并且需要各种条件组合查询,还可能会使用高并发KV精确查询。例如:
常见物流业务场景,需要存储大量轨迹物流信息,并需根据多个字段任意组合查询条件
交通监控业务场景,保存大量过车记录,同时会根据车辆信息任意条件组合检索出感兴趣的记录
各种网站会员、商品信息检索场景,一般保存大量的商品/会员信息,并需要根据少量条件进行复杂且任意的查询,以满足网站用户任意搜索需求等。
以上只是概述一些可能的场景,实际只要有以下几种类型的查询需求,都可以使用“HBase全文索引服务”来增强检索能力。几种查询类型如下:
任意个条件AND/OR组合查询
facet按条件分类,统计匹配结果集中记录个数。常见的如网站的搜索结果侧边栏
复杂查询的多种排序,并分页
常见的条件筛选进行avg/min/max/sum等统计
分词,关键字查询。常见的商品标题、视频/新闻标题等关键字查询以上细节详情见:Solr增强HBase检索能力PPT