基本概念

本章节介绍ABFS特征存储引擎使用过程中遇到的常用名词的基本概念和简要描述。

每一个词条以section的形式展示,同一个词条的中英文分开写,相互加链接。

实例

独享型实例:客户创建的一个ABFS特征存储引擎服务,每个实例都是保证双副本,采用proxy + searcher的集群架构服务。

独享实例下可由客户自行创建多个数据表。

Proxy/Searcher

  • proxy:ABFS服务的计算层,负责接受用户请求并处理成具体的执行计划,然后转发给下层searcher,同时支持合并、分组等复杂的算子。

  • searcher:ABFS服务的存储层,负责加载和管理各种索引并服务上层proxy转发的查询请求,同时支持排序、打散、截断等简单算子。

数据表

ABFS服务的存储层支持KV、KKV、倒排三种表类型来储存特征数据;数据表包含了源数据、自定义字段属性、schema信息,是后续ABFS引擎系统用来构建索引的基本信息。通过离线系统进行索引构建,从而产生对应表类型的索引结构(KV索引/KKV索引/倒排索引),最终这些索引内容将加载到引擎服务中,可通过API/SDK接口访问的方式进行查询。

Key-Value表

简称KV表(如下图1所示),通常用来存储实体信息(比如用户、商品)。其中Key存储实体ID(比如用户ID,U1),Value存储实体属性(比如用户属性name、age、gender)。

图片 1

PKey-SKey-Value表

简称KKV表(如下图2所示),通常用来存储有向关系信息(如好友关系),其中PKey(primary key)存储源实体的ID(上图中实体U1),SKey(secondary key)存储目标实体的ID(比如上图中节点U2/U3/U4),Value用来存放关系的属性(比如好友关系的time和score属性)。

图片 2

倒排表

也可称为Index表,倒排表中定义了索引存储从单词到DocID的映射关系。倒排表主要定义源数据以及数据类型,包括倒排配置schema字段。

  • 什么是倒排索引? 倒排索引也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

  • 倒排索引可以为我们做什么? 通过倒排索引,可以快速定位单词所在的文档列表以及该词在文档中的位置,词频等信息。供信息分析使用。

PG

PG(Property Graph)是自研的查询语法,语法详述见功能概览

其他相关服务

MaxCompute:大数据计算服务MaxCompute(原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案,提供了完善的数据导入方案以及多种经典的分布式计算模型,能够快速地解决海量数据计算问题。

阿里云首页 智能推荐 AIRec 相关技术圈