接入数据表

特征存储引擎AFBS,支持多种索引类型的数据表,包括KV、KKV、INDEX。如果您需要自定义数据表,可以通过【数据接入】自行定义数据表的索引类型、属性信息、ODPS数据源等。完成数据表的接入和部署,就可以通过页面提供的【写入/查询数据】进行测试调试。

一、基础信息

配置数据表的基本信息:

  • 表名:可自行给表进行命名

  • 业务描述:表的中文描述信息

  • 数据来源:

    • API更新,即增量更新SWIFT

      • 所有数据来自SWIFT消息队列。且在回流后,在线系统会实时对消息进行消费,以实现数据的实时更新。

        具体机制:在数据回流时,构建程序会从SWIFT拖取数据构建索引,且构建任务会保持在running状态,用以定期拖取更新消息来构建增量版本索引。同时在线系统会实时消费更新消息。

        要求及注意事项:

        • 数据源为SWIFT的iGraph表记录有TTL,超过TTL的记录会失效。

        • ttl尽量不要超过7天,不然build容易超时和出错,更新qps超过1000的话,ttl尽量不要超过3天,不然走odps + swift方式

        • 引擎不做持久化存储,如果索引文件被破坏或者写入异常导致索引不可用,需要依靠业务自定进行所有数据的增量更新。

    • ODPS数据源,即全量更新

      • 所有数据全部来自ODPS(即MaxCompute),通过数据回流对在线数据进行全量更新。构建程序会从ODPS拖取数据构建索引。

        要求及注意事项:

        • 一次新的回流会使数据完全替换前一次回流的数据。

        • 对应的ODPS分区至少有一条记录。

        • 在线数据对应的ODPS分区必须存在,否则影响线上稳定。

        • 数据源为ODPS的iGraph表数据没有TTL。

    • ODPS数据源+API更新,即全量+增量更新

      • 为上述两种数据源的组合。构建程序从ODPS和SWIFT拖取数据构建索引。具备上述两种数据源的特性,即通过全量更新数据也会持续构建增量版本,同时在线系统实时更新消息。

        要求及注意事项:

        • 必须定期全量回流,新的全量数据包含之前增量数据。不支持回流一次后所有数据都通过更新方式写入的场景。如果不定期回流可能带来如下风险:

          • swift消息队列只保存一定时间段(7天)的数据,长时间不产生新的odps分区做全量的话,下次全量可能会丢失部分实时数据;

          • 回追好多天的实时数据,会造成build超时。索引定期回流是个必选项。

        • 该模式下数据TTL是无限长。

        • 建立odps分区回流时要设置回追增量的起始时间戳,即当前全量数据所包含的数据结束时间

  • 字段结构

    • 该数据表包含的字段属性,并指定Pkey(主键)字段;

    • 导入字段:

      • 如果是ODPS数据源,提前进行可读权限授权,具体请参考离线存储授权

写入1

二、配置索引

选择合适的索引类型进行配置,特征存储引擎ABFS支持:KV、KKV、INDEX三种索引结构。

  • KV表:需要指定pkey字段

    kv
  • KKV表:需要指定pkey、skey字段

    kkv1
  • INDEX表:需配置索引字段和pkey(主键)字段

    index1

三、配置完成

该步骤需要配置索引构建中数据TTL、是否扫描DONE分区;

done1
  • 数据TTL: 数据生命周期

    • 如果是API更新(即增量表)要选择ttl,注意:ttl尽量不要超过7天,不然build容易超时和出错,更新qps超过1000 qps 的话,ttl尽量不要超过3天。
  • 扫描DONE分区

    • 选择【是】,用户在产出分区后同时产出对应分区的done分区,由ABFS主动探测发现该分区可以进行数据回流;

    • 选择【否】,用户产出分区后调用通知服务告诉iGraph该分区可以回流

四、部署确认

创建完的数据表,会自动部署到实例集群中,请耐心等待1-5分钟即可,点击【下一步】完成操作。

部署4

五、索引构建

选择索引构建的done分区或者配置数据ttl,即可开始索引构建,构建结束后可通过查询功能进行引擎数据查询测试。

索引构建5

触发成功6

创建完成数据表后,点击【详情】-【写入&查询】进行数据测试。