文档

名词解释

更新时间:

数据相关

名称

解释

MaxCompute数据源

全量数据源,原始数据按照分区存储在MaxCompute中。

API数据源

实时增量数据源,通过API推送进行数据更新。

文档

文档是可搜索的结构化数据单元。文档包含一个或多个字段,但必须有主键字段,召回引擎版实例通过主键值来确定唯一的文档。 主键重复则文档会被覆盖。

字段

字段是文档的组成单元,包含字段名称和字段内容。

多值字段

一个字段含有多个不同的值,每个值都是独立的。

主键

唯一标识一篇文档的字段。

召回引擎版

名称

解释

查询节点(QRS)

在线检索中的一个角色,用于解析查询请求合并Searcher的结果。

数据节点(Searcher)

在线检索系统中的一个角色,加载索引数据,提供检索服务。

集群

一组查询节点和数据节点的组成的一个检索服务。

Processor

离线索引构建中的一个角色,解析用户的原始数据。

Builder

离线索引构建中的一个角色,将原始数据构建成索引。

Merger

离线索引构建中的一个角色,对索引进行合并整理。

全量

将MaxCompute上的数据构建成索引的过程就叫做全量,产出的索引成为全量索引,索引的版本称为全量版本。

增量

数据实时更新时,离线索引构建流程产出索引并切换到线上。

实时

API推送的数据实时生效,这一流程成为实时,在数据节点内存中会产出实时索引。

倒排索引

词组到文档的对应关系组成的链表,query子句用的就是这种排序方式,查询效率高。例如:term1->doc1,doc2,doc3;term2->doc1,doc2。

正排索引

文档到字段对应关系组成的链表,filter子句用的就是这种排序方式,性能略慢于倒排。例如:doc1->id,type,create_time…。

摘要索引

将需要展示的信息存储在一起,通过主键或者docid进行获取,最终返回给搜索结果页进行展示。

分词

对推送上来的文档进行词组切分,TEXT类型为按检索单元进行切分。如“浙江大学”,TEXT类型会切分成2个词组:“浙江”、“大学”。

term

分词后的词组称为term。

FSM触发和执行机制

变更类型

允许重复触发

说明

服务发现

可以理解为把引擎的IP挂载到域名下以供调用。针对同一个集群的情况下,最新的变更执行前会终止所有旧的变更

ha3_biz_apend

添加biz,由系统自动触发有且仅有一个,该变更可能持续运行好几天,直到实例正确添加索引表并成功构建索引后才会自动结束。

update_biz_depend_index_fsm

更新biz依赖的索引,由系统自动触发有且仅有一个,该变更可能持续运行好几天,直到索引表成功构建索引才会自动结束。

新增在线部署

针对同一个集群的情况下,最新的变更执行前会终止所有旧的变更

multi_biz_activate

可以理解为实例初始化,

一个实例有且仅有一个,该变更可能持续运行好几天,直到实例正确添加索引表并成功构建索引后才会自动结束。

新增索引

针对同一个索引的情况下,最新的变更执行前会终止所有旧的变更

自动触发全量

发现新的数据分区后自动执行,最新的变更和历史变更并存

手动触发全量

最新的变更和历史变更并存

推送配置

最新的变更执行前会终止所有旧的变更

在线资源

针对同一个zone的情况下,最新的变更执行前会终止所有旧的变更

索引回滚

最新的变更和历史变更并存

说明
  • FSM:有限状态机(Finite State Machine:FSM)又称有限状态自动机或简称状态机,是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。

  • 重复触发:是否允许多次触发该变更类型