全部产品
开放搜索

名词解释

更新时间:2017-08-03 10:39:43   分享:   

应用管理

名称 说明
应用 应用是用户的一套数据配置,包括应用的数据源结构,索引结构及其它一些数据属性配置。一个应用即一个搜索服务。
文档 文档是可搜索的结构化数据单元。文档包含一个或多个字段,但必须有主键字段,OpenSearch通过主键值来确定唯一的文档。 主键重复则文档会被覆盖。
字段 字段是文档的组成单元,包含字段名称和字段内容。
插件 为了方便用户在导入过程中进行一些数据处理,系统内置了若干通用数据处理插件,可以在定义应用结构或者配置数据源的时候通过“内容转换”进行选择。
源数据 用户的原始数据,包含一个或多个源字段。
源字段 组成源数据的最小单元,包含字段名称和字段值,分为文本类型、整型、浮点型三个类型。
索引字段 索引是一种用于加速文档检索速度的数据结构,一个用户可以创建多个索引。
组合索引 允许用户将多个TEXT、SWS_TEXT等文本类型的源字段索引到同一个字段,用来做组合索引。如一个论坛搜索,需要提供基于标题(title)的搜索及基于标题(title)和内容(body)的综合搜索,那么可以将title建立title_search、default的索引,将body建立default索引。那么,在title_search上查询即可实现基于标题的搜索,在default上查询即可实现基于标题和内容的综合搜索。
索引字段 可以在query子句中使用,需要定义索引字段,通过索引字段来做高性能的检索召回。
属性字段 可以在filter、sort、aggregate、distinct子句使用,用来实现过滤统计等功能。
默认展示字段 用来做结果展示使用,同时可以通过API参数fetch_fields来控制每次结果的返回字段,需注意在程序中配置fetch_fields该参数后会覆盖应用中默认展示字段配置,以程序中的fetch_fields设置为主,若程序中不设置fetch_fields参数则以应用中默认展示字段为主。
分词 对推送上来的文档进行词组切分,TEXT类型为按检索单元进行切分,SWS_TEXT为按单字进行切分。如“浙江大学”,TEXT类型会切分成2个词组:“浙江”、“大学”。SWS_TEXT会切分成4个词组:“浙”、“江”、“大”、“学”。
term 分词后的词组称为term。
构建索引 分完词后会进行索引构建操作,以便根据用户查询,快速定位到具体的文档。搜索引擎一般会构建出两种类型的链表:倒排和正排链表。
倒排 词组到文档的对应关系组成的链表,勾选可搜索后会构建倒排链表。term1->doc1,doc2,doc3;term2->doc1,doc2
正排 文档到字段对应关系组成的链表,勾选可过滤后会构建正排链表。doc1->id,type,create_time…
召回 通过用户查询的关键词进行分词,将分词后的词组通过查找倒排链表快速定位到文档,这个过程称为召回。
召回量 召回得到的文档数为召回量。

数据同步

名称 说明
数据源 数据来源,目前系统支持一些主流存储产品的自动对接。
索引重建 重新构建索引数据。一般在首次配置数据源、修改数据源、修改应用结构后需要手动索引重建。定时索引重建一般用于全量数据的重新导入(需要关联数据导入)。

配额管理

名称 说明
文档容量 应用中各个表的总文档大小累加值(不考虑字段名,字段内容按照string来计算容量)。
QPS 每秒查询请求数。

搜索

名称 说明
排序表达式 排序表达式是用于控制搜索结果文档排序的数学表达式,支持基本数学运算、数学函数和内置函数。
粗排表达式 对搜索结果进行第一轮的海选,因为要遍历所有的文档(目前上限为100万),所以粗排要尽量简单(选取对文档最重要的几项内容,如新闻类可以选用文本性及时效性),按照表达式对文档进行算分,并按照算分结果进行排序。
精排表达式 对第一轮的排序结果选取前N个按照精排表达式进行第二轮更细节的分值计算,按照分值进行最终的排序,并返回给用户。
结果摘要 文本内容一般会很长,在搜索结果展示的时候可以只展示部分匹配的内容,方便用户快速了解文档主要内容。
查询分析 可以配置若干分析规则,目前支持拼写检查、停用词、词权重等功能,可以让用户更好的干预搜索行为,获得更好的搜索体验。
本文导读目录
本文导读目录
以上内容是否对您有帮助?