文档

summary子句

更新时间:

子句说明

通过在查询语句中增加summary子句,用户可以

  • 只进行第二阶段查询,即获取summary。目前引擎共有3种获取summary的方式:通过docid、通过pk hash值、通过pk原始值获取summary

  • 指定动态摘要展示字段

  • 指定飘红配置

子句语法

{ 
  "summary" : {
  }
}

只进行第二阶段查询

通过docid取summary

{ 
  "config" : {
    "fetch_summary_type" : "docid"
  },
  "summary" : {
    "gids" : [
        "daogou|6|0|0|0|00000000000000004cd645cfd1c63041|184140777",
        "daogou|6|0|0|1|00000000000000005b3ceae33e5ab800|184140777"
    ]
  }
}

用户需要在config子句中表明fetch_summary_type是docid,并在fetch_summary子句中填上想要获取summary的gid。 用户一般不需要关心gid的具体涵义,只需要从第一阶段查询结果中取出gid即可。

通过pk的hash值取summary

通过pk的hash值取summary的方法与通过docid取基本一样,也是通过gid的形式来表示想要取summary的文档,不同之处在于:

  • 需要在config子句设置fetch_summary_type为pk

  • 虽然都是用gid来表示文档,但是pk与docid还是存在一些区别。一般我们认为一个pk可以唯一的表示一个文档,但docid不行。 因此我们在使用docid方式取summary时,还需要借助全量版本和增量版本号来定位文档,但在使用pk来定位文档时,就可以忽略版本信息。 所以在使用pk获取summary时,gid中的全量版本和增量版本以及docid这几个字段都是不起作用的。

  • 如果想使用pk的hash值来取summary,必须在这个cluster的schema中配置primary key索引,并设置"has_primary_key_attribute" : true

示例:

{ 
  "config" : {
    "fetch_summary_type" : "pk"
  },
  "summary" : {
    "gids" : [
        "daogou|6|100|100|100|00000000000000004cd645cfd1c63041|184140777",
        "daogou|6|200|200|200|00000000000000005b3ceae33e5ab800|184140777"
    ]
  }
}

通过pk的原文取summary

通过pk的原文取summary的方式与上述两种方式都不同,因为它不采用gid来定位文档,而是直接采用文档的pk的原文来定位。 通过这种方式取summary,用户需要:

  • 在config子句设置fetch_summary_type为rawpk

  • 目标集群的schema中配置了primary key索引,并且集群配置的hash field必须和primary key是同一个字段语法

示例:

{ 
  "config" : {
    "fetch_summary_type" : "rawpk"
  },
  "summary" : {
    "gids" : [
        "cluster1:pk1,pk2",
				"cluster2:pk3,pk4"
    ]
  }
}


config=fetch_summary_type:rawpk&&fetch_summary=cluster1:pk1,pk2;cluster2:pk3,pk4


注:由于pk原文可能出现任意字符,有可能与我们查询串中的保留字符冲突,
因此需要用户对所有 引擎查询串的保留字符进行转义,在字符前面加上\(反斜杠)。
具体需要转义的字符有:逗号,冒号,分号,&(与号),等于号,斜杠本身。 
例如你的pk原文是abc,d:e\,则传给引擎的pk原文应转义成abc,d:e\

指定动态摘要展示字段

用户可以通过fetch_fields指定动态摘要中要展示的字段

示例:

{
  "summary" : {
    "fetch_fields" : ["title", "body", "price"]
  }
}

指定飘红配置

用户可以通过highlight配置动态摘要的飘红配置:

  • highlighter表示要使用的highlighter的名称

  • pre_tag表示飘红的前缀tag

  • post_tag表示飘红的后缀tag

  • fields表示要飘红的字段

    • fragment_size表示片段长度

    • number_of_fragments表示片段的数量

示例:

{
  "summary" : {
    "highlight" : {
      "highlighter" : "plain",
      "pre_tag" : "<em>",
      "post_tag" : "</em>",
      "fields" : {
        "title" : {
          "fragment_size" : 100,
          "number_of_fragments" : 3
        }
      }
    }
  }
}

注意事项

  • summary子句是可选子句

  • 获取summary时候可能会出现summary不存在的问题,可能的原因是集群不稳定导致取summary超时,或者是由于实时数据更新,对应的文档在瞬时处于删除状态(更新数据时先删除在添加)。

  • 不建议使用docid的方式获取summary,因为docid是一个变化的值,当切增量或者实时数据更新时docid可能发生变化。