全部产品
云市场

停用词干预配置

更新时间:2019-07-10 16:24:51

使用介绍

目前支持对系统内置的停用词词典进行人工干预。用户实现干预操作的过程通常有以下四步:

  1. 创建停用词干预词典。用户进入到查询分析干预词典页后,点击页面右上角的“创建词典”。选择了词典类型后,为词典命名,干预词典创建完成,词典会出现在页面的词典列表中。
  2. 新增和管理干预词典内的干预词条。词典创建完成后,在列表中点击词典名称或点击词典对应的“管理”,即可进入到干预词典的详情页。用户可在详情页内进行干预词条的新增和管理。用户可进行两种类型的干预,-添加停用词:添加一个停用词后,如果查询的Query中分词后有term为添加的这个停用词,在召回时该term将不参与召回。-屏蔽停用词:屏蔽一个停用词后,如果查询的Query中分词后有term为屏蔽的这个停用词,在召回时该term将正常参与召回。
  3. 使用干预词典。创建并填充完成停用词干预词典后,可在任意应用的查询规则内选择使用。
  4. 干预词典效果测试和上线。查询分析规则使用了干预词典后,应用到线上之前建议先进行搜索效果测试,评估效果是否符合干预预期。

实战演示

  • 业务场景:某电商导购类业务在OpenSearch的应用实例中配置使用了查询分析规则,规则包含停用词功能,但是在线上发现了badcase,于是决定使用干预功能。
  • Badcase:用户搜索Query“什么面霜好呢”,返回的结果寥寥无几,但是都完整包含了“什么面霜好呢”关键词,实际上数据库内还有很多语义相关的结果没有召回。
  • 问题诊断:原因之一是Query中的“呢”没有被系统识别成停用词。
  • 解决方案:新建停用词干预词典,在词典中把“呢”添加为停用词,再将该停用词干预词典应用在线上使用的查询分析规则中。
  • 配置流程:1.点击控制台首页干预功能:查询分析干预词典。

1.jpg | center | 827x349

2.创建一个停用词干预词典,命名为"tingyongcitest"。

2.jpg | center | 769x429

3.在"tingyongcitest"里新增干预词条,停用词栏填“呢”,干预类型选择“添加”。

3.jpg | center | 738x377

4.在app中把干预词典先应用在一个未上线的查询分析规则中,以便进行搜索效果测试。

15.搜索测试是否符合预期效果。发现搜索结果召回了不包含“呢”但是仍然需求相关的结果。

5.png | center | 827x395

注意事项

  1. 词典类型和名称在创建后均不可修改。
  2. 新增干预词条时,填写的停用词不应与干预列表内已干预过的停用词重复。
  3. 新增或修改干预词条后,生效状态如果持续是“正在生效”,可以点击刷新按钮获取生效状态的同步。
  4. 同一干预词典可以被多个查询分析规则使用。
  5. 由于目前的干预词典是基于系统内置词典的补丁式干预,所以词典使用时会默认勾选使用系统内置词典。
  6. 被任一查询规则(不论是否上线)使用的干预词典不能被删除,想要删除需要首先解除使用。

功能限制

  1. 停用词干预词典一共可以创建10个。
  2. 每次新增停用词干预词条时,只支持填写一个停用词。
  3. 每个停用词词典最多创建500个干预词条。
  4. 停用词干预词条按照分词后的term进行匹配生效。例如,将“吧”干预添加成为停用词,那么查询“一起玩游戏吧”时“吧”不会参与召回
  5. 添加的干预内容均会进行大小写和全半角归一化处理,其中大写字母会归一化为小写,全角会归一化为半角。