简介
高级配置中的词典配置主要为用户提供自定义分词的功能,当系统提供的分词器对query的分词结果无法满足用户的业务需求时,可以通过配置对应分词器的自定义词典来干预分词结果,以达到用户的目的
系统默认为用户提供两个词典配置版本,后缀为_offline_adv_v1的词典配置版本由系统默认创建,其中包含6种类型的分词器词典:
词典类型 |
中文-通用分析器.dict |
行业-电商通用分析器.dict |
行业-游戏通用分析器.dict |
行业-教育题目分析器.dict |
行业-内容文娱分析器.dict |
行业-英文电商通用.dict |
行业-内容IT分析.dict |
中文-电商分析.dict |
后缀为_offline_adv_edit的高级配置版本可由用户进行“编辑”,添加新分词词条后,点击“发布”,系统会自动生成一个新的高级配置版本,后缀依次递增,如第二次发布时高级配置版本名称后缀为_offline_adv_v2。各个高级配置版本之间可由备注显示区分用途。
添加自定义干预词条
分词bad case:用户某条doc内容为“乒乓球拍卖完了”,当用户搜索“球拍”时无法将其召回,原因是因为“乒乓球拍卖完了”分词后的内容为“乒乓/球/拍卖/完了”,由于搜索query分词后的item与doc内容分词后的item无法完全匹配,导致该doc无法通过“球拍”召回。
解决方法:通过添加自定义分词词条,“乒乓球拍”=>“乒乓球拍”,解决分词的bad case,步骤如下:
在配置中心 > 高级配置页面中,找到后缀为“_offline_adv_edit”的高级配置版本,点击操作中的“编辑”按钮:
找到对应索引表中索引引用的分词类型,点击“编辑”:
添加自定义词条支持两种方式:
界面文本框输入自定义干预词条:乒乓球拍 ,点击“确定”:
界面上传新增词典文件,上传文件内容后,可继续在界面框内进行编辑,点击“确定”:
注意文件限制:文件大小需小于5M,文件格式为.dict或.txt。
词条支持以下两种格式:
1)干预词条不需要继续切分:一行一个词,utf8编码,不能有空格或者\t符号,例如:
开放搜索
opensearch
2)干预词条需要继续切分:原始词和切分之后的词,utf8编码,之间用\t分割,切分词之间用空格分隔,例如:
开放搜索 开放 搜索
opensearch open search
发布新编辑的词典配置版本:
为词典配置新版本添加备注:
发布后,系统自动生成一个新的词典配置版本:
为了使配置在集群中生效,需要推送离线配置并做触发索引重建:
可在运维中心 > 变更历史中,数据源变更中查看全量进度:
索引重建成功后,线上查询即可生效。
删除词典配置版本
状态为“未使用”的词典配置版本,可以直接在高级配置 > 词典配置界面删除:
状态为“使用中”的词典配置版本,只可进行“查看”,若需删除,请在运维中心>运维管理>配置更新中选择“词典配置版本”时引用其他词典配置版本,然后推送配置并触发索引重建,索引重建后,当该“词典配置版本”处于“未使用”的状态时即可删除。
注意事项
每个实例只能存在一个编辑中的词典配置版本;
线上使用的版本只可查看,无法删除;
高级配置目前支持词典配置和查询配置