词典配置

更新时间:
复制 MD 格式

简介

高级配置中的词典配置主要为用户提供自定义分词的功能,当系统提供的分词器对query的分词结果无法满足用户的业务需求时,可以通过配置对应分词器的自定义词典来干预分词结果,以达到用户的目的

系统默认为用户提供两个词典配置版本,后缀为_offline_adv_v1的词典配置版本由系统默认创建,其中包含8种类型的分词器词典:

词典类型

中文-通用分析器.dict

行业-电商通用分析器.dict

行业-游戏通用分析器.dict

行业-教育题目分析器.dict

行业-内容文娱分析器.dict

行业-英文电商通用.dict

行业-内容IT分析.dict

中文-电商分析.dict

后缀为_offline_adv_edit的高级配置版本可由用户进行编辑,添加新分词词条后,单击发布,系统会自动生成一个新的高级配置版本,后缀依次递增,如第二次发布时高级配置版本名称后缀为_offline_adv_v2。各个高级配置版本之间可由备注显示区分用途。

添加自定义干预词条

分词bad case:用户某条doc内容为“乒乓球拍卖完了”,当用户搜索“球拍”时无法将其召回,原因是因为“乒乓球拍卖完了”分词后的内容为“乒乓/球/拍卖/完了”,由于搜索query分词后的itemdoc内容分词后的item无法完全匹配,导致该doc无法通过“球拍”召回。

解决方法:通过添加自定义分词词条,“乒乓球拍”=>“乒乓球拍”,解决分词的bad case,步骤如下:

  1. 配置中心 > 高级配置页面中,找到后缀为“_offline_adv_edit”的高级配置版本,单击操作中的编辑按钮:

    该版本位于词典配置页签下的版本列表中。完成编辑后,返回此页面,单击该版本操作列中的发布按钮以发布词典配置。

  2. 找到对应索引表中索引引用的分词类型,单击编辑

  3. 添加自定义词条支持两种方式:

    • 界面文本框输入自定义干预词条:乒乓球拍 ,单击确定。在左侧词典配置文件列表中选择目标词典(如中文-通用分析器.dict),在右侧词条管理面板的编辑区中直接输入自定义干预词条(如乒乓球拍),单击确定完成保存。

    • 界面上传新增词典文件,上传文件内容后,可继续在界面框内进行编辑,单击确定

      干预词典词条格式为词语 分词1 分词2,例如西红柿 西红 柿人工智能 人工 智能篮球鞋 篮球 鞋,每行一条词条。

      注意文件限制:文件大小需小于5M,文件格式为.dict或.txt

    词条支持以下两种格式:

    1)干预词条不需要继续切分:一行一个词,utf8编码,不能有空格或者\t符号,例如:

    开放搜索
    opensearch

    2)干预词条需要继续切分:原始词和切分之后的词,utf8编码,之间用\t分割,切分词之间用空格分隔,例如:

    开放搜索	开放 搜索
    opensearch	open search
  4. 发布新编辑的词典配置版本。

    为词典配置新版本添加备注:在版本发布弹窗的备注输入框中填写版本说明,单击确定完成发布。版本发布后将无法修改。

    发布后,系统自动生成一个新的词典配置版本:

    新版本的版本状态为未使用,可在词典配置页签的版本列表中查看。

  5. 为了使配置在集群中生效,需要推送离线配置并做触发索引重建。

    运维中心 > 运维管理页面,单击配置更新。在实例配置更新面板中,配置类型选择离线配置,选择对应的词典配置版本,勾选目标集群,是否触发索引重建选择推送配置并触发索引重建,然后单击确定

    可在运维中心 > 变更历史中,数据源变更中查看全量进度:

    全量任务的流水线步骤依次为 inittriggerscanbuildswitch,各步骤完成后显示绿色对勾,正在执行的步骤显示加载图标,全部完成即表示索引重建成功。

    索引重建成功后,线上查询即可生效。

删除词典配置版本

状态为未使用的词典配置版本,可以直接在高级配置 > 词典配置界面删除。

状态为使用中的词典配置版本,只可进行查看,若需删除,请在运维中心>运维管理>配置更新中选择词典配置版本时引用其他词典配置版本,然后推送配置并触发索引重建,索引重建后,当该词典配置版本处于未使用的状态时即可删除。

注意事项

  • 每个实例只能存在一个编辑中的词典配置版本。

  • 线上使用的版本只可查看,无法删除。

  • 高级配置目前支持词典配置和查询配置。