自定义词典

Lindorm搜索引擎支持自定义词典功能,该功能是通过更新配置集实现的。您可以根据需求更新词库和停词库。本文介绍自定义词典的方法。

前提条件

使用限制

分词词典仅支持ik分词器,您可以通过创建搜索索引来指定分词器,具体语法,请参见CREATE SEARCH INDEX

操作步骤

  1. 执行以下命令,进入lindorm-search-cli/bin目录。

    cd lindorm-search-cli/bin
  2. 执行以下命令查看配置集列表。

    ./search-cli zk ls /configs
  3. 执行以下命令,下载需要修改的配置集到当前目录。执行成功后在当前目录下会生成一个conf目录。

    ./search-cli zk downconfig -d . -n <配置集的名称>

    示例如下:

    ./search-cli zk downconfig -d . -n default.myTable.myIdx
  4. 执行以下命令,进入conf目录。

    cd conf
  5. 如果conf目录下没有extra_main.dic文件,您需要执行以下命令,新建一个词库文件并命名为extra_main.dic

    touch extra_main.dic
  6. 执行以下命令编辑词库文件。

    vi extra_main.dic

    内容格式示例如下,要求每行有且只有一个词语:

    用户指南
    产品简介
    引擎简介
  7. 执行以下命令编辑停词库文件。文件名默认为extra_stopword.dic

    vi extra_stopword.dic
  8. 执行以下命令,返回到bin目录。

    cd ..
  9. 执行以下命令上传配置集到服务端。

    ./search-cli zk upconfig -d conf -n default.myTable.myIdx
  10. 执行以下命令使配置集生效。

    ./search-cli  reload_collection -c default.myTable.myIdx