如何实现教育搜题功能_智能开放搜索 OpenSearch(Open Search)-阿里云帮助中心

教育搜题业务特点

教育搜题行业专属的教育分词器

2. 查询语义理解：

分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器，同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。

示例

3. 类目预测：

什么是类目预测？

简单来说，用户输入一个query，查询得到一批物品，通过计算每一个物品所属的类目与query之间的相关度，只要物品的排序公式中引用了这个相关度，那么对于这个物品来说，它所属的类目与query的相关度越高，它的排序公式的计算结果就获得了越高的排序得分，从而这个物品就会排在越前面。

类目预测在教育行业的应用：

4. 词权重分析：

功能介绍：该功能主要分析了查询中每一个词在文本中的重要程度，并将其量化成权重，权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时，仍然按用户输入的查询词限制召回，导致命中结果过少。

功能用途： Query丢词、改写、文本相关性分析；

1）基于用户行为生成训练数据：

2）词权重模型训练：

query	35 的因数有 ( ) , 100 以内 24 的倍数有 ( )
对应权重分	4 1 71 1 1 1 1 1 4 1 7 1 1 1

此题目中“因数”和“倍数”的权重分最高7分，参与召回的权重也就最高，其次是“35”和“24”为4分，其他权重分为1分的，不参与召回；

5. query改写：

为了满足业务的灵活需求，开放搜索支持批量干预：词典、拼写纠错，同义词，词权重等。

1）OCR识别可能会把一些非题目要素识别进来干扰query分析的结果，这时候可以使用词权重干预的方式保证非题目要素字段被打标成低权重，保证召回和排序效果

2）用户可以自定义同义词来扩召回，例如"立方米" -> "吨"

排序定制

系统开放了两阶段排序过程：基础排序和业务排序，即粗排和精排；基础排序即是海选，从检索结果中快速找到质量高的文档，取出TOP N个结果再按照精排进行精细算分，最终返回最优的结果给用户。为了实现更细粒度的排序效果，结合排序表达式（Ranking Formula）可以为应用自定义搜索结果排序方式。

，

客户效果对比

某在线教育平台，主打K12教育，用户数千万级别，题库量8千万左右且持续增加，由自建题库和第三方题库两部分组成，之前通过OCR+自建ES搜索服务实现拍照搜索功能，面临的主要问题是搜索准确率待优化提升，降低搜索延迟等问题。

开放搜索接入后：

级别	旧版自建召回结果	开放搜索召回结果
top1	某歌舞团独唱演员张慧月工资RMB 5,800,2006年6月,张慧参加了该团在上海的3场演出,得到RMB 3800元报酬...	张惠言所指与“小词”大概相近的是乐府之音。
top2	张慧研对音乐的喜好源于...	张惠言所指与“小词”大概相近的是乐府之音。（）
top3	下列文献中,属于张慧老师在中国音乐期刊上发表文章的引证文献是	下列选项中属于张惠言所指与“小词”大概相近的是（）。

搜题Query: “如图是由一些相同的小正方体搭成的几何体从三个不同方向看得到的形状图,则搭成这样的几何体需要__个小正方体. 0 A 3 从上面看看从正面看”