教育行业算法版介绍
教育行业算法版基于最新算法功能,贴合搜题场景的痛点和需求,提供了教育行业专属的搜题智能语义理解能力、向量召回、排序算法,为在线教育行业搜题业务的搜索性能和效果准确性提供双重保障,并有效的解决了超大题库数据导致的搜索延迟高、资源消耗大、题库不完整导致的搜索无结果率高等行业重难点问题,提供多模态搜索解决方案。针对教育行业,开放搜索还提供了向量模型,以实现向量召回及多路搜索,提高搜题准确率,详见多路搜索。
二者功能差异
功能列表 | 通用行业 | 教育行业算法版 |
一站式配置 | 创建应用后,需要手动创建并配置查询分析、排序策略和下拉提示模型。 | 结合教育行业常见搜索场景,选择所需能力及功能,同时提供应用结构模板和索引结构模板,实现一键式配置,降低新用户使用门槛。 |
查询分析 | 针对通用行业提供同义词拓展、停用词省略、拼写纠错、词权重分析、类目预测等能力。 | 针对教育通用行业及搜题垂类场景,提供增强版分析器与查询分析功能。结合教育搜题场景及行业难题,更精准的构建索引并识别用户查询意图,与通用版相比效果更优。 |
策略排序 | 创建应用后,需要结合业务场景手动配置并调试相应的排序策略。 | 在应用结构模板和索引结构模板基础上,提供教育行业常用基础排序、业务排序表达式,无需额外配置即可满足大部分教育行业排序效果需求。 |
功能迭代 | 定期更新分析器、查询分析等系统默认词典。 | 根据教育行业的名词、产品等变化,不断迭代更新,优化原有分词、查询分析能力,提供更高时效性的服务保障。 |
查询分析效果对比
行业增强版较通用版相比在查询分析功能上做出了更深入的优化,不仅在通用版的基础上更新了常见bad case,而且针对教育行业集各家之所长,丰富已有词库,如下根据各个功能举例:
分词:(以空格分词)
query | 通用版 | 行业增强版 |
Atteno's clockwehaveourbreak. | Atteno ' s clockwehaveourbreak . | At ten o'clock we have our break . |
BeforeIgottonthebusstop,thebushadalreadyleft. | BeforeIgottonthebusstop , thebushadalreadyleft . | Before I got to the bus stop , the bus had already left . |
Itis20yuan. | Itis 20 yuan . | It is 20 yuan . |
minusfrac12xmsup3yplus3xymsup3minus5x | minusfrac 12 xmsup 3 yplus 3 xymsup 3 minus 5 x | minus frac 12 x msup 3 y plus 3 xy msup 3 minus 5 x |
adequal2,bcequal4 | adequal 2 , bcequal 4 | ad equal 2 , bc equal 4 |
矩形leftoabcright的顶点leftoright | 矩形 leftoabcright 的顶点 leftoright | 矩形 left oabc right 的顶点 left o right |
注意事项
教育行业算法版应用的创建流程可以参考文档:教育行业算法版
独享通用版应用可转为行业增强版,行业增强版应用不可转为通用版;
教育行业算法版仅适用于独享型应用;
如果是共享型应用变规格到独享型再进行教育行业算法版适配,需要线上应用规格与实例规格一致(同为独享型)后再做教育行业算法版适配操作;
应用结构中务必添加字段标签所对应的字段名称,否则会报错;
索引结构中务必添加索引标签所对应的索引名称,否则不能进行下一步: