教育搜题业务特点
海量题库且持续增长,数据库压力大;
存在高峰时段集中,用户搜索并发量大,搜索延迟直接影响用户体验;
覆盖不同阶段学习、用户场景越来越丰富;
学科分类众多,数据越来越复杂,搜索存在跨学科错误;
需要强大的算法算力支撑,提升搜题准确性;
依赖多模态搜索能力来解决图文搜索需求
依赖多语言处理能力来处理英语等其他语言搜题需求
阿里云开放搜索教育行业最佳实践
教育搜题行业专属的教育分词器
query处理流程:
2. 查询语义理解:
分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。
示例
Query
下面三角形的面积是多少平方厘采?
拼写纠错
下面三角形的面积是多少平方厘米?
学科类目预测
数学
分词
下面 三角形 的 面积 是 多少 平方 厘米 ?
词权重
1 7 1 7 1 4 7 7 1
同义词改写
平方 厘米 -> (cm ^ 2)
文本向量化
-0.100582,-0.0540699,-0.0417337,0.0602,...
3. 类目预测:
什么是类目预测?
简单来说,用户输入一个query,查询得到一批物品,通过计算每一个物品所属的类目与query之间的相关度,只要物品的排序公式中引用了这个相关度,那么对于这个物品来说,它所属的类目与query的相关度越高,它的排序公式的计算结果就获得了越高的排序得分,从而这个物品就会排在越前面。
类目预测在教育行业的应用:
结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
预测各⽂本⽚段的字段类型(题干描述、选项等等);
4. 词权重分析:
功能介绍:该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少。
功能用途: Query丢词、改写、文本相关性分析;
1)基于用户行为生成训练数据:
2)词权重模型训练:
序列标注模型 ;
预测标签(7,4,1), 分值越⾼表⽰term的重要性越⼤,召回结果更准确;
示例:
query | 35 的 因数有 ( ) , 100 以内 24 的 倍数有 ( ) |
对应权重分 | 4 1 71 1 1 1 1 1 4 1 7 1 1 1 |
此题目中“因数”和“倍数”的权重分最高7分,参与召回的权重也就最高,其次是“35”和“24”为4分,其他权重分为1分的,不参与召回;
5. query改写:
为了满足业务的灵活需求,开放搜索支持批量干预:词典、拼写纠错,同义词,词权重等。
示例
1)OCR识别可能会把一些非题目要素识别进来干扰query分析的结果,这时候可以使用词权重干预的方式保证非题目要素字段被打标成低权重,保证召回和排序效果
2)用户可以自定义同义词来扩召回,例如"立方米" -> "吨"
排序定制
系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式。
,
客户效果对比
某在线教育平台,主打K12教育,用户数千万级别,题库量8千万左右且持续增加,由自建题库和第三方题库两部分组成,之前通过OCR+自建ES搜索服务实现拍照搜索功能,面临的主要问题是搜索准确率待优化提升,降低搜索延迟等问题。
开放搜索接入后:
搜题准确率绝对值提升5%;
延时从100ms-300ms降到稳定50ms;
离线数据同步大于4000TPS
搜题Query:"张慧研所指与小磁大概相近的是乐府之音"
级别 | 旧版自建召回结果 | 开放搜索召回结果 |
top1 | 某歌舞团独唱演员张慧月工资RMB 5,800,2006年6月,张慧参加了该团在上海的3场演出,得到RMB 3800元报酬... | 张惠言所指与“小词”大概相近的是乐府之音。 |
top2 | 张慧研对音乐的喜好源于... | 张惠言所指与“小词”大概相近的是乐府之音。() |
top3 | 下列文献中,属于张慧老师在中国音乐期刊上发表文章的引证文献是 | 下列选项中属于张惠言所指与“小词”大概相近的是()。 |
搜题Query: “如图是由一些相同的小正方体搭成的几何体从三个不同方向看得到的形状图,则搭成这样的几何体需要__个小正方体. 0 A 3 从上面看看从正面看”
级别 | 旧版自建召回结果 | 开放搜索召回结果 |
top1 | ||
top2 | ||
top3 |