通用特征(features)
简介:
包com.aliyun.opensearch.cava.features封装了所有在算分排序过程中可以使用的特征库和特征函数。用户可以使用这些特征库来计算查询词和文档的相关性,匹配查询请求与文档的标签并进行加权,获取文档的人气分等。
类列表:
功能类
类名称 | 类简介 |
匹配文档和请求中的标签 | |
提供了一系列常用的功能型函数,比如衰减函数,归一化函数等 | |
获取基础表达式最终计算分值 |
算法类
类名称 | 类简介 |
获取文档的类目分 | |
获取文档的人气分 |
时效类
类名称 | 类简介 |
提供了一系列与时间操作相关的函数,用于获取当前时间或者文档的时效性分数 |
地理位置类
类名称 | 类简介 |
计算文档中的点与请求中的点球面距离 |
相关性特征(similarity)
简介:
包com.aliyun.opensearch.cava.features.similarity封装了在算分排序过程中用于计算文本相关性的特征类,用户使用这些特征类可以计算查询词语文档的文本相关性。除了一些通用的文本相关性特征类以外,根据相关性衡量维度的不同,对com.aliyun.opensearch.cava.features.similarity又进行了更细粒度的切分,主要可以分为下面3个子包。
com.aliyun.opensearch.cava.features.similarity.distribution:计算查询词在字段上的分布。
com.aliyun.opensearch.cava.features.similarity.fieldmatch:计算查询词与字段的匹配程度。
com.aliyun.opensearch.cava.features.similarity.querymatch:计算字段与整个查询query的匹配程度。
通用相关性类列表
类名称 | 类简介 |
计算查询词与指定字段的文本相关性 | |
获取查询中向量索引的相似度分数。 | |
获取BasicSimilarityScorer计算的分数,主要用于IntelligenceAlgorithmScorer中。 |
com.aliyun.opensearch.cava.features.similarity.distribution包含的类列表
类名称 | 类简介 |
计算查询词在指定字段上的紧密度 | |
计算查询词在某个字段上命中的分词词组个数与该词组在字段上的最小窗口的比值 |
com.aliyun.opensearch.cava.features.similarity.fieldmatch包含的类列表
类名称 | 类简介 |
获取指定字段的分词词组个数 | |
计算查询词和指定字段的匹配程度 | |
计算查询词在指定字段上的匹配个数 | |
计算查询词在指定字段上的匹配度 | |
计算查询词在指定字段的上的BM25值 | |
BM25F是在BM25的基础上,计算查询词在多个字段上的文本相关性 | |
用于判断查询词的核心词与指定字段的匹配情况 |
com.aliyun.opensearch.cava.features.similarity.querymatch包含的类列表
类名称 | 类简介 |
计算查询词中命中的词组与总词组的比值 | |
计算查询词分词词组个数 | |
计算查询词中命中的词组个数 |
算法模型性特征(algo)
包com.aliyun.opensearch.cava.features.algo封装了在算分过程中算法模型性格的特征类。通过这些类,可以在算分过程中引用模型的分数。
类列表:
类名 | 类简介 |
AlgoModel | 支持使用深度模型对文档进行打分,需要用户在开放搜索中配置了深度模型,并且模型回流成功。该特征只能用在IntelligenceAlgorithmScorer中。 |