com.aliyun.opensearch.cava

通用特征(features)

简介:

com.aliyun.opensearch.cava.features封装了所有在算分排序过程中可以使用的特征库和特征函数。用户可以使用这些特征库来计算查询词和文档的相关性,匹配查询请求与文档的标签并进行加权,获取文档的人气分等。

类列表:

功能类

类名称

类简介

TagMatch

匹配文档和请求中的标签

Util

提供了一系列常用的功能型函数,比如衰减函数,归一化函数等

first_phase_score

获取基础表达式最终计算分值

算法类

类名称

类简介

CategoryScore

获取文档的类目分

Popularity

获取文档的人气分

时效类

类名称

类简介

Time

提供了一系列与时间操作相关的函数,用于获取当前时间或者文档的时效性分数

地理位置类

类名称

类简介

Distance

计算文档中的点与请求中的点球面距离

相关性特征(similarity)

简介:

com.aliyun.opensearch.cava.features.similarity封装了在算分排序过程中用于计算文本相关性的特征类,用户使用这些特征类可以计算查询词语文档的文本相关性。除了一些通用的文本相关性特征类以外,根据相关性衡量维度的不同,对com.aliyun.opensearch.cava.features.similarity又进行了更细粒度的切分,主要可以分为下面3个子包。

  • com.aliyun.opensearch.cava.features.similarity.distribution:计算查询词在字段上的分布。

  • com.aliyun.opensearch.cava.features.similarity.fieldmatch:计算查询词与字段的匹配程度。

  • com.aliyun.opensearch.cava.features.similarity.querymatch:计算字段与整个查询query的匹配程度。

通用相关性类列表

类名称

类简介

TextRelevance

计算查询词与指定字段的文本相关性

ProximaScore

获取查询中向量索引的相似度分数。

basicSimilarityScore

获取BasicSimilarityScorer计算的分数,主要用于IntelligenceAlgorithmScorer中。

com.aliyun.opensearch.cava.features.similarity.distribution包含的类列表

类名称

类简介

FieldTermProximity

计算查询词在指定字段上的紧密度

QueryMinSlideWindow

计算查询词在某个字段上命中的分词词组个数与该词组在字段上的最小窗口的比值

com.aliyun.opensearch.cava.features.similarity.fieldmatch包含的类列表

类名称

类简介

FieldLength

获取指定字段的分词词组个数

FieldMatchRatio

计算查询词和指定字段的匹配程度

FieldTermMatchCount

计算查询词在指定字段上的匹配个数

FieldMatchWeighted

计算查询词在指定字段上的匹配度

BM25

计算查询词在指定字段的上的BM25值

BM25F

BM25F是在BM25的基础上,计算查询词在多个字段上的文本相关性

KeyWordsMatched

用于判断查询词的核心词与指定字段的匹配情况

com.aliyun.opensearch.cava.features.similarity.querymatch包含的类列表

类名称

类简介

QueryMatchRatio

计算查询词中命中的词组与总词组的比值

QueryTermCount

计算查询词分词词组个数

QueryTermMatchCount

计算查询词中命中的词组个数

算法模型性特征(algo)

包com.aliyun.opensearch.cava.features.algo封装了在算分过程中算法模型性格的特征类。通过这些类,可以在算分过程中引用模型的分数。

类列表:

类名

类简介

AlgoModel

支持使用深度模型对文档进行打分,需要用户在开放搜索中配置了深度模型,并且模型回流成功。该特征只能用在IntelligenceAlgorithmScorer中。