全部产品
云市场

功能和使用流程概览

更新时间:2019-07-25 09:35:01

一. 功能基本介绍

当搜索业务发展到一定阶段,由文档的多个显式特征定义的排序表达式对于搜索结果转化率指标的提升会越来越不明显。从这个阶段开始,用户行为数据对于搜索排序效果的提升将会承担重要的角色。受限于行为日志数据的庞大和繁杂,往往需要机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型将行为数据量化成合理的分数,最终在排序中使用。想要在业务中高效实现这一整套机器学习流程,往往会面临以下问题:

  • 数据采集和预处理:每天亿级数据需要自动化采集,存储和处理,同时对这些原始数据还需要进行统计分析和处理从而发现用户行为基本规律,具备强分析能力和长期的积累。比如,发现原始数据正负样本不均衡,如何构造处理出适合进行模型训练的正负样本数据需要一定的算法工作经验。
  • 算法调参:面对错综复杂的算法参数,算法使用者们往往要花费无尽的黑夜去不断尝试,犹如大海捞针。有的时候加班到深夜,终于找到了一个靠谱的参数组合,然而找到的参数组合真的是最优的么?天知道。

基于以上问题,OpenSearch算法平台致力为用户提供一站式高质量可定制的搜索算法服务平台。通过高可视化的方式支持用户在平台上完成数据预处理、特征工程、算法调参、模型评估、模型管理、模型上线等繁杂的算法日常工作,同时平台集成集团内部成熟的排序算法模型,快速提升用户的开发效率和业务的搜索效果。

二. 功能适用的业务场景

适合要求更精准更优质搜索效果的全行业全业务场景,但是为了确保模型训练的精准性,建议天级搜索pv≥10w的业务场景使用。

三. 功能使用的全链路流程概览

1

第一步:在OpenSearch开通行为采集服务,开通后即可通过sdk [aliyun-sdk-opensearch-3.3.0](Java版)[opensearch-sdk-php-release-v3.1.0](Php版)在server端向OpenSearch推送行为数据,为了效果保证建议数据至少推送2天以上再进行后续算法平台的使用。数据采集上传字段含义及sdk demo文档,请点击此处查看。
2

第二步:行为数据推送到OpenSearch后,即可通过控制台进入算法平台。在平台中,

  1. 创建算法工程,对工程绑定算法功能和数据源。
  2. 算法工程中进行模型创建。模型创建包括数据预处理、特征工程以及算法配置的定义。
  3. 完成以上配置后即可触发模型训练。
  4. 待模型训练完成后会产出模型的评估报告和训练样本数据的字段统计图表。根据评估报告和样本数据的统计结论,决定模型继续迭代还是部署到OpenSearch应用。

3


4


5

第三步:部署完成后即可在应用的粗排和精排表达式中使用训练好的模型,即可在查询中使用对应的排序表达式了。
6