AI搜索开放平台围绕智能搜索及RAG场景,将AI搜索链路中用到的算法服务以组件化形式提供,内置文档解析、文档切片、文本向量化、查询分析、召回、排序、效果评估以及LLM模型服务,开发者根据自身情况灵活选择组件服务进行搜索业务开发。
产品能力
文档解析服务
支持文档、图片分钟级解析,针对PDF、DOC、HTML、TXT等文档,能够区分多种版式,从非结构化文档中提取出标题、分段等逻辑层级结构,以及文本、表格、图片、代码等信息,去除页眉、页脚、识别上标、下标等信息,以结构化的格式输出。
图片解析服务
针对架构图、分析图表等图片数据,提供图片内容理解服务,可基于多模态大模型对图片内容进行解析理解以及文字识别,也可基于OCR能力对图片文字进行识别,将文字信息提取出来,用于图片检索及问答等场景。
文档切片服务
提供通用文档切片服务,可基于文档语义、段落结构以及指定规则进行切分,以便提升后续文档处理及检索效率,输出的切片树可在检索召回时进行上下文补全。
多语言向量模型
文本向量化提供将文本数据转化为稠密向量形式表达的服务,支持多款不同语言、输入长度、输出维度的文本向量模型,可用于信息检索、文本分类、相似性比较等场景。
文本稀疏向量化提供将文本数据转化为稀疏向量形式表达的服务,稀疏向量存储空间更小,常用于表达关键词和词频信息,可与稠密向量搭配进行混合检索,提升最终检索效果。
向量微调服务提供向量模型调优服务,可通过定制训练向量降维模型,在不带来过多检索效果损失的情况下,辅助将高维度向量降低维度,以便提升性价比。
查询分析服务
提供Query内容分析服务,基于大语言模型及NLP能力,可对用户输入的查询内容进行意图识别、相似问题扩展、NL2SQL处理等,有效提升RAG场景中检索问答效果。
搜索引擎
提供向量检索、文本检索引擎,可进行向量&文本内容存储、构建索引、以及在线向量&文本检索,开通引擎服务后,可与AI搜索开放平台丰富的API服务组合使用。
排序服务
提供Query及DOC的相关性排序服务,在RAG及搜索场景中,可通过排序服务找到相关性更高的内容并依次返回,引入排序服务可有效提升检索及大模型生成的准确率。
大模型内容生成服务
提供多种大语言模型服务,包含通义系列的通义千问-Turbo、通义千问-Plus、通义千问-Max、通义千问-MAX-长文本大模型。同时内置OpenSearch-通义千问-Turbo大模型,该模型以qwen-turbo大规模语言模型为模型底座,进行有监督的模型微调强化RAG检索增强的能力,降低模型幻觉率。
产品优势
丰富的AI搜索能力:依托领先的模型底座训练AI搜索专属模型,内置搜索及RAG场景全链路组件化服务。
灵活的调用方式:通过API、SDK调用服务,方便开发者、企业客户及ISV技术人员将部分或全链路AI搜索服务集成到自身业务链路中。
开箱即用:开通后即可灵活调用全量服务。
最佳实践:基于OpenSearch多年在智能搜索、RAG领域的沉淀,内置多种AI搜索最佳实践,可快速搭建更加适配业务需求的搜索链路。
应用场景
借助AI搜索开放平台,您可以:
RAG检索增强生成业务开发
应用场景:
智能客服
对话式搜索
知识图谱增强
个性化推荐
开发示例请参见:基于RAG搭建问答系统。
多模态搜索业务开发
使用场景:
电商、零售智能搜索
内容资讯搜索
游戏行业搜索
医疗行业搜索
金融行业搜索
开发示例请参见:多模态搜索业务开发