文档

服务概览

更新时间:

您可以通过服务广场查阅搜索开发工作台提供的各类服务的详情。

操作步骤

  1. 登录搜索开发工作台控制台

  2. 选择上海地域,切换到搜索开发工作台

    说明

    目前仅支持在上海地域开通搜索开发工作台功能。

  3. 在左侧导航栏选择服务广场

    服务类别

    服务说明

    文档内容解析

    文档内容解析服务(ops-document-analyze-001):提供通用文档解析服务,支持从非结构化文档(文本、表格、图片等)中提取标题、分段等逻辑层级结构,以结构化格式输出。

    图片内容解析

    • 图片内容理解服务(ops-image-analyze-vlm-001):可基于多模态大模型对图片内容进行解析理解以及文字识别,解析后的文本可用于图片检索、问答场景。

    • 图片文本识别服务(ops-image-analyze-ocr-001):可使用OCR进行图片文字识别,识别后的文本可用于图片检索问答场景。

    文档切片

    文档切片服务(ops-document-split-001):提供通用文本切片服务,支持基于文档段落、文本语义、指定规则,对HTML、Markdown、txt格式的结构化数据进行拆分,同时支持以富文本形式提取文档中的代码、图片以及表格。

    文本向量化

    • OpenSearch文本向量化服务-001(ops-text-embedding-001):提供多语言(40+)文本向量化服务,输入文本最大长度300,输出向量维度1536维。

    • OpenSearch通用文本向量化服务-002(ops-text-embedding-002):提供多语言(100+)文本向量化服务,输入文本最大长度8192,输出向量维度1024维。

    • OpenSearch文本向量化服务-中文-001(ops-text-embedding-zh-001):提供中文文本向量化服务,输入文本最大长度1024,输出向量维度768维。

    • OpenSearch文本向量化服务-英文-001(ops-text-embedding-en-001):提供英文文本向量化服务,输入文本最大长度512,输出向量维度768维。

    文本稀疏向量化

    提供将文本数据转化为稀疏向量形式表达的服务,稀疏向量存储空间更小,常用于表达关键词和词频信息,可与稠密向量搭配进行混合检索,提升检索效果。

    OpenSearch文本稀疏向量化服务(ops-text-sparse-embedding-001):提供多语言(100+)文本向量化服务,输入文本最大长度8192。

    查询分析

    提供Query内容分析服务,基于大语言模型和NLP能力,可对用户输入的查询内容进预处理及相关识别,同时支持相似问题扩展,有效提升RAG场景中检索问答效果。

    查询分析服务001(ops-query-analyze-001):通用Query分析服务,基于大语言模型对用户输入Query进行意图理解,以及相似问题扩展。

    排序服务

    BGE重排模型(ops-bge-reranker-larger):通用文档打分服务,支持根据Query与文档内容的相关性,按分数由高到低对文档排序,并输出打分结果。

    大模型

    • OpenSearch-通义千问-Turbo(ops-qwen-turbo):以qwen-turbo大规模语言模型为模型底座,进行有监督的模型微调,强化检索增强,减少有害性。

    • 通义千问-Turbo(qwen-turbo):通义千问超大规模语言模型,支持中文、英文等不同语言输入,详情请参见通义千问大语言模型介绍

    • 通义千问-Plus(qwen-plus):通义千问超大规模语言模型的增强版,支持中文、英文等不同语言输入,详情请参见通义千问大语言模型介绍

    • 通义千问-Max(qwen-max):通义千问千亿级别超大规模语言模型,支持中文、英文等不同语言输入,详情请参见通义千问大语言模型介绍

    • 通义千问-MAX-长文本(qwen-max-longcontext):通义千问千亿级别超大规模语言模型,支持中文、英文等不同语言输入。模型支持30k tokens上下文,API限定用户输入为28k tokens,详情请参见通义千问大语言模型介绍

  4. 选择服务卡片左下角查看详情,查看当前服务的服务名称服务ID服务简介以及收费方式

  5. 选择服务卡片右上角体验,可跳转至体验中心,对服务进行测试和效果预览,详情请参见体验中心