如何快速体验文档解析、图片内容提取、文档切片等各类服务-智能开放搜索 OpenSearch(Open Search)-阿里云帮助中心

服务广场汇聚了 AI 搜索开放平台的全量服务，支持免登录直接查阅详情。您可以通过体验中心可视化试用文档解析、多模态向量/排序、主体识别、文本向量及视频解析等核心能力，快速验证服务与业务需求的匹配度。

服务概览

智能体搜索服务

服务类别	服务说明
智能体记忆	Agentic Memory智能体记忆服务：为智能体提供长期、短期和上下文记忆的存储与检索，支持Memory（用户偏好、兴趣等）和Skill（可复用执行逻辑）两类数据的管理，采用BM25与向量检索结合的融合检索技术，实现高效准确的记忆召回。
大模型	Qwen3-235B-A22B：新一代Qwen系列大型语言模型，基于广泛的训练，Qwen3在推理、指令跟随、Agent能力和多语言支持方面取得了突破性进展，可支持100多种语言和方言，具备强大的多语言理解、推理和生成能力。 OpenSearch-千问-Turbo：以qwen-turbo大规模语言模型为模型底座，进行有监督的模型微调，强化检索增强，减少有害性。千问-Turbo：千问系列速度最快、成本极低的模型，适合简单任务，详情请参见选择模型。千问-Plus：能力均衡，推理效果、成本和速度介于千问-Max和千问-Turbo之间，适合中等复杂任务，详情请参见选择模型。千问-Max：千问系列效果最好的模型，适合复杂、多步骤的任务，详情请参见选择模型。 DeepSeek-R1：专注于复杂推理任务的大语言模型，在复杂指令理解、结果准确性等方面表现较突出。 DeepSeek-V3：MoE模型，在长文本、代码、数学、百科、中文能力上表现优秀。 DeepSeek-R1-distill-qwen-7b：基于知识蒸馏技术，通过使用DeepSeek-R1生成的训练样本对Qwen-7B微调训练的模型。 DeepSeek-R1-distill-qwen-14b：基于知识蒸馏技术，通过使用DeepSeek-R1生成的训练样本对Qwen-14B微调训练的模型。 DeepSeek-V4-Pro：旗舰级MoE大模型，总参1.6T、激活49B，原生支持百万级超长上下文。依托海量高质量训练数据，具备顶尖数学逻辑、复杂推理、专业代码与长文本深度解析能力，适配高阶科研、复杂办公、深度智能代理等高难度场景。 DeepSeek-V4-Flash：高效轻量化MoE模型，总参284B，激活13B，原生支持百万超长上下文能力。推理速度快、延迟低、调用成本低廉，综合能力均衡，主打高并发、轻量化任务，适合日常对话、内容创作、基础RAG、批量文案处理等普惠刚需场景。
联网搜索	搜索过程中，当私有知识库无法给出相应的答案时，可拓展联网搜索，获取更多互联网信息，补充私有知识库，结合大语言模型给出更丰富的回答。
查询分析	通用Query分析服务：基于大语言模型及NLP能力，对用户输入的查询内容进行意图识别、相似问题扩展、NL2SQL处理等，有效提升RAG场景中检索问答效果。
排序服务	BGE重排模型：基于BGE模型的文档重排服务，根据Query与文档的语义相关性进行打分排序。支持中英双语，最大输入token长度512（Query+Doc长度）。 OpenSearch自研重排模型：融合多行业数据集训练的高水准重排服务，根据Query与文档的语义相关性进行排序。支持中英双语，最大输入token长度512（Query+Doc长度）。 Qwen3排序服务-0.6B：Qwen3系列文档重排服务，支持100+语言，最大输入token长度32k（Query+doc长度），参数量0.6B。文本排序-ops-bge-reranker-v2：高性能文本重排序模型，用于对检索结果进行精细化重新排序，以提升RAG（检索增强生成）等场景中的相关性精度。

文本/文档处理服务

服务类别	服务说明
Jina AI Reader	一款专为大语言模型设计的网页内容提取服务，它能将任意URL转换为LLM友好的纯文本格式，自动去除广告、导航等干扰信息，精准提取网页核心内容。
文档内容解析	文档内容解析服务001：通用文档解析服务，支持从非结构化文档（文本、表格、图片等）中提取标题、分段等逻辑层级结构，以结构化格式输出。文档内容解析服务002：提供pdf、图片等多种非结构化文档格式的解析，对复杂元素（表格、公式和图表等）的识别方面出色，且具备较快的推理速度。
文本向量化	OpenSearch文本向量化服务-001：提供多语言（40+）文本向量化服务，输入文本最大长度300 token，输出向量维度1536维。 OpenSearch通用文本向量化服务-002：提供多语言（100+）文本向量化服务，输入文本最大长度8192 token，输出向量维度1024维。 OpenSearch文本向量化服务-中文-001：提供中文文本向量化服务，输入文本最大长度1024 token，输出向量维度768维。 OpenSearch文本向量化服务-英文-001：提供英文文本向量化服务，输入文本最大长度512 token，输出向量维度768维。 GTE文本向量-多语言-Base：多语言（70+）文本向量化服务，输入文本最大长度8192，输出向量维度768维。 Qwen3文本向量-0.6B：Qwen3系列多语言（100+）文本向量化服务，输入最大长度32k，输出向量维度1024维，参数量0.6B。文本向量-ops-dmeta-text-embedding-zh：专为中文优化的文本向量化模型，能够将中文文本转化为高质量的语义向量，适用于语义检索、文本相似度计算等任务。
文本稀疏向量化	OpenSearch文本稀疏向量化服务：将文本转化为稀疏向量表达，稀疏向量存储空间更小，常用于表达关键词和词频信息，可与稠密向量搭配进行混合检索以提升检索效果。支持多语言（100+），输入文本最大长度8192 token。
文档切片	提供通用文本切片服务，支持基于文档段落、文本语义、指定规则，对HTML、Markdown、TXT格式的结构化数据进行拆分，同时支持以富文本形式提取文档中的代码、图片以及表格。
向量降维	向量降维embedding-dim-reduction：提供向量模型调优服务，可通过定制训练将高维度向量降低维度，在不显著影响检索效果的前提下降低存储成本，提升性价比。

多模态处理服务

服务类别	服务说明
多模态向量	M2-Encoder-多模态向量模型：中英双语多模态服务，基于60亿图文对数据（其中30亿为中文数据，30亿为英文数据）在BM-6B基础上训练而成。该模型支持图文跨模态检索（包括文本搜索图片和图片搜索文本），以及图片分类任务。 M2-Encoder-Large-多模态向量模型：与M2-Encoder同架构，参数量提升至1B（10亿参数），在多模态任务中具备更强的表达能力和性能表现。 GME多模态向量-Qwen2-VL-2B：基于 Qwen2-VL 多模态大型语言模型（MLLMs）训练的多模态向量服务，支持单一模态及多模态组合输入，能够高效处理文本、图像及组合类型的数据。多模态向量-ops-mm-embedding-v1-2b：阿里云OpenSearch-AI团队开发，基于Qwen2-VL 2B Instruct微调，支持文本、图像、视频等单模态及多模态组合输入，适用于跨模态检索与理解任务。多模态向量-ops-mm-embedding-v1-7b：与2B版本能力相同，基于Qwen2-VL 7B Instruct微调，参数量更大，模型表达能力更强。电商多模态向量-ops-mm-embedding-ecom-001：由阿里云 OpenSearch-AI 团队自研的电商领域定制多模态向量模型，支持图搜图、图搜图文两种多模态搜索方式，适用于电商场景跨模态检索与理解任务。人脸多模态向量-ops-mm-embedding-face-001：面向人脸检索任务，通过先进的人脸向量模型，支持单张或多张图像输入，将人脸信息统一编码为高维语义向量，助力高效精准的人脸搜索与比对。
多模态排序	提供图像的相关性排序服务，可在RAG及多模态搜索场景中按相关性对检索结果重新排序，有效提升检索及大模型生成的准确率。
视频总结	提供视频总结服务，对指定视频片段进行理解，利用大模型能力生成视频总结、标题与标签。
视频切割	提供视频切割服务，对视频进行理解和分析，提取关键帧并将视频切割为相应段落。
视频截帧	视频截帧服务001：提供视频内容提取能力，可从视频中捕获关键帧画面。结合多模态向量服务或图片解析能力，实现跨模态检索。
语音识别	语音识别服务001：提供语音转文本能力，可将视频或音频中的语音内容快速转化为结构化文本。该服务支持多种语言。
主体识别	主体识别服务-ops-object-detect-001：从图像或视频中自动定位并识别主要目标或对象，支持单个及多个主体的识别，适用于智能监控、自动驾驶、图像检索等应用。人脸识别服务-ops-object-detect-face-001：从图像中自动定位并识别人脸，支持多个人脸的识别，适用于智能监控、图像检索等应用。服饰主体识别001-ops-object-detect-fashion-001：服饰类目主体识别模型，由阿里云OpenSearch团队自研，支持20多类服饰相关主体识别，输出主体类别、位置框及置信分。可用于复杂场景中主体提取，作为下游任务的输入，可排除图片背景或其他主体对下游embedding和rerank模型的干扰。
图片内容解析	图片内容理解服务：基于多模态大模型对图片内容进行解析理解以及文字识别，解析后的文本可用于图片检索、问答场景。
图片内容解析	图片文本识别服务：OCR图片文本识别，识别后的文本可用于图片检索问答场景。

功能介绍

体验中心提供以下服务：

服务大类	服务类别	服务说明
智能体搜索服务	智能体记忆为Agentic AI智能体与智能搜索服务提供长期/短期/上下文记忆存储与检索服务，支持个性化记忆memory，Agent智能体记忆，搜索记忆和技能Skill管理服务等多种搜索数据的存储、查询、更新和遗忘操作，采用BM25和向量检索结合的融合检索与多路召回技术，确保高效准确召回的智能记忆检索服务。	Agentic Memory智能体记忆服务：提供Memory和Skill两类数据的存储与管理：Memory存储用户个人爱好、兴趣、偏好等信息；Skill存储可复用的执行逻辑和技能。
	大模型	Qwen3-235B-A22B：新一代Qwen系列大型语言模型，基于广泛的训练，Qwen3在推理、指令跟随、Agent能力和多语言支持方面取得了突破性进展，可支持100多种语言和方言，具备强大的多语言理解、推理和生成能力。 OpenSearch-千问-Turbo：以qwen-turbo大规模语言模型为模型底座，进行有监督的模型微调，强化检索增强，减少有害性。千问-Turbo：千问系列速度最快、成本极低的模型，适合简单任务，详情请参见选择模型。千问-Plus：能力均衡，推理效果、成本和速度介于千问-Max和千问-Turbo之间，适合中等复杂任务，详情请参见选择模型。千问-Max：千问系列效果最好的模型，适合复杂、多步骤的任务，详情请参见选择模型。 DeepSeek-R1：专注于复杂推理任务的大语言模型，在复杂指令理解、结果准确性等方面表现较突出。 DeepSeek-V3：MoE模型，在长文本、代码、数学、百科、中文能力上表现优秀。 DeepSeek-R1-distill-qwen-7b：基于知识蒸馏技术，通过使用DeepSeek-R1生成的训练样本对Qwen-7B微调训练的模型。 DeepSeek-R1-distill-qwen-14b：基于知识蒸馏技术，通过使用DeepSeek-R1生成的训练样本对Qwen-14B微调训练的模型。 DeepSeek-V4-Pro：旗舰级MoE大模型，总参1.6T、激活49B，原生支持百万级超长上下文。依托海量高质量训练数据，具备顶尖数学逻辑、复杂推理、专业代码与长文本深度解析能力，适配高阶科研、复杂办公、深度智能代理等高难度场景。 DeepSeek-V4-Flash：高效轻量化MoE模型，总参284B，激活13B，原生支持百万超长上下文能力。推理速度快、延迟低、调用成本低廉，综合能力均衡，主打高并发、轻量化任务，适合日常对话、内容创作、基础RAG、批量文案处理等普惠刚需场景。
	联网搜索	搜索过程中，当私有知识库无法给出相应的答案时，可拓展联网搜索，获取更多互联网信息，补充私有知识库，结合大语言模型给出更丰富的回答。
	查询分析提供Query内容分析服务，基于大语言模型及NLP能力，可对用户输入的查询内容进行意图识别、相似问题扩展、NL2SQL处理等，有效提升RAG场景中检索问答效果。	通用Query分析服务，基于大语言模型对用户输入Query进行意图理解以及相似问题扩展。
	排序服务	BGE重排模型：提供基于BGE模型的文档打分服务，可根据Query与文档内容的相关性，按分数由高到低对DOC进行排序，并输出对应的打分结果。支持中英双语，最大输入token长度512（Query+Doc长度）。 OpenSearch自研重排模型：融合多行业数据集训练，提供高水准的重排服务，可根据Query及DOC的语义相关性从高到低对Doc进行排序。支持中英双语，最大输入token长度512（Query+doc长度）。 Qwen3排序服务-0.6B：Qwen3系列文档重排服务，支持100+语言，最大输入token长度32k（Query+doc长度），参数量0.6B。文本排序-ops-bge-reranker-v2：高性能文本重排序模型，用于对检索结果进行精细化重新排序，以提升RAG（检索增强生成）等场景中的相关性精度。
	排序服务
文本/文档处理服务	Jina AI Reader	一款专为大语言模型设计的网页内容提取服务，它能将任意URL转换为LLM友好的纯文本格式，自动去除广告、导航等干扰信息，精准提取网页核心内容。
	文档内容解析	文档内容解析服务001：通用文档解析服务，支持从非结构化文档（文本、表格、图片等）中提取标题、分段等逻辑层级结构，以结构化格式输出。文档内容解析服务002：提供pdf、图片等多种非结构化文档格式的解析，对复杂元素（表格、公式和图表等）的识别方面出色，且具备较快的推理速度。
	文本向量化	OpenSearch文本向量化服务-001：提供多语言（40+）文本向量化服务，输入文本最大长度300 token，输出向量维度1536维。 OpenSearch通用文本向量化服务-002：提供多语言（100+）文本向量化服务，输入文本最大长度8192 token，输出向量维度1024维。 OpenSearch文本向量化服务-中文-001：提供中文文本向量化服务，输入文本最大长度1024 token，输出向量维度768维。 OpenSearch文本向量化服务-英文-001：提供英文文本向量化服务，输入文本最大长度512 token，输出向量维度768维。 GTE文本向量-多语言-Base：多语言（70+）文本向量化服务，输入文本最大长度8192，输出向量维度768维。 Qwen3文本向量-0.6B：Qwen3系列多语言（100+）文本向量化服务，输入最大长度32k，输出向量维度1024维，参数量0.6B。文本向量-ops-dmeta-text-embedding-zh：专为中文优化的文本向量化模型，能够将中文文本转化为高质量的语义向量，适用于语义检索、文本相似度计算等任务。
	文本稀疏向量化提供将文本数据转化为稀疏向量形式表达的服务，稀疏向量存储空间更小，常用于表达关键词和词频信息，可与稠密向量搭配进行混合检索，提升检索效果。	OpenSearch文本稀疏向量化服务：提供多语言（100+）文本向量化服务，输入文本最大长度8192 token。
	文档切片	提供通用文本切片服务，支持基于文档段落、文本语义、指定规则，对HTML、Markdown、TXT格式的结构化数据进行拆分，同时支持以富文本形式提取文档中的代码、图片以及表格。
	向量降维	向量降维embedding-dim-reduction：提供向量模型调优服务，可通过定制训练向量降维等模型，在不带来过多检索效果损失的情况下，辅助将高维度向量降低维度，以便提升性价比。
多模态处理服务	多模态向量	M2-Encoder-多模态向量模型：中英双语多模态服务，基于60亿图文对数据（其中30亿为中文数据，30亿为英文数据）在BM-6B基础上训练而成。该模型支持图文跨模态检索（包括文本搜索图片和图片搜索文本），以及图片分类任务。 M2-Encoder-Large-多模态向量模型：中英双语多模态服务，相比M2-Encoder模型拥有更大的参数量，达到 1B（10亿参数），从而在多模态任务处理中具备更强的表达能力和性能表现。 GME多模态向量-Qwen2-VL-2B：基于 Qwen2-VL 多模态大型语言模型（MLLMs）训练的多模态向量服务，支持单一模态及多模态组合输入，能够高效处理文本、图像及组合类型的数据。多模态向量-ops-mm-embedding-v1-2b：由阿里云 OpenSearch-AI 团队开发的多模态向量模型，基于 Qwen2-VL 2B Instruct 微调，支持文本、图像、视频等单模态及多模态组合输入，将其统一编码为语义向量，适用于跨模态检索与理解任务。多模态向量-ops-mm-embedding-v1-7b：由阿里云 OpenSearch-AI 团队开发的多模态向量模型，基于 Qwen2-VL 7B Instruct 微调，支持文本、图像、视频等单模态及多模态组合输入，将其统一编码为语义向量，适用于跨模态检索与理解任务。电商多模态向量-ops-mm-embedding-ecom-001：由阿里云 OpenSearch-AI 团队自研的电商领域定制多模态向量模型，支持图搜图、图搜图文两种多模态搜索方式，适用于电商场景跨模态检索与理解任务。人脸多模态向量-ops-mm-embedding-face-001：面向人脸检索任务，通过先进的人脸向量模型，支持单张或多张图像输入，将人脸信息统一编码为高维语义向量，助力高效精准的人脸搜索与比对。
	多模态排序	提供图像的相关性排序服务，在RAG及多模态搜索场景中，可通过排序服务找到相关性更高的内容并依次返回，引入排序服务可有效提升检索及大模型生成的准确率。
	视频总结	提供视频总结服务，对指定视频片段进行理解，利用大模型能力生成视频总结、标题与标签。
	视频切割	提供视频切割服务，对视频进行理解和分析，提取关键帧并将视频切割为相应段落。
	视频截帧	视频截帧服务001：提供视频内容提取能力，可从视频中捕获关键帧画面。结合多模态向量服务或图片解析能力，实现跨模态检索。
	语音识别	语音识别服务001：提供语音转文本能力，可将视频或音频中的语音内容快速转化为结构化文本。该服务支持多种语言。
	主体识别	主体识别服务-ops-object-detect-001：从图像或视频中自动定位并识别主要目标或对象，支持单个及多个主体的识别，适用于智能监控、自动驾驶、图像检索等应用。人脸识别服务-ops-object-detect-face-001：从图像中自动定位并识别人脸，支持多个人脸的识别，适用于智能监控、图像检索等应用。服饰主体识别001-ops-object-detect-fashion-001：服饰类目主体识别模型，由阿里云OpenSearch团队自研，支持20多类服饰相关主体识别，输出主体类别、位置框及置信分。可用于复杂场景中主体提取，作为下游任务的输入，可排除图片背景或其他主体对下游embedding和rerank模型的干扰。
	图片内容解析	图片内容理解服务：基于多模态大模型对图片内容进行解析理解以及文字识别，解析后的文本可用于图片检索、问答场景。
	图片内容解析	图片文本识别服务：OCR图片文本识别，识别后的文本可用于图片检索问答场景。

服务体验

以文档解析和多模态向量为例，介绍如何在体验中心快速试用服务、查看结果并获取调用代码。

文档解析

登录AI搜索开放平台控制台。
在左侧导航栏选择体验中心。
服务类别选择文档解析/图片解析(document-analyze)，选择具体的体验服务。
体验数据可以使用系统提供的示例数据，支持通过管理数据上传您自己的数据，文件类型支持Txt、Pdf、Html、Doc、Docx、Ppt、Pptx格式，大小不超过20M。
- 文件：上传本地文件，7天后自动清除，平台不会长期存储您的数据。
- URL：提供文件URL地址和对应的文件类型，支持上传多个网址，每个网址各占一行。
  
  说明
  数据格式选择错误会导致文档解析失败，请根据文件数据选择正确的文件类型。
  
  重要
  请您确保在法律法规允许的范围内使用网页链接导入功能，遵守目标平台管理规范、保障权利人合法权益，您应对此独立承担责任。AI搜索开放平台作为工具提供方不对您的解析或下载行为承担任何责任。
如您使用自己的数据，从下拉列表中选择提前上传的文件或者URL。
单击获取结果，系统调用服务解析文档。
- 结果：展示解析进度和解析结果
- 结果源码：查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。
- 示例代码：查看和下载调用文本内容解析服务的示例代码。

多模态向量

登录AI搜索开放平台控制台。
在左侧导航栏选择体验中心。
服务类别选择多模态向量(multi-modal-embedding)，选择具体的体验服务，选择文本、图片或者文本+图片。

说明
上传本地图片进行向量化时，图片将在7天后自动清除，平台不会长期存储您的数据。
单击获取结果，获取多模态向量化结果。
- 结果：展示向量化结果
- 结果源码：查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。
- 示例代码：查看和下载调用文本向量化服务的示例代码。