多模态内容理解检索生成-体验中心-智能开放搜索 OpenSearch-阿里云

您可以在体验中心通过可视化方式体验文档解析、多模态向量、多模态排序、主体识别、文本向量、视频解析等各类服务，帮助您快速评估服务是否满足业务诉求。

功能介绍

体验中心提供以下服务：

服务类别	服务说明
文档内容解析	文档内容解析服务001：通用文档解析服务，支持从非结构化文档（文本、表格、图片等）中提取标题、分段等逻辑层级结构，以结构化格式输出。文档内容解析服务002：提供pdf、图片等多种非结构化文档格式的解析，对复杂元素（表格、公式和图表等）的识别方面出色，且具备较快的推理速度。
图片内容解析	图片内容理解服务：基于多模态大模型对图片内容进行解析理解以及文字识别，解析后的文本可用于图片检索、问答场景。
图片内容解析	图片文本识别服务：OCR图片文本识别，识别后的文本可用于图片检索问答场景。
文档切片	提供通用文本切片服务，支持基于文档段落、文本语义、指定规则，对HTML、Markdown、TXT格式的结构化数据进行拆分，同时支持以富文本形式提取文档中的代码、图片以及表格。
文本向量	OpenSearch文本向量化服务-001：提供多语言（40+）文本向量化服务，输入文本最大长度300 token，输出向量维度1536维。 OpenSearch通用文本向量化服务-002：提供多语言（100+）文本向量化服务，输入文本最大长度8192 token，输出向量维度1024维。 OpenSearch文本向量化服务-中文-001：提供中文文本向量化服务，输入文本最大长度1024 token，输出向量维度768维。 OpenSearch文本向量化服务-英文-001：提供英文文本向量化服务，输入文本最大长度512 token，输出向量维度768维。 GTE文本向量-多语言-Base：多语言（70+）文本向量化服务，输入文本最大长度8192，输出向量维度768维。 Qwen3文本向量-0.6B：Qwen3系列多语言（100+）文本向量化服务，输入最大长度32k，输出向量维度1024维，参数量0.6B。
多模态向量	M2-Encoder-多模态向量模型：中英双语多模态服务，基于60亿图文对数据（其中30亿为中文数据，30亿为英文数据）在BM-6B基础上训练而成。该模型支持图文跨模态检索（包括文本搜索图片和图片搜索文本），以及图片分类任务。 M2-Encoder-Large-多模态向量模型：中英双语多模态服务，相比M2-Encoder模型拥有更大的参数量，达到 1B（10亿参数），从而在多模态任务处理中具备更强的表达能力和性能表现。 GME多模态向量-Qwen2-VL-2B：基于 Qwen2-VL 多模态大型语言模型（MLLMs）训练的多模态向量服务，支持单一模态及多模态组合输入，能够高效处理文本、图像及组合类型的数据。多模态向量-ops-mm-embedding-v1-2b：由阿里云 OpenSearch-AI 团队开发的多模态向量模型，基于 Qwen2-VL 2B Instruct 微调，支持文本、图像、视频等单模态及多模态组合输入，将其统一编码为语义向量，适用于跨模态检索与理解任务。多模态向量-ops-mm-embedding-v1-7b：由阿里云 OpenSearch-AI 团队开发的多模态向量模型，基于 Qwen2-VL 7B Instruct 微调，支持文本、图像、视频等单模态及多模态组合输入，将其统一编码为语义向量，适用于跨模态检索与理解任务。电商多模态向量-ops-mm-embedding-ecom-001：由阿里云 OpenSearch-AI 团队自研的电商领域定制多模态向量模型，支持图搜图、图搜图文两种多模态搜索方式，适用于电商场景跨模态检索与理解任务。
多模态排序	提供图像的相关性排序服务，在RAG及多模态搜索场景中，可通过排序服务找到相关性更高的内容并依次返回，引入排序服务可有效提升检索及大模型生成的准确率。
主体识别	从图像或视频中自动定位并识别主要目标或对象，支持单个及多个主体的识别，适用于智能监控、自动驾驶、图像检索等应用。
文本稀疏向量提供将文本数据转化为稀疏向量形式表达的服务，稀疏向量存储空间更小，常用于表达关键词和词频信息，可与稠密向量搭配进行混合检索，提升检索效果。	OpenSearch文本稀疏向量化服务：提供多语言（100+）文本向量化服务，输入文本最大长度8192 token。
向量降维	向量降维embedding-dim-reduction：提供向量模型调优服务，可通过定制训练向量降维等模型，在不带来过多检索效果损失的情况下，辅助将高维度向量降低维度，以便提升性价比。
查询分析提供Query内容分析服务，基于大语言模型及NLP能力，可对用户输入的查询内容进行意图识别、相似问题扩展、NL2SQL处理等，有效提升RAG场景中检索问答效果。	通用Query分析服务，基于大语言模型对用户输入Query进行意图理解以及相似问题扩展。
排序服务	BGE重排模型：提供基于BGE模型的文档打分服务，可根据Query与文档内容的相关性，按分数由高到低对DOC进行排序，并输出对应的打分结果。支持中英双语，最大输入token长度512（Query+Doc长度）。 OpenSearch自研重排模型：融合多行业数据集训练，提供高水准的重排服务，可根据Query及DOC的语义相关性从高到低对Doc进行排序。支持中英双语，最大输入token长度512（Query+doc长度）。 Qwen3排序服务-0.6B：Qwen3系列文档重排服务，支持100+语言，最大输入token长度32k（Query+doc长度），参数量0.6B。
排序服务
语音识别	语音识别服务001：提供语音转文本能力，可将视频或音频中的语音内容快速转化为结构化文本。该服务支持多种语言。
视频截帧	视频截帧服务001：提供视频内容提取能力，可从视频中捕获关键帧画面。结合多模态向量服务或图片解析能力，实现跨模态检索。
大模型	Qwen3-235B-A22B：新一代Qwen系列大型语言模型，基于广泛的训练，Qwen3在推理、指令跟随、Agent能力和多语言支持方面取得了突破性进展，可支持100多种语言和方言，具备强大的多语言理解、推理和生成能力。 OpenSearch-通义千问-Turbo：以qwen-turbo大规模语言模型为模型底座，进行有监督的模型微调，强化检索增强，减少有害性。通义千问-Turbo：通义千问系列速度最快、成本极低的模型，适合简单任务，详情请参见模型列表。通义千问-Plus：能力均衡，推理效果、成本和速度介于通义千问-Max和通义千问-Turbo之间，适合中等复杂任务，详情请参见模型列表。通义千问-Max：通义千问系列效果最好的模型，适合复杂、多步骤的任务，详情请参见模型列表。 QwQ深度思考模型：基于Qwen2.5-32B模型训练的 QwQ 推理模型，通过强化学习大幅度提升了模型推理能力。 DeepSeek-R1：专注于复杂推理任务的大语言模型，在复杂指令理解、结果准确性等方面表现较突出。 DeepSeek-V3：MoE模型，在长文本、代码、数学、百科、中文能力上表现优秀。 DeepSeek-R1-distill-qwen-7b：基于知识蒸馏技术，通过使用DeepSeek-R1生成的训练样本对Qwen-7B微调训练的模型。 DeepSeek-R1-distill-qwen-14b：基于知识蒸馏技术，通过使用DeepSeek-R1生成的训练样本对Qwen-14B微调训练的模型。
联网搜索	搜索过程中，当私有知识库无法给出相应的答案时，可拓展联网搜索，获取更多互联网信息，补充私有知识库，结合大语言模型给出更丰富的回答。

功能体验

以文档解析和多模态向量为例，介绍如何在体验中心快速试用服务、查看结果并获取调用代码。

文档解析

登录AI搜索开放平台控制台。
在左侧导航栏选择体验中心。
服务类别选择文档解析/图片解析(document-analyze)，选择具体的体验服务。
体验数据可以使用系统提供的示例数据，支持通过管理数据上传您自己的数据，文件类型支持Txt、Pdf、Html、Doc、Docx、Ppt、Pptx格式，大小不超过20M。
- 文件：上传本地文件，7天后自动清除，平台不会长期存储您的数据。
- URL：提供文件URL地址和对应的文件类型，支持上传多个网址，每个网址各占一行。
  说明
  数据格式选择错误会导致文档解析失败，请根据文件数据选择正确的文件类型。
  重要
  请您确保在法律法规允许的范围内使用网页链接导入功能，遵守目标平台管理规范、保障权利人合法权益，您应对此独立承担责任。AI搜索开放平台作为工具提供方不对您的解析或下载行为承担任何责任。
如您使用自己的数据，从下拉列表中选择提前上传的文件或者URL。
单击获取结果，系统调用服务解析文档。
- 结果：展示解析进度和解析结果
- 结果源码：查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。
- 示例代码：查看和下载调用文本内容解析服务的示例代码。

多模态向量

登录AI搜索开放平台控制台。
在左侧导航栏选择体验中心。
服务类别选择多模态向量(multi-modal-embedding)，选择具体的体验服务，选择文本、图片或者文本+图片。
说明
上传本地图片进行向量化时，图片将在7天后自动清除，平台不会长期存储您的数据。
单击获取结果，获取多模态向量化结果。
- 结果：展示向量化结果
- 结果源码：查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。
- 示例代码：查看和下载调用文本向量化服务的示例代码。