体验中心

您可以在体验中心通过可视化方式体验文档解析、图片内容提取、文档切片等各类服务,帮助您快速评估服务是否满足业务诉求。

功能介绍

体验中心提供以下服务:

服务类别

服务说明

文档内容解析

通用文档解析服务,支持从非结构化文档(文本、表格、图片等)中提取标题、分段等逻辑层级结构,以结构化格式输出。

图片内容解析

图片内容理解服务:基于多模态大模型对图片内容进行解析理解以及文字识别,解析后的文本可用于图片检索、问答场景。

图片文本识别服务:OCR图片文本识别,识别后的文本可用于图片检索问答场景。

文档切片

提供通用文本切片服务,支持基于文档段落、文本语义、指定规则,对HTML、Markdown、TXT格式的结构化数据进行拆分,同时支持以富文本形式提取文档中的代码、图片以及表格。

文本向量化

  • OpenSearch文本向量化服务-001:提供多语言(40+)文本向量化服务,输入文本最大长度300 token,输出向量维度1536维。

  • OpenSearch通用文本向量化服务-002:提供多语言(100+)文本向量化服务,输入文本最大长度8192 token,输出向量维度1024维。

  • OpenSearch文本向量化服务-中文-001:提供中文文本向量化服务,输入文本最大长度1024 token,输出向量维度768维。

  • OpenSearch文本向量化服务-英文-001:提供英文文本向量化服务,输入文本最大长度512 token,输出向量维度768维。

  • GTE文本向量-多语言-Base:多语言(70+)文本向量化服务,输入文本最大长度8192,输出向量维度768维。

  • Qwen3文本向量-0.6B:Qwen3系列多语言(100+)文本向量化服务,输入最大长度32k,输出向量维度可自定义32~1024维,参数量0.6B。

多模态向量化

  • M2-Encoder-多模态向量模型:中英双语多模态服务,基于60亿图文对数据(其中30亿为中文数据,30亿为英文数据)在BM-6B基础上训练而成。该模型支持图文跨模态检索(包括文本搜索图片和图片搜索文本),以及图片分类任务。

  • M2-Encoder-Large-多模态向量模型:中英双语多模态服务,相比M2-Encoder模型拥有更大的参数量,达到 1B(10亿参数),从而在多模态任务处理中具备更强的表达能力和性能表现。

文本稀疏向量化

提供将文本数据转化为稀疏向量形式表达的服务,稀疏向量存储空间更小,常用于表达关键词和词频信息,可与稠密向量搭配进行混合检索,提升检索效果。

OpenSearch文本稀疏向量化服务:提供多语言(100+)文本向量化服务,输入文本最大长度8192 token。

向量降维

向量降维embedding-dim-reduction:提供向量模型调优服务,可通过定制训练向量降维等模型,在不带来过多检索效果损失的情况下,辅助将高维度向量降低维度,以便提升性价比。

查询分析

提供Query内容分析服务,基于大语言模型及NLP能力,可对用户输入的查询内容进行意图识别、相似问题扩展、NL2SQL处理等,有效提升RAG场景中检索问答效果。

通用Query分析服务,基于大语言模型对用户输入Query进行意图理解以及相似问题扩展。

排序服务

  • BGE重排模型:提供基于BGE模型的文档打分服务,可根据Query与文档内容的相关性,按分数由高到低对DOC进行排序,并输出对应的打分结果。支持中英双语,最大输入token长度512(Query+Doc长度)。

  • OpenSearch自研重排模型:融合多行业数据集训练,提供高水准的重排服务,可根据QueryDOC的语义相关性从高到低对Doc进行排序。支持中英双语,最大输入token长度512(Query+doc长度)。

  • Qwen3排序服务-0.6B:Qwen3系列文档重排服务,支持100+语言,最大输入token长度32k(Query+doc长度),参数量0.6B。

语音识别

语音识别服务001:提供语音转文本能力,可将视频或音频中的语音内容快速转化为结构化文本。该服务支持多种语言。

视频截帧

视频截帧服务001:提供视频内容提取能力,可从视频中捕获关键帧画面。结合多模态向量服务或图片解析能力,实现跨模态检索。

大模型

  • Qwen3-235B-A22B:新一代Qwen系列大型语言模型,基于广泛的训练,Qwen3在推理、指令跟随、Agent能力和多语言支持方面取得了突破性进展,可支持100多种语言和方言,具备强大的多语言理解、推理和生成能力。

  • OpenSearch-通义千问-Turbo:以qwen-turbo大规模语言模型为模型底座,进行有监督的模型微调,强化检索增强,减少有害性。

  • 通义千问-Turbo:通义千问系列速度最快、成本极低的模型,适合简单任务,详情请参见通义千问Turbo

  • 通义千问-Plus:能力均衡,推理效果、成本和速度介于通义千问-Max和通义千问-Turbo之间,适合中等复杂任务,详情请参见通义千问Plus

  • 通义千问-Max:通义千问系列效果最好的模型,适合复杂、多步骤的任务,详情请参见通义千问Max

  • QwQ深度思考模型:基于Qwen2.5-32B模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。

  • DeepSeek-R1:专注于复杂推理任务的大语言模型,在复杂指令理解、结果准确性等方面表现较突出。

  • DeepSeek-V3:MoE模型,在长文本、代码、数学、百科、中文能力上表现优秀。

  • DeepSeek-R1-distill-qwen-7b:基于知识蒸馏技术,通过使用DeepSeek-R1生成的训练样本对Qwen-7B微调训练的模型。

  • DeepSeek-R1-distill-qwen-14b:基于知识蒸馏技术,通过使用DeepSeek-R1生成的训练样本对Qwen-14B微调训练的模型。

联网搜索

搜索过程中,当私有知识库无法给出相应的答案时,可拓展联网搜索,获取更多互联网信息,补充私有知识库,结合大语言模型给出更丰富的回答。

功能体验

文档解析

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择文档内容解析(document-analyze),选择具体的体验服务

  4. 体验数据可以使用系统提供的示例数据,支持通过管理数据上传您自己的数据,文件类型支持Txt、Pdf、Html、Doc、Docx、Ppt、Pptx格式,大小不超过20M。

    • 上传本地文件:上传的文件将在7天后自动清除, 平台不会长期存储您的数据。

    • 提供文件URL地址和对应的文件类型:支持上传多个网址,每个网址各占一行。

      说明

      数据格式选择错误会导致文档解析失败,请根据文件数据选择正确的文件类型。

      image

      重要

      请您确保在法律法规允许的范围内使用网页链接导入功能,遵守目标平台管理规范、保障权利人合法权益,您应对此独立承担责任。AI搜索开放平台作为工具提供方不对您的解析或下载行为承担任何责任。

  5. 如您使用自己的数据,从下拉列表中选择提前上传的文件或者URL。

    image

  6. 单击获取结果,系统调用服务解析文档。

    • 结果:展示解析进度和解析结果

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用文本内容解析服务的示例代码。

      image

文档切片

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择文档切片(document-split),选择具体的体验服务

  4. 体验数据可以使用系统提供的示例数据,也支持选择我的数据,输入您自己的数据,并选择正确的数据格式Txt、Html、MarkDown。

    说明

    数据格式选择错误会导致文档解析失败,请根据上传的数据正确选择格式。

  5. 设置切片最大长度,默认值为300,最大长度为1024,单位为Token。

  6. 单击获取结果,系统调用服务对文档进行切片。

    • 结果:展示切片进度和结果。

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件可以将代码下载到本地。

    • 示例代码:查看和下载调用文档切片服务的示例代码。

文本向量/稀疏向量

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择文本向量化(text-embedding),选择具体的体验服务

  4. 向量化内容类型支持文档documentquery。

  5. 支持分组或者直接输入JSON文本。

    image

  6. 单击获取结果,获取文本进行向量化结果。

    • 结果:展示向量化结果

      image

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用文本向量化服务的示例代码。

多模态向量

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择多模态向量(multi-modal-embedding),选择具体的体验服务,输入文本或者图片。

    image

    说明

    上传本地图片进行向量化时,图片将在7天后自动清除, 平台不会长期存储您的数据。

  4. 单击获取结果,获取多模态向量化结果。

    1. 结果:展示向量化结果

      image

    2. 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    3. 示例代码:查看和下载调用文本向量化服务的示例代码。

排序服务

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择排序服务(ranker),选择具体的体验服务

  4. 体验数据可以使用系统提供的示例数据,也支持输入您自己的数据。

  5. query中输入文本。

    image

  6. 单击获取结果,系统调用排序服务,根据查询(query)和文档内容的相关性对文档排序,并输出打分结果。

    • 结果:展示排序打分结果

      image

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用排序服务的示例代码。

视频截帧

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择视频截帧(video-snapshot)

  4. 体验数据可以使用系统提供的示例数据,也支持上传您自有的视频数据。

    image

  5. 单击获取结果,系统调用视频截帧服务,截取目标视频的关键帧画面。

语音识别

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择语音识别(audio-asr)

  4. 体验数据可以使用系统提供的示例数据,也支持上传您自有的语音数据。

    image

  5. 单击获取结果,系统调用语音识别服务,将目标数据中的语音内容转化为结构化文本。

大语言模型(LLM)服务

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择大模型(text-generation),选择具体的体验服务,可单击image开启联网搜索服务,系统根据用户问题判断是否进行联网搜索。

  4. 输入问题并提交,大模型理解输入问题并给出答案。

    重要

    生成的所有内容均由人工智能模型生成,其生成内容的准确性和完整性无法保证,不代表我们的态度或观点。

    大模型回答结果页面展示本轮问答的输入和输出Token数,并可删除本轮对话及复制全文。

图片内容解析

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择图片内容解析(image-analyze),在体验服务中选择图片内容理解或者图片文本识别。

  4. 体验数据可以使用系统提供的示例图片,也支持输入您自己的图片。

    image

  5. 单击获取结果,系统调用图片内容解析服务,对图片内容进行理解并输出,或者识别并输出图片关键信息。

    • 结果:展示识别结果

      image

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用图片内容解析服务的示例代码。

查询分析

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择查询分析(query-analyze)

  4. 您可以直接输入Query进行查询意图识别,或者在历史消息区域构造多轮对话并输入Query,模型结合多轮对话和Query进行查询意图识别。

    启用NL2SQL服务并选择已创建的服务配置,您可以输出自然语言,NL2SQL服务将自然语言查询转换为SQL语句。

  5. 单击获取结果,查看模型效果。

    • 结果:展示识别结果

      nl2SQL.png

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用查询分析服务的示例代码。

向量微调

  1. 登录AI搜索开放平台控制台

  2. 在左侧导航栏选择体验中心

  3. 服务类别选择向量降维(embedding-dim-reduction)

  4. 选择模型名称(您基于自己的业务数据微调训练后的模型),填写输出向量维度,输出向量维度应小于或者等于实际模型训练时选择的向量字段的维度,然后输入原始向量。

  5. 单击获取结果,查看模型效果。

    如何进行降维模型训练请参见服务定制

联网搜索

支持通过以下两种方式使用联网搜索:

  • 直接调用联网搜索服务。

  • 使用LLM模型时启用联网搜索。

  1. 登录AI搜索开放平台控制台

  2. 选择目标地域,切换到AI搜索开放平台

  3. 在左侧导航栏选择体验中心

  4. 服务类别选择联网搜索服务(web-search)

  5. 输入问题Query,如“杭州怎么玩”,返回结果。

    image