文档

体验中心

更新时间:

您可以在体验中心通过可视化方式体验文档解析、图片内容提取、文档切片等各类服务,帮助您快速评估服务是否满足业务诉求。

功能介绍

体验中心提供以下服务:

服务类别

服务说明

文档内容解析

文档内容解析服务(ops-document-analyze-001):提供通用文档解析服务,支持从非结构化文档(文本、表格、图片等)中提取标题、分段等逻辑层级结构,以结构化格式输出。

图片内容解析

  • 图片内容理解服务(ops-image-analyze-vlm-001):可基于多模态大模型对图片内容进行解析理解以及文字识别,解析后的文本可用于图片检索、问答场景。

  • 图片文本识别服务(ops-image-analyze-ocr-001):可使用OCR进行图片文字识别,识别后的文本可用于图片检索问答场景。

文档切片

文档切片服务(ops-document-split-001):提供通用文本切片服务,支持基于文档段落、文本语义、指定规则,对HTML、Markdown、txt格式的结构化数据进行拆分,同时支持以富文本形式提取文档中的代码、图片以及表格。

文本向量化

  • OpenSearch文本向量化服务-001(ops-text-embedding-001):提供多语言(40+)文本向量化服务,输入文本最大长度300,输出向量维度1536维。

  • OpenSearch通用文本向量化服务-002(ops-text-embedding-002):提供多语言(100+)文本向量化服务,输入文本最大长度8192,输出向量维度1024维。

  • OpenSearch文本向量化服务-中文-001(ops-text-embedding-zh-001):提供中文文本向量化服务,输入文本最大长度1024,输出向量维度768维。

  • OpenSearch文本向量化服务-英文-001(ops-text-embedding-en-001):提供英文文本向量化服务,输入文本最大长度512,输出向量维度768维。

文本稀疏向量化

提供将文本数据转化为稀疏向量形式表达的服务,稀疏向量存储空间更小,常用于表达关键词和词频信息,可与稠密向量搭配进行混合检索,提升检索效果。

OpenSearch文本稀疏向量化服务(ops-text-sparse-embedding-001):提供多语言(100+)文本向量化服务,输入文本最大长度8192。

查询分析

提供Query内容分析服务,基于大语言模型及NLP能力,可对用户输入的查询内容进行意图识别、相似问题扩展、NL2SQL处理等,有效提升RAG场景中检索问答效果。

查询分析服务001(ops-query-analyze-001):通用Query分析服务,基于大语言模型对用户输入Query进行意图理解,以及相似问题扩展。

排序服务

  • BGE重排模型(ops-bge-reranker-larger):提供基于BGE模型的文档打分服务,可根据query与文档内容的相关性,按分数由高到低对doc进行排序,并输出对应的打分结果。支持中英双语,最大输入token长度512(Query+doc长度)。

  • OpenSearch自研重排模型(ops-text-reranker-001):融合多行业数据集训练,提供高水准的重排服务,可根据Query及doc的语义相关性从高到低对doc进行排序。支持中英双语,最大输入token长度512(Query+doc长度)。

大模型

  • OpenSearch-通义千问-Turbo(ops-qwen-turbo):以qwen-turbo大规模语言模型为模型底座,进行有监督的模型微调,强化检索增强,减少有害性。

  • 通义千问-Turbo(qwen-turbo):通义千问超大规模语言模型,支持中文、英文等不同语言输入,详情请参见通义千问大语言模型介绍

  • 通义千问-Plus(qwen-plus):通义千问超大规模语言模型的增强版,支持中文、英文等不同语言输入,详情请参见通义千问大语言模型介绍

  • 通义千问-Max(qwen-max):通义千问千亿级别超大规模语言模型,支持中文、英文等不同语言输入,详情请参见通义千问大语言模型介绍

  • 通义千问-MAX-长文本(qwen-max-longcontext):通义千问千亿级别超大规模语言模型,支持中文、英文等不同语言输入。模型支持30k tokens上下文,API限定用户输入为28k tokens,详情请参见通义千问大语言模型介绍

操作步骤

文档解析

  1. 登录AI搜索开放平台控制台

  2. 选择目标地域,切换到AI搜索开放平台

  3. 在左侧导航栏选择体验中心

  4. 服务类别选择文档内容解析,选择具体的体验服务

  5. 体验数据可以使用系统提供的示例数据,支持通过管理数据上传您自己的数据,文件类型支持Txt、Pdf、Html、Doc、Docx、Ppt、Pptx格式,大小不超过20M。

    • 上传本地文件:上传的文件将在7天后自动清除, 平台不会长期存储您的数据。

    • 提供文件URL地址和对应的文件类型:支持上传多个网址,每个网址各占一行。

      说明

      数据格式选择错误会导致文档解析失败,请根据文件数据选择正确的文件类型。

      image

      重要

      请您确保在法律法规允许的范围内使用网页链接导入功能,遵守目标平台管理规范、保障权利人合法权益,您应对此独立承担责任。AI搜索开放平台作为工具提供方不对您的解析或下载行为承担任何责任。

  6. 如您使用自己的数据,从下拉列表中选择提前上传的文件或者URL。

    image

  7. 单击获取结果,系统调用服务解析文档。

    • 结果:展示解析进度和解析结果

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用文本内容解析服务的示例代码。

      image

文档切片

  1. 登录AI搜索开放平台控制台

  2. 选择目标地域,切换到AI搜索开放平台

  3. 在左侧导航栏选择体验中心

  4. 服务类别选择文档切片,选择具体的体验服务

  5. 体验数据可以使用系统提供的示例数据,也支持选择我的数据,输入您自己的数据,并选择正确的数据格式Txt、Html、MarkDown。

    说明

    数据格式选择错误会导致文档解析失败,请根据上传的数据正确选择格式。

  6. 设置切片最大长度,默认值为300,最大长度为1024,单位为Token。

  7. 单击获取结果,系统调用服务对文档进行切片。

    • 结果:展示切片进度和结果。

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件可以将代码下载到本地。

    • 示例代码:查看和下载调用文档切片服务的示例代码。

文本向量化/稀疏向量化

  1. 登录AI搜索开放平台控制台

  2. 选择目标地域,切换到AI搜索开放平台

  3. 在左侧导航栏选择体验中心

  4. 服务类别选择文本向量化,选择具体的体验服务

  5. 向量化内容类型支持文档document和query。

  6. 支持分组或者直接输入JSON输入文本。

    image

  7. 单击获取结果,系统调用服务对文本进行向量化。

    • 结果:展示向量化进度结果

      image

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用文本向量化服务的示例代码。

排序服务

  1. 登录AI搜索开放平台控制台

  2. 选择目标地域,切换到AI搜索开放平台

  3. 在左侧导航栏选择体验中心

  4. 服务类别选择排序服务,选择具体的体验服务

  5. 体验数据可以使用系统提供的示例数据,也支持输入您自己的数据。

  6. 在query中输入文本。

    image

  7. 单击获取结果,系统调用排序服务,根据查询(query)和文档内容的相关性对文档排序,并输出打分结果。

    • 结果:展示排序打分结果

      image

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用排序服务的示例代码。

大模型服务

  1. 登录AI搜索开放平台控制台

  2. 选择目标地域,切换到AI搜索开放平台

  3. 在左侧导航栏选择体验中心

  4. 服务类别选择大模型,选择具体的体验服务

  5. 输入问题并提交,大模型理解输入问题并给出答案。

    重要

    生成的所有内容均由人工智能模型生成,其生成内容的准确性和完整性无法保证,不代表我们的态度或观点。

    image

    大模型回答结果页面展示本轮问答的输入和输出Token数,单击删除对话,删除本轮对话。

图片内容解析

  1. 登录AI搜索开放平台控制台

  2. 选择目标地域,切换到AI搜索开放平台

  3. 在左侧导航栏选择体验中心

  4. 服务类别选择图片内容解析,在体验服务中选择图片内容理解或者图片文本识别。

  5. 体验数据可以使用系统提供的示例图片,也支持输入您自己的图片。

    image

  6. 单击获取结果,系统调用图片内容解析服务,对图片内容进行理解并输出,或者识别并输出图片关键信息。

    • 结果:展示识别结果

      image

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用图片内容解析服务的示例代码。

查询分析

  1. 登录AI搜索开放平台控制台

  2. 选择目标地域,切换到AI搜索开放平台

  3. 在左侧导航栏选择体验中心

  4. 服务类别选择查询分析

  5. 您可以直接输入Query进行查询意图识别,或者在历史消息区域构造多轮对话并输入Query,模型结合多轮对话和Query进行查询意图识别。

    启用NL2SQL服务并选择已创建的服务配置,您可以输出自然语言,NL2SQL服务将自然语言查询转换为SQL语句。

  6. 单击获取结果,查看模型效果。

    • 结果:展示识别结果

      nl2SQL.png

    • 结果源码:查看结果响应代码、通过复制代码或者下载文件将代码下载到本地。

    • 示例代码:查看和下载调用查询分析服务的示例代码。