文件问答

智能体应用中上传文件后,可以与文件内容进行智能问答。此功能支持对文档、图片、音视频等多种文件进行深度分析和自动化任务处理。根据您的具体需求,可以选择以下三种处理模式:

  • 全文引用:通过内置解析器解析文件内容,将整个文件内容直接提供给模型。

    • 适合:需要全局理解的任务,如文档总结、全文翻译、风格润色。

    • 特点:简单直接,但受限于模型的上下文长度。

  • 切片检索RAG):通过内置解析器解析文件内容,将文件切分成小片段,提问时仅检索最相关的部分给模型。

    • 适合:长文档问答、知识库检索、需要精确定位信息来源的场景。

    • 特点:能处理超长文件,回答效果依赖切片和检索策略。

  • 自定义处理:将文件的URL直接提供给模型,让模型自主调用工具来处理文件。

    • 适合:需要对文件进行其他操作的任务,如图片风格转换、视频内容分析后生成报告等。

    • 特点:功能强大灵活,依赖于所配置的工具(插件MCP等)。

适用范围

支持的模型

说明

数据更新可能存在延迟,模型的支持情况以智能体应用内显示为准。

文本生成模型

视觉理解模型

  • 通义千问VL-Max、通义千问VL-Plus、通义千问VL-OCR

支持的文件格式

单个会话支持上传的文件上限10个,且单文件不超过10MB。

重要

上传的文件仅在当前会话中有效,刷新或关闭页面将导致文件丢失。请及时完成所需操作。

支持上传本地的文档、图片、视频或音频,格式要求为:

  • 文档:.doc.docx.wps.ppt.pptx.xls.xlsx.md.txt.pdf

  • 图片:.png.jpg.jpeg.bmp.gif

  • 视频:.mp4.mkv.avi.mov.wmv.webm.flv

  • 音频:.aac.amr.flac.m4a.mp3.mpeg.ogg.opus.wav.wma

对于需要处理超过10MB文件的场景,推荐使用文件上传API,详见本文的API参考章节。

计费说明

  • 上传文件:免费。

  • 模型调用:基于文件内容进行问答会消耗模型的输入和输出 token ,按所选模型的标准计费,详情请参考模型列表

  • 工具调用:部分工具收费,具体费用在工具详情页展示。

如何使用

全文引用

使用步骤

  1. 智能体应用中选择合适的模型;

  2. 规划 > 文件处理模块中,选择全文引用

  3. 在右侧调试窗口输入框左侧,点击image图标上传本地文件后,可围绕文件内容进行对话。

参数配置

可点击image进入配置页面:

  • 单文件最大解析长度(token):限制单个文件提取的 token 数量,超出部分将从文件末尾被截断。

  • 最大拼装长度(token):限制所有文件内容拼接后的总 token 数量,超出部分将从最后拼接文件的末尾开始被截断。

image

说明

为避免信息丢失,应合理设置解析长度或考虑使用切片检索模式处理长文件。

示例

切片检索

参数配置

可点击image进入配置页面:

  • 召回片段数:设置在回答问题时,最多引用多少个相关的文本片段。

  • 最大拼装长度:限制所有被召回片段拼接后的总 token 数量。若超出,系统将根据相关性得分从低到高依次丢弃召回的片段,直至满足长度限制。

image

仅检索当前上传文件

使用步骤
  1. 智能体应用中选择模型;

  2. 规划 > 文件处理模块中,选择切片检索

  3. 在右侧调试窗口输入框左侧,点击image图标上传本地文件后,可围绕文件内容进行对话。

示例

上传阿里云百炼系列手机产品介绍.docx,提问:“请帮我推荐一款5000元左右的手机。”。image

混合检索文件与知识库

使用步骤
  1. 智能体应用中选择模型;

  2. 规划 > 文件处理模块中,选择切片检索

  3. 规划 > 知识 > 文档模块中,点击 + 按钮,从已有知识库列表中选择并添加;

  4. 在右侧调试窗口输入框左侧,点击image图标上传本地文件后,进行相关文件的问答。

示例

在输入框点击image图标上传test.mp4,提问:“这个视频中的人物有没有出现在知识库中?”。image

自定义处理

使用步骤

  1. 智能体应用中选择模型;

  2. 规划 > 文件处理模块中,选择自定义处理

  3. 配置所需的技能工具(MCP、插件等);

  4. 在右侧调试窗口输入框左侧,点击image图标上传您的本地文件后,可围绕文件内容进行对话。

图片处理参数配置

通义千问VL系列模型具备强大的图片理解能力。 因此,当您选择此类模型并上传图片时,可点击image图标,从以下两种图片处理方式中选择:

  • 纯模型处理

    • 模型仅使用自己的视觉能力来分析图片,然后直接回答,不会调用外部工具。

    • 适用于“看图问答”。例如,提问“这张图里有什么?”

  • 模型处理 + 规划

    • 模型在看懂图片后,会判断是否需要调用您配置的外部工具(如插件)来完成更复杂的任务。

    • 适用于需要编辑、转换或借助工具分析图片的场景。例如,提问“帮我把这张图变成卡通风格”就需要调用工具。

说明

此设置仅对图片文件生效。对于同时上传的其他文件(如表格、文档),模型会自主判断是否需要调用外部工具来处理。

image

示例

  1. 选择通义千问VL系列模型,配置页图片处理方式选择模型处理+规划

  2. MCP服务处添加人物风格重绘工具;

  3. 上传示例文件girl.png,提问:“帮我把这张图的画风转为炫彩卡通风格。”。

    image

API参考

前提条件

  1. 应用发布:调用 API 前,请确保应用已在控制台发布。

  2. 处理模式:文件的具体处理方式将遵循您在控制台为该应用配置的模式。

文件传递方式和参数说明

文件传递方式

API 参数

主要用途 / 特点

通过 URL (图片专用)

image_list

进行图片检索、视觉理解,单文件大小限制10MB。

通过 URL (通用文件)

file_list

提取文件中的文本内容,适合处理小文件,单文件大小限制10MB。

通过文件上传API接口

session_file_id

生产环境推荐。支持上传更大文件,更稳定。

更多调用信息请参考上传文件(文档、图片、视频或音频)

常见问题

  1. 如何为API提供公网可访问的文件URL ?

    推荐使用阿里云对象存储OSS,它提供了高可用、高可靠的存储服务,并且可以方便地生成公网访问URL。

    在公网环境下验证生成的 URL 可正常访问:可在浏览器或通过 curl 命令访问该 URL,确保文件能够成功下载。

  2. 文件的有效期是多久?

    通过聊天窗口上传的文件仅在当前会话中有效,关闭或刷新页面后将失效。

  3. 为什么我的文件上传失败?

    请优先检查文件大小、格式是否符合支持的文件格式

  4. 为什么模型的回答不完整或不准确?

    可能的原因:

    • 文件内容被 token 限制截断,可进入配置页配置,或使用切片检索模式;

    • 提问不够具体,建议明确指出需要的信息类型;

    • 文件内容质量问题,如扫描件清晰度不够。