在智能体应用中上传文件后,可以与文件内容进行智能问答。此功能通过三种不同的处理模式,支持对文档、图片、音视频等多种文件进行内容理解、信息提取和智能问答。根据您的具体需求,可以选择以下三种处理模式:
全文引用:通过内置解析器解析文件内容,将文件内容(在上下文长度限制内)作为整体提供给模型。
适合:需要全局理解的任务,如文档总结、全文翻译、风格润色。
特点:简单直接,但受限于模型的上下文长度。
切片检索(RAG):通过内置解析器解析文件内容,将文件切分成小片段,提问时,系统会从文件切片中检索最相关的内容片段,并将其与用户问题一并提供给模型以生成回答。
适合:长文档问答、知识库检索、需要精确定位信息来源的场景。
特点:能处理超长文件,回答效果依赖切片和检索策略。
自定义处理:将文件信息(如 URL或内容本身)提供给模型,允许模型根据任务需求自主调用外部工具来处理文件。
适用范围
支持的地域
本文档仅适用于中国大陆版(北京地域)。
支持的模型
数据更新可能存在延迟,模型的支持情况以智能体应用内显示为准。
文本生成模型
通义千问VL-Max、通义千问VL-Plus、通义千问VL-OCR
支持的文件格式
单个会话支持上传的文件上限10个,且单文件不超过10MB。
上传的文件仅在当前会话中有效,刷新或关闭页面将导致文件丢失。请及时完成所需操作。
支持上传本地的文档、图片、视频或音频,格式要求为:
文档:
.doc,.docx,.wps,.ppt,.pptx,.xls,.xlsx,.md,.txt,.pdf;图片:
.png,.jpg,.jpeg,.bmp,.gif;视频:
.mp4,.mkv,.avi,.mov,.wmv,.webm,.flv;音频:
.aac,.amr,.flac,.m4a,.mp3,.mpeg,.ogg,.opus,.wav,.wma。
对于需要处理超过10MB文件的场景,推荐使用文件上传API,详见本文的API 参考章节。
如何使用
全文引用
使用步骤
在智能体应用中选择一个模型;
在模块中,选择全文引用;
在右侧调试窗口输入框左侧,点击
图标上传本地文件后,可围绕文件内容进行对话。
参数配置
可点击
进入配置页面:
单文件最大解析长度(token):限制单个文件提取的 token 数量,超出部分将从文件末尾被截断。
最大拼装长度(token):限制所有文件内容拼接后的总 token 数量,超出部分将从最后拼接文件的末尾开始被截断。

为避免信息丢失,应合理设置解析长度或考虑使用切片检索模式处理长文件。
示例
上传阿里云百炼系列手机产品介绍.docx,提问:“请帮我总结这个文件的内容。”。

切片检索
参数配置
可点击
进入配置页面:
召回片段数:模型回答时引用的相关文本片段的最大数量。
最大拼装长度:限制所有被召回片段拼接后的总 token 数量。若超出,系统将根据相关性得分从低到高依次丢弃召回的片段,直至满足长度限制。

仅检索当前上传文件
使用步骤
在智能体应用中选择一个模型;
在模块中,选择切片检索;
在右侧调试窗口点击
图标上传本地文件后,可围绕文件内容进行对话。
示例
上传阿里云百炼系列手机产品介绍.docx,提问:“请帮我推荐一款5000元左右的手机。”。
混合检索文件与知识库
使用步骤
示例
先在知识库中存入一份视频文件,然后在输入框中点击
图标上传test.mp4,提问:“这个视频中的人物有没有出现在知识库中?”。
自定义处理
使用步骤
在智能体应用中选择一个模型;
在模块中,选择自定义处理;
在技能下,添加所需的工具(MCP、插件等);
在右侧调试窗口点击
图标上传文件后,可通过对话下达指令,让模型调用已配置的工具对该文件进行处理。
特定模型图片处理配置
当您选择通义千问VL系列模型并上传文件后,可点击
图标,进行处理方式配置。
在自定义处理模式下,不同类型的文件处理逻辑如下:
图片文件:可选择以下两种处理方式:
模型处理:模型仅使用自己的视觉能力来分析图片并直接回答,不会调用外部工具。适用于“看图问答”。
模型处理 + 规划:模型在看懂图片后,会判断是否需要调用您配置的外部工具(如插件)来完成更复杂的任务。适用于需要编辑、转换或借助工具分析图片的场景。

其他文件(文档、音视频等):模型将自主判断是否需要调用工具处理。
示例
智能体配置:
选择通义千问VL系列模型,点击自定义处理选项旁的配置图标,将图片处理方式设为模型处理+规划。
在MCP服务处添加人物风格重绘工具。
使用:上传示例文件girl.png,提问:“帮我把这张图的画风转为炫彩卡通风格。”。

API 参考
前提条件
应用发布:调用 API 前,请确保应用已在控制台发布。
处理模式:文件将按照您在智能体应用中保存的配置(如全文引用、切片检索)进行处理。API调用时无法动态切换处理模式。
调用限制
文件问答功能的 API 调用遵循其所属智能体应用的统一限流策略。
默认限制:每个智能体应用的调用频率上限为 100次/分钟。
共享配额:此限制涵盖了对该应用的所有 API 请求,包括但不限于文件问答调用。例如,如果您在 1 分钟内调用了 50 次文件问答,那么该应用只剩下 50 次调用额度可用于其他 API 请求。
文件传递方式和参数说明
文件传递方式 | API 参数 | 主要用途 / 特点 |
通过 |
| 进行图片检索、视觉理解,单文件大小限制10MB。 |
通过 |
| 传递通用文件的URL。在全文引用/切片检索模式下,系统会提取并使用文件文本;在自定义处理模式下,模型将接收原始文件URL以调用工具。单文件大小限制10MB。 |
通过文件上传API接口 |
| 生产环境推荐。 流程: |
更多调用信息请参考:上传文件(文档、图片、视频或音频)。
计费说明
上传文件:文件上传操作本身不收取费用。
模型调用:基于文件内容进行问答会消耗模型的输入和输出 Token,按所选模型的标准计费,详情请参考模型列表。不同模式下输入Token的计算方式不同:
全文引用模式:会将整个文件内容(或截断后的内容)作为输入传递给模型,因此输入Token消耗较大。
切片检索模式:仅将用户问题和检索到的最相关文本片段作为输入,输入Token消耗通常远小于全文引用模式,更适合处理长文档。
自定义处理模式:Token消耗取决于模型与工具交互的复杂性,包括理解用户指令、调用工具、总结工具返回结果等环节。
工具调用:部分工具收费,具体费用在工具详情页展示。
常见问题
如何为API提供公网可访问的文件URL ?
推荐使用阿里云对象存储OSS,它提供了高可用、高可靠的存储服务,并且可以方便地生成公网访问URL。
请确保您提供的URL可被阿里云百炼的服务正常访问:可在浏览器或通过 curl 命令访问该 URL,确保文件能够成功下载。
文件的有效期是多久?
通过聊天窗口上传:仅在当前会话中有效,关闭、刷新页面或会话超时都将导致文件失效。
通过文件上传 API(
session_file_id):上传的文件有效期通常为 24 小时。通过URL(
image_list,file_list):文件的可访问性由您提供的 URL 自身决定。
为什么我的文件上传失败?
上传失败可能由多种原因导致:
文件本身:检查文件大小、格式是否符合支持的文件格式。
网络问题:检查您的网络连接以及到服务终端节点的网络连通性。
URL方式:确认URL公网可访问,且非临时签名URL。
API调用:检查请求认证信息及参数格式是否正确。
错误信息:仔细阅读API返回的错误响应体,它通常会指出具体问题。
为什么模型的回答不完整或不准确?
可能的原因:
内容截断:文件内容被 token 限制截断,可在全文引用模式下,合理调高“单文件最大解析长度”和“最大拼装长度”参数。对于超长文件,建议切换至切片检索模式。
提问模糊:提问不够具体,建议明确指出需要的信息类型,以便模型更好地理解您的意图。
检索效果不佳(切片检索模式):若使用切片检索模式,回答不准确可能是以下两点:1、检索到的相关片段不佳;2、切片策略不当。请尝试优化您的提问,使其更具指向性;在应用配置中调整切片大小,以优化检索的完整性。
文件内容质量不佳:解析器可能难以处理低清晰度的扫描件、包含复杂表格/公式的文档、或编码不规范的文本文件。请尽量提供内容清晰、结构简单的源文件。
