在智能体应用中上传文件后,可以与文件内容进行智能问答。此功能支持对文档、图片、音视频等多种文件进行深度分析和自动化任务处理。根据您的具体需求,可以选择以下三种处理模式:
- 全文引用:将整个文件内容直接提供给模型。 - 适合:需要全局理解的任务,如文档总结、全文翻译、风格润色。 
- 特点:简单直接,但受限于模型的上下文长度。 
 
- 切片检索 (RAG):将文件切分成小片段,提问时仅检索最相关的部分给模型。 - 适合:长文档问答、知识库检索、需要精确定位信息来源的场景。 
- 特点:能处理超长文件,回答效果依赖切片和检索策略。 
 
- 自定义处理:让模型自主调用工具来处理文件。 - 适合:需要对文件进行其他操作的任务,如图片风格转换、视频内容分析后生成报告等。 
- 特点:功能强大灵活,依赖于所配置的工具(插件、API等)。 
 
工作原理
智能体应用的文件问答功能通过以下流程实现:
- 文件解析:系统自动识别并解析上传的文档、图片、音视频等多种格式文件,提取其中的文本、图像或音频信息。 
- 内容处理:根据应用内配置的处理模式,对解析后的文件内容进行处理,为后续的智能问答做准备。 
- 智能问答:大模型结合文件内容和问题,生成准确、相关的答案。 
支持的文件格式
单个会话支持上传的文件上限10个,且单文件不超过10MB。
上传的文件仅在当前会话中有效,刷新或关闭页面将导致文件丢失。请及时完成所需操作。
支持上传本地的文档、图片、视频或音频,格式要求为:
- 文档: - .doc,- .docx,- .wps,- .ppt,- .pptx,- .xls,- .xlsx,- .md,- .txt,- .pdf;
- 图片: - .png,- .jpg,- .jpeg,- .bmp,- .gif;
- 视频: - .mp4,- .mkv,- .avi,- .mov,- .wmv,- .webm,- .flv;
- 音频: - .aac,- .amr,- .flac,- .m4a,- .mp3,- .mpeg,- .ogg,- .opus,- .wav,- .wma。
对于需要处理超过10MB文件的场景,推荐使用文件上传API,详见本文的API调用章节。
计费说明
- 上传文件:免费。 
- 模型调用:基于文件内容进行问答会消耗模型的输入和输出 token ,按所选模型的标准计费,详情请参考模型列表与价格。 
- 工具调用:部分工具收费,具体费用在工具详情页展示。 
如何使用
全文引用
文件内容会直接拼接到模型上下文中,模型会完整阅读您上传的文件。适用于文档总结、内容翻译、全文润色等需要全局理解的任务。
使用步骤
- 在智能体应用中选择合适的模型; 
- 在模块中,选择全文引用; 
- 在右侧调试窗口输入框左侧,点击  图标上传本地文件后,可围绕文件内容进行对话。 图标上传本地文件后,可围绕文件内容进行对话。
参数配置
可点击 进入配置页面:
进入配置页面:
- 单文件最大解析长度(token):限制单个文件提取的 token 数量,超出部分将从文件末尾被截断。 
- 最大拼装长度(token):限制所有文件内容拼接后的总 token 数量,超出部分将从最后拼接文件的末尾开始被截断。 

为避免信息丢失,应合理设置解析长度或考虑使用切片检索模式处理长文件。
示例
- 上传阿里云百炼系列手机产品介绍.docx,提问:“请帮我总结这个文件的内容。”。  
切片检索
采用检索增强生成(RAG)技术,将文件智能拆分成多个片段并向量化。提问时先检索最相关的片段,再基于这些段落生成回答。适用于长文档问答、基于海量手册的客服机器人、需要精准定位信息来源的知识库检索等场景。
参数配置
可点击 进入配置页面:
进入配置页面:
- 召回片段数:设置在回答问题时,最多引用多少个相关的文本片段。 
- 最大拼装长度:限制所有被召回片段拼接后的总 token 数量。若超出,系统将根据相关性得分从低到高依次丢弃召回的片段,直至满足长度限制。 

仅检索当前上传文件
使用步骤
- 在智能体应用中选择合适的模型; 
- 在模块中,选择切片检索; 
- 在右侧调试窗口输入框左侧,点击  图标上传本地文件后,可围绕文件内容进行对话。 图标上传本地文件后,可围绕文件内容进行对话。
示例
上传阿里云百炼系列手机产品介绍.docx,提问:“请帮我推荐一款5000元左右的手机。”。
混合检索文件与知识库
使用步骤
示例
在输入框点击 图标上传test.mp4,提问:“这个视频中的人物有没有出现在知识库中?”。
图标上传test.mp4,提问:“这个视频中的人物有没有出现在知识库中?”。
自定义处理
模型根据指令自主调用各种工具(如插件、MCP等)完成复杂任务。例如,调用"人物风格重绘工具"对图片进行风格转换。
使用步骤
- 在智能体应用中选择支持Function Calling的模型; 
- 在模块中,选择自定义处理; 
- 配置所需的技能工具(MCP、插件等); 
- 在右侧调试窗口输入框左侧,点击  图标上传您的本地文件后,可围绕文件内容进行对话。 图标上传您的本地文件后,可围绕文件内容进行对话。
参数配置
在应用内选择通义千问VL系列模型处理图片时,支持点击 选择图片处理方式。
选择图片处理方式。

示例
- 选择通义千问VL系列模型,配置页图片处理方式选择模型处理+规划; 
- 在MCP服务处添加人物风格重绘工具; 
- 上传示例文件girl.png,提问:“帮我把这张图的画风转为炫彩卡通风格。”。  
API调用
前提条件
- 应用发布:调用 API 前,请确保应用已在控制台发布。 
- 处理模式:文件的具体处理方式将遵循您在控制台为该应用配置的模式。 
文件传递方式和参数说明
| 文件传递方式 | API 参数 | 主要用途 / 特点 | 
| 通过 URL (图片专用) | 
 | 进行图片检索、视觉理解,单文件大小限制10MB。 | 
| 通过 URL (通用文件) | 
 | 提取文件中的文本内容,适合处理小文件,单文件大小限制10MB。 | 
| 通过文件上传API接口 | 
 | 生产环境推荐。支持上传更大文件,更稳定。 | 
更多调用信息请参考:上传文件(文档、图片、视频或音频)。
常见问题
- 如何为API提供公网可访问的文件URL ? - 推荐使用阿里云对象存储OSS,它提供了高可用、高可靠的存储服务,并且可以方便地生成公网访问URL。 - 在公网环境下验证生成的 URL 可正常访问:可在浏览器或通过 curl 命令访问该 URL,确保文件能够成功下载。 
- 文件的有效期是多久? - 通过聊天窗口上传的文件仅在当前会话中有效,关闭或刷新页面后将失效。 
- 为什么我的文件上传失败? - 请优先检查文件大小、格式是否符合支持的文件格式。 
- 为什么模型的回答不完整或不准确? - 可能的原因: - 文件内容被 token 限制截断,可进入配置页配置,或使用切片检索模式; 
- 提问不够具体,建议明确指出需要的信息类型; 
- 文件内容质量问题,如扫描件清晰度不够。 
 
- 主账号的子业务空间在智能体应用中选择模型时显示未授权? - 子业务空间需获得主业务空间对指定模型的授权,请参考授权子业务空间模型调用指南。