本文介绍如何在PAI-RAG的Web 界面进行各项配置,包括知识库、Code沙箱、模型、搜索服务和MCP工具等。
配置模型
单击左下角设置 > 模型,进入模型配置。在LLM页签添加模型。
如果是一体化部署,会自动生成一条模型配置记录。还可以继续添加其他来源的模型。
模型ID:区分不同的模型配置。
Endpoint URL:填写模型服务地址。
说明阿里云百炼模型调用需单独计费,请参见阿里云百炼计费项说明。
如为EAS模型服务,在服务详情的基本信息区域单击查看调用信息。注意在调用地址后添加
/v1。使用公网调用地址需为RAG服务配置有公网访问能力的专有网络。
使用VPC调用地址需RAG服务与LLM服务处于同一专有网络内。
API Key:阿里云百炼参见获取API Key填写。EAS服务则填写调用信息中的Token。
模型名称:根据实际情况填写。如果是EAS部署的LLM服务且推理引擎为vLLM,请务必填写具体的模型名称。可通过
/v1/models接口获取模型名称。对于其他部署模式,则只需将模型名称设置为default即可。多模态模型:如果是多模态模型,则勾选,否则不勾选(默认不勾选)。
思考模型:有思考与非思考两种模式的模型,可通过该选项来控制是否思考。默认不勾选。

配置成功后建议先测试模型配置。单击左侧新建对话,在对话页面上方选择模型进行对话测试。

配置MCP
单击左下角设置 > MCP,如下添加MCP。
MCP链接:MCP 服务的完整访问端点 URL。
MCP类型:支持 SSE / STDIO / Streamable HTTP。
Bearer Token:(可选)使用Bearer令牌认证,需填写有效的访问令牌。

配置搜索
当知识库内容不足以覆盖用户问题,或者需要实时信息时,可以启用搜索服务(Tavily 或阿里云通用搜索)作为补充。
单击左下角设置 > 搜索,进入搜索配置。
Tavily搜索
访问 Tavily 官网注册账户,并获取API Key。

阿里云通用搜索
通用搜索Endpoint:
优先推荐使用VPC接入,不支持VPC接入的地域请使用公网地址,具体接入地址请参见服务接入点。
使用公网地址接入,请确保已为RAG服务配置有公网访问能力的专有网络。
Access Key ID与Access Key Secret:
使用阿里云账号创建RAM用户并授权,访问方式选择使用永久 AccessKey 访问。用户创建成功后,复制Access Key ID与Access Key Secret填入。
需要为该用户授予权限AliyunIQSFullAccess,否则使用搜索时会报错。

配置 Code 沙箱
Code沙箱提供安全的 Python 代码运行环境。开启 Code 沙箱功能后,当 AI 助手需要执行代码时,会自动调用Code沙箱工具。
使用场景
数据分析:执行数据统计、聚合、过滤等操作。例如:"帮我分析销售数据,计算各地区的平均销售额"。
数据可视化:生成图表、绘制趋势图等。例如:“绘制过去一年的销售趋势图”。
数学计算:执行复杂的数学运算、方程求解。例如:“计算这个数列的标准差”。
文件处理:解析CSV、Excel等文件,提取和转换数据。
其他需要代码执行的任务
前置准备
配置Code沙箱前需要完成以下准备工作:
开通函数计算服务:访问函数计算控制台,按照提示开通服务。
创建AgentRun解释器:访问AgentRun控制台,左侧导航栏选择Sandbox 沙箱,创建沙箱模板,类型选择代码解释器。注意:
说明网络类型默认选择允许默认网卡访问公网,要求RAG服务能访问公网。
可以选择允许访问VPC,并确保与RAG服务配置同样的专有网络。
获取访问凭证:获取阿里云账号ID、沙箱 ID用于后续配置。如设置了访问凭证还需API Key。
配置方式
单击左下角设置 > Code沙箱,配置以下参数:
启用沙箱:开启/关闭沙箱功能。
沙箱类型:当前仅支持阿里云FC沙箱。
阿里云ID:阿里云账号ID。
解释器ID:沙箱 ID。
解释器名称:代码解释器名称。
API Key:填写访问密钥,用于身份验证。
默认超时(秒):代码执行的最大时长(秒)。默认50秒。

配置文件分块策略
分段设置用于配置知识库中文档的切片方式,决定文档如何被切分成若干片段(chunk),以便后续做向量化与检索。合理的分段设置能提升检索命中率与回答质量。
支持知识库和文件级别的配置:
知识库分段设置:上传到该知识库的文件在解析时会默认使用当前知识库的分段设置。

指定文件的分段设置:
在上传文件时,可为该文件单独指定分段参数;

对已有文件执行重新解析操作时,也可指定分段设置并触发重新处理。

前置要求
在使用分段设置之前,您需要:
已创建知识库:在系统中已有一个可用的知识库。
已配置 Embedding:系统内已添加至少一个向量(Embedding)模型。
(可选)多模态模型:若需使用图片理解模型,需在系统中配置支持视觉的模型。
参数说明
参数 | 说明 |
切片类型 | 根据文档特点选择合适的切片类型:
|
切片大小 | 每个切片的最大长度(字符数或 token 数,依类型而定)。推荐值:1000。 |
切片重叠 | 表相邻切片之间重叠的长度,用于保留上下文、避免语义被截断。推荐值:50。 重要 切片大小需大于切片重叠。 |
图片理解模型 |
|
向量模型 |
|
调优建议:建议先使用默认配置上传少量文档进行测试,通过评估模块分析召回率和准确率,再根据实际效果调整参数。
使用建议
长文档 RAG:设置切片类型为结构化、切片大小 1000、重叠 50,在保证上下文的前提下控制片段长度。
需要严格按照分隔符切分文档:使用段落 (paragraph)切分方式,自定义分隔符号。
表格数据:切片类型选择表格 (table) ,配置表头行与行分隔符,将 Excel/CSV 按行或按块接入检索,如果不勾选合并行选项,则是按照行切分,勾选合并行选项,可以按照切片大小的限制将行合并为块。
多模态文档:开启图片理解模型,使 PDF、带图文档中的图片内容参与检索与回答。
配置应用 FAQ
FAQ(常见问题)功能允许为每个应用维护一套问题-答案知识库,适用于产品说明书、客服话术、常见问题等。
应用启用FAQ功能并配置好条目后,在对话时,流程如下:
AI 助手会优先从 FAQ 中检索与用户问题最相似的条目
若命中且满足相似度阈值,将根据配置选择直接返回 FAQ 答案或结合 FAQ 结果由模型生成回答
若未命中或未启用直接返回,则会继续使用知识库、搜索等其它能力回答。
配置方式:
登录系统后,进入目标应用的配置页。
启用 FAQ:在应用配置中打开启用 FAQ开关并保存。

打开FAQ管理,在 FAQ 管理页面中可进行:
FAQ 回复设置:单击设置按钮,设置相似度的分数阈值(建议 0.8~1.0)、Embedding 模型、是否让问题/答案参与检索与展示、是否直接返回工具结果等。

维护 FAQ:
新增、编辑、删除单条FAQ。

批量删除

批量导入:上传 Excel 文件,按列映射「问题列」「答案列」后一键导入。

保存后,该应用的对话将自动优先使用 FAQ 检索结果。







