本模块为您讲解如何将企业知识内容上传到系统中,由模型学习后并解答出对应的答案内容。
我们于2024年5月3日0点调整升级原版本RAG应用创建链路,届时原RAG历史上传存储的数据将保留在菜单栏【企业知识库-V1】中。原企业知识库支持历史RAG应用的数据编辑、调用暂不受影响。但原版本企业知识库数据与新版本应用不互通。如未来企业知识库数据需要迁移,我们将提前给予您通知说明。您可以通过数据中心来构建新版RAG应用,详细操作请参考低代码快速构建RAG应用。
2024年5月3日0点之后开通阿里云百炼的用户,默认使用新版本企业知识库。新版本企业知识库的相关配置,请参见知识索引。
第一步:导入企业知识
首次上传文件,点击上传企业知识按钮,进入上传文件页面。
第二步:上传文件
选择需要模型学习的文件,上传后点击确认导入等待上传状态。
若文件上传的格式为pdf、doc、docx时,每次最多只能上传20个文件且单个文件小于100M,文档页数低于100页。
若上传的格式为Excel时,每次最多只能上传20个文件,且单个文件小于100M,文档内容小于1000行数据。
具体导入说明可以在上传页面中查看详情。
阿里云百炼提供两个默认ES向量数据库,按照知识库名称分类对比能力:
默认知识库:近期新上线的能力,检索效果相对较好,但上传的文件没有预览功能;
默认:最先支持的能力,检索效果一般,但上传的文件有预览功能;
您可以按照对比按需选择。
第三步:等待导入状态
状态目前包括:导入中、导入完成、导入失败;当状态为导入完成时即可用于模型测试验证。
支持数据类型
支持上传pdf、doc、docx、Excel格式的文档,文档内容格式要求点击文档上传格式要求
数据作用范围
用于在线部分功能说明描述的「应用设置及测试」中,开启「文档检索」后,文档检索能力数据范围
当上传的文档为Excel时,需要先下载预置的文件模板,按照模板的提示填充内容后再上传文件。
知识标签
可以通过设置标签的方式将上传的文档进行分类,最多支持设置50个标签。在文档问答检索中,也可以通过标签的方式进行检索。
点击新增标签,输入标签名称点击确定。
点击已经上传文档的编辑按钮,选择标签后点击保存,文档标签设置完成。
可以通过设置标签类型,实现指定大模型的检索知识范围。
批量管理
支持批量管理标签和批量删除文档功能。
数据上传常见问题
1.上传的文件支持excel格式以及钉钉文档内容吗?
目前仅支持上传pdf、doc、docx、Excel格式的文档,其他格式上传敬请期待,文档内容格式要求文档上传格式要求。
2.上传的文件状态为导入失败,什么原因?
文件上传失败可联系专属客服进行反馈。
3.当前阿里云百炼里面导入企业文档,进行问答,有进行FT或者某种方式的模型训练吗?
有。导入文档只是通过对文档内容解析-分块-embedding向量化得到文档的向量数据库,然后在问答过程中先根据用户query进行向量检索,然后将检索结果和问题组成prompt,由大模型返回最终答案。「模型训练中心」可以进行sft训练。