概述
数据源与存储配置功能包含两个独立模块:数据源同步配置和数据存储配置。
数据源同步配置:支持用户从指定的OSS数据源地址自动同步文档内容。
数据存储配置:为保障数据安全,支持将原始文件及处理结果直接存储至用户指定的自有OSS地址,确保数据传输与存储的隔离性与安全性。
数据源同步配置
支持以一级文件夹为单位配置数据源同步任务,初始状态默认为未设置。
执行同步时,系统将根据数据源OSS中的文件目录结构自动生成知识库的对应目录结构,最多支持两级子文件夹(即一级目录和二级子目录)。若存在更深的目录层级,系统将自动将其扁平化处理。
在数据源同步配置窗口中,您可设置以下内容:
数据源OSS地址:指定需同步的OSS地址。请创建以aidoc开头的bucket名称,并填写文件夹路径, 例如:aidoc-test.oss-cn-hangzhou.aliyuncs.com/abc/d/
更新频率:设置同步任务的执行周期。系统将根据用户选择的同步频率,在当日凌晨自动执行数据同步。若任务量较大,处理时间可能相应顺延。
处理任务:定义文件的处理方式(如解析、抽取)
启用状态:支持开启或暂停同步任务
配置完成后,系统将按设定自动同步数据源内容。
限制与声明
对于已配置数据源同步的文件夹,在知识库页面中禁止通过界面进行移动操作,包括该文件夹及其内部内容,以确保同步一致性。
同步任务中生成的中间文件,将按存储模式自动存储至对应OSS地址,可能产生一定费用,请知悉并自行承担。
数据存储配置
支持以一级文件夹为单位配置数据存储。
数据存储默认采用公共OSS模式,无需设置,处理结果将自动写入公共OSS。并支持在写入后订阅至指定OSS地址。若选择自有OSS模式,所有原始文件及处理结果将直接写入您指定的OSS地址。
配置自有OSS
CORS配置
首先,为了保证产品页面正常使用,请在您即将设置的写入OSS bucket中配置CORS规则。
请配置如下两条规则:
Origin:
*.aliyun.com
Exposed Headers:
etag
x-oss-request-id
Allowed Headers:
access-control-allow-origin:https://energy.aliyun.com
access-control-allow-credentials:true
Exposed Headers:
Accept-Ranges
Content-Range
数据存储窗口配置
请打开数据存储配置窗口,选择自有OSS,设置写入OSS地址并保存配置。请创建以aidoc开头的bucket名称,并填写文件夹路径,例如:aidoc-test.oss-cn-hangzhou.aliyuncs.com/abc/d/。配置完成后,系统将按设定的地址自动存储相关文件。
限制与声明
若在存储配置中选择使用自有OSS,系统将自动在指定OSS地址下创建相应文件夹,用于存储原始文件、中间文件及处理结果。请勿手动修改或删除这些文件夹,否则可能导致知识库部分功能异常。