本文为您介绍如何将阿里云对象存储OSS(Object Storage Service)的数据传输到数据传输服务DTS(Data Transmission Service)的RAGFlow知识库。
前提条件
已在DTS创建RAGFlow知识库并设置IP白名单。
支持的文件类型
- DOC、DOCX、PPT、PPTX、YML、XML、HTML、JSON、CSV、TXT、XLS、XLSX、WPS、RTF、MD、SQL 
- JPG、JPEG、PNG 
- INI 
- MP3 
准备工作
- 创建AccessKey,并记录AccessKey ID和AccessKey Secret。 说明- 若您使用RAM用户创建的AccessKey,则需确保RAM用户具备只读访问对象存储服务(OSS)的权限(AliyunOSSReadOnlyAccess)或管理对象存储服务(OSS)权限(AliyunOSSFullAccess)。 
- 获取并记录OSS Bucket信息(Bucket名称和地域ID)。 
操作步骤
- 获取KBSync文件。 说明- 您可以添加钉钉群(群号:79690034672),联系技术支持人员以获取KBSync文件。 
- 准备KBSync程序的运行环境。 说明- 运行KBSync程序需要为Linux环境,并且可以访问OSS和RAGFlow。 
- 准备配置文件config。 - 创建名为config的Linux系统文件。 
- 将以下代码复制到config文件中。 - whiteList= blackList= sinkType=RagFlow sourceType=OSS ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh****** ragflowDatasetId=****** sourceOSSAccessKeyId=****** sourceOSSAccessKeySecret=****** sourceOSSRegion=cn-beijing sourceOSSBucket=kbsync
- 替换config文件中的参数。 重要- 无需配置的参数,将其取值设置为空值即可。 
- 参数 - blackList的优先级高于参数- whiteList。
 - 参数 - 是否必填 - 说明 - 获取方式 - whiteList- 否 - 需要传输(白名单)和无需传输(黑名单)的路径,包含钉盘中的文件夹路径和知识库中文档所在的路径。 说明- 支持正则表达式,多个路径需使用空格分隔。 - 自行在OSS中获取。 - blackList- sinkType- 是 - 目标端的类型。 - 取值请保持 - RagFlow。- sourceType- 源端的类型。 - 取值请保持 - OSS。- ragflowUrl- RAGFlow的地址(API服务器)。 - ragflowApiKey- RAGFlow知识库的API Key。 重要- 须以 - Bearer开头,例如- Bearer ragflow-RhMjc0NjFhNTZmNTExZjBiYWY****。- ragflowDatasetId- RAGFlow知识库的ID。 - sourceOSSAccessKeyId- 准备工作中记录的AccessKey ID。 - sourceOSSAccessKeySecret- 准备工作中记录的AccessKey Secret。 - sourceOSSRegion- 准备工作中记录的OSS地域ID。 - sourceOSSBucket- 准备工作中记录的OSS Bucket名称。 
 
- 将KBSync文件和配置文件config,放在Linux环境中的同一目录中。 
- 在Linux环境中执行 - ./KBSync --config config命令,运行KBSync程序。- 若运行结果如下所示,则表示KBSync程序正常运行。 - INFO config SourceType=OSS, SinkType=RagFlow INFO config whiteList=, blackList= INFO config ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh****** INFO config ragflowDatasetId=b2****** INFO config sourceOssKeyId=******, sourceOssRegion=cn-beijing INFO Verifying RAGFlow connection... INFO Attempting to list datasets to validate the connection... INFO Successfully found matching dataset: Name='test', ID='b2******' INFO RAGFlow connection verified successfully.
附录
获取RAGFlow知识库的API服务地址
- 在左侧导航栏,单击API。 
- 获取API服务器。 
获取RAGFlow知识库的API Key
- 在左侧导航栏,单击API。 
- 在RAGFlow API右侧,单击API KEY。 
- 在弹出的API KEY对话框,单击创建新密钥。 
- 单击  ,记录Token。 ,记录Token。
获取RAGFlow知识库的ID
- 在知识库页面,单击目标知识库。 
- 在当前页面的URL中,记录知识库的ID。 说明- id=之后的信息即为知识库的ID。