本文为您介绍如何将阿里云对象存储OSS(Object Storage Service)的数据传输到数据传输服务DTS(Data Transmission Service)的RAGFlow知识库。
前提条件
已在DTS创建RAGFlow知识库并设置IP白名单。
支持的文件类型
DOC、DOCX、PPT、PPTX、YML、XML、HTML、JSON、CSV、TXT、XLS、XLSX、WPS、RTF、MD、SQL
JPG、JPEG、PNG
INI
MP3
准备工作
创建AccessKey,并记录AccessKey ID和AccessKey Secret。
说明若您使用RAM用户创建的AccessKey,则需确保RAM用户具备只读访问对象存储服务(OSS)的权限(AliyunOSSReadOnlyAccess)或管理对象存储服务(OSS)权限(AliyunOSSFullAccess)。
获取并记录OSS Bucket信息(Bucket名称和地域ID)。
操作步骤
获取KBSync文件。
说明您可以添加钉钉群(群号:79690034672),联系技术支持人员以获取KBSync文件。
准备KBSync程序的运行环境。
说明运行KBSync程序需要为Linux环境,并且可以访问OSS和RAGFlow。
准备配置文件config。
创建名为config的Linux系统文件。
将以下代码复制到config文件中。
whiteList= blackList= sinkType=RagFlow sourceType=OSS ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh****** ragflowDatasetId=****** sourceOSSAccessKeyId=****** sourceOSSAccessKeySecret=****** sourceOSSRegion=cn-beijing sourceOSSBucket=kbsync
替换config文件中的参数。
重要无需配置的参数,将其取值设置为空值即可。
参数
blackList
的优先级高于参数whiteList
。
参数
是否必填
说明
获取方式
whiteList
否
需要传输(白名单)和无需传输(黑名单)的路径,包含钉盘中的文件夹路径和知识库中文档所在的路径。
说明支持正则表达式,多个路径需使用空格分隔。
自行在OSS中获取。
blackList
sinkType
是
目标端的类型。
取值请保持
RagFlow
。sourceType
源端的类型。
取值请保持
OSS
。ragflowUrl
RAGFlow的地址(API服务器)。
ragflowApiKey
RAGFlow知识库的API Key。
重要须以
Bearer
开头,例如Bearer ragflow-RhMjc0NjFhNTZmNTExZjBiYWY****
。ragflowDatasetId
RAGFlow知识库的ID。
sourceOSSAccessKeyId
准备工作中记录的AccessKey ID。
sourceOSSAccessKeySecret
准备工作中记录的AccessKey Secret。
sourceOSSRegion
准备工作中记录的OSS地域ID。
sourceOSSBucket
准备工作中记录的OSS Bucket名称。
将KBSync文件和配置文件config,放在Linux环境中的同一目录中。
在Linux环境中执行
./KBSync --config config
命令,运行KBSync程序。若运行结果如下所示,则表示KBSync程序正常运行。
INFO config SourceType=OSS, SinkType=RagFlow INFO config whiteList=, blackList= INFO config ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh****** INFO config ragflowDatasetId=b2****** INFO config sourceOssKeyId=******, sourceOssRegion=cn-beijing INFO Verifying RAGFlow connection... INFO Attempting to list datasets to validate the connection... INFO Successfully found matching dataset: Name='test', ID='b2******' INFO RAGFlow connection verified successfully.
附录
获取RAGFlow知识库的API服务地址
在左侧导航栏,单击API。
获取API服务器。
获取RAGFlow知识库的API Key
在左侧导航栏,单击API。
在RAGFlow API右侧,单击API KEY。
在弹出的API KEY对话框,单击创建新密钥。
单击
,记录Token。
获取RAGFlow知识库的ID
在知识库页面,单击目标知识库。
在当前页面的URL中,记录知识库的ID。
说明id=
之后的信息即为知识库的ID。