实践手册:将OSS接入到DTS RAGFlow知识库

本文为您介绍如何将阿里云对象存储OSS(Object Storage Service)的数据传输到数据传输服务DTS(Data Transmission Service)的RAGFlow知识库。

前提条件

已在DTS创建RAGFlow知识库设置IP白名单

支持的文件类型

  • DOC、DOCX、PPT、PPTX、YML、XML、HTML、JSON、CSV、TXT、XLS、XLSX、WPS、RTF、MD、SQL

  • JPG、JPEG、PNG

  • INI

  • MP3

准备工作

  1. 创建AccessKey,并记录AccessKey IDAccessKey Secret。

    说明

    若您使用RAM用户创建的AccessKey,则需确保RAM用户具备只读访问对象存储服务(OSS)的权限(AliyunOSSReadOnlyAccess)或管理对象存储服务(OSS)权限(AliyunOSSFullAccess)。

  2. 获取并记录OSS Bucket信息(Bucket名称和地域ID)。

    1. 登录OSS管理控制台

    2. 在左侧导航栏,单击Bucket 列表

    3. 查询目标Bucket。

    4. 记录目标BucketBucket名称

    5. 根据目标Bucket地域,查询并记录地域ID

操作步骤

  1. 获取KBSync文件。

    说明

    您可以添加钉钉群(群号:79690034672),联系技术支持人员以获取KBSync文件。

  2. 准备KBSync程序的运行环境。

    说明

    运行KBSync程序需要为Linux环境,并且可以访问OSSRAGFlow。

  3. 准备配置文件config

    1. 创建名为configLinux系统文件。

    2. 将以下代码复制到config文件中。

      whiteList=
      blackList=
      sinkType=RagFlow
      sourceType=OSS
      
      ragflowUrl=http://XX.XX.XX.XX
      ragflowApiKey=Bearer ragflow-Rh******
      ragflowDatasetId=******
      
      sourceOSSAccessKeyId=******
      sourceOSSAccessKeySecret=******
      sourceOSSRegion=cn-beijing
      sourceOSSBucket=kbsync
    3. 替换config文件中的参数。

      重要
      • 无需配置的参数,将其取值设置为空值即可。

      • 参数blackList的优先级高于参数whiteList

      参数

      是否必填

      说明

      获取方式

      whiteList

      需要传输(白名单)和无需传输(黑名单)的路径,包含钉盘中的文件夹路径和知识库中文档所在的路径。

      说明

      支持正则表达式,多个路径需使用空格分隔。

      自行在OSS中获取。

      blackList

      sinkType

      目标端的类型。

      取值请保持RagFlow

      sourceType

      源端的类型。

      取值请保持OSS

      ragflowUrl

      RAGFlow的地址(API服务器)。

      获取RAGFlow知识库的API服务地址

      ragflowApiKey

      RAGFlow知识库的API Key。

      重要

      须以Bearer 开头,例如Bearer ragflow-RhMjc0NjFhNTZmNTExZjBiYWY****

      获取RAGFlow知识库的API Key

      ragflowDatasetId

      RAGFlow知识库的ID。

      获取RAGFlow知识库的ID

      sourceOSSAccessKeyId

      准备工作中记录的AccessKey ID。

      准备工作

      sourceOSSAccessKeySecret

      准备工作中记录的AccessKey Secret。

      sourceOSSRegion

      准备工作中记录的OSS地域ID。

      sourceOSSBucket

      准备工作中记录的OSS Bucket名称。

  4. KBSync文件和配置文件config,放在Linux环境中的同一目录中。

  5. Linux环境中执行./KBSync --config config命令,运行KBSync程序。

    若运行结果如下所示,则表示KBSync程序正常运行。

    INFO config SourceType=OSS, SinkType=RagFlow
    INFO config whiteList=, blackList=
    INFO config ragflowUrl=http://XX.XX.XX.XX ragflowApiKey=Bearer ragflow-Rh******
    INFO config ragflowDatasetId=b2******
    INFO config sourceOssKeyId=******, sourceOssRegion=cn-beijing
    INFO Verifying RAGFlow connection...
    INFO Attempting to list datasets to validate the connection...
    INFO Successfully found matching dataset: Name='test', ID='b2******'
    INFO RAGFlow connection verified successfully.

附录

获取RAGFlow知识库的API服务地址

  1. 登录RAGFlow页面

  2. 在左侧导航栏,单击API

  3. 获取API服务器

获取RAGFlow知识库的API Key

  1. 登录RAGFlow页面

  2. 在左侧导航栏,单击API

  3. RAGFlow API右侧,单击API KEY

  4. 在弹出的API KEY对话框,单击创建新密钥

  5. 单击image,记录Token。

获取RAGFlow知识库的ID

  1. 登录RAGFlow页面

  2. 知识库页面,单击目标知识库。

  3. 在当前页面的URL中,记录知识库的ID。

    说明

    id=之后的信息即为知识库的ID。