AI数据准备

更新时间:
复制 MD 格式

AI数据准备是AI原生数据库服务提供的数据传输通道,支持将非结构化和结构化数据投递至AI数据基础设施(向量数据库、湖仓数据库等),为RAG(Retrieval-Augmented Generation)应用构建高质量的数据底座。

什么是AI数据准备

在构建AI应用的过程中,高质量的数据是模型推理和知识检索的关键。AI数据准备提供了一条从数据源到AI数据基础设施的传输通道,帮助您将企业中的多模态数据(文档、图片、结构化数据等)高效地投递至向量数据库或湖仓数据库,完成数据的清洗、切片、向量化等处理,为RAG应用提供可靠的知识库支撑。

应用场景

AI数据准备适用于以下典型场景:

  • 企业知识库:将企业内部的技术文档、产品手册、FAQ等非结构化数据导入向量数据库,构建企业级智能问答系统,帮助员工快速获取所需知识。

  • 智能客服:将客服知识库、产品说明等数据向量化并存入向量数据库,结合大语言模型实现智能客服应答,提升客户服务质量和效率。

  • 内容创作:将行业资料、研究报告等数据作为知识底座,辅助大语言模型进行高质量的内容生成和创作。

功能特性

AI数据准备提供以下核心功能:

  • 多模数据准备:支持从MySQL等数据源将结构化数据传输至AnalyticDB PostgreSQL版(ADB PG),完成数据的向量化处理,为RAG应用提供数据支撑。

  • RAGFlow知识库:集成RAGFlow知识库能力,支持对非结构化文档进行智能切片、向量化和检索,快速构建高质量的知识库。

RAGFlow知识库

RAGFlow知识库是AI数据准备的重要组成部分,提供从文档解析到知识检索的端到端能力。

支持的向量数据库

RAGFlow知识库支持以下向量数据库作为知识存储后端:

向量数据库

说明

AnalyticDB PostgreSQL版(ADB PG)

云原生数据仓库,支持高性能的向量检索能力,适用于大规模知识库场景。

PolarSearch

基于PolarDB的全文检索与向量检索引擎,提供混合检索能力。

Lindorm

多模数据库,支持宽表、时序、搜索等多种数据模型及向量检索能力。

PolarDB PostgreSQL

云原生关系型数据库,通过pgvector等插件支持向量存储和检索。

支持的地域

RAGFlow知识库当前支持以下地域:

区域

地域

中国内地

华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)

中国香港及海外

中国香港

性能指标

性能项

性能说明

备注

单文件解析上限

500 MB

相比开源工具 10~128 MB 的限制,经过深度优化。

文件解析吞吐

单节点 20 MB 文件 180s 完成解析

可通过扩大节点数量提升吞吐,最高支持 20 个数据准备服务节点。

召回 QPS

10 QPS(测试场景 100 个相同文件)

受检索语句 Embedding、向量检索性能等多因素影响。

企业级服务能力

维度

说明

稳定性

7x24小时服务可用性保障,L1/L2/L3/产研完整支撑体系,大客户重保机制。

安全性

支持OSS托管方案,用户文档和解析结果仅在客户指定空间存储,文件处理不出公网,细粒度权限管控。

性能

可监控平均响应时间、P95/P99响应时间,支持不同数据规模下的性能评估。

易用性

提供完整API调用能力,支持账单详情查询(时间范围、用量、费用等)。

免费试用

产品

免费试用规则

RAGFlow知识库

新用户首次购买可享15天免费试用(主账号享受,仅一次)。

AnalyticDB PostgreSQL版向量数据库

新用户首次购买可享1个月免费试用。

说明

免费试用仅限一次,实例删除后再次购买无法享受。RAM子账号无法直接享受免费试用,需主账号创建后授权使用。

访问方式

您可以通过以下方式访问AI数据准备功能:

  1. 登录AI原生数据库服务控制台

  2. 在左侧导航栏中,单击AI数据准备 > 多模数据准备

  3. 在多模数据准备页面,您可以创建RAGFlow知识库实例或管理已有实例。

说明

使用AI数据准备功能前,请确保您已开通AI原生数据库服务,并已创建相应的目标数据库实例(如AnalyticDB PostgreSQL版实例)。