AI数据准备
AI数据准备是AI原生数据库服务提供的数据传输通道,支持将非结构化和结构化数据投递至AI数据基础设施(向量数据库、湖仓数据库等),为RAG(Retrieval-Augmented Generation)应用构建高质量的数据底座。
什么是AI数据准备
在构建AI应用的过程中,高质量的数据是模型推理和知识检索的关键。AI数据准备提供了一条从数据源到AI数据基础设施的传输通道,帮助您将企业中的多模态数据(文档、图片、结构化数据等)高效地投递至向量数据库或湖仓数据库,完成数据的清洗、切片、向量化等处理,为RAG应用提供可靠的知识库支撑。
应用场景
AI数据准备适用于以下典型场景:
企业知识库:将企业内部的技术文档、产品手册、FAQ等非结构化数据导入向量数据库,构建企业级智能问答系统,帮助员工快速获取所需知识。
智能客服:将客服知识库、产品说明等数据向量化并存入向量数据库,结合大语言模型实现智能客服应答,提升客户服务质量和效率。
内容创作:将行业资料、研究报告等数据作为知识底座,辅助大语言模型进行高质量的内容生成和创作。
功能特性
AI数据准备提供以下核心功能:
多模数据准备:支持从MySQL等数据源将结构化数据传输至AnalyticDB PostgreSQL版(ADB PG),完成数据的向量化处理,为RAG应用提供数据支撑。
RAGFlow知识库:集成RAGFlow知识库能力,支持对非结构化文档进行智能切片、向量化和检索,快速构建高质量的知识库。
RAGFlow知识库
RAGFlow知识库是AI数据准备的重要组成部分,提供从文档解析到知识检索的端到端能力。
支持的向量数据库
RAGFlow知识库支持以下向量数据库作为知识存储后端:
向量数据库 | 说明 |
AnalyticDB PostgreSQL版(ADB PG) | 云原生数据仓库,支持高性能的向量检索能力,适用于大规模知识库场景。 |
PolarSearch | 基于PolarDB的全文检索与向量检索引擎,提供混合检索能力。 |
Lindorm | 多模数据库,支持宽表、时序、搜索等多种数据模型及向量检索能力。 |
PolarDB PostgreSQL版 | 云原生关系型数据库,通过pgvector等插件支持向量存储和检索。 |
支持的地域
RAGFlow知识库当前支持以下地域:
区域 | 地域 |
中国内地 | 华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳) |
中国香港及海外 | 中国香港 |
性能指标
性能项 | 性能说明 | 备注 |
单文件解析上限 | 500 MB | 相比开源工具 10~128 MB 的限制,经过深度优化。 |
文件解析吞吐 | 单节点 20 MB 文件 180s 完成解析 | 可通过扩大节点数量提升吞吐,最高支持 20 个数据准备服务节点。 |
召回 QPS | 10 QPS(测试场景 100 个相同文件) | 受检索语句 Embedding、向量检索性能等多因素影响。 |
企业级服务能力
维度 | 说明 |
稳定性 | 7x24小时服务可用性保障,L1/L2/L3/产研完整支撑体系,大客户重保机制。 |
安全性 | 支持OSS托管方案,用户文档和解析结果仅在客户指定空间存储,文件处理不出公网,细粒度权限管控。 |
性能 | 可监控平均响应时间、P95/P99响应时间,支持不同数据规模下的性能评估。 |
易用性 | 提供完整API调用能力,支持账单详情查询(时间范围、用量、费用等)。 |
免费试用
产品 | 免费试用规则 |
RAGFlow知识库 | 新用户首次购买可享15天免费试用(主账号享受,仅一次)。 |
AnalyticDB PostgreSQL版向量数据库 | 新用户首次购买可享1个月免费试用。 |
免费试用仅限一次,实例删除后再次购买无法享受。RAM子账号无法直接享受免费试用,需主账号创建后授权使用。
访问方式
您可以通过以下方式访问AI数据准备功能:
登录AI原生数据库服务控制台。
在左侧导航栏中,单击AI数据准备 > 多模数据准备。
在多模数据准备页面,您可以创建RAGFlow知识库实例或管理已有实例。
使用AI数据准备功能前,请确保您已开通AI原生数据库服务,并已创建相应的目标数据库实例(如AnalyticDB PostgreSQL版实例)。