性能测试报告-云原生数据库 PolarDB(PolarDB)-阿里云帮助中心

本文整理了Daft在两类典型工作负载上的性能表现：AI benchmark（面向音频、文档、图像、视频等多模态数据处理）和TPC-H benchmark（面向传统分析型批处理和大规模SQL风格查询）。对比引擎包括Ray Data、Spark、Dask和Modin。

说明

本文的TPC-H的实现基于TPC-H的基准测试，并不能与已发布的TPC-H基准测试结果相比较，本文中的测试并不完全符合TPC-H的所有要求。

测试环境

测试对象：Daft、Ray Data、Spark
软件版本：Daft 0.6.2、Ray Data 2.49.2、Spark（EMR Spark 7.10.0）
计算规格：8个worker节点，每节点1张GPU（24 GB显存）、4 vCPU、16 GB内存、100 GB本地盘
数据集：
- Audio Transcription：113,800个音频文件
- Document Embedding：10,000个PDF文档
- Image Classification：803,580张图片
- Video Object Detection：1,000个视频

AI benchmark对应的不是传统ETL，而是典型的多模态AI数据流水线：下载或读取大对象、CPU侧解码与解析、GPU侧推理、再把结果写回列式数据。

从官方公开结果看，Daft在4个workload中都是最快的：

Audio Transcription：这类workload对应大规模语音数据清洗、ASR预处理和语音内容索引。公开结果显示，Daft在音频转写链路上相对Ray Data提升4.6倍，相对Spark提升4.0倍，适合需要压缩批处理窗口的场景。
Document Embedding：这类workload对应知识库构建、RAG入库和文档向量化。Daft1分54秒完成10,000个PDF的处理，是4.2倍到7.6倍的速度优势，适合对文档入库吞吐敏感的项目。
Image Classification：这类workload对应图像打标、样本筛选和视觉数据治理。Daft在80余万图片分类任务上约4分钟完成，而Spark超过45分钟，说明在“下载+解码+预处理+GPU推理”连续流水线里，Daft的公开表现更适合高吞吐场景。
Video Object Detection：这类workload对应视频理解、事件抽取和训练样本生产。Daft11分46秒完成，而Spark需要3小时36分，说明视频这种最容易出现CPU/GPU/I/O多重瓶颈的场景，更能放大引擎设计差异。

TPC-H是传统分析引擎常用的公开基准，用来观察连接、聚合、排序等分析型负载的执行效率。Daft除了多模态AI处理之外，面对TB级表数据时，也具备稳定的分析型处理能力。

以下结果对应约100 GB数据，使用4个worker节点。

在约百GB规模的分析型批处理上，Daft官方公开结果相对Spark有3.3倍的时间优势，同时也能完整跑完Q1-Q10。

以下结果对应1 TB以上数据，仍使用4个worker节点。此时数据规模已经显著大于集群内存，依赖out-of-core执行能力。

说明

*：官方说明该倍数仅按已完成查询计算。

1 TB规模下的关键结论：

官方benchmark在1000 Scale Factor上的节点扩展测试给出了以下两条结论：

这部分说明Daft的公开benchmark不只覆盖“分布式加速”，也覆盖“单机out-of-core能否顶住超内存数据集”。