数据处理到模型推理全链路-AnalyticDB Ray-云原生数据仓库AnalyticDB-阿里云

在数据智能化时代，多模态数据（如文本、图像、音频、视频）的处理需求日益增长。云原生数据仓库 AnalyticDB MySQL 版推出AnalyticDB Ray，支持多模数据ETL与ML一体化，提升AI流水线效率，实现从数据到智能决策的无缝转换。

什么是AnalyticDB Ray

开源 Ray 是一款专为 AI 与高性能计算设计的分布式计算框架，通过简洁的 API 抽象实现高效的分布式调度，用户仅需几行代码，即可将单机任务扩展至千节点集群，能够像调用本地函数一样调度远程资源。其内置模块（如Ray Tune、Ray Train和Ray Serve）与TensorFlow、PyTorch等无缝兼容。在活跃的开源社区和Anyscale等企业的推动下，Ray已成为构建 AI 应用的重要工具。

尽管开源 Ray 提供了高度灵活的分布式计算能力，但在实际生产环境中，企业仍面临分布式作业优化、资源精细化调度、集群运维复杂以及系统稳定性与高可用性保障等挑战。

针对上述问题，AnalyticDB for MySQL推出全托管Ray服务——AnalyticDB Ray。AnalyticDB Ray基于开源Ray的丰富生态，通过多模态处理、具身智能、搜索推荐、金融风控等典型场景的验证，对Ray内核和服务能力进行了全面增强，优化了内核性能，简化了集群运维，并与AnalyticDB for MySQL湖仓平台无缝集成，助力企业构建Data+AI一体化架构，加速企业AI的规模化落地。

AnalyticDB Ray的优势

易用性
- 自动创建RayCluster：控制台提供了一键部署的白屏化能力，用户可创建AI类型的资源组，完成Head和Worker资源规格配置后，即可创建RayCluster。
- 内置大模型微调、推理工具链：内置强化学习一键蒸馏、微调、推理、评测LLMs模型工具。
- 内置具身智能工具链：AnalyticDB Ray作为Python生态的资源调度基础，支持Cosmos、NeMo Curator、GROOT N1等，实现数据的仿真、合成及模型微调。
生态集成
- Lance：支持存储多模态数据。
- Llama-factory：支持在Ray平台上进行分布式微调。
- Spark：通过Ray DP支持在Ray上运行Spark，实现资源的混合部署。
性价比
- 多租户、多Job资源隔离：通过vCluster以及资源组共享，解决租户、Job之间资源隔离和共享问题。
- Data+AI深度融合：AnalyticDB原生支持PB级数据存储与分析，结合Ray实现了从数据处理、多模特征工程到模型推理的全链路贯通。同时，Ray与AnalyticDB的实时分析负载及Spark的资源混合复用，显著提升了资源利用率。
- AutoScaling：根据负载自动进行GPU/CPU资源的弹性扩展与缩减，同时支持低成本的Spot资源。
- 弹性缓存：根据Ray的读写数据量和带宽需求，灵活构建缓存服务资源。
- 资源精细化调度：自动依据节点的资源利用率进行调度，同时增加GPU多租户超卖的隔离机制以及任务之间的亲和性（Affinity）和反亲和性（Anti-affinity）调度策略。
稳定性和高可用性
- 无感迁移与自愈：支持集群的无感轮转升级，节点异常情况下可实现自动恢复。
- 高可用性：支持主备Head节点配置。
可观测性
监控指标看板：任务Dashboard的持久化以及多集群的统一可观测管理。