分布式框架Ray

更新时间: 2025-07-22 15:05:11

在数据智能化时代,多模态数据(如文本、图像、音频、视频)的处理需求日益增长。云原生数据仓库 AnalyticDB MySQL 版推出AnalyticDB Ray,支持多模数据ETL与ML一体化,提升AI流水线效率,实现从数据到智能决策的无缝转换。

什么是AnalyticDB Ray

开源 Ray 是一款专为 AI 与高性能计算设计的分布式计算框架,通过简洁的 API 抽象实现高效的分布式调度,用户仅需几行代码,即可将单机任务扩展至千节点集群,能够像调用本地函数一样调度远程资源。其内置模块(如Ray Tune、Ray Train和Ray Serve)与TensorFlow、PyTorch等无缝兼容。在活跃的开源社区和Anyscale等企业的推动下,Ray已成为构建 AI 应用的重要工具。

尽管开源 Ray 提供了高度灵活的分布式计算能力,但在实际生产环境中,企业仍面临分布式作业优化、资源精细化调度、集群运维复杂以及系统稳定性与高可用性保障等挑战。

针对上述问题,AnalyticDB for MySQL推出全托管Ray服务——AnalyticDB Ray(下文简称ADB Ray)。ADB Ray基于开源Ray的丰富生态,通过多模态处理、具身智能、搜索推荐、金融风控等典型场景的验证,对Ray内核和服务能力进行了全面增强,优化了内核性能,简化了集群运维,并与AnalyticDB for MySQL湖仓平台无缝集成,助力企业构建Data+AI一体化架构,加速企业AI的规模化落地。

AnalyticDB Ray的优势

  • 易用性

    • 自动创建RayCluster:控制台提供了一键部署的白屏化能力,用户可创建AI类型的资源组,完成Head和Worker资源规格配置后,即可创建RayCluster。

    • 内置大模型微调推理工具链:内置强化学习一键蒸馏、微调、推理、评测LLMs模型工具。

    • 内置具身智能工具链:ADB Ray作为Python生态的资源调度基础,支持Cosmos、NeMo Curator、GROOT N1等,实现数据的仿真、合成及模型微调。

  • 生态集成

    • Lance:支持存储多模态数据。

    • Llama-factory:支持在Ray平台上进行分布式微调。

    • Spark:通过Ray DP支持在Ray上运行Spark,实现资源的混合部署。

  • 性价比

    • 多租户、多Job资源隔离:通过vCluster以及资源组共享,解决租户、Job之间资源隔离和共享问题。

    • Data+AI深度融合:ADB原生支持PB级数据存储与分析,结合Ray实现了从数据处理、多模特征工程到模型推理的全链路贯通。同时,Ray与ADB的实时分析负载及Spark的资源混合复用,显著提升了资源利用率。

    • AutoScaling:根据负载自动进行GPU/CPU资源的弹性扩展与缩减,同时支持低成本的Spot资源。

    • 弹性缓存:根据Ray的读写数据量和带宽需求,灵活构建缓存服务资源。

    • 资源精细化调度:自动依据节点的资源利用率进行调度,同时增加GPU多租户超卖的隔离机制以及任务之间的亲和性(Affinity)和反亲和性(Anti-affinity)调度策略。

  • 稳定性和高可用性

    • 无感迁移与自愈:支持集群的无感轮转升级,节点异常情况下可实现自动恢复。

    • 高可用性:支持主备Head节点配置。

  • 可观测性

    监控指标看板:任务Dashboard的持久化以及多集群的统一可观测管理。

上一篇: 使用SQL实现机器学习预测 下一篇: 托管Ray服务