分布式框架Ray
在数据智能化时代,多模态数据(如文本、图像、音频、视频)的处理需求日益增长。云原生数据仓库 AnalyticDB MySQL 版推出AnalyticDB Ray,支持多模数据ETL与ML一体化,提升AI流水线效率,实现从数据到智能决策的无缝转换。
什么是AnalyticDB Ray
开源 Ray 是一款专为 AI 与高性能计算设计的分布式计算框架,通过简洁的 API 抽象实现高效的分布式调度,用户仅需几行代码,即可将单机任务扩展至千节点集群,能够像调用本地函数一样调度远程资源。其内置模块(如Ray Tune、Ray Train和Ray Serve)与TensorFlow、PyTorch等无缝兼容。在活跃的开源社区和Anyscale等企业的推动下,Ray已成为构建 AI 应用的重要工具。
尽管开源 Ray 提供了高度灵活的分布式计算能力,但在实际生产环境中,企业仍面临分布式作业优化、资源精细化调度、集群运维复杂以及系统稳定性与高可用性保障等挑战。
针对上述问题,AnalyticDB for MySQL推出全托管Ray服务——AnalyticDB Ray(下文简称ADB Ray)。ADB Ray基于开源Ray的丰富生态,通过多模态处理、具身智能、搜索推荐、金融风控等典型场景的验证,对Ray内核和服务能力进行了全面增强,优化了内核性能,简化了集群运维,并与AnalyticDB for MySQL湖仓平台无缝集成,助力企业构建Data+AI一体化架构,加速企业AI的规模化落地。
AnalyticDB Ray的优势
易用性
自动创建RayCluster:控制台提供了一键部署的白屏化能力,用户可创建AI类型的资源组,完成Head和Worker资源规格配置后,即可创建RayCluster。
内置大模型微调、推理工具链:内置强化学习一键蒸馏、微调、推理、评测LLMs模型工具。
内置具身智能工具链:ADB Ray作为Python生态的资源调度基础,支持Cosmos、NeMo Curator、GROOT N1等,实现数据的仿真、合成及模型微调。
生态集成
Lance:支持存储多模态数据。
Llama-factory:支持在Ray平台上进行分布式微调。
Spark:通过Ray DP支持在Ray上运行Spark,实现资源的混合部署。
性价比
多租户、多Job资源隔离:通过vCluster以及资源组共享,解决租户、Job之间资源隔离和共享问题。
Data+AI深度融合:ADB原生支持PB级数据存储与分析,结合Ray实现了从数据处理、多模特征工程到模型推理的全链路贯通。同时,Ray与ADB的实时分析负载及Spark的资源混合复用,显著提升了资源利用率。
AutoScaling:根据负载自动进行GPU/CPU资源的弹性扩展与缩减,同时支持低成本的Spot资源。
弹性缓存:根据Ray的读写数据量和带宽需求,灵活构建缓存服务资源。
资源精细化调度:自动依据节点的资源利用率进行调度,同时增加GPU多租户超卖的隔离机制以及任务之间的亲和性(Affinity)和反亲和性(Anti-affinity)调度策略。
稳定性和高可用性
无感迁移与自愈:支持集群的无感轮转升级,节点异常情况下可实现自动恢复。
高可用性:支持主备Head节点配置。
可观测性
监控指标看板:任务Dashboard的持久化以及多集群的统一可观测管理。