某新势力汽车品牌智能驾驶训练平台AI Landing Zone实践

更新时间:

业务背景与挑战

公司背景与智能驾驶业务

某国内新能源汽车品牌,当前智能驾驶板块重点聚焦于L2+至L4级别系统的研发和交付,已积累大量路测及影子模式数据,用于持续优化智能驾驶模型。

随着业务的飞速发展,AI模型训练面临着三大核心挑战:

  • 数据规模:达到PB级别并持续高速增长。

  • 模型复杂度:Transformer、Diffusion等大型模型成为主流,算力需求呈指数级增长。

  • 算法迭代速度:为应对复杂交通场景和法规变化,模型需进行快速迭代。

为支撑其技术领先地位,该公司决定将核心AI训练业务迁移至阿里云,并以 AI Landing Zone 的标准进行规划和建设,其核心需求明确指向:高性能计算高性能存储企业级治理

多维度的企业级挑战

智驾AI训练上云是一个典型的复杂项目,它所面临的挑战横跨业务、IT和安全等多个部门:

  • 业务部门(智驾团队):核心诉求是极致性能与效率。他们渴求稀缺算力资源以加速训练,需要高性能共享存储来消除I/O瓶颈,并要求海量路测数据和模型资产得到最高级别的数据安全保障。

  • IT部门:核心挑战在于资源管理与成本控制。他们需要在统一的云环境下,实现多业务、多环境的资源隔离与配额管理,并对高昂的AI算力资源进行精细化的成本归因与分账。

  • 安全部门:核心关注点是安全合规与权限管控。必须满足智能驾驶数据安全的严苛监管要求,实现所有云上操作的全链路可追溯审计,并严格遵循最小权限原则,确保核心数据与模型资产的绝对安全。

面对这些盘根错节的需求,一个简单拼凑的云环境远不能满足要求。企业亟需一个体系化的解决方案,既能提供顶级的AI工程能力,又能内置完善的治理框架——这正是 AI Landing Zone 的核心价值所在。

AI Landing Zone 整体架构

AI Landing Zone是在通用云采用框架(CAF)基础上,针对AI业务特性(如高性能算力、海量数据、模型资产管理等)进行能力增强的企业级云治理框架。本项目基于阿里云CAF,构建了以 “安全合规”“高性能” 双轮驱动的AI Landing Zone架构。

image.png

该架构以 PAI-DLC/DSW 为核心AI平台,提供弹性、高性能的AI训练环境,并使用GPU算力作为主要加速资源。CFPS(高性能并行文件存储系统) 作为高性能存储,提供PB级容量和高吞吐能力。在治理与安全层面,通过 ActionTrail、配置审计、RAM 等服务,实现全链路的操作审计、权限管控和安全合规。网络方面,通过 VPC Peering 实现与公司现有云环境的网络打通,满足协同开发需求。

AI Landing Zone 模块详解

资源规划

  • 多环境资源隔离:通过 PAI工作空间 实现业务逻辑隔离,并利用 资源组 与统一的 标签 策略,实现资源的分类管理、权限控制和成本分摊。

  • PAI资源配额与伸缩:针对稀缺的算力,通过 PAI资源配额(Quota) 机制,确保核心业务的算力得到优先保障和预留,并支持弹性使用,最大化资源利用率。

网络规划

  • VPC设计与网络分区:采用 VPC Peering 方案打通智驾业务VPC与现有VPC的网络,满足PAI训练任务拉取代码等需求。为PAI服务规划了独立的 /19 子网段,确保IP地址空间充足。

  • 安全组与网络ACL:严格配置 安全组网络ACL,遵循最小化暴露原则。PAI训练任务通过 VPC Endpoint 访问云上存储服务,确保所有数据传输均在阿里云内网进行,杜绝公网暴露风险。

image

身份权限

  • RAM角色与权限策略:通过 RAM 实现严格的职责分离。运维团队拥有平台管理权限,智驾团队使用限定操作范围的RAM用户,安全团队则被授予只读审计权限。在PAI内部,通过工作空间的角色进一步细化权限。

  • 跨账号访问控制:通过RAM跨账号授权,实现审计日志的集中管理与安全隔离。

安全审计.drawio.svg

安全防护与合规审计

  • 安全与合规基线:启用 配置审计(Config) 服务,持续监控并自动修正不符合安全基线的资源配置(如OSS禁止公网访问),确保环境持续合规。

  • 全链路操作审计:通过 ActionTrail(操作审计) 统一收集所有API操作日志,并投递至OSSSLS进行长期存储和实时分析。针对PAI-DSW内部的审计盲区,通过引入云堡垒机作为统一入口,实现对内部高危命令的精细化控制与审计。

云堡垒机纳管DSW方案.drawio.svg

运维管理与自动化

  • 统一监控告警:基于 云监控SLS 构建统一监控告警体系,覆盖算力、存储、网络等关键指标,并针对高风险操作配置实时告警。

  • 自动化运维(IaC):通过 Terraform 实现核心基础设施的自动化部署与配置(基础设施即代码),提升交付效率与一致性。

业务收益

通过实施AI Landing Zone,该公司智驾业务获得了显著的量化收益:

  • 效率提升:高性能算力与存储的结合,使模型训练任务执行时间减少25%,显著加速了算法迭代。

  • 成本优化:精细化的资源配额与成本分摊,提高了资源利用率,使总体TCO降低10%

  • 安全增强:内置的安全与合规体系,成功满足了国家对智能驾驶数据的安全监管要求。

  • 运维简化:基础设施即代码(IaC)的引入,使运维自动化程度提升30%,大幅降低了手动配置的复杂性和风险。

总结与展望

项目成功关键因素

本次项目的成功,得益于三大关键因素:

  1. 高层共识与跨部门协同:项目初期即获得各团队高层共识,明确了职责边界,确保了治理与安全要求的顺利落地。

  2. AI业务特性优先:方案设计紧密围绕智驾训练的核心需求,优先保障了算力与CFPS存储的极致性能。

  3. 遵循云治理基线:严格遵循阿里云CAF框架,以最小权限、全链路审计、配置合规为核心原则,构建了稳固的企业级云平台。

未来演进方向

该公司的AI Landing Zone将持续演进:

  • 向多账号治理架构升级:随着业务扩展,将引入资源目录实现更灵活、更安全的组织级治理。

  • 引入AI观测(AIOps for AI):实现对模型训练全链路的智能化分析与优化。

  • 全球化网络部署:随着业务全球化布局,将规划全球化的训练与推理网络方案,支撑海外业务发展。