阿里云上AI Landing Zone的主要组成部分

更新时间:

企业落地AI的三种典型范式

在实际业务中,企业的AI建设通常呈现三种典型范式:

范式

特征

典型用户

MaaS(Model-as-a-Service)

快速调用预训练大模型API,零代码构建智能体应用

业务部门、产品经理、ISV

PaaS(Platform-as-a-Service)

使用托管平台进行模型训练、微调、部署与管理

数据科学家、算法工程师

IaaS/自研平台(Infrastructure-as-a-Service)

自主搭建高定制化AI系统,追求极致性能与控制力

MLOps团队、大型科技公司

为此,阿里云提供了多款AI关键产品来支撑这三大范式:

范式

代表产品

典型用户

MaaS(Model-as-a-Service)

百炼

面向业务用户低门槛AI应用构建平台

PaaS(Platform-as-a-Service)

PAI、AI网关、FC(函数计算)

面向开发者的一站式AI开发与服务平台

IaaS/自研平台(Infrastructure-as-a-Service)

ACK+自定义集群

面向专业团队的高性能、可扩展AI基础设施

AI Landing Zone定义

无论使用哪种平台,都需建立统一的治理框架。为此阿里云提出AI Landing Zone(AI LZ): 一种基于云计算最佳实践的 标准化、自动化、可治理的企业级AI基础设施框架。它不仅是一个技术平台,更是一种组织协同、流程规范与自动化治理相结合的方法论,确保AI项目在启动之初就具备:

  • 组织与账号隔离

  • 安全与权限控制

  • 成本分账与监控

  • 可持续演进能力

就像飞机在执行任务前需依托一个安全可控的登陆区(Landing Zone)完成部署与整备,AI 项目也需要一条通往生产的“数字登陆区”。AI LZ是在通用Landing Zone的基础上补齐AI的特有能力,包括安全与合规、AI成本、训推场景下的可观测等特有能力。下图是AI LZ整体架构图

image.png

AI Landing Zone组成

AI LZ还是延续了通用LZ8个功能模块,只不过在每个模块添加了面向具体AI平台独有的新功能。

1.jpeg

下表简要描述了上述功能模块。

AI Landing Zone模块

描述

资源规划

规划云上账号及其组织结构,规划AI平台项目空间,规划AI资源相关联的资源组与标签规范。

财务管理

管理云上账号财务管理模式,设计AI平台及其关联资源的成本分摊规则,满足企业对AI项目精细化运营需求。

网络规划

从数据采集预处理到模型训练再到模型部署提供推理服务,规划各个阶段相应的网络最优方案。

身份权限

提供云平台身份权限最佳实践,规划AI平台身份权限,提供API Key安全使用规范

安全防护

AI基础设施、AI模型安全再到AI应用安全,提供全方位的AI安全环境,帮助企业在云上快速

合规审计

基于企业在训练与推理场景下关联到的资源及AI平台自身,提供相应的合规审计规则及日志操作审计,满足等保3及相关行业审计要求

运维管理

提供训练与推理场景下的全链路AI统一可观测,借助MCP能力实现AIOPS

自动化

定义自动化场景与目标,并通过相应的工具实现部署自动化。常见的场景如AI Landing Zone自身平台搭建及MLOps流水线自动化。