操作系统Alibaba Cloud Linux 3

容器服务 Kubernetes 版已全面支持阿里云新一代操作系统Alibaba Cloud Linux 3的节点创建,并结合Alibaba Cloud Linux 3高版本内核的特性提供了多场景优化。本文介绍Alibaba Cloud Linux 3操作系统的优势和场景,以及如何使用Alibaba Cloud Linux 3作为ACK节点系统镜像。

Alibaba Cloud Linux 3概述

Alibaba Cloud Linux是阿里云打造的Linux服务器操作系统发行版。Alibaba Cloud Linux积极吸收了开源社区成果,为云上应用程序提供Linux社区的增强功能,还通过引入更完善的发行版质量体系,保障产品品质。同时,Alibaba Cloud Linux结合阿里云基础设施进行了深度优化,为您提供企业级的支持和维护,提升操作系统服务的使用体验。在继承Alibaba Cloud Linux 2且兼容容器服务 Kubernetes 版的同时,Alibaba Cloud Linux 3还进行了大量优化,包括但不仅限于:

  • 提供更新的基础软件和应用软件,带来更新的原生社区功能。

  • 容器服务 Kubernetes 版协同优化的同时,基于云场景和用户场景持续改进。

  • 针对新的八代云服务器实例(例如Yitian、Sapphire Rapids、Genoa等)提供深度优化。

  • 提供操作系统自研功能,包括性能优化、新功能支持、易用性优化等。

  • 提供更加详细的版本说明,便于您了解版本演进和变化。

Alibaba Cloud Linux 3操作系统镜像优势

优势

说明

更新的基础软件和应用软件

  • 内核:搭载阿里云研发的Linux kernel 5.10

  • 编译器:默认编译器GCC 10、LLVM 15、RUST 1.66,同时支持gcc-toolset-12

  • 语言库:支持glibc 2.32、OpenJDK 1.8、Python 3.8、Golang 1.19、Nodejs 14.21

  • 主流应用软件:

  • Driver驱动:支持CUDA 11.4.4、NVIDIA Driver 470.199.02

  • Framework框架:支持TensorFlow 2.5.0、PyTorch 1.10.1

  • 容器支持:支持nvidia-container-toolkit 1.13.1、libnvidia-container 1.13.1

ACK、ECS实例协同优化

通过与ECS实例协同优化启动速度、内置环境依赖软件,同时结合ACK灵活高效的自动弹性伸缩能力,大大缩短Alibaba Cloud Linux 3的单节点创建时间。

通过与ECS实例深度结合优化,结合内核技术优化、编译器优化、配置优化等,极大提升ACK集群中各节点的运行时性能,针对大数据、Webserver、数据库、AI等场景性能提升超30%。

提供大量新的操作系统技术,提升云上体验

  • 全面支持cgroup v2

    cgroup v2是新一代Linux cgroup机制的API,提供对进程或进程组统一的资源控制能力。相较于cgroup v1,有如下改进:

    • 独立统一的层次结构

    • 更加安全的树形结构设计

    • 新的内核PSI能力

    • 资源分配和管理能力的增强

  • 全面支持eBPF能力

    • 更便捷的eBPF程序编写和调试体验,例如许多指令的限制放宽、性能提升、支持调试可见字节码对应的源代码等

    • 更高性能的XDP和内核调测

    • 更多用户态框架支持,例如BPF skeleton、libbpf-bootstrap等,优化BPF程序编写体验

    • 更好地支持网络和安全项目Cilium,例如网络带宽控制、流量加密、会话亲和性、BPF层的路由及代理转发等

    • 针对BCC、Bpftrace等工具提供更高性能和轻量的实现方式

  • 提供page cache限制功能,同时满足cgroup级别的限制能力

    Linux系统通过memcg(Memory Control Group)机制控制和管理进程组的内存使用,支持为每个进程组(或任务组)设置内存限制,避免不合理的资源浪费。memcg达到设定的内存上限时,系统将触发memcg级别的直接内存回收,可能导致当前进程的性能抖动。尽管系统具有memcg后台异步回收功能,但对于突发性的内存申请来说,其效果有限。有些任务中,例如Spark计算框架,page cache经常会占用大量内存,并且大部分为脏页(dirty page)。脏页的回收速度较慢,将导致预期外的OOM。因此,为保持业务的稳定性和减少预期外的OOM,限制page cache的使用量非常重要。

    Alibaba Cloud Linux 3新增了Page Cache限制功能,支持以memcg为粒度(包括根组即整机)限制Page Cache的使用。您可以设置Page Cache的上限,对超过限制的Page Cache进行异步或者同步回收。这可以帮助控制Page Cache的使用量,防止其占用过多的内存资源,从而提高系统的稳定性和可靠性。更多信息,请参见Page Cache限制功能

为AI开发提供完善的平台支持

  • 通过引入龙蜥社区AI生态软件仓库(epao),支持一键安装主流NVIDIA GPU驱动以及CUDA加速库,节省匹配驱动版本以及手动安装的时间。

  • epao仓库支持主流AI框架TensorFlow、PyTorch,并在安装过程中自动解决AI框架的依赖问题。您无需进行额外编译,即可搭配系统Python环境进行AI任务快速开发。

  • 所有提供AI能力的相关组件均经过兼容性测试。您可以一键安装对应的AI能力,无需修改环境配置中可能出现的系统依赖项,提高使用过程稳定性。

  • 针对Intel、AMD等不同平台的CPU进行了AI专项优化,更好地释放硬件的全部性能。

其他

Alibaba Cloud Linux 3还对系统进行了多种优化,例如:

  • 支持TCP/IP协议栈向RMDA透明转换

  • 为使用透明大页THP而导致的内存膨胀问题提供优化方案

  • 为Intel八代SPR实例提供多种加速器支持

更多信息,请参见Alibaba Cloud Linux 3镜像发布记录

注意事项

  • 在Alibaba Cloud Linux 3中,iptables和nftables不兼容。使用iptables的组件,网络能力可能会受到影响。

  • Alibaba Cloud Linux 3可能会将部分Hostname作为DNS搜索域,可能导致DNS解析的次数增加。

使用Alibaba Cloud Linux 3作为集群节点系统镜像

您可以在创建集群的配置过程中,将操作系统选择为Alibaba Cloud Linux 3.2104来使用Alibaba Cloud Linux 3作为集群节点系统镜像。具体步骤,请参见通过OpenAPI创建Kubernetes托管版集群创建ACK专有集群

说明

如果您选用Alibaba Cloud Linux 3,在创建集群以及后期扩容节点、添加节点、自动伸缩节点时,ACK会自动检测Alibaba Cloud Linux 3的安全补丁更新并自动安装补丁。

相关文档

操作系统镜像概述