GPU集群中加速AI模型训练

本文适用于AI图片的训练场景,使用文件存储CPFS/NAS作为共享存储,使用容器服务Kubernetes版管理GPU云服务器集群实现AI图片的训练加速。方案优势 使用阿里的容器服务ACK可快速搭建AI图片训练基础环境。使用CPFS存储训练数据,支持多个...

ACK集群实现GPU AI模型训练

场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...

异构计算产品最佳实践概览

GPU AI模型训练最佳实践 适用于AI图片训练场景,使用CPFS/NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行AI图片训练。在GPU实例上使用RAPIDS加速机器学习任务 在GPU实例上基于NGC环境使用RAPIDS加速库,加速数据科学和...

API参考

如果您熟悉网络服务协议和一种以上编程语言,推荐您调用API管理您的上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致,详情请参见 ECS API简介 和 ECS API概览。

使用RAPIDS加速机器学习最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务器 该...

使用RAPIDS加速图像搜索最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速图像搜索环境。使用容器服务Kubernetes版可快速部署图像搜索环境和分发应用。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务...

GPU云服务器计费

GPU云服务器计费相关功能与云服务器ECS一致,本文为您介绍GPU云服务器涉及的计费项、计费方式、续费和退费说明等。计费项及其计费方式 一台GPU实例包括计算资源(vCPU、内存和GPU)、镜像、块存储等资源,其中涉及计费的GPU资源如下表所示...

使用ACK服务实现GPU的成本优化

利用阿里容器服务ACK部署GPU集群后,出于成本优化考虑,针对集群中GPU利用率不同的应用,选择不同的成本优化方案,可以实现集群的灵活管理,同时整体降低成本。例如,对于集群中GPU利用率不高的应用(例如推理应用),建议选择cGPU技术将...

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里开发的一套推理引擎,具有易用性...

创建GPU集群

容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。创建GPU节点...

使用FastGPU加速AI训练/推理

选用的产品列表 产品名称 说明 GPU云服务器 该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。对象存储OSS 是一款海量、安全、低成本、高可靠的存储服务,多种存储...

开启集群GPU监控

前提条件 已创建托管GPU集群或专有GPU集群。具体操作,请参见 创建GPU集群 或 创建专有GPU集群。已开通ARMS。具体操作,请参见 开通ARMS。背景信息 对运维人员来说,实现对Kubernetes的大规模GPU设备可监测能力至关重要。通过监测GPU相关...

安装共享GPU调度组件

ACK Pro集群的实例规格架构设置为 GPU云服务器。其他配置,请参见 创建ACK集群Pro版。已获取集群KubeConfig并通过kubectl工具连接集群。使用限制 请勿将共享GPU调度的节点的CPU Policy设置为 static。目前GPU隔离模块cGPU 1.5.0以下版本不...

Tesla或GRID驱动安装指引

GPU实例本身并未配备相关驱动,只有安装了驱动的GPU实例,才能实现计算加速或图形渲染等功能。根据不同GPU实例规格安装与之匹配的Tesla或GRID驱动,...如果GPU实例安装驱动后,在使用过程中遇到黑屏或其他问题,请参见 GPU云服务器常见问题。

阿里异构计算产品总览

GPU云服务器 GPU云服务器是基于GPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。作为阿里弹性计算家族的一员,GPU云服务器结合了GPU计算力...

使用阿里Prometheus监控集群GPU资源

前提条件 您已完成以下操作:创建GPU集群 或 创建专有GPU集群。开通 阿里Prometheus服务。已安装阿里Prometheus监控。具体操作,请参见 阿里Prometheus监控。费用说明 在ACK集群中使用 ack-gpu-exporter 组件时,默认情况下它产生的...

PAI-TF概述

MaxCompute全局计算调度服务能够将PAI-TF作业自动调度至相应的GPU集群,并将基于CPU集群的数据预处理作业和基于GPU集群的模型训练作业连接起来。GPU卡映射 PAI-TF支持将不同算子(Operators)指定至特定的CPU或GPU上。基于GPU卡映射,您...

产品优势

高可用性 E-HPC集群节点基于云服务器ECS、超级计算集群SCC和GPU云服务器组建,大大提高了集群的可用性。结果可视 E-HPC提供可视化服务功能,您可以通过可视化服务功能将计算结果转换为可读的图形化数据。例如您可以直接观看渲染后的动画...

集群报警差异化配置

如下示例中,ack-cluster-1 为CPU集群,ack-cluster-2 为GPU集群,该示例可实现对 ack-cluster-2 即GPU集群的差异化配置,包括开启GPU报警、修改报警阈值和告警联系人。apiVersion:core.oam.dev/v1alpha1#定义分发目标集群,使用Cluster ID...

修复GPU实例重启或被置换后设备ID变更问题

前提条件 创建GPU集群 或 创建专有GPU集群。集群有一台启动SSH,且公网可访问的跳板机。具体操作,请参见 如何为已有集群开启SNAT。背景信息 GPU实例宕机后,重启或置换GPU实例时,GPU设备ID可能会变化。该ID如果与/var/lib/kubelet/device...

使用原生AI监控大盘

节点监控大盘有以下可供您查看的指标:GPU Node Details:以表格的形式展示集群节点的相关信息,包括:节点名称(Name)节点在集群中的IP(IP)节点在集群中的角色(Role)节点的状态(Status)GPU模式:独占或共享(GPU Mode)节点拥有GPU...

监控集群GPU资源最佳实践

前提条件 已创建Kubernetes集群(ACK专有版集群、ACK集群基础版、ACK集群Pro版 或 ACK Edge集群),本文以 ACK集群Pro版 为例。已安装GPU监控2.0相关组件。具体操作,请参见 开启集群GPU监控。背景信息 GPU监控2.0支持对集群GPU节点进行全...

接入NVIDIA GPU监控数据

集群名称 自定义设置Nvidia GPU集群的名称。设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加 cluster=集群名称 的标签。重要 请确保该集群名称唯一,否则可能出现数据冲突。nvidia-smi路径 安装nvidia-smi...

接入Nvidia GPU监控数据

集群名称 自定义设置Nvidia GPU集群的名称。设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加 cluster=集群名称 的标签。重要 请确保该集群名称唯一,否则可能出现数据冲突。nvidia-smi路径 安装nvidia-smi...

ACK专有版集群迁移至ACK集群Pro版后升级共享GPU组件

ACK专有版集群 安装的共享GPU组件在 ACK集群Pro版 中无法正常使用,需在 ACK集群Pro版 中升级相关组件,以实现GPU的调度和隔离。本文介绍如何在 ACK集群Pro版 中升级共享GPU组件。前提条件 已将 ACK专有版集群 迁移至 ACK集群Pro版 中,且...

基于GPU指标实现弹性伸缩

前提条件 您已 创建GPU集群 或已 创建专有GPU集群。功能介绍 在高性能计算领域,例如深度学习模型训练、推理等场景,通常需要使用GPU来做计算加速。为了节省成本,您可以根据GPU指标(利用率、显存)来进行弹性伸缩。Kubernetes默认提供CPU...

历史功能发布记录(2022年)

全部 多集群报警差异化配置 2022年10月 功能名称 功能描述 发布地域 相关文档 ACK支持倚天Arm ECS服务器 ACK现已支持倚天ARM云服务器,支持节点池的全生命周期管理,包括节点添加、扩容、升级、删除。同时也支持了多架构镜像的管理,使用...

功能特性

GPU容器虚拟化方案eGPU 针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题,灵骏支持GPU虚拟化技术eGPU,可有效提升AI集群GPU利用率,具体如下:支持显存、算力双维度自由切分。支持多个规格。支持动态创建...

将报警配置功能接入注册集群

event eviction-event sls.app.ack.eviction 集群GPU的XID错误事件 集群GPU XID异常事件。event gpu-xid-error sls.app.ack.gpu.xid_error 集群节点下线 集群中节点下线。event node-down sls.app.ack.node.down 集群节点重启 集群中节点...

容器服务报警管理

报警配置功能提供统一管理容器报警场景的功能,包括容器服务异常事件报警、集群相关基础资源的关键指标报警、集群核心组件及集群中应用的指标报警。支持在创建集群时默认开启报警功能。容器服务的报警规则支持通过集群内部署CRD的方式配置...

ack-arms-prometheus

ack-arms-prometheus组件是 阿里Prometheus 在ACK集群中的监控组件。本文介绍ack-arms-prometheus组件信息、使用说明和变更记录。组件介绍 ack-arms-prometheus是阿里容器服务Kubernetes版提供对接 阿里Prometheus 的监控组件。当在...

Helm版本说明

2020年 展开折叠面板查看2020年组件变更记录 Helm版本号 Agent镜像版本号 功能概述 发布时间 变更影响 v0.1.5 arms-prom-operator:v0.1 支持阿里容器服务Kubernetes版v1.18集群。支持镜像Region从内网地址拉取。2020年10月 此次升级不会...

任务列表

概述 为了便于用户管理 PolarDB 集群的任务,及时感知集群备份恢复等长时任务的进度,提高集群运维效率,PolarDB 支持在 任务列表 查看当前任务进度和历史任务详情。版本要求 当前任务列表仅支持管理 PolarDB MySQL版 企业版 和标准版 集群...

应用场景

GPU云服务器应用场景 直播实时视频转码 阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码,以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下...

异构计算集群概述

更多信息,请参见 创建GPU集群 和 创建专有GPU集群。支持以GPU卡为单位申请集群GPU资源。支持自动扩缩容集群GPU节点。更多信息,请参见 基于GPU指标实现弹性伸缩。支持GPU共享调度和算力隔离功能。阿里自研的GPU共享调度将多个模型推理...

安装GPU拓扑感知调度组件

前提条件 已创建ACK Pro集群,且集群的实例规格类型选择为 GPU云服务器。更多信息,请参见 创建Kubernetes托管版集群。获取集群KubeConfig并通过kubectl工具连接集群。系统组件版本满足以下要求。组件 版本要求 Kubernetes 1.18.8及以上...

什么GPU云服务器

对比项 GPU云服务器 GPU自建服务器 灵活性 能够快速开通一台或多台GPU云服务器实例。实例规格(vCPU、内存及GPU)支持灵活变更,并且支持在线升降配。带宽升降自由。服务器购买周期长。服务器规格固定,无法灵活变更。带宽一次性购买,无法...

产品优势

阿里GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式,神行工具包(DeepGPU)是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的优势。...

重启实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍如何通过控制台重启实例。前提条件 待重启的实例必须处于 运行中 状态。背景信息 重启操作是维护云服务器的一种常用方式,如系统更新、重启保存相关配置等...

什么是神行工具包(DeepGPU)

神行工具包(DeepGPU)是阿里专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力。GPU云服务器搭配神行工具包(DeepGPU)中的组件可以帮助您更方便地利用阿里上GPU资源,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 云数据库专属集群 云数据库 Redis 版 云原生数据仓库AnalyticDB MySQL版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用