阿里异构计算产品总览

GPU云服务器 GPU云服务器是基于GPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。作为阿里弹性计算家族的员,GPU云服务器结合了GPU计算力...

什么是GPU云服务器

对比项 GPU云服务器 GPU自建服务器 灵活性 能够快速开通台或台GPU云服务器实例。实例规格(vCPU、内存及GPU)支持灵活变更,并且支持在线升降配。带宽升降自由。服务器购买周期长。服务器规格固定,无法灵活变更。带宽一次性购买,无法...

产品优势

阿里GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式,神行工具包(DeepGPU)是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的优势。...

API参考

如果您熟悉网络服务协议和种以上编程语言,推荐您调用API管理您的上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致,详情请参见 ECS API简介 和 ECS API概览。

云速搭部署GPU云服务器

通过云速搭实现GPU云服务器的部署,这里使用 ECS 的 UserData 特性自动安装GPU 驱动、AIACC 等组件,...涉及产品 专有网络VPC GPU云服务器 弹性公网IP 云速搭CADT 方案架构 操作步骤 具体操作步骤请参考《云速搭部署 GPU 云服务器》最佳实践

应用场景

GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景,神行工具包(DeepGPU)为了配合GPU云服务器的计算服务增强能力,也适用于所有AI训练场景和AI推理场景。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的...

什么是神行工具包(DeepGPU)

神行工具包(DeepGPU)是阿里专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力。GPU云服务器搭配神行工具包(DeepGPU)的组件可以帮助您更方便地利用阿里上GPU资源,...

GPU集群加速AI模型训练

本文适用于AI图片的训练场景,使用文件存储CPFS/NAS作为共享存储,使用容器服务Kubernetes版管理GPU云服务器集群实现AI图片的训练加速。方案优势 使用阿里的容器服务ACK可快速搭建AI图片训练基础环境。使用CPFS存储训练数据,支持个...

GPU云服务器计费

GPU云服务器计费相关功能与云服务器ECS一致,本文为您介绍GPU云服务器涉及的计费项、计费方式、续费和退费说明等。计费项及其计费方式 台GPU实例包括计算资源(vCPU、内存和GPU)、镜像、存储等资源,其中涉及计费的GPU资源如下表所示...

Tensorflow

Processor名称 Tensorflow版本 是否支持GPU版本 tensorflow_cpu_1.12 Tensorflow 1.12 否 tensorflow_cpu_1.14 Tensorflow 1.14 否 tensorflow_cpu_1.15 Tensorflow 1.15 否 tensorflow_cpu_2.3 Tensorflow 2.3 否 tensorflow_cpu_2.4 ...

异构计算产品最佳实践概览

GPU云服务器 搭建Linux环境License Server 使用GRID驱动必须申请相应的License,同时需要将License部署在License Server上,本教程以Ubuntu 18.04操作系统为例,介绍如何搭建Linux操作系统的License Server。搭建Windows环境的License ...

基本概念

本文汇总使用GPU云服务器过程涉及的基本概念,方便您查询和了解相关概念。GPU云服务器相关概念 概念 说明 GPU 图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更的流水线,适合用于大规模并行计算等场景。CUDA ...

使用RAPIDS加速机器学习最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务器 该...

GPU实例上部署NGC环境

NGC(NVIDIA GPU CLOUD)是NVIDIA开发的一套深度学习生态系统,方便您免费访问深度学习软件堆栈,建立适合深度学习的开发环境。本文以搭建TensorFlow深度学习框架为例,为您介绍如何在GPU实例上部署NGC环境。背景信息 NGC作为一套深度学习...

使用RAPIDS加速图像搜索最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速图像搜索环境。使用容器服务Kubernetes版可快速部署图像搜索环境和分发应用。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务...

GPU监控

监控通过安装在阿里主机(ECS实例)上的监控插件,采集GPU的监控数据,您还可以为这些监控项设置报警规则。当某个监控项达到报警条件时,会给您发送报警通知,以便您及时关注其动态。前提条件 请确保您已在云服务器ECS上创建GPU计算...

GPU实例上使用RAPIDS加速图像搜索任务

本文案例为单机单卡的版本,即一台GPU实例搭载一块GPU卡,并且在阿里gn6v(NVIDIA Tesla V100)实例上执行。执行案例后,对比了GPU加速的RAPIDS cuml KNN与CPU实现的scikit-learn KNN的性能,可以看到GPU加速的KNN向量检索速度为CPU的近...

【产品变更】函数计算计费项降价通知

自2023年09月01日0时起,函数计算 中GPU使用量和函数调用次数进行价格调整。这两个计费项实行阶梯累计计费模式,本次降价幅度达到10%~93%。价格调整明细 新的计费价格调整将于2023年9月1日00:00生效,生效后您购买的函数计算产品GPU...

使用ACK服务实现GPU的成本优化

GPU云服务器 该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。容器服务ACK 该服务提供了高性能且可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理...

重启实例

GPU实例作为云服务器ECS的类实例规格,保持了与ECS实例相同的管理操作。本文介绍如何通过控制台重启实例。前提条件 待重启的实例必须处于 运行 状态。背景信息 重启操作是维护云服务器种常用方式,如系统更新、重启保存相关配置等...

使用AIACC-Training(AIACC训练加速)加速BERT Fine...

本文适用于自然语言训练场景,例如,通过使用GPU云服务器和极速型NAS训练BERT Finetune模型,同时使用AIACC-Training(AIACC训练加速)进行该模型的训练加速,可有效加快机多卡的训练速度,提升模型的训练效率和性能。说明 BERT...

神行工具包(DeepGPU)计费

使用神行工具包(DeepGPU)本身不需要额外支付费用,您只需要为执行计算任务过程中使用的阿里资源(例如云服务器ECS或文件存储NAS)进行付费。神行工具包中的组件主要包括 AI训练加速器Deepytorch Training、AI推理加速器Deepytorch ...

GPU云服务器常见问题

为了有效排查和解决GPU云服务器的相关问题,本文为您汇总了使用GPU时遇到的一些常见问题。类别 相关问题 功能问题 为什么Windows操作系统不支持DirectX等功能?GPU实例支持安卓模拟器吗?我能变更GPU实例的配置吗?按量付费GPU实例支持节省...

已停售的GPU实例规格

其中,GPU分片表示1块GPU分成片,每个实例上使用1片。例如:NVIDIA P4*1/8 的 NVIDIA P4 表示GPU卡型号;1/8 表示GPU的分片,即1块GPU分成8片,每个实例上使用1片。您可以前往 ECS实例可购买地域,查看实例在各地域的可购情况。指标的...

安装Blade

获取Token Blade的SDK运行时需要鉴权Token,且能够在阿里环境中使用。请使用钉钉搜索21946131群号,加入Blade客户群,从而获取试用Token。安装Blade用于优化端侧部署 面向端侧部署优化时,Blade仅支持从TensorFlow模型转换为MNN,并进行...

使用AIACC-Training TensorFlow

TensorFlow目前进行数据分布式训练的主流方式是Horovod,AIACC-Training 1.5支持使用Horovod API兼容的方式对TensorFlow分布式训练进行加速。本文为您介绍使用AIACC-Training TensorFlow版的具体操作及可能遇到的问题。适配Horovod API 本...

通过Docker安装并使用cGPU服务

cGPU服务可以隔离GPU资源,实现个容器共用一张GPU卡。该服务作为阿里容器服务Kubernetes版ACK(Container Service for Kubernetes)的组件对外提供服务,本文介绍如何通过Docker安装并使用cGPU服务。前提条件 在进行本操作前,请确保...

GPU虚拟化型

本文介绍为您介绍云服务器ECS GPU虚拟化型实例规格族的特点,并列出了具体的实例规格。GPU虚拟化型实例规格族sgn7i-vws(共享CPUGPU虚拟化型实例规格族vgn7i-vws GPU虚拟化型实例规格族vgn6i-vws GPU虚拟化型实例规格族sgn7i-vws(共享...

提交命令

STRING 是 master_gpu_type 否 TensorFlow Master节点使用GPU的类型,默认为空。示例值:GU50。STRING 是 master_memory 否 TensorFlow Master节点使用内存资源,默认为空。示例值:500 Mi,1 Gi。STRING 是 master_shared_memory 否 ...

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务,该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里开发的一套推理引擎,具有易用性...

PAI-TF概述

警告 公共云GPU服务器即将过保下线,您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练,请前往DLC提交任务,具体操作请参见 创建训练任务。背景 TensorFlow是Google最新的开源深度学习计算框架,支持CNN、RNN及LSTM等多种...

附录:历史版本下载与安装

v3.27.0 Python包安装命令如下:CPU Tensorflow 1.15.0与PyTorch 1.6.0。pai_blade_cpu pip3 install pai_blade_cpu=3.27.0+1.15.0.1.6.0-f https://pai-blade.oss-cn-zhangjiakou.aliyuncs.com/release/repo.html # tensorflow_blade_cpu ...

ACK集群实现GPU AI模型训练

场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena...

Tesla或GRID驱动安装指引

GPU实例本身并未配备相关驱动,只有安装了驱动的GPU实例,才能实现计算加速或图形渲染等功能。根据不同GPU实例规格安装与之匹配的Tesla或GRID驱动,...如果GPU实例安装驱动后,在使用过程遇到黑屏或其他问题,请参见 GPU云服务器常见问题。

部署GPU云服务器

GPU实例作为云服务器ECS的类异构实例,保持了与ECS相同的创建方式,同时需要为GPU实例安装相关驱动。本文向您介绍使用CADT通过自动安装脚本的方式创建配备NVIDIA GPU的实例。操作步骤 登录 云速搭CADT 控制台。请按照标签顺序依次点击 ...

使用GPU拓扑感知调度(Tensorflow版)

前提条件 已创建ACK Pro集群,且集群的实例规格类型选择为 GPU云服务器。更信息,请参见 创建Kubernetes托管版集群。已安装 Arena。已安装GPU拓扑感知调度组件。系统组件版本满足以下要求。组件 版本要求 Kubernetes 1.18.8及以上版本 ...

监控主机CPU使用

本视频介绍使用日志服务告警功能监控主机CPU使用率的操作步骤。

提交GPU共享模型推理任务

在某些场景下,您可能需要个模型推理任务共享同一块GPU以提高GPU的利用率。本文介绍如何使用Arena提交一个GPU共享模型推理任务。前提条件 已创建ACK Pro版集群,且集群的Kubernetes版本大于等于1.18.8。具体步骤,请参见 创建ACK Pro版...

PAI官方镜像

TensorFlow 框架版本 CUDA版本(仅GPU机型)操作系统 TensorFlow2.6 TensorFlow2.3 TensorFlow2.21 TensorFlow2.11 TensorFlow1.15,TensorFlow1.15.5 TensorFlow1.12 CUDA 114 CUDA 113 CUDA 112 CUDA 101 CUDA 100 Ubuntu 20.04 Ubuntu ...

配置共享GPU调度节点选卡策略

配置项 说明 实例规格 架构 选择 GPU云服务器,选择个GPU实例规格。由于只有在节点有张GPU卡的情况下,节点选卡策略才能看出效果,建议选择带有张GPU卡机型。期望节点数 设置节点池初始节点数量。如无需创建节点,可以填写为0。节点...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
轻量应用服务器 云服务器 ECS 商标服务 云数据库 RDS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用