文档

基本概念

本文汇总使用GPU云服务器过程中涉及的基本概念,方便您查询和了解相关概念。

GPU云服务器相关概念

概念

说明

GPU

图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更多的流水线,适合用于大规模并行计算等场景。

CUDA

NVIDIA推出的通用并行计算架构,帮助您使用NVIDIA GPU解决复杂的计算问题。

cuDNN

NVIDIA推出的用于深度神经网络的GPU加速库。

DeepGPU

阿里云专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集合。

Deepytorch Training

阿里云自研的AI训练加速器,为传统AI和生成式AI场景提供训练加速功能。

Deepytorch Inference

阿里云自研的AI推理加速器,通过对模型的计算图进行切割、执行层融合以及高性能OP的实现,可以大幅度提升PyTorch的推理性能。

AIACC-ACSpeed

阿里云推出的AI分布式训练通信优化库。可实现分布式训练在兼容性、适用性和性能加速等方面的升级。

AIACC-AGSpeed

阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器。可以实现无感的计算优化功能。

FastGPU

阿里云推出的人工智能计算任务构建工具。提供便捷的接口和命令行,供您在阿里云IaaS资源上构建人工智能计算任务。

cGPU

阿里云基于内核虚拟GPU隔离的容器共享技术。隔离GPU资源,实现多个容器共用一张显卡。

ECS通用概念

概念

说明

ECS实例

云上的虚拟计算服务器,内含vCPU、内存、操作系统、网络、磁盘等基础组件。

ECS实例规格

定义了ECS实例在计算性能、存储性能、网络性能等方面的基本属性,但需要同时配合镜像、块存储、网络等配置才能确定一台ECS实例的具体服务形态。

镜像

提供了运行实例所需的信息,包括操作系统、初始化应用数据等。

公共镜像

阿里云官方提供的基础镜像,均已获得正版授权,涵盖Windows Server系统镜像和主流的Linux系统镜像。

Alibaba Cloud Linux

阿里云官方操作系统,为云上应用程序提供安全、稳定、高性能的定制化运行环境,并进行了针对性的深度优化,更加适合阿里云基础设施。

自定义镜像

您自行创建或导入的镜像,包含了初始系统环境、应用环境、软件配置等信息,可以节省重复配置的时间。

块存储

高性能、低时延的块设备,像物理硬盘一样分区格式化并创建文件系统后使用,满足大部分通用业务场景下的数据存储需求。

云盘

数据块级别的块存储产品,采用分布式三副本机制,为ECS实例提供99.9999999%的数据可靠性保证。

本地盘

ECS实例所在物理机上的本地硬盘设备,存储I/O性能、海量存储的性价比极高,但数据可靠性取决于物理机的可靠性,存在单点故障风险。

快照

某一时间点云盘数据状态的备份文件,用于备份或者恢复整个云盘。

安全组

一种虚拟防火墙,您可以基于安全组控制实例的入流量和出流量。

SSH密钥对

一种安全便捷的登录认证方式,由公钥和私钥组成,仅支持Linux实例。

实例RAM角色

ECS实例通过实例RAM角色获得该角色拥有的权限,可以基于临时安全令牌STS(Security Token Service)访问指定云服务的API和操作指定的云资源,安全性更高。

专有网络

您基于阿里云创建的自定义私有网络,不同专有网络之间通过隧道在逻辑上彻底隔离。您可以完全掌控自己的专有网络,例如选择IP地址范围、配置路由表和网关等。

弹性网卡

一种独立的虚拟网卡,可以绑定到ECS实例或从ECS实例解绑,实现业务的灵活扩展和迁移。

实例启动模板

包含了ECS实例的配置信息,使用实例启动模板创建ECS实例可以免去重复配置的操作。

部署集

部署集支持高可用策略,部署集内实例会严格分散在不同的物理服务器上,保证业务的高可用性和底层容灾能力。

专有宿主机

一台由单租户独享物理资源的云主机,具有满足严格的安全合规要求、允许自带许可证(BYOL)上云等优势。

弹性供应组

用于快速部署多可用区、多实例规格的ECS实例集群,通过多种供应策略组合使用抢占式实例和按量付费实例,满足对低成本和高稳定性的要求。

标签

由一对键值(Key-Value)组成。使用标签标识具有相同特征的资源后,例如所属组织或用途相同的资源,您可以基于标签方便地检索和管理资源。

资源组

供您从业务角度管理跨地域、跨产品的资源,并支持针对资源组的权限管理。

云助手

阿里云提供的自动化运维工具,无需登录即可完成在ECS实例上执行命令、向ECS实例发送文件等操作。

系统事件

影响ECS实例运行状态的计划底层运维事件或非预期维修事件,需要进行重启、停止或释放ECS实例等操作。系统事件会及时发送通知、应对措施和事件周期等信息,方便您提前完成备份数据等准备工作。