在人工智能平台PAI中使用PPU

更新时间:
复制为 MD 格式

前提条件

在您通过PAI使用PPU开发和部署模型之前,请先完成PAI产品的开通及资源购买

重要提醒

注意使用专用基础镜像ml.gp7vf.40xlarge机型使用了真武810E作为加速芯片,自研了高性能网卡,且需要与专用的PPU SDK、高性能网络套件等组件配合使用。这些组件通过非公开渠道获取,同时组件的安装调试也需要专业知识,因此强烈建议使用专用基础镜像作为开发、训练环境。专用镜像的详细说明,请参见PAI镜像

使用PAI-EAS部署模型服务

模型在线服务EAS(Elastic Algorithm Service)是PAI提供的模型在线服务平台,可支持您一键部署模型为在线推理服务或AI-Web应用。它提供了的弹性扩缩容、资源组管理、版本控制、资源监控等功能,可以支撑您以较低的资源成本获取高并发且稳定的在线算法模型服务。以下为您介绍PAI-EAS部署服务的基本操作步骤,更多内容请参见模型在线服务EAS

  1. 登录PAI控制台左上角选择支持PPU资源的地域,本文以乌兰察布为例为您介绍操作步骤。

    说明

    目前支持PPU资源的地域包括:乌兰察布、北京、上海、杭州。

  2. 左侧菜单栏单击工作空间列表,选择进入具有PPU资源配额的工作空间。

  3. 左侧菜单栏单击模型在线服务(EAS)> 部署服务 > 自定义部署

    image

  4. 配置如下关键参数,其他参数按需配置即可,全量参数说明请参见EAS控制台自定义部署参数说明

    • 部署方式:选择镜像部署

    • 镜像配置:使用PPU专属的镜像。例如:选择官方镜像,搜索并选择vllm:0.10.0-xpu1.6.1。更详细的镜像说明请参见PAI镜像

    • 存储挂载:选择模型所在路径。例如您可以在本地执行如下代码下载模型,并将其上传至对象存储OSS,然后配置如下参数:

      下载模型示例代码,以Qwen3-8B模型为例

      from modelscope import snapshot_download
      
      model_dir = snapshot_download(
          'Qwen/Qwen3-8B',
          cache_dir='./model'      # 指定缓存/下载目录
      )
      • Uri:模型所在的OSS路径,如:oss://ai4d-ri3iy******/modelscope_qwen/

      • 挂载路径:默认/mnt/data/ 即可。

    • 运行命令:填写模型脚本运行命令,以上述模型挂载路径为例,启动命令为:vllm serve /mnt/data/Qwen/Qwen3-8B --port 9000

    • 端口号:9000

    • 资源类型:选择资源配额

    • 资源配额:选择创建的PPU资源配额。

    • 部署资源:按需配置GPU、CPU、内存等规格参数。如:GPU1、CPU16。

    完成参数配置后,单击部署。当服务处于运行中时,代表部署成功。

后续在线调试及模型调用请参见在线调试及模型调用。请注意更改模型名称,即:"model": "model/mnt/data/Qwen/Qwen3-8B"

使用PAI-DSW创建PPU开发环境

PAI-DSWPAI的云端机器学习开发IDE,集成了Notebook、VSCode、Terminal多种开发环境,免去您手动购买、安装和启动云服务器ECS,使用DSW即可快速开始AI模型代码编写、调试和运行。以下为您介绍PAI-DSW实例创建的基本操作步骤,更多内容请参见PAI-DSW概述

  1. 登录PAI控制台左上角选择支持PPU资源的地域,本文以乌兰察布为例为您介绍操作步骤。

    说明

    目前支持PPU资源的地域包括:乌兰察布、北京、上海、杭州。

  2. 在左侧菜单栏单击工作空间列表,选择进入具有PPU资源配额的工作空间。

  3. 在左侧菜单栏单击交互式建模(DSW)> 新建实例

    image

  4. 配置如下关键参数,其他参数按需配置即可,全量参数说明请参见创建DSW实例

    • 资源类型:选择资源配额

    • 资源配额:选择创建的PPU资源配额。

    • 资源规格:按需配置GPU、CPU、内存等规格参数。

      image.png

    • 镜像配置:选择官方镜像,然后筛选并选择PPU镜像。更详细的镜像说明请参见PAI镜像

      image

    完成参数配置后单击确定创建DSW实例。

后续使用及其它PAI-DSW操作,请参见PAI-DSW核心功能