PAI Pipeline Service是PAI提供的机器学习工作流服务,您可以通过它自定义组件或构建工作流。本文介绍使用PAI Pipeline Service之前需要进行的准备工作,包括安装Python SDK及初始化环境。

安装SDK并进行环境初始化

  1. 安装SDK。
    如果您通过本地的Python开发环境使用SDK,则需要安装SDK。如果您通过PAI-DSW环境使用SDK,该环境中已经预装了SDK,您可以跳过该步骤。通过pip命令安装SDK的命令如下。
    pip install https://pai-sdk.oss-cn-shanghai.aliyuncs.com/alipai/dist/alipai-0.3.0-py2.py3-none-any.whl
    其中https://pai-sdk.oss-cn-shanghai.aliyuncs.com/alipai/dist/alipai-0.3.0-py2.py3-none-any.whl表示SDK的下载地址,您无需修改。
    说明 虽然SDK支持Python 2和Python 3版本,但是Python社区已经停止维护Python 2版本,因此推荐您使用Python 3环境运行SDK。
  2. 初始化默认的SDK Session和AI工作空间。
    PAI Pipeline Service SDK依赖于阿里云机器学习PAI提供的服务,SDK的Session负责与PAI的后端服务和依赖的其他阿里云服务进行交互。Session封装了鉴权凭证AccessKey、使用PAI服务的地域及当前使用的AI工作空间。

    您可以通过pai.core.session.setup_default_session方法初始化一个全局默认的Session对象。当调用的API(例如SaveOperator.listWorkspace.list)需要与PAI后端服务进行通讯时,默认使用该Session进行通讯。

    初始化默认的SDK Session和AI工作空间时,您可以通过以下两种方式指定AI工作空间:
    • 方式一:首先在PAI控制台上查看AI工作空间的名称或ID,然后初始化默认Session的同时指定AI工作空间。代码示例如下。
      from pai.core.session import setup_default_session
      from pai.core.workspace import Workspace
      
      setup_default_session(access_key_id="<your_access_key_id>", 
                            access_key_secret="<your_access_key_secret>", 
                            region_id="<your_region>",
                            # workspace_id="<your_workspace_id>",         # AI工作空间名称和ID二选一。
                            workspace_name="<your_workspace_name>")
      您需要将下文表 1中的参数值替换为实际值。
    • 方式二:首先设置默认的Session,然后获取阿里云账号下可访问的AI工作空间列表,再指定使用的AI工作空间。代码示例如下。
      from pai.core.session import setup_default_session
      from pai.core.workspace import Workspace
      session = setup_default_session(access_key_id="<your_access_key_id>", access_key_secret="<your_access_key_secret>",
                                      region_id="<your_region>")
      for ws in Workspace.list():
          print(ws.name, ws.id)
      
      session.set_workspace(workspace=Workspace.get_by_name("<your_workspace_name>"))
      您需要将下文表 1中的参数值替换为实际值。
    表 1. 初始化的相关参数
    参数 描述
    <your_access_key_id> 阿里云账号的AccessKey ID。
    <your_access_key_secret> 阿里云账号的AccessKey Secret。
    <your_region> PAI Pipeline Service的地域,后续提交的任务将运行在该地域。该参数支持以下取值:
    • cn-shanghai:华东2(上海)
    • cn-hangzhou:华东1(杭州)
    • cn-beijing:华北2(北京)
    • cn-shenzhen:华南1(深圳)
    <your_workspace_name> AI工作空间名称。对于上面两种指定AI工作空间的方式,分别根据以下方法获取该参数值:
    • 如果使用方式一,则该参数与<your_workspace_id>二选一。您可以登录PAI控制台,在AI工作空间列表页面查看该参数值。您也可以创建新的AI工作空间,详情请参见AI工作空间
      说明 如果指定AI工作空间时,同时指定了AI工作空间的名称和ID,则接口报错。
    • 如果使用方式二,则将该参数指定为Workspace.list()接口返回的一个ws.name
    <your_workspace_id> AI工作空间ID。如果使用方式一,则该参数与<your_workspace_name>二选一。您可以登录PAI控制台,在AI工作空间列表页面查看该参数值。您也可以创建新的AI工作空间,详情请参见AI工作空间
    说明 如果指定AI工作空间时,同时指定了AI工作空间的名称和ID,则接口报错。