首页 服务初始化

服务初始化

更新时间: 2025-04-08 10:01:02

概述

本篇将描述如何初始化开通和使用PAI-Rec产品及相关资源和服务,包括购买并开通PAI、DataWorks、MaxCompute、OSS,并在PAI-Rec中对上述资源进行绑定,以及对算法、工程同学进行权限授权操作。

PAI-Rec初始化流程主要分为以下几个步骤:

  1. 开通建模相关资源。

  2. 购买PAI-Rec实例。

  3. PAI-Rec的服务初始化。

建模相关资源介绍

人工智能平台PAI是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务。

DataWorksMaxCompute是基于云原生的两款大数据服务,可搭配使用,针对推荐系统中特征处理、样本生成、画像管理、模型调度、数据更新等环节,提供了易用的开发工具和稳定的数据环境。

对象存储OSS 是一款海量、安全、低成本、高可靠的云存储服务,提供最高可达 99.995 % 的服务可用性。多种存储类型供选择,全面优化存储成本。

Hologres是阿里巴巴自主研发的一站式实时数仓引擎(Real-Time Data Warehouse),支持海量数据实时写入、实时更新、实时加工、实时分析,支持标准SQL(兼容PostgreSQL协议和语法,支持大部分PostgreSQL函数),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),支持多种负载的细粒度隔离与企业级安全能力,与MaxCompute、Flink、DataWorks深度融合,提供企业级离在线一体化全栈数仓解决方案。

开通资源

DataWorks&MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

1. 购买产品

主账号登录DataWorks产品首页,单击立即开通,注意这里需要对DataWorks+MaxCompute进行组合购买。

说明
  1. 仅阿里云账号、以及拥有AliyunBSSOrderAccessAliyunDataWorksFullAccess权限策略的RAM用户可开通DataWorks服务。授权详情请参见为RAM用户授权

  2. 首次开通MaxCompute时,默认开通的是按量付费标准版的MaxCompute,按量付费计费模式的版本,不使用时不收取费用,开通后如果使用,会根据使用量收取费用,各类计费项的计费详情请参见计算费用(按量付费)存储费用数据传输费用(公网下载)

2. 选择地域

购买完成后,需要选择您购买的资源所在的地域。

  1. 登录DataWorks控制台

  2. 在控制台顶部菜单栏切换所需地域。

    工作空间是基于地域创建的,您需根据业务数据的使用地域,先切换至所需地域,在相应地域下创建工作空间。

    说明

    • 请确认当前地域是否为目标地域,工作空间创建后不支持修改地域。

    • 若当前地域施行夏令时,为避免夏令时切换对您任务执行造成额外理解成本,建议实施夏令时的地域优先查看场景:夏令时切换对调度任务运行的影响

    • 选择地域后,默认情况下DataWorks工作空间所在地域对应的时区即为调度时区(即任务定时调度时间所使用的时区)。

    • DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区

3. 创建DataWorks工作空间

创建前准备

创建工作空间前,您需先规划工作空间并选择合适的空间模式,具体如下表。

操作项

描述

参考链接

规划工作空间

工作空间为DataWorks支持的最大业务划分粒度,使用工作空间前,您需要先了解工作空间的体系,并根据需求制定适用于不同场景的工作空间划分方案。

规划工作空间

选择空间模式

DataWorks工作空间分为简单模式与标准模式:

  • 简单模式:仅具有生产环境,对应一个项目,无法做到数据权限隔离与开发生产隔离。

  • 标准模式:包括开发环境及生产环境,可以分别对应两个项目,更好地做到开发生产隔离与数据安全保障。

说明

建议您在实际任务开发时,选择标准模式工作空间。

必读:简单模式和标准模式的区别

步骤一:切换地域
  1. 登录DataWorks控制台

  2. 在控制台顶部菜单栏切换所需地域。

    工作空间是基于地域创建的,您需根据业务数据的使用地域,先切换至所需地域,在相应地域下创建工作空间。

    说明
    • 请确认当前地域是否为目标地域,工作空间创建后不支持修改地域。

    • 若当前地域施行夏令时,为避免夏令时切换对您任务执行造成额外理解成本,建议实施夏令时的地域优先查看场景:夏令时切换对调度任务运行的影响

    • 选择地域后,默认情况下DataWorks工作空间所在地域对应的时区即为调度时区(即任务定时调度时间所使用的时区)。

    • DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项以及如何切换时区,请务必提前阅读场景:切换调度时区

步骤二:创建工作空间
  1. 在控制台单击左侧导航栏的工作空间,进入工作空间列表页面。

  2. 工作空间列表页,选择创建工作空间

    工作空间是DataWorks管理任务、成员,分配角色和权限的基本单元,所有开发工作都将在具体的工作空间内完成。因此,进行任务开发前您需要先创建工作空间。进入工作空间创建入口后,需按照指引配置工作空间相关信息。

    image.png

    参数说明如下。

    参数

    描述

    工作空间名称

    当前工作空间的唯一标识,创建后无法修改。

    重要

    在同一地域内,不允许使用已存在的工作空间名称创建新的工作空间。

    显示名

    建议基于业务属性命名,便于标识工作空间用途。

    生产、开发环境隔离

    定义工作空间模式,即工作空间的生产环境和开发环境是否隔离。

    • 是:需隔离生产、开发环境,该方式创建的工作空间为标准模式工作空间。

    • 否:无需隔离生产、开发环境,该方式创建的工作空间为简单模式工作空间。

    工作空间模式介绍,详情请参见必读:简单模式和标准模式的区别。您可结合业务需求确认,需创建哪种类型的工作空间。

    空间管理员

    定义该工作空间的管理员。

    默认当前登录账号为该工作空间的管理员。您也可自行添加工作空间中的其他成员为管理员,协同管理该工作空间。添加空间成员,详情请参见添加工作空间成员

    参加数据开发(Data Studio)(新版)公测

    是否参加新版数据开发公测。部分地域陆续推送了新版数据开发,如需参加公测,可选择开启。关于新版数据开发的更多信息,请参见数据开发(Data Studio)(新版)

    说明

    2025年02月18日后,主账号在如下地域首次开通DataWorks并创建工作空间时,默认启用新版数据开发,无需配置此参数。

    华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、中国香港、新加坡、印度尼西亚(雅加达)、德国(法兰克福)

    默认资源组配置

    工作空间默认使用的DataWorks资源组,后续可在工作空间配置中修改。资源组的更多信息,请参见DataWorks资源组概述

    阿里云资源组

    选择阿里云资源管理中创建的资源组,默认选择默认资源组

    若您的公司购买了多种阿里云资源,则可通过资源管理创建资源组进行云资源分组,并为资源组设置管理员,通过分组独立管理资源组内的所有资源。

    重要

    此处选择的资源组是在阿里云账号下进行资源分组管理的一种机制,帮助您解决单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行需使用的资源组为两个概念,请注意区分。

    创建同名AI工作空间

    是否创建相同名称的AI工作空间,默认开启,您可以在AI工作空间中调度PAI上的算法任务。

    描述

    用于辅助标识工作空间的主要用途、相关信息。

详情可参考:创建工作空间

4. 绑定MaxCompute引擎

DataWorks工作空间创建完成后,需要为工作空间绑定MaxCompute计算引擎,才可进行后续工作。

绑定MaxCompute数据源,可参考创建MaxCompute数据源

OSS

注意:

OSS 的 bucket 名称需要全局唯一,部署之前需要修改模板中的名称。

一. 购买OSS

  1. 主账号登录阿里云官网搜索对象存储OSS,找到如下结果,点击“立即购买”按钮,或前往OSS开通页面进行开通。

  2. 在购买页,选择合适您的规格进行购买,也可以咨询对应SA销售或技术支持同学。

二. 创建OSS空间

  1. 登录OSS管理控制台

  2. 在左侧导航栏,单击Bucket列表,然后单击创建Bucket

  3. 创建Bucket面板,按如下说明配置必要参数。其他参数均可保持默认配置,也可以在Bucket创建完成后单独配置。然后单击确定

    参数

    描述

    Bucket名称

    Bucket的名称。Bucket一旦创建,则无法更改其名称。

    命名规则如下:

    • Bucket名称必须全局唯一。

    • 只能包括小写字母、数字和短划线(-)。

    • 必须以小写字母或者数字开头和结尾。

    • 长度必须在3~63字符之间。

    说明

    避免在存储空间名称中包含敏感信息,例如账号。存储空间名称会显示在存储空间中文件的URL中。

    地域

    Bucket的数据中心。Bucket一旦创建,则无法更改其所在地域。

    如需通过ECS内网访问OSS,请选择与ECS相同的地域。更多信息,请参见 OSS访问域名使用规则

    存储冗余类型

    Bucket的数据容灾类型。

    • 本地冗余存储

      采用单可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一个可用区内多个设施的多个设备上,确保硬件失效时的数据持久性和可用性。

    • 同城冗余存储(推荐)

      采用多可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一地域(Region)的多个可用区。当某个可用区不可用时,仍然能够保障数据的正常访问。

    创建完成后,您可以看到创建成功提示。

Hologres

一. 购买Hologres实例

操作详情可参考:购买Hologres

二. 创建数据库

  1. 进入Hologres管理控制台,单击左侧实例列表

  2. 实例列表页面,单击实例名称。

    您也可以单击目标实例操作列的管理,进入实例详情页。

  3. 在实例详情页左侧导航栏,单击数据库管理

  4. DB授权页面,单击右上角新增数据库

  5. 新增数据库对话框,选择实例名并填写数据库名称,根据实际业务选择简单权限策略,推荐您选择SPM

    新增数据库

    策略分类

    策略描述

    简单权限模型(SPM)

    该权限模型授权是以DB为粒度,划分admin(管理员)、developer(开发者)、writer(读写者)以及viewer(分析师)四种角色,您可以通过少量的权限管理函数,即可对DB中的对象进行方便且安全的权限管理,详情请参见简单权限模型(SPM)

    基于Schema级别的简单权限模型(SLPM)

    该权限模型以Schema为粒度,划分 <db>.admin(DB管理员)、<db>.<schema>.developer(开发者)、<db>.<schema>.writer(读写者)以及 <db>.<schema>.viewer(分析师),相比于简单权限模型更为细粒度,详情请参见Schema级别的简单权限模型(SLPM)

    专家模型

    与PostgreSQL的权限模型完全一致,简称专家模式,详情请参见专家权限模型

  6. 单击确认

    您可以在DB授权页面,查看已创建的数据库。

详情可参考:创建数据库

购买PAI-Rec实例

  1. 进入全链路推荐系统开发平台首页,点击“立即购买”按钮。

  2. 在弹出的购买页中,请选择购买合适的规格,如对产品规格有疑问,请咨询SA销售或技术支持同学,或者加入钉钉群32260796询问。

  3. 购买完成后,返回步骤1页面,点击“管理控制台”进入PAI-Rec操作台,点击详情可跳转到具体PAI-Rec实例。

image

PAI-Rec的服务初始化

初始化“建模、引擎、其他”三类功能,以及开发角色授权请参考全链路服务初始化和权限开通

阿里云首页 智能推荐 AIRec 相关技术圈