文档

服务初始化

更新时间:

概述

本篇将描述如何初始化开通和使用PAI-Rec产品及相关资源和服务,包括购买并开通PAI、DataWorks、MaxCompute、OSS,并在PAI-Rec中对上述资源进行绑定,以及对算法、工程同学进行权限授权操作。

PAI-Rec初始化流程主要分为以下几个步骤:

  1. 开通建模相关资源。

  2. 购买PAI-Rec实例。

  3. PAI-Rec的服务初始化。

建模相关资源介绍

机器学习平台PAI机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务。

DataWorksMaxCompute是基于云原生的两款大数据服务,可搭配使用,针对推荐系统中特征处理、样本生成、画像管理、模型调度、数据更新等环节,提供了易用的开发工具和稳定的数据环境。

对象存储 OSS 阿里云对象存储 OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,提供最高可达 99.995 % 的服务可用性。多种存储类型供选择,全面优化存储成本。

Hologres是阿里巴巴自主研发的一站式实时数仓引擎(Real-Time Data Warehouse),支持海量数据实时写入、实时更新、实时加工、实时分析,支持标准SQL(兼容PostgreSQL协议和语法,支持大部分PostgreSQL函数),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),支持多种负载的细粒度隔离与企业级安全能力,与MaxCompute、Flink、DataWorks深度融合,提供企业级离在线一体化全栈数仓解决方案。

开通资源

DataWorks&MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

1. 购买产品

主账号登录阿里云官网搜索DataWorks,点击“立即购买”按钮,或进入DataWorks产品首页,单击立即开通,注意这里需要对DataWorks+MaxCompute进行组合购买。

说明
  1. 仅阿里云账号、以及拥有AliyunBSSOrderAccessAliyunDataWorksFullAccess权限策略的RAM用户可开通DataWorks服务。授权详情请参见为RAM用户授权

  2. 首次开通MaxCompute时,默认开通的是按量付费标准版的MaxCompute,按量付费计费模式的版本,不使用时不收取费用,开通后如果使用,会根据使用量收取费用,各类计费项的计费详情请参见计算费用(按量付费)存储费用数据传输费用(公网下载)

2. 选择地域

购买完成后,需要选择您购买的资源所在的地域。

  1. 登录DataWorks控制台

  2. 在控制台顶部菜单栏切换所需地域。

    工作空间是基于地域创建的,您需根据业务数据的使用地域,先切换至所需地域,在相应地域下创建工作空间。

    说明
    • 请确认当前地域是否为目标地域,工作空间创建后不支持修改地域。

    • 若当前地域施行夏令时,为避免夏令时切换对您任务执行造成额外理解成本,建议实施夏令时的地域优先查看场景:夏令时切换对调度任务运行的影响

    • 选择地域后,默认情况下DataWorks工作空间所在地域对应的时区即为调度时区(即任务定时调度时间所使用的时区)。

    • DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区

3. 创建DataWorks工作空间

创建前准备

创建工作空间前,您需先规划工作空间并选择合适的空间模式,具体如下表。

操作项

描述

参考链接

规划工作空间

工作空间为DataWorks支持的最大业务划分粒度,使用工作空间前,您需要先了解工作空间的体系,并根据需求制定适用于不同场景的工作空间划分方案。

规划工作空间

选择空间模式

DataWorks工作空间分为简单模式与标准模式:

  • 简单模式:仅具有生产环境,对应一个引擎项目,无法做到数据权限隔离与开发生产隔离。

  • 标准模式:包括开发环境及生产环境,可以分别对应两个引擎项目,更好的做到开发生产隔离与数据安全保障。

说明

建议您在实际任务开发时,选择标准模式工作空间。

必读:简单模式和标准模式的区别

步骤一:切换地域
  1. 登录DataWorks控制台

  2. 在控制台顶部菜单栏切换所需地域。

    工作空间是基于地域创建的,您需根据业务数据的使用地域,先切换至所需地域,在相应地域下创建工作空间。

    说明
    • 请确认当前地域是否为目标地域,工作空间创建后不支持修改地域。

    • 若当前地域施行夏令时,为避免夏令时切换对您任务执行造成额外理解成本,建议实施夏令时的地域优先查看场景:夏令时切换对调度任务运行的影响

    • 选择地域后,默认情况下DataWorks工作空间所在地域对应的时区即为调度时区(即任务定时调度时间所使用的时区)。

    • DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区

步骤二:创建工作空间
  1. 在控制台单击左侧导航栏的工作空间列表,进入工作空间列表页面。

  2. 工作空间列表页,选择创建工作空间

    工作空间是DataWorks管理任务、成员,分配角色和权限的基本单元,所有开发工作都将在具体的工作空间内完成。因此,进行任务开发前您需要先创建工作空间。进入工作空间创建入口后,需按照指引配置工作空间相关信息。

    说明

    DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区

    image.png

    参数说明如下。

    参数

    描述

    工作空间名称

    当前工作空间的唯一标识,创建后无法修改。

    显示名

    建议基于业务属性命名,便于标识工作空间用途。

    生产、开发环境隔离

    定义工作空间模式,即工作空间的生产环境和开发环境是否隔离。

    • 是:需隔离生产、开发环境,该方式创建的工作空间为标准模式工作空间。

    • 否:无需隔离生产、开发环境,该方式创建的工作空间为简单模式工作空间。

    工作空间模式介绍,详情请参见必读:简单模式和标准模式的区别。您可结合业务需求确认,需创建哪种类型的工作空间。

    空间管理员

    定义该工作空间的管理员。

    默认当前登录账号为该工作空间的管理员。您也可自行添加工作空间中的其他成员为管理员,协同管理该工作空间。添加空间成员,详情请参见添加工作空间成员

    阿里云资源组

    选择阿里云资源管理中创建的资源组,默认选择默认资源组

    若您的公司购买了多种阿里云资源,则可通过资源管理创建资源组进行云资源分组,并为资源组设置管理员,通过分组独立管理资源组内的所有资源。

    重要

    此处选择的资源组是在阿里云账号下进行资源分组管理的一种机制,帮助您解决单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行需使用的资源组为两个概念,请注意区分。

    调度PAI算法任务

    如需进行周期性调度算法任务,则可启用该功能。您也可在创建工作空间后,进入管理中心,在工作空间页面开启。

    说明

    该功能开启后无法关闭,请根据需要开启。调度PAI算法任务详情,请参见机器学习

    描述

    用于辅助标识工作空间的主要用途、相关信息。

详情可参考:创建工作空间

4. 绑定MaxCompute引擎

DataWorks工作空间创建完成后,需要为工作空间绑定MaxCompute计算引擎,才可进行后续工作。

绑定MaxCompute数据源,可参考《创建MaxCompute数据源》。

OSS

注意:

OSS 的 bucket 名称需要全局唯一,部署之前需要修改模板中的名称。

一. 购买OSS

  1. 主账号登录阿里云官网搜索对象存储OSS,找到如下结果,点击“立即购买”按钮,或前往OSS开通页面进行开通。image.png

  2. 在购买页,选择合适您的规格进行购买,也可以咨询对应SA销售或技术支持同学。

二. 创建OSS空间

  1. 登录OSS管理控制台

  2. 在左侧导航栏,单击Bucket列表,然后单击创建Bucket

  3. 创建Bucket面板,按如下说明配置必要参数。其他参数均可保持默认配置,也可以在Bucket创建完成后单独配置。然后单击确定

    参数

    描述

    Bucket名称

    Bucket的名称。Bucket一旦创建,则无法更改其名称。

    命名规则如下:

    • Bucket名称必须全局唯一。

    • 只能包括小写字母、数字和短划线(-)。

    • 必须以小写字母或者数字开头和结尾。

    • 长度必须在3~63字符之间。

    说明

    避免在存储空间名称中包含敏感信息,例如账号。存储空间名称会显示在存储空间中文件的URL中。

    地域

    Bucket的数据中心。Bucket一旦创建,则无法更改其所在地域。

    如需通过ECS内网访问OSS,请选择与ECS相同的地域。更多信息,请参见 OSS访问域名使用规则

    存储冗余类型

    Bucket的数据容灾类型。

    • 本地冗余存储

      采用单可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一个可用区内多个设施的多个设备上,确保硬件失效时的数据持久性和可用性。

    • 同城冗余存储(推荐)

      采用多可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一地域(Region)的多个可用区。当某个可用区不可用时,仍然能够保障数据的正常访问。

      重要

      华南1(深圳)、华北2(北京)、华东1(杭州)、华东2(上海)、中国香港、新加坡以及印度尼西亚(雅加达)地域支持开启同城冗余存储。此外,同城冗余存储的费用较高,且开启后不支持关闭,请谨慎操作。

      关于同城冗余存储的更多信息,请参见创建同城冗余存储Bucket

    创建完成后,您可以看到创建成功提示。

Hologres

一. 购买Hologres实例

操作详情可参考:购买Hologres

二. 创建数据库

  1. 进入Hologres管理控制台,单击左侧实例列表

  2. 实例列表页面,单击实例名称。

    您也可以单击目标实例操作列的管理,进入实例详情页。

  3. 在实例详情页左侧导航栏,单击数据库管理

  4. DB授权页面,单击右上角新增数据库

  5. 新增数据库对话框,选择实例名并填写数据库名称,根据实际业务选择简单权限策略,推荐您选择SPM

    新增数据库

    策略分类

    策略描述

    简单权限模型(SPM)

    该权限模型授权是以DB为粒度,划分admin(管理员)、developer(开发者)、writer(读写者)以及viewer(分析师)四种角色,您可以通过少量的权限管理函数,即可对DB中的对象进行方便且安全的权限管理,详情请参见简单权限模型概述

    基于Schema级别的简单权限模型(SLPM)

    该权限模型以Schema为粒度,划分 <db>.admin(DB管理员)、<db>.<schema>.developer(开发者)、<db>.<schema>.writer(读写者)以及 <db>.<schema>.viewer(分析师),相比于简单权限模型更为细粒度,详情请参见基于Schema级别的简单权限模型概述

    专家模型

    与PostgreSQL的权限模型完全一致,简称专家模式,详情请参见专家权限模型

  6. 单击确认

    您可以在DB授权页面,查看已创建的数据库。

详情可参考:创建数据库

购买PAI-Rec实例

1、进入全链路推荐系统开发平台首页,点击“立即购买”按钮。

image

2、在弹出的购买页中,请选择购买合适的规格,如对产品规格有疑问,请咨询SA销售或技术支持同学,或者加入钉钉群32260796询问。

3、购买完成后,返回步骤1页面,点击“管理控制台”进入PAI-Rec操作台,点击详情可跳转到具体PAI-Rec实例。

image

PAI-Rec的服务初始化

初始化“建模、引擎、其他”三类功能,以及开发角色授权请参考全链路服务初始化和权限开通介绍