服务初始化

更新时间: 2023-11-03 15:11:39

概述

本篇将描述如何初始化开通和使用PAIRec产品及相关资源和服务,包括购买并开通PAI、DataWorks、MaxCompute、OSS,并在PAIRec中对上述资源进行绑定,以及对算法、工程同学进行权限授权操作。

PAI-REC初始化流程主要分为以下几个步骤:

  1. 资源开通。

  2. 资源绑定至PAI-REC。

  3. PAI-REC开发角色授权。

  4. 授予PAI-REC访问资源的权限。

当您新购PAI-REC实例,并完成资源开通步骤后,即可登入控制台,在“基本信息-操作指引”处点击按钮进入初始化流程,该流程会引导您进行PAI-REC实例初始化。

资源介绍

机器学习平台PAI机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务。

DataWorksMaxCompute是基于云原生的两款大数据服务,可搭配使用,针对推荐系统中特征处理、样本生成、画像管理、模型调度、数据更新等环节,提供了易用的开发工具和稳定的数据环境。

对象存储 OSS 阿里云对象存储 OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,提供最高可达 99.995 % 的服务可用性。多种存储类型供选择,全面优化存储成本。

Hologres是阿里巴巴自主研发的一站式实时数仓引擎(Real-Time Data Warehouse),支持海量数据实时写入、实时更新、实时加工、实时分析,支持标准SQL(兼容PostgreSQL协议和语法,支持大部分PostgreSQL函数),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),支持多种负载的细粒度隔离与企业级安全能力,与MaxCompute、Flink、DataWorks深度融合,提供企业级离在线一体化全栈数仓解决方案。

开通资源

DataWorks&MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

1. 购买产品

主账号登录阿里云官网搜索DataWorks,点击“立即购买”按钮,或进入DataWorks产品首页,单击立即开通,注意这里需要对DataWorks+MaxCompute进行组合购买。

说明
  1. 仅阿里云账号、以及拥有AliyunBSSOrderAccessAliyunDataWorksFullAccess权限策略的RAM用户可开通DataWorks服务。授权详情请参见为RAM用户授权

  2. 首次开通MaxCompute时,默认开通的是按量付费标准版的MaxCompute,按量付费计费模式的版本,不使用时不收取费用,开通后如果使用,会根据使用量收取费用,各类计费项的计费详情请参见计算费用(按量计费)存储费用数据传输费用(公网下载)

2. 选择地域

购买完成后,需要选择您购买的资源所在的地域。

  1. 登录DataWorks控制台

  2. 在控制台顶部菜单栏切换所需地域。

    工作空间是基于地域创建的,您需根据业务数据的使用地域,先切换至所需地域,在相应地域下创建工作空间。

    说明
    • 请确认当前地域是否为目标地域,工作空间创建后不支持修改地域。

    • 若当前地域施行夏令时,为避免夏令时切换对您任务执行造成额外理解成本,建议实施夏令时的地域优先查看场景:夏令时切换对调度任务运行的影响

    • 选择地域后,默认情况下DataWorks工作空间所在地域对应的时区即为调度时区(即任务定时调度时间所使用的时区)。

    • DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区

3. 创建DataWorks工作空间

创建前准备

创建工作空间前,您需先规划工作空间并选择合适的空间模式,具体如下表。

操作项

描述

参考链接

规划工作空间

工作空间为DataWorks支持的最大业务划分粒度,使用工作空间前,您需要先了解工作空间的体系,并根据需求制定适用于不同场景的工作空间划分方案。

规划工作空间

选择空间模式

DataWorks工作空间分为简单模式与标准模式:

  • 简单模式:仅具有生产环境,对应一个引擎项目,无法做到数据权限隔离与开发生产隔离。

  • 标准模式:包括开发环境及生产环境,可以分别对应两个引擎项目,更好的做到开发生产隔离与数据安全保障。

说明

建议您在实际任务开发时,选择标准模式工作空间。

必读:简单模式和标准模式的区别

步骤一:切换地域
  1. 登录DataWorks控制台

  2. 在控制台顶部菜单栏切换所需地域。

    工作空间是基于地域创建的,您需根据业务数据的使用地域,先切换至所需地域,在相应地域下创建工作空间。

    说明
    • 请确认当前地域是否为目标地域,工作空间创建后不支持修改地域。

    • 若当前地域施行夏令时,为避免夏令时切换对您任务执行造成额外理解成本,建议实施夏令时的地域优先查看场景:夏令时切换对调度任务运行的影响

    • 选择地域后,默认情况下DataWorks工作空间所在地域对应的时区即为调度时区(即任务定时调度时间所使用的时区)。

    • DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区

步骤二:创建工作空间
  1. 在控制台单击左侧导航栏的工作空间列表,进入工作空间列表页面。

  2. 工作空间列表页,选择创建工作空间

    工作空间是DataWorks管理任务、成员,分配角色和权限的基本单元,所有开发工作都将在具体的工作空间内完成。因此,进行任务开发前您需要先创建工作空间。进入工作空间创建入口后,需按照指引配置工作空间相关信息。

    说明

    DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区

    image.png

    参数说明如下。

    参数

    描述

    工作空间名称

    当前工作空间的唯一标识,创建后无法修改。

    显示名

    建议基于业务属性命名,便于标识工作空间用途。

    生产、开发环境隔离

    定义工作空间模式,即工作空间的生产环境和开发环境是否隔离。

    • 是:需隔离生产、开发环境,该方式创建的工作空间为标准模式工作空间。

    • 否:无需隔离生产、开发环境,该方式创建的工作空间为简单模式工作空间。

    工作空间模式介绍,详情请参见必读:简单模式和标准模式的区别。您可结合业务需求确认,需创建哪种类型的工作空间。

    空间管理员

    定义该工作空间的管理员。

    默认当前登录账号为该工作空间的管理员。您也可自行添加工作空间中的其他成员为管理员,协同管理该工作空间。添加空间成员,详情请参见添加工作空间成员

    阿里云资源组

    选择阿里云资源管理中创建的资源组,默认选择默认资源组

    若您的公司购买了多种阿里云资源,则可通过资源管理创建资源组进行云资源分组,并为资源组设置管理员,通过分组独立管理资源组内的所有资源。

    重要

    此处选择的资源组是在阿里云账号下进行资源分组管理的一种机制,帮助您解决单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行需使用的资源组为两个概念,请注意区分。

    调度PAI算法任务

    如需进行周期性调度算法任务,则可启用该功能。您也可在创建工作空间后,进入管理中心,在工作空间页面开启。

    说明

    该功能开启后无法关闭,请根据需要开启。调度PAI算法任务详情,请参见机器学习

    描述

    用于辅助标识工作空间的主要用途、相关信息。

详情可参考:创建工作空间

4. 绑定MaxCompute引擎

DataWorks工作空间创建完成后,需要为工作空间绑定MaxCompute计算引擎,才可进行后续工作。

您可通过如下方式绑定引擎:

  • 方式一:创建完工作空间后直接绑定。

    工作空间创建完成后,DataWorks为您提供了常用引擎的绑定入口,可直接进行引擎绑定操作。同时,也可进入管理中心,绑定更多类型的引擎。绑定引擎

  • 方式二:通过工作空间列表绑定。

    该方式需通过工作空间列表先找到目标工作空间,再进行引擎绑定。工作空间列表绑定

  • 方式三:通过工作空间管理页面绑定引擎。

    该方式需先进入工作空间管理页面,选择目标工作空间,并单击进入绑定计算资源页面,再绑定相应引擎。工作空间管理绑定引擎

详情可参考:为工作空间绑定引擎

OSS

注意:

OSS 的 bucket 名称需要全局唯一,部署之前需要修改模板中的名称。

一. 购买OSS

  1. 主账号登录阿里云官网搜索对象存储OSS,找到如下结果,点击“立即购买”按钮,或前往OSS开通页面进行开通。image.png

  2. 在购买页中,选择合适您的规格进行购买,也可以咨询对应SA销售或技术支持同学。

二. 创建OSS空间

  1. 登录OSS管理控制台OSS管理控制台

  2. 在左侧导航栏,单击Bucket列表,然后单击创建Bucket

  3. 创建Bucket面板,按如下说明配置必要参数。其他参数均可保持默认配置,也可以在Bucket创建完成后单独配置。然后单击确定

    参数

    描述

    Bucket名称

    Bucket的名称。Bucket一旦创建,则无法更改其名称。

    命名规则如下:

    • Bucket名称必须全局唯一。

    • 只能包括小写字母、数字和短划线(-)。

    • 必须以小写字母或者数字开头和结尾。

    • 长度必须在3~63字符之间。

    说明

    避免在存储空间名称中包含敏感信息,例如账号。存储空间名称会显示在存储空间中文件的URL中。

    地域

    Bucket的数据中心。Bucket一旦创建,则无法更改其所在地域。

    如需通过ECS内网访问OSS,请选择与ECS相同的地域。更多信息,请参见 OSS访问域名使用规则

    存储冗余类型

    Bucket的数据容灾类型。

    • 本地冗余存储

      采用单可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一个可用区内多个设施的多个设备上,确保硬件失效时的数据持久性和可用性。

    • 同城冗余存储(推荐)

      采用多可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一地域(Region)的多个可用区。当某个可用区不可用时,仍然能够保障数据的正常访问。

      重要

      华南1(深圳)、华北2(北京)、华东1(杭州)、华东2(上海)、中国香港、新加坡以及印度尼西亚(雅加达)地域支持开启同城冗余存储。此外,同城冗余存储的费用较高,且开启后不支持关闭,请谨慎操作。

      关于同城冗余存储的更多信息,请参见创建同城冗余存储Bucket

    创建完成后,您可以看到创建成功提示。

Hologres

一. 购买Hologres实例

  1. 使用阿里云主账号登录阿里云官网

  2. 使用阿里云主账号登录阿里云官网

  3. 进入Hologres产品详情页

  4. 单击立即购买

  5. 选择付费模式并配置相应参数。

    新购买的Hologres实例会占用两个VPC IP数,请确保您的交换机下有足够的可用IP数。

    Hologres根据存储资源和计算资源进行收费,包括包年包月按量付费两种付费模式,详情请参见计费概述。两种付费模式的说明如下:

    • 包年包月

      根据实际业务需求,估算所需要的计算资源和存储资源,采用预先付费的方式使用Hologres,详情请参见包年包月1

      说明
      • 如果您需要购买超过1024 CU以上的实例,您可以加入实时数仓Hologres交流群申请购买,详情请参见如何获取更多的在线支持?

      • 使用包年包月付费模式时,如果存储资源超过额度,则系统自动为您转为按量付费

    • 按量付费

      计算费用根据购买的计算资源规格,以实例的运行时长收费。存储费用根据实际存储量,以存储的时长收费。每小时结算一次。详情请参见按量付费2

    说明

    如果您需要在同一地域购买多个实例,请尽量避免使用相同的实例名称。

  6. 单击立即购买

  7. 确认订单页面,请仔细核对所购买实例的付费模式、实例名称、资源以及地域等信息。勾选对应的服务协议

  8. 单击立即开通

  9. 支付页面完成付款。

    成功购买实例后,您可以进入Hologres管理控制台查看实例信息。管理控制台的使用方法请参见概览

    Hologres兼容PostgreSQL,您可以使用PSQL客户端、ETL(Extract-Transform-Load)或BI(Business Intelligence)工具连接Hologres并进行数据开发,具体如下:

详情可参考:购买Hologres

二. 创建数据库

  1. 进入Hologres管理控制台,单击左侧实例列表
  2. 实例列表页面,单击实例名称。
    您也可以单击目标实例操作列的管理,进入实例详情页。
  3. 在实例详情页左侧导航栏,单击数据库管理
  4. DB授权页面,单击右上角新增数据库
  5. 新增数据库对话框,选择实例名并填写数据库名称,根据实际业务选择简单权限策略,推荐您选择SPM
    新增数据库
    策略分类策略描述
    简单权限模型(SPM)该权限模型授权是以DB为粒度,划分admin(管理员)、developer(开发者)、writer(读写者)以及viewer(分析师)四种角色,您可以通过少量的权限管理函数,即可对DB中的对象进行方便且安全的权限管理,详情请参见简单权限模型概述
    基于Schema级别的简单权限模型(SLPM)该权限模型以Schema为粒度,划分 <db>.admin(DB管理员)、<db>.<schema>.developer(开发者)、<db>.<schema>.writer(读写者)以及 <db>.<schema>.viewer(分析师),相比于简单权限模型更为细粒度,详情请参见基于Schema级别的简单权限模型概述
    专家模型与PostgreSQL的权限模型完全一致,简称专家模式,详情请参见专家权限模型
  6. 单击确认
    您可以在DB授权页面,查看已创建的数据库。

详情可参考:创建数据库

PAI-REC(v1版本)

新版初始化请见1.全链路服务的初始化

1、进入全链路推荐系统开发平台首页,点击“立即购买”按钮。

image.png

2、在弹出的购买页中,选择合适您的规格进行购买,如对产品规格有疑问,可咨询SA销售或技术支持同学。

3、购买完成后,返回步骤1页面,点击“管理控制台”进入PAI-REC操作台,在“基本信息”中,填写刚才架构中相关的服务地址。

image.png

配置资源保存后会提示需要做授权的操作。可以点击“稍后操作”。

4、点击“配置功能”页面,记录运维与实验操作台(pairec experiment console)的访问地址。

image.png

后续如 A/B 实验、数据诊断、推荐算法定制、在线推荐引擎服务的更新部署等功能都需要在运维与实验操作台中操作。为了能够快捷地选择到已开通的服务和引擎资源,我们需要这些资源的基础信息配置在运维与实验操作台中:

a. 使用 admin/admin 初始账号密码登录运维与实验操作台,并修改初始密码。

image.pngimage.png

b. 在基础配置 > AK 管理页面新增并填写阿里云账号 AK。本次示例,以子账号 admin 权限。实际业务中,根据具体的权限要求设置权限规则。

image.pngimage.png

c. 在基础配置 > 数据源管理页面新增刚开通的 MaxCompute/OSS/Hologres 数据源详情。

前提:需要在 MaxCompute 产品页新建项目,如“mc_pai_demo”

image.png

然后为此 MaxCompute项目空间添加子账号的角色权限:

image.pngimage.png

d. 在基础配置 > 场景管理页面新增一个场景,比如取名为“home_page”。

image.png

为了方便最佳实践方案落地操作,我们提供了以内容场景为例的示例数据便于后续算法和工程步骤的讲解,包含用户表、内容表和行为表。

绑定资源到PAI-REC

开通资源完成后,即可登入PAI-REC操作台,在“基本信息-操作指引”处点击按钮进入初始化流程。

  1. 建模环境配置

    分别绑定并选择您要用于当前PAI-REC实例的资源,依次需要设置“机器学习平台PAI”、“大数据开发治理平台 DataWorks”、“大数据计算服务 MaxCompute”、“对象存储 OSS”四项资源的工作空间/Bucket绑定。image.png

  2. 引擎配置

开发角色授权

完成资源授权后,即可开始角色授权,您可以给指定的阿里云RAM子账号授予指定权限,授权后,拥有此RAM账号的人员将只可以在您授权的范围内进行操作。

您需要复制此步骤给出的权限策略,然后前往RAM控制台进行角色授权,相关链接及策略在授权页面皆有提供。

image.png

PAI-REC授权

在相关的资源产品(PAI、DataWorks、MaxCompute、OSS)中,您需要给PAI-REC服务授予直接访问、写入这些资源的权限。

首先,PAI-REC会在该步骤给出您需要使用的授权语句,您需要复制后到对应的资源(PAI、DataWorks、MaxCompute、OSS)中执行,以进行授权操作,具体详见初始化步骤页面。授权完成后,可以在控制台“权限管理”页面查看授权是否正常。

image.png
阿里云首页 推荐全链路深度定制开放平台 相关技术圈