服务初始化
概述
本篇将描述如何初始化开通和使用PAI-Rec产品及相关资源和服务,包括购买并开通PAI、DataWorks、MaxCompute、OSS,并在PAI-Rec中对上述资源进行绑定,以及对算法、工程同学进行权限授权操作。
PAI-Rec初始化流程主要分为以下几个步骤:
开通建模相关资源。
购买PAI-Rec实例。
PAI-Rec的服务初始化。
建模相关资源介绍
机器学习平台PAI机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务。
DataWorks、MaxCompute是基于云原生的两款大数据服务,可搭配使用,针对推荐系统中特征处理、样本生成、画像管理、模型调度、数据更新等环节,提供了易用的开发工具和稳定的数据环境。
对象存储 OSS 阿里云对象存储 OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,提供最高可达 99.995 % 的服务可用性。多种存储类型供选择,全面优化存储成本。
Hologres是阿里巴巴自主研发的一站式实时数仓引擎(Real-Time Data Warehouse),支持海量数据实时写入、实时更新、实时加工、实时分析,支持标准SQL(兼容PostgreSQL协议和语法,支持大部分PostgreSQL函数),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),支持多种负载的细粒度隔离与企业级安全能力,与MaxCompute、Flink、DataWorks深度融合,提供企业级离在线一体化全栈数仓解决方案。
开通资源
DataWorks&MaxCompute
MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。
DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。
1. 购买产品
主账号登录阿里云官网搜索DataWorks,点击“立即购买”按钮,或进入DataWorks产品首页,单击立即开通,注意这里需要对DataWorks+MaxCompute进行组合购买。
仅阿里云账号、以及拥有
AliyunBSSOrderAccess
或AliyunDataWorksFullAccess
权限策略的RAM用户可开通DataWorks服务。授权详情请参见为RAM用户授权。首次开通MaxCompute时,默认开通的是按量付费标准版的MaxCompute,按量付费计费模式的版本,不使用时不收取费用,开通后如果使用,会根据使用量收取费用,各类计费项的计费详情请参见计算费用(按量付费)、存储费用、数据传输费用(公网下载)。
2. 选择地域
购买完成后,需要选择您购买的资源所在的地域。
登录DataWorks控制台。
在控制台顶部菜单栏切换所需地域。
工作空间是基于地域创建的,您需根据业务数据的使用地域,先切换至所需地域,在相应地域下创建工作空间。
说明请确认当前地域是否为目标地域,工作空间创建后不支持修改地域。
若当前地域施行夏令时,为避免夏令时切换对您任务执行造成额外理解成本,建议实施夏令时的地域优先查看场景:夏令时切换对调度任务运行的影响。
选择地域后,默认情况下DataWorks工作空间所在地域对应的时区即为调度时区(即任务定时调度时间所使用的时区)。
DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区。
3. 创建DataWorks工作空间
创建前准备
创建工作空间前,您需先规划工作空间并选择合适的空间模式,具体如下表。
操作项 | 描述 | 参考链接 |
规划工作空间 | 工作空间为DataWorks支持的最大业务划分粒度,使用工作空间前,您需要先了解工作空间的体系,并根据需求制定适用于不同场景的工作空间划分方案。 | |
选择空间模式 | DataWorks工作空间分为简单模式与标准模式:
说明 建议您在实际任务开发时,选择标准模式工作空间。 |
步骤一:切换地域
登录DataWorks控制台。
在控制台顶部菜单栏切换所需地域。
工作空间是基于地域创建的,您需根据业务数据的使用地域,先切换至所需地域,在相应地域下创建工作空间。
说明请确认当前地域是否为目标地域,工作空间创建后不支持修改地域。
若当前地域施行夏令时,为避免夏令时切换对您任务执行造成额外理解成本,建议实施夏令时的地域优先查看场景:夏令时切换对调度任务运行的影响。
选择地域后,默认情况下DataWorks工作空间所在地域对应的时区即为调度时区(即任务定时调度时间所使用的时区)。
DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区。
步骤二:创建工作空间
在控制台单击左侧导航栏的工作空间列表,进入工作空间列表页面。
在工作空间列表页,选择创建工作空间。
工作空间是DataWorks管理任务、成员,分配角色和权限的基本单元,所有开发工作都将在具体的工作空间内完成。因此,进行任务开发前您需要先创建工作空间。进入工作空间创建入口后,需按照指引配置工作空间相关信息。
说明DataWorks部分地域目前支持多调度时区切换,支持修改调度时区的地域、各地域支持切换的时区、切换时区注意事项、如何切换时区,请务必提前阅读场景:切换调度时区。
参数说明如下。
参数
描述
工作空间名称
当前工作空间的唯一标识,创建后无法修改。
显示名
建议基于业务属性命名,便于标识工作空间用途。
生产、开发环境隔离
定义工作空间模式,即工作空间的生产环境和开发环境是否隔离。
是:需隔离生产、开发环境,该方式创建的工作空间为标准模式工作空间。
否:无需隔离生产、开发环境,该方式创建的工作空间为简单模式工作空间。
工作空间模式介绍,详情请参见必读:简单模式和标准模式的区别。您可结合业务需求确认,需创建哪种类型的工作空间。
空间管理员
定义该工作空间的管理员。
默认当前登录账号为该工作空间的管理员。您也可自行添加工作空间中的其他成员为管理员,协同管理该工作空间。添加空间成员,详情请参见添加工作空间成员。
阿里云资源组
选择阿里云资源管理中创建的资源组,默认选择默认资源组。
若您的公司购买了多种阿里云资源,则可通过资源管理创建资源组进行云资源分组,并为资源组设置管理员,通过分组独立管理资源组内的所有资源。
重要此处选择的资源组是在阿里云账号下进行资源分组管理的一种机制,帮助您解决单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行需使用的资源组为两个概念,请注意区分。
调度PAI算法任务
如需进行周期性调度算法任务,则可启用该功能。您也可在创建工作空间后,进入管理中心,在工作空间页面开启。
说明该功能开启后无法关闭,请根据需要开启。调度PAI算法任务详情,请参见机器学习。
描述
用于辅助标识工作空间的主要用途、相关信息。
详情可参考:创建工作空间
4. 绑定MaxCompute引擎
DataWorks工作空间创建完成后,需要为工作空间绑定MaxCompute计算引擎,才可进行后续工作。
绑定MaxCompute数据源,可参考《创建MaxCompute数据源》。
OSS
注意:
OSS 的 bucket 名称需要全局唯一,部署之前需要修改模板中的名称。
一. 购买OSS
二. 创建OSS空间
登录OSS管理控制台。
在左侧导航栏,单击Bucket列表,然后单击创建Bucket。
在创建Bucket面板,按如下说明配置必要参数。其他参数均可保持默认配置,也可以在Bucket创建完成后单独配置。然后单击确定。
参数
描述
Bucket名称
Bucket的名称。Bucket一旦创建,则无法更改其名称。
命名规则如下:
Bucket名称必须全局唯一。
只能包括小写字母、数字和短划线(-)。
必须以小写字母或者数字开头和结尾。
长度必须在3~63字符之间。
说明避免在存储空间名称中包含敏感信息,例如账号。存储空间名称会显示在存储空间中文件的URL中。
地域
Bucket的数据中心。Bucket一旦创建,则无法更改其所在地域。
如需通过ECS内网访问OSS,请选择与ECS相同的地域。更多信息,请参见 OSS访问域名使用规则。
存储冗余类型
Bucket的数据容灾类型。
本地冗余存储
采用单可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一个可用区内多个设施的多个设备上,确保硬件失效时的数据持久性和可用性。
同城冗余存储(推荐)
采用多可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一地域(Region)的多个可用区。当某个可用区不可用时,仍然能够保障数据的正常访问。
重要华南1(深圳)、华北2(北京)、华东1(杭州)、华东2(上海)、中国香港、新加坡以及印度尼西亚(雅加达)地域支持开启同城冗余存储。此外,同城冗余存储的费用较高,且开启后不支持关闭,请谨慎操作。
关于同城冗余存储的更多信息,请参见创建同城冗余存储Bucket。
创建完成后,您可以看到创建成功提示。
Hologres
一. 购买Hologres实例
操作详情可参考:购买Hologres
二. 创建数据库
进入Hologres管理控制台,单击左侧实例列表。
在实例列表页面,单击实例名称。
您也可以单击目标实例操作列的管理,进入实例详情页。
在实例详情页左侧导航栏,单击数据库管理。
在DB授权页面,单击右上角新增数据库。
在新增数据库对话框,选择实例名并填写数据库名称,根据实际业务选择简单权限策略,推荐您选择SPM。
策略分类
策略描述
简单权限模型(SPM)
该权限模型授权是以DB为粒度,划分admin(管理员)、developer(开发者)、writer(读写者)以及viewer(分析师)四种角色,您可以通过少量的权限管理函数,即可对DB中的对象进行方便且安全的权限管理,详情请参见简单权限模型概述。
基于Schema级别的简单权限模型(SLPM)
该权限模型以Schema为粒度,划分 <db>.admin(DB管理员)、<db>.<schema>.developer(开发者)、<db>.<schema>.writer(读写者)以及 <db>.<schema>.viewer(分析师),相比于简单权限模型更为细粒度,详情请参见基于Schema级别的简单权限模型概述。
专家模型
与PostgreSQL的权限模型完全一致,简称专家模式,详情请参见专家权限模型。
单击确认。
您可以在DB授权页面,查看已创建的数据库。
详情可参考:创建数据库
购买PAI-Rec实例
1、进入全链路推荐系统开发平台首页,点击“立即购买”按钮。
2、在弹出的购买页中,请选择购买合适的规格,如对产品规格有疑问,请咨询SA销售或技术支持同学,或者加入钉钉群32260796询问。
3、购买完成后,返回步骤1页面,点击“管理控制台”进入PAI-Rec操作台,点击详情可跳转到具体PAI-Rec实例。
PAI-Rec的服务初始化
初始化“建模、引擎、其他”三类功能,以及开发角色授权请参考全链路服务初始化和权限开通介绍。