全量数据管理概述

数据源相关概念

目前智能推荐系统的数据源只支持MaxCompute(ODPS),后续会陆续开放OSS,RDS等其他方式。

  • MaxCompute:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案,详情参见 MaxCompute

  • 表:表是MaxCompute的数据存储单元,它在逻辑上也是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段,一条记录可以包含一个或多个列,各个列的名称和类型构成这张表的Schema。智能推荐要求的全量数据的表结构schema参见数据规范(内容新闻商品

  • 分区:分区表是指在创建表时指定分区空间,即指定表内的某几个字段作为分区列,详情参见 分区

  • 项目空间:项目空间(Project)是MaxCompute的基本组织单元,它类似于传统数据库的Database或Schema的概念,是进行多用户隔离和访问控制的主要边界

  • 客户端:使用MaxCompute的命令行工具,详情参见 客户端

全量数据准备

1、开通MaxCompute数据服务

如果用户已经在使用MaxCompute(原ODPS)服务,可以忽略此步骤。如果没有,需要提前开通相关服务,才可以通过MaxCompute将全量数据上传至智能推荐系统中。开通方法详情参见 创建DataWorks项目

2、上传全量数据至数据源中

MaxCompute支持多种数据上传方式,如果用户的数据已经存储在阿里云上(例如:OSS,RDS等),也可以使用DataWorks的数据集成功能。从本地上传至MaxCompute具体方法参见 本地上传全量数据

3、授权子账号

智能推荐服务需要相关权限,才可以从用户的MaxCompute项目空间,同步全量数据至推荐服务中。用户可以通过对子账号授权的方式,提供子账号的AK,具体的授权方式参见 智能推荐MAXCompute授权流程

4、智能推荐控制台中创建对应的数据版本

详情参见快速入门中启动实例部分

5、数据源的后续处理

智能推荐服务只会在初始化时同步一次全量数据,后续数据均通过SDK增量的方式推送,不会再使用数据源中相应的数据,用户如果没有新建数据版本,更换全量数据的需求,可以自行冻结删除掉之前开通的服务。