什么是数据源,如何对全量数据管理_智能推荐 AIRec(AIRec)-阿里云帮助中心

数据源相关概念

目前智能推荐系统的数据源只支持MaxCompute（ODPS），后续会陆续开放OSS，RDS等其他方式。

MaxCompute：大数据计算服务（MaxCompute，原名ODPS）是一种快速、完全托管的TB/PB级数据仓库解决方案，详情参见 MaxCompute
表：表是MaxCompute的数据存储单元，它在逻辑上也是由行和列组成的二维结构，每行代表一条记录，每列表示相同数据类型的一个字段，一条记录可以包含一个或多个列，各个列的名称和类型构成这张表的Schema。智能推荐要求的全量数据的表结构schema参见数据规范（内容，新闻，商品）
分区：分区表是指在创建表时指定分区空间，即指定表内的某几个字段作为分区列，详情参见分区
项目空间：项目空间（Project）是MaxCompute的基本组织单元，它类似于传统数据库的Database或Schema的概念，是进行多用户隔离和访问控制的主要边界
客户端：使用MaxCompute的命令行工具，详情参见客户端

全量数据准备

1、开通MaxCompute数据服务

如果用户已经在使用MaxCompute（原ODPS）服务，可以忽略此步骤。如果没有，需要提前开通相关服务，才可以通过MaxCompute将全量数据上传至智能推荐系统中。开通方法详情参见创建DataWorks项目

2、上传全量数据至数据源中

MaxCompute支持多种数据上传方式，如果用户的数据已经存储在阿里云上（例如：OSS，RDS等），也可以使用DataWorks的数据集成功能。从本地上传至MaxCompute具体方法参见本地上传全量数据

3、授权子账号

智能推荐服务需要相关权限，才可以从用户的MaxCompute项目空间，同步全量数据至推荐服务中。用户可以通过对子账号授权的方式，提供子账号的AK，具体的授权方式参见智能推荐MAXCompute授权流程

4、智能推荐控制台中创建对应的数据版本

详情参见快速入门中启动实例部分

5、数据源的后续处理

智能推荐服务只会在初始化时同步一次全量数据，后续数据均通过SDK增量的方式推送，不会再使用数据源中相应的数据，用户如果没有新建数据版本，更换全量数据的需求，可以自行冻结删除掉之前开通的服务。