全部产品
阿里云办公

数据同步任务

更新时间:2017-11-03 13:50:22

数据同步任务

说明

  • 大写英文标识的表均为标准数据格式,具体表名需要从任务日志中获取。其中 :
    • LOG_USER_META LOG_ITEM_META为用户和物品日志增量表
    • UPLOAD_ITEM_META UPLOAD_ITEM_META_CONFIG UPLOAD_USER_META UPLOAD_USER_META_CONFIG UPLOAD_USER_BEHAVIOR UPLOAD_REC_ITEM_INFO数据页面配置的离线表
    • USER_BEHAVIOR ITEM_META USER_META REC_ITEM_INFO ITEM_META_CONFIG USER_META_CONFIG为汇总的算法输入表,与数据格式规范中的表一一对应。
  • 推荐引擎每张内部表都包含一个DS分区,表示数据日期,运行数据同步任务引用的分区与API出传入的ds参数或者页面日期选择框选择的一致。

    • 为了方便前期测试,UPLOAD_USER_BEHAVIOR 另外支持一个 ds=’recent’的分区,数据同步的时候每次都会取recent的分区的数据,不需要关注是否ds与选择的数据日期一致。
  • UPLOAD_ITEM_META_CONFIG UPLOAD_USER_META_CONFIG UPLOAD_REC_ITEM_INFO一般是可选输入,如果没有数据,请不要在数据页面配置,否则数据同步任务会报找不到分区的错误。

step1 离线日志处理

如果你在数据页面勾选了任一使用“日志API”上传数据,那么日志系统会每15分钟追加归档一次数据到rp3_biz_upload_log表。当通过页面或者API启动数据同步任务的时候,会把原始日志数据从rp3_biz_upload_log 对应的DS分区拉取数据写入下面的表。

  • 用户登录埋点会解析插入到LOG_USER_META表中,并且与历史数据汇总,ID相同时已最新的数据为准,历史数据最多保留180天
  • 物品注册埋点会解析插入到LOG_ITEM_META表中,并且与历史数据汇总,ID相同时已最新的数据为准,删除日志字段deleted=true的物品,历史数据最多保留180天
  • 行为埋点会解析插入到USER_BEHAVIOR表的DS分区。

step2 格式转换

  • UPLOAD_ITEM_META_CONFIG的最新分区插入ITEM_META_CONFIGDS 分区。
  • UPLOAD_USER_META_CONFIG的最新分区插入USER_META_CONFIGDS 分区。
  • UPLOAD_ITEM_META的最新分区解析插入到ITEM_META表的DS分区中,如果同时勾选使用日志服务,则与LOG_ITEM_META合并,根据item_id去重,ID相同的条目以LOG_ITEM_META为准。
  • UPLOAD_USER_META的最新分区解析插入到USER_META表的DS分区中,如果同时勾选使用日志服务,则与LOG_USER_META合并,根据user_id去重,ID相同的条目以LOG_USER_META为准。

  • UPLOAD_USER_BEHAVIORDS分区插入至 USER_BEHAVIORDS分区,如果同时勾选使用日志服务,则与上一步数据合并。

  • 如果客户提供UPLOAD_REC_ITEM_INFO 则把UPLOAD_REC_ITEM_INFO 的最新分区插入 REC_ITEM_INFODS分区,否则把 ITEM_META的 item_id,item_info,category,plates 字段插入 REC_ITEM_INFODS分区,意味着ITEM全集都为推荐候选集。

step3 格式检查

  • USER_META 检查ID是否重复,数据是否为空,tags字段是否符合规范。
  • ITEM_META 检查ID是否重复,数据是否为空,properties字段是否符合规范。
  • USER_BEHAVIOR 检查数据是否为空。
  • REC_ITEM_INFO 检查数据是否为空。