本文档为您介绍在数据精炼场景中进行数据建模的方法,包括模型的创建、DDL设置以及模型物理化。

前提条件

操作步骤

  1. 数据精炼场景页面,单击已创建场景模块下方的场景配置
    场景配置入口
    注意 如果出现登录页,请单击RAM登录。如果依然无法进入,请检查该页面是否被浏览器拦截。
  2. 在场景配置的数据建模页面,单击右上角的新建数据模型,选择新建数据模型的方式,并按照以下说明新建一个模型。
    新建数据模型
    支持手动创建通过DDL创建
    • 手动创建。
      1. 选择手动创建。在新建-数据模型对话框中输入模型名称(tdm_factory_cyft_dj_qb_test_0614)。
        注意 必须使用tdm_开头的模型名称。
      2. 字段信息面板中,单击+新增数据字段,分别添加time(必须)以及打宽的目标表的字段。
      3. 单击+新增分区字段,分别添加dssystem_code字段,且ds必须在system_code之前。
        新增数据和分区字段
      4. 单击关联信息,选择所属应用为当前数据精炼场景的code。
        选择关联信息所属应用
      5. 单击确定,完成创建。
    • 通过DDL创建。
      选择通过DDL创建。在通过DDL新建对话框中选择数据源类型(仅支持MaxCompute),并输入DDL语句,单击确定
      通过DDL创建
      注意 DDL语句需要满足:表名以tdm_开头,包含time字段,包含dssystem_code分区字段,且dssystem_code之前。
      上图中的部分DDL示例语句如下。
      create
      table if not exists `tdm_factory_cyft_dj_qb_test_0614` ( 
      
      `time`
      string comment '',
      
      `hf_phs_phs_air_fl`
      string comment '预热段空气流量',
      
      `hf_phs_phs_cgs_fl`
      string comment '预热段煤气流量',
      )
      
       comment '预发验证测试715热轧加热炉614-勿删' 
      
       partitioned by ( 
      
      `ds`string,
      
      `system_code`string
      
      );

    数据模型创建成功后,您可以在数据模型列表中进行查看。

  3. 设置DDL。
    1. 单击您上一步中创建的模型右侧操作栏下的DDL设置
    2. DDL设置页面,选择需要生成DDL的目录(DataHub Service),输入shard数量生命周期,单击生成DDL
      DDL设置页面
      注意 shard数量设置在10个以内,生命周期建议设置为3天。
    3. 单击确定
      设置成功后,系统会提示设置成功
  4. 将数据模型物理化。
    1. 勾选上一步中生成了DDL的数据模型,单击页面下方的批量操作 > 物理化
      物理化
    2. 选择云计算资源对话框中,选择云计算资源类型数据源,单击下一步
      选择云计算资源对话框
      注意
      • 离线特征加工需要使用MaxCompute类型的云计算资源,实时特征加工需要使用DataHub类型的云计算资源。
      • 由于该页面还暂时无法读取默认云资源设置,因此您需要手动选择默认的云计算资源。
    3. 预览DDL语句页面,查看生成的DDL语句,并单击页面右下方的开始执行
      预览DDL语句
      注意 物理化过程需要1~3分钟,在此期间请不要关闭窗口。
    4. 查看执行结果,单击确定
      物理化完成后,系统会显示执行结果。如果执行结果运行成功,表示您已经完成数据模型的物理化。单击确定即可继续执行下一步操作。
      执行结果