制定统一的字段标准,便于用户管控治理后数据的一致性和数据质量。本章节为您介绍如何通过设计数据字典、质量校验函数和数据元制定统一的字段标准。

前提条件

您已新建云计算资源,详细操作请参见新建MaxCompute云计算资源

新建数据字典并物理化

创建并维护逻辑表中使用的数据字典,方便用户在定义数据元或维度属性时进行数据字典引用。

  1. 登录数据资源平台控制台
  2. 在页面右上角单击导航图标图标,选择研发工作台,进入研发工作台页面。
  3. 在主菜单中选择资产加工,在左侧导航栏单击数据标准 > 字段标准设计,将鼠标悬浮在数据字典管理,单击图标001图标。
  4. 新建数据字典。
    1. 数据字典管理页面,单击右上角新建数据字典
    2. 在页面右侧基础信息面板,根据提示输入编码、参考数据集名称等基础信息,操作完成后单击下一步
    3. 单击新增数据字典,并输入值编码、值名称。单击新增数据字典可添加多个数据字典值。
      新建数据字典配置如下:
      编码 参考数据集名称 值编码 值名称
      XZ_CODE_0001 婚姻状况 00 已婚
      01 未婚
      XZ_CODE_0002 教育水平 00 研究生
      01 本科
      02 高中
      03 职业高中
      04 职业学院
      XZ_CODE_0003 职业 00 保险
      01 教师
      02 外企白领
      03 自由职业
      04 IT工程师
    4. 配置完成后,单击确定
    5. 参考上述描述新建更多数据字典。
  5. 数据字典管理列表查看新建的数据字典。数据字典
  6. 物理化数据字典。
    1. 数据字典管理页面,勾选新建的数据字典,单击物理化物理化数据字典
    2. 弹出物理化数据字典预览页面,核对信息无误后,单击下一步
    3. 进入配置页面,选择云计算资源类型和对应的数据源,单击下一步
      云计算信息配置如下:
      云计算资源类型 数据源
      MaxCompute odps_pro
    4. 进入执行页面,单击开始执行
    5. 等待数据字典物理化成功,单击确定
  7. 在左侧导航栏,单击数据探查 > 物理表探查,查看物理表数据。
    1. 在物理表探查展开区域,单击odps_pro云计算资源。
    2. 在关键字查询框,输入数据字典的物理化名称,选中数据字典物理化名称,查看物理表数据详情。下面以编号“XZ_CODE_0001”的数据字典为例说明。
      探查字典信息如下:
      探查项 数据字典的物理化名称
      XZ_CODE_0001 dim_xz_code_0001
      物理表数据

新建质量校验函数并物理化

创建质量校验函数,方便用户在定义数据元或维度属性时进行质量规则引用,以支持后续对字段的质量规则的快速配置和校验。

  1. 登录数据资源平台控制台
  2. 在页面左上角单击导航图标 图标,选择研发工作台,进入研发工作台页面。
  3. 在主菜单中选择资产加工,在左侧导航栏单击数据标准 > 字段标准设计,将鼠标悬浮在质量校验函数,单击图标001图标。
  4. 质量校验函数页面,单击新建函数
  5. 弹出新建函数,在资源处单击添加资源,弹出新增资源页面,输入资源的各项信息,单击确定
    新建资源配置:
    资源名称 资源Code 资源类型 资源文件
    手机号码校验 sjhmjy MaxCompute Jar包:源代码请查看质量校验函数jar包源代码
    新建资源
  6. 新建函数页面根据提示输入函数名、Code、类名等信息,选择新建的资源,单击确定新建函数
    新建函数配置:
    函数名 函数Code 类名
    手机号码校验 sjhmjy com.aliyun.odps.udf.examples.PhoneNumberChecker
  7. 质量校验函数列表查看新建的函数。
  8. 物理化函数:选择函数类型为MaxCompute,勾选新建的函数,单击物理化
    1. 弹出物理化预览页面,单击下一步
    2. 进入配置页面,单击数据源选择下拉框,选择目标数据源,单击下一步
    3. 进入执行页面,单击开始执行
    4. 等待函数物理化成功,单击确定

新建数据元并引用数据字典和质量校验函数

通过配置数据元的类型、长度、质量校验函数和引用数据字典,为模型标准化设计及数据治理过程中的质量监控提供规则依据。

  1. 登录数据资源平台控制台
  2. 在页面左上角单击导航图标 图标,选择研发工作台,进入研发工作台页面。
  3. 在主菜单中选择资产加工,在左侧导航栏单击数据标准 > 字段标准设计,将鼠标悬浮在数据元管理,单击图标001图标。
  4. 数据元管理页面,单击新建数据元
  5. 弹出新建-数据元页面,按提示输入数据元名称、所属类目、标识编码、数据元别名、数据元类型、长度、业务规则等信息。单击确定
    新建的数据元配置如下:
    数据元名称 code 类型 长度 引用数据字典 质量校验函数
    婚姻状况 hyzk 字符类 2 婚姻状况 /
    手机号码 yddh1 字符类 16 / 手机号码校验
    教育水平 jysp 字符类 2 教育水平 /
    职业 career 字符类 2 职业 /
  6. 数据元管理页面查看新建的数据元。