本文档为您介绍在数据精炼场景中进行特征加工的方法,包括特征加工任务创建、设备数据选择、特征表字段配置、关联映射配置以及数据过滤规则配置。

前提条件

完成数据模型的创建

操作步骤

  1. 进入场景配置页面,单击右上角的特征加工
  2. 特征加工页面,单击右上角的新建
  3. 新建特征加工对话框中,输入特征加工的名称,并选择特征加工的类型离线特征加工),单击新建
    新建离线特征加工任务
    参数 说明
    名称 特征加工任务的名称。
    类型 支持离线特征加工在线特征加工
    生效日期 选择后,特征加工任务仅在生效日期内执行。
    周期 特征加工任务每隔多久执行一次。
    依赖上一周期 勾选后,会在上个周期的基础上继续执行。去勾选,对原始数据进行特征加工。
    注意 离线特征加工对目标表的要求是必须是ds分区表,分区字段必须包含dssystem_code字段,且ds必须在system_code之前。实时特征加工的目标表不需要添加ds分区字段。
    新建成功后,系统显示特征新建成功,且该特征自动显示在特征加工列表中。
  4. 配置特征加工。
    1. 在特征加工列表中,单击需要配置的特征加工右侧操作栏下的配置,进入特征加工配置页面。
    2. 选择设备数据,单击下一步
      选择设备数据
    3. 选择特征表字段,单击下一步
      选择特征表字段
    4. 配置关联映射。
      1. 选择目标集
        选择目标集
        注意 目标集可以为线下的表/topic(不是通过数据建模物理化生成的表/topic),如果线下的表/topic不符合数据建模中对字段和分区要求时,特征加工会失败。建议通过数据建模创建目标表。
      2. 选择直接映射,并选择映射的测点编码
        选择测点编码
      3. 选择衍生规则,单击右侧的配置。在配置表达式对话框中,填写相关信息,单击保存
        选择衍生规则
        参数 说明
        表达式命名 表达式的名称,可自定义。建议您按照命名规范进行命名,方便后续管理。
        使用字段 选择目标集中的一个或多个字段。
        语法 衍生规则的语法,支持+,-,sin(),cos(),^等算数表达式。
        语法校验 单击后,可对输入的语法进行校验。校验成功后,系统会提示语法交验成功
        配置成功后,衍生规则显示为已配置
        已配置的衍生规则
    5. 配置开窗设置,完成后单击下一步
      1. 单击目标集右侧的开窗设置
        开窗设置
      2. 开窗设置对话框中,选择是否开窗为是(默认为),选择聚合函数平均值开窗类型滑动窗口滑窗步长60秒开窗步长10秒
        开窗设置对话框
      3. 单击保存
        保存成功后,开窗设置显示为开启
        开启开窗设置
    6. 进行数据过滤规则配置(可不配置),单击提交
      配置数据过滤规则
      提交成功后,系统提示数据保存成功,并自动返回特征加工页面。
  5. 单击特征工程右侧操作栏下的启动,启动该特征工程。
    启动成功后,特征工程的状态显示为运行中。特征加工上线后,特征加工任务会在后台运行,可在DataWorks平台或DataHub平台查验数据。
    特征工程启动成功状态