本文档为您介绍工业预测引擎的使用场景、基本原理及配置方法。

工业预测引擎是AI创作间用于解决预测类任务的一种通用算法引擎,可帮助AI创作者基于工业场景的历史数据快速生成高精度、健壮的预测模型。该算法引擎可极大的降低机器学习算法的使用门槛,对于没有任何机器学习算法背景的工程师,也可以基于该引擎训练出高精度的预测模型,并用于生产实践。

引擎使用场景

引擎适用于典型的机器学习预测场景,比如指标软测量、良率预测、能耗预测、负荷预测等。

引擎工作基本原理

典型的机器学习预测任务包括训练和预测两个过程,训练过程基于离线数据建立预测模型,包括数据预处理、特征工程、模型选择和参数调优这几个子过程。预测过程将训练出来的预测模型发布成预测服务。

引擎配置说明

工业预测引擎算法包括训练过程和预测过程。

  • 训练过程
    训练过程配置分为变量配置和参数配置两部分。
    • 变量配置
      变量类型分为特征变量和目标变量,变量配置如下图所示。
      工业预测引擎变量配置图
      • 特征变量是指最终生成的预测模型的输入变量,通常是可观测的系统输入,或者可观测的系统状态等。
      • 目标变量是指最终生成的预测模型的输出变量,通常是系统的输出,如产品的质量指标,能耗等。
    • 参数配置
      参数配置说明如下表。
      任务类型 单选,选项有回归分类。回归:目标变量是连续的数值类型(numerical);分类:目标变量是离散型(categorical)。
      数据类型 单选,选项包括时序非时序。时序数据是指数据之间有时序关系,特征中必须包含时间的字段,选择时序之后,将会出现以下参数;反之则为非时序数据,选择非时序,不会出现以下参数。
      时间字段 时间类型的字段,如 2019-01-15 11:32:23,格式为 yyyy-mm-dd HH:MM:SS
      预测频率 时序数据期望多久预测一次数据。比如电量预测期望是连续预测未来24小时每小时的电量,则预测频率是:1小时。
      预测未来 时序数据期望预测未来多少次的数据。比如电量预测期望是连续预测未来24小时每小时的电量,则预测未来是:24次。
      平滑窗口 平滑时间窗口。平滑的目的是为了消除噪音,比如传感器的数据通常毛刺较多,平滑之后数据的波动将减小,预测的可靠性也可以增加。
      目标变量是否有周期性 对于周期变化的目标变量,提取周期性特征通常可以提升预测精度,因此您需要配置目标变量的周期。例如电力负荷场景,要预测每小时的电力负荷,因为每天的电力负荷趋势比较相似,因此目标变量的周期是:24小时。
      目标与特征是否有时延 比如预测聚酯过程中,需要预测第一酯化的酸值,其中用到进料流量这个特征,进料流量将会影响5-6小时之后的酸值,那么此时需要选择,且设置特征为进料流量,时延为5~6小时。
      是否支持特征的外推数据 预测过程中,某些特征变量超出训练过程的特征的范围。比如在训练数据中,特征A的范围是[0,1],启用此选项后,模型可以支持预测过程中特征A为1.5。但是建议这个选项谨慎使用,可能会降低模型精度。
    • 输出说明
      训练过程的输出是最终的预测模型和该模型的评价。模型的评价如下图所示。
      输出说明
  • 预测过程
    • 变量配置

      预测过程的特征变量配置和训练过程的特征变量保持一致,且不需要配置目标变量。

    • 参数配置

      选择模型:需要选择已经训练成功的模型。

    • 输出说明
      预测过程的输出是一个json字符串。
      {
      "prediction": 3.4
      }                                  

引擎使用注意的问题

  • 训练过程的数据不能太少,否则可能导致训练失败或者结果不够准确,建议数据量在100条以上。
  • 在训练过程运行前,需要在AI创作间的知识图谱页面设置每个变量的数据类型,否则将默认使用MaxCompute上的保存的数据类型。
  • 在进行算法配置前,首先需要在算法配置页面左上角选择算法版本号,版本号确定后,再进行配置。