离线批量预测

更新时间: 2023-01-13 16:31:20

对实时性要求不高的业务场景,通常会使用模型对数据集进行周期性的批量离线预测。在Designer中提供了支持离线预测的完整功能。

在开发环境进行批量预测

Designer中提供了多种预测组件,分别对应不同的算法和场景,在画布中可直接使用。

  • 对于在左侧组件树中成对出现的训练和预测组件,训练完成后直接使用对应的预测组件进行数据的批量预测。image

  • 对于没有独立预测组件的算法,训练完后可以使用通用的预测组件进行数据的批量预测。image

    重要

    通用的预测组件可接收的模型格式是OfflineModel,而不是PMML。

  • 在已有模型的情况下,也可以使用组件导入模型和预测数据,并在组件下游连接预测组件进行预测和部署。

离线预测工作流部署周期性调度

离线预测工作流测试通过后,您可以将预测工作流提交到DataWorks进行周期性调度,详情请参见使用DataWorks离线调度Designer工作流

对于工作空间是DataWorks标准模式的用户来说,开发环境和生产环境的MaxCompute数据是相互隔离的。因此在将预测工作流配置周期性调度任务前,还需要将离线训练得到的模型同步至生产环境。有以下两种实现方式。

  • 使用复制MaxCompute离线模型组件和读MaxCompute离线模型组件

    使用复制MaxCompute离线模型组件将训练得到的OfflineModel格式模型直接复制到生产环境,然后在周期性运行的预测工作流中,使用读MaxCompute离线模型组件来读取生产环境的模型。

    这个复制操作因为要写生产环境的MaxCompute存储,因此需要是工作空间管理员或生产账号才可执行,详情请参见权限说明

  • 【建议】使用通用模型导出组件和导入MaxCompute离线模型组件

    使用通用模型导出组件将训练得到的OfflineModel格式模型导出至OSS中,然后在周期性运行的预测工作流中,在实际执行时使用导入MaxCompute离线模型组件从OSS中导入所需模型。

阿里云首页 机器学习平台 PAI 相关技术圈