本文将以一个简单的案例,为您介绍如何使用Stream Studio进行实时计算(原流计算)任务的开发和管理,完成一个实时计算任务的新建、开发、发布、启动、停止和下线等所有操作。

前提条件

在您开始快速入门前,请首先绑定实时计算项目,并至少开通DataWorks标准版。

背景信息

  • 数据源:1个DataHub表(Topic),包括m_name,id,m_type,tag4个字段。
    数据源
    说明 您需要首先创建好Datahub topic,创建方法请参见Datahub Web控制台介绍
  • 数据处理:针对tag字段进行分割,分割符为;,分割后成为colormodeweight3个字段。
  • 数据结果输出:最后选择id,m_type,weight写入至日志服务(SLS)表中。
    说明 您需要首先创建好日志服务项目与Logstore,创建方法请参见操作Logstore

操作步骤

  1. 新建业务流程。

    新建业务流程
  2. 新建实时计算任务。
    进入Stream Studio后,在数据开发中,单击新建按钮,选择任务 > 流计算
    流计算开发
    输入节点名称,选择目标文件夹
    新建节点
    单击提交,即可看到组件的界面。
    组件
    资源引用中勾选PUBLIC_COMMON
    PUBLIC_COMMON
    如果不勾选,后续使用固定列切分组件时会收到如下提示:
    提示

    您也可以在出现上述提示后再勾选PUBLIC_COMMON

  3. 编辑实时计算任务。
    1. 组件页面新增数据源。
      拖拽DataHub节点到面板。
      编辑实时计算
      双击DataHub组件节点,填写参数。
      填写参数
      配置 说明
      Endpoint
      • 共享集群选择:经典网络ECS , http://dh-cn-shanghai.aliyun-inc.com
      • 独享集群选择:VPC ECS,http://dh-cn-shanghai-int-vpc.aliyuncs.com
      读取的accessID 填写您Datahub账号的AccessID。
      读取的秘钥 填写您Datahub账号的AccessKey。
      project 填写相应的项目名称。
      topic 填写相应的topic名称。
      添加输出列:选择定义列 > 自定义,单击添加
      添加
      输入名称和类型(VARCHAR),单击确认
      确认
    2. 数据处理。
      首先进行字段分割。拖拽一个固定列切分组件到面板中。
      固定列切分
      DataHub组件连线到固定列切分组件。
      固定列切分组件
      双击固定列切分组件,打开属性面板,选择要分割的字段为tag
      tag
      分隔符修改为;。单击自定义,定义输出列。
      修改分隔符
      输入分割后字段的位置和名称,单击确认
      确认
      选择要输出的字段:拖拽出Select组件。
      SELECT
      连接固定列切分组件与Select组件。双击Select节点,在面板中单击已选择0字段
      已选择0字段
      在弹出的选择字段对话框中,勾选id,m_type,weight这三个字段,单击确认
      勾选
    3. 数据结果输出。
      本例中,将上面处理后的数据结果输出到SLS中。在组件面板中,拖出SLS组件。
      SLS组件
      连接Select组件和SLS组件。
      连接组件
      单击SLS组件,填写组件参数。
      填写参数
      配置 说明
      endPoint地址 https://streamstudio-shanghai-test.cn-shanghai.log.aliyuncs.com
      读取的accessId 填写SLS账号的AccessID,在本文中使用的是同一个AccessID。
      读取的秘钥 填写SLS账号的AccessKey,在本文中使用的是同一个AccessKey。
      project 填写相应的项目名称。
      logStore 填写相应的logStore名称。
      选择输出字段,单击已选择0字段,直接全选即可。
      全选
      单击OK后,此时您应该可以看到所有节点显示正确。
      OK
    4. 切换DAG模式与SQL模式。

      Stream Studio支持DAG模式编辑和SQL模式编辑流任务,两种模式对等,且支持互相转换。

      单击切换为SQL模式,即可以将DAG节点转换为对应的SQL。
      切换为SQL模式
      SQL视图如下所示,单击切换为DAG模式即可再次切换回DAG模式。
      切换为DAG模式
    5. 设置执行计划。
      单击执行计划,生成执行计划。单击使用修改后的执行计划
      使用修改后的执行计划
  4. 发布实时计算任务。
    编辑好流任务之后即可进行任务发布。单击保存,然后单击发布(发布时会检查是否保存,如果没有保存也会提示保存)。
    保存
    发布注释为非必选项,单击确定发布。
    发布
    发布完毕后,可以去运维页面中查看任务状态和进行任务管理。
    运维页面
  5. 运维实时计算任务。
    单击进入运维页面。
    运维页面
    1. 启动任务。
      在任务列表中找到我们新建实时计算任务,单击启动,即可启动任务。
      启动
      根据自己的实际业务需要,设置启动时间。
      启动时间
      任务启动后,单击任务名称即可看到详细启动状态。
      查看状态
      正常启动完毕即显示运行
      运行
    2. 停止和下线任务。
      单击停止即可停止任务。
      停止

      任务停止后,单击下线即可完成任务下线。

执行结果

至此便完成一个实时计算任务的新建、开发、发布、启动、停止和下线等所有操作。