全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
流计算

系统参数

更新时间:2017-06-07 13:26:11

参数说明


资源相关

  • stream.work.size

    指定一个作业worker数,worker资源(CU)数

    整型参数,可选,建议初始设为1

并发相关

  • stream.datasource.parallelism

    指定数据存储读取组件的并发数

    整型参数,可选,默认等于DataHub数据存储的shard数

  • stream.model.parallelism

    指定所有计算组件的并发数

    整型参数,可选,默认等于上游一层底层执行节点中,最大并发数。例如,上游有两个Component,一个并发为10,另外一个并发为5,那么当前节点如果不配置并发就默认为10.

  • stream.output.parallelism

    指定结果输出组件的并发数

    整型参数,可选,默认等于上游一层底层执行节点中,最大并发数。例如,上游有两个Component,一个并发为10,另外一个并发为5,那么当前节点如果不配置并发就默认为10.

  • ${MODEL}.parallelism

    指定某个Model的并发,这里的Model请参看系统物理执行图中的类似Model0,Model1的之类的名称。

    整形参数,可选

  • ${MODEL}.[mapper|reducer|merger].parallelism

    指定Model的指定阶段的并发,这里的Model请参看系统物理执行图中的类似Model0,Model1的之类的名称。

    整形参数,可选

吞吐相关

  • stream.batch.size

    用于指定流计算一个批次(batch)的数据集大小,流计算内部同样是微批方式处理,这里定义了一个批的数据大小。

    整型参数,可选, 不同流式存储配置不同的数值,越大吞吐越高,但是容易造成作业运行过程出现OOM。

    • DataHub,一个批次建议在128至1024之间,即一个批次处理128到1024条DataHub记录。

    • Loghub,一个批次建议在16到64之间,Loghub每次请求的数据一个大块数据(LogGroup),其中包括多条记录。这里是LogGroup的个数。

    • MQ,一个批次建议在128到1024之间。

  • galaxy.fetch.every.size

    用于指定流计算一次向源端请求多少个数据包,可以参考上面stream.batch.size的配置推荐。

超时相关

  • stream.message.timeout

    指定流计算处理一个批次数据的超时时间。

    整型参数,单位秒,可选,默认为180秒。

    如果一批数据的处理时间超过timeout即认为数据处理失败(即使最终处理成功了),会触发数据的重新计算。Timeout时间设置太小导致误判处理失败的概率增大,设置太大会导致发现系统故障进行failover的时间变长。

本文导读目录