全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
流计算

创建数据总线源表

更新时间:2017-12-20 18:30:13

什么是数据总线(DATAHUB)

DataHub作为一个流式数据总线,为阿里云数加平台提供了大数据的入口服务。结合阿里云众多云产品,可以构建一站式的数据处理平台。流计算通常使用DataHub作为流式数据存储头和输出目的端。同时,上游众多流式数据,包括DTS、IOT等均选择DataHub作为大数据平台的数据入口。DataHub本身是流数据存储,流计算只能将其作为流式数据输入。示例如下:

  1. create table datahub_stream(
  2. name varchar,
  3. age BIGINT,
  4. birthday BIGINT
  5. ) with (
  6. type='datahub',
  7. endPoint='http://dXXXXXXXX.com',
  8. project='blink_datahub_test',
  9. topic='test_topic_1',
  10. accessId='0i70XXXXXXXXs',
  11. accessKey='yF60EwXXXXXXXXXnvQPJ2zhCfHU',
  12. startTime='2017-07-21 00:00:00'
  13. );

WITH参数

目前只支持tuple模式的topic

参数 注释说明 备注
endPoint 消费端点信息 DATAHUB的Endpoint地址
accessId 读取的accessId
accessKey 读取的密钥
project 读取的项目
topic project下的具体的topic
startTime 启动位点的时间 格式为”yyyy-MM-dd hh:mm:ss”
maxRetryTimes 读取最大尝试次数 可选,默认为20
retryIntervalMs 重试间隔 可选,默认为1000
batchReadSize 单次读取条数 可选,默认为10
lengthCheck 单行字段条数检查策略 可选,默认为SKIP,其它可选值为EXCEPTION,PAD,“SKIP” 字段数目不符合时跳过 ,“EXCEPTION”:字段数目不符合时抛出异常,“PAD”:按顺序填充,不存在的置为null
columnErrorDebug 是否打开调试开关,如果打开,会把解析异常的log打印出来 可选,默认为false
本文导读目录